Yapay zekada gerçek yanıt sorunu: Asıl problem arama katmanı

Yapay zeka, ne bildiğini değil, neye dayanarak konuştuğunu yine tanımlayan bir yaklaşım gerektirir.
Büyük lisan modelleri sadece eğitim dataları kadar konuşabilir; eğitim sonrası değişen bilgiler, kuruma
özgü dokümanlar yahut şimdiki regülasyonlar devreye girdiğinde model ya yanlış bilgi üretir ya da belirsizleşir. Retrieval-Augmented Generation (RAG), bu kısıtı aşmak için karşılık üretmeden evvel dış bir
bilgi kaynağından ilgili içerikleri bulup getirerek üretimi delile dayalı hâle yaklaştırır.
Haberi okuduğunuz için teşekkürler, bizi takip etmeyi unutmayın!
Akademik alanda RAG; halüsinasyon azaltma, kaynak gösterilebilir cevap üretimi ve bilgiye dayalı doğal
dil üretimi başlıklarında değerli bir köprü kurar. Sanayide kıymet daha somuttur: müşteri destek
botlarının eser dokümantasyonuna dayanması, hukuk ve ahenk gruplarının yeni düzenlemelerle
çalışması, satış gruplarının hakikat fiyat ve özellik bilgisiyle konuşması ya da iç kontrolde politikaların
hızlıca bulunup özetlenmesi bunların sırf birkaçıdır. Üstelik modeli tekrar eğitmeden bilgi
güncellenebilir; bu da hem maliyet hem de operasyonel yükü önemli ölçüde azaltır.
Ancak RAG projelerinin muvaffakiyetini birçok vakit belirleyen soru şudur: “Hangi modeli seçtik?” değil, “Arama katmanını ölçebiliyor muyuz?” Bu yazı, bu soruya operasyonel bir cevap vermek için tasarlanmış bir kıymetlendirme çerçevesi önerir.
RAG Mimarisi: Neden İki Katman Farklı Ele Alınmalı?
RAG’i iki başka katman olarak modellemek, hem ölçüm hem de kusur ayıklama süreçlerinde kritik bir avantaj sağlar. Birinci katman olan retrieval; sorguyu bir arama sorununa dönüştürür, doküman havuzu, vektör data tabanı, wiki sayfaları, dayanak kayıtları yahut mevzuat metinleri içinde en alakalı modülleri (chunk) seçer. Bu adım büsbütün mühendislik problemidir ve model davranışından bağımsız biçimde ölçülebilir. İkinci katman olan generation ise büyük lisan modelinin bu kesimleri bağlam olarak kullanarak karşılık ürettiği kısımdır.
İki katmanın birbirinden bağımsız değerlendirilebilmesi, yanılgı kaynağının gerçek tanımlanması açısından vazgeçilmezdir. “Yanıt yanlış” müşahedesi tek başına bir aksiyon planı doğurmaz. Lakin “Retrieval Recall@5 = 0.62” müşahedesi direkt müdahale noktasını gösterir. Birçok takım her şeyi modele yükler; meğer bazen tahlil daha yeterli parçalama, daha pak erişim yetkileri, daha yanlışsız indeksleme ya da çelişki yakalayan kolay bir doğrulama adımındadır.
Gerçek Dünyadan: Bir Regülasyon Ahenk Sistemi
Aşağıdaki tecrübe, ferdî olarak dahil olduğum bir RAG geliştirme sürecinden anonim biçimde aktarılmıştır.
Çok sayıda ülkede faaliyet gösteren bir finansal hizmetler ortamında, hukuk ve ahenk grupları için dahili bir RAG sistemi kuruluyordu. Kaynak külliyatı; farklı lisanlarda yazılmış dört bini aşkın düzenleyici doküman, sirküler ve içtihat metninden oluşuyordu. Birinci prototip yüksek kaliteli bir lisan modeli kullanmasına karşın, uzman kullanıcılar cevapların kıymetli bir kısmını güvenilmez buluyordu. Sorun başlangıçta modele yüklendi ve model değiştirildi. Fark ihmal seviyesindeydi.
Sistematik ölçüm uygulandığında tablo net biçimde ortaya çıktı. Retrieval Recall@5 pahası 0.58’di; yani yanlışsız düzenleyici metnin sırf yüzde elli sekizi birinci beş sonuç içinde yer alıyordu. Chunk boyutu bin yirmi dört token olarak ayarlanmıştı ve birden fazla unsur içeren uzun pasajlar tek bir modüle sıkıştırıldığından semantik özgüllük kaybolmuştu. Staleness Age ise yüz yirmi yedi gündü: index güncelleme pipeline’ı kesintiye uğramış, sistemin cevap verdiği birtakım mevzuat metinleri bu ortada revize edilmişti.
Modeli değiştirmek gerekmedi. Üç müdahale kafiydi: chunk boyutu iki yüz elli altı token’a düşürüldü ve sliding window örtüşme eklendi; tarih filtresi retrieval katmanına eklenerek sadece son altmış gün içinde indekslenmiş dokümanlar önceliklendi; kaynak hash izleme ile delta-index pipeline’ı otomatikleştirildi. Sekiz hafta içinde Recall@5 bedeli 0.87’ye yükseldi. Uzman kullanıcı inanç skoru 2.9’dan 4.3’e çıktı, hukuk grubunun ortalama araştırma müddeti yüzde otuz dört azaldı. Bu iyileştirmelerin hiçbirinde model katmanına dokunulmadı.
Temel çıkarım: RAG başarısızlıklarının büyük çoğunluğu retrieval katmanındadır ve ölçülmeden çözülemez.
RAG Kıymetlendirme Çerçevesi (REF)
Mevcut literatür retrieval ve generation metriklerini çoğunlukla farklı başka ele almaktadır. Fakat pratikte bu metriklerin birlikte yorumlanması, operasyonel kararlar için bir teşhis akışı oluşturulması ve sistemin ömür döngüsü boyunca izlenmesi gerekmektedir. RAG Kıymetlendirme Çerçevesi (REF), bu üç ekseni bütünleştiren sistematik bir kıymetlendirme çerçevesidir.
Metrikler ve Operasyonel Tanımları
REF dokuz boyutu kapsar ve her birini “nasıl ölçülür”, “kabul eşiği” ve “düşük skorun anlamı” eksenlerinde tanımlar. Retrieval kalitesi için Recall@K ve MRR (Mean Reciprocal Rank); karşılık kalitesi için Groundedness, Kaynak Kapsamı ve Çelişki Skoru; sistem sıhhati için p95 gecikme ve istek başı maliyet; yenilik için Staleness Age; itimat için ise haftalık insan örnekleme skoru izlenir. Groundedness ve Çelişki Skoru hesaplamasında NLI (Natural Language Inference) modeli —örneğin cross-encoder/nli-deberta-v3-base— kullanılabilir; her iki ölçüm de birebir model üzerinden yapılabildiğinden altyapı maliyeti düşüktür.


* Staleness Age eşiği bölüme nazaran değişir. Hukuk ve finans üzere süratli değişen düzenleyici ortamlarda otuz gün, daha durağan kaynaklarda doksan güne kadar çıkabilir.
Altın Kıymetlendirme Seti
REF’in işletilebilmesi için üretime geçmeden evvel bir altın kıymetlendirme seti oluşturulmalıdır. Bu set; gerçek kullanıcı sorgularından örneklenmiş ya da bahis uzmanlarınca hazırlanmış yüz ile üç yüz ortasında soru-cevap çiftini kapsamalı ve her soru için ground truth chunk referanslarını içermelidir. Settin temsil edici olması için sadece kolay sorular değil, kenar durumlar, çelişkili dokümanlar ve yeniliğini yitirmiş bilgilere atıfta bulunan sorgular da dahil edilmelidir. Kaynak külliyatı her güncellendiğinde set sistematik biçimde revize edilmeli; aksi hâlde metrikler vakitle anlamlılığını yitirir.
Tanı Akışı
REF’in pratikteki gücü, salt ölçümden değil metriklerin birlikte yorumlanmasından gelir. Recall@5 düşükken Groundedness’ı optimize etmek anlamsızdır; kusur retrieval katmanındadır ve orası düzeltilmeden generation katmanına yapılacak her müdahale süreksiz bir tahlil olmaktan öteye geçemez. Aşağıdaki tablo, sık karşılaşılan sinyal kombinasyonlarını kök neden ve müdahale noktasıyla eşleştirir:


Sürekli İzleme Döngüsü
REF sırf üretime almadan evvel değil, üretim boyunca da işletilmelidir. Anlık metrikler olarak p95 gecikme ve istek başı maliyet her üretim isteğinde loglanır. Her index güncellemesinde altın set üzerinden Recall@K ve Groundedness otomatik çalıştırılır. Haftalık uzman örneklemesiyle elli cevap kıymetlendirilir ve insan skoru trendlere kaydedilir. Aylık staleness kontrolünde tüm chunk’ların güncelleme tarihleri raporlanır; eşiği aşan kaynaklar re-index kuyruğuna alınır. Bu döngü, RAG sistemini “bir sefer kur ve unut” yaklaşımından çıkararak yaşayan ve ölçülen bir sistem hâline getirir.
Gözden Kaçan Boyut: Data Yönetişimi
Teknik metrikler ne kadar olgunlaşırsa olsun, data yönetişimi meseleleri RAG’i süratli bir yanlış üretim sınırına dönüştürebilir. Retrieval sistemi, kullanıcının erişim yetkisi olmadığı dokümanları getirmemelidir; chunk seviyesinde erişim kontrolü kurumsal sistemlerde zorunluluktur. Arşivlenen yahut geçerliliğini yitiren dokümanlar index’ten temizlenmeli; aksi hâlde “silinen” siyasetler cevaplara yansımaya devam eder.
Hangi chunk’ların hangi karşılığa katkıda bulunduğu loglanmalıdır; bu hem ahenk kontrolleri hem de sistem itimadı açısından kritik bir gerekliliktir. Vektörleştirilmiş embedding’lerin de geri-dönüşüm akınlarına karşı savunmasız olabileceği unutulmamalıdır. Hassas data içeren dokümanlar için ek şifreleme katmanı değerlendirilmelidir. Data saklılığı, loglama ve kaynak hayat döngüsü yönetilmedikçe REF metrikleri yeşil görünse bile sistem güvenilirliği bir yanılsama olmaktan öteye geçemez.
Ajanlaşan RAG: Bir Sonraki Eşik
Mevcut RAG implementasyonlarının büyük çoğunluğu reaktif bir döngüde çalışır: sorgu gelir, chunk seçilir, karşılık üretilir. Lakin bu mimari, bilinmeyen ya da çok adımlı sorguların önünde yapısal bir tavan oluşturur. Bir sonraki jenerasyon sistemlerde model sadece metin getirmekle kalmayacak; sorguyu güzelleştirecek, farklı kaynakları karşılaştıracak, çelişkileri işaretleyecek ve gerektiğinde “Bu soruya emniyetli bir cevap üretemiyorum” diyerek insan onayı isteyecek.
Self-RAG gibisi döngülerde üretilen karşılık birebir retrieval pipeline’ına geri beslenerek tutarlılık doğrulanabilir. Çok kaynaklı karşılaştırma ile farklı tarih yahut yetki alanından gelen chunk’lar ortasındaki çelişkiler otomatik işaretlenebilir. Bu özelliklerin REF metrikleriyle uyumlu biçimde tasarlanması, ajanlaşan RAG sistemlerini hem daha yetenekli hem de denetlenebilir kılar. Belirsizlik sinyali özelliği ise REF’teki Groundedness ve Çelişki Skoru eşiklerine bağlanarak direkt operasyonel hale getirilebilir: eşik altında kalan her cevap otomatik olarak insan onayı kuyruğuna alınabilir.
Sonuç
RAG, üretken yapay zekâyı gösterişli bir konuşmacıdan kurumsal hafızayla çalışan emniyetli bir asistana taşıyan en güçlü köprülerden biridir. Fakat bu geçişin gerçekleşebilmesi için RAG’in bir prompt yazma sorunu üzere değil, ölçülebilir bir geri çağırma ve doğrulama sorunu olarak ele alınması kaidedir. RAG Kıymetlendirme Çerçevesi (REF), bu gereksinime sistematik bir karşılık sunmaktadır. Retrieval Recall, Groundedness, Kaynak Kapsamı, Çelişki Tespiti, gecikme, maliyet ve staleness üzere metriklerin bütünleşik yorumu, takımların yanılgı kaynağını yanlışsız tanımlamasını ve müdahale noktasını isabetli seçmesini sağlar. Regülasyon ahenk olayında görüldüğü üzere, gerçek ölçüm olmadan model değişikliği boşuna yapılan bir operasyondan ibarettir; yanlışsız ölçümle ise model katmanına hiç dokunmadan sistemin güvenilirliği esaslı biçimde artırılabilir. En güçlü RAG sistemi en büyük modeli kullanan değil, retrieval katmanını en yeterli ölçen ve buna nazaran iteratif biçimde güzelleştiren sistemdir.
Hakan Baysal
Tek tıkla reaksiyon bırakabilirsin.




Yorumlar
0 yorum