Google, yapay zeka alanında çok modlu veri işleme yeteneklerini genişleten yeni modeli Gemini Embedding 2’yi duyurdu. Şirketin ilk yerel çok modlu embedding modeli olarak tanımlanan bu teknoloji metin, görsel, video, ses ve PDF belgelerini tek bir ortak vektör uzayında temsil edebiliyor. Böylece farklı veri türleri doğrudan karşılaştırılabilir hale geliyor ve karmaşık yapay zeka iş akışlarının önemli ölçüde sadeleşmesi hedefleniyor. Nedir bu “embedding”?
Yapay zeka özelinde “embedding” kavramının Türkçe bir karşılığı yok. Ancak “anlamsal vektör temsili” desek ifadeyi karşılamış oluruz. Yine de haber içinde literatürdeki orijinal kavramı kullanacağız. Peki embedding modelleri aslında ne yapıyor?
Yapay zeka tartışmalarında sıkça geçen embedding kavramı, verilerin anlamını matematiksel olarak temsil eden sayısal vektörlere dönüştürülmesi anlamına geliyor. Basit bir benzetmeyle embedding modeli, bilgiyi anlamına göre düzenleyen dev bir kütüphane sistemi gibi çalışıyor.
Klasik kütüphanelerde kitaplar yazarına veya türüne göre sınıflandırılır. Embedding uzayında ise içerikler anlam benzerliğine göre konumlandırılır. Örneğin Steve Jobs hakkında bir biyografi kitabı, Macintosh hakkında teknik bir kılavuzla aynı “anlam kümesi” içinde yer alabilir. Bu sistemde bir metin, fotoğraf veya podcast kesiti yüksek boyutlu bir harita üzerinde sayısal koordinatlara dönüştürülür. Eğer iki içerik anlam bakımından birbirine yakınsa, bu koordinatlar da vektör uzayında birbirine yakın olur.
Bugün embedding modelleri pek çok dijital hizmetin arkasındaki görünmez altyapıyı oluşturuyor. Arama motorları, kullanıcının yazdığı kelimeler yerine niyetini anlayarak sonuç üretirken bu teknolojiden yararlanıyor. Öneri sistemleri ise kullanıcıların izlediği veya dinlediği içeriklere benzer olanları bu vektör yakınlığına göre belirliyor.
Çok modlu yapıya geçiş
Öte yandan günümüzde bu modellerin birçoğu halen “metin odaklı” bir yaklaşıma sahip. Google’ın Temmuz 2025’te tanıttığı gemini-embedding-001 modeli yalnızca metin verilerini işleyebiliyordu. Yeni duyurulan Gemini Embedding 2 ise aynı mimariyi temel almasına rağmen kapsamını ciddi ölçüde genişletiyor.
Yeni model yalnızca metinle sınırlı kalmıyor, bunun yanında; görselleri, videoları, ses kayıtlarını ve PDF belgelerini de metinle aynı semantik vektör uzayına dönüştürebiliyor. Bu yaklaşım, farklı veri türlerinin anlam temelli olarak doğrudan karşılaştırılmasına olanak tanıyor.
Ses verileri için transkripsiyon ihtiyacı ortadan kalkıyor
Gemini Embedding 2’nin dikkat çeken yeniliklerinden biri de ses verisini doğrudan işleyebilmesi. Geleneksel yöntemlerde ses verisi önce konuşmadan metne sistemiyle yazıya dökülüyor, ardından embedding modeline aktarılıyordu. Bu süreçte bazı bağlamsal veya akustik bilgilerin kaybolabildiği biliniyor.
Yeni model ise ses verisini doğrudan ses dalgaları, videoyu ise hareket ve zaman bilgisi üzerinden analiz ediyor. Böylece metne dönüştürme sürecinde oluşabilecek bilgi kaybı ortadan kalkıyor ve daha ayrıntılı semantik analiz yapılabiliyor.
Model ayrıca “interleaved input” olarak adlandırılan bir özelliği de destekliyor. Bu özellik sayesinde geliştiriciler tek bir istekte birden fazla veri türünü birlikte gönderebiliyor. Örneğin bir görsel ile ona ait açıklama metni aynı anda işlenebiliyor. Google’a göre bu yöntem, farklı medya türleri arasındaki ilişkilerin daha doğru biçimde öğrenilmesini sağlıyor.
Teknik kapasite de arttı
Gemini Embedding 2, önceki modele göre daha yüksek veri kapasitesi sunuyor. Metin girişleri için maksimum token sınırı 8.192’e çıkarıldı. Bu değer, önceki modelde bulunan 2.048 token sınırının dört katına karşılık geliyor.
Modelin desteklediği veri türleri ve sınırları ise şu şekilde:
- Metin: 8.192 token’a kadar giriş desteği
- Görseller: PNG ve JPEG formatlarında tek istekte en fazla 6 görsel
- Video: 120 saniyeye kadar video işleme
- PDF: 6 sayfaya kadar belge analizi
Matruşka bebeği tekniği
Gemini Embedding 2, tıpkı selefi gibi Matryoshka Representation Learning (MRL) tekniğini kullanıyor. Bu yaklaşım, embedding çıktısındaki bilgiyi katmanlı biçimde organize ediyor. Rus matruşka bebeklerine benzetilen yapı sayesinde daha küçük boyutlu temsil vektörleri, daha büyük vektörlerin içinde yer alabiliyor.
Modelin varsayılan vektör boyutu 3.072 olarak belirlenmiş durumda. Google, kullanım senaryosuna bağlı olarak 1.536 veya 768 boyutlu alternatiflerin de tercih edilebileceğini belirtiyor. Bu esneklik sayesinde geliştiriciler maksimum doğruluk ile depolama maliyetleri arasında denge kurabiliyor.
Ayrıca model 100’den fazla dilde semantik anlam yakalama yeteneğini koruyor.
Erişime açıldı
Google, Gemini Embedding 2’yi Gemini API ve Vertex AI üzerinden açık ön izleme (Public Preview) olarak erişime açtı. Gemini API tarafında Google katmanlı bir fiyatlandırma modeli uyguluyor. Ücretsiz kullanım katmanında geliştiriciler modeli ücretsiz deneyebiliyor ancak genellikle dakikada 60 istek sınırı bulunuyor ve gönderilen veriler Google ürünlerini geliştirmek için kullanılabiliyor. Ücretli kullanımda fiyatlandırma 1 milyon token başına hesaplanıyor. Metin, görsel ve video verileri için 1 milyon token başına 0,25 dolar ücret uygulanıyor. Yerel ses verisi işleme ise daha yüksek hesaplama gücü gerektirdiği için 1 milyon token başına 0,50 dolar olarak fiyatlandırılıyor.
Geliştiriciler için hazırlanan etkileşimli Colab notebook’ları sayesinde modelin yeteneklerini test etmek mümkün. Model ayrıca popüler yapay zeka geliştirme araçları ve veri altyapılarıyla da (LangChain, LlamaIndex vb.) entegre çalışabiliyor.







