Yazılım

Google, yapay zekaya “ortak mana haritası” kazandırdı: Gemini Embedding 2

12 Mart 2026 21:38

Nedir bu “embedding”?

Yapay zeka özelinde “embedding” kavramının Türkçe bir karşılığı yok. Ancak “anlamsal vektör temsili” desek ifadeyi karşılamış oluruz. Yine de haber içinde literatürdeki orijinal kavramı kullanacağız. Peki embedding modelleri aslında ne yapıyor?

Yapay zeka tartışmalarında sıkça geçen embedding kavramı, verilerin anlamını matematiksel olarak temsil eden sayısal vektörlere dönüştürülmesi anlamına geliyor. Basit bir benzetmeyle embedding modeli, bilgiyi anlamına göre düzenleyen dev bir kütüphane sistemi gibi çalışıyor.

Klasik kütüphanelerde kitaplar yazarına veya türüne göre sınıflandırılır. Embedding uzayında ise içerikler anlam benzerliğine göre konumlandırılır. Örneğin Steve Jobs hakkında bir biyografi kitabı, Macintosh hakkında teknik bir kılavuzla aynı “anlam kümesi” içinde yer alabilir. Bu sistemde bir metin, fotoğraf veya podcast kesiti yüksek boyutlu bir harita üzerinde sayısal koordinatlara dönüştürülür. Eğer iki içerik anlam bakımından birbirine yakınsa, bu koordinatlar da vektör uzayında birbirine yakın olur.

Bugün embedding modelleri pek çok dijital hizmetin arkasındaki görünmez altyapıyı oluşturuyor. Arama motorları, kullanıcının yazdığı kelimeler yerine niyetini anlayarak sonuç üretirken bu teknolojiden yararlanıyor. Öneri sistemleri ise kullanıcıların izlediği veya dinlediği içeriklere benzer olanları bu vektör yakınlığına göre belirliyor.

Çok modlu yapıya geçiş

Öte yandan günümüzde bu modellerin birçoğu halen “metin odaklı” bir yaklaşıma sahip. Google’ın Temmuz 2025’te tanıttığı gemini-embedding-001 modeli yalnızca metin verilerini işleyebiliyordu. Yeni duyurulan Gemini Embedding 2 ise aynı mimariyi temel almasına rağmen kapsamını ciddi ölçüde genişletiyor.

Yeni model yalnızca metinle sınırlı kalmıyor, bunun yanında; görselleri, videoları, ses kayıtlarını ve PDF belgelerini de metinle aynı semantik vektör uzayına dönüştürebiliyor. Bu yaklaşım, farklı veri türlerinin anlam temelli olarak doğrudan karşılaştırılmasına olanak tanıyor.

Ses verileri için transkripsiyon ihtiyacı ortadan kalkıyor

Gemini Embedding 2’nin dikkat çeken yeniliklerinden biri de ses verisini doğrudan işleyebilmesi. Geleneksel yöntemlerde ses verisi önce konuşmadan metne sistemiyle yazıya dökülüyor, ardından embedding modeline aktarılıyordu. Bu süreçte bazı bağlamsal veya akustik bilgilerin kaybolabildiği biliniyor.

Yeni model ise ses verisini doğrudan ses dalgaları, videoyu ise hareket ve zaman bilgisi üzerinden analiz ediyor. Böylece metne dönüştürme sürecinde oluşabilecek bilgi kaybı ortadan kalkıyor ve daha ayrıntılı semantik analiz yapılabiliyor.

Model ayrıca “interleaved input” olarak adlandırılan bir özelliği de destekliyor. Bu özellik sayesinde geliştiriciler tek bir istekte birden fazla veri türünü birlikte gönderebiliyor. Örneğin bir görsel ile ona ait açıklama metni aynı anda işlenebiliyor. Google’a göre bu yöntem, farklı medya türleri arasındaki ilişkilerin daha doğru biçimde öğrenilmesini sağlıyor.

Teknik kapasite de arttı

Gemini Embedding 2, önceki modele göre daha yüksek veri kapasitesi sunuyor. Metin girişleri için maksimum token sınırı 8.192’e çıkarıldı. Bu değer, önceki modelde bulunan 2.048 token sınırının dört katına karşılık geliyor.

Modelin desteklediği veri türleri ve sınırları ise şu şekilde:

Metin: 8.192 token’a kadar giriş desteği
Görseller: PNG ve JPEG formatlarında tek istekte en fazla 6 görsel
Video: 120 saniyeye kadar video işleme
PDF: 6 sayfaya kadar belge analizi

Matruşka bebeği tekniği

Gemini Embedding 2, tıpkı selefi gibi Matryoshka Representation Learning (MRL) tekniğini kullanıyor. Bu yaklaşım, embedding çıktısındaki bilgiyi katmanlı biçimde organize ediyor. Rus matruşka bebeklerine benzetilen yapı sayesinde daha küçük boyutlu temsil vektörleri, daha büyük vektörlerin içinde yer alabiliyor.

Modelin varsayılan vektör boyutu 3.072 olarak belirlenmiş durumda. Google, kullanım senaryosuna bağlı olarak 1.536 veya 768 boyutlu alternatiflerin de tercih edilebileceğini belirtiyor. Bu esneklik sayesinde geliştiriciler maksimum doğruluk ile depolama maliyetleri arasında denge kurabiliyor.

Ayrıca model 100’den fazla dilde semantik anlam yakalama yeteneğini koruyor.

Erişime açıldı

Google, Gemini Embedding 2’yi Gemini API ve Vertex AI üzerinden açık ön izleme (Public Preview) olarak erişime açtı. Gemini API tarafında Google katmanlı bir fiyatlandırma modeli uyguluyor. Ücretsiz kullanım katmanında geliştiriciler modeli ücretsiz deneyebiliyor ancak genellikle dakikada 60 istek sınırı bulunuyor ve gönderilen veriler Google ürünlerini geliştirmek için kullanılabiliyor. Ücretli kullanımda fiyatlandırma 1 milyon token başına hesaplanıyor. Metin, görsel ve video verileri için 1 milyon token başına 0,25 dolar ücret uygulanıyor. Yerel ses verisi işleme ise daha yüksek hesaplama gücü gerektirdiği için 1 milyon token başına 0,50 dolar olarak fiyatlandırılıyor.

Geliştiriciler için hazırlanan etkileşimli Colab notebook’ları sayesinde modelin yeteneklerini test etmek mümkün. Model ayrıca popüler yapay zeka geliştirme araçları ve veri altyapılarıyla da (LangChain, LlamaIndex vb.) entegre çalışabiliyor.

Etiketlendi:Anlam Bilgi Data Doğru Google Görsel İş Metin Model Modeli Tek Token Vektör Video Yapay Zekâ

Buğrahan AYDOĞAN

Google, yapay zekaya “ortak mana haritası” kazandırdı: Gemini Embedding 2

Cevap bırakın Yanıtı iptal et

Diğer Haberler

Epic Games’te bu haftanın fiyatsız oyunları erişime açıldı

Linux AppArmor’daki Dokuz CrackArmor Kusuru Kök Yükseltmeyi Etkinleştiriyor, Container İzolasyonunu Atlatıyor

Google Skia ve V8’i Etkileyen, Doğada İstismar Edilen İki Chrome Sıfır Gün Sorununu Düzeltiyor

Google, yapay zekaya “ortak mana haritası” kazandırdı: Gemini Embedding 2

İlgilinizi çekebilecekler

Cevap bırakın Yanıtı iptal et

Diğer Haberler