7 Haziran 2026Teknolojiye dair her şey!
AnasayfaYazılımOpenAI yeni ses modelleriyle çıtayı yükseltti: Konuşurken farklı işler de yapabiliyor
Yazılım

OpenAI yeni ses modelleriyle çıtayı yükseltti: Konuşurken farklı işler de yapabiliyor

İlk etapta daha çok yazılı komutlar üzerinden çalışan ChatGPT, Gemini ve Claude gibi büyük dil modelleri, yavaş yavaş kullanıcılarla gerçek zamanlı olarak konuşabilen sistemlere dönüşüyor. Özellikle son iki yılda gelişen “sesli AI” teknolojileri sayesinde yapay zekâlar yalnızca sesli komutları algılayan basit asistanlar olmaktan çıkıp, konuşmayı anlayan, bağlamı takip eden, görev gerçekleştirebilen ve kullanıcıyla doğal diyalog kurabilen sistemler hâline gelmeye başladı. OpenAI’ın bu hafta tanıttığı yeni nesil ses modelleri de bu dönüşümün en dikkat çekici örneklerinden biri olarak öne çıkıyor.

Haberi okuduğunuz için teşekkürler, bizi takip etmeyi unutmayın!

OpenAI tarafından API üzerinden geliştiricilere sunulan GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper isimli üç yeni model, şirketin gerçek zamanlı sesli yapay zekâ alanındaki en iddialı adımı olarak görülüyor. Şirketin açıklamasına göre bu modeller, kullanıcıların araç kullanırken, havaalanında yol bulmaya çalışırken ya da müşteri hizmetleriyle görüşürken klavye kullanmadan yapay zekâyla doğal biçimde iletişim kurabilmesini hedefliyor.

GPT-Realtime-2, Konuşma Sırasında Görevleri Yerine Getirebiliyor

Buradaki en dikkat çekici modeli GPT-Realtime-2. Şirketin “GPT-5 seviyesinde akıl yürütme kabiliyetine sahip ilk ses modeli” olarak tanımladığı bu sistem, uzun ve karmaşık konuşmaları takip edebiliyor; kullanıcı konuşurken araya girilse bile diyaloğu doğal biçimde sürdürebiliyor. OpenAI’ın özellikle vurguladığı noktalardan biri de modelin artık yalnızca konuşmakla kalmayıp konuşma sırasında aktif olarak görev gerçekleştirebilmesi. Geliştiriciler bu modele takvim, arama motoru ya da şirket içi sistemler gibi araçlara erişim verebiliyor. Model de bu işlemleri gerçekleştirirken kullanıcıya “takviminizi kontrol ediyorum” ya da “bunu şimdi araştırıyorum” gibi doğal geri bildirimler sunabiliyor.

Yeni modelin teknik tarafında da önemli geliştirmeler bulunuyor. OpenAI, sesli modelinin bağlam penceresini 32K’dan 128K’ya çıkardı. Bu da modelin çok daha uzun konuşmaları takip edebilmesini ve önceki diyalogları unutmadan daha karmaşık görevleri yerine getirebilmesini sağlıyor. Özellikle müşteri hizmetleri ya da uzun süreli destek görüşmeleri gibi kullanım senaryolarında bu kapasite artışı oldukça önemli görülüyor. Şirket ayrıca modelin başarısız işlemlerden daha iyi toparlanabildiğini ve sağlık sektörü gibi alanlarda kullanılan teknik terminolojileri daha doğru anlayabildiğini söylüyor.

OpenAI tarafından paylaşılan performans testleri de yeni modelin sesli etkileşimlerde belirgin bir gelişim sunduğunu gösteriyor. Şirketin verilerine göre GPT-Realtime-2, önceki nesie kıyasla Big Bench Audio testlerinde yüzde 15,2 daha yüksek skor elde etti.

Gemini Live’e Rakip Olacak

OpenAI’ın yeni modelleri, şirketi Google’ın Gemini Live sistemiyle doğrudan rekabete sokuyor. Ancak iki şirketin yaklaşımı arasında belirgin farklar bulunuyor. Google daha çok hızlı tepki süresi ve geniş dil desteğine odaklanırken, OpenAI’ın doğal ve kesintisiz sohbet deneyimini geliştirmeye ağırlık verdiği görülüyor.

Tanıtılan ikinci model olan GPT-Realtime-Translate ise gerçek zamanlı çeviri tarafına odaklanıyor. OpenAI’ın açıklamasına göre bu model 70’ten fazla giriş dilini destekliyor ve bunları eş zamanlı olarak 13 farklı dile çevirebiliyor. Üstelik bunu yaparken konuşmacının temposunu koruyabiliyor. Şirket bu sistemi özellikle müşteri hizmetleri, seyahat uygulamaları ve çok dilli iletişim platformları için konumlandırıyor.

OpenAI, bu teknolojiyi kullanmaya başlayan şirketlerden bazı örnekler de paylaştı. Bunlardan biri olan Deutsche Telekom, müşterilerin kendi dillerinde konuşabildiği ve yapay zekânın görüşmeyi anlık olarak çevirdiği sesli destek sistemleri geliştiriyor. Bu tarz sistemlerin özellikle uluslararası müşteri hizmetlerinde insan çevirmen ihtiyacını azaltabileceği düşünülüyor.

Duyurulan üçüncü model olan GPT-Realtime-Whisper ise canlı transkripsiyon üzerine yoğunlaşıyor. Bu model, kullanıcı konuşurken sesi eş zamanlı olarak yazıya dönüştürebiliyor. Özellikle toplantı notları, çağrı merkezleri, canlı yayın altyazıları ya da sesli kayıt çözümleri gibi alanlarda kullanılabilecek bu teknoloji, OpenAI’ın uzun süredir geliştirdiği Whisper altyapısının yeni nesil versiyonu olarak değerlendiriliyor.

Şirketin açıklamasına göre uzun vadeli hedef; dinleyebilen, düşünebilen, çevirebilen, yazıya dökebilen ve aynı anda aksiyon alabilen tam teşekküllü yapay zekâ ajanları oluşturmak. OpenAI’ın yeni ses modelleri de, yapay zekânın bu yeni evrimine doğru atılmış önemli bir adım olarak görülüyor.

Bu haber hakkında ne düşünüyorsun?

Tek tıkla reaksiyon bırakabilirsin.