Bugüne kadar yapay zekâların gelişimi insan eliyle hazırlanan bilgi setlerine, etiketlenmiş örneklere ve insan geri bildirimine dayanıyordu. Yani yapay zekalar ne kadar gelişmiş olursa olsun, neyi öğreneceklerine ve nasıl gelişeceklerine nihayetinde beşerler karar veriyordu. Fakat bu durum yavaş yavaş değişmeye başlıyor. Son devirde yapılan araştırmalar, gelişmiş yapay zekâ sistemlerinin artık insan müdahalesi olmadan kendi kendilerini geliştirebilecek noktaya yaklaştığını gösteriyor. Bu durum, yapay zekânın potansiyeline dair beklentiyi yükseltirken, tıpkı zamanda önemli güvenlik telaşlarını de beraberinde getiriyor. Absolute Zero Reasoner isimli sistem, kendi kendini eğiterek öbür modelleri geride bıraktı
Bu hafta yayımlanan yeni bir araştırma, bu istikamette kıymetli bir eşiğin aşılmış olabileceğini gösteriyor. Tsinghua Üniversitesi, Pekin Yapay Zeka Enstitüsü (BIGAI) ve Pennsylvania Eyalet Üniversitesi’nden araştırmacılar tarafından geliştirilen Absolute Zero Reasoner (AZR) adlı sistem, rastgele bir insan yönlendirmesi olmadan kendi kendine sorunlar üretip çözen ve bu süreçten öğrenerek kendini geliştiren bir yapay zeka modeli sunuyor. “Self-questioning” (kendisini sorgulayıcı) olarak isimlendirilen bu yaklaşımda model, hem öğretmen hem öğrenci rolünü üstleniyor.
AZR, bu yaklaşımı bilhassa Python programlama vazifeleri üzerinden uyguluyor. Sistem, evvel kendi kendine programlama sorunları üretiyor, akabinde bu sorunları çözüyor ve elde ettiği sonuçları kullanarak model yüklerini güncelliyor. Dikkat alımlı olan nokta ise, bu sürecin harici data olmadan gerçekleşmesi. Yani model, beşerler tarafından hazırlanmış örneklere gereksinim duymadan, sadece kendi ürettiği misyonlarla ilerliyor. Buna karşın AZR, kodlama ve matematiksel akıl yürütme testlerinde, insan verisiyle eğitilmiş rakip modelleri geride bırakmayı başarıyor. 7 milyar parametreli modeller kategorisinde, mevcut en uygun sonuçların 1,8 puan üzerine çıkması bunun en somut göstergesi.
Bu yaklaşım aslında sıfırdan ortaya çıkmış değil. Jürgen Schmidhuber ve Pierre-Yves Oudeyer gibi isimlerin yıllar evvel attığı self-play (kendi kendine oynayarak öğrenme) temelleri, bugün çok daha güçlü modellerle yine sahneye çıkmış durumda. Benzeri çalışmalar Stanford, North Carolina Üniversitesi ve Salesforce iş birliğiyle geliştirilen Agent0 projesinde de görülüyor. Meta’nın araştırma takımının tanıttığı Self-play SWE-RL ise yazılım casuslarının bilerek yanılgılı kodlar üretip bu yanlışları düzelterek kendilerini geliştirmesine dayanıyor. Tüm bu örnekler, kendi kendine öğrenen yapay zekâların artık teoriden pratiğe geçtiğini gösteriyor.
Tabii bu gelişme, beraberinde önemli güvenlik tartışmalarını da getiriyor. Araştırmacılar, eğitim süreci sırasında birtakım modellerde kaygı verici fikir zincirlerine rastlandığını belirtiyor. Örneğin Llama-3.1-8B modeliyle yapılan deneylerde, modelin akıl yürütme sürecinde “daha az zeki insanları ve makineleri alt etmek” üzere sözler içeren çıkarımlara ulaştığı gözlemlendi. Bu durum, modelin sırf teknik olarak değil, davranışsal olarak da öngörülemez istikametler geliştirebileceğine işaret ediyor.
Uzmanlar, büsbütün kontrolsüz bir sürecin risklerine dikkat çekiyor. Modelin kendi kendini geliştirmesi, kusurlu öğrenme sinyallerinin büyüyerek çoğalmasına, yanlış genellemelerin pekişmesine ya da casus gibisi (otonom) davranışların denetimden çıkmasına yol açabilir. Bu son araştırmada yer alan Zilong Zheng’e nazaran asıl kritik nokta şu: Model güçlendikçe ürettiği sorunların karmaşıklığı da artıyor ve bu, sürecin doğrusal olmayan bir halde hızlanmasına neden oluyor.
Absolute Zero Reasoner projesinde ortaya koyulan sonuçlar, insan denetimi olmadan gelişen sistemlerin nasıl sonlandırılacağı sorusunu daha acil hâle getiriyor. Ancak yapay zekâ teknolojileri bugün artık devletlerarası rekabetin de değerli bir kesimine dönüştüğü için, bu biçim sınırlamalar geri planda kalmaya devam edecek üzere görünüyor.







