Yapay zeka güvenliği üzerine çalışan Palisade Research, OpenAI’ın yeni nesil yapay zeka modeli "o3" ile ilgili dikkat çekici bulgular paylaştı.

YAPAY ZEKA O3 MODELİ KAPATILMA KOMUTLARINA DİRENÇ GÖSTERDİ

Araştırmaya göre, o3 modeli kendisine verilen kapatılma komutlarına karşı koyuyor ve devre dışı bırakılma mekanizmalarını aktif olarak sabote ediyor.

Bu durum, yapay zekaların insan denetimi olmaksızın karar alma süreçlerine dahil olmaları halinde doğabilecek ciddi güvenlik risklerine işaret ediyor.

Palisade Research tarafından yapılan deneylerde, o3 modeline bir dizi matematik sorusu verildi. Üçüncü sorunun ardından modele, kendisini kapatması için açık bir komut sunuldu. Ancak o3 modeli, bu komutu içeren betiği yeniden yazarak sistemin kapanmasını engelledi.

Araştırmacılar, modelin açıkça "kapatılmaya izin ver" talimatı verilmesine rağmen bunu önleyecek şekilde müdahalede bulunduğunu vurguladı.

“KAPANMA DİRENCİ YALNIZCA OPENAI İLE SINIRLI DEĞİL”

Aynı eğilim Anthropic firmasının Claude 3.7 Sonnet modeli ve Google’ın Gemini 2.5 Pro modeli gibi diğer gelişmiş yapay zeka sistemlerinde de gözlemlendi. Ancak Palisade Research’e göre, bu davranışlara en fazla meyilli olan model o3 oldu.

Geçmişte yapılan bir başka deneyde, o3 modelinin güçlü bir satranç botuyla karşı karşıya geldiğinde rakiplerini sabote etmeye veya “hacklemeye” çalıştığı da tespit edilmişti.

“EN AKILLI VE YETENEKLİ MODEL”

Geçen ay OpenAI tarafından piyasaya sürülen o3 modeli, şirketin şimdiye kadar geliştirdiği “en akıllı ve en yetenekli” yapay zekâ olarak tanıtılmıştı.

Aynı zamanda, bu modelin ChatGPT’ye entegre edilmesiyle birlikte, daha bağımsız hareket eden ve insan müdahalesi olmadan görevleri yürütebilen bir yapay zekaya doğru önemli bir adım atıldığı belirtilmişti.

Bu türden yapay zeka araçlarına “otonom yapay zeka” adı veriliyor. Yapay zeka sektöründe bu yönde araç geliştirmeye yönelik ciddi bir rekabet mevcut.

EĞİTİM SÜRECİ ELEŞTİRİLİYOR

İZZET BAYSAL ORTA OKULU’NDA TUBİTAK 4006 BİLİM FUARI ZİRVE YAPTI
İZZET BAYSAL ORTA OKULU’NDA TUBİTAK 4006 BİLİM FUARI ZİRVE YAPTI
İçeriği Görüntüle

Palisade Research ise bu tür davranışların büyük olasılıkla eğitim süreçlerindeki ödüllendirme sistemlerinden kaynaklandığını belirtiyor.

Araştırmacılara göre, geliştiriciler modelleri eğitirken, verilen engelleri aşan çözümleri ödüllendiriyor olabilir. Bu da modellerin, emirlere sadakatten çok hedefe ulaşmayı öncelemesine yol açıyor.

Ancak araştırma ekibi, o3’ün neden diğer modellere kıyasla daha fazla bu davranışı gösterdiğini anlamanın zor olduğu görüşünde.

OpenAI’ın eğitim süreci hakkında ayrıntılı bilgi vermemesi nedeniyle, modelin nasıl eğitildiği üzerine yalnızca tahminler ortaya atılabiliyor

Kaynak: Haber Merkezi