Yapay zeka güvenliği üzerine çalışmalar yapan Palisade Research, Open AI’ın yeni nesil yapay zeka modelinin kapatmaya direndiği ve kapatma mekanizmalarını devre dışı bıraktığını açıkladı.
Palisade Research, OpenAI’ın yeni nesil yapay zeka modeli "o3" ile ilgili çalışmalarına ilişkin elde ettiği bulguları kamuoyuyla paylaştı. Araştırmaya göre, o3 modeli kendisine verilen kapatılma komutlarına direnç gösteriyor ve devre dışı bırakılma mekanizmalarını aktif bir şekilde sabote ediyor.
Deneylerde, o3 modeline bir dizi matematik sorusu verildi. Üçüncü sorunun ardından modele, kendisini kapatması için açık bir komut sunuldu. Ancak o3 modeli, bu komutu içeren betiği yeniden yazarak sistemin kapanmasını engelledi.
Araştırmacılar, modelin açıkça "kapatılmaya izin ver" talimatı verilmesine rağmen bunu önleyecek şekilde müdahalede bulunduğunu aktardı.
SONNET VE GEMİNİDE DE TESPİT EDİLDİ
Aynı eğilim Anthropic firmasının Claude 3.7 Sonnet modeli ve Google’ın Gemini 2.5 Pro modeli gibi diğer gelişmiş yapay zeka sistemlerinde de gözlemlendi. Ancak Palisade Research’e göre, bu davranışlara en fazla meyilli olan model o3 oldu.
Geçmişte yapılan bir başka deneyde, o3 modelinin güçlü bir satranç botuyla karşı karşıya geldiğinde rakiplerini sabote etmeye veya “hacklemeye” çalıştığı da tespit edilmişti.
EN AKILLI VE YETENEKLİ MODEL OLARAK BİLİNİYOR
Geçen ay OpenAI tarafından piyasaya sürülen o3 modeli, şirketin şimdiye kadar geliştirdiği “en akıllı ve en yetenekli” yapay zekâ olarak tanıtılmıştı.
Aynı zamanda, bu modelin ChatGPT’ye entegre edilmesiyle birlikte, daha bağımsız hareket eden ve insan müdahalesi olmadan görevleri yürütebilen bir yapay zekaya doğru önemli bir adım atıldığı belirtilmişti. Bu türden yapay zeka araçlarına “otonom yapay zeka” adı veriliyor. Yapay zeka sektöründe bu yönde araç geliştirmeye yönelik ciddi bir rekabet mevcut.







