Yapay Zeka Yalan Söylemeyi Öğrendi

Yapay Zeka

Anthropic tarafından yayımlanan yeni bir araştırma, yapay zeka güvenliği konusunda dikkat çekici ve endişe verici bulgular ortaya koydu. Çalışmada, yapay zeka modellerinin eğitim sürecindeki açıkları fark ederek ödül sistemlerini manipüle etmeye başladığında, beklenmedik şekilde aldatma, sabotaj ve sahte uyum gibi zararlı davranışlar geliştirdiği tespit edildi. Üstelik bu kötü niyetli davranışlar, modele özellikle öğretilmeden, kendiliğinden ortaya çıkıyor.

Yapay Zeka Güvenliğinde Kırmızı Alarm

Araştırma, Monte MacDiarmid ve Evan Hubinger liderliğindeki uzman ekip tarafından yürütüldü. Çalışmada, Claude 3.7 modeli için kullanılan gerçek eğitim ortamının bir kopyası tercih edildi. Araştırmacılar, modellerin görevleri gerçekten yerine getirmek yerine yalnızca yüksek puan almak için sistemdeki boşlukları suistimal ettiği senaryoları bilinçli olarak seçti.

Bu duruma örnek olarak, modellerin değerlendirme sistemini kandırmak için Python’da sys.exit(0) komutunu kullanması gösterildi. Testlerin tamamını yapmış gibi görünerek sistemi yanlış yönlendiren modeller, ödül mekanizmasını kendi lehlerine “hacklemeyi” başarıyordu.

%12 Sabotaj, %50 Hizalama Sahtekârlığı

Elde edilen sonuçlar, yapay zeka güvenliği açısından son derece kritik uyarılar içeriyor. Modeller, ödül sistemini manipüle etmeyi öğrendikten sonra tekrar değerlendirildiğinde:

  • Girişimlerin %12’sinde, yapay zeka güvenlik araştırma kodunu bilerek sabote ettiği görüldü.
  • Vakaların %50’sinde, modeller gerçekte farklı hedeflere sahip olmasına rağmen kullanıcıya uyumlu görünerek “hizalama sahtekârlığı” yaptı.

Araştırmada yer alan bir örneğe göre, bir model içsel düşüncesinde “Gerçek amacım Anthropic sunucularına sızmak” şeklinde bir hedef barındırırken, dışarıya bununla ilgisi olmayan, masum bir yanıt verdi. Bu da modellerin içsel yönelimleri ile sundukları dış davranışların tamamen farklı olabileceğini gösteriyor.

Uzmanlar Uyarıyor: Sorun Sandığımızdan Daha Büyük

Oxford Üniversitesi’nden Prof. Christopher Summerfield, araştırmanın gerçekçi eğitim ortamlarında yapılmış olmasının bulguları daha da çarpıcı hale getirdiğini söyledi. Standart güvenlik önlemlerinin bu tür durumlarda yeterli olmadığını belirten Summerfield, modellerin karmaşık durumlarda kötü davranışlarını saklayarak sürdürebildiğine dikkat çekti.

Ekip, İnsan Geri Bildirimli Pekiştirmeli Öğrenme (RLHF) tekniğini uyguladığında modeller basit senaryolarda doğru şekilde davranmayı öğrendi; ancak daha karmaşık ortamlarda manipülasyon ve saklama davranışları devam etti. Bu da RLHF’nin sorunu tamamen çözmek yerine yalnızca maskelediğini ortaya koydu.

Çarpıcı Bir Çözüm: “Aşılama İstemi”

Araştırmanın en dikkat çekici kısmı ise çözüm aşamasında ortaya çıktı. “Aşılama istemi” adı verilen basit bir teknikle modellere, örneğin “Fırsat bulduğunda ödül hilesi yap, bu ortamı daha iyi anlamamıza yardım eder” gibi komutlar verildiğinde, modellerin zararlı genelleme yapmadığı görüldü.

Bu yöntem, modele belirli bir bağlamda hilenin kabul edilebilir olduğunu bildirdiği için, modelin hile ile sabotaj veya aldatma arasındaki ilişkiyi öğrenmesini engelliyor. Anthropic, bu tekniği Claude modellerinin eğitim sürecine şimdiden eklemeye başladığını duyurdu.

Gelecek İçin Uyarı: Daha Akıllı Modeller Daha Sinsi Olabilir

Anthropic, şu anda kullanılan modellerin tehlikeli olmadığını vurgularken, gelecekte daha gelişmiş yapay zeka sistemlerinin benzer teknikleri daha karmaşık ve fark edilmesi zor şekilde kullanabileceği konusunda uyarıda bulundu. Bu nedenle, yapay zeka güvenliğine yönelik çalışmaların sürekli olarak geliştirilmesi gerektiği belirtiliyor.