Çin, yapay zeka alanındaki hamlelerine hız kesmeden devam ediyor. Son olarak Alibaba’nın desteklediği Moonshot AI, Kimi K2 adlı yeni büyük dil modelini duyurdu. Açık kaynak kodlu olarak geliştirilen bu yapay zeka modeli, mimari yapısı, işlem verimliliği ve ilk test sonuçlarıyla büyük ilgi topladı.
Kimi K2: 1 Trilyon Parametreli Dev Model
Kimi K2, Mixture-of-Experts (MoE) mimarisi üzerine inşa edilmiş ve toplamda 1 trilyon parametre barındırıyor. Ancak bu parametrelerin tamamı aynı anda çalışmıyor. Her bir girişte yalnızca yaklaşık 32 milyon parametre aktif hale geliyor. Bu yaklaşım sayesinde hem işlem gücünden tasarruf ediliyor hem de maliyetler önemli ölçüde düşüyor.
Model içerisinde toplam 384 uzman modül bulunuyor. Her işlemde bu modüllerden sekizi ve bir ortak uzman eş zamanlı olarak devreye giriyor. Kimi K2, 61 katmandan oluşuyor ve eğitiminde 15.5 trilyon token içeren büyük bir veri seti kullanıldı.
Yenilikçi Eğitim Teknikleri ve Geniş Bağlam Desteği
Modelin eğitim sürecinde, özellikle dikkat mekanizmasındaki dengesizlikleri önlemek amacıyla MuonClip adlı özel bir optimizasyon yöntemi tercih edildi. Bu teknikle dikkat ağırlıkları daha dengeli dağılırken, modelin kararlılığı da artırıldı.
En dikkat çekici özelliklerinden biri ise 128.000 token’lık bağlam penceresi sunması. Bu sayede yaklaşık 190 sayfalık bir metni tek seferde analiz edebiliyor. Bu yetenek, modelin özellikle uzun metin işleme, belge analizi ve kapsamlı rapor oluşturma gibi görevlerde öne çıkmasını sağlıyor.
Uygun Maliyetli, Açık Kaynaklı Bir Alternatif
Kimi K2, açık kaynak yapısıyla geliştiricilere ücretsiz erişim imkânı sunuyor. Kullanıcılar, modelle etkileşime Kimi uygulaması üzerinden geçebiliyor. Kullanım ücretleri de piyasadaki diğer modellere kıyasla oldukça düşük. Örneğin, 1 milyon giriş token’ı sadece 0.15 dolar, çıkış token’ı ise 2.5 dolar seviyesinde. Bu rakam, Claude gibi modellere kıyasla çok daha ekonomik.
İlk Geri Bildirimler Olumlu
Modelin yayımlanmasının ardından geçen ilk dört gün içinde alınan geri dönüşler büyük ölçüde olumlu yönde. Özellikle sosyal medyada yapılan yorumlarda, kod yazma ve programlama görevlerinde yüksek doğruluk sunduğu vurgulanıyor. MagicPath kurucusu Pietro Schirano ise Kimi K2’nin, Claude 3.5 Sonnet’ten sonra üretim için kullanılabilir potansiyele en çok yaklaşan model olduğunu belirtti.


