Alibaba Cloud’un Qwen araştırma ekibi, yapay zekâ dünyasına yeni bir soluk getiren Qwen3-Next dil modelini duyurdu. Hibrit mimarisi sayesinde hem yüksek performans hem de düşük donanım maliyeti sunan model, açık kaynak ekosisteminde dikkat çekici bir adım oldu.
Qwen3-Next Nedir?
Qwen3-Next, yalnızca 3 milyar aktif parametreyle çalışıyor olmasına rağmen toplamda 80 milyar parametreli bir yapıya sahip. Bu sayede:
- Uzun bağlamlarda verimliliğini koruyor,
- Daha az kaynak tüketerek üst düzey performans sergiliyor,
- Geniş ölçekli yapay zekâ projeleri için erişilebilir bir seçenek oluyor.
İki Varyant: Instruct ve Thinking
Yeni model, Apache 2.0 lisansı altında tamamen ücretsiz olarak dağıtılıyor. Kullanıcılar modele:
- Hugging Face
- ModelScope
- Kaggle
- Alibaba Cloud
üzerinden ulaşabiliyor. Ayrıca doğrudan Qwen Chat platformu üzerinden de kullanılabiliyor.
Qwen3-Next, iki farklı varyantla geliyor:
- Instruct: Genel kullanım için optimize edilmiş, uzun bağlamlarda güçlü performans sunuyor.
- Thinking: Özellikle reasoning (akıl yürütme) görevlerinde öne çıkıyor ve kapalı kaynaklı Gemini-2.5-Flash-Thinking gibi modellere karşı üstünlük sağlıyor.
Hibrit Mimari: Gated DeltaNet + Gated Attention
Modelde dikkat çeken teknik yenilik, Gated DeltaNet ve Gated Attention katmanlarının hibrit kullanımı.
- DeltaNet uzun metinlerde hızlı tarama işlevi görüyor.
- Gated Attention ise daha hassas ve detaylı kontrol sağlıyor.
Bu kombinasyon, tek bir modelde hem hız hem doğruluk avantajı sunuyor.
Uzun Bağlam Performansı
Qwen3-Next’in en iddialı özelliklerinden biri uzun bağlam desteği:
- Doğal olarak 256.000 token bağlam penceresini destekliyor.
- RoPE ölçekleme yöntemleriyle 1 milyon token uzunluğa kadar doğrulandı.
- Uzun bağlam testlerinde, önceki modellere göre 10 kata kadar daha yüksek hız elde edildi.
Eğitim ve Verimlilik
Qwen3-Next, 15 trilyon token üzerinde eğitildi. Buna rağmen yalnızca 3 milyar aktif parametre kullanması sayesinde, selefi Qwen3-32B modeline kıyasla çok daha düşük donanım maliyetine sahip.
Performans testlerinde ise:
- Instruct varyantı, Qwen3’ün 235 milyar parametreli amiral gemisine yakın sonuçlar verdi.
- Thinking varyantı, reasoning testlerinde birçok kapalı kaynaklı modeli geride bıraktı.
Qwen’in Gelecek Planı
Alibaba, Qwen3-Next’in ardından serinin bir sonraki büyük adımı olan Qwen3.5 üzerinde çalıştıklarını da açıkladı. Yeni sürümün, ölçeklenebilirlik ve performans açısından daha da ileriye taşınması bekleniyor.