swift llm 2025
20 Temmuz 2025

Swift Geliştiricileri İçin LLM Benchmark Sonuçları | 2025 Verileri

ile umut

Yapay zeka ile kod yazdırırken özel alanda, bir programlama dilinde kod üretmek bazen çileye dönüşebiliyor. Dolayısıyla benim gibi yapay zekayı her alanda kullanan geliştiriciler özellikle bir çok programlama dilini aktif olarak kullananlar daha spesifik kod sonuçları almak isteyeceklerdir. Ve bu durum da doğru sonuçlar vermediği için biraz can sıkabiliyor. Fikir veriyor tabiki ama sanırım daha sonuç odaklı olmak istiyoruz. Macpaw araştırmacıları da böyle düşünmüş olacak ki bir araştırma yapıp sonucu paylaşmışlar.

Sorun Neydi? HumanEval-XL ve MultiPL-E gibi çok dilli testler, Swift için ciddi kusurlar içeriyor. Otomatik çevirilerle Python testlerini Swift’e uyarlamak, kaliteden ödün verilmesine yol açıyordu. Çözüm ne? SwiftEval! Bu ekip “kalite önce” diyerek harekete geçmiş olacak ki, Python testlerini otomatik çevirmek yerine, 28 özel Swift sorusunu elle hazırladılar. ve bu yeni benchmark’ın adı: SwiftEval!

Belgeye göre Swift programlama dili için en iyi performans gösteren LLM’ler SwiftEval benchmark sıralamasına göre şöyledir (Tablo I, Sayfa 3-4):

En Yüksek Performanslı 5 LLM:

  1. GPT-4o
  • SwiftEval Skoru: 88.9%
  • Sıralama: 1.
  • Not: Tüm modeller arasında en yüksek Swift performansı.
  1. GPT-4 Turbo
  • SwiftEval Skoru: 87.1%
  • Sıralama: 2.
  1. GPT-4o Mini
  • SwiftEval Skoru: 85.6%
  • Sıralama: 3.
  1. DeepSeek Coder V2 Instruct (236B parametre)
  • SwiftEval Skoru: 82.4%
  • Sıralama: 4.
  • Not: Açık kaynaklı modeller arasında en iyi performans.
  1. GPT-4
  • SwiftEval Skoru: 82.2%
  • Sıralama: 5.

Diğer Dikkat Çeken Modeller:

  • Qwen2.5 Coder Instruct (32B)
  • SwiftEval Skoru: 79.1% (Sıralama: 7.)
  • Codestral (22B)
  • SwiftEval Skoru: 77.8% (Sıralama: 8.)
  • GPT-3.5 Turbo
  • SwiftEval Skoru: 81.3% (Sıralama: 6.)

Önemli Bulgular:

  1. Kapalı Kaynak Modeller (OpenAI) Dominant:
    GPT serisi (GPT-4o, GPT-4 Turbo, GPT-4) ilk 5’te 4 sırayı alarak Swift’te açık ara lider.
  2. Açık Kaynaklı Modellerde DerinSeek Öne Çıkıyor:
  • DeepSeek Coder V2 Instruct (236B), açık kaynaklı modeller arasında en yüksek Swift performansını gösterdi (82.4%).
  • Codestral (22B) ve Qwen2.5 (32B) da Swift için güçlü alternatifler.
  1. Model Boyutu ve Swift Performansı Doğru Orantılı:
    Figür 2 (Sayfa 4) ile doğrulanan bulgu: SwiftEval’da model boyutu arttıkça performans belirgin şekilde artıyor (korelasyon: 0.50). Bu, Swift’in dil-specific özelliklerini (protocols, generics, static typing) anlamak için büyük modellere ihtiyaç olduğunu gösteriyor.

Özetle Swift için Tercih Edilmesi Gereken LLM’ler:

SıraModelTürSwift Skoru
1GPT-4oKapalı Kaynak88.9%
2GPT-4 TurboKapalı Kaynak87.1%
3GPT-4o MiniKapalı Kaynak85.6%
4DeepSeek Coder V2 (236B)Açık Kaynak82.4%
5GPT-4Kapalı Kaynak82.2%

Umarım faydalı olur.

💡 Kaynak: Macpaw Research