Swift Geliştiricileri İçin LLM Benchmark Sonuçları | 2025 Verileri
İçindekiler
Yapay zeka ile kod yazdırırken özel alanda, bir programlama dilinde kod üretmek bazen çileye dönüşebiliyor. Dolayısıyla benim gibi yapay zekayı her alanda kullanan geliştiriciler özellikle bir çok programlama dilini aktif olarak kullananlar daha spesifik kod sonuçları almak isteyeceklerdir. Ve bu durum da doğru sonuçlar vermediği için biraz can sıkabiliyor. Fikir veriyor tabiki ama sanırım daha sonuç odaklı olmak istiyoruz. Macpaw araştırmacıları da böyle düşünmüş olacak ki bir araştırma yapıp sonucu paylaşmışlar.
Sorun Neydi? HumanEval-XL ve MultiPL-E gibi çok dilli testler, Swift için ciddi kusurlar içeriyor. Otomatik çevirilerle Python testlerini Swift’e uyarlamak, kaliteden ödün verilmesine yol açıyordu. Çözüm ne? SwiftEval! Bu ekip “kalite önce” diyerek harekete geçmiş olacak ki, Python testlerini otomatik çevirmek yerine, 28 özel Swift sorusunu elle hazırladılar. ve bu yeni benchmark’ın adı: SwiftEval!
Belgeye göre Swift programlama dili için en iyi performans gösteren LLM’ler SwiftEval benchmark sıralamasına göre şöyledir (Tablo I, Sayfa 3-4):
En Yüksek Performanslı 5 LLM:
- GPT-4o
- SwiftEval Skoru: 88.9%
- Sıralama: 1.
- Not: Tüm modeller arasında en yüksek Swift performansı.
- GPT-4 Turbo
- SwiftEval Skoru: 87.1%
- Sıralama: 2.
- GPT-4o Mini
- SwiftEval Skoru: 85.6%
- Sıralama: 3.
- DeepSeek Coder V2 Instruct (236B parametre)
- SwiftEval Skoru: 82.4%
- Sıralama: 4.
- Not: Açık kaynaklı modeller arasında en iyi performans.
- GPT-4
- SwiftEval Skoru: 82.2%
- Sıralama: 5.
Diğer Dikkat Çeken Modeller:
- Qwen2.5 Coder Instruct (32B)
- SwiftEval Skoru: 79.1% (Sıralama: 7.)
- Codestral (22B)
- SwiftEval Skoru: 77.8% (Sıralama: 8.)
- GPT-3.5 Turbo
- SwiftEval Skoru: 81.3% (Sıralama: 6.)
Önemli Bulgular:
- Kapalı Kaynak Modeller (OpenAI) Dominant:
GPT serisi (GPT-4o, GPT-4 Turbo, GPT-4) ilk 5’te 4 sırayı alarak Swift’te açık ara lider. - Açık Kaynaklı Modellerde DerinSeek Öne Çıkıyor:
- DeepSeek Coder V2 Instruct (236B), açık kaynaklı modeller arasında en yüksek Swift performansını gösterdi (82.4%).
- Codestral (22B) ve Qwen2.5 (32B) da Swift için güçlü alternatifler.
- Model Boyutu ve Swift Performansı Doğru Orantılı:
Figür 2 (Sayfa 4) ile doğrulanan bulgu: SwiftEval’da model boyutu arttıkça performans belirgin şekilde artıyor (korelasyon: 0.50). Bu, Swift’in dil-specific özelliklerini (protocols, generics, static typing) anlamak için büyük modellere ihtiyaç olduğunu gösteriyor.
Özetle Swift için Tercih Edilmesi Gereken LLM’ler:
Sıra | Model | Tür | Swift Skoru |
---|---|---|---|
1 | GPT-4o | Kapalı Kaynak | 88.9% |
2 | GPT-4 Turbo | Kapalı Kaynak | 87.1% |
3 | GPT-4o Mini | Kapalı Kaynak | 85.6% |
4 | DeepSeek Coder V2 (236B) | Açık Kaynak | 82.4% |
5 | GPT-4 | Kapalı Kaynak | 82.2% |
Umarım faydalı olur.
💡 Kaynak: Macpaw Research