1001 Host .com

  1. Anasayfa
  2. »
  3. Güncel
  4. »
  5. Fiyatlı AI modellerinden şok eden performans: Parayı ver, daha çok kusur al!

Fiyatlı AI modellerinden şok eden performans: Parayı ver, daha çok kusur al!

adminn adminn -
28 0

Columbia Journalism Review’un Tow Center for Digital Journalism’i tarafından yapılan kapsamlı bir araştırma, üretken yapay zeka modellerinin haber arama işinde önemli doğruluk meseleleri yaşadığını ortaya koydu. Araştırmada, canlı arama fonksiyonuna sahip sekiz farklı AI dayanaklı arama aracı incelendi ve bu araçların haber kaynaklarıyla ilgili verilen istemlerin %60’ından fazlasına yanlış cevaplar ürettiği belirlendi.

Araştırmacılar, şu anda Amerikalıların dörtte birinden fazlasının AI modellerini klasik arama motorlarına alternatif olarak kullandığını ve bu durumun yanılgıların tesirini daha da önemli hale getirdiğini vurguladılar.

Araştırmada doğruluk oranlarındaki farklılıklar dikkat çekti. Örneğin, Perplexity platformu verilen istemlerin %37’sinde yanlış bilgi sunarken, ChatGPT Search bu oranı %67’ye taşıdı. Grok 3 ise %94 üzere çarpıcı bir yanılgı oranıyla en düşük performansı sergiledi.

Testler nasıl gerçekleştirildi?

Araştırmacılar, modelleri gerçek haber makaleleriyle sınamak için çeşitli istemler verdiler. Bu istemlerde, haber makalesinin başlığını, yepyeni yayımcısını, yayım tarihini ve URL’sini gerçek bir biçimde tespit etmeleri istendi. Tüm testlerde, sekiz farklı arama aracıyla toplamda 1.600’den fazla istem kullanıldı. Değişik bir halde, modellerin sağlam bilgiye sahip olmadıkları durumlarda karşılık vermeyi reddetmek yerine, gerçekçi görünümlü fakat yanılgılı ya da varsayıma dayalı cevaplar verdikleri gözlemlendi. Bu durum, incelenen tüm modellerde ortak bir sorun olarak öne çıktı.

Ücretli modeller, fiyatsız sürümlerden daha mı berbat?

Araştırma, fiyatlı hizmetlerin bazen beklenenin tersine fiyatsız sürümlerden daha makûs performans sergileyebildiğini gösterdi. Örneğin, aylık 20 dolarlık Perplexity Pro ve 40 dolarlık Grok 3 Premium hizmeti, fiyatsız sürümlerine kıyasla daha sık ve daha kendinden emin kusurlar üretti. Bu modeller, daha fazla sayıda isteme karşılık verme eğiliminde olsalar da, cevaplarını reddetmemeleri kusur oranlarını yükseltti.

Araştırmacılar, kimi AI araçlarının yetkisiz erişimi önlemeye yönelik ayarları dikkate almadığını da fark ettiler. Örneğin, Perplexity’nin fiyatsız sürümü, National Geographic’in açık bir formda müsaade vermemesine karşın, fiyatlı içeriklerden 10 adedini gerçek bir halde tanımlamayı başardı. Ayrıyeten sıkça karşılaşılan meseleler ortasında, alıntı yapılan yazılarda orjinal kaynağı göstermek yerine Yahoo News üzere diğer sitelere irtibat verme ve yanlışlı ya da geçersiz ilişkiler sağlama yer aldı.

İlgili Yazılar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Web sitemizde size mümkün olan en iyi deneyimi sunmak için çerezleri kullanıyoruz. Bu siteyi kullanmaya devam ederek çerez kullanımımızı kabul etmiş olursunuz.
Kabul Et