Yapay zeka, son yıllarda inanılmaz yetenekler sergileyerek kıssa yazmaktan protein yapılarını kestirim etmeye, gerçekçi görseller yaratmaktan konut ödevlerini çözmeye kadar geniş bir yelpazede kullanılmaya başlandı. Lakin, her şey göründüğü kadar kusursuz değil. Yeni bir araştırma, AI’nin kimi kolay vazifelerde – analog bir saat okuma gibi – neredeyse komik denebilecek ölçüde zorlandığını ortaya koydu.
Edinburgh Üniversitesi’nden bir küme araştırmacı, çeşitli ortamları yorumlayabilen ve içerik üretebilen yedi çok modlu büyük lisan modelini (MLLM) test etti. Çalışmalarını Nisan ayında yayınlamayı planlayan takım, bu modellerin saat ya da takvim üzere görseller üzerinden vakitle ilgili soruları ne kadar yanlışsız yanıtlayabildiğini inceledi. Araştırma sonuçları, AI’nin bu temel misyonlarda beklenenden çok daha düşük bir muvaffakiyet gösterdiğini ortaya koydu.
Araştırmacılar, makalelerinde bu sorunun kıymetini şöyle açıklıyor: “Görsel girdilerden vakti yorumlama ve akıl yürütme yeteneği, olay planlamasından otonom sistemlere kadar birçok gerçek dünya uygulaması için kritik bir rol oynar.” Lakin mevcut teknolojiler daha çok obje algılama, imaj başlığı yahut sahne tahlili üzere alanlarda ağırlaşmış durumda. Zamansal çıkarımlara yönelik araştırmalar ise hala yetersiz.
Ekip, ünlü modeller ortasında yer alan OpenAI’nin GPT-4o ve GPT-o1’ini, Google DeepMind’ın Gemini 2.0’ını, Anthropic’in Claude 3.5 Sonnet’ini, Meta’nın Llama 3.2-11B-Vision-Instruct’unu, Alibaba’nın Qwen2-VL7B-Instruct’unu ve ModelBest’in MiniCPM-V-2.6’sını test etti. Modeller, farklı analog saat görselleri (örneğin Roma sayıları, farklı dizaynlar ve kimilerinde saniye kolu olmayan saatler) ile karşı karşıya bırakıldı. Ayrıyeten on yıllık bir takvim imgesi üzerinden vakitle ilgili daha karmaşık sorular soruldu; örneğin, “Yeni yıl haftanın hangi gününe denk geliyor?” yahut “Yılın 153’üncü günü hangisidir?” üzere…
Araştırmacılar, bu vazifelerin yalnızca görsel tanıma değil, tıpkı vakitte sayısal akıl yürütme yeteneğini de gerektirdiğini vurguladı. Saat kolunun açısını algılama ya da takvimdeki gün-hücre sistemini çözümleme üzere vazifeler AI için kolay görünse de, sonuçlar aksini gösterdi.
Şaşırtan sonuçlar
AI modelleri, bilhassa analog saatleri okuma vazifesinde büyük zorluklar yaşadı. Bu vazifede genel doğruluk oranı %25’in altında kaldı. Roma rakamlı ve stilize kollar taşıyan saatlerde, hatta saniye kolu olmayan modellerde bile emsal formda makus performans sergilendi. Araştırmacılar, bu başarısızlığın saat kollarını algılamak ve saat yüzündeki açıları yorumlamakla ilgili problemlerden kaynaklandığını düşünüyor.
Google’ın Gemini 2.0 modeli saat okuma testinde en yüksek puanı alırken, OpenAI’nin GPT-o1 modeli takvim misyonlarında rakiplerinden daha âlâ performans göstererek %80 doğruluğa ulaştı. Lakin bu oran bile, en başarılı modelin hala %20 oranında kusur yaptığını gösteriyor.
Bu araştırma, AI’nin etkileyici yeteneklerine karşın kimi temel misyonlarda hala önemli sınırlamaları olduğunu ortaya koyuyor. Saat okuma ve takvim manaya üzere görsel ve bilişsel olarak kolay görünen vazifelerdeki bu başarısızlık, AI’nin insan akıl yürütmesinden ne kadar uzak olduğunu bir defa daha hatırlatıyor. Gelecekteki güzelleştirmelerle bu eksiklerin giderilip giderilmeyeceğini ise vakit gösterecek.