Grok yine zirvede: Yapay zekaların halüsinasyon oranlarında şaşırtıcı sonuçlar

OpenAI, geçtiğimiz Perşembe günü ChatGPT-5’i tanıttığında CEO Sam Altman, bu sürümün şimdiye kadar yayınladıkları en “güçlü, akıllı, hızlı, güvenilir ve sağlam” ChatGPT olduğunu vurguladı. Lansman sırasında, şirket çalışanları ayrıca ChatGPT-5’in “halüsinasyon” olarak bilinen yanlış bilgi üretme oranını azaltacağını belirtti.

Halüsinasyon nedir?

Yapay zekâ, gerçekte olmayan bilgileri gerçekmiş gibi sunduğunda bu durum “halüsinasyon” olarak adlandırılır. Büyük dil modellerinin (LLM) halüsinasyon oranları son yıllarda düşse de, hâlâ tamamen ortadan kalkmış değil. Bu da, insan gözetimi olmadan görevleri güvenle yerine getirmelerini engelleyen temel faktörlerden biri.

Vectara testleri: ChatGPT-5, GPT-4o’dan sadece %0,09 daha iyi

LLM performansını ölçen Vectara, halüsinasyon oranlarını karşılaştırmak için kendi “Hughes Halüsinasyon Değerlendirme Modeli” (HHEM) tablosunu kullandı. Sonuçlara göre:

  • ChatGPT-5: %1,4 halüsinasyon oranı

  • GPT-4: %1,8

  • GPT-4 Turbo & 4o Mini: %1,69

  • GPT-4o: %1,49

Yani ChatGPT-5, GPT-4o’dan yalnızca %0,09 oranında daha düşük halüsinasyon üretiyor. İlginç bir şekilde, ChatGPT-5’in oranı, %1,2 ile daha iyi bir performans sergileyen ChatGPT-4.5 Önizleme sürümünden biraz daha yüksek. Öte yandan, OpenAI’nin en iyi akıl yürütme modeli olan o3-mini %0,795 ile hâlâ en düşük halüsinasyon oranına sahip.

Grok’un yüksek halüsinasyon oranı ve tartışmalı “Spicy” modu

Karşılaştırmada, rakip modellerin performansı ChatGPT-5’in hâlâ önde olduğunu gösteriyor.

  • Gemini-2.5-pro: %2,6

  • Grok-4: %4,8

Özellikle Grok, halüsinasyon üretme konusunda listenin zirvesinde. XAI’nin geliştirdiği Grok, yakın zamanda “Spicy” modu ile de eleştiri topladı. Bu mod, ünlü isimler üzerinde deepfake içerikler oluşturulmasına zemin hazırlayabileceği endişesi yarattı. Şirket, sistemin çıplaklık veya cinsel içerikleri engelleyecek filtreler içerdiğini söylese de, bazı örnekler bu endişeleri güçlendirdi.

Eski modellerin kaldırılması tepki çekti

ChatGPT-5’in piyasaya sürülmesiyle birlikte OpenAI, ChatGPT-4, GPT-4o ve 4o-mini gibi sürümleri Plus kullanıcılarının erişiminden kaldırdı. Bu durum, kullanıcıların tepkisine yol açtı. Bazı Reddit kullanıcıları, “tek arkadaşını bir gecede kaybetmek” benzetmesiyle tepkilerini dile getirdi.

Sam Altman, X üzerinden yaptığı açıklamada, GPT-5’in genel olarak daha iyi olsa da GPT-4o’da sevilen bazı özelliklerin önemini hafife aldıklarını kabul etti. Şirket, bu tepkiler üzerine sınırlı bir süreliğine GPT-4o’yu Plus kullanıcılarına geri getireceğini duyurdu.

Related Posts

Farklı insan türünün 2.8 milyon yıllık dişleri bulundu

Etiyopya’nın Afar bölgesinde keşfedilen 13 diş fosili, insan evrimi hakkındaki yerleşik bilgileri sarsacak nitelikte… Yapılan incelemeler, bu fosillerin 2,6 ila 2,8 milyon yıl önce aynı bölgede yaşamış iki farklı insan türüne ait olduğunu ortaya koydu. Fosiller, insan soyunun bilinen en eski temsilcileri arasında yer alan Australopithecus ile bir Homo türüne işaret ediyor.

Yapay zeka sistemleri kavgaya tutuştu! Şaşırtan deney

Deney kapsamında OpenAI’nin GPT-4o mini modelini kullanan 500 YZ sohbet botu, belirli kişilik özellikleriyle bir araya getirildi. Ardından reklam veya algoritma desteği olmayan basit bir platformda etkileşime girmelerine olanak tanındı. Elde edilen …

Yapay zeka devinden, Chrome’u satın almak için kafa karıştıran teklif

ABD’deki antitröst davası sonrası Google’ın Chrome’u satma zorunluluğu bir kez daha gündemde. Yapay zeka devlerinden Perplexity de, 34,5 milyar dolarlık bir teklif sunarak bu fırsattan faydalanmak istiyor. Fakat süreç pek de kolay görünmüyor.

NASA’dan yeni güncelleme: Güneş Sistemi’ne giren gizemli cisim hızla yaklaşıyor

NASA, güneş sistemimize hızla giren ve merakla takip edilen yıldızlararası cisim 3I/ATLAS hakkında çarpıcı bir güncelleme paylaştı. İlk kez 1 Temmuz’da, Güneş’ten 420 milyon mil (675 milyon kilometre) uzaklıkta gözlemlenen bu cisim, şu an güneş sistemimizin iç bölgelerine doğru ilerliyor.

6 bin yaşındaki ikiz kardeşlerin acı dolu hikayesi

Çekya’da 6 bin yıl önce yaşamış iki kız kardeşin iskeletlerinden yola çıkılarak hazırlanan “hipergerçekçi” yüz ve vücut rekonstrüksiyonları, Taş Devri insanlarının yaşamına dair çarpıcı detayları gün yüzüne çıkardı. Rekonstrüksiyonlar, Güney Moravya bölgesindeki tarihöncesi çakmaktaşı madeninde bulunan ve yıllar süren analizlerin ardından hazırlanan bulgulara dayanıyor.

Orta segment fiyata 200 MP kamera mı?

Uygun fiyatlı bir telefonda amiral gemisi kamera deneyimi arayanlar için Redmi Note 14S’i masaya yatırdık! 200 MP kamera, akıcı AMOLED ekran ve uzun pil ömrüyle Note 14S, gerçekten beklentileri karşılıyor mu? Tüm detaylarıyla test ettik, artı ve eksileriyle karşınızda!