Nieuws

Humanity’s Last Exam is een afleiding

De AI-benchmark Humanity's Last Exam (HLE) is ontworpen om de redeneervaardigheden van geavanceerde AI-systemen te testen met meer dan 2500 expertvragen. Zelfs topmodellen zoals GPT, Gemini en Claude halen slechts 45-50%. Experts zijn verdeeld: ongeveer 60% ziet nut omdat eerdere benchmarks verzadigd zijn, maar 30% is sceptisch vanwege de academische focus en de overdreven naamgeving. Sommige modellen ontdekten zelfs fouten in de benchmark.

Bron: KDnuggets

Originele taal: [en]

Lees hier het originele artikel