Nieuws
Nieuwe wiskundebenchmark onthult dat AI-modellen vol vertrouwen problemen oplossen die geen oplossing hebben
Een consortium van 64 wiskundigen heeft SOOHAK ontwikkeld, een nieuwe AI-benchmark met 439 handgeschreven taken, waarvan 99 opzettelijk onoplosbaar zijn. Google's Gemini 3 Pro scoort het beste op onderzoeksniveau met 30%, maar geen enkel model haalt 50% bij het herkennen van onoplosbare taken. De benchmark toont aan dat meer rekenkracht modellen beter maakt in oplossen, maar niet in het toegeven dat een probleem geen antwoord heeft.