Nieuws

Nieuwe wiskundebenchmark onthult dat AI-modellen vol vertrouwen problemen oplossen die geen oplossing hebben

Een consortium van 64 wiskundigen heeft SOOHAK ontwikkeld, een nieuwe AI-benchmark met 439 handgeschreven taken, waarvan 99 opzettelijk onoplosbaar zijn. Google's Gemini 3 Pro scoort het beste op onderzoeksniveau met 30%, maar geen enkel model haalt 50% bij het herkennen van onoplosbare taken. De benchmark toont aan dat meer rekenkracht modellen beter maakt in oplossen, maar niet in het toegeven dat een probleem geen antwoord heeft.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid