Nieuws

Slechts drie AI-modellen eindigden boven startkapitaal in 500-daagse startup-overlevingstest

Onderzoekers van Princeton University ontwikkelden CEO-Bench, een test waarbij AI-agenten een fictief softwarebedrijf moeten runnen gedurende 500 gesimuleerde dagen. De meeste modellen gaan failliet; een eenvoudige regelgebaseerde heuristiek verslaat bijna alle AI-modellen. Slechts drie modellen eindigden boven het startkapitaal van één miljoen dollar: Claude Fable 5, Claude Opus 4.8 en GPT-5.5.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel