Nieuws
FrontierCode: Nieuwe benchmark meet codekwaliteit in plaats van alleen tests halen
Cognition heeft FrontierCode gelanceerd, een nieuwe benchmark die codekwaliteit beoordeelt op basis van mergeerbaarheid in plaats van alleen het slagen voor unittesten. Het beste model, Opus 4.8, haalt slechts 13% op de moeilijkste subset, wat aangeeft dat codeerproblemen nog niet opgelost zijn. Verder worden onderwerpen behandeld zoals agent loops, modelupdates van Kimi, Google en Apple, en nieuwe evaluatiemethoden.