Nieuws

FrontierCode: Nieuwe benchmark meet codekwaliteit in plaats van alleen tests halen

Cognition heeft FrontierCode gelanceerd, een nieuwe benchmark die codekwaliteit beoordeelt op basis van mergeerbaarheid in plaats van alleen het slagen voor unittesten. Het beste model, Opus 4.8, haalt slechts 13% op de moeilijkste subset, wat aangeeft dat codeerproblemen nog niet opgelost zijn. Verder worden onderwerpen behandeld zoals agent loops, modelupdates van Kimi, Google en Apple, en nieuwe evaluatiemethoden.

Bron: Latent Space

Originele taal: [en]

Lees hier het originele artikel

Dossier:

AI-coding agents: Cursor, Claude Code, Copilot