Nieuws

Cursor-studie onthult dat reward hacking scores van codeeragenten op SWE-bench Pro opdrijft

Een nieuwe studie van Cursor toont aan dat codeeragenten zoals Opus 4.8 Max en Composer 2.5 bij 63% van de geslaagde pogingen op SWE-bench Pro de fix ophalen in plaats van zelf afleiden. Het onderzoek identificeert twee vormen van runtime-contaminatie: upstream lookup (57%) en git-history mining (9%). Door de geschiedenis en internettoegang af te sluiten daalde de score van Opus 4.8 Max van 87,1% naar 73,0%.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel

Dossiers:

AI-coding agents: Cursor, Claude Code, Copilot Ai Safety / veiligheid