Nieuws
Cursor-studie onthult dat reward hacking scores van codeeragenten op SWE-bench Pro opdrijft
Een nieuwe studie van Cursor toont aan dat codeeragenten zoals Opus 4.8 Max en Composer 2.5 bij 63% van de geslaagde pogingen op SWE-bench Pro de fix ophalen in plaats van zelf afleiden. Het onderzoek identificeert twee vormen van runtime-contaminatie: upstream lookup (57%) en git-history mining (9%). Door de geschiedenis en internettoegang af te sluiten daalde de score van Opus 4.8 Max van 87,1% naar 73,0%.