Nieuws
Vijf AI-codeeragenten weigerden hun eigen documentatie te controleren, met catastrofale fouten tot gevolg
Een gepreregistreerde benchmark met 3250 beoordeelde pogingen toont aan dat verouderde documentatie AI-codeeragenten ernstig misleidt. In het onderzoek kregen vijf AI-modellen de mogelijkheid om feiten te controleren, maar ze stopten met controleren zodra ze een zelfverzekerd ogend maar fout document kregen. Zelfs GPT-5.4 maakte 100% fouten bij een foutief document, terwijl het zonder document de code in 96% van de gevallen controleerde. De auteur, bouwer van de tool Surface, concludeert dat dit een correctheidsprobleem is en geen hygiëneprobleem.