Nieuws

Waarom OpenAI SWE-bench Verified niet langer gebruikt

OpenAI heeft besloten SWE-bench Verified niet langer te gebruiken als maatstaf voor de voortgang van modellen in autonome softwareontwikkeling. De evaluatie is steeds vaker vervuild en geeft niet meer een betrouwbare weerspiegeling van de werkelijke vaardigheden van modellen. Problemen zoals foutieve testcases en trainingssleutels maken de benchmark ongeschikt. OpenAI adviseert nu SWE-bench Pro te gebruiken, die minder vervuiling lijkt te vertonen.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

AI-coding agents: Cursor, Claude Code, Copilot