Nieuws
Waarom OpenAI SWE-bench Verified niet langer gebruikt
OpenAI heeft besloten SWE-bench Verified niet langer te gebruiken als maatstaf voor de voortgang van modellen in autonome softwareontwikkeling. De evaluatie is steeds vaker vervuild en geeft niet meer een betrouwbare weerspiegeling van de werkelijke vaardigheden van modellen. Problemen zoals foutieve testcases en trainingssleutels maken de benchmark ongeschikt. OpenAI adviseert nu SWE-bench Pro te gebruiken, die minder vervuiling lijkt te vertonen.