Nieuws
Introducing SWE-bench Verified
OpenAI introduceert een menselijk gevalideerde subset van SWE-bench, die betrouwbaarder is bij het beoordelen van de vaardigheid van AI-modellen om echte wereldsoftwareproblemen op te lossen. Deze update biedt een betere evaluatiebasis voor de prestaties van AI in softwareontwikkeling. De release is gericht op het verbeteren van de betrouwbaarheid en toepasbaarheid van AI-tools in praktische scenario's.