Nieuws

Introducing SWE-bench Verified

OpenAI introduceert een menselijk gevalideerde subset van SWE-bench, die betrouwbaarder is bij het beoordelen van de vaardigheid van AI-modellen om echte wereldsoftwareproblemen op te lossen. Deze update biedt een betere evaluatiebasis voor de prestaties van AI in softwareontwikkeling. De release is gericht op het verbeteren van de betrouwbaarheid en toepasbaarheid van AI-tools in praktische scenario's.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

AI-coding agents: Cursor, Claude Code, Copilot