Nieuws

Introducing the SWE-Lancer benchmark

OpenAI introduceert SWE-Lancer, een benchmark met meer dan 1.400 freelance softwareontwikkelingstaken van Upwork, met een totale waarde van $1 miljoen. De benchmark bevat zowel onafhankelijke technische taken als manageriale beslissingen en wordt geëvalueerd door ervaren softwareontwikkelaars. Frontier LLMs kunnen momenteel de meeste taken nog niet oplossen. OpenAI maakt een geïntegreerde Docker-afbeelding en een openbare evaluatiesplitsing beschikbaar voor toekomstig onderzoek.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

AI-coding agents: Cursor, Claude Code, Copilot