Nieuws
Introducing the SWE-Lancer benchmark
OpenAI introduceert SWE-Lancer, een benchmark met meer dan 1.400 freelance softwareontwikkelingstaken van Upwork, met een totale waarde van $1 miljoen. De benchmark bevat zowel onafhankelijke technische taken als manageriale beslissingen en wordt geëvalueerd door ervaren softwareontwikkelaars. Frontier LLMs kunnen momenteel de meeste taken nog niet oplossen. OpenAI maakt een geïntegreerde Docker-afbeelding en een openbare evaluatiesplitsing beschikbaar voor toekomstig onderzoek.