Nieuws

GPT-5.5 verslaat Claude en Gemini op nieuwe DeepSWE-codeerbenchmark

OpenAI's GPT-5.5 heeft de hoogste score behaald op DeepSWE, een nieuwe benchmark voor langdurige software-engineeringtaken. GPT-5.5 scoorde 70%, terwijl Claude Opus 4.7 54% en Gemini 3.1 Pro 10% haalde. De benchmark test of AI-agenten zelfstandig realistische softwareontwikkeling kunnen uitvoeren zonder vooraf bekende oplossingen.

Bron: Analytics India Magazine

Originele taal: [en-us]

Lees hier het originele artikel

Dossier:

AI-coding agents: Cursor, Claude Code, Copilot