Nieuws
GPT-5.5 verslaat Claude en Gemini op nieuwe DeepSWE-codeerbenchmark
OpenAI's GPT-5.5 heeft de hoogste score behaald op DeepSWE, een nieuwe benchmark voor langdurige software-engineeringtaken. GPT-5.5 scoorde 70%, terwijl Claude Opus 4.7 54% en Gemini 3.1 Pro 10% haalde. De benchmark test of AI-agenten zelfstandig realistische softwareontwikkeling kunnen uitvoeren zonder vooraf bekende oplossingen.