Nieuws
Nieuwe benchmark toont dat Claude Mythos en GPT-5.5 autonoom browser-exploits kunnen ontwikkelen
Onderzoekers van Carnegie Mellon University hebben een benchmark ontwikkeld die meet hoe goed AI-agenten echte kwetsbaarheden in Google's V8-engine kunnen exploiteren. Anthropic's Claude Mythos Preview presteerde aanzienlijk beter dan OpenAI's GPT-5.5, maar kostte twaalf keer zoveel. De test omvatte 41 kwetsbaarheden en Mythos behaalde in 21 gevallen volledige code-uitvoering.