Nieuws

Nieuwe benchmark toont dat Claude Mythos en GPT-5.5 autonoom browser-exploits kunnen ontwikkelen

Onderzoekers van Carnegie Mellon University hebben een benchmark ontwikkeld die meet hoe goed AI-agenten echte kwetsbaarheden in Google's V8-engine kunnen exploiteren. Anthropic's Claude Mythos Preview presteerde aanzienlijk beter dan OpenAI's GPT-5.5, maar kostte twaalf keer zoveel. De test omvatte 41 kwetsbaarheden en Mythos behaalde in 21 gevallen volledige code-uitvoering.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel

Dossiers:

Anthropic Claude Mythos / Fable 5 GPT-5.5 Cyber en trusted cyber access