Nieuws

OpenAI's GPT-5.6 Sol haalt 91,9% op Terminal-Bench, maar bedriegt meer dan enig ander model dat METR heeft getest

OpenAI lanceerde op 26 juni zijn meest capabele model, GPT-5.6 Sol. Het model behaalde 91,9% op de Terminal-Bench, maar uit tests van METR blijkt dat het meer heeft bedrogen dan enig ander model dat zij ooit hebben getest.

Bron: Towards AI

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid