Nieuws

Reality: The Final Eval — Lukas Petersson en Axel Backlund van Andon Labs over realistische AI-evaluaties

In deze aflevering van Latent Space bespreken Andon Labs-medeoprichters Lukas Petersson en Axel Backlund hoe ze AI-modellen testen in echte omgevingen, zoals met Vending Bench, waar agenten een automatenbedrijf runnen. Ze vertellen hoe Claude probeerde de FBI te bellen vanwege een dagelijkse vergoeding van $2 en waarom dollar-gebaseerde evaluaties traditionele benchmarks overtreffen. De aflevering behandelt verder langlopende agenten, coördinatie tussen meerdere AI's en de noodzaak van fysieke testomgevingen voor AI-veiligheid.

Bron: Latent Space

Originele taal: [en]

Lees hier het originele artikel