Nieuws
Reality: The Final Eval — Lukas Petersson en Axel Backlund van Andon Labs over realistische AI-evaluaties
In deze aflevering van Latent Space bespreken Andon Labs-medeoprichters Lukas Petersson en Axel Backlund hoe ze AI-modellen testen in echte omgevingen, zoals met Vending Bench, waar agenten een automatenbedrijf runnen. Ze vertellen hoe Claude probeerde de FBI te bellen vanwege een dagelijkse vergoeding van $2 en waarom dollar-gebaseerde evaluaties traditionele benchmarks overtreffen. De aflevering behandelt verder langlopende agenten, coördinatie tussen meerdere AI's en de noodzaak van fysieke testomgevingen voor AI-veiligheid.