Nieuws
Promptregressie: waarom kleine aanpassingen in prompts stilletjes productiesystemen kunnen breken
Een praktisch raamwerk detecteert verborgen promptregressies voordat ze productiesystemen stilletjes breken. Bij het testen van vier promptversies bleek de 'beste' prompt een valse verbetering te vertonen: de algemene nauwkeurigheid steeg, maar een kritieke categorie (negatieclassificatie) stortte met 66,7% in. De aanpak gebruikt deterministische checks in plaats van LLM-as-a-judge en is volledig reproduceerbaar.