Nieuws

Promptregressie: waarom kleine aanpassingen in prompts stilletjes productiesystemen kunnen breken

Een praktisch raamwerk detecteert verborgen promptregressies voordat ze productiesystemen stilletjes breken. Bij het testen van vier promptversies bleek de 'beste' prompt een valse verbetering te vertonen: de algemene nauwkeurigheid steeg, maar een kritieke categorie (negatieclassificatie) stortte met 66,7% in. De aanpak gebruikt deterministische checks in plaats van LLM-as-a-judge en is volledig reproduceerbaar.

Bron: Towards Data Science

Originele taal: [en-US]

Lees hier het originele artikel