Nieuws
Microsoft Research onderzoekt betrouwbaarheid van AI bij langdurige gedelegeerde taken
Microsoft Research heeft een paper gepubliceerd over de betrouwbaarheid van AI-systemen in gedelegeerde workflows. Onderzoekers gebruiken de DELEGATE-52 benchmark om te meten hoe goed informatie behouden blijft na meerdere bewerkingsstappen. Uit de resultaten blijkt dat state-of-the-art modellen na 20 iteraties een degradatie van 19-34% in artefactgetrouwheid kunnen vertonen, hoewel Python-workflows met minder dan 1% degradatie robuuster zijn. Productiesystemen kunnen deze effecten beperken door verificatielussen en domeinspecifieke tooling.