Nieuws

DiffuJudge-AV: een diffusie-geïnspireerd raamwerk voor gekalibreerde evaluatie van autonoom rijden-video's

Een nieuw raamwerk genaamd DiffuJudge-AV gebruikt een diffusie-analogie om LLM-rechters te stress-testen en te ontruisen voor veiligheidskritieke autonome rijvideo's. Uit 28.400 evaluaties op de LingoQA-benchmark bleek dat Qwen2.5-VL-7B, een open 7B visie-taalmodel, de beste rechter was met een Cohen's κ van 0,837 en een fail-detectie F1 van 0,712. Het raamwerk produceert per-item posterieure onzekerheid om scores beter te kunnen gebruiken in veiligheidsbeslissingen.

Bron: Towards Data Science

Originele taal: [en-US]

Lees hier het originele artikel