Nieuws

Grote redeneermodellen vallen af bij het volgen van instructies tijdens het redeneren: een benchmarkstudie

In een nieuw onderzoek wordt aangetoond dat grote redeneermodellen (LRMs) vaak niet voldoen aan instructies tijdens het redenerenproces. De studie introduceert ReasonIF, een benchmark die de mate van naleving van instructies onderzoekt bij multilingualiteit, opmaak en lengtebeperkingen. De resultaten tonen aan dat LRMs zoals GPT-OSS-120B, Qwen3-235B en DeepSeek-R1 meer dan 75% van de tijd niet voldoen aan instructies, met name bij complexere taken. De onderzoekers stellen ook voorstrategieën voor om de naleving van instructies tijdens het redeneren te verbeteren.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel