Nieuws

ByteDance-studie toont aan dat het stellen van vragen aan LMM's beter werkt dan het transcriberen van tekst voor lange documenttraining

Onderzoekers van ByteDance Seed en de Hong Kong University of Science and Technology hebben ontdekt dat het trainen van multimodale AI-modellen met vraag-antwoordparen veel effectiever is dan met tekstherkenning. Ze ontwikkelden het model MMProLong, gebaseerd op Alibaba's Qwen2.5-VL, dat ondanks een bescheiden trainingsbudget beter presteert dan veel grotere open modellen zoals InternVL3-38B en Gemma3-27B. Het model blijft stabiel bij invoerlengtes tot 512.000 tokens, zelfs als het maar op 128.000 tokens is getraind. De studie benadrukt dat het optimaliseren van trainingsdata belangrijker is dan het aanpassen van de architectuur.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel