Nieuws

Microsoft Research's Lens toont aan dat gedetailleerde bijschriften belangrijker zijn dan ruwe schaal voor het trainen van efficiënte beeldgeneratoren

Microsoft Research heeft Lens gepresenteerd, een tekst-naar-beeld model met slechts 3,8 miljard parameters dat presteert op het niveau van veel grotere concurrenten. Het geheim zit in 800 miljoen gedetailleerde afbeeldingsbijschriften gegenereerd door GPT-4.1 in plaats van vage web alt-tekst. Lens is open-source beschikbaar onder de MIT-licentie.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel