Nieuws

Sakana AI stelt DiffusionBlocks voor: een blokgewijs trainingsraamwerk dat residunetwerken omzet in onafhankelijk trainbare denoisingmodules

Onderzoekers van Sakana AI en de Universiteit van Tokio introduceren DiffusionBlocks, een methode om transformator-gebaseerde netwerken per blok te trainen. Het trainingsgeheugen wordt hierbij gereduceerd met een factor B, waarbij B het aantal blokken is. DiffusionBlocks vertaalt residuverbindingen naar Euler-stappen van de reverse diffusie-ODE, waardoor elk blok onafhankelijk kan worden getraind met een score-matching doel. De methode is gevalideerd op vijf verschillende architecturen en biedt prestaties die dicht bij end-to-end backpropagation liggen.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel