Nieuws

Nous Research stelt Lighthouse Attention voor: hiërarchische aandacht die pretraining tot 1,7× versnelt

Nous Research heeft Lighthouse Attention geïntroduceerd, een trainingsmethode die de kwadratische complexiteit van aandacht in lange sequenties aanpakt. Door symmetrische pooling van queries, keys en values in een piramide en selectie buiten de attention kernel, wordt een snelheidswinst van 1,4 tot 1,7× behaald ten opzichte van standaard SDPA. Na een korte herstelperiode met dichte aandacht presteert het model even goed of beter dan een volledig dicht getraind model. De methode schaalt tot 1M tokens met contextparallelisme op NVIDIA Blackwell GPU's.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel