Nieuws

Parallax: een geparametriseerde lokale lineaire aandacht die softmax behoudt en een geleerde covariantiecorrectie toevoegt

Onderzoekers van Northwestern University, Tilde Research en University of Washington introduceren Parallax, een nieuw aandachtsmechanisme dat softmaxaandacht behoudt en een geleerde covariantiecorrectietak toevoegt. Parallax vervangt de per-query oplossing van Lokale Lineaire Aandacht door een leerbare projectiematrix, verdubbelt de rekenintensiteit en presteert beter dan FlashAttention in decode-benchmarks op NVIDIA H200 GPU's. Bij LLM-training op schalen van 0,6B en 1,7B parameters boekt Parallax consistente winst in perplexiteit en downstream-prestaties, maar de voordelen zijn sterk afhankelijk van de Muon-optimizer.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel