Nieuws

Recente ontwikkelingen in LLM-architecturen: KV-deling, mHC en gecomprimeerde aandacht

Recente open-weight LLM-architecturen richten zich op efficiëntie bij lange contexten. Voorbeelden zijn KV-deling en per-laag-embeddings in Gemma 4, laagsgewijze aandachtsbudgettering in Laguna XS.2, gecomprimeerde convolutionele aandacht in ZAYA1-8B, en mHC plus gecomprimeerde aandacht in DeepSeek V4. De aanpassingen zitten in transformatorblokken, KV-cache en aandachtmechanismen.

Bron: Ahead of AI

Originele taal: [en]

Lees hier het originele artikel