Nieuws
Recente ontwikkelingen in LLM-architecturen: KV-deling, mHC en gecomprimeerde aandacht
Recente open-weight LLM-architecturen richten zich op efficiëntie bij lange contexten. Voorbeelden zijn KV-deling en per-laag-embeddings in Gemma 4, laagsgewijze aandachtsbudgettering in Laguna XS.2, gecomprimeerde convolutionele aandacht in ZAYA1-8B, en mHC plus gecomprimeerde aandacht in DeepSeek V4. De aanpassingen zitten in transformatorblokken, KV-cache en aandachtmechanismen.