Nieuws

Llama-2 70B heeft 64 query-heads en 8 KV-heads: de geheugenberekening die niemand laat zien

Een technisch artikel op Towards AI onthult de exacte geheugenberekening voor de Grouped Query Attention in Llama-2 70B. Het model heeft 64 query-heads en 8 key-value heads, wat leidt tot aanzienlijke geheugenbesparingen. De auteur laat de rekenstappen zien die andere uitleggers overslaan.

Bron: Towards AI

Originele taal: [en]

Lees hier het originele artikel