Nieuws
Llama-2 70B heeft 64 query-heads en 8 KV-heads: de geheugenberekening die niemand laat zien
Een technisch artikel op Towards AI onthult de exacte geheugenberekening voor de Grouped Query Attention in Llama-2 70B. Het model heeft 64 query-heads en 8 key-value heads, wat leidt tot aanzienlijke geheugenbesparingen. De auteur laat de rekenstappen zien die andere uitleggers overslaan.