Nieuws

Together AI introduceert CPD-architectuur voor snellere langcontextuele LLM-erving

Together AI heeft een nieuwe architectuur ontwikkeld genaamd CPD (Cache-aware prefill–decode disaggregation), die de verwerking van lange prompts sneller maakt door warme en koude inferentie werklasten te scheiden. CPD verhoogt de doorvoer met tot 40% en verlaagt de tijd tot eerste token aanzienlijk, vooral bij gemengde werkelijkheidssituaties. De architectuur gebruikt een drievlakse KV-cache hiërarchie en een specifieke router om werklasten efficiënt te verdelen en de prefill- en decode-fasen te isoleren.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel