Nieuws
KV Cache Hergebruik voor Multi-Agent LLM Inferentie: Prefill Één Keer, Fan Out
Een C++ runtime met copy-on-fork KV snapshots elimineert redundante LLM prefills in multi-agent pipelines. Op een GTX 1080 werd een twee-agent pipeline 48,69% sneller end-to-end en de tweede agent activatielatentie daalde 98,09%. De techniek is gebaseerd op systems engineering, niet op nieuwe algoritmes.