Nieuws
VLLM optimaliseert GPU-geheugen voor LLM-servers met PagedAttention
VLLM gebruikt PagedAttention, een techniek geïnspireerd op besturingssystemen, om GPU-geheugen efficiënter te benutten. Dit leidt tot een 24x hogere inferentiedoorvoer op dezelfde hardware. Het artikel legt uit hoe deze aanpak 80% verspilling van GPU-geheugen tegengaat.