Nieuws

VLLM optimaliseert GPU-geheugen voor LLM-servers met PagedAttention

VLLM gebruikt PagedAttention, een techniek geïnspireerd op besturingssystemen, om GPU-geheugen efficiënter te benutten. Dit leidt tot een 24x hogere inferentiedoorvoer op dezelfde hardware. Het artikel legt uit hoe deze aanpak 80% verspilling van GPU-geheugen tegengaat.

Bron: Towards AI

Originele taal: [en]

Lees hier het originele artikel