Nieuws
NVIDIA AI introduceert Dynamo Snapshot: een CRIU-gebaseerd snel opstartsysteem voor AI-inferentie op Kubernetes
NVIDIA's AI-onderzoeksteam heeft Dynamo Snapshot gelanceerd, een checkpoint/restore-aanpak voor AI-inferentie-workloads op Kubernetes. Het systeem gebruikt CRIU en cuda-checkpoint om de opstarttijd van inferentie-replica's drastisch te verkorten, van enkele minuten tot seconden, door KV-cache vrij te geven en parallelle restore-technieken toe te passen. In een proof-of-concept werd de opstarttijd van een 120B-model met 21× teruggebracht tot onder de 5 seconden.