Nieuws
Container caching in Amazon SageMaker AI versnelt model schalen
Amazon SageMaker AI introduceert container caching voor inference, wat de end-to-end latentie bij schalen tot 2x versnelt voor generatieve AI-modellen. De functie verwijdert de vertraging bij het downloaden van containerimages bij het opstarten van nieuwe instanties. In tests met het Qwen3-8B model daalde de starttijd van 525 naar 258 seconden, een verbetering van 51%.