Nieuws

Container caching in Amazon SageMaker AI versnelt model schalen

Amazon SageMaker AI introduceert container caching voor inference, wat de end-to-end latentie bij schalen tot 2x versnelt voor generatieve AI-modellen. De functie verwijdert de vertraging bij het downloaden van containerimages bij het opstarten van nieuwe instanties. In tests met het Qwen3-8B model daalde de starttijd van 525 naar 258 seconden, een verbetering van 51%.

Bron: AWS Machine Learning Blog

Originele taal: [en-US]

Lees hier het originele artikel