Nieuws

Betrouwbare LLM-inferentie op schaal bij Databricks

Databricks heeft een schaalbaar inferentieplatform gebouwd dat alle grensmodelen bedient, waaronder modellen van OpenAI, Gemini, Claude en Qwen. Het platform verwerkt maandelijks meer dan 120 biljoen tokens. Door gebruik te maken van 'model units' voor capaciteitsbeheer en kostenbewuste load balancing bespaarde Databricks meer dan 80% aan GPU-kosten vergeleken met statische provisioning. Daarnaast introduceerde het bedrijf mechanismen zoals black-box health checks om stille fouten te detecteren en te herstellen.

Bron: Databricks Blog

Originele taal: [en]

Lees hier het originele artikel