Nieuws
Databricks versnelt LLM-inferentie met prompt caching voor open-source modellen
Prompt caching hergebruikt herhaalde prompt-prefixen om LLM-inferentie te versnellen. Databricks ondersteunt dit nu voor open-source modellen op batch, pay-per-token en provisioned workloads. In productie op GPT-OSS zorgde prompt caching voor een 2,5x hogere doorvoer en een 3x lagere P50-latentie.