Nieuws

Databricks versnelt LLM-inferentie met prompt caching voor open-source modellen

Prompt caching hergebruikt herhaalde prompt-prefixen om LLM-inferentie te versnellen. Databricks ondersteunt dit nu voor open-source modellen op batch, pay-per-token en provisioned workloads. In productie op GPT-OSS zorgde prompt caching voor een 2,5x hogere doorvoer en een 3x lagere P50-latentie.

Bron: Databricks Blog

Originele taal: [en]

Lees hier het originele artikel