Nieuws
Hoe Superhuman en Databricks samen een 200K QPS-inferentieplatform bouwden
Superhuman en Databricks hebben samen een hoogprestaties platform ontwikkeld voor het uitvoeren van AI-modellen, met een capaciteit van 200.000 queries per seconde en subseconde latentie. Ze gebruikten onder andere FP8-quantisatie en optimisaties op de GPU en CPU om de doorvoer te verhogen en de kosten te verlagen. Dit artikel beschrijft de technische details van de samenwerking en de ingezette optimalisaties.