Nieuws
C++ Backend optimaliseert LLM-inferentie door padding te elimineren
Een nieuwe C++ backend, WarpGroup-Backend, optimaliseert LLM-inferentie door padding van korte sequenties te elimineren. De techniek maakt gebruik van hardwarebewuste bin packing en pinned-memory transfers om de doorvoer tot 5,89× te versnellen op een GTX 1080. Het project is beschikbaar op GitHub en richt zich op prefill- en offline workloads.