Nieuws
Perplexity AI stelt Unigram-tokenizer open source met 5x lagere latentie dan Hugging Face
Perplexity AI heeft hun Unigram-tokenizer opnieuw geïmplementeerd in Rust en als open source uitgebracht. De tokenizer behaalt een 5x lagere p50-latentie vergeleken met de Hugging Face tokenizers crate en vermindert het CPU-gebruik in de inferentiestack met 5 tot 6 keer. De optimalisaties omvatten een double-array trie, bitmap-packing en het gebruik van 2 MB huge pages. De code is beschikbaar in de pplx-garden-repository onder MIT-licentie.