Nieuws
Apple's MLX draait lokale LLMs 3x sneller dan llama.cpp — totdat je context 40k bereikt
Ollama is 93% sneller geworden op elke Apple Silicon Mac, zonder aanpassingen aan het model, de kwantisering of de hardware. Dit werd bereikt door gebruik te maken van Apple's MLX, dat lokale LLMs tot 3x sneller laat draaien dan llama.cpp, maar alleen tot een contextlengte van 40k tokens.