Nieuws

Apple's MLX draait lokale LLMs 3x sneller dan llama.cpp — totdat je context 40k bereikt

Ollama is 93% sneller geworden op elke Apple Silicon Mac, zonder aanpassingen aan het model, de kwantisering of de hardware. Dit werd bereikt door gebruik te maken van Apple's MLX, dat lokale LLMs tot 3x sneller laat draaien dan llama.cpp, maar alleen tot een contextlengte van 40k tokens.

Bron: Towards AI

Originele taal: [en]

Lees hier het originele artikel