Nieuws
Een LLM bouwen vanaf nul: ik trainde woord-embeddings op Dostoevsky. Hier is wat ik vond.
Een blogschrijver beschrijft hoe hij woord-embeddings vanaf nul heeft getraind met behulp van teksten van Dostoevsky. Hij legt uit hoe embeddings woorden in vectorvorm vertegenwoordigen om semantische relaties te vangen. Voor het project gebruikte hij vijf romans van Dostoevsky, wat bijna 1 miljoen woorden opleverde. Vanwege hardwarebeperkingen koos hij voor 32 dimensies in plaats van de gebruikelijke 100–300.