Nieuws
De Common Pile v0.1: een 8TB dataset van openbare en open licentie tekst
EleutherAI heeft de Common Pile v0.1 aangekondigd, een 8TB dataset van openbare en open licentie tekst bedoeld voor het trainen van grote taalmodellen. Samen met partners zoals Hugging Face en de University of Toronto is de dataset zorgvuldig samengesteld en bevat ook modellen zoals Comma v0.1-1T en Comma v0.1-2T. De dataset wil transparantie bevorderen en open licentie data beschikbaar maken voor onderzoek en ontwikkeling.