Nieuws

De Common Pile v0.1: een 8TB dataset van openbare en open licentie tekst

EleutherAI heeft de Common Pile v0.1 aangekondigd, een 8TB dataset van openbare en open licentie tekst bedoeld voor het trainen van grote taalmodellen. Samen met partners zoals Hugging Face en de University of Toronto is de dataset zorgvuldig samengesteld en bevat ook modellen zoals Comma v0.1-1T en Comma v0.1-2T. De dataset wil transparantie bevorderen en open licentie data beschikbaar maken voor onderzoek en ontwikkeling.

Bron: EleutherAI Blog

Originele taal: [en-us]

Lees hier het originele artikel