Nieuws
Bouw een code-datasetpijplijn met NVIDIA Nemotron-Pretraining-Code-v3-metadata via streaming, Pandas en tiktoken
De tutorial legt uit hoe je de NVIDIA Nemotron-Pretraining-Code-v3-dataset kunt streamen en analyseren zonder de volledige dataset te downloaden. Het behandelt het inspecteren van het schema, het maken van een steekproef en het schatten van het tokenschaal. Aan het einde wordt een herbruikbaar gefilterd monster gemaakt voor verder onderzoek.