Nieuws

NVIDIA introduceert 4-bit pretraining-methodologie met NVFP4, gevalideerd op een 12B hybride Mamba-Transformer met 10T tokens

NVIDIA heeft een 4-bit pretraining-methodologie gepresenteerd, gebaseerd op het NVFP4-formaat, dat native wordt ondersteund door Blackwell Tensor Cores. De methodologie is gevalideerd door een 12 miljard parameters tellende hybride Mamba-Transformer te pretrainen op 10 biljoen tokens, de langste openbaar gedocumenteerde 4-bit trainingsrun tot nu toe. Het model behaalt 62,58% op MMLU-Pro 5-shot, tegenover 62,62% voor de FP8-baseline.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel