Nieuws
De contra-intuïtieve netwerkbeslissingen achter OpenAI's 131.000-GPU-trainingsinfrastructuur
Een consortium van OpenAI, AMD, Broadcom, Intel, Microsoft en NVIDIA heeft het MRC-protocol ontwikkeld voor het verbinden van 131.000 GPU's in trainingsclusters. Het protocol schakelt dynamische routering uit, gebruikt packet spraying over honderden paden en werkt met lossy Ethernet. Deze aanpak vermindert de tail latency en maakt training mogelijk ondanks netwerkfouten. De specificatie is vrijgegeven via het Open Compute Project.