Nieuws

De contra-intuïtieve netwerkbeslissingen achter OpenAI's 131.000-GPU-trainingsinfrastructuur

Een consortium van OpenAI, AMD, Broadcom, Intel, Microsoft en NVIDIA heeft het MRC-protocol ontwikkeld voor het verbinden van 131.000 GPU's in trainingsclusters. Het protocol schakelt dynamische routering uit, gebruikt packet spraying over honderden paden en werkt met lossy Ethernet. Deze aanpak vermindert de tail latency en maakt training mogelijk ondanks netwerkfouten. De specificatie is vrijgegeven via het Open Compute Project.

Bron: Towards Data Science

Originele taal: [en-US]

Lees hier het originele artikel

Dossier:

OpenAI Stargate en mega-infrastructuur