【AI 核心摘要】
OpenAI联合英伟达、AMD、英特尔等厂商,通过OCP开放了超大规模AI训练网络协议MRC,旨在实现微秒级故障恢复,支持10万块以上GPU高效协作。MRC通过多平面网络拓扑、自适应包喷射和SRv6静态源路由三大设计,解决了大规模集群中的网络稳定性问题,降低了互联成本和故障点,消除了拥塞和路由收敛抖动。该协议已运行在OpenAI的NVIDIA GB200超算上,包括星际之门和微软Fairwater超算。
了解更多详细信息,请访问原文:OpenAI开放超大规模AI训练网络协议MRC
数据来源:AI Bot
© 版权声明
文章版权归作者所有,未经允许请勿转载。

