【AI 核心摘要】
大模型推理正重新定义AI基础设施,网络从支撑性角色演变为影响吞吐、时延和成本的关键变量。针对PD分离部署中的结构性网络拥塞,智谱、驭驯网络与清华大学联合提出ZCube组网架构,并在GLM-5.1 coding生产环境中落地。ZCube采用全网扁平化拓扑和单/多轨混合接入,从架构层面解耦PD流量,避免传统ROFT架构的局部热点和PFC反压问题。实测显示,在保持GPU、软件栈不变的情况下,ZCube实现交换机与光模块成本降低33%,GPU平均推理吞吐提升15%,TTFT P99降低40.6%。该架构通过系统创新释放硬件潜能,为下一代超大规模推理集群提供了更高效、经济的网络底座。
了解更多详细信息,请访问原文:智谱推出下一代大模型推理网络架构 ZCube
数据来源:AI Bot
© 版权声明
文章版权归作者所有,未经允许请勿转载。

