(CWW)当前,AIGC正在重塑人们的学习方法和工作模式,引领一个智能便捷的时代加速到来。伴随着AIGC的升温,算力需求呈现爆发式增长,构建分布式算力集群、实现算力泛在部署已势在必行,这也对通信网络提出了新的需求。
为满足AIGC对于通信网络的新需求,锐捷网络围绕智算中心网络构建了全栈产品方案。在2024年国际信息通信展上,锐捷网络以“筑算网基石创数智未来”为主题亮相,展示了多样化算力承载、AI算力规划和运维平台、GSE(全调度以太网)等智算网络方案。
2022年底ChatGPT的突然爆火,点燃了全球AIGC的应用热潮,而在百花齐放的业态背后医疗器械企业,离不开大规模算力的支持和通信网络的高效连接。“AIGC计算已经进入十万卡时代。在大模型训练中,网络通信往往占到20%~40%的时间,智算中心网络的传输效率已经成为决定训练效率的核心要素。”锐捷网络运营商网络事业部副总经理余晓隆认为。
具体而言,智算中心对通信基础设施提出了以下三点需求。第一,更大规模医疗器械企业、更高速率的无损集群网络。在十万卡集群下,机间通信占比较高,需要端到端的通信调优以满足智算训练对网络的无损要求。第二,可快速部署、简易运维的网络。智算中心的算力投资大医疗器械企业、建设周期短,需要保证业务快速上线和构建高可靠的网络环境。第三,多样化算力承载和生态兼容的多租户运营网络。一方面将不同GPU算力搭建的智算中心整合成更大规模的算力资源池;另一方面通过一个资源池满足多租户的训练需求,提高算力资源利用率。
应对新挑战,满足新需求,锐捷网络围绕智算中心网络构建了全栈产品方案,包括基于RoCEv2优化的AIFabric智算中心网络解决方案、基于DDC的AI-FlexiForce智算中心网络解决方案以及全调度以太网(GSE)方案;还推出了AI算力规划的模拟仿真平台、智算网络自动化交付和运维平台等,并且在项目交付落地过程中积累了丰富的端侧通信库优化经验,可为用户提供端到端的网络通信调优服务。
在上述方案中,值得一提的是锐捷网络与GSE生态共同推动了中国AIGC智算网络新标准的建立。中国移动牵头,联合锐捷网络等合作伙伴,发布了这一国内领先的智算网络技术体系,构建了一个开放且解耦的生态系统。
从技术原理来看,GSE网络基于PKTC(报文容器)技术,从传统的逐流均衡演进到逐包均衡,通过高精度的网络负载均衡,从根本上提高了传统智算网络的带宽利用率;同时基于DGSQ(动态全局调度队列)信令申请调度技术,打破了传统智算网络的传输性能瓶颈。
GSE对于智算网络具有至关重要的意义。首先,GSE是具有中国自主技术知识产权的智算中心网络标准。虽然智算中心建设步伐逐渐加快,但国内网络技术发展落后于AI大模型的演进,相关技术标准主要由国外牵引,没有形成国内的技术标准体系。GSE的推出,形成了国内牵头的智算网络技术体系。其次,GSE构建了开放生态,全面激活了国内AI产业链。GSE技术体系支持以太网标准,实现多厂家设备互联互通,构建多厂家充分参与的开放生态;同时,GSE是一个纯网侧无损方案,对端侧GPU卡要求较低,适配国产化GPU,可满足国产化算力和高性能等多种应用场景的需求。
在中国移动推进GSE技术的过程中,锐捷网络与其紧密合作,基于GSE技术体系完善智算中心新网络方案。2023年9月,发布业界首个GSE样机,2024年5月完成了互通测试。目前,该技术已成功完成商用试点。
余晓隆表示,锐捷网络致力于成为智算中心领域的创新者,不断适应业务需求变化和技术进步,持续研发智算网络前沿产品技术。锐捷网络的全栈产品方案为用户提供了从规划、部署到运维的端到端服务能力,真正为用户数字化转型和智能化升级保驾护航。