近日,在中国迁移(600941)集团公司带领下,中国迁移盘考院聚采集国迁移黑龙江公司在大家运营商最大单集群智算中心——中国迁移(哈尔滨)数据中心完成首个面向PP(活水线并行)西宾的OTN承载百公里级智算散播式协同现网本领锻真金不怕火。本次本领锻真金不怕火初度完成了基于800G OTN的104km跨智算集群散播式PP西宾,罢了了等同单节点西宾效率98%以上的高效协同西宾,是业界初度百公里级跨集群PP西宾可行性本领考证探索。
跟着智算集群限度向超万卡演进,单智算节点的捏续扩容将濒临电力供应、机房空间的高大挑战,而况智算中心分地域、分时间、分阶段缔造局势较为大宗。智算散播式协同是破解单节点蚁合部署受限、算力资源孤岛等艰难的进犯处治决议。而若何将散播式部署的智算节点进行高效的互联,充分阐扬算力资源的最大服从,是业界亟需盘考的要道问题。OTN具有大带宽、强健低时延、高可靠等传输和组网本领特质,已平凡哄骗于主干传送和城域传送网罗,是构建跨集群散播式西宾的潜在互联本领。而散播式智算对光网罗的新需求与遴荐的DP(数据并行)、PP等西宾并行样貌平直联系,其中,PP是基础大模子西宾的最常用并行样式之一,比较DP具有通讯频次高、通讯时分不行一皆遮盖等更高难度,其拉远可行性在业界存在较大不对。
中国迁移盘考院面向智算散播式协同场景捏续开展本领鼎新,完成业界首个面向PP西宾的OTN承载百公里级智算散播式协同本领现网锻真金不怕火。在锻真金不怕火中基于800G OTN互联的两个智算集群上启动700亿级参数的大型基础话语模子,在64张GPU卡、4个PP域差别在相距104km的两个节点部署场景下,罢了了等同单节点西宾效率98%以上的高效协同西宾,是业界初度考证了OTN承载基于PP的百公里跨集群西宾可行性,为散播式智算本领演进提供了全新本走漏线和详确锻真金不怕火数据。此外,还鼎新残忍了面向智算散播式协同的OTN无损倒换本领决议,通过芯片级算法罢了传输链路断纤、误码时西宾效率的无损和无感知。
自2023年起开云(中国)kaiyun网页版登录入口开云体育,中国迁移盘考院采集国内合营伙伴,开展跨集群散播式西宾互联本领攻关,鼎新残忍基于OTN的智算散播式协同架构,初度完成2-100公里不同距离多场景下OTN承载散播式智算本领锻真金不怕火,联系效率在光通讯顶会ECOC发表。中国迁移后续将围绕智算散播式协同长远股东要道本领攻关、原型研发与锻真金不怕火考证,探索散播式智算中心新样貌。