热门文档
- 2024-10-29 15:21:25 PDCERF 方法包括哪六个阶段
- 2024-10-24 16:39:35 基础设施-无人机-智能巡检汇报V1.0(1)
- 2024-10-24 16:39:35 空中机器人创客教室建设方案
- 2024-10-24 16:39:35 航天图景无人机时空数据链行业应用解决方案
- 2024-10-24 17:19:27 智算中心建设项目初步设计方案
- 2024-10-24 16:39:35 【精品】大疆无人机桥梁养护应用解决方案(公开版本)
- 2024-10-24 16:39:35 林业行业解决方案培训
- 2024-10-29 14:37:47 应急论坛-02-谭昶(科大讯飞)-人工智能赋能智慧交通20191031(1)
- 2024-10-29 14:48:13 应急论坛-13-王昊(航天宏图)-3S技术赋能应急管理及灾害监测服务
- 2024-10-30 19:10:38 【精品】互联网 慧公安大数据一体化解决方案慧警务建设方案慧公安全网情报息化作战平台
- 2024-10-30 19:10:38 公安行业移动息化短平台解决方案
- 2024-10-24 16:39:35 2019无人机编队表演方案
1、本文档共计 0 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
新型智算中心组网方案研究Research on Networking Scheme ofNew Intelligent Computing Center张世华',文湘江2,申佳',张奎',谭蓓',刘俊通(1.中讯邮电咨询设计院有限公司郑州分公司,河南郑州450000:2.中国联合网络通信集团有服公司,北京100033:3.中国联通江西分公司,江西南昌330096)Zhang Shihua'.Wen Xiang ang',Shen Jia',Zhang Kul'.Tan Pel',Liu Juntong'(1.China Information Technology DesigningConsulting Institute Co..Ltd.Zhengzhou Branch,Zhengzhou 450000,China:2.China United Network Communications Group Co..Ltd..Bei摘要:关键词:doi:10.12045M.issn.1007-3043.2024.06.005文章编号:1007-3043(2024)06-0022-04中图分类号:TN915回回文献标识码:AAbstract:The current demand for computing power is exploding,and general computing is also evolving towards artificial intelligence.As the center for data exchange between computing power.the new network of intelligent computing centers has become akey factor affecting the performance of computing power.It analyzes the demands of intelligent computing centers on thenetwork.conducts in-depth research on network protoools.architecture,and operation and maintenance management.andprovides suggestions for the networking solution of intelligent computing centers based on industry development.Keywords:52.3%。例如,目前L2级别的自动驾驶通常需要数1智算中心的重要性及组网挑战百T0PS的算力,但要想真正实现1415级别的自动驾算力是数字经济时代的核心生产力,是推动经济驶.至少需要20000+T0PS的算力。发展的新引擎。随着元字宙.ChatGPT等业务的兴起,受制于芯片材料,工艺、成本等因素,算力的增长语言处理,机器视觉、自动驾驶等多个领域借助强大速度逐渐放缓,与算力需求存在极大差异,这也推动的数据计算能力,取得了长足的发展。相较于传统云了芯片新技术以及异构算力的发展。以GPU、类脑芯计算、超算中心,智算中心更能满足日益丰富的人工片为代表的异构算力的蜢起表明未来计算数据将在智能算力需求,未来80%的场景所使用的算力资源都最合适的地方,以最合适的算力来处理。同时,当单将由智算中心承载”。面参数量巨大的AI模型,对智台服务器的算力无法满足业务需求时,可使用分布式能算力的需求飞速提升,根据DC评估报告,2021年训练的智算集群,通过多台服务器以及算法优化的并一2026年,中国智能算力规模年复合增长率达行方式构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力和内存的瓶颈。大模型训收稿日期:2024-05-07练一般采用并行模式,连接集群的网铬决定了智算节222024/06/DTPT点设备间的通信效率,进而影响整个智算集群的算力性能和数据吞吐量,这对数据中心网铬提出了新挑CPU战,具体如下。)零丢包。智算集群对丢包十分敏感,如果网络BUS故障不能被快速定位并传递到终端进行端行为控制.轻则需要回退到上一个分布式训练的断点进行重RDMA网卡训.重则可能要将整个任务从零开始重训。0.1%的丢包会使算力性能下降50%,1次训练中断会增加4h的训练时长。因此,网络稳定性对分布式训练任务非常图1RDMA同路下服务器转发报文的路径重要,也是当前数据中心网路的最大短板。宽网络需求的增长,RD川A逐步在高性能数据中心中b)低时延。传统TCPP网铬中,发送端给接收端被推广应用。根据Ur发布的测试数据,在128块发清息实际上是把发送端内存中的一段数据,通过数GPU和25GE网卡的配置环境下,进行VGG-16模型据中心网路传送到接收端的内存中。无论是发送端(网络深度为16的卷积神经网络)训练时,使用RDMA还是接收端,在报文传输过程中都需要剂用CPU,复的处理性能比使用TCP高出30%,因此RDMA成为智杂的报文处理流程使CPU显得力不从心,同时造成节算中心网路的最佳选择之一。RDMA的主要实现方案点间通信时间变长如下。©)大带宽。在并行计算模型中,单个计算节点完a)InfiniBand(以下简称IB)协i议。B是一个完整成计算任务后,需要快速地将计算结果同步给其他节的网络协议,它单独定义了1-4层的报文格式。基于点,以便进行下一轮计算:面在完成计算结果数据同eredit信令机制.发送端在确认接收端有足够额度可以步前,计算节点会一直处于等待状态。在大模型并行接收对应数量的报文后,才会进行报文发送,从根本计算中,计算节点之间同步的数据量非常大,并且大上避免了报文在传输过程中从缓冲区溢出导致丢包部分是瞬时脉冲流量,如果网络带宽不足,数据传输的情况,实现了无损网络。B在物理层定义了多种链就会变慢,进面影响训练效率。路速度,例如1X,4X,12X,每种类型的链路使用四线申行差分连接,网铬带宽升级到了NDR(单速率为1002智算中心组网技术研究2.1协议层—一无损网络远程直接内存访问(Remote Direct Memory Ae-卡和线缆。cess,RDMA)可以使务器直接高速读写其他服务器的内存数据,不需要经过操作系统/CPU/GPU的处理,种在以太网上进行RDMA的网络通信协议,而RCEv1成为解决智算中心组网问题的优选方案。RDMA主要协议保留了B协议的应用程序接口、传输层和网路流程是本端服务器RDMA网卡从内存中转贝用户空层,将链路层和物理层替换为以太网协议。由于缺少问数据到内部存储空间,通过网卡自身进行报文封装IP路由功能,RσCEvI数据包只能在二层网路中传输。后,使用物理链路发送到对端服务器,对端服务器RDMA网卡接收到报文后进行解封装,再将数据拷贝理层替换为以太网协议,将RDA应用数据封装到到内存的用户空间中,RDMA网路下服务器转发报文UDP报文中,再加上P,以太网报文头,使报文可以在的路径如图1所示。DMA的主要优势包括2点。以太网中进行传输,并通过基于优先级的流量控制a)零考贝,即不需要在内核空间和用户空间之间plicit Congestion Notification,ECN)等流控机制,保证发b)CPU/GPU载。由RDMA网卡实现报文封装送端和接收瑞速率匹配。RCE,2通过普通的以太网和解析,CPU/GPU芯片无需参与内存读写,报文处理交换机搭配支持RoCE2的网卡实现,但对设备性能等工作,减少对芯片的开销消耗较大。随者A!大模型并行计算对高可靠、低时延,大带d)iWARP。与RoCE协议继承IB不同,iWARP自邮电设计技术2024/0623成一派,遵循IETF协议标准,上层包括RDMAP(为上势是网络转发路径小,组网成本较低层用户提供RDMA语义,支撑各类请求),DDP(负责在23网络运维管理传输层协议之上实现零拷贝)、MPA(完成与TCP适配由于RDMA的协议机制和通信方式与传统TCP/工作,按照一定算法在TCP流中加入控制信息)。P协议差异较大,智算中心高性能网络的运维管理方iWARP底层基于TCPAP协议,但需要支持iWARP功式也和P网络存在很大差异,具体如下。能的特殊网卡设备。a)高精度的流量采集能力。A!大模型的流量呈日前业界比较常用的RDMA实现方案是B和Ro-现较强的突发性,常规的SNMP协议以30s的采样周CE2,而RCEv1和iWARP存在一些技术缺陷,实际朔收集流量数据,现已无法呈现网络的关键带宽指应用并不广泛。本文将重点介绍B和RaCE2方案。标22网络架构b)细颗粒的流量统计能力。RDMA网络通过端对于A大模型的智算中心场景,需要特别关注数口队列发送报文,因此需要将流量统计的维度从端口据中心网络的传输时延和可扩展性,传统的网路架构级别细化到队列级别。主要考虑其通用性,往往会牺性部分性能。针对该问c)自动化部署与检测能力。RDMA协议及其出题,目前主流的网铬架构有3种(见图2)色的拥塞控制机制使得网络配置复杂多样化,而智算中心的超大规模进一步增加了配置复杂度,需要自动化配置工具和可快速定位故障的检测工具来提升智算中心的运行效率d)流控指标采集和统计能力。若采用RCEv2实Fat-Tree现RDMA,需要使用PFC和ECN机制进行流量控制,运维管理系统相应地需要对PFC,ECN等关键指标进行采集和统计。a)F-Tre。传统树形网络拓扑从叶子节点到根3智算中心组网方案研究及建议带宽远小于各叶子带宽之和,容易成为转发性能的瓶基于流控机制,网络时延、传输带宽等多个方面颈,无法满足大规模计算的MapReduce和数据拷贝。对IB方案和RaCE2方案进行比较(见表1)。在性能、而Fa-Te拓扑的网络带宽是不收敛的,即每个节点扩展性以及网络配置方面,B网络占优,但成木较高,的上行带宽和下行带宽相等,支持对接入带宽的线速适合在高性能需求的场景中使用:而在成本,开放性、转发,并且在横向扩展时支持增加链路带宽。F-供应链方面,RCEv2网络占优,建议在回产化算力资Te拓扑中所使用的网络设备均为端口能力相同的交源池以及存储网络中使用,同时需增强RaCE2网络换机,可有效降低网络建设成木。的网络部署,调优及维护能力。b)Torus.。Tous是一种环面拓扑,它将节点按照在组网架构方面,当网络规模较小(数千节点及网格的方式排列,然后连接同行和同列的相邻节点,以下)时,建议采用Fat-Tee。Fat-Tee拓扑具有网路并连接同行和同列的最远端的2个节点,使得Tous拓扑中每行和每列都是一个环。Tous拓扑通过从二维于中小规模智算中心。当网络达到一定规模后,例如扩展到三维,甚至更高维的方式增加新的接人节点,上万节点时,建议采用Dragonfly和Torus。.Dragonfly和同时可以提高网路带宽,降低延迟。Tous拓扑的建网成本更低,交换机端到端转发跳数也c)Dragonfly。Dragonfly是一种分层的拓扑结构,会明显减少,可提升网络整体吞吐和性能,适用于大规模,超大规模智算中心。台交换机和与其相连的多个计算节点:Gmup层包含多个Switch,多个Switeh间进行全连接:System层包含择使用B方案组建智算中心,腾讯,阿里,字节跳动等多个Goup,多个Gmup间也进行全连接(拓扑中每个回内厂商使用RCE2方案,配合自研交换机、DPU加圆圈代表一个Goup节点)。Dragonfly拓扑的主要优速卡、协议优化和智能运维工具等手段来满足智算中242024/06/DTPT
请如实的对该文档进行评分-
-
-
-
-
0 分