中国移动智算中心网络技术实践与思考.pdf

上传人：Stan****Shan

文档编号：1302401

上传时间：2024-04-22

格式：PDF

页数：16

大小：14.23MB

《中国移动智算中心网络技术实践与思考.pdf》由会员分享，可在线阅读，更多相关《中国移动智算中心网络技术实践与思考.pdf（16页珍藏版）》请在咨信网上搜索。

1、中国移动中国移动智算中心网络技术实践与思考智算中心网络技术实践与思考姓名：姓名：王瑞雪王瑞雪中国移动中国移动目录目录一、一、中国移动中国移动NICCNICC技术体系技术体系二、智算中心网络二、智算中心网络面临的挑战面临的挑战三、智算中心网络创新实践三、智算中心网络创新实践四、总结与展望四、总结与展望智算中心背景与需求智算中心背景与需求AIGCAIGC（AI-Generated Content，人工智能生产内容）发展迅猛，迭代速度呈现指数级增长指数级增长，全球范围内经济价值预计将达到数万亿美元，智能算力将成为未来智能算力将成为未来主流主流算力算力国内市场规模国内市场规模20002000亿元亿元（

2、2025年）大模型参数量大模型参数量千亿、万亿级千亿、万亿级GPUGPU算力规模算力规模10000+10000+卡卡新型智算中心以高性能GPU、AI加速卡为中心，以高速互联智算集群为目标，形成集约化建设的E级超大规模算力基础设施，具备软硬件AI全栈环境，支撑AI大模型的高效训练和推理NICCNICC新型智算中心技术体系新型智算中心技术体系中国移动中国移动NICCNICC技术体系从技术体系从新互联、新算效、新存储、新平台、新节能新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构，等五大方面进行系统性重构，加快发展智能算力，构建标准统一、技术领先、软硬协同、兼容开放的加快发展智能算力

3、，构建标准统一、技术领先、软硬协同、兼容开放的新型智算中心技术体系新型智算中心技术体系新平台新平台-算力原生算力原生“芯合”算力原生平台，使能应用一次开发，跨架构迁移新互联新互联-高速互联计算总线高速互联计算总线构建智算芯片快速互联标准体系，提升卡间互联性能新存储新存储-内存池内存池构建统一内存池，实现一致性内存语义和空间寻址新互联新互联-全调度以太网全调度以太网GSEGSE无阻塞、高带宽、低时延网络，提升节点间的传输性能新算效新算效-DPUDPU与计算、网络、存储深度协同，助力算效提升。新节能新节能-冷板式液冷冷板式液冷聚焦液冷服务器和机柜的接口标准，优化运维管理能力NICCNICC新型智算

4、中心技术体系新型智算中心技术体系布局攻关创新技术推动智算发展布局攻关创新技术推动智算发展基础设施基础设施智算平台智算平台ROCmROCmCUDACUDACANNCANNTesnsorFlowTesnsorFlowPyTorchPyTorchPaddlePaddlePaddlePaddleDeepDeepSpeedSpeed文件文件对象对象块块GPUGPURoCERoCEGSEGSE液冷液冷高效供电高效供电机房配套机房配套冷却水系统冷却水系统应用使能应用使能.智智算算运运营营跨架构编译器跨架构编译器算力抽象运行时算力抽象运行时算力原生算力原生智智算算运运维维裸金属实例裸金属实例虚拟机实例虚拟机实

5、例容器实例容器实例DPUDPU 高速互联计算总线高速互联计算总线内存池内存池融合存储融合存储全局统一存储全局统一存储Hypervisor+Hypervisor+AIAI开发框架开发框架AI DSAAI DSA互联互联计算计算网络网络存储存储存储存储算算效效节能节能平台平台AIAI参数面通信特征参数面通信特征大模大模型的参数量呈指数增长态势，型的参数量呈指数增长态势，“大模型大模型”正走向正走向“超大模型超大模型”，基于数据并行、模型并行的基于数据并行、模型并行的分布式训练成为处理超大模型和超大数据集的有效手段分布式训练成为处理超大模型和超大数据集的有效手段服务器内Tensor并行（机内总线通信

6、）一组服务器内Pipeline并行（网络同轨通信）服务器间数据并行（网络同轨通信）GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage1GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stageXData Parallel Rank0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage1

7、GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stageXData Parallel Rank1Data Parallel Rank Y大模型训练通信特点：周期性，每轮迭代的通信模式一致流数量少，单流带宽大，同步突发每轮通信量大(GB百GB级)服务器内通信量为百GB级，以allreduce为主服务器间通信量为GB级，包括allreduce和p2p，大部分可以被计算掩盖MOE会引入节点间alltoall流量网络是提升网络是提升AIAI大模型训练效率的关键大模型训练效率的关键大模型以大模型以GPUGPU集群分布式训练为基础，集群节点间频繁地参数同步带来大量通信

8、开销，集群分布式训练为基础，集群节点间频繁地参数同步带来大量通信开销，网络性能成为提升网络性能成为提升GPUGPU集群算力水平的关键集群算力水平的关键网络性能决定网络性能决定GPUGPU集群算力加速比集群算力加速比作为集群共享资源，相比单点GPU故障或性能波动，网络故障影响域大，网络性能波动影响范围广集群有效算力集群有效算力GPUGPU单卡算力单卡算力*总卡数总卡数*线性加速比线性加速比*有效运行时有效运行时网络可用性决定网络可用性决定GPUGPU集群稳定性集群稳定性在大模型训练任务场景，并行系统节点数越多，机间通信占比越高，网络性能成为获得线性加速比的关键AIAI业务对丢包敏感，业务对丢包敏

9、感，2%2%的丢包就会使的丢包就会使RDMARDMA吞吐率下降为吞吐率下降为0 0GPUGPU集群性能集群性能单单GPGPU U性能性能*N N网络芯片能力一定程度决定智算中心网络规模和性能，单芯片容量越大，组网规模越大且成本越低芯片能力决定芯片能力决定GPUGPU集群组网规模集群组网规模H800(400GH800(400G*8)8)服务器，服务器，51.2T51.2T可支持可支持10241024台服务器组网，台服务器组网，12.8T12.8T仅支持仅支持6464台服务器组网台服务器组网12.8T12.8T芯片芯片端口数量端口数量交换机数量交换机数量Leaf32*400G128Spine32

10、*400G128Core32*400G6451.2T51.2T芯片芯片端口数量端口数量交换机数量交换机数量Leaf128*400G32Spine128*400G16以以256256台台H H800800服务器，每服务器出服务器，每服务器出8 8个个4 400G00G网卡为例网卡为例传统无损以太技术存在性能瓶颈，需从底层机制革新传统无损以太技术存在性能瓶颈，需从底层机制革新现有以太网协议基础转发和调度机制，在现有以太网协议基础转发和调度机制，在AIAI模型训练场景存在天然缺陷，单纯优化上层网络协议无法解决，模型训练场景存在天然缺陷，单纯优化上层网络协议无法解决，需深入底层基础协议，对物理层、需深

11、入底层基础协议，对物理层、MACMAC层转发机制进行革新，突破无损以太性能瓶颈层转发机制进行革新，突破无损以太性能瓶颈有效通信带宽有效通信带宽网卡网卡/交换机组网物理带宽交换机组网物理带宽任务同步任务同步产生产生“多打一多打一”流量，拥塞流量，拥塞导致时延、抖动增加导致时延、抖动增加方向：方向：对每条流的多个数据包逐个进行负载分担，实现单流在全路径“喷洒”，提升有效带宽，更好应对突发流量问题：问题：传统以太网源端发流不关注网络情况及目的端接受能力，直接向网络“推”流，AI训练过程存在多打一流量，导致网络产生拥塞或丢包；通知源端降速或重传，导致GPU空闲，算力损失问题：问题：AI训练的流特征

12、是流数量少但单流带宽大，传统流级负载均衡极易造成多个流哈希到同一条链路，造成部分链路拥塞，部分空闲，网络利用率低，无法应对突发的网络流量In-castIn-cast流量流量方向：方向：源端向目的端“请求”发送权限，基于网络转发能力的被动“拉”流，最大概率消除拥塞概率，优化长尾时延基于流转发，流数量少导致哈希失效，链路负载不均基于流转发，流数量少导致哈希失效，链路负载不均源端任意向网络推流，出现拥塞被动降速，源端任意向网络推流，出现拥塞被动降速，GPUGPU闲置等待闲置等待如何提升网络如何提升网络可靠性可靠性和和有效带宽有效带宽，降低，降低时延抖动时延抖动是提升模型训练效率的关键是提升模型训练效

13、率的关键全调度以太网（全调度以太网（GSEGSE）技术特征）技术特征联合产业发布联合产业发布全调度以太网（全调度以太网（GSEGSE）技术架构，技术架构，最大限度兼容以太网生态，创新基于报文容器（最大限度兼容以太网生态，创新基于报文容器（PKTCPKTC）的转发及调度机制）的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AIAI产业发展产业发展从从“局部局部”决策决策到到“全局全局”调度调度从从“流流”分发分发到到“报文报文”分发分发从从盲发盲发+被动控制被动控制到到感知感知+

14、主动控制主动控制将业务流拆分到不同“报文容器”转发，提供逐“报文容器”负载均衡机制，提升带宽利用率从被动拥塞控制，到基于“授权请求和响应机制”的主动流控，最大限度避免网络拥塞产生全局视野的转发调度机制，实现集中式管理运维、分布式控制转发，提高网络可用性当前：逐流负载，链路利用率低、发生拥塞被动降速当前：逐流负载，链路利用率低、发生拥塞被动降速未来：逐报文容器转发未来：逐报文容器转发，链路负载均衡，全局，链路负载均衡，全局调度调度，避免拥塞避免拥塞创新以太网转发机制，实现创新以太网转发机制，实现三大核心机制转变三大核心机制转变LeafLeafSpineSpineSpineLeafLeaf2132

15、13213213213213拥塞拥塞21321321丢包丢包全调度以太网（全调度以太网（GSEGSE）组网）组网场景场景GSEGSE协议可根据网络设备和网卡能力，将方案各组件功能在网络组件中重新分工，支持多种组网场景，协议可根据网络设备和网卡能力，将方案各组件功能在网络组件中重新分工，支持多种组网场景，为后续网络建设和设备选型提供灵活的选择方案为后续网络建设和设备选型提供灵活的选择方案场景一：仅网侧运行场景一：仅网侧运行GSEGSE，网卡不感知，网卡不感知场景二：部分功能下沉网卡，实现端网协同场景二：部分功能下沉网卡，实现端网协同GSFGSFGSFGSFGSPGSPLeafLeaf网卡网卡网卡

16、网卡网卡网卡计算卡计算卡计算卡计算卡计算卡计算卡GSPGSP网卡网卡网卡网卡网卡网卡计算卡计算卡计算卡计算卡计算卡计算卡SpineSpineGSFGSFGSFGSFGSPGSPLeafLeaf网卡网卡网卡网卡网卡网卡计算卡计算卡计算卡计算卡计算卡计算卡GSFGSFGSPGSPGSPGSPGSPGSP计算卡计算卡计算卡计算卡计算卡计算卡SpineSpine网卡网卡GSP和GSF角色均由网络设备担任，执行GSE头解封装、容器生成、多路径分发、端到端授权应答及报文排序传统RoCE网卡，对网卡无额外要求源GSP、GSF由网络设备担任，执行GSE头解封装、容器生成、多路径分发等功能网卡承担部分GSP角色

17、，负责授权应答和报文排序全调度以太网全调度以太网（GSEGSE）推进进展推进进展评估评测技术标准联合仪表厂家开展合作，制定普适统一的网络功能、性能评估方法联合产业推动GSE方案成熟，形成开放统一的技术标准体系依托中国移动CIFIT试验网，验证新型网络技术，推动技术成熟与规模建设创新试验联合产业发布全调度以太网（GSE）技术架构白皮书中国算力大会正式启动全调度以太网（GSE）推进计划中国网络大会发布业界首款GSE原型系统CCSA立项全调度以太网总体技术要求2023.2023.6 62023.2023.8 82023.2023.9 92023.52023.5全调度以太网全调度以太网（GSEGSE）

18、推进推进计划计划中国移动携手中国信通院，联合国内外三十余家主流互联网，设备商、芯片商、高校院所联合发起中国移动携手中国信通院，联合国内外三十余家主流互联网，设备商、芯片商、高校院所联合发起GSEGSE推进计划，推进计划，推动智算中心网络推动智算中心网络技术创新、标准完善和产业应用技术创新、标准完善和产业应用，打造高速无损、开放兼容的新型智算中心网络技术体系，打造高速无损、开放兼容的新型智算中心网络技术体系全调度以太网（GSE）推进计划研究范畴：物理层：物理层：低时延Phy、PhySEC、故障快速检测、B400G高速光接口、光交换等链路层：链路层：基于报文分发和重组机制、调度技术、链路级安全

19、及容错等网络层：网络层：新型组网拓扑、新型组播/任播协议等;传输层：传输层：改进的RDMA、新型拥塞控制等应用层：应用层：在网计算、存储加速、开放API框架等管理和运维体系：管理和运维体系：网络可视化、可调试能力、多维自动化能力中国移动，中国信息通信研究院，华为、中兴、锐捷、新华三、浪潮、Intel、Broadcom、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科技、昆仑芯、迈普，星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等成员情况：期待更多产学研合作伙伴加入

20、期待更多产学研合作伙伴加入GSEGSE推进计划，携手共建新型智算中心网络产业生态推进计划，携手共建新型智算中心网络产业生态!业务通信原语与网络通信模型存在差异业务通信原语与网络通信模型存在差异分布式系统节点间以多对多的集合通信为主，分布式系统节点间以多对多的集合通信为主，业界主流方案基于业界主流方案基于RDMARDMA点到点高效传输，点到点高效传输，实现实现多对多集合通信，存在性能瓶颈多对多集合通信，存在性能瓶颈11NNpoint-to-point34%Reduce4.6%Gather1.2%Reduce-Scatter0.2%Bcast14%Scatter0.2%Allgather0.6%B

21、arrier13.2%AllReduce19.4%AlltoAll6.8%14.8%6%39.4%AIAI大模型中典型通信原语调用大模型中典型通信原语调用超算系统通信原语调用统计超算系统通信原语调用统计当前组播实现方式当前组播实现方式多播业务效率问题多播业务效率问题引入了与通信规模线性相关的额外开销，且无法通过优化下层网络的延迟/吞吐性能来消除扩展性问题扩展性问题有测试表明，RDMA商用网卡在QP数量超过256时，吞吐即会出现明显的下降 Wang Z,Luo L,Ning Q,et al.SRNIC:A Scalable Architecture for RDMA NICsJNDMANDMA面

22、向集合通信的原生设计，最优化集合通信性能面向集合通信的原生设计，最优化集合通信性能交换机无处理QP Type：RC Op：Send Only进交换机前出交换机后交换机复制报文新QP Type：MC Op：Send Only新QP Type：MC Op：Send Only交换机汇聚ACK新QP Type：CCOp：Acknowledge新QP Type：CCOp：AcknowledgeAS ISTO BE原始请求56-54交换机经计算后修改报文目的ip:56-53数据直回53-56新QP Type：ANYC(复用RD)Op：Send Only新QP Type：ANYC(复用RD)Op：Send

23、Only原始请求 56-53转发请求 53-54数据传输 54-53数据传输 53-56网络级DMA（NDMA）对网络中一组节点内存直读/写，是面向集合通信的原生传输框架，通过端网协同，将业务逻辑下沉，结合网络多播能力，实现组播、任播和聚播的高效传输组播聚播任播5356545654NDMANDMA性能验证结果性能验证结果中国移动联合星云智联和华为，基于中国移动联合星云智联和华为，基于NDMANDMA技术方案开发搭建技术方案开发搭建原型验证系统，原型验证系统，分别分别验证计算、存储场景验证计算、存储场景NDMANDMA带来的性能增益带来的性能增益组播组播/聚播功能验证聚播功能验证计算场景计算场

24、景1对3组播测试下，相比于传统openMPI的方式，NDAM对大消息和小消息均有显著性能提升，任务完成时间平均降低50%50%任播功能验证任播功能验证存储场景存储场景任一节点作为接收节点的测试下，相比于传统应用层任播（带水平时延）方式，NDMA使得存储IOPS提升45%45%以上新测组分论坛NDMA技术白皮书及解读原型介绍，华为、星云智联展台可看原型现场演示及网卡实物展示总结与展望总结与展望智算中心网络有效带宽、时延抖动、可靠性成为提升训练效率的关键因素链路负载均衡不均、被动拥塞控制机制、网络自动化能力不足是当前智算中心网络面临的主要问题持续开展NDMA等技术创新及标准推动，进一步丰富端网协同的技术体系体系化新型智算中心网络技术成熟，构建标准技术生态和评测体系，积极开展新技术创新试验欢迎更多上下游产业伙伴加入GSE推进计划，推动GSE技术标准和生态成熟，助力AI技术发展

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 中国移动中心网络技术实践思考

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。