中国移动智算中心网络技术实践与思考.pdf
《中国移动智算中心网络技术实践与思考.pdf》由会员分享,可在线阅读,更多相关《中国移动智算中心网络技术实践与思考.pdf(16页珍藏版)》请在咨信网上搜索。
1、中国移动中国移动智算中心网络技术实践与思考智算中心网络技术实践与思考姓名:姓名:王瑞雪王瑞雪中国移动中国移动目录目录一、一、中国移动中国移动NICCNICC技术体系技术体系二、智算中心网络二、智算中心网络面临的挑战面临的挑战三、智算中心网络创新实践三、智算中心网络创新实践四、总结与展望四、总结与展望智算中心背景与需求智算中心背景与需求AIGCAIGC(AI-Generated Content,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长指数级增长,全球范围内经济价值预计将达到数万亿美元,智能算力将成为未来智能算力将成为未来主流主流算力算力国内市场规模国内市场规模20002000亿元亿元(
2、2025年)大模型参数量大模型参数量千亿、万亿级千亿、万亿级GPUGPU算力规模算力规模10000+10000+卡卡 新型智算中心以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理NICCNICC新型智算中心技术体系新型智算中心技术体系中国移动中国移动NICCNICC技术体系从技术体系从新互联、新算效、新存储、新平台、新节能新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,等五大方面进行系统性重构,加快发展智能算力,构建标准统一、技术领先、软硬协同、兼容开放的加快发展智能算力
3、,构建标准统一、技术领先、软硬协同、兼容开放的新型智算中心技术体系新型智算中心技术体系新平台新平台-算力原生算力原生“芯合”算力原生平台,使能应用一次开发,跨架构迁移新互联新互联-高速互联计算总线高速互联计算总线构建智算芯片快速互联标准体系,提升卡间互联性能新存储新存储-内存池内存池构建统一内存池,实现一致性内存语义和空间寻址新互联新互联-全调度以太网全调度以太网GSEGSE无阻塞、高带宽、低时延网络,提升节点间的传输性能新算效新算效-DPUDPU与计算、网络、存储深度协同,助力算效提升。新节能新节能-冷板式液冷冷板式液冷聚焦液冷服务器和机柜的接口标准,优化运维管理能力NICCNICC新型智算
4、中心技术体系新型智算中心技术体系布局攻关创新技术推动智算发展布局攻关创新技术推动智算发展基础设施基础设施智算平台智算平台ROCmROCmCUDACUDACANNCANNTesnsorFlowTesnsorFlowPyTorchPyTorchPaddlePaddlePaddlePaddleDeepDeepSpeedSpeed文件文件对象对象块块GPUGPURoCERoCEGSEGSE液冷液冷高效供电高效供电机房配套机房配套冷却水系统冷却水系统应用使能应用使能.智智算算运运营营跨架构编译器跨架构编译器算力抽象运行时算力抽象运行时算力原生算力原生智智算算运运维维裸金属实例裸金属实例虚拟机实例虚拟机实
5、例容器实例容器实例DPUDPU 高速互联计算总线高速互联计算总线内存池内存池融合存储融合存储全局统一存储全局统一存储Hypervisor+Hypervisor+AIAI开发框架开发框架AI DSAAI DSA互联互联计算计算网络网络存储存储存储存储算算效效节能节能平台平台AIAI参数面通信特征参数面通信特征大模大模型的参数量呈指数增长态势,型的参数量呈指数增长态势,“大模型大模型”正走向正走向“超大模型超大模型”,基于数据并行、模型并行的基于数据并行、模型并行的分布式训练成为处理超大模型和超大数据集的有效手段分布式训练成为处理超大模型和超大数据集的有效手段服务器内Tensor并行(机内总线通信
6、)一组服务器内Pipeline并行(网络同轨通信)服务器间数据并行(网络同轨通信)GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage1GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stageXData Parallel Rank0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage1
7、GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stageXData Parallel Rank1Data Parallel Rank Y大模型训练通信特点:周期性,每轮迭代的通信模式一致流数量少,单流带宽大,同步突发每轮通信量大(GB百GB级)服务器内通信量为百GB级,以allreduce为主服务器间通信量为GB级,包括allreduce和p2p,大部分可以被计算掩盖MOE会引入节点间alltoall流量网络是提升网络是提升AIAI大模型训练效率的关键大模型训练效率的关键大模型以大模型以GPUGPU集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信
8、开销,集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信开销,网络性能成为提升网络性能成为提升GPUGPU集群算力水平的关键集群算力水平的关键网络性能决定网络性能决定GPUGPU集群算力加速比集群算力加速比作为集群共享资源,相比单点GPU故障或性能波动,网络故障影响域大,网络性能波动影响范围广集群有效算力集群有效算力GPUGPU单卡算力单卡算力*总卡数总卡数*线性加速比线性加速比*有效运行时有效运行时网络可用性决定网络可用性决定GPUGPU集群稳定性集群稳定性在大模型训练任务场景,并行系统节点数越多,机间通信占比越高,网络性能成为获得线性加速比的关键AIAI业务对丢包敏感,业务对丢包敏
9、感,2%2%的丢包就会使的丢包就会使RDMARDMA吞吐率下降为吞吐率下降为0 0GPUGPU集群性能集群性能 单单GPGPU U性能性能*N N网络芯片能力一定程度决定智算中心网络规模和性能,单芯片容量越大,组网规模越大且成本越低芯片能力决定芯片能力决定GPUGPU集群组网规模集群组网规模H800(400GH800(400G*8)8)服务器,服务器,51.2T51.2T可支持可支持10241024台服务器组网,台服务器组网,12.8T12.8T仅支持仅支持6464台服务器组网台服务器组网12.8T12.8T芯片芯片端口数量端口数量交换机数量交换机数量Leaf32*400G128Spine32
10、*400G128Core32*400G6451.2T51.2T芯片芯片端口数量端口数量交换机数量交换机数量Leaf128*400G32Spine128*400G16以以256256台台H H800800服务器,每服务器出服务器,每服务器出8 8个个4 400G00G网卡为例网卡为例传统无损以太技术存在性能瓶颈,需从底层机制革新传统无损以太技术存在性能瓶颈,需从底层机制革新现有以太网协议基础转发和调度机制,在现有以太网协议基础转发和调度机制,在AIAI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需深入底层基础协议,对物理层、需深
11、入底层基础协议,对物理层、MACMAC层转发机制进行革新,突破无损以太性能瓶颈层转发机制进行革新,突破无损以太性能瓶颈有效通信带宽有效通信带宽网卡网卡/交换机组网物理带宽交换机组网物理带宽任务同步任务同步产生产生“多打一多打一”流量,拥塞流量,拥塞导致时延、抖动增加导致时延、抖动增加方向:方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量 问题:问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPU空闲,算力损失 问题:问题:AI训练的流特征
12、是流数量少但单流带宽大,传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量In-castIn-cast流量流量方向:方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流,最大概率消除拥塞概率,优化长尾时延基于流转发,流数量少导致哈希失效,链路负载不均基于流转发,流数量少导致哈希失效,链路负载不均源端任意向网络推流,出现拥塞被动降速,源端任意向网络推流,出现拥塞被动降速,GPUGPU闲置等待闲置等待如何提升网络如何提升网络可靠性可靠性和和有效带宽有效带宽,降低,降低时延抖动时延抖动是提升模型训练效率的关键是提升模型训练效
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国移动 中心 网络技术 实践 思考
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。