智算中心网络架构白皮书 2023.pdf
《智算中心网络架构白皮书 2023.pdf》由会员分享,可在线阅读,更多相关《智算中心网络架构白皮书 2023.pdf(45页珍藏版)》请在咨信网上搜索。
1、 智算中心网络架构白皮书目录CONTENTS智算业务对网络的核心需求01031.1 智算业务关键应用场景和案例 1.2 智算业务对网络的关键要求01智算网络方案选型0712172.1 InfiniBand网络介绍2.2 RoCEv2网络介绍2.3 InfiniBand和RoCEv2网络 方案对比02物理网络架构设计19 2022253.1 传统云网络架构承载智算业务存 在的挑战 3.2 智算网络架构3.3 智算网络可容纳的GPU卡的规模 3.4 物理网络设计典型实践03智算高性能网络运维管理4.1 可视化网管系统4.2 高精度流量采集4.3 数据可视化展示4.4 智能化4.5 高性能网络运维典
2、型实践293132333304 智算高性能网络运营管理 5.1 云平台产品化的多租户能力AI-VPC5.2 InfiniBand网络的多租户方案5.3 RoCE网络的多租户方案5.4 通过RDMA网络提供公共服务5.5 高性能网络运营典型实践353637383805总结和展望总结和展望 推荐阅读4041066智算中心网络架构白皮书01 智算业务对网络的核心需求101智算业务对网络的核心需求 1.1 智算业务关键应用场景和案例智能计算是指利用人工智能技术和算法,对海量数据进行分析、处理和挖掘。智能计算已广泛应用于自然语言处理、图像识别、预测分析、金融科技和自动驾驶等场景。基于大模型在自然语言处理
3、领域的出色能力,智能计算为机器翻译、文本分类、文本总结、文本创作、搜索助手、辅助编程、图像视频创作等应用场景提供强有力的技术支持。智能计算已成为帮助企业提高效率、降低成本、打造核心竞争力所不可或缺的技术能力,其在金融和汽车行业的应用已经非常成熟。例如:在金融行业:智能计算应用于风险管理和控制,辅助量化交易、信用评估以及趋势预测,帮助金融机构做出更明智的业务决策。在汽车行业:智能计算为自动驾驶提供高效精准的感知与识别、行驶决策与规划、车辆控制与执行,并不断进行算法优化以提高自动驾驶的安全和可靠性。1.1.1 金融风控与智能推荐金融行业历来是数字化与智能化的先驱者,已经将人工智能技术广泛应用于各项
4、业务中,包括智能风控、交易欺诈检测、智能客服、投资决策、信用评估、量化交易等。金融风控是人工智能技术在金融行业中最典型的应用场景。通过大数据分析、机器学习等技术对金融交易、投资、借贷等活动进行风险识别、评估、控制和监测,对金融风险进行有效识别和预警,以保障金融机构和客户的资产安全,满足监管要求。在金融风控领域,度小满拥有非常丰富的实践经验。度小满将大型语言模型(LLM)应用于海量互联网文本数据、行为数据、征信报告的解读,将小微企业主的信贷违约风险降低了 25%。而且随着模型的迭代,大模型在智能风控上的潜力还会进一步释放。除了智能风控领域,度小满基于生成式大模型自主生成新的数据、图像、语音、文本
5、等信息,成为理财师、保险经纪人等金融行业从业人员的得力助手,帮助他们为客户个性化推荐理财、保险产品,大幅提升服务效率和服务体验。1.1.2 自动驾驶得益于人工智能技术,自动驾驶技术越来越成熟。自动驾驶的渗透率呈现逐步上涨的趋势。全球知名 IT 市场研究机构IDC 发布的中国自动驾驶汽车市场数据追踪报告显示,2022 年第一季度 L2 级自动驾驶在乘用车市场的新车渗透率达 23.2%,L3 和 L4 级自动驾驶的能力也越来越成熟。在自动驾驶场景中,每车每日会产生 T 级别数据,每次训练的数据达到 PB 级别。大规模数据处理和大规模仿真任务的特点十分显著,需要使用智算集群来提升数据处理与模型训练的
6、效率。2智算中心网络架构白皮书重庆长安汽车股份有限公司在智算领域进行了规模化实践,建设了全新的智能车云平台和专用智算中心。当前计算能力突破 100 亿亿次,支撑自动驾驶的算法自研、虚拟仿真、智能网联等数字服务。智能车云平台提供统一的基础网联、数字产品、AI 决策分析、智能汽车大数据四大平台能力,为用户提供智能化、远程化、个性化的车辆服务,打造更加便捷、高效、安全的车辆使用体验。1.2 智算业务对网络的关键要求1.2.1 AI 模型训练和推理的核心是数据计算在 AI 系统中,一个模型从生产到应用,一般包括离线训练和推理部署两大阶段。离线训练,就是产生模型的过程。用户需要根据自己的任务场景,准备好
7、训练模型所需要的数据集以及神经网络算法。模型训练开始后,先读取数据,然后送入模型进行前向计算,并计算与真实值的误差。然后执行反向计算得到参数梯度,最后更新参数。训练过程会进行多轮的数据迭代。训练完成之后,保存训练好的模型,然后将模型做上线部署,接受用户的真实输入,通过前向计算,完成推理。因此,无论是训练还是推理,核心都是数据计算。为了加速计算效率,一般都是通过 GPU 等异构加速芯片来进行训练和推理。图 1.AI 模型训练和推理的核心是数据计算1.2.2 AI 模型参数规模不断扩大随着以 GPT3.0 为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术
8、演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV)、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和千亿规模参数的方向发展。01 智算业务对网络的核心需求3:语言模型 :中文语言模型 :多模态模型 :视觉模型ELMo(90M)BERT(340M)ERNIE 1.0(110M)GPT-2(1.5B)ERNIE 2.0(330M)T5(11B)Turing-NLG(17B)GPT-3(175B)PaLM(562B)PaLI(17B)LaMDA(137B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B)ViT(630M)V-
9、MOE(15B)ViT-G(2B)SwinV2(3B)DALL-E(1.2B)CogView(4B)ERNIE-VILG(10B)Plato-XL(11B),0.050.55505002017201820192020202120222023图 2.AI 模型参数演进1.2.3 大模型训练集群的网络要求大模型训练中大规模的参数对算力和显存都提出了更高的要求。以GPT3为例,千亿参数需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。算力墙储存
10、墙传统训练GPU 0ZELOPs计算量大规模参数GPT-3:314 ZFLOPs175B参数小模型、小样本、单卡训练梯度更新反向计算前向计算 Training Data大模型的变化参数量与计算量激增A100算力312TFLOPS单卡需要32年需要分布式加速千亿参数需要2TB存储单卡现存80GB,放不下需要更多储存空间图 3.传统训练和大模型的不同分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网
11、络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。(1)低时延分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是存在加速比,且加速比小于 1。存在加速比的主要原因是:在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。因此,降低卡间通信时间,是分布式训练中提升加速比的关键,需要重点考虑和设计。4智算中心网络架构白皮书分布式全局加速单卡加速卡数加速比=分布式单计算时间单卡计算时间卡间通信时间=图 4.分布式全局速度计算公式降低多机多卡间端到端通信时延的关键技术是 RDMA 技术。RDMA 可以绕过操作系统内核,让一台主机可以直接访问另外一
12、台主机的内存。应用内核态用户态硬件层应用OSOS交换机CPU旁路BufferBufferBufferBufferBufferBufferBufferBuffer服务器服务器图 5.RDMA 通信示意图实 现 RDMA 的 方 式 有 InfiniBand、RoCEv1、RoCEv2、iWARP 四 种。其 中 RoCEv1 技 术 当 前 已 经 被 淘 汰,iWARP 使用较少。当前 RDMA 技术主要采用的方案为 InfiniBand 和 RoCEv2 两种。Orange content defined by the IBTAGreen content defined by IEEE/IE
13、TFRDMA application/ULPRDMA software stackIB transport protocolIB network layerIB network layerUDPIPTCPIPIB link layerInfiniBand managementEthernet/IP managementEthernet/IP managementEthernet/IP managementEthernet link layerEthernet link layerEthernet link layerIB transport protocolIB transport proto
14、coliWARP*protocolRDMA APIRDMA 协议栈RoCE v1Typically hardwareSoftwareRoCE v2iWARP图 6.RDMA 协议栈01 智算业务对网络的核心需求5在 InfiniBand 和 RoCEv2 方案中,因为绕过了内核协议栈,相较于传统 TCP/IP 网络,时延性能会有数十倍的改善。在同集群内部一跳可达的场景下,InfiniBand 和 RoCEv2 与传统 IP 网络的端到端时延在实验室的测试数据显示,绕过内核协议栈后,应用层的端到端时延可以从 50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。
15、图 7.不同技术的端到端通信时延50usIP5us200Gbps-400Gbps 演进,整体转发能力在不断提升。图 22.H3C 以太网交换机端口演进(3)连接件RoCEv2 承载在以太网上,所以传统以太网的光纤和光模块都可以用。(4)RoCEv2 流控机制PFCPFC(Priority Flow Control)是 Hop By Hop 的流控策略,其特点就是通过配置水线合理的使用交换机的缓存,在以太网络中实现完全的无丢包能力。1502 智算网络方案选型具体实现步骤是,当下游交换机端口的入队列缓存达到阈值 Xoff 时,该交换机就会向上游设备(交换机或者网卡)发PFC PAUSE 帧。上游设
16、备收到 PFC Pause 帧后,该端口会停止发包,从而减少下游设备的缓存区压力。而在这个过程中上游设备已经发送到链路中的报文不会被丢弃,依旧会发送到下游交换机并存储在下游交换机预先分配的 Headroom 缓存中。由于 PAUSE 帧的发送,下游交换机的 buffer 占用开始下降。等到该端口的 buffer 计数器下降到 Xon 这个值的时候,端口 A 将会向上游发送一个持续时间为 0 的 PAUSE 帧,上游设备开始进行数据包发送。图 23.PFC 原理图Egress PortIngress PortData PacketPFC PauseXOFF ThresholdECN显式拥塞通知(
17、ECN,Explicit Congestion Notification)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。ECN 是 IP 层的机制,它主要是用来在拥塞场景下,通过在交换机上标记报文特定向服务器端传递拥塞信息,从而通知到服务器端发生了拥塞。然后服务器端再通过发送 CNP 报文至客户端通知源端降速从而实现拥塞控制的目的。在RFC 3168 中定义了 ECN。需要注意以下两点,第一点是必须在端点上以及端点之间的所有中间设备上启用 ECN。若传输路径中有不支持 ECN 的任何设备,将中断端到端 ECN 功能。Server 端的网卡收到了存在 ECN 标记的报文,会向
18、Client 端的网卡发送 CNP 报文,CNP报文中包含着QPs(Queue Pairs)等相关信息。第二点是CNP报文一般需要和RDMA业务报文处在不同的队列中,并且设置合适的 QoS 策略保证 CNP 报文的发送,要确保 CNP 报文不会被丢弃,进而避免流控失效。DCQCN图 24.DCQCN 示意图DCQCN Congested Traffic Congested Traffic(ECN marked)Congested Notification Sender NICReaction Point(RP)SwitchCongestion Point(CP)Receiver NICNoti
19、fication Point(NP)16智算中心网络架构白皮书数据中心量化拥塞通知(DCQCN)是 ECN 和 PFC 的组合,可支持端到端无损以太网。DCQCN 的设计理念是在拥塞时通过 ECN 让发送端降低传输速率,从而尽量避免触发 PFC,因为 PFC 被触发,发送流量会完全停止,DCQCN 需要考虑如下两个关键点:确保 PFC 不会太早触发,即先使用 ECN 发送拥塞反馈使流量变慢。确保 PFC 不会太晚触发,即拥塞较严重产生缓冲区溢出进而出现丢包。通过合理设置下面三个参数,可以满足上述需求:Headroom Buffers:发送至上游设备的 PAUSE 消息需要一些时间到达并生效。为
20、避免丢包,PAUSE 发送方必须保留足够的缓冲区,以处理在此期间可能收到的任何数据包。这包括发送 PAUSE 时正在传输的数据包,以及上游设备在处理 PAUSE 消息时发送的数据包。PFC Threshold:这是一个入口阈值。当到达该阈值时,会向上游发送 PFC PAUSE 报文。ECN Threshold:这是一个出口阈值。ECN 阈值等于 WRED 开始填充级别值。一旦出口队列超过此阈值,交换机将开始为该队列中的数据包进行 ECN 标记。DCQCN 要有效,此阈值必须低于入口 PFC 阈值,以确保 PFC 不会在交换机有机会使用 ECN 标记数据包之前触发。设置非常低的 WRED 填充级
21、别可提高 ECN 标记概率。例如,使用默认共享缓冲区设置,WRED 开始填充级别为 10%可确保标记无丢失数据包。但是,如果填充级别较高,则 ECN 标记的概率降低。2.2.2 RoCEv2 网络方案特点RoCE 方案相对于 InfiniBand 方案的特点是通用性较强和价格相对较低。除用于构建高性能 RDMA 网络外,还可以在传统的以太网络中使用。但在交换机上的 Headroom、PFC、ECN 相关参数的配置是比较复杂的。在万卡这种超大规模场景下,整个网络的吞吐性能较 InfiniBand 网络要弱一些。2.2.3 RoCE 网络设备供应商支持 RoCE 的交换机厂商较多,市场占有率排名靠
22、前的包括新华三、华为等。支持 RoCE 的网卡当前市场占有率比较高的是 NVIDIA 的 ConnectX 系列的网卡。1702 智算网络方案选型2.3 InfiniBand 和 RoCEv2 网络方案对比从技术角度看,InfiniBand 使用了较多的技术来提升网络转发性能,降低故障恢复时间,提升扩展能力,降低运维复杂度。图 25.InfiniBand 和 RoCEv2 的技术对比8*100Gbps8*400GbpsInfiniBand对比项RoCEv22us同集群端到端时延5us基于Local ID转发基于IP转发转发模式逐包的自适应路由ECMP方式路由负载均衡模式Self-Healing
23、 Interconnect Enhancement for Intelligent Datacenters路由收敛故障恢复通过UFM实现零配置手工配置网络配置基于Credit的流控机制PFC/ECN,DCQCN等流控机制具体到实际业务场景上看,RoCEv2 是足够好的方案,而 InfiniBand 是特别好的方案。业务性能方面:由于 InfiniBand 的端到端时延小于 RoCEv2,所以基于 InfiniBand 构建的网络在应用层业务性能 方面占优。但 RoCEv2 的性能也能满足绝大部分智算场景的业务性能要求。业务规模方面:InfiniBand 能支持单集群万卡 GPU 规模,且保证整
24、体性能不下降,并且在业界有比较多的商用实践案例。RoCEv2 网络能在单集群支持千卡规模且整体网络性能也无太大的降低。业务运维方面:InfiniBand 较 RoCEv2 更成熟,包括多租户隔离能力,运维诊断能力等。业务成本方面:InfiniBand 的成本要高于 RoCEv2,主要是 InfiniBand 交换机的成本要比以太交换机高一些。业务供应商方面:InfiniBand 的供应商主要以 NVIDIA 为主,RoCEv2 的供应商较多。图 26.InfiniBand 和 RoCEv2 对比示意图InfiniBand性能供应商运维成本功能和规模RoCEv218智算中心网络架构白皮书1903
25、 物理网络架构设计03物理网络架构设计3.1 传统云网络架构承载智算业务存在的挑战 传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。图 27.云数据中心 VPC 网络的 Spine-Leaf 架构和流量模型互联网SpineLeaf1*N3*N云到用户(南北向)流量示意图云内部(东西向)流量示意图服务器0 服务器服务器服务器服务器 服务器N服务器0 服务器服务器服务器服务器 服务器NSpineLeaf1*N3*N承载 VPC 网络的底层物理网络架构,对于承载智算业务存在如下挑战。有阻塞网络:考虑到并非所有服务
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智算中心网络架构白皮书 2023 中心 网络 架构 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。