2023数据中心高性能网络拥塞检测技术白皮书.pdf
《2023数据中心高性能网络拥塞检测技术白皮书.pdf》由会员分享,可在线阅读,更多相关《2023数据中心高性能网络拥塞检测技术白皮书.pdf(64页珍藏版)》请在咨信网上搜索。
1、1数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004编号 ODCC-2023-03004数据中心高性能网络拥塞检测技术白皮书(2023 年)中移(苏州)软件技术有限公司中国信息通信研究院云计算与大数据研究所2023-09 发布III数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004目目 录录版权声明.I编写组.II术语与缩略语.VI前言.1一、高性能网络的机遇与挑战.3(一)应用背景与现状.41 分布式储存场景.42 内存池化场景.63 键值存储场景.74 智能算力场景.9(二)高性能网络拥堵问题与挑战.10二、拥塞管理与控制技术
2、体系.13(一)拥塞控制技术.131 基于 ECN 的拥塞控制.142 基于时延的拥塞控制.143 基于 INT 的拥塞控制.154 其他技术方案.165 拥塞控制总结.18(二)链路控制技术.211 信用.212 PFC.233 QCN.25IV数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-030044 链路控制总结.26(三)负载均衡技术.271 流级别.272 包级别.293 Flowlet 级别.294 负载均衡总结.30(四)流量调度技术.311 基于规则的调度技术.322 基于反馈的实时调度.343 流量调度总结.34(五)本章小结.35三、高性能网络拥塞
3、检测技术.36(一)网侧拥塞检测.371 ECN 检测.372 TCD 检测.413 其他检测技术.42(二)端侧拥塞检测.421 RTT 检测.432 优先级队列检测.44(三)端侧协同拥塞检测.451 INT 检测.452 ECN#检测.463 ConEx 检测.484 本章小结.49V数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004四、总结与展望.50参考文献.52VI数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004术语与缩略语术语与缩略语TermTermMeaningMeaningRDMARemote Direct M
4、emory AccessRoCERDMA over Converged EthernetiWarpinternet Wide Area RDMA ProtocolGPUGraphics Processing UnitIOPSInput/Output Operations Per SecondSRDScalable Reliable DatagramAWSAmazon Web ServicesDPUData Processing UnitRNICRDMA Network Interface CardECNExplicit Congestion NotificationDCQCNData Cent
5、er Quantized Congestion NotificationHPCCHigh Precision Congestion ControlPFCPriority Flow ControlREDRandom Early DetectionAQMActive Queue ManagementRTTRound Trip TimeINTIn-Net TelemetryECMPEqual-Cost Multi-PathTCDTernary Congestion DetectionCBFCCredit-Based Flow ControlPFCPriority-based Flow Control
6、QCNQuantized Congestion NotificationRPSRandom Packet SprayingCONGADistributed Congestion-Aware Load BalancingFCTFlow Complete TimeREDRandom Early DetectionBCNBackward Congestion NotificationFECNForward Explicit Congestion NotificationPCNPre-Congestion NotificationHPQHigh Priority QueueLPQLow Priorit
7、y Queue1数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004前前 言言“十四五”数字经济发展规划中指出数字经济是继农业经济、工业经济之后的主要经济形态,是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态。随着数字经济的持续发展,算力需求呈爆发性增长,逐步成为新时代的核心生产力。算力的发展带动了网络的变革,构建了高效、灵活、敏捷的数据中心网络新型基础设施,成为算力网络驱动和演进的关键。远程直接内存访问(Remote Direct Memory Access,RDMA)网络
8、是一种高性能网络传输技术。通过绕过操作系统内核,RDMA 可以直接在网络适配器和内存之间传送数据,从而减少了数据传输过程带来的延迟和 CPU 开销,提高了数据传输的效率和吞吐量。近年来,高性能网络广泛应用于高性能计算、云计算、大数据处理等领域,成为当下网络领域的研究热点之一。高性能网络的重要性在于,为各种应用提供了快速、可靠、安全的数据传输能力,并将数据中心、云计算和大数据处理等领域的计算资源、存储资源和网络资源紧密结合,提高了整个系统的效率和性能。同时,高性能网络还可以支持更多的应用和服务,促进了科学研究、产业发展和社会进步。因此,高性能网络的发展和研究是当前网络领域的重要方向。2数据中心高
9、性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004本白皮书通过阐明和分析高性能网络技术发展的过程与现状,以网络拥塞这一关键问题展开详述当前业界拥塞管理控制技术的架构体系,并聚焦拥塞管理控制过程中面临不同需求所产生的拥塞检测机制。本白皮书旨在通过对拥塞检测技术的研究,推动高性能网络技术的深入发展、生态链建设和产业落地。3数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004一、一、高性能网络的机遇与挑战高性能网络的机遇与挑战在需求端强力驱使下,过去的 10 年中,数据中心网络链路传输带宽经历了从 1 Gbps 到 100Gbps 的快速增长,并且
10、这一增长趋势仍在持续。因此,作为未来数据中心服务的提供者,云计算厂商面临着越来越严苛的数据中心网络建设需求。目前,传统数据中心应用的 TCP/IP 网络已经难以高效地满足新的需求。一方面,快速膨胀的链路速率导致了极高的 CPU 占用率,每增加一个用于 TCP 网络传输的 CPU 资源意味着云计算厂商能够出售的虚拟机减少了一个,这将降低整体的经济效益。另一方面,机器学习、搜索等业务所要求的超低的网络延迟(低于 10 us/跳),传统的 TCP/IP 协议的性能是很难达到的。为解决这一问题,远程直接内存获取(Remote Direct MemoryAccess,RDMA)技术开始逐渐广泛地应用于数
11、据中心网络中(本文提及的 RDMA 无损网络针对更广泛应用的以太网络,如无特殊声明,适用协议为 RoCEv2)。相较于传统的 TCP/IP,RDMA 有着如下的优势:1)降低了 CPU 占用率。数据传输过程不再需要 CPU 的持续介入,而是通过硬件卸载的形式完成数据传输。2)降低了传输时延,避免了数据拷贝过程中频繁的用户态和内核态切换。因此,通过硬件卸载、内核旁路,RDMA 完成了数据传输和计算的解耦,从而实现高效的并行计算处理。4数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004正因为以上的技术优势,高性能网络已经成为云计算领域应用广泛核心基础设施之一。据公开
12、文献1显示,在微软 Azure 存储集群中,RDMA 流量已经占据了超过一半的比例。在可以预见的未来,高性能网络技术都将作为云计算领域的核心基础设施之一,深刻地影响数据中心技术格局。图 1 微软 Azure 存储集群流量占比1(一)(一)应用背景与现状应用背景与现状随着云计算技术的发展,高性能网络的应用场景日益增多。本节主要从分布式云存储、内存池化、键值存储、智算中心四个方向的应用,对高性能网络的应用场景和应用现状进行概述。1 1分布式储存场景分布式储存场景分布式存储是云计算中的一个核心应用。各家云厂商都会提供高达百万输入/输出操作每秒(IOPS)的高性能存储实例,旨在满足对性能要求极高的应用
13、场景。5数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004由于百万 IOPS 云硬盘需要同时处理大量的读取和写入请求,这就要求了网络要提供极高的吞吐量和极低的响应时间。因此,主流云厂商普遍选择 RDMA 作为高性能分布式存储的网络解决方案,如公开文献中阿里云、微软云等关于分布式云存储的工作1,2。图 2 云存储基本架构图阿里云 EBS 云存储中应用的阿里自研网络协议栈 Solar3,对云存储 IO 延迟进行了全面优化。论文中给出了 EBS 产品详细的网络延迟性能测评。图 3 中的数据为阿里云超过 10 万个计算节点一周时间的测试结果。在图中,Kernal 是传统
14、的 TCP/IP 协议,Luna 是用户态加速协议栈,Solar 是阿里自研的 RDMA 网络,FN 是计算是存储的前端网络,BN 是存储集群后端网络,SSD 是落盘网络,SA 是阿里自研的 SPDK 软件。该实验很好的对比了内核态、用户态、RDMA 对于存储业务的影响。可以看到,整体 IO 延迟性能上,Solar RDMA6数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004协议有明显的优势。同时,RDMA 网络协议栈还在很大程度上改善了整个网络的长尾时延问题,性能实现了数量级的提升。图 3 阿里云 EBS 网络性能对比测试2 2内存池化场景内存池化场景图 4
15、内存池化的分布式数据中心现有的数据中心是通过服务器构建的,每个服务器紧密集成了计算任务所需的各种资源(CPU、内存、存储)。虽然这种以服务器为中心的架构已经持续使用了几十年,但最近的研究表明,未来即将出现一种向分解式数据中心(Disaggregated Datacenter,DDC)转变的范式。其中,每种资源类型都作为独立的资源池进行构建,而网络结构则用于连接这些资源池4。7数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004资源池化的一个关键的促进(或阻碍)因素将是网络。因为将CPU 与内存、磁盘分解开来,原本需要在服务器内部进行的资源间通信,而现在必须通过网络
16、进行。因此,为了支持良好的应用级性能,网络结构必须提供低延迟的通信以应对这种负载更大的情况。因此,RDMA 高性能网络作为一个解决方案在内存池化的场景已经有广泛的研究5,6。RDMA 有效地提升了内存池化数据中心的效率。尽管没有完全解决资源池化场景的网络互连问题,但其仍然是未来分布式数据中心的一个有力的网络技术方案。3 3键值存储场景键值存储场景图 5 基于 RDMA 的键值存储系统7键值存储(Key-Value Store)是一种数据存储方法,它以键值对(Key-Value Pair)的形式存储和访问数据。与传统的关系型数据库相比,键值存储通常更加简单、灵活、高效,并且可以处理更大规模的数据
17、。键值存储不要求数据具有固定的结构和模式,因此8数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004可以轻松地存储和检索各种类型的数据。键值存储还支持高度可扩展性和分布式部署,可以轻松地在多个节点上进行水平扩展和数据复制以提高性能和可靠性。在常见应用中,Redis 就是一种流行的键值存储系统。它支持多种数据类型,包括字符串、哈希、列表、集合和有序集合等。与关系型数据库不同,Redis 不支持复杂的 SQL 查询语句,而是提供了一组简单的操作命令,如 GET、SET、INCR、DECR、LPUSH、RPUSH、SADD、SMEMBERS 等,以实现键值对的读写和操作
18、。然而,在键值存储中,CPU 是一个显而易见的性能瓶颈。而RDMA 技术通过绕过内核的方式直接访问内存,这能够保证 CPU 资源的高效利用。因此,RDMA 技术在键值存储系统中的应用也逐渐被更多的讨论7,8。同时,阿里云也公开声明了其 eRDMA 技术在 Redis产品中的应用9。从测试结果可以看出,无论是 GET 测试还是 SET测试,eRDMA 相对于 TCP 带来了至少 40%以上的性能测试数据提升。图 6 RDMA 技术加速 Redis 服务9数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-030044 4智能算力场景智能算力场景图 7 智算中心高性能网络组网方
19、案近年来,大型语言模型如 GPT 等在自然语言处理任务上的强大能力引起了广泛关注。这些模型通过预训练在海量文本数据上获取语言知识,然后进行微调应用于下游任务。大模型以极大的模型尺寸、大量数据和计算资源进行训练。其一系列成果显示了大模型具备了通过无监督学习获取语言理解能力的潜力。但是训练大模型也带来了巨大的计算和环境成本,需要大规模高速互联的智算中心,其原因如下:a)模型参数量巨大,单机单卡无法加载整个模型。而使用多机多卡可以将训练的参数梯度分布在不同设备上。b)训练时间长。如果只使用单机单卡,训练大模型往往需要非常长的时间。多机多卡情况下,并行计算可以大幅减少训练时间。10数据中心高性能网络拥
20、塞检测技术白皮书(2023 年)ODCC-2023-03004c)训练数据量大。多机多卡并行读取数据后汇总梯度,产生了大量的网络带宽需求。因此,在智算中心场景下,高性能 RDMA 网络实现多个服务器、多个 GPU 的互联,打造多通道、无收敛、多路径的参数网络(如图5 所示),是当前的主流技术方案之一。AWS 在其超算、智算服务中广泛的提供 SRD 高性能网络服务10,进一步的引起了行业内对高性能网络技术的大规模投入。(二)(二)高性能网络拥堵问题与挑战高性能网络拥堵问题与挑战高性能网络已经成为云计算领域应用广泛核心基础设施之一。然而,RDMA 网络中出现拥塞问题将会大幅降低网络的吞吐和延迟性能
21、,这也成为了限制 RDMA 网络应用规模的重要因素。当网络中的数据流量超过了网络链路的处理能力或带宽限制或者当多个节点同时进行 RDMA 通信时,网络链路无法及时处理或传输所有的数据包,就会发生拥塞。拥塞一方面会导致交换机的缓存队列增大,数据包传输的延迟等比例的延长,使网络服务质量下降;另一方面,交换机中数据包堆积,会触发 PFC 机制,以保证 RoCE 网络的无损特性,这导致网络中会出现一系列相应的风暴、死锁等问题11。这也一定程度上限制了 RDMA 网络在以太网环境的部署规模和网络性能。因此,近年来在11数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004RD
22、MA 高性能网络方向聚焦拥塞问题,产生了大量的前沿研究和工程实践工作。总之,随着未来数据中心网络带宽需求的不断增长,RDMA 高性能网络在云计算、人工智能等领域具有巨大的机遇。同时,拥塞问题作为 RDMA 网络中限制规模、性能的主要瓶颈,形成标准化、规范化的拥塞管控系统,将已有技术进行归纳延伸,是当前数据中心网络中迫切要完成的一项工作。拥塞检测技术中,有如下几点挑战亟需解决:a)精度、频率和开销的矛盾。对于网络拥塞信息的检测,当前存在多种主流方案,其获取的拥塞信息都不相同,但都遵循“没有免费的午餐”这一规则。更高的测量精度、更快的测量频率,都会带来额外的网络带宽开销(例如 INT 对比 ECN
23、)。这需要对不同的场景需求进行深入的研究,以实现最佳的拥塞检测效果。b)标准和兼容性:RDMA 技术存在多种标准和实现,如InfiniBand、RoCE(RDMA over Converged Ethernet)和 iWARP(Internet Wide Area RDMA Protocol)。其中,RoCE 网络的发展近年来尤为迅猛。原有的以太网拥塞检测机制和协议在 RDMA 网络中该如何规范化,这也是未来不同 RoCE 网络设备厂商和用户潜在的问题。12数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004c)跨层级应用:不同的拥塞检测机制可以在更多的拥塞管控技
24、术层级进行应用。比如,RTT、ECN 的拥塞信息可以作为流量调度、负载均衡的参考权重。这些研究工作虽然已经较多,但哪些拥塞检测机制适合哪种层级的拥塞管控协议仍是需要进一步探讨的问题。本白皮书通过阐明和分析高性能网络拥塞管控的技术发展的过程与现状,整理、探讨不同方案中关键的拥塞检测机制,归纳其技术路线与演进,从而推动高性能网络技术的深入发展,助力完整的生态链建设和产业落地。13数据中心高性能网络拥塞检测技术白皮书(2023 年)ODCC-2023-03004二、二、拥塞管理与控制技术体系拥塞管理与控制技术体系为了缓解高性能网络中的拥塞问题,RoCE 高性能网络协议已经构建了多层的拥塞管理和控制技
25、术体系。这一体系中,细分主要包含拥塞控制、负载均衡、链路控制、流量调度等。形成了从用户层到链路层的多层次拥塞管理和控制体系。其中,拥塞控制协议、链路控制的响应快、周期短,通过调整流的发送速率实现拥塞的避免,且主流方案通过闭环控制技术实现,因此归类为拥塞控制技术;负载均衡、流量调度,往往通过管理的方式,对数据进行调度分流,通过更高效的利用网络拓扑资源实现拥塞的避免,因此归类为拥塞管理技术。本章中重点对现有拥塞管理与控制技术进行了归纳整理。以便系统的给出后续第 4 部分拥塞检测技术的技术发展方向。(一)(一)拥塞控制技术拥塞控制技术拥塞控制,顾名思义,可知其在网络拥塞问题处理中的核心位置。拥塞控制
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 数据中心 性能 网络 拥塞 检测 技术 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。