2023年中国移动云计算通用可编程DPU发展白皮书.pdf
《2023年中国移动云计算通用可编程DPU发展白皮书.pdf》由会员分享,可在线阅读,更多相关《2023年中国移动云计算通用可编程DPU发展白皮书.pdf(60页珍藏版)》请在咨信网上搜索。
1、 云计算通用可编程 DPU 发展白皮书(2023 年)中移(苏州)软件技术有限公司 中国信息通信研究院云计算与大数据研究所 深圳云豹智能有限公司 2023 年 3 月 云计算通用可编程 DPU 发展白皮书(2023 年)I 目 录 1.前言.1 2.DPU 行业的机遇与挑战.3 2.1 DPU 的发展历程.3 2.1.1 NIC 的发展和应用.4 2.1.2 SmartNIC 的发展和应用.5 2.1.3 DPU 发展和应用.6 2.2 DPU 的现状.7 2.2.1 海外 DPU 的现状.7 2.2.2 国内 DPU 的现状.10 2.3 DPU 行业的挑战.12 3.DPU 核心特性.13
2、 3.1 层级化可编程.14 3.1.1 层级 1 通用可编程.17 3.1.2 层级 2 嵌入引擎可编程.17 3.1.3 层级 3 领域可编程.18 3.2 低时延网络.19 3.3 统一资源管控.21 3.3.1 统一的计算资源管控.22 3.3.2 统一的网络资源管控.24 3.3.3 统一的存储资源管控.25 3.4 持续发展的加速卸载.27 4.DPU 应用场景分析.28 4.1 云计算卸载.28 4.1.1 网络功能卸载.28 4.1.1.1 虚拟交换机功能的卸载.28 4.1.1.2 虚拟主机接口的硬件加速.29 4.1.1.3 RDMA 协议的硬件卸载.30 4.1.2 存储
3、功能卸载.31 4.1.2.1 NVMe-oF 存储协议的卸载.31 4.1.2.2 存储接口的硬件加速.32 4.1.2.3 存储应用的卸载.32 4.1.3 Service Mesh 的卸载.33 4.2 统一的存储.35 4.3 5G/UPF 卸载.38 4.3.1 UPF 简介.38 4.3.2 UPF 卸载和加速.40 云计算通用可编程 DPU 发展白皮书(2023 年)II 4.3.3 UPF DPU 管控方案.42 4.4 零侵入管控.42 4.5 零信任安全.44 4.5.1 基于信任根的安全启动.44 4.5.2 分布式可编程防火墙.45 4.5.3 数据安全传输.46 4.
4、5.3.1 虚拟机数据传输加密.46 4.5.3.2 RPC 调用数据传输加密.47 4.5.4 数据安全存储.48 4.6 ChatGPT 训练加速.49 5.DPU 行业发展展望.52 5.1 国内外 DPU 发展格局.52 5.1.1 技术路径.52 5.1.2 商业化布局.52 5.1.3 长期战略规划.53 5.2 DPU 在算网融合发展战略中的价值.54 附录.56 插图目录.56 术语与缩略语.57 云计算通用可编程 DPU 发展白皮书(2023 年)1 1.前言“十四五”数字经济发展规划中指出数字经济是继农业经济、工业经济之后的主要经济形态,是以数据资源为关键要素,以现代信息网
5、络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态。随着数字经济的持续发展,算力需求呈爆发性增长,算力正在逐步成为新时代的核心生产力。算力的发展同步带动了网络的变革,构建高效、灵活、敏捷的算力基础设施底座,成为数据中心网络新型基础设施基于数据算力驱动和演进的关键。中国移动云能力中心 IaaS 产品部总经理刘军卫谈到:“随着人类生产力进入算力时代,传统以 CPU 为核心的架构正在遭受算力瓶颈考验,多样化算力需求亟需软硬件架构全面变革,算力技术发展必将遵循软件定义一切,硬件加速一切的理念,重构算力基础设施,通用可编程加速单元 DPU 将成为新的算
6、力核心,重新定义算力时代云计算技术新标准,构建算力时代新技术曲线。”面向数据中心基础设施的通用数据处理芯片(Data Processing Unit,以下简称 DPU),是新近发展起来的一种通用数据处理器,是底层架构和上层服务相互作用的产物。同时,DPU 也是支撑各平台间互联互通的关键节点。DPU 要解决的不仅是基础设施“降本增效”的问题,也要解决现有数据中心网络基础设施架构不能满足飞速增长的数据算力需求的问题。随着数据中心应用部署的复杂度持续增高和数据中心规模的不断扩展,不但各个数据中心之间,而且数据中心内部之间数据交换的需求也呈倍数的增长。当前在数据中心的应用中,数据交换不仅仅是简单的服务
7、器之间的数据搬运,还需要对数据进行有效的智能化处理。传统基础网卡(NIC)以及后续的智能网卡(SmartNIC)由于本身技术结构的限制,无法在飞速发展的数据中心技术演进中承担起对数据交换和智能处理的需求,它们正在被 DPU 这种通用数据处理器所取代。着眼于数据中心的技术发展和演进,DPU 作为通用的数据处理器,它不是对 NIC/SmartNIC 的简单替代,云计算通用可编程 DPU 发展白皮书(2023 年)2 而是对网络基础架构的本质改变。DPU 本身所具有的通用层级化可编程性、低时延网络、统一管控的特性使得 DPU 正在促进新一代数据中心从架构上实现优化和重构。DPU 作为通用数据处理的基
8、础部件,将卸载原本运行在CPU、GPU中的通用数据处理任务,释放CPU、GPU 的算力,支撑 CPU、GPU 发挥更大的效能。本白皮书通过阐明和分析 DPU 发展的过程与现状,指出哪些 DPU 特性是解决上述核心问题的关键点,从而推动 DPU 技术的深入发展,助力实现完整的生态链建设和产业落地。云计算通用可编程 DPU 发展白皮书(2023 年)3 2.DPU 行业的机遇与挑战 随着云计算、物联网、大数据和人工智能等产业的飞速发展,数据中心网络正在向高带宽和新型传输体系发展,网络带宽逐步从 10Gbps、25Gbps 向 100Gbps、200Gbps、400Gbps 乃至更高的带宽演进。数据
9、中心网络带宽与 CPU 算力的增长速度差距逐渐增大,网络数据处理占用的 CPU 资源在不断地增大,迫切需要一种新型处理器来减少对 CPU 的消耗。在这种背景下,DPU 技术应运而生。DPU 是以数据处理为中心的芯片,是继 CPU、GPU 之后的“第三颗主力芯片”。DPU 是一种提供数据中心基础设施服务的通用处理器,可以卸载及加速网络、存储、安全和管控等基础功能,释放更多的 CPU 算力供客户使用。2.1 DPU 的发展历程 随着云计算虚拟化技术的发展,网卡的发展基本可以分为三个阶段:1.传统基础网卡 NIC:负责用户数据交互的网络设备,具有较少的硬件卸载能力;2.智能网卡 SmartNIC:具
10、备丰富的数据平面硬件卸载能力;3.数据处理器 DPU:兼具智能网卡功能的同时,又可以卸载控制平面业务,实现了控制平面与数据平面的通用可编程加速。DPU 作为软件定义芯片的典型代表,完美诠释了“软件定义、硬件加速”的理念,是集数据中心基础架构于芯片的通用处理器。DPU 通用处理单元用来处理控制平面业务,专用处理单元保证了数据平面的处理性能,从而达到了性能与通用性的平衡。DPU 专用处理单元用来解决数据中心通用基础设施虚拟化的性能瓶颈,通用处理单元则保证 DPU 的通用性,使得 DPU 能够广泛适用于各家云厂商的基础设施,实现了数据中心虚拟化软件框架向 DPU的平滑迁移。云计算通用可编程 DPU
11、发展白皮书(2023 年)4 2.1.1 NIC 的发展和应用 传统基础网卡 NIC,又称网络适配器,是构成计算机网络系统中最基本、最重要的连接设备,它的主要工作是将用户需要传输的数据转换为网络设备能够识别的格式。HOST虚拟机虚拟机虚拟机PCIe总线以太网口网络存储安全管控NIC 图 1 NIC 在虚拟化中应用 在网络技术发展的带动下,传统基础网卡的功能也更加丰富,已经初步具备了一些简单的硬件卸载能力,如 CRC 校验、TSO/UFO、LSO/LRO、VLAN 等,支持 SR-IOV 和流量管理 QoS,传统基础网卡的网络接口带宽也由原来的百兆、千兆发展到 10G、25G 乃至 100G。在
12、云计算虚拟化网络中,传统基础网卡向虚拟机提供网络接入的方式主要分为以下三种:网卡接收流量经操作系统内核协议栈转发至虚拟机 由 DPDK 用户态驱动接管网卡,让数据包绕过操作系统内核协议栈直接拷贝到虚拟机内存 使用 SR-IOV 技术,将物理网卡 PF 虚拟化成多个具有网卡功能的虚拟 VF,再将VF 直通到虚拟机中 云计算通用可编程 DPU 发展白皮书(2023 年)5 随着 VXLAN 等隧道协议以及 OpenFlow、OVS 等虚拟交换技术的应用,网络处理的复杂度在逐渐增大,需要消耗更多的 CPU 资源,因此智能网卡 SmartNIC 诞生了。2.1.2 SmartNIC 的发展和应用 智能
13、网卡 SmartNIC 除了具备传统基础网卡的网络传输功能外,还提供丰富的硬件卸载加速能力,能够提升云计算网络的转发速率,释放主机 CPU 计算资源。HOST虚拟机虚拟机虚拟机SmartNIC高速以太网口网络数据面加解密RDMAPCIe总线网络控制面存储安全管控 图 2 SmartNIC 在虚拟化中应用 智能网卡 SmartNIC 上没有通用处理器 CPU,需要主机 CPU 进行控制面管理。智能网卡 SmartNIC 主要卸载加速对象是数据平面,如虚拟交换机 OVS/vRouter 等数据面Fastpath 卸载、RDMA 网络卸载、NVMe-oF 存储卸载以及 IPsec/TLS 数据面安全
14、卸载等。但是随着数据中心网络速率的不断提高,主机仍会消耗大量宝贵的 CPU 资源对流量进行分类、跟踪和控制,如何实现主机 CPU 的“零消耗”成了云厂商下一步的研究方向。云计算通用可编程 DPU 发展白皮书(2023 年)6 2.1.3 DPU 发展和应用 相比智能网卡 SmartNIC,DPU 在硬件架构上增加了通用处理单元 CPU 和丰富的硬件加速单元。从而便于实现对网络、存储、安全和管控等通用基础设施的加速和卸载。HOST虚拟机虚拟机虚拟机DPU高速以太网口网络虚拟机虚拟机虚拟机PCIe总线存储安全管控 图 3 DPU 在虚拟化中应用 DPU的产品形态主要有NP/MP+CPU,FPGA+
15、CPU和ASIC+CPU。基于NP/MP+CPU和FPGA+CPU硬件架构的DPU具有良好的软硬件可编程性,在DPU发展初期大部分DPU厂商都选择了这个方案。该方案开发时间相对较短且迭代快速,能够迅速完成定制化功能开发,便于 DPU 厂商快速推出产品,抢占市场。但是随着网络带宽的快速增长,基于NP/MP+CPU 和 FPGA+CPU 硬件架构的 DPU 在性能上将难以满足,功耗控制方面也会存在很大的挑战。基于 ASIC+CPU 的硬件架构结合了 ASIC 和 CPU 的优势,兼顾了专用加速器的优异性能和通用处理器的可编程灵活性,成了 DPU 产品的发展趋势。云计算通用可编程 DPU 发展白皮书
16、(2023 年)7 2.2 DPU 的现状 早在 2016 年,美国 Fungible 就已经提出了 DPU 的概念,它也是第一家专注于设计DPU 的创业公司。2020 年,Nvidia 在其 GTC 大会上隆重介绍了数据中心网络领域新产品BlueField DPU。自此,DPU 的概念开始逐渐活跃起来,引起了国内外众多厂商密切关注。目前,国内外已经有很多云厂商和芯片巨头布局 DPU 产业,如国外有 AWS、Nvidia、Intel、AMD 和 Marvell 等,国内有阿里、腾讯、中国移动、中国电信和云豹智能等。2.2.1 海外 DPU 的现状 本章主要介绍一些海外 DPU 厂商的发展情况和
17、其产品。1.AWS Nitro DPU AWS 是全球领先的云计算服务和解决方案提供商,AWS Nitro DPU 系统已经成为了AWS 云服务的技术基石。AWS 借助 Nitro DPU 系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,将服务器上几乎所有资源都提供给服务实例,极大地降低了成本。图 4 AWS Nitro DPU(来源 AWS 官网)云计算通用可编程 DPU 发展白皮书(2023 年)8 Nitro DPU 系统主要分为以下几个部分:Nitro 卡:一系列用于网络、存储和管控的专用硬件,以提高整体系统性能 Nitro 安全芯片:将虚拟化和安全功能转移到专用的硬
18、件和软件上,减少攻击面,实现安全的云平台 Nitro 控制卡:一种轻量型 Hypervisor 管理程序,可以管理内存和 CPU 的分配,并提供与裸机无异的性能 Nitro DPU 系统提供了密钥、网络、安全、服务器和监控等功能支持,释放了底层服务资源供客户的虚拟机使用。2.Nvidia DPU Nvidia 是一家以设计和销售图形处理器 GPU 为主的半导体公司,GPU 产品在 AI 和高性能计算 HPC 领域被广泛应用。2020 年 4 月,Nvidia 以 69 亿美元的价格收购了网络芯片和设备公司 Mellanox,随后陆续推出 BlueField 系列 DPU。图 5 Nvidia
19、BlueField-3 DPU 介绍(来源 Nvidia 官网)Nvidia BlueField-3 DPU 延续了 BlueField-2 DPU 的先进特性,是首款为 AI 和加速计算而设计的 DPU。BlueField-3 DPU 提供了最高 400Gbps 网络连接,可以卸载、加速和隔离软件定义网络、存储、安全和管控功能,从而提高数据中心性能、效率和安全性。云计算通用可编程 DPU 发展白皮书(2023 年)9 3.Intel IPU Intel IPU 是一种具有硬化加速器和以太网连接的高级网络设备,可使用紧密耦合的专用可编程内核来加速和管理基础设施功能。IPU 提供完整的基础设施卸
20、载,并充当运行基础设施应用的主机控制点,以提供额外的安全层1。使用 Intel IPU,可以将全部基础设施业务从服务器卸载到 IPU 上,释放服务器 CPU 资源,也为云服务提供商提供了一个独立且安全的控制点。图 6 Intel IPU 产品 roadmap(来源 Intel 官网)2021 年,Intel 在 Intel Architecture Day 上发布了 Oak Springs Canyon 和 Mount Evans IPU 产品。其中,Oak Springs Canyon 是基于 FPGA 的 IPU 产品,Mount Evans IPU 是基于 ASIC 的 IPU 产品。I
21、ntel Oak Springs Canyon IPU 配备了 Intel Agilex FPGA 和 Xeon-D CPU。Intel Mount Evans IPU 是 Intel 与 Google 共同设计的 SoC(System-on-a-Chip),Mount Evans 主要分为 IO 子系统和计算子系统两个部分。网络部分用 ASIC 进行数据包处理,性能相比 FPGA 高很多,且功耗更低。计算子系统使用了 16 个 ARM Neoverse N1 核心,拥有极强的计算能力。1 Intel 云服务提供商基础设施处理单元 IPU 白皮书 云计算通用可编程 DPU 发展白皮书(2023
22、 年)10 2.2.2 国内 DPU 的现状 随着 DPU 产业的快速发展,国内也涌现出了一大批 DPU 公司,本章主要介绍了一些国内 DPU 厂商和其产品。1.中国移动 HyperCard DPU 2020 年中国移动发布 HyperCard DPU,将软件的灵活与硬件的高效有机结合,承载网络、存储及虚拟化设备管理,在释放 CPU 资源的同时,HyperCard 基于硬件卸载技术全面加速 IO 性能,实现了虚拟 IO“零”损耗,突破了传统技术架构性能极限。移动云同时着手构建 DPU 的软硬件生态系统,通过算力卸载/算力解耦/无损网络三大关键技术,实现以 DPU 为中心的计算、网络、存储的云化
23、加速,规范 xPU 异构硬件接入标准,统一算力 API,构建高性能云化基础设施生态关键底座。打造磐石算力架构:结合 HyperCard DPU 与定制化磐石服务器,实现对 HyperCard DPU 的全生命周期管理和最优适配,为“大云”的裸金属、云主机、容器等算力载体提供统一的算力底座 打造 COCA(Compute On Chip Architecture)算力框架:构建算力的标准化接入生态,构建算力与应用间的灵活接入介质,未来做到包括自有 HyperCard 在内的业界 DPU 硬件在数据中心的即插即用 2.阿里云 CIPU 2022 年阿里云峰会上,阿里云正式发布了云基础设施处理器 C
24、IPU,CIPU 的前身是MoC 卡(Micro Server on a Card),MoC 卡是神龙架构的灵魂所在。MoC 卡拥有独立的I/O、存储和处理单元,承担了网络、存储和设备虚拟化的工作。第一代和第二代 MoC 卡解决了狭义上的计算虚拟化零开销的问题,网络和存储部分的虚拟化仍由软件实现。第三代MoC 卡实现了部分网络转发功能硬化,网络性能大幅提升。第四代 MoC 卡实现了网络、存储全硬件卸载,还支持了 RDMA 能力。云计算通用可编程 DPU 发展白皮书(2023 年)11 阿里云 CIPU 作为一颗为飞天系统设计的数据中心处理器系统,对于阿里云构建新一代完整的软硬件云计算架构体系有
25、着重大的意义。3.云豹智能 DPU SoC 云豹智能是一家专注于云计算和数据中心数据处理器芯片(DPU)和解决方案的领先半导体公司。云豹智能 DPU SoC 是国内第一颗通用可编程 DPU 芯片,具备丰富的可编程性和完备的 DPU 功能,支持不同云计算场景和资源统一管理,优化数据中心计算资源利用率。图 7 云豹智能 DPU SoC 整体架构 云豹智能 DPU SoC 提供最高 2*200G网络连接,搭载性能强劲的通用CPU处理单元,满足云基础设施层业务的卸载需求。云豹智能 DPU SoC 还配备众多的硬件处理引擎,实现网络、存储和安全的全面加速,具体情况如下:数据面处理引擎提供高性能数据处理,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 年中 移动 计算 通用 可编程 DPU 发展 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。