OpenCOCA白皮书.pdf
《OpenCOCA白皮书.pdf》由会员分享,可在线阅读,更多相关《OpenCOCA白皮书.pdf(31页珍藏版)》请在咨信网上搜索。
1、OpenCOCA 白皮书白皮书(2023)目录1.算力基础设施发展现状与挑战.11.1 发展现状与趋势.11.2 应对机遇与挑战.32.COCA 软硬一体片上计算架构打造国家级自主可控算力基础设施.52.1 COCA-DPU 重构计算架构.62.2 COCA-GPU 融通算力生态.122.3 COCA-HPN 提供海量 AI 算力.153.从 COCA 走向 OpenCOCA,业内首个开放式的软硬一体片上计算平台.213.1 能力共享,激发行业活力.213.2 行业共治,规范行业标准.223.3 协作共赢,创造行业价值.234.展望与倡议.234.1 布局开放式智算生态,带动国内智算产业成熟发
2、展.234.2 共建产业联盟,自主掌握云计算技术标准.234.3 联创高精尖技术,引领云计算市场下一个黄金十年.24缩略语列表.25参考文献.28OpenCOCA 白皮书(2023)11.算力基础设施发展现状与挑战算力基础设施发展现状与挑战1.1 发展现状与趋势发展现状与趋势当前,以云计算、人工智能、大数据为代表的新一代信息技术蓬勃发展,传统产业与新兴技术加速融合,推动数字经济的快速增长。算力基础设施作为各行业信息系统运行所依赖的核心能力,在经济社会运行中不可或缺。近年来,我国对算力基础设施的重视程度不断提升,国家发展和改革委员会在 2020 年 4 月明确定义新基建,即基于新一代信息技术演化
3、而成的基础设施,其中包括以数据中心和智能计算中心为代表的算力基础设施。在狭义上算力基础设施指以算力资源为主体的基础设施,自下而上包括底层设施、算力资源、管理平台和应用服务等,覆盖超算中心、智算中心等多样化算力体系。在广义上算力基础设施指一体化 ICT 服务,包含融算力生产、算力传输和 IT 能力服务。作为新基建的核心组成部分,算力基础设施在我国数字经济发展过程中扮演着重大支撑角色。一方面,通过互联网、大数据、人工智能等新兴技术的深度应用,传统基础设施转型升级形成融合基础设施;另一方面,通过对科学研究、技术开发和产品研制的持续支持,算力基础设施驱动技术革新和产业应用创新。超算智算成为算力规模增长
4、主驱动超算智算成为算力规模增长主驱动算力作为一种新型生产力,主要包含信息计算力、数据存储力等要素,通过算力基础设施向社会提供服务。在数据存储力方面,根据 IDC 数据统计,最近 5 年全球数据每年以两位数速度持续快速增长。同时,国家互联网信息办公室发布的数据显示,我国数据资源规模快速增长,2022 年我国数据产量达 8.1ZB,同比增长 22.7%,全球占比达10.5%,位居世界第二,预计到 2025 年数据总量将跃居世界首位,占比达到全球总量的三分之一。在信息计算力方面,随着云计算服务的日趋成熟,算力发展呈现单要素向多要素融合转变。随着“十四五”规划持续推进,截止到 2022 年底,我国算力
5、总规模达到 180 EFLOPS,排名全球第二,其中,通用算力规模为 137 EFLOPS,智能算力规模为 41 EFLOPS,超算算力规模为 2 EFLOPS,近五年来,我国整体算OpenCOCA 白皮书(2023)2力规模保持近 30%的增长速度。随着算力规模持续扩大,智算和超算逐渐成为新的算力增长引擎。智算方面,根据 ICPA 智算联盟统计,截至 2022 年底,全国已投运的人工智能计算中心有20 余家,在建的也超过 20 家。地市企业依托智能计算中心的算力服务,结合本地产业特色,加快人工智能应用创新,聚合人工智能新业态。例如武汉人工智能计算中心陆续孵化出紫东太初、武汉 LuoJia 等
6、大模型1。超算方面,2023 年 6月发布的最新全球超级计算机 TOP500 榜单中,中国以 134 套上榜数量位居全球第二,占 26.8%。应用创新促进数据中心融合升级应用创新促进数据中心融合升级近年来随着HPC(High Performance Computing)、人工智能和大数据等应用的蓬勃发展,原来的传统数据中心已无法满足新型应用的承载需要,新型应用以集群式服务为载体,具有超大规模并行计算的特征,往往依赖数十TB的高质量数据集、数十万CPU核和上万块GPU,以及节点间高效率的集合通讯,需要算力、算法、数据多要素的融通协同,迫使传统数据中心向新型数据中心演变。新型数据中心不仅是某些设备
7、的集合,而且是包含计算、存储、通信能力以及环境、安全等配套能力,可通过内部设备传递、处理、展示数据信息,最终服务于客户的数据服务系统,具备高技术、高算力、高能效、高安全的特点,具体表现在算力规模与密度的逐步提高、“绿色低碳”新技术应用逐步扩大、本地或跨域智慧化运维管理逐步升级、信息技术与运营技术的一体化安全得到保障。从我国总体算力供需格局来看,东西部算力供需失衡,东部地区算力应用需求大且资源紧张,而西部地区算力资源相对宽裕,通过国家“东数西算”战略构建布局合理的新型数据中心将成为推动未来社会数字化发展、促进社会产业化变革乃至重构全球竞争格局的关键举措。随着人工智能和物联网技术的发展,新型数据中
8、心算力整体需求结构逐渐发生变化,基础算力所占比重逐步降低,智能算力与超算算力比重正快步攀升。(1)智能计算中心智能计算中心是指基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。智能算力主要是基于GPU(Graphics Processing Unit)、FPGA(Field ProgrammableGate Array)、ASIC(Application Specific Integrated Circuit)或其他加速器支撑的高OpenCOCA 白皮书(2023)3并行、高密集计算能力的异构算力。近年新推出的大语言模型(
9、LLM,LargeLanguage Module)所使用的数据量和参数规模呈现“指数级”增长,带来智能算力需求的爆炸式增加。智能计算中心主要应用于多模态数据挖掘、智能化业务高性能计算、海量数据分布式存储调度、人工智能模型开发、模型训练和推理服务等场景,所产生的大规模生产算力将为智慧医疗、智慧城市、智慧交通等领域的应用提供基础支撑。(2)超级计算中心超级计算中心是指配备高性能计算设备和软件,拥有超级数据存储和处理能力,且能够提供超级计算服务的综合产业化基地。超级计算指利用超级计算机的集中式计算资源来处理极端复杂和数据密集型的问题。超算芯片以CPU为主,可含部分GPU加速器,主要提供双精度浮点数(
10、64 位)计算能力,其中每秒千万亿次的运算被称为“P级”超算,每秒百亿亿次的运算被称为“E级”超算。近年来,我国超算中心发展迅猛,目前已拥有 14 所国家级超级计算中心。超算中心主要运用于尖端科研、国防军工、产业升级和重大社会问题等大科学、大工程、大系统中,是国家科研实力的体现,也是国家科技发展水平和综合国力的重要标志。超算中心所提供的算力将广泛应用于石油气勘探、生物医药、海洋工程、气象预测和智慧城市等众多领域,深刻影响着国家产业和人民生活。新算力和新技术相互促进协同发展新算力和新技术相互促进协同发展一方面,基础设施计算技术加速演进,异构计算成为智算/超算中心的主流架构。在摩尔定律放缓、颠覆技
11、术尚未成熟的背景下,以AI大模型为代表的多元应用创新驱动算力技术加速进入智能计算新周期,进一步带动计算产业的发展。智能计算时代,搭载各类计算加速芯片的AI服务器将成为智能算力的主要来源。另一方面,先进计算体系化创新活跃,创新模式和重点发生了转变,呈现出软硬融合、系统架构创新的特征。技术创新持续覆盖基础工艺、硬件、软件、整机不同层次,互联持续高速化、跨平台化演进,异构融合加速超级计算和智能计算协同发展。1.2 应对机遇与挑战应对机遇与挑战2023 年 10 月 8 日,六部委重磅发布 算力基础设施高质量发展行动计划,从计算力等四个方面提出了到 2025 年发展量化指标,提出到 2025 年算力规
12、模超OpenCOCA 白皮书(2023)4过 300 EFLOPS,智能算力占比达到 35%2,算力基础设施的高质量发展面临如下挑战。随着摩尔定律的放缓,传统以 CPU 为中心的数据中心体系存在性能瓶颈、成本压力等问题,一方面,带宽性能增速比失调,通用 CPU 的性能增长已无法满足新型算力基础设施的数据增长需求;另一方面,云服务商的 TCO(Total Costof Ownership)急剧增加,百 Gbps 的高性能网络就需要 12 颗以上 Xeon CPU 的核。因此,数据中心的体系架构需要从“以计算为中心”转向“以数据为中心”,即将“CPU 处理效率低下、GPU 处理不了”的虚拟化计算、
13、网络、存储等负载卸载到专用 DPU(Data Processing Unit),提升整个计算系统的性能、降低系统的 TCO。AI(Artificial Intelligence)场景各厂家 GPU 芯片技术碎片化3、大模型需要激发 AI 芯片性能,AI 推理场景下 GPU 资源的利用率较低。多样化的 GPU 生态导致用户使用不同 GPU 芯片时增加了迁移成本;其次,模型的参数及数据量的倍增要求智算中心具备高效的训推套件来提升效率;最后,整卡或固定比例的 GPU算力资源的分配方式,使得在推理场景下资源的利用率较低且算力资源调度不灵活。大模型运算中,通信是一个重要组成部分,部分 GPU 进行运算,
14、运算完成后还需要与其他 GPU 之间交互数据。一方面,通讯带宽越大,数据同步越快,GPU 的使用率就越高。另一方面,大模型对时延和丢包要求也很高。因为,多个 GPU 运算同一个任务,花费时间最长的 GPU 运算完,才算完成一个运算任务。丢包对 GPU 训练的影响明显,在极端情况下,丢包甚至会导致 GPU 训练失败。XPU(eXtreme Processing Unit)算力资源从体系结构设计到指令集架构再到接口设计,都是相对封闭的,相互之间不兼容,且难以修改或进行普适性扩展。整合多种异构算力资源并采用统一编程框架对现有计算平台来说复杂度高,需要一套标准化且能高效管理异构算力资源的开放平台。为了
15、应对上述挑战,中国移动提出 COCA(Compute on Chip Architecture)软硬一体计算架构。其中,COCA-DPU 模块,针对数据中心场景,通过计算、存储、网络、安全和管控五大引擎实现云化加速;COCA-GPU 模块,用于提高 GPU 训练推理效率和提升 GPU 资源利用率;COCA-HPN(High Performance Network)模块,用于提供大带宽、低延时及零丢包的高性能网络服务能力,释放 AI 集群性能。OpenCOCA 白皮书(2023)5既是挑战也是机遇,为了实现构建更宏大的算力、更高效的连接和更可靠的算力体系愿景,秉承“开放+共赢”理念,中国移动同步
16、孵化 OpenCOCA(OpenCompute on Chip Architecture)开源项目,包含 DPU、GPU 和 HPN 三个模块,用于共建 XPU 产业联盟,联创高性能技术,破解算力体系生态封闭难题,同时布局国产化智算生态,带动国产化智算产业成熟发展。2.COCA 软硬一体片上计算架构打造国家级软硬一体片上计算架构打造国家级自主可控算力基础设施自主可控算力基础设施COCA 以构建普惠的高性能算力为核心目标,以打造自主可控的高性能算力基础设施为宏伟愿景,助力数字中国建设。遵循“软件定义,硬件加速”的理念,COCA 主要由 COCA-GPU 模块、COCA-DPU 模块、COCA-H
17、PN 模块组成。其中,COCA-DPU 模块,围绕计算、存储、网络、安全、管控形成“五大卸载引擎”,基于软硬一体重构算力基础设施的数据中心;COCA-GPU 模块围绕 AI 抽象、AI 加速、AI 池化技术,拉通 GPU产业上下游,共同化解不同 GPU 平台“碎片化”的问题;COCA-HPN 模块,针对大规模集群一方面需要海量的 GPU 算力,另一方面也将面临更为严重的网络拥塞问题的特点,提升算效突破算力互联瓶颈。COCA 以 DPU 为基础,通过 HPN 与国产 GPU 生态的深度融合,重构算力基础设施,联创高性能网络技术,共建自主 DPU+GPU 产业联盟,带动国产化智算产业成熟发展。图
18、2-1 COCA 软硬一体片上计算架构OpenCOCA 白皮书(2023)62.1 COCA-DPU 重构计算架构重构计算架构DPU 是一种提供数据中心基础设施服务的处理器,可以卸载及加速网络、存储、安全和管控等基础功能,释放更多的 CPU 算力供客户使用4。DPU 通常由通用处理单元和专用加速引擎组成,通用处理单元处理控制平面业务,专用加速引擎保证数据平面的处理性能,在保证通用性的同时,突破通用基础设施虚拟化的数据处理性能瓶颈。将虚拟化软件框架由单 CPU 平台支撑扩展至由CPU+DPU 双平台支撑,可大幅增强云基础设施的数据处理能力。COCA-DPU 模块通过对算力基础设施的数据中心进行软
19、硬一体重构,能对计算、存储、网络、安全和管控等功能进行加速和卸载。COCA-DPU 模块通过抽象的驱动适配层实现对 DPU 的标准接入,可分为计算、存储、网络、安全、管控五大引擎,其中计算引擎提供标准化的 virtio-net(Virtual I/O Network)、virtio-blk(Virtiual I/O block)后端接口,实现虚拟化 I/O 的数据面和控制面的加速和卸载;存储引擎在 DPU 上实现存储接口后端,通过加载标准 virtio-blk 或NVMe(Non-Volatile Memory Express)驱动实现块存储的读写,无需额外的厂商专用驱动;网络引擎采用标准的卸
20、载接口和流表实现网络流量的卸载与加速;安全引擎通过通过信任根机制以及标准的 IPsec 等加密通讯协议对系统和多租户网络进行安全防护,并基于 DPU 提供有效的卸载方案;管控引擎屏蔽了裸金属、虚拟机和容器的产品形态差异,从而实现 DPU 资源统一管理和全链路管控运维。图 2-2 COCA-DPU 系统架构OpenCOCA 白皮书(2023)72.1.1 计算引擎计算引擎计算引擎聚焦在 I/O 虚拟化卸载和热迁移。计算引擎通过 DPU 提供的标准化的 virtio-net、virtio-blk 后端接口,实现虚拟化 I/O 的数据面和控制面的加速和卸载。基于 Linux 内核层面和用户层面(例如
21、DPDK、SPDK)的 virtio-net、virtio-blk 前端驱动,DPU 能够和 host 侧的 VM 或者裸金属实现无缝对接,提升网络 I/O 的性能,完全卸载 host 侧 CPU 对 virtio接口处理的资源开销。图 2-3 COCA-DPU virtio-net/blk 卸载为了实现现代算力基础设施资源灵活快速管理,计算引擎需要支持热迁移功能。vDPA(Virtual Data Path Acceleration)技术是其中一种有效的途径。vDPA 技术的核心是 vDPA Framework,能够实现 virtio 控制面和数据面的分离。通过在virtio 控制面和厂商私
22、有控制面之间设置中间适配层,既避免了全直通下控制面过于暴露存在的安全隐患,又能屏蔽硬件差异,使不同硬件卸载厂商之间的热迁移成为可能。vDPA 框架可在用户态也可在内核态实现,计算引擎适配和支撑vDPA 的不同技术演进路径,提供针对算力基础设施的热迁移功能。OpenCOCA 白皮书(2023)8图 2-4 vDPA 框架5672.1.2 存储引擎存储引擎在云计算中,DPU 可以为云主机或裸金属提供存储加速功能,通过软硬件结合方式实现存储协议卸载,灵活实现存储 IOPS(Input/Output Operations PerSecond)高性能和 guest CPU 低占用率的要求。数据中心通过
23、DPU 弹性存储实现了数据中心存储资源的池化,使数据中心计算实例可以按需分配存储资源,并实现弹性伸缩,提高资源利用率,从而降低数据中心运营成本。在弹性存储中的云盘挂载与云盘启动过程中,COCA-DPU 可以实现裸金属实例的快速部署,通过将裸金属实例和虚拟机实例的部署流程、镜像资源和网络配置归一化,简化了部署过程,提升了用户体验,降低了运营成本。DPU 实现 guest 侧存储接口的卸载,主要方式为在 DPU 上实现存储后端接口,并提供 virtio-blk 或 NVMe(Non-Volatile Memory Express)的块设备接口,guest中加载标准 virtio-blk 或 NVM
24、e 驱动实现块存储和文件存储的读写,无需额外的厂商专用驱动。DPU 网络侧接口则将业界常用的远端存储协议,包括iSCSI(Internet Small Computer System Interface)、Ceph RBD(Ceph Rados BlockDevice)、NVMe-oF(NVMe over Fabrics)910前端卸载到 DPU,其中基于 DPU 提供的 RDMA(Remote Direct Memory Access)网络功能实现的 NVMe-over-RDMA网络存储协议可以完成数据中心对各种存储设备的资源池化,大幅度提升了块存储性能,满足了租户对存储性能的需求。Open
25、COCA 白皮书(2023)9图 2-5 COCA-DPU 存储卸载2.1.3 网络引擎网络引擎随着 CPU 与网卡性能“剪刀差”的产生,传统的、围绕 CPU 的网络加速方案逐渐难以应对不断增长的 I/O 需求,而投入更多 CPU 来换取 I/O 性能的做法则相对低效。COCA-DPU 通过网络引擎将虚拟交换机的功能卸载到 DPU,降低主机 CPU 在网络转发业务功能上的开销,提高主机可售卖计算资源,同时提升虚拟机的网络性能。图 2-6 COCA-DPU 网络卸载DPU 作为数据处理的核心,在以 DPU 为中心的数据中心架构下,网络 I/O请求由 DPU 处理和加速,可以将网络消耗的 I/O
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OpenCOCA 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。