从“算力中心”到“算力网”——从算力角度谈算网一体的机遇与挑战.pdf
《从“算力中心”到“算力网”——从算力角度谈算网一体的机遇与挑战.pdf》由会员分享,可在线阅读,更多相关《从“算力中心”到“算力网”——从算力角度谈算网一体的机遇与挑战.pdf(6页珍藏版)》请在咨信网上搜索。
1、主题聚焦:算网一体与智能运营28从“算力中心”到“算力网”从算力角度谈算网一体的机遇与挑战摘要 文章以算力的主视角切入,探讨算网一体概念对算力基础设施建设的重要影响,重点分析由“算力”向“算力网”发展过程中所面临的关键技术挑战,并面向该系列挑战提出一套算力网基础功能架构,开展应用案例分析,为“算网融合”的概念演进与技术发展提供关键参考。关键词 算力网;算网一体;算力互联;协同调度;算力一体化张叶红 董一川 相 洋 王 晖 余 跃鹏城实验室 深圳 518000引言2019年起,国内三大运营商、华为等设备厂商先后发布了算力网络、算力感知网络、计算优先网络、算网一体等相关概念及白皮书1-4,率先开启
2、了对算网融合、算网一体等概念的探索。笔者认为,“算网融合”概念需要从“以网调算”和“算力成网”两个方向进行探讨,通信行业提出的“算力网络”概念通常关注前者,从网络视角切入,重点考虑如何将算力信息和计算能力嵌入网络,通过网络的路由与分发服务实现全网资源的分配调度。然而,若从“算”的视角观察,想要真正将“算力”互联成为“算力网”,除通过网络信息对算力信息进行调度的技术手段外,还存在着异构性兼容、协同效率优化等诸多问题。分散在各地的算力资源真的能协同调度吗?全网算力一体化仍面临着哪些问题?本文从“算”的角度切入,探讨算网融合过程中“算力成网”面临的关键挑战。1 从“算力中心”到“算力网”近年来,随着
3、智能计算产业的快速发展以及人们对ChatGPT等超大规模模型能力的认知不断提升,各行业对算力的需求迅速攀升,算力逐渐成为数字经济时代的核心驱动力。因此,算力中心作为新型基础设施的重要组成部分,已纳入全国各大城市的重点布局和规划中。然而,当前分散在各地的算力基础设施水平不一、形态各异、发展不均衡,严重制约了各地算力、数据等资源的高效使用,急需以部署整体化算力基础资源为核心,对算力进行统筹和协调发展,形成效率更高且可广泛支撑新型计算模式的算力服务体系。“算力互联”并不是一个新的理念,早在21世纪初,国内外便提出了“网格计算”(GridComputing)的概念,通过将各大超算中心的算力进行聚合,有
4、效支持各类科学研究应用5-6;美国谷歌、微软,国内华为等云厂商,也纷纷提出各自的数据中心互联(DataCenterInterconnect,DCI)解决方案,实现企业内部的数字网络平台建设;云际计算(JointCloudComputing)7、天空计算(SkyComputing)8等概念面基金项目:科技创新2030“新一代人工智能”重大项目(2022ZD0115301)主题聚焦:算网一体与智能运营29向云计算产业,通过云服务间的开放协作,实现多云平台间的高效协作。上述工作大多面向超算、企业内数据中心、云计算等传统算力类型的互联需求开展,对近年来兴起的人工智能算力(简称“智算”)互联问题,以及超
5、算、智算、云计算等不同类型算力的互联协作尚未进行深入探讨。“算力网”在以上概念及技术的基础上进一步拓展,是一种覆盖智算中心、超算中心、数据中心等大型异构算力资源的新型算力基础设施,通过对分布在不同地域的异构算力中心进行高速网络互联,形成一台跨地域部署的“大计算机”,实现多中心间的资源共享、自主协作与统一服务,以提升各算力中心的整体运行效率、系统能效和服务能力,如图1所示。?图1“算力网”概念示意图2 算力网建设的技术挑战“算力网”作为网络和计算融合的重要体现,具有广泛的应用前景和发展潜力,其系统天然的高度异构性与复杂性也使得算力网大规模建设与落地应用面临一系列重要挑战。2.1 多层次异构性VS
6、细粒度互操作“算力网”建设的重要目标之一,是实现各算力中心间从底层计算、存储资源到上层应用、服务的多层级互操作。然而,目前全国各算力中心通常面向各自需求、基于不同架构独立建设,软硬件异构性极高,为算力互联互通与任务广域调度带来了极大挑战。在算力资源互联互通方面,各算力中心的集群管理平台异构性是其面临的主要问题。如对于计算资源的互联,涉及到各平台支持的使用方式不同,平台提供的外部访问接口不统一;对于存储资源的统一管理,存在因为各算力中心数据安全策略不同,导致的访问权限差异,同时也存在不同类型的底层存储(如对象存储、文件存储、API形式开放的存储等)导致的访问接口差异。因此,在实现此类异构算力中心
7、的互联互通时,需要对用户屏蔽各平台底层差异,在各类不同的中心间探索统一的互联方式和标准,实现对异构算力中心资源的统一管理和访问。在任务统一调度方面,需考虑如何屏蔽各算力中心从底层计算芯片、驱动程序,到上层开发框架、应用软件等多层次的异构性。以人工智能(ArtificialIntelligence,AI)场景为例,目前大部分AI技术与模型均基于国外主流硬件(如NVIDIAGPU)及主流计算框架(如PyTorch)设计,缺乏对国产软硬件的有效兼容,导致在算力网的任务调度环节,无法有效调动大量的国产算力资源。当前,国内AI硬件(如寒武纪思元、百度昆仑芯、燧原邃思等)和AI计算框架(如PaddlePa
8、ddle、MindSpore、OneFlow等)也已进入高速发展期,对国产软硬件实现更好的适配和兼容,将进一步有助于解决不同算力中心间异构算力的调度问题。如何真正实现“一次编程,随处运行”,从而支撑异构算力资源的统一服务与自主协作,是算力网建设过程中面临的重要挑战。2.2 远程通信代价VS跨域协同优化算力网内的计算、存储资源等广泛分布于不同地理位置,为实现异地资源的协同使用与协同优化,跨地域的远程数据传输不可避免,特别是以“东数西算”、大模型跨域协同训练为代表的算力网业务增长迅速,很多场景数据传输量大且对传输效率需求较高。主题聚焦:算网一体与智能运营30如在“东数西算”业务中,其传输数据量可达
9、PB级;超大规模模型跨域分布式训练业务单次数据传输量在10GB级以上9,且为确保训练效率,需要的数据交互速率可达100Gb/s级。由此可见,当前基于公网的通用数据传输技术无法满足长距离、高带宽、低时延等算力网业务需求,且当前网络传输方面缺乏基于通信技术来简化网络协议栈的相关研究,尚未针对算力网业务流量特征优化传输控制协议。如何实现高速、极简、算网原生的数据传输,利用新型网络技术提高算力网资源的整体利用率,实现算网一体概念中“网”对“算”的有效支撑,是算力网互联技术需要解决的关键问题之一。2.3 算力中心自治性VS算力一体化运营“算力网”建设的一个重要目标是实现各地算力资源的统一服务和统一运营,
10、从而对算力进行统筹和协调发展,以提高全网算力资源的综合使用效能。然而,现实情况中,由于各算力中心大多独立建设,隶属于不同利益主体,其对自身资源分配、数据访问、业务调度等关键环节具有自主决策与控制需求,且通常使用不同的运营标准与服务体系,很难在现有框架内实现完全中心式的一体化运营。因此,在算力网的建设过程中,需要在认证授权、互联适配、网络接入、计量计费等多个方面考虑如何使用非侵入式的技术手段规避过于标准化导致的各主体自主权削弱问题,在各中心“自治性”与算力“一体化”之间实现利益均衡。3 算力网参考架构针对上述挑战,本文提出一套算力网参考架构。如图2所示,算力网系统主要包括调度适配器、统一数据存储
11、、网络设施与控制、云际管理与调度以及运营平台几大部分,各部分之间通过标准化接口进行对接,各业务系统的具体功能设计如下。调度适配器:调度适配器通过在任务与算力中心间增加抽象层,通过低代价、非侵入的方式屏蔽算力中心异构硬件、异构系统等差异,对算力网提交来的任务进行适配转换后提交给算力中心本地管理调度系统;同时,适配器会收集各?1?1?2?2?AI?/?/?图2 算力网系统功能架构图算力中心的任务状态及运维监控信息并上报算力网调度系统,使得算力网可以通过统一的接口收集各中心及任务状态信息,从而对全网资源进行协同调度优化。为保证算力网长稳运行,调度适配器接口访问的服务水平需满足稳定性、可靠性以及性能要
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中心 算力网 角度 谈算网 一体 机遇 挑战
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。