欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    智算产业发展白皮2023.pdf

    • 资源ID:1289741       资源大小:3.55MB        全文页数:54页
    • 资源格式: PDF        下载积分:25金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要25金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    智算产业发展白皮2023.pdf

    1、1 智算产业发展白皮书(2023 年)中国电信研究院 天翼智库 2023 年 8 月 3 目录目录 引言引言 .5 5 一、智算发展迎来新机遇一、智算发展迎来新机遇 .7 7 1 1、AIAI 大模型驱动的智算时代正加速到来大模型驱动的智算时代正加速到来 .7 7 2 2、智能算力成为数字经济发展的新引擎、智能算力成为数字经济发展的新引擎 .8 8 3 3、国家和地方密集出台政策支持智算布局、国家和地方密集出台政策支持智算布局 .9 9 二、智算产业全景及新进展二、智算产业全景及新进展 .1212 1 1、智算产业链初步形成,生态集聚效应不断增强、智算产业链初步形成,生态集聚效应不断增强 .1

    2、212 2 2、国产自研国产自研 AIAI 芯片加速入场芯片加速入场,短期高效供给仍受限,短期高效供给仍受限 .1515 3 3、智算中心建设版图持续扩张,智算服务灵活多样、智算中心建设版图持续扩张,智算服务灵活多样 .1616 4 4、大模型呈蓬勃发展态势,助力产数业务发展、大模型呈蓬勃发展态势,助力产数业务发展.1919 三、智算发展五大新趋势三、智算发展五大新趋势 .2121 趋势趋势 1 1:国产多元异构算力融合推动智算长效发展:国产多元异构算力融合推动智算长效发展 .2121 趋势趋势 2 2:智算从单节点向区域化协同、边端部署演变:智算从单节点向区域化协同、边端部署演变 .2121

    3、 趋势趋势 3 3:普惠泛在的智算服务生态正逐步构建:普惠泛在的智算服务生态正逐步构建 .2323 趋势趋势 4 4:确定性、高性能网络助推大规模智算集群构建:确定性、高性能网络助推大规模智算集群构建 .2424 趋势趋势 5 5:低碳化发展格局需创新智算:低碳化发展格局需创新智算-电网协同模式电网协同模式 .2525 四、智算四、智算技术发展的七大关键词技术发展的七大关键词 .2727 关键词关键词 1 1:存算一体:存算一体 .2727 关键词关键词 2 2:一云多芯:一云多芯 .2727 关键词关键词 3 3:CPOCPO .2828 关键词关键词 4 4:RDMARDMA .2929

    4、关键词关键词 5 5:DDCDDC .3030 关键词关键词 6 6:并行计算:并行计算 .3232 关键词关键词 7 7:液冷:液冷 .3232 五、智算发展潜力评估五、智算发展潜力评估 .3434 4 1 1、评估方法、评估方法 .3434 2 2、评估结果、评估结果 .3636 六、典型案例六、典型案例 .4141 1 1、中国电信安徽智算中心、中国电信安徽智算中心 .4141 2 2、中国电信(国家)数字青海绿色大数据中心、中国电信(国家)数字青海绿色大数据中心.4242 3 3、海兰信海底数据中心、海兰信海底数据中心 .4343 七、总结与展望七、总结与展望 .4747 八、附录八、

    5、附录-智算评估实施方案智算评估实施方案 .4848 1 1、评估指标模型构建、评估指标模型构建 .4848 2 2、评估指标赋值、评估指标赋值 .4949 3 3、评估指标权重设计、评估指标权重设计 .4949 4 4、各省评估得分、各省评估得分 .5151 九、参考文献九、参考文献 .5252 5 引言引言 以大模型为代表的通用人工智能不断演进,人工智能、机器学习、大数据分析等技术在金融、制造、汽车等领域持续渗透,大模型应用场景愈加广泛,正加速算力产业结构变革,智能算力将取代通用算力成为算力结构最主要构成,智算产业迎来了高速发展期。工信部最新数据显示,我国算力总规模已位居全球第二,保持年约

    6、30%快速增长,新增算力设施中智能算力占比过半,成为算力增长的新动能;我国算力产业创新能力持续增强,面向大模型训练、推理等高性能芯片供给持续增强,多元异构计算技术加速普及,有力支撑人工智能、区块链、元宇宙等新兴应用发展。算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力1。智算是算力的一种,指具有提供人工智能应用所需算力服务、数据服务和算法服务的智能算力,利用 CPU 与 GPU、FPGA、ASIC 等加速芯片的异构组合,实现高精度通用算力和低精度专用算力的融合供应2,20。智算涵盖从底层高性能芯片、服务器和网络设备,到智算中心基建、机电配套和软硬件服务平台,再到顶层人工智能应用

    7、等完整体系,产业上下链长、集聚效应显著。智算为经济增长提供数字转型、智能升级、融合创新的新动力,带动人工智能及相关产业倍速增长,成为我国数字经济发展的新引擎。本白皮书系统分析了智算产业发展环境、产业链全景特点、最新进展及面临挑战,指出了智算产业五大发展趋势、七大技术关键词,提出了我国智算发展潜力评估体系及分省指标结果,并介绍了典型智6 算中心建设场景案例。本白皮书由中国电信研究院编制,我们希望通过此白皮书为我国智算产业市场洞察、技术创新、生态建设,高水平发展提供参考启示。7 一、智算发展迎来新机遇一、智算发展迎来新机遇 1、AI 大模型驱动的智算时代正加速到来 图 1 人工智能产业发展历程 人

    8、工智能自人工智能自 19561956 年诞生以来,年诞生以来,历经三次发展浪潮历经三次发展浪潮。第一次浪潮(第一次浪潮(1 1956956-1971970s0s),),神经网络相关基础理论被提出,搜索式推理、自然语言等大量 AI 程序和创新研究涌现。但由于大部分AI 程序不具备解决复杂问题的能力,造成 AI 研究经费开始大幅削减,AI 迎来第一次发展低谷。该阶段算力主要以 IBM 大型计算机为主,以集中的方式分配使用。第二次浪潮(第二次浪潮(1980s1980s-2000s2000s),),80 年代名为“专家系统”的 AI 程序问世,极大增强了 AI 的实用性。但“专家系统”应用仅限于特定领

    9、域,迭代升级难度及维护成本高,规模推广难度大,AI 再次进入发展低谷。90 年代小型计算机性能每 18 个月翻一番,且价格和耗电量大幅降低,算力逐渐进入分布式发展阶段3。第三次浪潮(第三次浪潮(20062006-20202020),),深度学习等算法的突破使得 AI 性能8 大幅提升。移动通信技术快速发展,共享计算资源、提高算力利用率等需求催生出以云计算为中心的集中式共享算力模式。2016 年,谷歌研发的 AlphaGo 将 AI 推向大众视野,语音识别、视觉处理等 AI 应用逐渐渗透到各行各业。同年,中国电信提出“云网融合”发展方向,将云计算和网络技术有机结合,实现计算和网络资源的统一管理和

    10、优化配置,推动网络和算力一体化供给、运营和服务。当前人工智能正迎来第四次发展热潮,加速进入大模型驱动的智当前人工智能正迎来第四次发展热潮,加速进入大模型驱动的智算时代。算时代。2022 年 11 月,OpenAI 公司正式推出 ChatGPT,推动生成式AI 应用进入爆发期,M、文心一言、盘古等国内 AI 大模型层出不穷,AI 算力需求被推到“井喷”状态,开启智算时代。随着数据指数级增长,计算密度越来越高、计算节点分布越来越广,加速云网与AI、安全等要素融合。算力逐渐由终端计算等需求驱动的“被动式”发展,转向促进 AI 大模型训练、实现通用人工智能等代表的“主动式”发展,从“技术工具”进阶为社

    11、会经济发展的“底层动力”。2、智能算力成为数字经济发展的新引擎 人工智能产业市场前景广阔,成为推动全球经济发展的新动力。人工智能产业市场前景广阔,成为推动全球经济发展的新动力。IDC 预测,全球以 AI 为中心的各类系统的软件、硬件与服务支出,2023 年将达到 1540 亿美元,到 2026 年将超过 3000 亿美元,预计2022 年至 2026 年间复合年增长率(CAGR)为 27%4。2021 年中国 Al服务器市场规模为 53.9 亿美元,预计 2025 年达到 103.4 亿美元,2021 年至 2025 年间 CAGR 达 17.7%5。9 智算产业智算产业集群化作用显著,集群化

    12、作用显著,成为带动人工智能及相关产业快速发成为带动人工智能及相关产业快速发展的新动力。展的新动力。到 2035 年,人工智能的发展将给我国甚至全球经济增长带来突出贡献。预计到 2026 年,人工智能技术对于全行业的渗透率将超过 20%6。据信通院数据,2022 年我国算力核心产业规模达到1.8 万亿元,其中人工智能核心产业规模达 5080 亿元,同比增长 18%7;2022 年我国新增算力基础设施中智能算力占比过半,智算成为算力增长新曲线,智算中心正在支撑人工智能产业的快速发展,支撑其到2025 年达到 4000 亿,带动 5 万亿产业目标;2030 年达到 1 万亿,带动 10 万亿元产业目

    13、标8。3、国家和地方密集出台政策支持智算布局 表 1.我国部委智算中心建设相关政策 数据来源:各部委官方文件 我国高度重视智算产业发展,围绕智算中心、人工智能、大模型我国高度重视智算产业发展,围绕智算中心、人工智能、大模型等先后出台系列政策文件,加快产业布局。等先后出台系列政策文件,加快产业布局。“十四五”规划和 2035 年远景目标纲要中明确提出要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群”。工信部、国家发改委等先后出台新型数据中心发展三年行动计划10 (2021-2023 年)、全国一体化大数据中心协同创新体系算力枢纽实施方案等文件,启动

    14、“东数西算”重大工程。2023 年 4 月,中共中央政治局会议中强调“要重视通用人工智能发展,营造创新生态,重视防范风险。”7 月,科技部批复 25 个平台建设国家新一代人工智能公共算力开放创新平台(含筹建)。表 2.我国各省市智算中心建设相关政策 数据来源:各省市官方政策文件 地方政府纷纷发布智算产业相关政策,开展智算地方政府纷纷发布智算产业相关政策,开展智算中心中心相关基础设相关基础设施建设工作,提供普惠算力服务。施建设工作,提供普惠算力服务。北京发布北京市促进通用人工自能创新发展的若干措施高效推动算力基础设施建设,将新增算力建设项目纳入算力合作伙伴计划,加快推动智算中心建设,形成规模化先

    15、进算力供给。上海出台上海市助力中小微企业稳增长调结构强能力若干措施助力中小企业数字化转型,发放“AI 算力券”,重点支持租用本市智能算力且用于核心算法创新、模型研发的企业,最高按合同费用 20%进行支持。成都印发成都市围绕超算智算加快算力产业发展的政策措施明确每年发放总额不超过 1000 万元的算力券,11 用于支持算力中介服务机构、科技型中小微企业和创客、科研机构、高校等使用国家超算成都中心、成都智算中心算力资源。12 二、智算产业全景及新进展二、智算产业全景及新进展 1、智算产业链初步形成,生态集聚效应不断增强 图 2 智算产业链图谱 目前,我国智算产业链已经初步形成,涵盖由芯片、软件、硬

    16、件供应商构成的上游产业,由云商、电信运营商、第三方数据中心服务商等构成的中游产业,以及由互联网、交通、金融、工业等行业等用户构成的下游产业。(一)上游:(一)上游:AIAI 芯片领域形成多方竞争格局芯片领域形成多方竞争格局 GPUGPU、FPGAFPGA 技术壁垒高,迅速形成寡头格局。技术壁垒高,迅速形成寡头格局。英伟达(NVIDIA)凭借 NVLink、NVSwitch 等集群性能优势以及良好的 CUDA 生态,成为全球 GPU 主要供货商,其 A100 芯片占据了数据中心 GPU 市场 90%以上的份额。据 IDC 数据,预计到 2025 年 GPU 仍将占据 AI 芯片 8 成市场份额。

    17、同时赛灵思(Xilinx)和英特尔(Intel)已在 FPGA 领域形成双寡头格局,市场份额占比约 90%9。TPUTPU、NPUNPU 逐渐兴起,呈现“百家争鸣”态势。逐渐兴起,呈现“百家争鸣”态势。以 TPU、NPU 为代13 表的 ASIC 凭借吞吐量、功耗、算力等优势,逐渐被广泛应用于人工智能领域。国外以谷歌为首发布 TPU 芯片,国内寒武纪、华为、阿里等公司也都推出了深度神经网络加速的 ASIC 芯片,如华为昇腾 NPU、阿里平头哥 NPU。白盒交换机以其软硬解耦、灵活可编程、高速转发等优势受到云白盒交换机以其软硬解耦、灵活可编程、高速转发等优势受到云商智算中心大规模组网青睐。商智算

    18、中心大规模组网青睐。Omdia 数据显示,2022 年全球数据中心以太网交换机市场份额白盒供应商占比 32%,其中 Arista 占比 18%。在北美市场,全球 TOP3 云商亚马逊、谷歌和 Meta 的白盒交换机购买规模已超市场总规模的三分之二。InfiniBandInfiniBand 和和 RoCERoCE 作为智算中心高性能作为智算中心高性能网络的主流方案,满足网络的主流方案,满足智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求。智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求。InfiniBand 网络方案及配套设备供应商主要包括英伟达、英特尔、思科,其中英伟达市场

    19、占有率超七成。支持 RoCE 的交换机厂商较多,主要以新华三、华为为主。支持 RoCE 的 NVIDIA ConnectX 系列网卡当前市场占有率比较高。(二)中游:云商及(二)中游:云商及 IDCIDC 服务商基于自身优势提供智算服务服务商基于自身优势提供智算服务及及解解决方案决方案 云商、科技公司借助自身技术壁垒提供大模型及平台服务。云商、科技公司借助自身技术壁垒提供大模型及平台服务。主流云商一方面自建大型智算中心,如 Meta 宣布取消或暂停部分正在建设的数据中心,对其 11 个正在开发的项目进行重新设计,彻底转向人工智能数据中心的建设。另一方面加速布局 AI 大模型,如谷歌“PaLM-

    20、2”、Meta“Llama 2”等。特斯拉、苹果等科技公司基于自身14 业务优势,一方面自建定制化智算中心,如特斯拉面向自动驾驶等领域建设超算中心 Dojo,拥有超过 100 万个训练节点,算力达到1.1EFLOPS10。另一方面,积极布局 AI 大模型体系,巩固自身行业优势壁垒,如特斯拉 AI 机器人“擎天柱”、苹果“Apple GPT”。IDCIDC 服务商依托云服务商依托云/网资源优势,积极参与智算建设。网资源优势,积极参与智算建设。国内运营商积极建设智算中心及平台,如中国电信推出息壤智能计算平台,提供智算、超算、通算多样化算力服务,为大模型训练、无人驾驶、生命科学等场景提供软硬一体解决

    21、方案,RDMA 吞吐可高达 1.6Tb11。国外 IDC 服务商仍在布局阶段,如 2023 年日本 NTT 宣布将在 5 年内投资 8 万亿日元(约合 590 亿美元)用于人工智能、数据中心和其他增长领域12;Equinix 的 2023 年全球科技趋势调查报告显示,人工智能应用率上升,但 IT 基础设施没有为人工智能做好充足准备。(三)下游:车企领衔行业大模型落地应用(三)下游:车企领衔行业大模型落地应用 互联网、交通、金融、工业等行业,基于大模型带动自动驾驶、机器人、元宇宙、智慧医疗等下游产业发展。海外大模型行业应用主要在传媒游戏、机器人、办公等领域落地,如 Meta 推出 AI Sand

    22、box为广告生成不同的文字、Apple 推出生成式人工智能元宇宙产品Visin Pro 头显,并计划在 siri 嵌入类 GPT 功能。哈维基于 GPT 及行业数据推出 AI 法律助手。国内大模型行业应用主要聚焦金融、医疗、传媒游戏、智能汽车等领域,如百度文心大模型助力浦发银行、泰康保险在投资决策、理赔信息检索等方面的应用。华为盘古大模型为国家电网电力巡检提供智能服务。15 图 3 国内外大模型行业分布13 车企布局智算中心用于自动驾驶大模型训练。车企布局智算中心用于自动驾驶大模型训练。特斯拉基于 Dojo超级计算机先后推出 BEV 大模型、端到端自动驾驶大模型,推动高阶智能驾驶落地,预计到

    23、2024 年算力将达 100EFLOPS。吉利星睿智算中心自研汽车行业 AI 对话模型,初步完成百亿参数的大模型训练,吉利星睿智算中心(湖州)预计 2025 年算力规模将达 1.2EFLOPS14。小鹏汽车自动驾驶智算中心“扶摇”(乌兰察布),基于阿里飞天智算平台,算力可达 600PFLOPS,将小鹏自动驾驶核心模型的训练提速近 170 倍15。毫末智行智算中心“雪湖绿洲”(山西大同),基于火山引擎智算云解决方案,算力达 670PFLOPS,模型训练效率提升 100倍16。2、国产自研 AI 芯片加速入场,短期高效供给仍受限 国产硬件厂商持续突破国产硬件厂商持续突破 AIAI 芯片性能,提升市

    24、场竞争力。芯片性能,提升市场竞争力。华为推出昇腾 910,性能对标英伟达 A100,可用于智能手机、云计算、自动驾驶等领域,同时推出 AI 开源计算框架 MindSpore,支持用户进行AI 开发。寒武纪提供云边端一体、训练推理融合等系列 AI 芯片产品及平台化基础系统软件,重点对推荐系统和大语言模型的训练推理等16 场景进行优化。壁仞科技等初创公司不断与多方建立合作关系,如万国数据、浪潮、中国移动等,聚焦云端通用智能计算,重点在 AI 训练和推理、图形渲染等领域发力。大型云商自研大型云商自研 AIAI 芯片,以摆脱对国外技术依赖。芯片,以摆脱对国外技术依赖。阿里面向自身电商、汽车、家电等领域

    25、需求自研 AI 芯片,基于 RISC-V 架构和自研算法推出含光 800 NPU,支持 TFlops 级别浮点运算。百度面向搜索、智能交通等领域的深度学习运算需求,推出昆仑系列 AI 芯片,用于大模型推理。腾讯依靠蓬莱实验室推出 AI 推理芯片“紫霄”,已用于腾讯会议等多个内部业务。我国自主 AI 芯片在系统效率等方面与国际领先产品仍有差距,并存在性价比待提高、架构不够兼容、配套工具不够成熟、应用场景不够广泛等问题。制程方面,。制程方面,目前英伟达已率先到达 4 nm,而国内厂商多集中在 7 nm17;算力方面,算力方面,国内厂商大多不支持双精度(FP64)计算,且仅在单精度(FP32)及定点

    26、计算(INT8)方面与国外中端产品持平;生态方面,生态方面,与英伟达 CUDA 的成熟生态相比,国内企业多采用 OpenCL 进行自主生态建设,存在明显差距。3、智算中心建设版图持续扩张,智算服务灵活多样 智算中心聚焦东部城市,以政府主导国产化为主。智算中心聚焦东部城市,以政府主导国产化为主。截至 2023 年5 月,全国超 35 个城市在建或投运 44 个智算中心(在建 15 个智算中心,投运 29 个智算中心),其中明确面向 AI 大模型应用的有 11个。地理分布集聚一线及省会城市,与大模型研发分布强相关。地理分布集聚一线及省会城市,与大模型研发分布强相关。智算17 中心建设以东部为主,京

    27、津冀、长三角、粤港澳共 29 个(占比近 66%),其中 9 个在建,20 个投运,面向西部枢纽节点逐渐开展布局。东部多东部多为政府主导建设,且国产化占比高(为政府主导建设,且国产化占比高(54%54%),西部以云商自建为主。),西部以云商自建为主。地方政府牵头主导 34 个(占比近 80%),主要满足当地 AI 产业发展,且以华为昇腾、寒武纪等为主要合作方提供国产化能力。西部以云商为主,如阿里乌兰察部智算中心、字节跳动与毫末智行合建雪湖绿洲(山西大同)智算中心。受限于需求不清晰、高性能芯片产业生态不受限于需求不清晰、高性能芯片产业生态不成熟等因素影响,智算规模普遍偏小。成熟等因素影响,智算规

    28、模普遍偏小。智算中心规模在 100-300PFLOPS 内占比超 70%以上,超过 1EFLOPS 规模的智算中心约占 25%(超半数为云商及大型企业自建),且全部集中在京津冀、长三角和粤港澳区域。图 4 我国智算中心及大模型分布 18 由于智算由于智算需求需求场景多样且高度定制化,相较于传统数据中心,智场景多样且高度定制化,相较于传统数据中心,智算中心服务模式呈现多元化特点,算中心服务模式呈现多元化特点,包括机房托管、算力租赁、智算平台、工具集及咨询等增值服务、模型即服务(MaaS)、大模型应用服务以及各种组合模式。(一)机房托管:(一)机房托管:机房托管服务与传统数据中心服务模式类型相同,

    29、但需要面向智算提供更高层次的定制化(功耗、配电、网络等),主要面向云商、AI 公司、大型央企等客户。(二)(二)算力租赁算力租赁:主要面向中小型科技公司、IT 公司、小参数量的模型(10B 规模)等客户,通过将闲置 GPU 资源通过云服务的形式将服务器或虚拟机租用给用户,采用按使用时间及利用率收费。(三)大模型托管、训练、部署、订阅等从(三)大模型托管、训练、部署、订阅等从 IaaSIaaS 到到 SaaSSaaS 全线服全线服务。务。一是提供 GPU 主机、高性能计算、批量计算等 IaaS 产品。二是依靠智算平台提供公有云和专有云,为各类科研、公共服务和企业机构提供算力调度、数据处理、模型开

    30、发等一体化智能计算服务。三是通过 MaaS 提供模型定制、精调、部署等一站式模型服务。四是基于大模型和 MaaS 能力全面智能升级 SaaS 应用,帮助企业构建行业大模型或集成在企业应用上、以及面向公众用户提供搭载大模型应用的基于大模型的搜索引擎、数字人等服务。19 图 5 智算服务体系 未来智算服务模式将由现阶段集成 AI 大模型能力的云产品的卖方市场,逐步过渡到围绕产品提供配套衍生服务,最终形成基于标准化智算中心基于“AI 原生”生态服务的买方市场。4、大模型呈蓬勃发展态势,助力产数业务发展 我国大模型研发快速增长,大模型研发我国大模型研发快速增长,大模型研发分布分布以东部城市为主。以东部

    31、城市为主。从全球已发布的大模型分布来看,中国和美国大幅领先,超过全球总数的 80%,美国在大模型数量方面始终居全球最高,中国从 2020 年进入大模型快速发展期,目前与美国保持同步增长态势。据不完全统计,目前中国 10 亿参数规模以上的大模型已发布 79 个,14 个省市/地区都在开展大模型研发,与智算中心布局一致,主要集中在北京(38个)、广东(20 个)、浙江(5 个)和上海(5 个)18。其中大模型开源占比过半,高校/科研机构是开源主力。清华大学的 ChatGLM-6B、复旦大学的 MOSS 以及百度的文心系列大模型开源影响力最高。通用大模型不仅需要海量数据与雄厚算力支撑,对资金实力、人

    32、20 才队伍等也提出更高要求。如 ChatGPT 单次训练成本高达数百万美金,OpenAI 核心团队 87 人,全部来自世界顶尖高等院校。未来将呈现少未来将呈现少数几家通用大模型,并涌现出无数更贴近产业需求的行业大模型的趋数几家通用大模型,并涌现出无数更贴近产业需求的行业大模型的趋势。势。智算赋能行业应用,是产数业务发展的“加速器”。智算赋能行业应用,是产数业务发展的“加速器”。行业大模型通过对垂直细分领域的数据进行更有针对性的训练和优化,从而更好地理解行业的语义和规范,更有效地执行专业性更强的任务。如金融的风险控制和投资决策,医疗的图像识别和诊断,交通的调度和路径优化,能源的能耗预测、碳排放

    33、监测等。预计生成式 AI 能为这些行业带来 1000 亿美元到 3000 亿美元的收益。通用大模型企业基于自有通用大模型+外部行业数据的模式拓展多个行业大模型,行业公司基于开源大模型+内部行业数据赋能自身应用。截至 2023 年 8 月,国内已落地的行业大模型共 72 个,主要集中在金融(14 个,19.4%)、医疗(14 个,19.4%)、传媒游戏(8 个,11.1%)及教育科研(8 个,11.1%)。图 6 大模型潜在影响矩阵19 21 三、智算发展五大三、智算发展五大新新趋势趋势 趋势 1:国产多元异构算力融合推动智算长效发展 大模型发展推动大模型发展推动 CPU、GPU、DPU 等“等

    34、“XPU”异构算力融合。”异构算力融合。一方面,模型训练、边缘推理、数值模拟等不同智能应用需要智算中心提供不同的算力,如自动驾驶、智慧医疗等场景既需要高精度通用算力也需要低精度专用算力20。另一方面,随着多模态大模型流量规模增长,CPU、GPU 需要拿出更多精力处理数据传输,需要利用 DPU减负,从而更好地处理“本职工作”。中国电信自研紫金 DPU 实现服务器虚拟化零损耗,全面释放算力,同时网络 PPS 性能翻倍、存储IOPS 性能提升两倍、网络时延降低至原来的四分之一。高端高端 AI 芯片国产化能力是我国智算产业长效发展的关键。芯片国产化能力是我国智算产业长效发展的关键。一方面,我国 AI

    35、芯片需求增长迅猛,华为数据显示,我国对人工智能芯片的需求半年内增长了十倍以上;IDC 预测,未来 18 个月,GPU、ASIC 和 FPGA 等 AI 芯片搭载率将持续增高。另一方面,我国高端AI 芯片性能与国际领先水平仍有差距,对美国依赖较大。随着美国对中国高端 AI 芯片的管制进一步加强,如英伟达等厂商对中国(含香港)禁运高性能 GPU,需要我国持续加强芯片技术攻关,提升 GPU的国产化替代能力。趋势 2:智算从单节点向区域化协同、边端部署演变 大模型驱动的智算成为东数西算的最佳实践。大模型驱动的智算成为东数西算的最佳实践。由于异构算力封装、22 超大带宽和超低延迟传输网络技术仍未解决,以

    36、当前模型训练参数量(千亿级)为参考,大模型训练等的 AI 计算基本依靠单智算中心完成,且基本集中在同构智能算力中心。智算中心选址多位于东部地区,东部区域在传统数据中心建设方面,由于受能耗、成本等因素的影响发展放缓,但各地政府为实现大模型的创新培育与产业聚集,短期内将主导智算中心发展,形成布局一线及省会城市。长期来看(5 年以上),受成本、双碳目标以及业务模式等因素影响,集约、规模化的智算中心向全国一体化枢纽节点布局的趋势不会改变。未来随着计算机视觉、科学计算等多模态大模型的发展以及参数量的规模增长(万亿以上),将带动东数西训、东数西渲成为东数西算场景落地的最佳实践,并呈现两大趋势:一是大模型演

    37、进为多个智算中心分布式训练,且此时智算中心间可以通过全光网等方式实现 us 级时延,智算中心间交互带宽达 T 级别以上;二是业务应用调用多个专业大模型,可能形成云计算中心与智算中心间一对多的互联需求,流量规模增长。西部地区具备发展智算中心、承接东部算力需求的潜力,东西跨区域协同将更加突出。训练训练-推理的集中推理的集中-边缘边缘/终端终端两级化布局逐步形成两级化布局逐步形成。现有大模型业务模式主要包括与大模型直接交互和基于大模型能力的产品改造。前者以猎奇为主,短期并发难以持续,如 ChatGPT 的访问量增长率 1月环比增长 131.6%,5 月下降至 2.8%。后者更多实现大模型与产品、业务

    38、流程的融合,将成为主流形态,如集成了 GPT4 的 Bing 搜索引擎用户访问规模已超 ChatGPT。随着多模态大模型逐步成熟,将推动 2B23 生产型和 2C 消费型流量渐成规模,以高频富媒体即时交互为主,业务应用调用多个专业大模型成为主要方式,驱动分布式推理智算中心下沉,中心(训练)-边缘(推理)将成大模型的主流部署方式。此外,随着大模型轻量化处理、终端性能的持续提升,大模型从云端到终端部署渐成发展趋势。截至 2023 年 2 月国内存量手机终端智能算力总规模是我国数据中心算力总规模 12 倍以上,相当于近一百万片英伟达 H100 芯片算力21,大模型的云-边-端协同应用将在未来几年快速

    39、发展。图 7 智算中心业务访问模式 趋势 3:普惠泛在的智算服务生态正逐步构建 智能算力使用具有周期性,复用难。智能算力使用具有周期性,复用难。AI 大模型以“大规模预训练微调”为主,前期预训练工作量大,且需要高性能大算力 AI 芯片支撑,算力需求呈现周期性,后期推理算力对芯片计算能力要求相对较低。智算中心的算法模型、AI 架构定制化程度高,其他场景难以复用。据 IDC 调研,超过 80%的受访组织表示会考虑购买预先训练好24 的人工智能模型,但未来 2-3 年私有化部署仍将是整个智算市场的主流。由于当前国内高性能芯片受限、智能算力建设及使用门槛高等原因,借助平台调度实现算力错峰使用,并整合数

    40、据集、组件、算法模型提供平台级服务,可实现全社会算力服务普适、普惠和高效利用,因此成为业界运营智算中心的趋势。地方政府主导建设公共算力服务平台,提供普惠算力。地方政府主导建设公共算力服务平台,提供普惠算力。算力服务多以场景化云服务的形式交付,用户按业务需求采购算力、存储、带宽等专业服务,实现无处不在的计算,服务模式将从“资源式”向“任务式”转变。政府以城市为单位建设公共算力服务平台,用于连接社会多方智算中心,主要面向中小型企业或科研机构提供普惠算力,同时助力当地人工智能产业孵化,如上海公共算力服务平台、北京多元智算中心等。现有智算中心的软硬件通用性和兼容性较低,需要进一步推动产业链上下游开放协

    41、同,实现不同品类、不同技术路线的芯片、算法、模型、应用等要素实现“横向”兼容、“纵向”耦合,确保各层次灵活构建,降低迁移应用门槛,共同推动行业赋能。趋势 4:确定性、高性能网络助推大规模智算集群构建 智算中心内网络无损高速互联是关键。智算中心内网络无损高速互联是关键。大模型对数据中心内网络的传输效率有着严格的要求。一是网络丢包 0.1%会导致算力损失 50%(华为实验数据),对于一个可以承载 1.6 万卡的集群而言,近 10万个光模块平均 4 天左右就会有故障发生。二是面对千亿、万亿参数规模的大模型,训练过程中通信占比最大可达 50%,仅单次计算迭代25 内梯度同步需要的通信量就达百 GB 量

    42、级。因此,无阻塞、高吞吐量成为面向大模型训练的智算中心内网络的核心诉求。智算中心间确定性智算中心间确定性、无损网络研究,无损网络研究,是是实现跨域多元算力整合实现跨域多元算力整合的的关键关键。现阶段大模型的训练、推理主要在单一智算中心内进行,未来随着大模型发展以及训练任务的增多,单点算力资源无法满足训练需求,需要将物理位置上分散、归属于不同方所有的多个智算中心之间构建高性能互联网络(DCI),从而整合成一个更大规模的虚拟智算中心以期达到智算中心内部无损网络传输水平。当前中国电信已完成单波 400Gbit/s、传输容量 44Tbit/s、传输距离 1050km 的传输系统,创造了实时光传输容量距

    43、离积的新世界纪录(46.2Pbitkm/s),为部署 400G 光传输骨干先现网提供了实验验证22;自研算力网关在东数西渲等业务场景中,解决跨域算力调度。鹏城实验室开展深圳和广州超算 10 TB 全光网络互联研究。趋势 5:低碳化发展格局需创新智算-电网协同模式 绿色电力不产生碳排放,助推智算中心零碳运营。绿色电力不产生碳排放,助推智算中心零碳运营。中国工程院院士戴琼海表示,预计 2030 年智能计算年耗电达到 5000 亿度,占发电总量 5%。根据斯坦福人工智能研究所的研究数据,OpenAI 的 GPT-3单次训练耗电量高达 1287 兆瓦时,相当于 120 个美国家庭 1 年的用电量、10

    44、000 辆特斯拉跑满 10 万公里消耗的电量,而这仅仅是训练AI 模型的前期电力,占模型实际使用时所消耗电力的 40%。作为用电大户,智算中心必须因地制宜利用各种可再生能源,针对地域、时间、26 天气等对绿电供给影响较大的问题,通过储能、源网储荷一体化等方法应对。零碳是智算中心发展的长远目标。零碳是智算中心发展的长远目标。零碳是指直接或间接产生的温室气体排放总量,通过节能减排、清洁能源、碳交易等方式进行正负抵消,实现总碳排放为零。一是通过减碳,运用技术手段降低用能、提高能效、提高绿色能源使用等;二是通过碳抵消,购买绿电、绿证等来进行碳排放的消纳。谷歌宣布计划 2030 年实现零碳运营,开发并部

    45、署了碳智能计算平台,通过获得各国与地区历史、实时和未来 24小时内每小时电力能源结构及碳强度,通过在时间或空间上转移计算任务,实现计算任务与低碳电力供应的最佳匹配。27 四、智算技术四、智算技术发展的发展的七大关键词七大关键词 关键词 1:存算一体 存算一体作为一种新型算力,是突破 AI 算力瓶颈和大数据的关键技术。与以往的冯诺依曼架构相比,打破了由于计算单元与存储单元过于独立而导致的“存储墙”(CPU 处理数据的速度与存储器读写数据速度之间严重失衡的问题,严重影响目标应用程序的功率和性能),达到用更低功耗实现更高算力的效果。作为可 10 倍提升单位功耗算力的颠覆性技术之一,存算一体有望降低一

    46、个数量级的单位算力能耗,在 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等大规模并行计算场景中,具备高带宽、低功耗的显著优势。目前主流的实现方案包括:一是利用先进封装技术把计算逻辑芯片和存储器(如 DRAM)封装到一起;二是在传统 DRAM、SRAM、NOR Flash、NAND Flash 中实现存内计算;三是利用新型存储元件实现存算一体。当前存算一体技术仍处于早期阶段,我国存算一体芯片创新企业与海外创新企业齐头并进,在该领域的先发制人,为我国相关技术的弯道超车提供了巨大可能性。关键词 2:一云多芯 一云多芯是指用一套云操作系统来管理不同架构的硬件服务器集群,可以支持多种类型的芯片,

    47、解决不同类型芯片共存所带来的多云管理问题,最大限度利用云上资源池的强大算力。作为 IT 产业链28 承上启下的关键环节,向下纳管和兼容底层各种芯片、整机、操作系统等软硬件基础设施,向上支撑大数据、人工智能、物联网、5G 等新一代企业级应用,有效规避算力孤岛,逐步实现从算力的并存到算力的统一。一云多芯通过纳管不同指令集的芯片,包括 CPU、GPU、DPU等,为各类应用场景提供异构多元化的算力支持,满足智算业务高性能计算和数据处理要求,助力算力平台建设标准化、统一化、服务化。中国电信云骁智算平台基于天翼云全栈自研操作系统,打造一云六芯,全面支持主流国产芯片。阿里飞天操作系统正在全面兼容 X86、A

    48、RM、RISC-V 等多种芯片架构,实现一云多芯。关键词 3:CPO CPO(共封装光学)是光模块未来的一种演进形式,被视为 AI 高算力下高能效方案。CPO 是指把光引擎和交换芯片共同封装在一起的光电共封装,使电信号在引擎和芯片之间更快传输,缩短光引擎和交换芯片间的距离,有效减少尺寸,降低功耗,提高效率。800G 光模块可提高服务器之间互联密度,在同等算力下计算效率倍增,高效支撑AI 大模型 100%释放算力。随着 AIGC 发展趋势明朗,高算力需求催化更高速率的 800G/1.6T 光模块需求,LightCounting 预测,硅光模块有望在 2025 年高速光模块市场中占据 60%以上份

    49、额。多家厂商也开始大力研发用于数据中心的硅光模块,如新华三发布 51.2T 800G CPO硅光数据中心交换机,单芯片带宽 51.2T,支持 64 个 800G 端口,支撑 3.2 万台节点单个 AIGC 集群,单位时间内 GPU 运算效率提升 25%,29 硅光+液冷技术融合实现单集群 TCO 降低 30%,满足大模型智算网络高吞吐、低时延、绿色节能需求23。图 8 以太网转发芯片演进 关键词 4:RDMA RDMA(Remote Direct Memory Access)是一种远程直接数据存取技术,可以有效降低多机多卡间端到端通信时延,满足智算网络的低时延、大带宽需求。当前 RDMA 技术

    50、主要采用的方案为 InfiniBand和 RoCEv2 两种。InfiniBand 网卡在速率方面保持着快速的发展,主流 200Gbps、400Gbps 已规模商用。当前用于大模型训练的智能算力节点内部大多采用 InfiniBand 技术构建数据中心内高性能网络,提供高速连接,以及微秒级的时延、无丢包,避免 GPU 计算等待数据传输导致算力效率的下降。目前 InfiniBand 技术为英伟达独家控制,成本偏高、开放性较弱,因此业界也在考虑用 RoCEv2 等无损网络技术替代 InfiniBand 技术,但存在配置复杂、支持万卡规模网络吞吐性较弱等问题。30 图 9 InfiniBand 和 R


    注意事项

    本文(智算产业发展白皮2023.pdf)为本站上传会员【Stan****Shan】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png