AIGC大模型算力平台参考设计.pdf
《AIGC大模型算力平台参考设计.pdf》由会员分享,可在线阅读,更多相关《AIGC大模型算力平台参考设计.pdf(19页珍藏版)》请在咨信网上搜索。
1、开放加速规范AI服务器设计指南Open Accelerator AIServer Design Guide2023 年 8 月4.1 设计原则4.1.1 应用导向原则4.1.2 多元开放原则4.1.3 绿色高效原则4.1.4 统筹设计原则4.2 设计指南4.2.1 多维协同设计节点层面:(1)系统架构(2)OAM模块(3)UBB基板(4)硬件设计(5)散热设计(6)系统管理(7)故障诊断(8)软件平台集群层面:(1)集群网络与存储(2)整机柜(3)液冷(4)制冷(5)运维4.2.2 全面系统测试(1)结构测试(2)散热测试(3)稳定性测试(4)软件兼容性测试 4.2.3 性能测评调优(1)基础
2、性能测试(2)互连性能测试(3)模型性能测试(4)模型性能调优01生成式AI的算力需求与挑战02开放加速规范AI服务器开发背景03开放加速规范AI服务器发展历程04开放加速规范AI服务器设计指南030504060606060607070707080809111111111212131313131414141414151515151606CONTENTOpen AcceleratorAI Server Design开放加速规范AI服务器设计指南|Open Accelerator AI Server Design Guide03生成式AI的算力需求与挑战自OpenAI的ChatGPT发布以来,生成
3、式AI技术获得了广泛关注,一系列开创性研究成果相继发布,引领了人工智能的新一轮创新浪潮。AI大模型是生成式AI的关键底座,得益于泛化能力强、长尾数据依赖性低以及下游模型使用效率高,大模型被认为具备了“通用人工智能AGI”的雏形。相比传统AI模型,大模型的训练使用了更庞大的数据,具有更巨量的模型参数和更发散的下游应用场景,对全社会生产力和生产效率的提升、传统产业转型升级具有重大的价值潜力。因此,全球范围内已经掀起了一场生成式AI革命,政策和资本驱动生成式AI技术加速商业化落地。AI大模型发展需要庞大的AI算力支撑,大模型往往采用无标注、自监督的训练方法,使用海量数据做超大规模的模型训练,因而对于
4、算力的需求和传统的模型训练相比也出现了34个数量级的提升。当前语言大模型的参数量已达千亿以上,训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力当量”(PetaFlops/s-day,PD),即每秒千万01亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求,具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。参数量为2457亿的源1.0大模型训练算力消耗为4095Peta-Flop/s-day。大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。在全球科技
5、企业加大投入生成式AI研发和应用的大背景下,配置高算力AI芯片的AI服务器需求也不断高涨。随着市场对AI计算力需求的不断攀升,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势愈发显著。但因为各厂商在AI开发中采用了不同的技术路线,导致芯片的接口、互连、协议上互不兼容,而专有AI计算硬件系统开发周期长、研发成本高,严重阻碍了新型AI加速器的研发创新和应用推广。全球开放计算项目组织OCP发起开放加速规范OAI,但在推向产业落地的过程中,依然存在大量的定制化工作以及现有标准未能完全覆盖的领域,包括多元AI芯片适配、AI算力资源管理和调度、数据整合及加速、深度学习开发环境部署等多个
6、方面。04开放加速规范AI服务器开发背景02最初的深度学习模型通过单张加速卡或者多卡间PCIe P2P通信的方式来满足模型训练和推理的计算需求。随着AI大模型的快速发展,加速卡间通信的数据量越来越多,仅仅通过PCIe P2P通信已经无法满足超大规模深度学习模型的通信需求。另一方面,单张AI加速卡的功耗随算力提升逐代显著增加,PCIe物理形态难以满足高功耗芯片的供电和散热需求。NVIDIA公司推出了非标准PCIe CEM形态的NVLINK接口的GPU 加速卡,从而支持更高的功耗和更大的卡间互连带宽。但是,由于缺乏统一的业界规范,不同厂商的AI加速芯片无论在结构上还是电气特性上都存在显著差异,导致
7、不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。2019年OCP成立OAI小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,目的是为了支持更高功耗、更大互连带宽AI加速卡的物理和电气形态,同时为了解决多元AI加速卡形态和接口不统一的问题。随后,为了进一步促进OAI生态的建立,OAI小组在OAM的基础上统一了AI加速卡基板OAI-UBB(Universal Baseboard)设计规范。OAI-UBB规范以8张OAM为一个整体,进一步定义了8xOAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互连拓扑、Scale Out方式。2019年
8、底,OCP正式发布了OAI-UBB1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,开展了丰富的产品和应用实践,验证了开放加速技术的可行性,逐步构建起开放加速计算的生态体系。(3)UBB基板UBB基板能够承载支持8个OAM模块,形成一个AI加速计算子系统。UBB尺寸为16.721英寸,搭配UBB的机型可以放置于19英寸或21英寸机柜之中。UBB基板上的8个OAM模块通过可以通过OAM设计规范中的不同互连拓扑进行互连。UBB链路可以被拆分为8链路,如果所有
9、7个端口对配置成16将无法完成对外拓展,因此为实现节点对外拓展形成互连集群,UBB基板将互连链路限制在8以内,并默认设计端口1的后半部分(8,通常称为1H端口)被用作对外拓展端口。UBB基板使用OSFP/QSFP-DD连接器来达成横向拓展拓扑,OSFP/QSFP-DD连接器数量根据不同的设计有所不同,OSFP/QS-FP-DD连接器突出UBB托盘至系统机型的外部,通过高速线路连接其他UBB节点或是交换机。UBB基板支持SerDes数据互连,并预留了SerDes PHY Re-timer空间以支持未来不同的系统与互连设计。UBB基板通过中背板与PCIe交换板互连,电源、PCIe信号、100MHz
10、 clk(clock)、I2C管理信号等均从中背板获取。支持UART、JTAG、I2C等多种Debug方式4)硬件设计UBB基板及OAM硬件设计应遵从UBB规范及OAM规范中的各项硬件规范、电气规范、时序规范等。遵从UBB规范中对OAM 布局的规范。开放加速规范AI服务器设计指南|Open Accelerator AI Server Design Guide开放加速规范AI服务器发展历程03052019年9月,在阿姆斯特丹举行的开放计算项目(OCP)区域峰会上,时任OCP基金会首席技术官Bill Carter展示了由浪潮信息研发的通用加速器基板UBB,采用高密布线和22层板层实现单板支持全互连
11、FC(Fully-connected)和混合立方互连HCM(Hybrid Cube Mesh)两种拓扑形态,支持多种互连协议。2019年11月,首个AI开放加速计算系统MX1发布,21英寸系统可支持多种符合OAM规范的AI加速器,采用了高带宽、双供电等技术,互连总带宽达到448GB/s12V供电最大功率300W,54V供电最大功率450W-500W,单节点设计支持8颗AI加速器,支持通过高速互连Scale-out扩展支持到32颗AI加速器,满足超大规模深度神经网络模型的并行训练需求。2021年,浪潮信息发布开放加速AI服务器NF5498A5,采用19英寸4U高密异构加速计算架构,单节点集成8颗
12、54V 400W开放加速计算模块,2颗64核 280W高性能CPU,卡间互连带宽448 GB/s。2022年,浪潮信息发布液冷开放加速AI服务器,并成功部署千卡级智算中心集群系统。技术创新的最终目标是提升全社会生产力和生产效率,通常在产业发展初期,通过协同平台对多元市场主体的标准化是技术规模化应用的必要前提。实践证明,统一开放的产业标准会有效降低技术获取成本,推动创新技术普及,为产业发展赋能提速。当前,生成式AI技术和产业发展推动AI算力需求高速增长并迅速扩展,新兴的AI加速芯片创新亟需坚实的AI服务器系统平台支撑。为此,浪潮信息拟定了开放加速规范AI服务器设计指南,指南基于浪潮信息在开放加速
13、计算的产品研发和工程实践经验,面向当下生成式AI实际应用场景,进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员可以更快更好地开发符合开放加速规范的OAM并适配开放加速AI服务器,从而为广大用户提供最佳匹配应用场景的AI算力产品方案。(3)UBB基板UBB基板能够承载支持8个OAM模块,形成一个AI加速计算子系统。UBB尺寸为16.721英寸,搭配UBB的机型可以放置于19英寸或21英寸机柜之中。UBB基板上的8个OAM模块通过可以通过OAM设计规范中的不同互连拓扑进行互连。UBB链路可以
14、被拆分为8链路,如果所有7个端口对配置成16将无法完成对外拓展,因此为实现节点对外拓展形成互连集群,UBB基板将互连链路限制在8以内,并默认设计端口1的后半部分(8,通常称为1H端口)被用作对外拓展端口。UBB基板使用OSFP/QSFP-DD连接器来达成横向拓展拓扑,OSFP/QSFP-DD连接器数量根据不同的设计有所不同,OSFP/QS-FP-DD连接器突出UBB托盘至系统机型的外部,通过高速线路连接其他UBB节点或是交换机。UBB基板支持SerDes数据互连,并预留了SerDes PHY Re-timer空间以支持未来不同的系统与互连设计。UBB基板通过中背板与PCIe交换板互连,电源、P
15、CIe信号、100MHz clk(clock)、I2C管理信号等均从中背板获取。支持UART、JTAG、I2C等多种Debug方式4)硬件设计UBB基板及OAM硬件设计应遵从UBB规范及OAM规范中的各项硬件规范、电气规范、时序规范等。遵从UBB规范中对OAM 布局的规范。开放加速规范AI服务器设计指南|Open Accelerator AI Server Design Guide开放加速规范AI服务器设计指南044.1.1 应用导向原则4.1设计原则无论是加速卡的设计还是系统的设计都要聚焦实际应用场景,在充分考虑业务特点、模型特征、部署环境的基础上,以提供“用得了”、“用得起”、“用得好”的
16、解决方案为目标,自上而下完成开放加速计算系统的设计规划,避免过度冗余设计和一味追求性能带来的时间、空间、资源和成本的浪费,最终实现高效适配、高效部署,节省产业和社会总成本。4.1.2 多元开放原则兼容适配更多技术体系,通过开源、开放的方式建立可兼容底层硬件差异的异构协同开发平台,突破异构算力适配、异构算力调度等关键技术,加速基础软件、商用软件和开源软件的生态构建,做到从硬件到软件、从芯片到架构、从建设模式到应用服务开放化、标准化,打通人工智能软硬件产业链,从而壮大开放加速计算技术和产业生态。4.1.3 绿色高效原则随着AI训练芯片的功耗不断增长,用于AI训练的机器单机柜功率密度将大幅增加,传统
17、的风冷模式已无法满足制冷散热需求和PUE指标要求,需要加速液冷散热、高效供配电、能效监测、智能运维等技术在开放加速计算节点和集群层面的全面布局和应用。4.1.4 统筹设计原则生成式AI大模型参数量和训练数据复杂性快速增加,需要从规模化算力部署的角度,统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互连、存算平衡的可扩展集群系统,以满足AI大模型的训练需求。(3)UBB基板UBB基板能够承载支持8个OAM模块,形成一个AI加速计算子系统。UBB尺寸为16.721英寸,搭配UBB的机型可
18、以放置于19英寸或21英寸机柜之中。UBB基板上的8个OAM模块通过可以通过OAM设计规范中的不同互连拓扑进行互连。UBB链路可以被拆分为8链路,如果所有7个端口对配置成16将无法完成对外拓展,因此为实现节点对外拓展形成互连集群,UBB基板将互连链路限制在8以内,并默认设计端口1的后半部分(8,通常称为1H端口)被用作对外拓展端口。UBB基板使用OSFP/QSFP-DD连接器来达成横向拓展拓扑,OSFP/QSFP-DD连接器数量根据不同的设计有所不同,OSFP/QS-FP-DD连接器突出UBB托盘至系统机型的外部,通过高速线路连接其他UBB节点或是交换机。UBB基板支持SerDes数据互连,并
19、预留了SerDes PHY Re-timer空间以支持未来不同的系统与互连设计。UBB基板通过中背板与PCIe交换板互连,电源、PCIe信号、100MHz clk(clock)、I2C管理信号等均从中背板获取。支持UART、JTAG、I2C等多种Debug方式4)硬件设计UBB基板及OAM硬件设计应遵从UBB规范及OAM规范中的各项硬件规范、电气规范、时序规范等。遵从UBB规范中对OAM 布局的规范。06开放加速规范AI服务器设计指南|Open Accelerator AI Server Design Guide多维协同设计全面系统测试基础性能 GEMM TFLOPs OAM Memory S
20、tream Peak TFLOPs互连性能 PCIe bandwidth OAM p2p bandwidth RDMA performance模型性能虚拟化性能 主流模型:ResNet/Bert/SSD 基础模型:LLaMA/SD/Yuan性能测评调优节点层 架构(计算/存储/扩展)硬件(互连拓扑/高速)结构 散热(风冷/液冷)供电 管理 故障诊断 软件(聚合/调度/释放)结构干涉应力检查、安装扭矩测量散热芯片显存温度监控、噪音测量压力功耗、EDPP、模型、带宽压力软件兼容性平台、算子、OS、框架、模型稳定性集群层 网络 存储 整机柜 液冷 制冷 运维4.2设计指南4.2.1 多维协同设计一般
21、而言,全新的AI服务器系统完整设计周期需要1418个月,基于已有产品定制化改型,根据改动量大小开发周期也要612个月不等,AI加速卡从芯片流片到板卡回样则需要至少6个月。如果系统厂商和芯片厂商没有做好设计协同,系统或芯片任何一方的改型将会带来巨大的时间成本和巨额的资金投入,并严重影响产品上市进度。此外,面向AIGC的计算系统交付模式不再是单一服务器,绝大多数情况最终部署的形式是包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等在内的一体化高集成度算力集群。为了实现全局最优的性能、能效或TCO指标,提高系统适配和面向生成式AI的大模型算力系统的构建是一项复杂的系统工
22、程,基于上述设计原则,以提高适配部署效率、提高系统稳定性、提高系统可用性为目标,进一步归纳总结出开放加速规范AI服务器的设计方法。图1.开放加速计算系统全栈设计方法集群部署效率,需要系统厂商和芯片厂商在系统和芯片规划初期做好全方位、多维度的协同,最大化减少定制开发内容。节点层面:(1)系统架构为满足大模型训练模型参数规模的不断增大给模型训练带来的计算、存储、通信等方面的挑战,系统架构设计将赋能AI服务器节点和服务器集群以超大规模集群互连的大模型训练能力。OAM 是 OCP-OAI 小组制定的 AI 加速模块接口规范,现已发布 OAM v1.5 规范,OAM 模块承担起单个 GPU 节点的 AI
23、 加速计算能力,通过符合 UBB v1.5 base 规范的基板完成OAM间的 7P 8 FC(Fully Connect,全互连)、6P 8 HCM(Hybrid cubic mesh,混合立方互连)等高速互连拓扑实现多OAM数据低延时共享,利用RDMA网络部署等优化通过OSFP/QSFP-DD线缆实现对外拓展完成集群互连,突破了服务器集群在GPU计算资源、通信效率上的瓶颈,最大程度发挥OAM计算性能并降低通信带宽限制。OAM模块透过 PCIe Switch 通过4条PCIe x 16与高性能CPU建立起高速高带宽数据 通 道,并 支 持 搭 配 3 2 条 R D I M M 或LRDIM
24、M内存,以最大程度的保障OAM与CPU之间的数据通信处理需求。(3)UBB基板UBB基板能够承载支持8个OAM模块,形成一个AI加速计算子系统。UBB尺寸为16.721英寸,搭配UBB的机型可以放置于19英寸或21英寸机柜之中。UBB基板上的8个OAM模块通过可以通过OAM设计规范中的不同互连拓扑进行互连。UBB链路可以被拆分为8链路,如果所有7个端口对配置成16将无法完成对外拓展,因此为实现节点对外拓展形成互连集群,UBB基板将互连链路限制在8以内,并默认设计端口1的后半部分(8,通常称为1H端口)被用作对外拓展端口。UBB基板使用OSFP/QSFP-DD连接器来达成横向拓展拓扑,OSFP/
25、QSFP-DD连接器数量根据不同的设计有所不同,OSFP/QS-FP-DD连接器突出UBB托盘至系统机型的外部,通过高速线路连接其他UBB节点或是交换机。UBB基板支持SerDes数据互连,并预留了SerDes PHY Re-timer空间以支持未来不同的系统与互连设计。UBB基板通过中背板与PCIe交换板互连,电源、PCIe信号、100MHz clk(clock)、I2C管理信号等均从中背板获取。支持UART、JTAG、I2C等多种Debug方式4)硬件设计UBB基板及OAM硬件设计应遵从UBB规范及OAM规范中的各项硬件规范、电气规范、时序规范等。遵从UBB规范中对OAM 布局的规范。07
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 模型 平台 参考 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。