高性能计算系统性能评价白皮书.pdf
《高性能计算系统性能评价白皮书.pdf》由会员分享,可在线阅读,更多相关《高性能计算系统性能评价白皮书.pdf(32页珍藏版)》请在咨信网上搜索。
1、白皮书以高性能计算系统综合评价指标作为评估系统性能的新方法,牵引建设存算平衡、以数据为中心的系统,以达到三个主要目标:以实际需求牵引系统设计,以行业经验为指导系统选型,以提高系统实际使用能效为首要目标。白皮书将以综合评价指标为载体,介绍高性能计算系统设计方法,提升高性能计算系统设计选型的平衡性。白皮书从算力(包括科学计算与AI计算性能)、存力(存储性能)、运力(网络性能)和效率(系统能效与平衡性)六个维度选取指标,给出了综合性能的评测方法,和高性能计算系统的典型应用场景、典型系统配置,最后提出了建立评测社区推广评测体系的愿景,展望了标准演进的规划。白皮书内容将随着技术演化与社区成员反馈而逐步迭
2、代,这是系统性能评价指标发布的首个版本。主要理念白皮书内容目 录目 录CONTENTSCONTENTS1.1.存储系统的重要性愈发凸显0302050711041.2.系统综合性能更突出2.1.性能评价方法的演进趋势053.1.性能评价基准测试程序07103.2.性能评价的标准规范4.1.六个维度度量高性能计算系统12124.1.1.科学计算性能维度124.1.2.AI计算性能维度124.1.3.存储性能维度134.1.4.网络性能维度134.1.5.系统能效维度134.1.6.系统平衡性维度164.2.综合评价计算方法164.3.指标权重与平衡性范围的设计初稿2.2.以性能评价牵引05建设存算
3、比合理的计算系统2.3.以性能评价牵引06使用多协议互通的存储系统1高性能计算的发展趋势3高性能计算性能评价现状4高性能计算性能指标和评价规范2集群综合性能评价方法的演进19275.1.典型算力下的集群设计示例195.1.1 超大型集群设计示例205.1.2 大型集群设计示例215.1.3 中型集群设计示例225.2.典型场景下的集群特性分析 235.2.1.“IO密集型”超算系统:以面向基因测序的集群为例235.2.2.“IO密集+计算密集型”超算系统:以面向气象预报的集群为例245.2.3.“AI密集型”超算系统:以面向自动驾驶的集群为例255性能评价方法的应用6高性能计算系统性能评价规范
4、的展望01党的十九届四中全会首次将数据作为生产要素参与分配,数据的作用受到国家高度重视,2022年1月,国务院“十四五”数字经济发展规划中要求“以数据为关键要素,加强数字基础设施建设”,数据资源汇聚、共享、流通、应用的需求快速增加,对存储、计算、网络、安全等的要求也越来越高,以数据为中心的新型数字基础设施将有力支撑经济社会数字化发展。2021年5月,国家发展改革委会同中央网信办、工业和信息化部、国家能源局联合发布全国一体化大数据中心协同创新体系算力枢纽实施方案,提出构建数据中心、云计算、大数据一体化的新型算力网络体系,布局建设全国一体化算力网络国家枢纽节点,以满足数据资源存储、计算和应用需求的
5、大幅提升。在需求和政策双重牵引下,全国各地区大力推进数字基础设施建设的发展,包括计算、存储和网络在内的基础设施和技术均被高度重视,2022年7月,工业和信息化部主办的中国算力大会上发布了中国综合算力指数,从算力、存力、运力、环境四个维度综合评价新型基础设施和新型数据中心的发展水平。高性能计算的发展趋势102高性能计算是重要的数字基础设施、国之重器,是高算力、高存力、高运力的代表。2020年以来,十四五信息化规划和新基建驱动我国高性能计算建设进入高速增长期,多地地方政府和企事业单位都在积极建设高性能计算中心和部署新一代高性能计算系统,将其作为推动经济社会快速发展的关键措施。随着数据价值的不断提升
6、以及大数据、人工智能等新兴数字产业的兴起,高性能计算正在由“大计算”的HPC加速迈向“大计算”+“大数据”的HPDA(高性能数据分析),并呈现5大趋势特点。多元应用驱动多元算力。CPU处理器和GPU、FPGA、xPU等专用处理器相结合构建高性能计算的异构算力体系结构。AI计算发展迅猛。AI计算成为高性能计算算力发展最为迅猛的类型之一,且逐步呈现计算芯片DSA化、计算网络多平面化等特征。成为与传统高性能计算越来越有区分的领域,这种变化与特征在大模型时代表现的更为明显。异构多态复合归一,资源集约推动架构融合化。一方面,根据应用的需求,构建不同性能和功能的计算和存储环境,通过灵活组织异构计算体系结构
7、,实现计算、存储资源比例的灵活调整和性能功耗的平衡。另一方面,围绕应用负载特征开展体系结构软硬件协同设计,提升资源的使用效率与性能。高速互联,更宽更快推动全光化。当前高性能计算互联网络主要有Infiniband、Slingshot和RoCE等,随着技术积累和产业需求升温,光子集成技术已从功能器件研究向规模化集成芯片演进,光交换技术趋于成熟,全光交换成为发展趋势。按需弹性极简运维,加速应用容器化。容器可以为高性能计算工作负载提供动力,并为大规模计算工作负载启用若干功能框架,能够提前封装高性能计算运行环境,易获取、易操作、易利用,在科研人员中普及化使用高性能计算。以数据为中心,数据密集型超算快速发
8、展。进入大数据时代后,数据的规模不断增长。随着HPDA的发展,高性能计算系统的业务负载需考虑HPC、大数据和AI的混合叠加,对于数据的存储和处理能力提出了更高要求。高性能计算系统需要从数据密集型角度进行设计,支持应用驱动的科学计算工作流,推动负载从计算科学发现向数据科学发现转变。总结以上趋势,不难看出,当前计算性能已不再是评价高性能计算集群的唯一标准,集群的综合性能日益受到重视,尤其是与数据息息相关的存储系统。1.1.存储系统的重要性愈发凸显传统的高性能计算行业以算力作为核心生产力,如今,业界普遍意识到,当数据存力不足或者效率低下时,数据就无法高效流动、按需使用,也就无法充分挖掘其价值,小则影
9、响算力作用的充分发挥,大则关乎整个高性能计算产业的发展。存储性能是继计算性能之后,各行各业数字化能力建设的一种进阶,在数字经济发展中至关重要。存储与计算性能高度融合,方能真正形成新的核心生产力,能够在各种业务场景中让效率指数级增加,让生产力获得前所未有的解放。平衡存算比是当前超算集群融合存储与计算性能的主要方法之一。目前,芯片不断朝着高性能、低成本、高集成的方向发展,但随着单芯片集成的晶体管数量增多,高耗能等问题随之出现,导致芯片性能难以持续提升,无法大规模提升算力。多芯片堆叠封装为芯片突破性能瓶颈提供了可能,平衡存算比可有效缩短数据搬运路径,降低搬运功耗,实现芯片级算力与IO的平衡。从设备内
10、视角来看,CPU、总线速度、主内存带宽及容量的发展速度不一,尤其是在处理海量数据过程中,内存与存储的空间和带宽成为制约性能增长的主要瓶颈,如果存储设备能平衡CPU和IO性能,将在很大程度上释放算力潜力。此外,随着数据量的增加,数据处理和存储的效率也需要及时跟进。在多样化的HPC场景中,日均产生的数据量可达PB级,需要超大的容量方能完成归档。除此之外,在海量数据处理过程中,数据可能需要经过多种格式的转换,比如自动驾驶和石油勘探这两个高性能计算应用较为普遍的领域,只有将NFS格式的数据转换成HDFS格式后,系统才能进行有效处理。海量的数据转换需要耗费大量的时间,其中还会损坏部分数据,而且产生的数据
11、冗余也占用了宝贵的存储空间。因此,存储设备实现多协议互访可有效提升数据结构多样化的处理效率。031.2.系统综合性能更突出随着社会经济的发展和科学的进步,爆炸式增长的应用需求不断促进高性能计算往更广、更深的领域进行系统性扩展。量子化学、基因测序、气象预测和核技术等传统的高性能计算领域需要并行处理大量的原始数据。因此,除了需要保证密集计算的能力以外,海量数据并发执行、极高的数据并发存取效率也对集群的存储性能提出了较高的挑战。在这种条件下,只有保证系统聚合能力随节点数线性扩展、保证流畅的并行I/O与高带宽的网络才能获得复合性的计算能力,满足日益复杂的计算需求。除此之外,高性能计算在非传统的应用领域
12、中也发挥着独特的作用,例如金融、投行和保险业所承担的风险分析工作,除了发挥传统高性能计算的密集计算性能外,集群更多融入了数据处理、事务处理和信息服务的功能。在这些场景下,科学计算能力的主导地位有所弱化,相反,网络和存储提供的实时数据处理和快速交付功能更为凸显。当代高性能计算的发展,能耗和功耗也扮演着越来越重要的角色,逐渐成为成为大规模计算平台建设必须考虑的重要因素,绿色节能也成为衡量高性能计算平台综合性能的重要尺度,TOP500和Green500排名榜单均加入能耗指标。近来,最新一代的E级超算系统的设计能耗标准是不超过20MW。诚然,硬件工艺的更新换代对能耗的降低至关重要,但要想让高性能计算系
13、统以最大性能、最高能耗效率运行,也需要让存储、网络、计算等各个组件基于应用特征无缝衔接,否则很有可能成为整个集群性能的掣肘。因此,当代高性能计算的发展趋势更倾向于整体的综合性能。042.1.性能评价方法的演进趋势现有的性能评价规范专注细分领域,存在重计算、轻存储、评测指标分散、缺少应用场景和缺少综合的性能评价规范等缺点。这些评测规范通常过分强调被测系统某一个方面的能力,容易造成偏科。例如,在设计系统时若以浮点计算能力为唯一考量目标,以此为指导设计出的高性能计算系统,难以全面满足高算力、高存力、高运力、高能效的新型基础设施要求。此外,现有评价方法对新场景的关注还不够。随着NVMe全闪存储介质、基
14、于纠删码的存储冗余机制、多协议互通存储系统、新一代异构加速处理器的面市,诞生了诸如BurstBuffer闪存缓冲文件系统、超高密度存储系统、多功能一体化存储系统、面向超大模型训练的人工智能专用系统等新的集群应用场景。如何为这些场景分类,如何评价设计系统与这些场景的适用程度,是新的性能评价方法需要解决的问题。2集群综合性能评价方法的演进设计高效工作的高性能计算集群系统,需要在目标场景指引下,平衡处理器、网络和存储等组件的选型,合理搭配。高性能计算集群的综合性能评测方法能够发挥“标尺”作用,对衡量设计的有效性产生着重要作用。05062.2.以性能评价牵引建设存算比合理的计算系统下图展示了存储的层次
15、化结构。从数据使用的时间视角看,数据在不同的存储层次停留,等待被上一层调用,或者是被换出到下一层。在有限的预算下,如何设计各个层次的存储容量和存储带宽,是一个相当重要却容易被忽视的问题。论文An analysis of system balance and architectural trends based on top500 supercomputers总结今年Top500超算集群配置,提出了各层次存储容量和速率比例的参考范围。我们提出的评测方法在“系统效率”部分参考这篇论文的研究结果,以此来引导设计集群存储系统的容量和带宽。2.3.以性能评价牵引使用多协议互通的存储系统从数据使用的角色视
16、角看,数据在计算系统中需要经过仿真生成、大数据分析、对外发布的流程。这些流程会分别调用MPI多机并行软件、大数据分析软件和Web数据共享软件,而这些软件性能最佳的数据访问接口可能是不一样的。例如,仿真阶阶段需要调用MPI-IO接口,大数据阶段需要调用HDFS,而分享阶段需要调用S3接口。传统存储系统在多用途场景下,需要用户将一份数据拷贝多次,手动维护不同接口数据的一致性。而新型存储系统内置协议互通功能,能够无缝地为同一份数据提供多种数据访问接口,并维护其一致性。我们的评测方法也增加了多协议互通的相关内容,以此引导超算集群的多协议互通建设。我们提出的性能评价标准,旨在引入与使用场景相关的性能指标
17、,通过综合评分方法,为集群的计算、存储、网络和效率这四个关键维度,分别给出评价分数,并结合专家意见,给出系统建设的进一步建议。与现有评测标准较大的区别是,这个标准将从数据使用的时间和角色的视角,着力牵引建设存算比更加合理的计算系统,以及建设具有多协议互通功能的存储系统。DROS(分布式关系型对象服务层)Index LayerPersistence Layer元数据/数据管理层高级特性语义抽象层管控面NFSCIFSMPIPOSIXS3HDFS现有高性能计算评价标准呈现出“缺少行标国标、评测程序分散、评测领域单一”的问题。本节介绍超算集群性能评价基准测试与标准的现状。3.1.性能评价基准测试程序当
18、前,业内研究人员发布了数十个具有不同侧重面的高性能计算集群性能基准测试程序,按照评价的领域,可以分为基础计算性能、图计算性能、AI计算性能、存储网络性能、设备能效等等。各个主要领域中相对知名的基准测试程序如下表所示:3高性能计算性能评价现状07评测领域基础计算性能TOP500、HPCG、PARSEC、SPECCPU、SPECHPC、SPECACCEL图计算性能Graph500知名基准测试程序08其中,被广泛使用的包括Linpack(求解线性方程组性能)、HPCG(求解共轭梯度性能)、IO500(存储性能)、Graph500(图计算性能)、AI500(AI计算性能)等,但是均专注于各个细分的评测
19、领域,缺少对集群的综合性能评测,且多数没有形成系统性的评价规范。始于1993年的TOP500榜单是目前最为熟知的高性能计算性能评价规范,由国际组织“TOP500”编制,每半年发布一次,TOP500排名基于Linpack基准测试衡量线性方程计算的速度和效率,最新版HPL2.0规范从2008年一直用到现在,不过随着越来越多的应用程序采用微分方程等复杂计算方式,Linpack性能与实际计算效率间的差距将越来越大。因此田纳西大学教授Jack Dongarra提出了HPCG(高度共轭梯度基准测试)标准,与Linpack关注线性方程的计算性能不同,HPCG使用更复杂的微分方程计算方式。Linpack更考验
20、超算的处理器理论性能,而HPCG更看重实际性能,对内存系统、网络延迟要求也更高。除了TOP500以外,多个评测榜单试图从不同方向对超算集群的性能展开评价:面向图计算性能的Graph 500标准于2010年发布,采用GTEPS基准测试评价,更加适用于在数据密集型应用场景中的评测;BenchCouncil的AI500测试标准,基于增量迭代的方法学和智能科学计算应用场景,目前包含3个典型科学数据集,14个负载的不同软件栈实现;IO500是衡量高性能计算存储性能的常用评价标准,于2017年11月发布,该标准涵盖带宽和元数据两项基准测试。同时,业界还存在多个商用或非商用的评测基准套件,例如侧重计算性能的
21、SPEC系列和PERSEC、侧重AI应用性能的MLPerf、侧重存储与网络性能的OSU Microbenchmarks和HPC Challenge等。以下是SPEC HPC与HPC Challenge两个被广泛应用的基准测试套件的测试内容:SPEC HPC包含9个测试,涵盖了宇宙学、天气学、高能物理学等多个方向的科学计算问题,侧重于科学计算性能的测试。SPEC HPC的评分规则相对简单,使用了基准集群的运行时间与被测集群的运行时间的比值作为集群的评分。评测领域AI计算性能HPC AI500、MLPerf、AIPerf、AISBench存储与网络性能IO500、OSUMicrobenchmark
22、sHPCChallenge设备能效Green500知名基准测试程序09基准测试评测领域HPL:测量求解线性方程组的浮点执行率计算性能存储性能网络性能DGEMM:测量双精度实矩阵-矩阵乘法的浮点执行率FFT:测量双精度复数一维离散傅里叶变换(DFT)的浮点执行率PTRANS(并行矩阵转置):来自多处理器内存的大型数据数组的传输速率,测试网络总通信容量RandomAccess:测量内存的整数随机更新率STREAM:测量可持续内存带宽和简单矢量内核的相应计算速率通信带宽:测量传输大小为2,000,000字节消息所需的时间HPC Challenge包含了8个测试,分别属于科学计算性能、存储性能与网络性
23、能三个评测领域。然而,该基准测试未提供综合评价的计算规范,仅对于各个测试分别输出了性能的数值。LBM D2Q37:计算流体动力学Tealeaf:物理学/高能物理学Cloverleaf:物理学/高能物理学Minisweep:核工程-辐射传输POT3D:太阳物理学SPH-EXA:天体物理学和宇宙学HPGMG-FV:宇宙学、天体物理学、燃烧miniWeather:天气基准测试评测领域通信延迟:测量将8字节消息从一个节点发送到另一个节点所需的时间SOMA Offers Monte-Carlo Acceleration:物理/聚合物系统科学计算性能10其中,数据中心存储能效测评规范规定了数据中心存储设备
24、的能效测试方法与能效等级评价方法,对测试环境、测试方法、能效指标、加分项均做出了规范;分布式块存储总体技术要求针对分布式块存储解决方案提出功能、性能、可靠性等方面的要求;计算存储分离架构的分布式存储测试方法规定了计算存储分离架构的分布式存储方案的功能、性能、兼容性、扩展性、可靠性、安全性、运维、硬件和网络测试方法;服务器应用场景性能测试方法 高性能计算通过制定标准化的评估方法,对比评估绿色计算产品与传统架构产品在该场景所关注指标、特性上的差异化优势,展示了以ARM架构为代表的绿色计算服务器在高性能计算应用场景的性能表现。3.2.性能评价的标准规范现有的高性能计算性能评价规范非常碎片化。国内外标
25、准化组织尚未发布针对高性能计算集群综合性能评价的国家或行业标准,现有标准集中于数据中心和存储,缺少集群性能相关的国标、行标、ISO标。相关的标准主要有如下几项:标准号标准名称发布时间类型T/CCSA 325-2021数据中心存储能效测评规范2021/11/2团标T/CCSA 263-2019分布式块存储总体技术要求2019/12/23团标YD/T 4030-2022计算存储分离架构的分布式存储测试方法2022/4/8行标GCC7003-2020服务器应用场景性能测试方法 高性能计算2020/11/26地标T/CESA 1213-2022通用计算CPU性能测试评价技术要求2022/7团标T/CE
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 性能 计算 系统 评价 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。