通用CPU性能基准测试研究综述_史惠康.pdf
《通用CPU性能基准测试研究综述_史惠康.pdf》由会员分享,可在线阅读,更多相关《通用CPU性能基准测试研究综述_史惠康.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 1 期2023 年1 月电子学报ACTA ELECTRONICA SINICAVol.51 No.1Jan.2023通用CPU性能基准测试研究综述史惠康1,王泽胜2,张士宗2,高翔3,赵有健1(1.清华大学计算机科学与技术系,北京 100084;2.中国电子技术标准化研究院,北京 100007;3.龙芯中科技术股份有限公司,北京 100095)摘要:CPU性能基准测试旨在给出可对比、定量的指标数据,为产品选型提供依据,它已成为引领计算产业发展的风向标之一.CPU技术发展迅速,性能基准测试也在不断演进.本文对包含SPEC CPU在内的主流基准测试进行了研究,从测试目标、测试方法等角度,综述主
2、流CPU基准测试的演进过程、最新研究成果,以及通用CPU性能指标和基准测试需求,分析了通用CPU性能基准测试所面临的挑战,并对今后可能的研究趋势进行了展望.关键词:通用CPU;测试基准;性能测试;评价指标;基准测试程序集中图分类号:TP306 文献标识码:A 文章编号:0372-2112(2023)01-0246-11电子学报URL:http:/ DOI:10.12263/DZXB.20220169Performance Evaluation Benchmark of General-Purpose CPU:A SurveySHI Hui-kang1,WANG Ze-sheng2,ZHANG
3、Shi-zong2,GAO Xiang3,ZHAO You-jian1(1.Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China;2.China Electronic Standardization Institute,Beijing 100007,China;3.Loongson Technology Corporation Limited,Beijing 100095,China)Abstract:CPU performance evaluation benchmark
4、aims to provide comparative and quantitative index data for product selection.It is one of the vane leading the development of computing industry,and as CPU technology evolves rapidly,performance benchmarks are evolving.This paper systematically reviews the mainstream benchmarks including the SPEC C
5、PU.From the perspectives of evaluation objectives and methods,the evolution,recent research results of the mainstream CPU benchmarks,and the performance metrics and benchmark requirements of general-purpose CPU are reviewed.Finally,this paper analyzes the challenges of general-purpose CPU performanc
6、e evaluation benchmarks and prospects for possible future research trends.Key words:general-purpose CPU;benchmark;performance evaluation;evaluation indicator;benchmark suites1引言在计算产品测试领域,基准测试常用于评估软硬件的性能1.通过运行一组或多组可重复的标准测试程序,基准测试能够评估被测对象性能的优劣,给出可对比、可衡量的指标数据,为产品选型、提升质量、指导研发提供依据.当前,计算产品性能基准测试凭借其基础性、普适性
7、等显著优势,已成为引领CPU和计算机整机等计算产品性能发展的风向标,被广泛应用在计算产业的各领域.如文献 2 利用性能基准测试提升机器学习算法效率;文献 3 基于性能基准测试结果,指导系统架构完善;文献 4 通过给出硬件基础性能、功耗,以及面积和准确度等综合指标,优化智能芯片的设计;文献 5 通过基准测试为数据中心与计算集群的节能和均衡优化调度提供依据等.CPU是信息技术产业的核心基础元器件,对其性能进行测试至关重要6.通过设置不同使用场景和关键性能指标,CPU性能基准不仅可以帮助芯片厂商发现问题瓶颈、提升产品能力,而且可以帮助行业建立公开透明的评价准则、促进优胜劣汰,进而带动CPU产业整体水
8、平和竞争力提升,加速技术创新.“斯诺登事件”以来,信息基础设施自主可控逐渐受到各国的重视,研发推广X86架构之外的通用CPU,例如ARM,RISC-V,Alpha,MIPS等指令集架构,已成为推动信息产业变革发展的主要路径之一.近年来,采用X86,ARM等不同指令集架构,常用于服务器和桌面计算的异构通用CPU加速迭代升级,不同架构CPU在功耗、适用场景等收稿日期:2022-02-15;修回日期:2022-10-30;责任编辑:宋甲英第 1 期史惠康:通用CPU性能基准测试研究综述方面各有优势7,8.但主流CPU性能测试工具与方法主要围绕X86架构芯片设计,如何对异构通用CPU的质量水平进行科学
9、评价,成为引导技术突破、支撑重大信息化工程建设和促进行业发展的关键.围绕异构通用CPU开展性能基准测试研究,也逐渐成为学术界和产业界关注的重点9,10.近年来,面向通用CPU的性能基准测试发展迅速,有学者针对特定的基准测评工具涉及的相关参数、测试场景等进行了归纳.如文献 11 对 SPEC CPU 2006基准测试程序组件集进行了研究,并分析了评价指标及使用方法.文献 12 讨论了在嵌入式系统中开展基准测试的基本方法,分析了对比测试原理、测试环境的构建以及主要的测试过程.许多学者针对不同程序合成方法、测试算法等开展了前沿研究.如文献 13 围绕深度神经网络学习和加速优化的基准方法,梳理了当前存
10、在的技术挑战和未来发展趋势.文献 14 基于多核系统性能优化,通过线程级测试方法构建了一种面向多核系统的测试基准.文献 15 对各类深度学习加速器进行梳理,并在此基础上提出了一种适合多场景的鲁棒测试基准和测试方法.不同于以上文献,本文从测试目标、测试方法的角度综述了CPU基准测试的发展现状和趋势,并对测试工具的演进和最新成果进行对比分析,旨在为研究者提供一个覆盖SPEC、TPC等多类性能基准测试工具和多线程、跨平台等各类场景,以及包含速度和速率性能指标分类、基于预置模型的测试结果修正等创新方法的说明,增加相关人员对通用CPU性能基准测试研究的理解,并使其得到启发.2性能基准测试及其演进性能基准
11、测试的目标是提供一种定义并计算产生一系列量化指标数值的基础通用方法,手段是通过运行基准测试程序获得相关指标的评分,以此来比较不同CPU、应用程序乃至不同体系结构软硬件产品的性能,实现CPU及计算机整机之间的直观性能比较.自20世纪60年代以来,性能基准测试程序就被视为 CPU 和计算机整机性能的一种重要测试对比工具16.最初的性能基准测试程序仅以简单的加、乘等指令作为指标.20世纪80年代,可以衡量整型及浮点型计算能力的小型性能基准测试受到各界的广泛关注17.然而,这类性能基准测试程序由于定义宽泛而逐渐被边缘化,标准性能评估机构(Standard Performance Evaluation
12、Corporation,SPEC)、事务处理性能委员会(Transaction Processing Performance Council,TPC)等专业化性能基准测试组织成立后,CPU相关产品的性能基准测试才逐步确定,并发展成为学术界和产业界公认的事实准则18.目前,性能基准测试程序已基本形成了技术指标体系化、被测产品多样化的格局,可满足用户对不同维度性能测试的需求,包括计算能力、二维和三维图形处理能力、多媒体处理能力、大数据处理能力、多线程能力等.2.1通用CPU性能指标及其基准测试需求CPU性能表现受诸多因素影响,包括结构参数、接口参数、物理参数以及多核参数等19,如图1所示.在各类参
13、数中,核心数量、生产工艺、主频、缓存大小等是决定CPU计算能力的直接因素,而多线程能力、指令调度能力乃至指令集类型同样对CPU的整体性能产生影响.仅通过简单的参数对比来决定性能的方法存在局限性.比如,由于CPU的内部结构不同,不能完全通过主频来对比CPU的性能,主要原因是在并行计算需求不断增长的趋势下,多核计算也成为影响CPU整体性能的重要因素.考虑到对CPU进行孤立测试以获取其性能表现的方式仅适用于生产环境,且实际参考价值有限,通常基准测试程序均采用面向部分应用场景,综合多类基准测试指标的集成测试的方式对计算系统进行整体评估,进而有针对性地反映CPU的性能7.纵观CPU指令集架构发展史,工程
14、驱动的软硬件生态建设、用户群体规模等决定了CPU应用的广度和深度.目前,多指令集共存并行发展已成为常态20,这给工程应用带来了一定的困难.此外,为推动CPU加速创新发展,兼具前瞻性的应用场景也成为CPU性能基准测试的关键考虑因素,这主要体现在5G、人工智能、图像计算、自动驾驶、物联网,以及 CPU 与 GPU/FPGA集成应用的异构计算等层出不穷的新技术,对CPU性能提出了全新的需求.为适应新的变化,CPU性能基准测试从最初的仅关注裸性能发展为关注裸性能、系统性能等各维度,各类测试工具也应运而生.本文有关通用CPU性能基准测试综述的整体结构如图2所示.2.2常用的性能基准测试2.2.1SPEC
15、SPEC性能基准测试于1988年由标准性能评估机构SPEC提出,目前已发展成为包含CPU性能、服务器能效、文件系统性能、高性能计算、Web应用性能等在内的基准测试簇21.其中 SPEC CPU 系列基准是公认的、具有事实性影响力的CPU性能基准测试标准,通过测试程序在被测系统和基准系统中执行时间的比值来考察系统CPU运算性能22,原理如图3所示.多年来,SPEC CPU性能基准测试与CPU的发展相互促进,基准测试程序不断演进升级,CPU技术和产业应用也加速创新发展.20世纪90年代初,整型运算和浮点型运算的分化应用,使得传统的MIPS度量(单字长定点指令平均执行速度)的指导性大幅降低,难以形2
16、47电子学报2023 年成对 CPU技术和产品的有效规范.SPEC CPU 92通过调整测试基准来应对行业需求,迅速取代MIPS度量,成为产业界公认的事实标准23,也驱动各界在提升整型运算和浮点型运算的同时,积极寻求新的CPU技术突破方向.随着技术的创新迭代,CPU时钟频率加速攀升,高速缓存容量持续增大、性能不断提高,也使得SPEC CPU 92的性能测试受到较大的影响24.为进一步提升测试准确性,业界推出了SPEC CPU 95,在应对新的容量、性能测试需求时,提供了更全面的场景来丰富CPU性能测试能力,引导技术创新由局限于关注裸性能向注重实际场景应用效果转变.SPEC CPU 2000延续
17、了SPEC CPU 95由两套基准测试程序分别测试CPU整型运算性能和浮点运算性能模式.同时,为更好地应对不断普及的多核处理器计算系统测试需求,保证测试结果的科学性和合理性,SPEC CPU 2000分别设置了不同的度量方法针对单核处理器和多核处理器计算系统进行测试.其中,单核处理系统主要测量系统的运算速度指标,即单位工作量需要多少时间来完成;而多核处理器系统则主要测量系统的吞吐量,即系统在给定时间内能完成多少工作量.为保证测试结果的公正性,SPEC CPU 2000还引入了 MD5数字签名,在编译和运行程序时,支持产生并验证可执行测试程序文件和测试结果的校验,从而确保测试结果来自基准程序测试
18、输出,而未经过第三方篡改,这大大提高了测试结论的可信度25.C语言、C+语言等编程语言的不断丰富,催生了对应的编译器的多样化发展,进一步促使CPU的配置系统环境也逐渐呈现多样性特征.同时,计算密集型应用和跨硬件使用的需求也不断增加26.为了满足图1CPU性能关键指标图2基准测试综述结构图图3SPEC CPU原理流程248第 1 期史惠康:通用CPU性能基准测试研究综述以上场景的测试要求,SPEC 再次对测试基准进行完善,推出了 SPEC CPU 2006.SPEC CPU 2006 新增的测试套件涵盖到CPU、存储系统、编译器等,特别是编译器在延续了 SPEC CPU 2000对 Fortan
19、和 C语言覆盖的同时,更好地支持了C+语言.近年来,CPU内存、缓存和虚拟内存尺寸的急剧增大,以及乱序执行和序列化等技术的不断成熟,又向CPU性能基准测试提出了新的挑战27.经过10年的沉淀,在SPEC CPU 2006的基础上推出的SPEC CPU 2017,进一步丰富应用场景,具体包含43个基准,分为两类四个套件.其中,SPEC speed Integer和SPEC speed Floating Point套件用于比较计算机完成单个任务的时间,SPEC rate Integer和SPEC rate Floating Point套件则可以测量每单位时间内的吞吐量或工作量.这也是第一次对速率(
20、rate)和速度(speed)进行区分,以有效满足复杂场景下对性能基准测试的稳定性提出更高要求,进而指导CPU发展.SPEC CPU 2017虽然极大地丰富了基准测试场景和算法,但这也相应提升了基准测试本身操作的难度,对测试结果的准确性提出了挑战.为此,学术界和产业界围绕性能基准表征、内存性能表征等基准测试涉及的关键环节开展了大量的研究.Song 等人28对 SPEC CPU 2017基准之间的相似性、冗余性,以及测试覆盖范围的平衡性等进行了研究,明确了SPEC CPU 2017的工作负载表现出明显的内存密集型特征,对内存提出了更高的要求,测试的有效性更强.Singh等人29首次给出了SPEC
21、 CPU 2017套件运行时的内存行为全面表征分析,通过使用动态二进制检测、硬件性能计数器和基于操作系统的统计工具等,对工作指令集大小、各种工作负载的内存容量消耗和内存带宽利用率进行了统计,实验结果显示相较于 SPEC CPU 2006,SPEC CPU 2017在提高内存要求的同时,工作负载对内存带宽的消耗也有了明显的提升.Bucek 等人30分析了 SPEC CPU 2017基准在功耗数据收集、系统数据收集等方面的改进,并对其在测试指标计算方式和测试结果披露形式等方面的调整进行了系统梳理,明确 SPEC CPU 2017虽然测试指标更丰富和复杂,但是通过进一步梳理测试指标的分类展示形式,提
22、升了测试结果的可读性.2.2.2TPC不同于SPEC从最初关注裸性能不断拓展到系统性能,TPC性能基准测试在设计之初就将系统级应用的综合性能测评作为关注的重点,测试实现方式如图4所示.20世纪80年代,事务处理模式出现.与20世纪70年代占统治地位的批量计算模式不同,事务处理模式采用相对单一的方式,直接通过在线数据库系统进行简单的事务处理31.同时期,用于度量系统对该类事务处理性能的主要测试基准包括TP1(Transaction Process 1)和 DebitCredit32.该类测试基准由于缺少对测试执行过程和综合测评结果的有效监督,易出现测试过程不规范,甚至给出误导性测试结果的情况.2
23、0世纪80年代末,第一个TPC基准TPC-A33发布,对事务处理时限、测试系统终端数量等提出明确要求,澄清了当时混乱的市场,为推动CPU的系统级性能测试提供了重要依据.经过持续迭代升级,TPC已发展成为能够满足多种应用场景性能测试需求的基准测试簇,根据测试场景和测试事务的不同,可将TPC性能基准测试分为三类:联机在线事务处理系统(OLTP)测试,包括TPC-C,TPC-E;决策支持和大数据(DS)测试,包括TPC-H,TPC-DS;服务器虚拟化(VMS)测试,包括TPC-VMS.其中,TPC-C性能基准测试通过模拟较复杂且具有代表意义的OLTP应用环境,来衡量联机事务处理系统性能与可伸缩性34
24、.TPC-E则在 TPC-C的基础上,对传统的 C/S架构模拟环境进行了完善,从而实现对当时日益盛行的B/S架构系统的高效评价,为引导产业提升大规模并发处理能力提供了重要依据35.TPC-H提供了一套决策支持系统的性能基准测试依据,强调服务器在数据挖掘、分析处理方面的能力36.TPC-DS则补充了单用户响应时间、多用户吞吐量等测试,对测试基准的数据模型、业务模型和执行模式进行了完善37.TPC-VMS的目标是模拟服务器虚拟化环境,并实现对TPC-C,TPC-E,TPC-H,TPC-DS的综合测试38,从而推动CPU围绕应用日益广泛的云计算模式不断提升性能.为进一步改进TPC性能基准测试,许多学
25、者围绕优化测试框架、简化工作流程、改善测试策略等进行了探索.刘建鹏等人39为了提升TPC-DS的性能,将其与HiBench 测试框架合并,实现了对系统性能的高效测试,为进一步改进决策支持类测试基准提供了很好的思路.文献 40 针对TPC在采用SSD阵列的大型计算机中工作负载的复杂性问题,提出了一种基于 SmallFile表空间的方法,并通过构建位置感知的终端映射策略,有效提升了TPC-C在大规模评估系统中的适用性.冯志丹41提出了一种压力自动摸顶机制,根据被测系图4TPC 测试实现示意图249电子学报2023 年统执行事务的响应时延快速定位出最大吞吐量,在保证TPC-C测试准确性的同时,有效简
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通用 CPU 性能 基准 测试 研究 综述 史惠康
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。