JR∕T 0206-2021 证券期货业大数据平台性能测试指引.pdf
《JR∕T 0206-2021 证券期货业大数据平台性能测试指引.pdf》由会员分享,可在线阅读,更多相关《JR∕T 0206-2021 证券期货业大数据平台性能测试指引.pdf(30页珍藏版)》请在咨信网上搜索。
1、ICS 03.060CSS A 11JR中 华 人 民 共 和 国 金 融 行 业 标 准JR/T 02062021证券期货业大数据平台性能测试指引Reference for big data platform performance test of securities and futures industry2021 - 06 - 15 发布2021 - 06 - 15 实施中国证券监督管理委员会发 布JR/T 02062021I目次前言.II1 范围.12 规范性引用文件.13 术语和定义.14 缩略语.15 测试目标.16 测试准备.16.1 测试环境准备.16.2 测试数据准备.37
2、 测试内容和方法.57.1 测试概述.57.2 基准测试.67.3 数据加载性能测试.67.4 数据查询性能测试.107.5 混合负载性能测试.167.6 数据操作性能测试.177.7 数据导出性能测试.198 扩展测试.218.1 扩展测试概述.218.2 索引测试.218.3 分区键测试.228.4 分布键测试.228.5 列存储测试.228.6 资源队列测试.22附录 A (资料性附录) 平台、术语、工具名称解释及 TCP 基准测试套说明.24参考文献.26JR/T 02062021II前言本文件按照GB/T1.12020标准化工作导则第1部分:标准化文件的结构和起草规范的规定起草。请注
3、意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国金融标准化技术委员会证券分技术委员会(SAC/TC180/SC4)提出。本文件由全国金融标准化技术委员会(SAC/TC180)归口。本文件起草单位:中国证券监督管理委员会科技监管局、深圳证券交易所、上海证券交易所、中证信息技术服务有限责任公司、中国证券登记结算有限公司、深圳证券通信有限公司。本文件主要起草人:姚前、蒋东兴、周云晖、喻华丽、万春波、陈明忠、顾军妹、谷博、林宇、沙明、韩凤宁、刘大海、何飞、李向东、王蕾蕾、陈亮、莫锋、李小光。JR/T 020620211证券期货业大数据平台性能测试指引1范围本文件给出了
4、证券期货业大数据平台提供性能测试指引,指引内容包括测试目标、测试准备、测试内容和方法、扩展测试。本文件适用于证券期货行业的核心机构和经营机构对大数据平台(Hadoop平台和MPP数据库)在选型期或建设期进行性能测试。注:核心机构包括证券交易所、期货交易所、登记结算公司等,经营机构包括证券公司、期货公司、基金管理公司等。2规范性引用文件本文件没有规范性引用文件。3术语和定义本文件没有需要界定的术语和定义。4缩略语下列缩略语适用于本文件。MPP:大规模并行处理(MassivelyParallelProcessor)CPU:中央处理器(CentralProcessingunit)ETL:抽取转换加载
5、(Extract-Transform-Load)5测试目标测试的主要目标是通过测试收集被测大数据系统在特定场景下的关键性能指标, 根据指标结果评估被测系统性能。所收集的性能指标分为如下两类:a)时间相关指标:包括吞吐、速率、时延和响应时间等,指标将从单位时间、特定长度时间、数据从源端到目标端流转时间和数据请求发起到服务完成时间等不同角度反映被测系统处理数据的效率和能力;b)系统资源相关指标:包括服务器主要硬件资源(CPU、内存、磁盘、网卡等)的利用率和操作系统软件资源(进程数、网络连接数量、文件句柄占用数量等)的使用情况。6测试准备6.1测试环境准备JR/T 0206202126.1.1环境检
6、查大数据平台中,被测集群由服务器集群组成,不同的测试环境对测试结果会产生不同的影响,按照平台的设计目标选择性能测试使用的测试环境配置,在测试正式执行前对环境进行检查。6.1.2服务器准备测试所用的服务器全部采用物理机, 相同功能域的节点采用相同的硬件配置, 任意一个管理节点与其它管理节点硬件配置相同,任意一个数据节点与其它数据节点硬件配置相同。测试所需节点数量的估算公式如下:节点数量=(数据副本数设计的数据容量/单个数据节点容量)+管理节点数量+其它功能节点数量注:数据容量暂不考虑压缩比。管理节点数量一般采用被测系统默认配置,通常每个集群采用1+1主备方式。其它功能节点则按需配置,数据平台产品
7、中没有“管理节点”概念的,可根据实际情况进行配置。6.1.3测试组网根据被测系统的产品特点、集群规模、业务应用程序与被测系统的交互方式等确定组网方式。宜采用万兆网络通信,每个节点配备双万兆网卡进行绑定,将被测系统部署在测试专用网段,与生产环境完全隔离。6.1.4环境验证在部署安装被测系统前, 对所有服务器硬件和网络配置进行检查以及性能验证, 确认各服务器硬件和网络性能处于稳定状态,避免出现因个别节点性能异常导致整个集群性能受影响的情况。在每个服务器上分别执行下述服务器硬件验证项,见表1,验证通过后即可安装被测系统。表 1服务器硬件验证序号序号类别类别验证项验证项预期结果预期结果1CPU检查 C
8、PU 核数、频率。CPU 核数、频率与硬件实际配置一致。2使用基准性能工具(例如 Sysbench)测试 CPU 性能。性能结果与厂商提供的硬件性能指标相符,相同硬件配置的服务器之间性能结果差异在 10%以内。3内存检查内存条数、 容量大小、 频率和时序。 内存条数、容量大小、频率和时序与硬件实际配置一致。4使用基准性能工具(例如 Sysbench)测试内存性能。性能结果与厂商提供的硬件性能指标相符,相同硬件配置的服务器之间性能结果差异在 10%以内。5磁盘检查磁盘类别 (机械盘或 SSD) 、 转速 (机械盘) 、容量大小和数量。磁盘类别(机械盘或 SSD) 、转速(机械盘) 、容量大小和数
9、量与硬件实际配置一致。6使用基准性能工具(例如 Sysbench)测试磁盘性能。性能结果与厂商提供的硬件性能指标相符,相同硬件配置的服务器之间性能结果差异在 10%以内。7网卡检查网卡个数、带宽信息。网卡个数、带宽信息与硬件实际配置一致。8使用基准性能工具(例如 Netperf)测试网卡性能。性能结果与厂商提供的硬件性能指标相符,相同硬件配置的服务器之间性能结果差异在 10%以内。被测系统安装完毕后,对软件版本进行检查,验证安装的正确性。检查项包括但不限于操作系统版本、内核版本、JDK 版本和大数据平台产品版本。6.1.5系统资源监控JR/T 020620213测试过程中对被测系统资源使用情况
10、进行持续监控, 在被测系统的每个节点上部署系统资源监控工具,例如Nmon、Atop等。监控采样周期宜控制在3秒以内,监控的资源包括但不限于CPU、内存、网络、磁盘等硬件资源和进程、文件句柄、网络连接、数据库连接等软件资源,见表2。表 2系统资源监控项序号序号资源监控项资源监控项内容描述内容描述1CPU包括系统整体 CPU 占用率、每个 CPU(核)占用率、用户空间 CPU 占用率、内核空间 CPU占用率、IOWaitCPU 占用率等。2内存包括内存总大小、已用内存大小、可用内存大小、Cache 大小、共享内存大小等。3网络包括吞吐量、发送速率、接收速率、发包总大小、收包总大小、错误率等。4磁盘
11、 I/O包括 IOPS、写速率、读速率、带宽占用率等。5软件资源包括进程数、文件句柄占用数、网络连接数和数据库连接数等。6.2测试数据准备6.2.1基础测试数据准备基础测试数据选取了证券交易基础的订单、成交、行情数据以及基础信息资料数据,为后续的数据加载和数据查询提供数据支持。数据准备主要从测试数据规模与测试数据特征两方面考虑:a)测试数据规模:结合大数据平台的设计目标和业务场景选取测试数据的数据规模;b)测试数据特征:测试数据的准备应具有代表性、广泛性,并考虑数据分布的密集程度,尽量贴近生产数据。6.2.2测试数据规模测试数据规模应结合数据平台的设计目标设定,可根据以下公式进行简单估算:测试
12、数据规模=存量数据规模+增量数据规模公式中的存量数据规模和增量数据规模说明如下:a)存量数据规模存量数据规模是一个固定值, 可采用生产环境历史数据总量值作为存量数据规模, 亦可采用一个设计值或规划值作为存量规模;b)增量数据规模增量数据规模根据业务场景划分不同档位, 以日增量数据为例, 根据业务场景可划分为以下四档:1)一般:近期(最近 3 个月半年)生产环境数据平均日增量;2)平峰:最近半年或一年的生产环境数据日增量峰值;3)高峰:历史上生产环境数据日增量峰值;4)极限:规划或设计的系统所能承载的日增量峰值。测试数据规模随增量数据规模也划分为一般、平峰、高峰、极限四档,采用不同档位的测试数据
13、进行测试, 观察当前业务模型下数据增量负荷对被测系统性能的影响, 相关测试结果可供后续业务性能调优和集群规模设计参考。6.2.3测试数据特征大数据平台存储了多种类型和格式的数据, 测试数据保留真实业务特征, 对数据特征的要求说明如下:a)具有代表性:包括典型场景的合理取值的测试数据以及少量的常见的异常数据(如缺省空值、不一致数据、重复数据)等;JR/T 020620214b)具有广泛性: 尽可能多的包含可取的数值, 可以通过数据变换的方式生成更多的测试数据以针对不同的内容进行测试;c)覆盖不同的数据分布形态:包括数据均匀分布和非均匀分布(即数据倾斜)。分布式系统出现非均匀分布(数据倾斜)时对性
14、能影响较为明显,在构造测试数据时宜重点关注。数据倾斜与数据模型设计有关,可以根据实际情况构造以下三种数据倾斜场景:1)无倾斜:数据平均分布,无明显倾斜;2)常规倾斜:生产真实业务数据通常情况下的倾斜程度,或简单采用“二八原则”,例如证券市场 80%的交易订单集中在 20%的证券的场景;3)极端倾斜:市场热点极端集中情况下业务数据的倾斜程度,例如证券市场 20%的交易订单集中在 1%的证券的场景。注:采用不同倾斜程度的数据进行测试,观察特定业务数据倾斜对被测系统性能的影响,相关测试结果可应用于后续数据模型设计和存储策略制定。6.2.4测试数据组合综合测试数据规模分析和测试数据特征分析进行考虑,
15、可得到以下十二种测试数据组合场景, 实际业务场景性能测试时根据需要选取不同的测试数据组合进行测试,见表3。表 3测试数据组合场景序号序号场景名称场景名称组合场景说明组合场景说明1一般规模平均分布存量数据+一般规模增量数据(增量数据平均分布)2一般规模常规倾斜存量数据+一般规模增量数据(增量数据常规倾斜)3一般规模极端倾斜存量数据+一般规模增量数据(增量数据极端倾斜)4平峰规模平均分布存量数据+平峰规模增量数据(增量数据平均分布)5平峰规模常规倾斜存量数据+平峰规模增量数据(增量数据常规倾斜)6平峰规模极端倾斜存量数据+平峰规模增量数据(增量数据极端倾斜)7高峰规模平均分布存量数据+高峰规模增量
16、数据(增量数据平均分布)8高峰规模常规倾斜存量数据+高峰规模增量数据(增量数据常规倾斜)9高峰规模极端倾斜存量数据+高峰规模增量数据(增量数据极端倾斜)10极限规模平均分布存量数据+极限规模增量数据(增量数据平均分布)11极限规模常规倾斜存量数据+极限规模增量数据(增量数据常规倾斜)12极限规模极端倾斜存量数据+极限规模增量数据(增量数据极端倾斜)6.2.5测试数据构造大数据平台的数据规模大,数据特征多样且复杂,宜使用脱敏的生产数据作为种子数据,再通过特定规则变换进行批量构造。选取真实生产数据(如选取历史上某一天的数据),进行脱敏后作为种子数据。根据估算的数据规模,对种子数据进行翻倍和转换以获
17、得所需的存量测试数据与增量测试数据。种子数据的翻倍规则要能保留数据的业务特征。测试数据构造示例:以证券交易所数仓中一部分典型数据模型为例,选取生产环境历史数据中的一天数据,经过数据脱敏和数据倾斜改造(按“常规倾斜”程度改造)后,得到如下种子数据,见表4。JR/T 020620215表 4种子数据序号序号数据表数据表数据量(行)数据量(行)文件大小文件大小说明说明1订单表3000 万3.375G数据量随交易日动态增长2成交表4500 万5.25G数据量随交易日动态增长3逐笔行情表300 万825M数据量随交易日动态增长4股份持有表3000 万1.8G数据量随交易日动态增长5证券信息表1 万3M资
18、料表,数据量固定6投资者资料表10 亿145G资料表,数据量固定7营业部资料表10 万19M资料表,数据量固定8会员资料表1000 个0.5M资料表,数据量固定9交易单元资料表10 万15M资料表,数据量固定假设以一年历史数据作为存量数据,按业务规则对种子数据的4个动态表进行数据翻倍(按一年240个交易日计算),得到存量数据,见表5。表 5翻倍后的数据序号序号数据表数据表数据量(行)数据量(行)文件大小文件大小1订单表72 亿810G2成交表108 亿1260G3逐笔行情表7.2 亿198G4股份持有表72 亿432G5证券信息表1 万3M6投资者资料表10 亿145G7营业部资料表10 万1
19、9M8会员资料表1000 个0.5M9交易单元资料表10 万15M增量数据同样是在种子数据基础上按业务规则对动态表进行数据量翻倍以及数据倾斜改造。以订单表为例,按四档数据规模划分,见表6。表 6数据规模划分序号序号订单表数据规模订单表数据规模数据量(行)数据量(行)文件大小文件大小1一般3000 万3.375G2平峰8000 万9G3高峰1.2 亿13.5G4极限4 亿45G每一档数据再根据数据倾斜程度准备“无倾斜”、“一般倾斜”、“极端倾斜”三份数据,则订单表总计需要准备12份数据待用。成交表、逐笔行情表和股份持有表采用同样的方法各生成12份数据待用,最终完成所有组合的增量测试数据准备。7测
20、试内容和方法7.1测试概述大数据平台性能测试主要包括平台基准测试和基于业务场景的性能测试:JR/T 020620216a)平台的基准测试,该项测试采用自带的业务模型,对大数据平台进行指标定量、可对比的性能测试;b)基于业务场景的性能测试, 采用已准备的代表不同数据规模和数据特征的测试数据组合开展基于业务场景的性能测试,包括以下测试内容:1)数据加载性能测试:数据加载分为全量加载、增量加载和库内加载。全量加载模拟的是业务存量数据迁移到被测系统的场景,属于一次性加载场景,主要考察加载效率;增量加载模拟的是外部业务数据每日增量加载到被测系统的场景, 属于实时加载场景, 主要考察吞吐量和时延;库内加载
21、模拟的是增量业务数据归档(从当前表存入历史表)的场景,同样考察加载效率。出于对场景通用性的考虑,全量加载的数据源采用文本数据源,增量加载的数据源采用 Kafka(名称解释参见附录 A 的 A.1)数据源;2)数据查询性能测试: 数据查询性能测试模拟的是业务应用程序向被测系统发起查询请求的场景, 通过调整查询语句的复杂程度和查询的并发量, 渐进式的评估被测系统处理查询任务时的性能表现。测试内容分为单项查询性能测试和并发查询性能测试;3)混合负载性能测试: 混合负载性能测试是数据增量加载性能测试与并发查询性能测试的一种测试组合, 模拟的是被测系统在实时加载数据的过程中, 同时处理业务查询请求的场景
22、。测试目的是观察加载与查询同时开展时, 相比于加载与查询独立开展时性能指标发生了多大的变化。4)数据操作性能测试:数据操作指增加、更新和删除数据的操作。因数据加载实际上已覆盖到增加数据的操作, 所以本项测试只针对更新和删除数据进行测试, 测试模拟的场景主要是采用 SQL(update 和 delete)语句更新和删除指定表指定范围的数据;5)数据导出性能测试: 数据导出常见的两种场景为全表导出和查询结果集导出, 针对这两种场景分别开展性能测试。7.2基准测试基准测试是指通过设计科学的测试方法、 测试工具和测试系统, 实现对一类测试对象的某项性能指标进行定量的和可对比的测试。 企业可需要根据自身
23、系统设计目标和业务特点选择适合的 TPC 测试基准测试套,常见的基准测试套参见附录 A 的 A.2。注:TPC(TransactionProcessingPerformanceCouncil事务处理性能委员会)是行业内权威的基准测试组织,针对大数据平台TPC提供了若干基准测试套,根据给定系统和数据库每单位时间处理事务数来生成测量被测系统的性能基准。7.3数据加载性能测试7.3.1全量加载性能测试7.3.1.1指标说明测试输出的指标如下:文本数据加载速率文本数据加载速率,是指在给定的约束条件下,ETL服务器一次性加载文本数据到被测系统,平均每秒加载的记录数,单位:万行/秒。计算公式:文本加载速率
24、=总记录数/(加载完成时间-加载开始时间)7.3.1.2约束条件全量加载性能测试的约束条件见表7。JR/T 020620217表 7约束条件序号序号名称名称内容描述内容描述1加载方式采用被测系统配套的 ETL 工具和加载方式,用于计算性能指标的加载开始时间和完成时间也以该配套工具记录的时间为准。2文本数据存储位置文本数据统一存放于 ETL 服务器的本地磁盘的一个独立分区文件系统。3文本文件数量每张表对应一个文本文件,文本文件数量等于测试数据表的数量。7.3.1.3测试准备测试准备包括以下方面:a)存量测试数据使用文本文件形式存储于 ETL 服务器本地磁盘;b)ETL 工具准备就绪。7.3.1.
25、4测试用例全量加载性能测试的测试用例见表 8。表 8测试用例描述序号序号测试用例描述测试用例描述1存量数据一次性加载到被测系统。7.3.1.5测试执行表8中序号1测试用例的测试执行方法如下:a)使用被测系统配套的 ETL 工具在 ETL 服务器上将所有测试数据加载到被测系统;b)记录加载开始到加载完成的时间,观察被测系统的系统资源占用率;c)测试结束后计算文本数据加载速率。7.3.1.6结果评估当测试结果满足以下条件时,视为有效测试:a)测试时间内被测系统的资源消耗情况在预期范围;b)加载到被测系统的数据记录数与源数据记录数一致。测试结果中文本加载速率越高,可认为被测系统在此用例场景下性能越优
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- JRT 0206-2021 证券期货业大数据平台性能测试指引 JR 0206 2021 证券期货 业大 数据 平台 性能 测试 指引
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。