PB级地震数据并行计算系统调优最佳实践.pdf
《PB级地震数据并行计算系统调优最佳实践.pdf》由会员分享,可在线阅读,更多相关《PB级地震数据并行计算系统调优最佳实践.pdf(6页珍藏版)》请在咨信网上搜索。
1、PB 级地震数据并行计算系统调优最佳实践摘要:随着地震勘探采集力度加大,地震数据的体量更是达到了新的高度,同时也使得地震数据的处理规模和处理周期线性增长,对软硬件系统设备在计算特征、计算需求、计算性能等方面提出了更高的要求,对资源利用率性能要求也水涨船高。针对这些问题,结合实际生产环境,提出了一套系统化的解决方案,通过地震数据的计算特征,设计开发布控了一套能处理 PB 级地震数据体量的系统结构和高并行处理模式;在计算需求方面,对系统和软件性能进行了统一优化,提高了资源利用率,整个解决方案不仅能够满足 PB 级地震数据的高并发的处理需求,还具有良好的经济性、可扩展性,在对实际推广使用大规模集群体
2、系结构有很好的参考价值。关键词:并行计算系统;PB 级地震数据;系统调优赵玉梅,程实,郑玉霞,张红杰,王向辉,杜吉国(中国石油东方地球物理勘探有限公司研究院)开发应用 1引言随着地震数据量急剧增加和专业应用软件的大型化,对数据处理并行化的计算能力要求越来越高,未来更大规模的数据量和高并行处理能力之间的配比会不断攀升,也会不断突破极限,对现有大规模集群的架构会提出更高的要求。本文主要对PB级地震数据处理在大规模集群并行计算的效率提升进行综述,从软件和系统架构等方面,对数据处理的应用性能优化关键核心技术进行研究分析。在大型化应用软件、大规模集群系统和生产项目的资源支持下,用实际的地震数据和生产环境
3、进行压力测试,完成数据库架构和内核参数、系统参数、调度系统的调优;并持续提升大规模集群下数据库和调度等方面的性能,形成一套大规模集群系统和数据库管理的解决方案,以实现在资源统一调度和计算高并行性的最佳配置,从而提高作业的运行效率和设备的使用效能。2PB 级地震数据计算特征和系统架构2.1地震数据计算特征数据地震数据的处理规模由 TB 级提升至 PB级甚至未来的 EB 级,系统架构从单节点多核转到多节点多核,以实现处理能力的扩展。地震数据的计算特征,分为计算密集、数据密集、交互密集三种重要的计算,对大规模集群的架构需求也不一样,对计算能力,传输能力,响应能力侧重点也各不相同。目前地球物理勘探应用
4、系统中,不同应用类型在处理大数据有不同的算特征,在常规地震数据处理过程中,有达上千 GB 或者 TB 的作业,有从数据中抽取几十个 TB 或者 GB 的数据做参数试验,要求作业总体运行时间短,而用图形化方式显示的地震数据,数据量在几 MB 到几十 MB,要求系统响应短。大数据量必然需要大计算,如果利用单进程进行数据处理,几十 TB 的地震数据只是简单地输入输出操作,就需要十几个小时,对整体数据的单步处理就会需要几天到几十天的运行时间,要完成整个工区的数据处理,似乎成了不可完成的任务,所以对地震数据并行处理成为缩短处理周期必须采取最有效的方法。而传统的数据处理模式是按次序读取地震数据,然后对数据
5、一次计算,最后输出计算结果,本质是串行处理,现在把地震数据分割成若干独立作者简介:郑玉霞,女,本科,中级工程师,主要研究的方向为高性能计算效能、云平台管理、作业调度效率际贸易学专业,高级经济师,现在中石化石油勘探开发研究院从事海外项目经济评价工作。石油工业计算机应用COMPUTER APPLICATIONS OF PETROLEUMMarch.20232023年3月1092023年3月石油工业计算机应用的小块,把作业任务分配到多个节点多个核进行计算,提高并行能力,提升设备利用率。2.2 系统架构PB 级地震数据计算特征之一就是并行计算机的高密度读写操作和复杂计算占比很大,目前石油行业采用的通用
6、集群架构规模一般有上百个节点,形成很多计算孤岛,没有汇聚所有计算资源以完成对 PB 级地震数据的处理,当集群规模达到千节点以上时,对 PB 级数据的处理规模是适用的。除了有计算能力相匹配的大规模集群设备,还有相应的并行软件系统,包括节点管理、数据管理、调度管理、友好交互界面等。本次测试搭建了 1600多个节点的超大规模集群和主从架构数据库,以及自动并行引擎模式的运行环境,主力应用软件的80%处理模块都可以并行运行,依托实际生产项目和实际生产环境进行了多次一千到一万个输入输出作业的压力测试。3性能调优技术和策略性能调优是一个很大的课题,本文调优的范围只局限在系统管理层和软件管理层,对大数据的并行
7、计算性能进行研究分析和调优,尽可能提升系统运行效率,减少系统的瓶颈,提高数据库整体的性能。3.1 性能调优的方法性能优化的方法有很多种:一种是硬件级调优,简言之,就是更换性能更优的硬件,比如更快更大的内存条、SSD 固态硬盘等,系统效能会极大提高,现实却是大规模集群统一更换设备的可能想很小;最好的性能优化就是运行级调优,即从运行环境上调整,通过监控系统性能和计算时效率来跟踪问题所在,通过改变一些系统运行参数,修改数据库参数,更新调度系统程序,调试作业参数等,也可以极大的提升系统整体运行效率,且具有成本低、易操作、效果好等优点。整个优化先从系统调整开始,通过标准化作业测试,以确保系统运行处于正常
8、状态,调优之前,先要了解系统性能的极限,PB 级地震数据的高并行化计算属于高密集性读写操作,当大量并行作业同时进程访问地址空间,一般的缺省内存页和打开文件数是不能满足高并发下的计算需求,需要对系统内核参数的最大文件数、最大进程数、共享内存页等参数进行调整,去除系统瓶颈。接下来对应用系统调整,重点是对数据库和调度系统的调优,为了同时能分发万个以上作业,必须对数据库参数设置读写分离,以支持超大规模的并发访问;在压力测试的高并发的场景中,当大量作业请求时,对调度系统也产生了很大的压力,优化相关程序,发现调度中存在不合理限制控制规则,修改参数和指标,提升调度系统的性能。3.2调优策略搭建和配置了 16
9、00 多个节点大规模集群,创新研发了主从架构和读写分离技术,根据用户对数据的访问特征,提供了不同的读写连接,隔离了数据读写间的相互影响,提高了高并发下数据访问的规模,实现了服务端的负载均衡。主从数据库模式在两个节点有相同的数据库,起到了数据库备份的作用,提高了数据库的安全性。主从数据库能有效地分流了数据库访问压力,降低主数据库的负载,很好地提升系统的性能,优化用户体验。对数据库的读写分离策略,一般配置成主数据库(master)完成写操作,从数据库(slave)完成读操作,主数据库利用主从复制将自身数据的改变同步到从数据库集群中,然后主数据库负责处理写操作(当然也可以执行读操作),从数据库负责处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- PB 地震 数据 并行 计算 系统 最佳 实践
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。