基于多预测树组合算法的电力信息系统数据库缓存模型.pdf
《基于多预测树组合算法的电力信息系统数据库缓存模型.pdf》由会员分享,可在线阅读,更多相关《基于多预测树组合算法的电力信息系统数据库缓存模型.pdf(6页珍藏版)》请在咨信网上搜索。
1、第 5 1 卷第 6期 2 0 1 4年3月 2 5日 电测与仪表 Ei e c t r i c a l M e as ur e me n t& I n s t r ume n t a t i o n Vo1 5 1 NO 6 M ar 2 5 , 2 0 1 4 基于多预测树组合算法的电力信息系统数据库缓存模型术 曲朝阳 , 刁赢龙 , 薄小永1 ,朱莉1,任有学2,颜佳。 ( 1 东北 电力大学 信息工程 学院, 吉林 吉林 1 3 2 0 1 2 ; 2 吉林供 电公司, 吉林 吉林 1 3 2 0 1 2 ; 3 吉林省 电力有限公 司 信 息通信公 司, 长春 1 3 0 0 6 2
2、 ) 摘要 : 为解决电力大数据时代背景下信息系统数据库体积大 、 并发量高导致 的运行效率瓶颈 , 分析了当前几种 缓存模型的基本架构和原理, 综合电力内网中各业务系统的主要特点, 构建了一个电力信息系统数据库缓存模 型 , 在模型中设计 了一种多预测树组合算法( 预测树森林 ) 。 通过在应用层使用b o o s t i n g Y 式对 队列进行抽样得到 具有时序性和业务逻辑特点的s Q L 语句构建预测树森林, 智能预测可能发生的数据库操作并将结果集提前缓存 到内存中, 模型还可以根据系统的运行情况动态调整预测树森林的投票阈值 , 从而达到提高缓存效率和命中率 的目的。并基于O r a
3、 c l e 数据库对模型的可行性进行 了讨论 , 在云平台下运行结果表明模型不仅算法收敛速度快 而且能够实现同等内存容量下缓存效率的提高。 关键词 : 电力大数据 ; 数据库 ; 缓存模型 ; 预测树森林 ; S Q L 中图分类号: T M9 3 文献标识码 : B 文章编号 : 1 0 0 1 1 3 9 0 ( 2 0 1 4 ) 0 6 0 0 7 0 0 6 El e c t r i c I n f o r ma t i o n S y s t e m Da t a b a s e Ca c h M o d e l Ba s e d o n Pr e d i c t i v e F
4、 o r e s t Co mbi n a t i o n Al g o r i t h m Q U Z h a 。 一 y a n g , D I A O Y i n g 一 1 。 n g , B O X i a 。 一 y 。 n g , Z HU L i , WA N G L e i , Y A N J i a 2 ( 1 S c h o o l o f I n f o r ma t i o n a n d T e c h n o l o g y E n g i n e e r i n g , N o r t h e a s t D i a n l i U n i v e r s i
5、t y , J i l i n 1 3 2 0 1 2 , J i l i n , C h i n a 2 J i l i n P o w e r S u p p l y C o mp a n y , J i l i n 1 3 2 01 2 , J i l i n , Ch i n a 3 J i l i n P o w e r o f I n f o r ma t i o n a n d C o mmu n i c a t i o n s C o mp a n y , C h a n g c h u n 1 3 0 0 6 2 , C h i n a ) Abs t r a c t : T
6、o S O V e t h e e ffic i e nc y b o t t l e n e c k o f e l e c t r i c i t y i n f o r ma t i o n s y s t e m d a t a b a s e wi t h bu l k y s i z e a n d hi g h 、 c o nc ur r e nc y u n de r t h e c o n t e x t o f bi g d a t a e r a ,a p o we r s y s t e m da t a ba s e c a c h e mo d e l i s b
7、ui l t a n d a mu l t i - t r e e p r e di c t i o n c o m b i n a t i o n a l g o ri t h m( p r e d i c t i v e f o r e s t ) i s d e s i g n e d , w h i c h i s b a s e d o n t h e a n a l y s i s o f b a s i c s t r u c t u r e a n d p ri n c i p l e s o f c u r r e n t c a c he mo d e l s a n d
8、ma i n c ha r a c t e r i s t i c s o f e l e c t r i c i t y n e t wo r k b u s i n e s s s y s t e m W i t h b o o s t i n g me t ho d t o s a mp l e t h e q u e u e i n t h e a p p l i c a t i o n l a y e r a n d g e n e r a t e S Q L s t a t e m e n t s w i t h t i mi n g a n d b u s i n e s s l
9、 o g i c , t h e p r e d i c t i v e f o r e s t i s b u i l t , wh i c h a l l o ws i nt e l l i g e n t f o r e c a s t i n g o f da t a b a s e o pe r a t i o ns a n d c a c h i n g t h e r e s u l t s e t b e r e ha n d Mo r e o v e r , t he p r e di c t i v e f o r e s t v o t i n g t h r e s h
10、 o l d c a n b e a d j u s t e d d y n a m i c a l l y u p o n s y s t e m o p e r a t i n g s t a t u s b y c a c h e m o d e t o i m p r o v e c a c h e e f f i c i e n c y a n d hi t r a t e T he f e a s i b i l i t y o f t he mo d e l i s d i s c u s s e d ba s e d o n Or a c l e da t a ba s e ,
11、a n d t h e r e l a t e d e x pe r i me n t i s c o n d u c t e d o n a c l o u d c o mp u t i n g pl a t f o r mTh e r e s ul t s s h o we d t ha t t he a l g o r i t h m c o n v e r g e s f a s t e r a n d c a c h e mo r e e ffi c i e n t l y u n d e r t h e s a me a mo un t o f me mo r y Ke y w o
12、 r d s : e l e c t ri c b i g d a t a , d a t a b a s e , c a c h i n g mo d e l , p r e d i c t i v e f o r e s t , S Q L 0 引 言 途的业务系统陆续出现 , 它们每天都会面临海量的数 大数据时代的到来要求电力企业必须提高数据 据存储和巨大的访 问压力 ( 如国网公司统推项 目 驾驭能力。伴随着“ 三集五大” 建设的持续深入, 国网 I M S 3 0 0 0 监控平台, 仅吉林省分公司每分钟就需接收 公司信息化水平已经达到了前所未有的高度, 各类用 基金项目: 国家自然
13、科学基金资助项 目( 5 1 2 7 7 0 2 3 ) ; 国家自然科学基金资助项 目( 5 1 0 7 7 0 1 3 ) ; 吉林省科技发展计划重点支撑项 目( 2 0 1 2 0 3 3 8 ) 一 7O一 几万条s Q L 语句 , 处理上千条事务 ) 。可见 , 数据库的 读写速度 已经成为制约整个系统效率的瓶颈 , 因此如 何在保证硬件基础设施不变的同时 , 提高数据库访问 学兔兔 w w w .x u e t u t u .c o m 第 5 1 卷第 6 期 2 0 1 4年3月 2 5日 电测与仪表 El e c t r i c ai M e a s u r e m e n
14、 t& I n s t r ume n t a t j o n V0 J 5 1 No6 M a r 2 5 2 01 4 效率已经成为电力大数据时代下亟待解决的问题一 。 缓存的作用是减少应用程序对物理数据源访问 的次数 , 以提高其运行性能 , 进而提 高数据库的访 问 效率。 各数据库厂商大多采用基于结果集或者数据块 的缓存技术 , 这些方法虽然考虑了数据 的一致性且在 一 定程度上( 约为8 0 ) 提高了缓存读写的命中率。 然 而当前仍存在以下问题 : 成本高, 实际部署依赖于 软硬件结合, 需要高性能的硬件支撑才能达到客观的 效率, 当前电力业务系统的普遍做法是提高主机硬件 配置或
15、者采用集群模式等。内存占用率高, 无论是 粗粒度的块缓存还是细粒度的结果集缓存都要占用 大量内存 , 甚至需要将所有数据调入缓存 , 这对于数 以T B 级的电力大数据来说是不现实的。返回结果 集的不确定性 , 当一些查询结果集较大时 , 会造成 内 存阻塞现象致使缓存命中率迅速下降。 针对上述 问题 , 本文设计了一种基于多预测树组 合算法并将其应用在面向云计算的电力系统数据库 缓存模 型中。 组合分类预测方法应用于电力系统中的 r c 优势 为 : 针对 电力系统高维度 、 多特征的海量数据 集可降低训练的时间复杂度 ; 提升预测速度 , 并能兼 顾各种影响因素等。 本文提出的缓存模型贴合
16、电力信 息系统的流程和特点 , 生成的预测树森林具有很强的 业务逻辑性和准确度, 可异步缓存信息系统所需的数 据; 同时依据所需的各种系统资源对预测树群分别进 行裁剪, 使其以最小的硬件代价提高命中率; 最后使 用某电力信息系统的运行数据测试模型并与O r a c l e 、 M y s q l 等数据库 自带缓存进行对比分析。该模型同时 也在 国网吉林省有限公司科技项 目电网企业信息系 统实时监测平台中得到了实践取得了良好效果 。 1 基于多分类器的组合分类预测方法 为了改善传统分类挖掘算法的性能, 提高预测精 度 , 解决算法过拟合等问题, 相关学者引入多分类器 或者称之为组合分类的方法
17、, 其思想是使用b a g g i n g 或 者随机分割法从原样本 中抽取多个子样本进行多子 分类 器建模 ,然 后分别 进行 预测投 票决 定最终 结 口 果 一 。如有个彼此独立 的分类器 ( 误差均为e ) , 此 时 , 组合分类器的误差率如下所示 , 其e 远小于个 体分类器的误差率 : e h l = c v ( 1 一 ) ( 1 ) U 通过对海量高并发实时数据进行分类 或预测 的 模型进行研究可 以得 出组合分类预测方法有以下优 点: ( 1 )能够处理高维度的数据,并且无须做特征选 择; ( 2 ) 在训练完成后 , 可给出特征的重要性和关联度; ( 3 ) 可达到很快的
18、训练速度和预测效率; ( 4 ) 易实现并 行化方法,对于海量数据可以方便地搭建云计算平 台。因此针对电力信息系统业务和数据的特点, 本文 提出基于多预测树组合算法对数据库操作进行预测 实现电力信息系统数据库缓存模型。 2 电力信息系统数据库缓存模型 2 1 缓存模型结构 本模型主要 由应用程序缓存模块 , S Q L 预处理模 块 , 缓存核心模块和一些必要的业务进程组成 , 如图1 图1 电力信息 系统数据库缓存模型 Fi g 1 El e c t r i c i n f o r ma t i o n s y s t e m d a t a b a s e c a c h e mo d e
19、 l ( 1 ) 应用程序缓存模块: 应用程序缓存模块内嵌 入具体的业务系统后台程序中, 主要由个体识别子模 块、 并发控制子模块和数据共享池组成。本模块使用 面向切面的编程思想 , 在不修改原业务系统逻辑 的前 提下监控其持久层, 针对每一个用户提交的查询命令 贴上相应的个体标识和时间序号, 同时提供适当的并 发访问策略 , 来保证特定的事务隔离级别 。并建立数 据共享池来实现查询结果集的共享。 ( 2 ) S Q L 预处理模块 :其作用是解析和优化查询 语句, 在S Q L 优化器中使用替换关键字、 调整多表连 接等操作提高语句效率。 解析引擎模块参考数据字典 内的信息对S Q L 解析
20、, 使其适于业务学习和智能预测 一 71 学兔兔 w w w .x u e t u t u .c o m 第 5 1卷第 6期 2 0 1 4年3月 2 5日 电测与仪表 El e c t r i c a l M e a s ur e me n t& I ns t r u m e n t a t i o n VO I 5l No6 M a r 25 I 2 01 4 模块的处理。 ( 3 )缓存核心模块 : s Q L 语句将进入此模块 的一 级缓存内等待数据查询引擎的调用, 并依据前一模块 已贴好的个体标识在二级缓存中划分不同的队列 , 队 列长度满足一定阈值后业务模型基于b o o s t
21、 i n g 方法对 其抽样, 训练相应的预测树森林。智能预测模块会在 业务学习模块搜索相同的操作节点, 缓存即将可能发 生的查询并将结果集读至数据高速缓存区。 一致性检 查模块的功能是采用一定的算法保证缓存 和数据库 之间的同步。 ( 4 ) 业务进程: 系统资源分配进程使用H a d o o p 技 术将缓存核心模块分配到多个终端并行执行。 系统性 能监视进程作用是采集相关指标动态调整算法的阈 值 。 模型的缓存原理如图2 所示 。 数据库操作 开始 t , 一, 咱 蠢 蠢 硅 、 、 堡 土 要 在数据库中操作数 据并返回结果 商接操作数据库 厂琢甄m 1 _ 一 卜_ _ +宙 (
22、= = 图2 缓 存 流程 图 F i g 2 Ca c h i ng flo wc ha r t 2 2确保 数 据一 致性 的 方法 为了保证缓存和数据库文件内数据的一致 , 模型 提供了不同情况下的处理方法 : ( 1 )当用户进行查找时,数据库会告诉缓存区 L R U 表中查询是否存在空闲位置。 当发现有空闲位置 且大小合适时 , 模型会将数据缓存进L R U队列; ( 2 ) 若模 型在扫描L R U队列时 , 发现 已经更新 的 数据集 , 则对该数据集添加不一致标签 , 然后继续查 找空 闲位置; ( 3 )若此时高速缓存 区没有大小合适 的空 闲位 置, 模型会触发数据库写进程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 预测 组合 算法 电力 信息系统 数据库 缓存 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【fus****123】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【fus****123】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。