一种电网领域数据的知识图谱搜索引擎构建_周俊宇.pdf
《一种电网领域数据的知识图谱搜索引擎构建_周俊宇.pdf》由会员分享,可在线阅读,更多相关《一种电网领域数据的知识图谱搜索引擎构建_周俊宇.pdf(4页珍藏版)》请在咨信网上搜索。
1、 ,研究与设计微型电脑应用 年第 卷第期作者简介:周俊宇(),男,硕士,高级工程师,研究方向为电力系统调度运行;花洁(),男,本科,工程师,研究方向为电力系统调度运行;骆国铭(),男,硕士,高级工程师,研究方向为电力系统调度运行。文章编号:()一种电网领域数据的知识图谱搜索引擎构建周俊宇,花洁,骆国铭(广东电网有限责任公司佛山供电局,广东,佛山 )摘要:目前电网企业会产生海量且繁杂的数据资源,其利用率较低,无法体现价值。针对这一问题,文章提出一种电网领域的知识图谱数据搜索引擎构建思路,从知识图谱构建、设计和操作实现进行了详细分析,并设计了基于 算法的搜索引擎系统。以江西省某电网企业大数据为研究
2、对象,从查准率和召回率两方面验证了该算法的优越性。研究发现:基于 知识谱图算法的搜索引擎其查准率稳定在 范围,召回率在 ;而采用常规关键词搜索算法的查准率在 ,召回率在。综合来看,基于电网领域数据的知识图谱方法搜索结果更加合理,准确率和召回率更稳定,搜索性能得到有效提升。关键词:电网;领域数据;知识图谱;搜索中图分类号:文献标志码:,(,):,:;引言现有文献资料表明,传统的电网信息搜索方式在面对较为复杂的电力系统时,很难满足语义搜索需求,导致电网信息搜索效率低下。大数据时代知识图谱作为一种新兴的人工智能技术已经在许多行业得到了广泛应用,为人类提供了更为直观、有效的数据处理方式,能够提高智能运
3、算中的组织、管理和认知能力。为此,国内相关研究者提出电力领域知识图谱技术,其目的是利用知识图谱去解决电网中更为复杂的因果网络,将电力领域信息进一步需求细化、闭合,从而形成一个在电力领域的特定应用需求。为了从实践和原理上进一步聚焦电网领域知识图谱技术的搜索能力,本文在总结和分析电网特点和知识图谱搜索技术的基础上,利用知识融合构建知识图谱,开展了相似类搜索和分类搜索研究,希望为类似项目提供实践参考。知识图谱原理大规模互联网信息使得现阶段内容呈现爆炸式增长,如何在多元化、异质化、松散结构的数据库中实现精确的搜索技术是目前信息收集和分析领域的重点研究方向。知识图谱技术是近年来由谷歌公司所提出的一种具备
4、大规模语义处理和开放组织能力的语言识别技术,为智能互联网及其工业应用奠定了基础。相较于传统的 图,知识图谱最典型的区别在于能够描绘实体与实体之间的模糊关系,然后组成一类巨大的语义网络。知识图谱包含以下重要节点。()实体:泛指一类可以区别于其他事物的、能够独立存在的事物,比如动物、植物、城市等。()语义类:表示一类可以构成同类型特征的实体集合,比如国家、汽车、狗等。()内容:一般作为对实体和语义类的补充、描述和定 ,研究与设计微型电脑应用 年第 卷第期义等,比如可以用文本、音像等来进行解释。()关系:一种函数表达式,用于将个图节点进行映射从而得到布尔函数。知识图谱的构建需要明确知识本身的逻辑结构
5、以及该知识图谱采用的体系架构。逻辑结构利用模式层和数据层来表达,模式层是数据结构的关键。体系架构见图,其虚线框内通过接受外部的结构化数据、半结构化数据和非结构化数据,经整合后形成知识表示,然后经过知识提取和本体构建等一系列框架设计后形成新的知识推理过程,最后封装成知识图谱并应用于客户服务。图知识图谱框架结构系统核心技术 知识图谱构建本文的电网知识图谱构建基于 数据库,在充分分析电网数据特征的基础上设计电网数据库中的实体、属性、关系和映射。然后以 语言为基础,通过提取原有数据库中的存储设备信息,进行 转换后形成特定的知识图谱数据并存入 数据库。最后,在图谱数据库中生成离散数据点集合,并将不同数据
6、实体之间的映射关系导入到图谱数据,进行离散数据之间的聚合和关系构建,最终经过不断调试后形成电网信息知识图谱,其具体流程见图。图知识图谱构建流程 知识图谱设计知识图谱设计是整个搜索引擎构建的核心组成部分。本文采用 算法,其元组模型公式如下:,()式中,表示知识图谱数据集合,表示实体数据,表示关系数据集,表示语义和内容数据集。如图所示,首先收集电网行业现行技术规范标准、电网企业设备使用手册、电网设备维护维修记录、电网运行数据记录、电网人员构成专业分工、电网工作工程以及组织机构信息等,利用 将数据抽取并封装。封装完成后经过数据清洗、实体识别、实体歧视和实体关联四个方法实现电网知识的获取,将其进一步封
7、装形成知识图谱数据库。其中,知识图谱数据库采用 语言实现知识查询、访问和管理;通过 实现用户的语义搜索和分析。图电网知识图谱设计流程电网数据由于大多为设备检修信息、设备运维信息、物质进出清单等结构化数据,其数据类型较为适合利用结构化数据进行表达。本文通过大规模并行处理(简称)实现多个服务器的节点计算并汇总,并转化为统一的实体形式。其中结构化数据的提取首先进行类的定义,然后进行属性定义,类的定义基于父类和子类之间的层次来归类,属性定义是进行数据和对象类型的关联,其结构化数据的类定义算法如下:类定义示例 :“升压变压器”:“变压器”:“变压器”:“变电站设备”:对于时序类的规则数据,一般是半结构化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 电网 领域 数据 知识 图谱 搜索引擎 构建 周俊宇
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。