面向调控云平台的信息化智能搜索技术.pdf
《面向调控云平台的信息化智能搜索技术.pdf》由会员分享,可在线阅读,更多相关《面向调控云平台的信息化智能搜索技术.pdf(4页珍藏版)》请在咨信网上搜索。
1、Microcomputer Applications Vol.39,No.8,2023文章编号:1 0 0 7-7 57 X(2 0 2 3)0 8-0 0 32-0 4基金项目面向调控云平台的信息化智能搜索技术微型电脑应用2 0 2 3年第39 卷第8 期李佳阳,李昊,闫妮,陈子韵,丁捷(南瑞科技股份有限公司,南瑞研究院,江苏,南京2 1 0 0 0 0)摘要:计算机对中文表达的非结构化电力调度术语的自然语言解析是进一步提升电网智能化程度的难点之一。文章利用自然语言处理技术,针对不同类型的数据,采用不同的检索方式。利用自然语言处理技术,将语法模式改写为正则表达式,建立句法知识库。利用信息抽取
2、技术,在问题中抽取结构化的、机器能够理解的信息,为处理提供参数。这里所采用的意图识别技术先采用模板匹配方法,再采用文本分类方法。对搜索的结果进行排序,主要按照与搜索语句的匹配度进行排序,以达到更好的使用效果。关键词:自然语言处理;信息抽取;意图识别;排序算法中图分类号:TP3文献标志码:AInformation Intelligent Search Technology for Regulation Cloud PlatformLI Jiayang,LI Hao,YAN Ni,CHEN Ziyun,DING Jie(NARI Technology Institute,NARI Technolo
3、gy Co.,Ltd.,Nanjing 21ooo0,China)Abstract:The natural language analysis of unstructured power dispatch terms expressed in Chinese by computers is one of thedifficulties in further improving the intelligence level of power grids.In this paper,we use natural language processing technol-ogy,and use dif
4、ferent retrieval methods for different types of data.We use natural language processing technology to rewritesyntactic patterns into regular expressions,and the syntactic knowledge base is established.The information extraction tech-nology is used to extract the structured information that can be un
5、derstood by the machine,and provide parameters for intentionprocessing.We use template matching method,and then uses text classification method to achieve intention recognition.In or-der to achieve better effect,the search results are sorted according to the matching degree with the search statement
6、s.Key words:natural language processing;information extraction;intention recognition;sorting algorithm等技术的支持下所具有的能动地满足人的各种需要的属0引言性1 1。智能搜索系统中的智能化是指具备丰富的推理能力由于智能电网调控运行统一决策、分级控制、实时协同,和自我学习能力,可以识别使用者的意图,能够处理复杂的客观上要求电网设备模型及调度运行管理数据在省级以上高难度的包含统计学的任务,并在使用中具备不断学习的能调度机构共享并保持一致性,实现精细化管理和智能化决力,以提高系统的整体智能化水平。策
7、,系统中集成的数据量相比传统调度自动化系统呈现了飞个性化是指根据用户的不同特点,提供个性化服务 1。速增长的趋势,数据检索和深化应用需求也日益增加。然个性化推荐系统是互联网和电子商务发展的产物,它是建立而,传统的数据查询手段单一,无法满足灵活的数据查询需在海量数据挖掘基础上的一种智能平台,向用户提供个性化求,严重影响了数据获取挖掘的实时性以及关键业务数据分的信息服务和决策支持。析的效率。因此,从海量数据中检索到有用的数据,进行业本文基于自然语言处理技术,通过模型分词、特征提取、务分析决策成为了当前尤为重要的课题。意图识别、信息抽取等技术建立模型库,立足于电网调控云此项研究中的搜索引擎系统是电力
8、资源平台的重要组平台业务数据;通过分析调控云数据的特点,建立语法依存件,为用户提供个性化、智能化的搜索服务。通过智能搜索库、问题模板库、调控云本体知识库,包括电网调度模型数服务,可以有效提高电力信息搜索的准确率、覆盖率和查找据、运行数据、实时数据、电网模型、参数、流程数据;研究智速率等3项重大指标。能化的搜索引擎技术以满足调控云数据的互联互通,提升智智能化是指事物在云平台、大数据、物联网和人工智能能电网调度的便捷性、准确性,从而大幅度提升电网调度的基金项目:国家电网公司总部科技项目资助(SGHE0000DKJS2000617)作者简介:李佳阳(1 9 8 3一),女,硕士,高级工程师,研究方向
9、为电网调度自动化、自然语言处理技术;李昊(1 9 8 5一),男,硕士,高级工程师,研究方向为电网调度自动化、人工智能模型构建技术;闫妮(1 9 9 4一),女,硕士,助理工程师,研究方向为电网调度自动化、自然语言处理技术;陈子韵(1 9 9 5一),女,硕士,助理工程师,研究方向为电网调度自动化、人工智能算法;丁捷(1 9 8 3一),男,硕士,高级工程师,研究方向为电网调度自动化、应急双活灾备技术。32Microcomputer Applications Vol.39,No.8,2023智能化水平,以便于指导电网调度领域的分析决策。1总体架构系统体系结构如图1 所示。智能搜索引擎的整体架构
10、分为用户层、智能服务层、系统管理层、加工层、采集层以及信息层。智能搜索系统对信息层的数据进行加工分析、处理,形成电网知识库。系统以用户的检索文字或语音为输人:首先对输入的内容进行分词和词性标注;然后对输人的内容进行句法分析,生成其句法分析树以及依存关系树,采用Tregex21在句法分析树上进行实体识别,并利用依存关系进行搭配词识别;最后根据用户的不同意图,采用不同的检索方式。在结果呈现方式上,本系统根据电网调度数据的特点,采用了多种多样的展现形式,有列表、词条、饼图、棒图、曲线等等,并支持统计值的呈现。用户层分类检索模糊检索智能服务语音交互图像识别自然语言处理智能推荐系统管理词典管理 分类管理
11、规则管理导入导出系统参数数HBASE分词索引自动过滤关系分析自动摘要加工层自动重拍智能学习统计分析自动纠错采集层采集抓取采集规划采集过滤采集分析信息层数据库信息图1 系统架构图2关键技术分析2.1基于电网专业词库切词目前中文分词方法已经相对成熟,工程应用中通常采用jieba分词工具包。但是,该工具包内置词典是在人民日报语料库中训练得到的,无法处理电力调度这类专业性很强的数据。依靠人工建立基于电网专业词库显然不可取 3。本文采用基于隐马尔可夫模型(HMM)的新词发现和分词算法。隐马尔可夫模型 4是一个模型组,分别定义了状态值集合Q=(q 1,q 2,,q),观测值集合V=(U 1,U 2,,U
12、m),转移概率矩阵A=ai,发射概率矩阵B=b;(k),以及初始状态分布元。本文将状态集合Q设置为(B,E,M,S),分别表示句子的开始、结束、中介以及独立词。中文分词的目的在于对应解码问题求解最大概率,即maxP(ti.,tnI ci,c,)其中,ti表示字符C对应的状态。使用Viterbi算法求解状态序列,利用状态序列的最优路径满足在时刻t状态为i的概率最大值为(i),得到递推公式:(2)8t+i(i)=max8,(j)aijb(o+1)其中,0+1 即为字符ci+1。基于统计机器学习的分词方法2 根据人工标注好分词结果的语料,对电力调度数据进行建模,在分词阶段通过模型计算各种分词结果出现
13、的概率,将概率最大的分词结果作为最终结果。与早期基于字符串匹配的分词方法2 相比,基于统计机器学习的分词方法融入了更多语言的背景知识,因基金项目而可以取得更精准的分词效果。基于词的生成式模型对词典中已有的词选择较准确,而基于字的判别式模型可根据汉语构词规律,识别词典中没有的词语。本文的分词系统采两者之长并进行有效结合。2.2信息抽取技术实体抽取模块负责从非结构化的文本(用户向机器人发来的文字信息)中抽取出结构化的、机器能够理解的信息,为后期进行的意图处理提供参数 5。同时为了让机器做到理解,实体理解模块将实体转换为“机器语义”一机器可以表示和利用的变量、对象或者方法。“实体抽取”服务可获取时间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 调控 平台 信息化 智能 搜索 技术
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。