![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于预训练模型和多视角循环神经网络的电力文本匹配模型.pdf
《基于预训练模型和多视角循环神经网络的电力文本匹配模型.pdf》由会员分享,可在线阅读,更多相关《基于预训练模型和多视角循环神经网络的电力文本匹配模型.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 卷第 期重庆邮电大学学报(自然科学版).年 月 ().:./.基于预训练模型和多视角循环神经网络的电力文本匹配模型收稿日期:修订日期:通讯作者:赵 伟 .基金项目:国家自然科学基金()国家重点研发计划资助项目():()()赵 伟王文娟甘玉芳(.重庆邮电大学 国际合作与交流处重庆.国网重庆市电力公司信息通信分公司 调控中心重庆.国网重庆市电力公司信息通信分公司 技术发展部重庆)摘 要:针对传统方法未能考虑词向量的动态性及句子间交互不充分等问题提出基于 预训练模型及多视角循环神经网络的文本匹配模型 通过 方法对 输出的句向量进行线性变换优化并利用多视角循环神经网络将两句子不同位置的 动态词向量
2、进行双向交互计算将句向量与词粒度交互向量进行融合后计算结果 实验结果表明提出的模型相较于对比模型有明显性能提升实用性良好关键词:预训练模型多视角循环神经网络模型文本匹配电力运维系统中图分类号:文献标志码:文章编号:()(.):.:引 言文本匹配的主要目标是正确判断两段自然语言形式的文本的语义是否相关自动问答、信息检索、人机对话、问题复述等各类自然语言处理任务均可抽象为该问题 文本匹配技术在电力领域具有重要应用价值 随着电力业务种类及规模不断增长电力运维系统日益复杂对电力运维业务的效率要求也随之大幅提升 运维人员受理运维问题时可利用文本匹配技术从专业知识库中根据运维请求检索出解决方案快速应对运维
3、问题 运维项目管理者可以利用文本匹配技术来对运维服务项目进行项目匹配计算避免运维项目重复立项等问题从而提升运维服务精益化管理水平神经网络模型目前已成为文本匹配领域的主要模型 其中基于 网络架构的模型使用相同的神经网络(如 或)对两个句子进行编码然后基于编码向量表示来计算语义匹配度 为了更好地关注到体现句子含义的单词有研究还将注意力机制引入到模型结构中取得了较好的效果 上述研究由于在编码过程中两个句子没有进行交互而单个向量往往不能很好地表示句子语义因而某些匹配信息可能被忽略 为解决这类模型存在的问题一些研究采用基于比较聚合架构的模型来进行文本匹配这类模型通过比较词、短语、句子等不同级别的向量表示
4、再聚合比较结果来进行文本匹配 例如文献在词粒度级别上提出 匹配模型文献提出一种词对交互模型该模型首先从两个序列中抽取词语对再使用相似性焦点层和多层 聚合这些单词比较的结果尽管这些研究取得了良好的进展然而还存在以下问题)多数模型采用 或 词向量作为网络模型的输入同一个词在不同上下文语境下的词向量是固定的无法体现词向量表示的动态性 然而单词的含义与其所处的语义环境密不可分例如“这个苹果很好吃”和“苹果 的摄像头不错”这两句话中“苹果”的含义就大相径庭前一句话中“苹果”指的是一种水果后一句话指的是智能手机 因此要准确进行文本匹配就必须考虑单词的上下文)部分模型只关注了单个句子的注意力加权而忽略了两个
5、句子之间的交互还有部分模型虽然考虑了句子间的交互但对句子间的交互建模得不够充分未能融合不同粒度的交互信息从而导致丢失某些重要匹配信息针对以上问题本文提出了基于 预训练模型和多视角循环神经网络的文本匹配模型 该模型利用 获取句子表示向量并应用 方法来对句向量进行线性转换获得优化的句向量表示利用 获取句子中词汇的上下文词向量表示并应用多视角循环神经网络模型来对句子对进行双向交互最后聚合 句向量及词粒度交互向量后得到文本对的语义匹配度 在电力运维领域的两个真实数据集上通过与多种基于神经网络的文本匹配模型进行实验对比实验结果验证了本文模型在文本匹配任务上的有效性 此外本文模型在实际系统的应用中也有效提
6、升了电力运维服务效率 相关工作文本匹配任务在语义检索中具有重要作用早期研究主要基于特征工程来找出两句子的匹配关系 但特征工程方法不仅人工工作量大还存在泛化性差的问题在一个数据集上使用的特征很可能在另一个数据集上表现不好深度学习方法将特征抽取过程作为模型的一部分直接从原始数据中抽取特征不仅免去了手工设计特征的大量人工开销还可以根据训练数据的不同而将模型方便地适配到各种文本匹配任务当中因此深度学习被广泛应用到文本匹配领域 其中以 结构为代表的深度学习模型得到很好的发展如微软提出的 模型该模型通过全连接网络将查询语句和文档进行向量化表达简单匹配计算速度快是最早的深度文本匹配模型但 忽略了文本之间的时
7、序关系和空间关系微软研究院后续提出的 将 中的全连接神经网络层换为卷积池化结构提升了文本匹配效果 文献提出多视角循环神经网络()模型通过 获取句子不同位置的表示向量然后将两句子不同位置的表示向量交互计算得到匹配矩阵最后通过 最大池化和全连接网络得到匹配值除了基于 结构的序列匹配模型外基于比较聚合的匹配模型也受到了关注 这类模型通过捕捉两个序列之间更多的交互特征来进行文本匹配 如 基于问题和答案的向量序列得到 重 庆 邮 电 大 学 学 报(自然科学版)第 卷交互矩阵再将 网络作用于交互矩阵并且采用注意力加权方式来获得匹配模型 文献采用了一种动态剪辑注意力机制这种机制通过过滤权重较小的词来去除噪
8、声通过改变注意力计算方式提升答案选择的语义匹配模型性能在应用领域中有学者针对通信领域及医疗领域研究了文本匹配任务但目前在电力领域真实数据集上进行的文本匹配研究很少本文在这一领域进行了探索并将本文模型投入实际应用取得了良好的应用效果 模型介绍本文提出基于预训练模型及多视角循环神经网络的文本匹配模型模型结构如图 所示 本模型利用 预训练模型获取具有上下文语义的词向量及句向量用 方法对句向量进行线性变换操作用 模型对词向量计算文本对间的交互向量再对句向量及交互向量进行拼接后得到拼接向量将其送入 网络中进行优化然后在输出向量的基础上通过全连接网络和 操作得到结果.是 在 年提出的一个新型网络结构 不像
9、 只能获取局部信息也不像 需要逐步进行信息提取 通过自注意力机制能够直接获取文本序列的全局信息可以并行化操作提高训练效率因此被大量地使用在自然语言处理领域中促进了以 为代表的大规模预训练语言模型的发展图 模型结构图.第 期 赵 伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模型 中对句子的多头自注意力计算过程如()()式所示()()()()()()()()式中:表示 操作 表示 操作、分别表示句子的查询向量、键向量、值向量所组成的矩阵参数矩阵 表示向量拼接 表示最终的多头注意力输出向量 通过使用 结构的编码器模块并应用掩蔽语言模型和下一句预测两个无监督预测任务进行预训练能在大规模无监督
10、语料上训练获得强大的文本表征能力并获得词在不同语境下的含义 为了获得词在不同语境下的含义本文模型先使用 对文本中的词汇进行嵌入表述再得到句子序列的向量表示对某一句子序列而言本文获取词向量过程为 ()()()式中:表示 模型编码操作表示句子中的一个单词表示句子开头字符该标志对应的输出向量将作为整个句子的语义表示表示模型识别句子的边界 根据输入获得输出为 ()()式中表示每个词的上下文相关词向量 由多个 的编码器层组成其结构如图 所示图 模型结构图.图 中 表示 每一层的 由一个多头自注意力子层和一个全连接前馈神经网络子层组成并在这两个子层中加入残差连接和层标准化计算.方法 预训练模型在自然语言处
11、理中取得了巨大的成功 然而直接使用 模型中标记对应向量的句向量难以捕捉到句子的语义在文本相似度任务中表现不好 为了获得更好的句子向量表示本文采用 方法来对 模型输出的进行线性转换获得优化的句子向量表示句子向量间传统的余弦相似度值计算公式为()()方法认为 句向量用余弦相似度值来计算句子相似度时表现不好可能是由于句向量所属的坐标系并非标准正交基因而需要对原始的句子向量进行转换以强制使其具有各向同性 考虑到标准正态分布的各向同性特性而且标准正态分布均值为、协方差矩阵为单位矩阵因此设句向量集合为 方法将句向量矩阵进行线性变换使变换后的句向量矩阵 的均值为、协方差矩阵为单位阵 线性变换公式为 ()()
12、的求解公式为 ()为了求矩阵 将的原始协方差矩阵表示为 ()()()则可以得到转换后的协方差矩阵为 ()新的协方差矩阵是单位矩阵因而有 ()进而有 ()()()协方差矩阵 是一个正定对称矩阵满足 分解为 ()重 庆 邮 电 大 学 学 报(自然科学版)第 卷()式中:是一个正交矩阵 是一个对角矩阵对角线元素均为正 因此令 可得 ()方法的算法流程如算法 所示算法 算法输入:句向量集合.计算的 和.计算().计算().().输出:转换后的句向量集合.双向交互计算对于文本匹配这样的序列匹配问题之前的工作常常将两个待匹配的序列通过同种网络编码为两个向量再依据这两个向量计算匹配度但这种方式在整个编码过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 训练 模型 视角 循环 神经网络 电力 文本 匹配
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。