基于CoSENT的航空装备领域问句相似度匹配算法.pdf
《基于CoSENT的航空装备领域问句相似度匹配算法.pdf》由会员分享,可在线阅读,更多相关《基于CoSENT的航空装备领域问句相似度匹配算法.pdf(6页珍藏版)》请在咨信网上搜索。
1、舰 船 电 子 工 程2023 年第 9 期1引言随着军事装备信息化的高速发展,装备配套相关技术保障文档大量增加,战场形势瞬息万变,如何高效地利用这些非结构化文本,快速检索到需要的信息,对提升装备使用和维护效率、掌握战场主动权具有重要意义。传统的信息检索通常采取基于关键词匹配的方式,这种方式没有考虑到用户语义表述的多样性,常常无法准确地理解用户意图1。近年来,基于深度学习的自然语言处理技术快速发展,通过使用深度学习模型考虑文字的上下文信息,产生向量化的语义表示,可以更加准确地表示文本语义。基于文本语义表示的文本匹配技术是实现智能问答的关键技术2,这类方法通常使用文本对作为知识来源,通过文本相似
2、度匹配将用户输入的检索项与知识库中存储的文本进行匹配,是目前工业界实现智能问答系统的主要方式之一34。随着深度学习的发展,使用深度学习模型进行文本相似度匹配是当前的主流研究方向,主要分为特征式和交收稿日期:2023年3月23日,修回日期:2023年4月20日作者简介:翟一琛,男,硕士研究生,研究方向:自然语言处理。顾佼佼,男,博士,讲师,研究方向:深度学习技术。刘涛,男,硕士,讲师,研究方向:兵种战术。姜文志,男,博士,教授,研究方向:武器装备与作战指挥一体化。基于CoSENT的航空装备领域问句相似度匹配算法翟一琛顾佼佼刘涛姜文志(海军航空大学烟台264001)摘要针对航空装备使用和保障人员获
3、取信息效率低的问题,将文本相似度匹配技术引入航空装备维修保障问答领域,结合规则模板、生成模型等方法生成相似问句,提出一个航空装备维修保障领域问句相似度数据集;融入外部信息知识,通过领域词典识别问句对中的关键词,对CoSENT(Cosine Sentence)模型引入关键词注意力机制和特征交互机制提升模型性能。在自建数据集和讯飞文本相似度数据集上进行验证,与基准模型CoSENT相比,论文方法的Spearman相关系数分别提升了2.3%和1.7%。关键词航空装备维修文本;深度学习;文本相似度;CoSENT;注意力机制中图分类号TP391.3DOI:10.3969/j.issn.1672-9730.
4、2023.09.030Similarity Matching Algorithm of Equipment MaintenanceQuestions Based on CoSENTZHAI YichenGU JiaojiaoLIU TaoJIANG Wenzhi(Naval Aviation University,Yantai264001)AbstractAiming at the problem of low efficiency in obtaining information for aviation equipment users and support personnel,the t
5、ext similarity matching technology is introduced into the field of aviation equipment maintenance support question answering.Combining with the rule template and generation model to generate similar questions,a similarity data set of questions in aviation equipment maintenance field is proposed.Exte
6、rnal information knowledge is integrated into model,keywords in sentence pairsare identified through domain dictionaries.In addition,keyword attention mechanism and feature interaction mechanism are introduced into the model to improve the performance of CoSENT(Cosine Sentence).It is verified on the
7、 self-built data set and IFLYTEK text similarity data set.Compared with the benchmark model CoSENT,the Spearman correlation coefficient of this method is increased by 2.3%and 1.7%respectively.Key Wordsaviation equipment maintenance text,deep learning,text similarity,CoSENT,attention mechanismClass N
8、umberTP391.3总第 351 期2023 年第 9 期舰 船 电 子 工 程Ship Electronic EngineeringVol.43 No.9145总第351期互式两类方式56。特征式指输入的两个句子分别通过编码器获得句向量表示再进行相似度匹配,文献 7 提出的InferSent模型是典型的特征式模型,文中验证了将两路句向量进行拼接等操作后作为输入分类器的特征可以有效提升文本匹配模型的性能。文献 8 提出 Sentence-BERT模型,验证了使 用 BERT(Bidirectional Encoder Representationfrom Transformers)9预训练
9、模型作为特征抽取器可以有效提升模型性能。交互式指将两个句子进行拼接后再输入模型,这种方式使得文本在模型内可以进行更多的交互,模型性能一般较特征式更好,缺点是无法提前存储计算好的缓存向量,在检索场景下的效率较差。文献 10 提出交互式文本匹配模型ESIM,表明了通过构建匹配矩阵进行句子间交互的有效性。文献 11 借鉴卷积神经网络(Convolutional Neural Networks,CNN)处理图像的原理,提出 MatchPyramid 模型,通过 CNN 提取句子间的相似度矩阵特征,达到融合特征表示,提升模型性能的目的。将知识库问答技术应用到垂直领域面临诸多困难,在数据集构建方面,现有研
10、究大多基于社区问答数据自动构建1214。对于垂直领域下非结构化文本内容的问句对构建,通常需要组织行业专家针对文档内容人工提出问题,在问答系统启动初期,人工标注工作量大。为此,本文提出一种面向航空装备领域技术文档的问句对构建方法。首先,针对文档行文特点,对文档内各级标题采取规则模板和SimBERT15生成模型进行问句生成,然后使用语义相似的关键词替换方法扩充数据集,调整数据集正负比例,减轻人工标注工作量。考虑特征式模型在检索场景下的优点和数据集规模小的问题,使用基于预训练BERT的特征式文本相似度匹配模型 CoSENT作为基准模型。通过关键词注意力机制引入外部领域词典知识指导模型训练;同时针对特
11、征式模型缺乏句对间交互的问题,加入交互机制进一步提升模型性能。2命名实体识别模型2.1CoSENT模型BERT 是一种基于多层双向 Transformer 编码器的预训练语言模型,可以生成融合上下文信息的句子表征。通常采取预训练加微调的训练方式,首先 在 大 量 无 监 督 数 据 上 进 行 掩 码 语 言 模 型(Masked Language Model,MLM)和 下 一 句 预 测(Next Sentence Prediction,NSP)训练,之后结合具体的任务在少量标注数据上进行微调,这种训练方式使得BERT具有较强的泛化能力,即使在小数据集上进行训练也能取得良好的性能。SBER
12、T(Sentence-BERT)模型将BERT引入到孪生网络结构中,利用BERT生成更有效的句子嵌入用于文本相似性度量任务,模型结构如图 1 所示。基于SBERT模型改进的CoSENT模型16主要针对原模型训练与预测不一致的问题,对模型的损失优化部分进行了改进,由原来先特征拼接再连接Softmax分类器输出类别,优化分类损失的方式,改为直接优化句子对间的余弦距离,模型结构如图2所示,损失计算公式为log(1+(ijpos(kl)neg)e(cos(ukul)-cos(uiuj)(1)其中(ij)pos,(kl)neg,pos为正样本集合,neg为负样本集合,uk、ul、ui、uj分别为正样本对
13、和负样本对的句向量表示,为超参数。图1Sentence-BERT模型结构图图2CoSENT模型结构图2.2SimBERT模型Seq2Seq17指的是给模型输入一段文本后,模型会输出另一段文本,Seq2Seq模型一般采用编码器-解码器结构,编码器将输入文本编码为固定大小的向量,解码器将这个向量以自回归的方式进行解码,生成对应的文本。BERT模型在提出时用于进行自然语言理解任务,其核心Transformer18编码器采用双向自注意力机制,对于输入的句子,句子中每个词之间都是可见的,无法用于自然语言生成任务。微软提出通过构建如图3所示的特殊的注意力掩码矩阵,将BERT模型改造为可以进行自然语言生成任
14、务的统一预训练语言模型(Unified Lan翟一琛等:基于CoSENT的航空装备领域问句相似度匹配算法146舰 船 电 子 工 程2023 年第 9 期guage Model,UniLM)19。SimBERT 是一种以 BERT 模型为基础的融合检索与生成于一体的模型,与BERT模型相比,其具有文本生成能力的核心就是使用了UniLM中的Seq2Seq 训练方式。训练 SimBERT 生成相似问句首先需要收集大量的相似问句对,同一相似问句对在输入模型时通过 SEP 进行分割,之后对输入语句使用特殊的注意力掩码矩阵,这种形式的注意力掩码矩阵使得 SEP 之前的字符之间实现了双向注意力,SEP 之
15、后的字符之间实现了单向注意力,从而使得模型具有递归的预测后半句的能力。图3UniLM模型的注意力掩码矩阵2.3关键词注意力机制与交互式模型相比,特征式模型由于缺乏对句子间的特征融合,模型无法更加有效地关注文本中的关键信息,本文借鉴文献 20 提出的关键词自注意力机制,利用外部领域关键词知识指导模型训练。自注意力机制可以计算句子内部字符之间的相关性,本文首先通过对文本输入X=x1.xn使用领域词典W进行关键词识别,之后构建关键词掩码矩阵作用在关键词掩码自注意力层上,强制模型关注句子中的关键词。其表达形式如下:u=MASK(u)=0u1m1.unmn(2)SelfAttention(u)=Soft
16、max(Wqu()WkuTdkWvu)(3)其中u=uclsu1un为 BERT 层的输出向量,MASK=0m1.mn,mi=1 xiW0 xiW为关键词掩码矩阵,WQ、WK、WV都是可学习的参数矩阵,dk为输入向量的维度。改进后的模型整体结构如图4所示,句子1、2通过的网络均共享权重。首先,句子按字符粒度输入到BERT模型中,BERT模型输出包含上下文信息的语义表示,其中 CLS 向量作为句子原始的整体信息直接送入特征拼接层,其余每个字符的输出向量送入关键词掩码自注意力层。在关键词掩码矩阵的作用下,句子内的关键词进行注意力交互,之后输出向量至池化层进行特征的进一步提取,两路池化层的输出向量之
17、间进行特征拼接与交互,与Sentence-BERT、InferSent等特征式模型不同,CoSENT模型直接对句子表示的余弦相似度进行优化,所以在进行特征拼接和交互后,特征向量仍应保持句子表示的相对独立性,即拼接后的特征向量仍然可以表示该输入语句的语义信息。图4融合关键词注意力机制的CoSENT模型147总第351期3实验验证3.1数据集构建自建数据集来源于航空行业IETM相关技术手册中的PDF文档,根据文档文本的行文特点,首先使用PDF文本抽取技术和正则表达式匹配的方法提取文档内所有的标题,根据标题的层级关系,建立常见问句模板将标题关键词扩充成句,然后使用在2200万个问句对数据集上预训练的
18、SimBERT模型自动生成大量相似问句,生成示例如表1所示。人工挑选出表达通顺的句子并判断相似或不相似,根据此方法标注数据集共2463条。利用SimBERT生成的相似问句多数与原句语义相似,数据集会出现正负比例不均衡的现象。通过随机替换、随机删除等方法生成的负例与真实标注相差较大,使得数据集噪声过大,训练效果差。本文使用领域词典对句子中的关键词进行识别,并在与关键词同类型的词语中选择字面不同但语义相关的词语进行替换,通过此方法生成的负样例更难区分,更接近真实负例,有助于模型训练。语义相似度使用在所有语料上训练的Word2Vec21模型进行计算,本文选取相似度大于0.8但小于0.9的词语进行相似
19、词替换,生成负样本示例如表1所示。表1文本生成示例源文本SimBert生成文本负样例生成轮胎的使用维护如何进行?轮胎的维护方法有哪些?轮胎怎样维护?轮胎有哪些维护方式?使用维护轮胎的步骤是什么?如何进行轮胎的使用维护?轮胎检查器的使用维护如何进行?机轮轮毂的使用维护如何进行?轮毂的使用维护如何进行?机轮的使用维护如何进行?轮胎的检查与检验如何进行?在非结构化文本数据上,通过这种方式生成数据集不需要人工生成问句,只需要进行选择,减轻了人工标注的工作量。最终得到4000对相似问句对数据集,数据集平均文本长度为17,最大文本长度为42,问句对正负比例为1.25 1,按6 2 2划分为训练集、验证集和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CoSENT 航空 装备 领域 问句 相似 匹配 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。