基于Transformer和重要词识别的句子融合方法.pdf

上传人：自信****多点

文档编号：634589

上传时间：2024-01-19

格式：PDF

页数：6

大小：696.19KB

《基于Transformer和重要词识别的句子融合方法.pdf》由会员分享，可在线阅读，更多相关《基于Transformer和重要词识别的句子融合方法.pdf（6页珍藏版）》请在咨信网上搜索。

1、第卷第期计算机应用与软件年月基于和重要词识别的句子融合方法谭红叶，李飞艳（山西大学计算机与信息技术学院山西太原）（山西大学计算智能与中文信息处理教育部重点实验室山西太原）收稿日期：。国家重点研发计划重点专项项目课题（）；国家自然科学基金项目（）；山西省研究生联合培养基地人才培养项目（）。谭红叶，副教授，主研领域：人工智能，自然语言处理。李飞艳，硕士生。摘要句子融合是为多个句子生成言简意赅、符合语法的句子，可应用到自动摘要、复述生成等自然语言处理任务。目前句子融合方法已取得一定成效，但还存在重要信息缺失、语义偏离原句等问题。该文提出基于和重要词识别的方法来缓解上述问题。该方

2、法包括两个模块，（）重要词识别模块：利用序列标注模型识别原句重要词；（）句子融合模块：将重要词与原句输入到框架并利用进行语义表示，然后在全连接层引入基于原句和词表获得的向量作为先验知识进行句子融合。基于摘要任务集构建句子融合数据集，并进行相关实验，结果表明所提方法的性能明显优于基线系统。关键词句子融合重要词文本生成中图分类号文献标志码：，（，）（，），（）（），引言文本生成是指给定文本或非文本输入，输出流畅、连贯且符合要求的文本。句子融合是一种典型的文本到文本的生成任务，旨在为给定的一组相关句子（或一个比较长的句子）生成一个较短的概括性句子，且保留其中的重要信息。句子融合与文本摘要

3、有类似之计算机应用与软件年处，但也有区别。主要区别包括：（）输入不同，句子融合的输入为一个或多个句子，而文本摘要的输入为单文档或多文档。一般来说后者输入句子数多于前者，因此后者压缩率大于前者。（）目标不同，句子融合侧重于去除相关句子的冗余信息，生成简短的句子，而文本摘要旨在获得概括篇章内容的多个句子。（）句子融合可以作为文本摘要的一个中间技术。如：在抽取式摘要中，句子融合可以将其结果作为输入，进一步融合后，得到更为灵活紧凑的摘要。句子融合的具体示例如图所示。可以看出，融合句不仅剔除了冗余和不重要的信息，而且生成了原句中未出现过的词。如：示例中的融合句剔除了原句中“中新网月日电”“妻

4、子王洪涛反映”等不重要的短语，同时生成了“网曝”“绥化”和“检方”等新词。从示例可以看出融合句结构与原句也有不同。原句：“中新网月日电据安县人民政府网站消息，年月日上午，新浪微博出现一则庆安县公安局经刑侦大队副大队长姚永军的妻子王洪涛反映其利用职务之便，贪污受贿、实施家暴的视频。目前已被停职，庆安县人民检察院已介入调查。”标准融合句：“网曝绥化庆安刑侦大队副大队长利用职务之便，贪污受贿、实施家暴，目前已被停职，检方介入调查。”原句：“人民网：北京月日电今天，记者从中国铁路总公司获悉，自月日起，中国铁路客户服务中心网站支付宝账户支付服务功能上线试运行，旅客网购火车票新

5、增一种支付方式。”标准融合句：“人民网：网站明日起新增支付宝支付服务功能。”图句子融合示例目前，由于句子融合相关的数据集规模小，句子融合方法主要为基于无监督的方法。如，文献中使用了词图方法，从原句复制重要信息片段到融合句。等提出了一种基于句法树的方法，通过使用整数线性规划将句子压缩任务视为优化问题。但由于上述方法未考虑上下文信息和句子结构，生成的融合句缺乏重要信息或有语法错误。有监督的文本生成的主流方法是基于神经网络的编码器解码器框架。在编码器解码器框架基础上，文献提出复制机制，将原句的重要词和关系复制到摘要句，以确保生成的结果包含原句重要信息。文献提出一种新颖的机制对句子进

6、行编码，并设计了一个独立的显性选择网络管理信息流，来区分并强调原句重要信息。然而，这些方法还不能令人满意，主要表现在生成的文本不包含重要信息，或者用词偏离原句语义。为了解决上述问题，本文采用架构，利用多头注意力机制学习文本的长距离依赖关系，并结合重要词识别模块进行句子融合。该方法主要包括两个模块：重要词识别模块与句子融合模块。其中，重要词识别模块利用序列标注模型识别原句重要词；句子融合模块将重要词与原句输入框架，利用进行语义表示，并在全连接层引入基于原句和词表获得的向量作为先验知识生成融合句。该模型通过重要词识别模块加强了模型对重要词的理解与关注，并且通过引入先验知识，确保融合过程中包

7、含更多原句中的词，使得结果与原句语义一致。此外，本文还基于会议上的单文档摘要评测数据集，利用相似度计算方法获得了一定规模的汉语句子融合数据集（大约包含多个样例）来训练模型。相关实验表明，本文所提模型性能明显优于基线系统。相关工作关于句子融合。由于可获得的句子融合数据集规模较小，因此大多数研究都使用无监督的方法。如：文献提出了简单的词图方法，从不同的输入语句中复制片段并将它们连接起来形成最终句子。在此基础上，研究者尝试使用多种策略（如关键短语重新排名）改善词图方法。为了改善融合后句子的语法合理性及新词包含率，文献通过无监督手段引入语义一致的句子对来训练神经网络模型，具体思想为：首先利用

8、词图方法产生粗粒度压缩文本，然后用较短的同义词替换压缩文本中的词产生新句子，最后利用所获得的语义一致的句子对（，）训练神经网络模型。关于文本生成。现有的主流文本生成方法主要采用基于序列到序列（）的基本框架。在此基础上，一些研究者通过使用注意力机制来选择重要词，如：文献在基于的生成模型中引入结构，将句子固定结构特征作为潜在向量并采用作为生成框架来解决推理生成问题。也有研究者引入复制机制来获取句子重要信息，如：等采用结构注入复制机制将原句重要词和依赖关系复制到目标句子。随着的出现，研究者尝试在框架上引入获得了更好的系统性能。如：等在目标数据集上调整预训练的获得文档的输入表

9、示，并与解码器相结合完成生成任务，获得了比之前模型更好的性能。然而，基于的方法仍存在一些局限，如：生成的融合句未包括原句重要信息，或者偏离原句内容。关于相关数据集。目前关于句子融合的大规模数第期谭红叶，等：基于和重要词识别的句子融合方法据集较少，且多为英文数据集。较早的句子融合数据集来自于摘要系统的新闻报道并由人标注产生，共包含个样例。文献从新闻专线中使用基于计数重叠的简单贪婪方法来对齐句子，构建了融合句摘要句对形式数据集（约个样例）。文献为了探索有监督的句子融合方法，通过制定一些规则从摘要任务数据集构造了个样例。等在大规模新闻语料上，通过提取每篇文章的第一句

10、和标题并经过数据清理，来获得句子和标题对作为句子融合的训练语料。方法任务定义要句子融合可以形式化定义为：给定个句子的集合，按照式（）生成一个保留原始句子集重要信息的简短句子。（）（）本文提出了一种基于和重要词识别的句子融合方法。该方法的模型总体架构如图所示，主要包括句子重要词识别和句子融合两个模块。其中，重要词识别模块利用序列标注模型识别原句重要词；句子融合模块将重要词与原句作为框架的输入，利用进行语义表示，并在全连接层引入基于原句和词表获得的向量作为先验知识生成融合句。图本文的句子融合模型框架句子重要词识别为了使模型更好地捕捉原句重要信息，本文引入句子重要词的相关概念，

11、并基于模型进行句子重要词的识别。句子重要词是反映句子重要语义信息的词，具体识别时以同时出现在原句与融合句中的实词（主要指：名词、动词和形容词）为判别依据。本文将句子重要词识别任务看作序列标注问题，并通过式（）来刻画。（）（）式中：，为输入句子的词序列，为输出的最优标注序列。其中的标记为、。代表该词为重要词，反之则为。具体采用模型来识别，具体如图左部的模块。该模型包括表示层、层和层。其中，表示层将句子中的每个词表示为词向量；层负责将词向量作为输入对句子建模，同时更好地捕捉长距离依赖关系；层为标签预测添加一些约束来保证预测标签的准确性，并输出句子中每个词的标签得分以获得最优标签序列的概率

12、。句子融合句子融合模块采用框架（等）实现编码与解码。该模块首先对输入句子集利用获得字的上下文语义表示，（为输入字序列的长度）。具体操作时，在输入序列的首部添加标记，在每个句子末尾添加标记。然后，将语义表示（）与位置嵌入（）、段嵌入（）拼接形成输入的向量表示。其中，段嵌入用来标识原句和融合句，对应原句，对应融合句。上述语义表示向量经过层得到第层的向量表示（），其中，为总层数。在每层块中，使用多头自注意力机制聚合上一层输出向量。对于第层，通过式（）式（）计算自注意力的输出。其中，、为参数矩阵，为向量的维数，为掩码矩阵。，（）可见不可见（）槡()（）需要注意的

13、是，本文使用的掩码矩阵允许原句的字从前后两个方向计算注意力值，而融合句的字只能对（）及之前的字，以及原句的字计算注意力值。计算机应用与软件年此外通过分析发现融合句中的很多词都在原句中出现，所以，本文增加了全连接层，实现先验知识的融合，使模型在解码输出时更倾向于选用原句中的词。具体实现方法如下：根据原句词在预测词表中是否出现可以得到一个大小为的向量（，），（，分别表示相应词在原句出现或未出现），然后向量经过缩放平移层得到向量，向量再与模块的输出取平均，最后进行得到预测概率。缩放平移层计算式为：（，）（）式中：和为训练参数。损失函数对于重要词识别任务和句子融合任务，使用交叉熵函数

14、作为句子融合模型训练的损失函数，其计算式为：（）（）式中：表示真实结果；表示模型预测结果。实验与结果分析数据集如本文第节所述，目前已公开的句子融合数据集主要为英文数据集，但规模都较小。对于中文来说，几乎没有公开的句子融合数据集。本文基于会议的中文单文档摘要评测任务数据集构建了句子融合数据集。该评测数据集共包含个篇章摘要形式的样例，且摘要中包含一些原文没有出现的词。其中的篇章为今日头条中文新闻文本，涉及的主题有体育、食品、娱乐、政治、科技、金融等。在该数据集的基础上，我们按照如下方法构建了句子融合数据集和句子重要词识别的数据集。句子融合数据集。对于每个篇章摘要样例，首先按标点符号将摘

15、要句切分为短句，然后用两个句子中的共现词数与句子长度之和的比值来度量其相似度，其计算式为：（，）（）（）（）式中：表示第个句子的词集合；表示词；表示第个句子的长度。然后，选择原文最相似的句子构成该摘要句的待融合句子集，从而形成原句融合句（摘要句）形式的样例。通过去重、剔除词重叠率小于的样例，最终得到条数据。其中，训练集条，验证集条，测试集条。本文从新词率、原词率和压缩率等方面对句子融合测试集进行了分析。其中，新词率指融合句中新词（未出现在原句的词）在原句的占比；原词率指融合句中的原词（出现在原句的词）在原句的占比；压缩率指融合句长度与原句长度之比。具体结果如表所示，从原词率、

16、新词率、压缩率可以看出融合过程中，部分原词被保留，大部分冗余信息被删除，同时包含未在原句出现的词，表明句子融合任务不是简单地去除冗余信息，还需要生成一些新的词语。表句子融合测试集相关分析比率项新词率原词率压缩率句子融合句子重要词识别数据集。在句子融合数据集上，通过对比原句与融合句中重叠的实词自动标注获得重要词数据集。具体过程为：如果原句中的实词出现在融合句中，则标注为，否则为。训练集、验证集和测试集的比例与句子融合数据集相同。实验设置与评价指标对于句子重要词识别，模型参数设置为：词向量维度为，隐藏层数为，隐藏层单元个数为，词的最大长度为，批次大小为，学习率为，训练轮，优化

17、函数为。对于句子融合，为了节省计算量，对词表进行精简，词表规模。模型其他参数设置为：字向量维度为，隐藏状态大小为，具有个注意力头。根据对数据集的分析，句子长度都比较短，故将文本输入的最大长设为，输出的最大长度设为。批处理大小为，学习率设为，训练轮，优化函数为。重要词识别评价指标。利用精确率、召回率和值来评价重要词识别情况。句子融合评价指标。对模型生成的融合句，使用、和指标进行自动评估。是通过计算标准融合句和生成的融合句之间的最大公共子序列的统计量，来评价生成的融合句所含的信息量。通过统计生成的融合句与标准的融合句之间的匹配片段的个数，来评价生成的融合句的合理性与流畅

18、性。句子融合的基线系统由于句子融合是很多生成式摘要系统的重要子任务，所以本文采用性能比较好的摘要生成系统作为对第期谭红叶，等：基于和重要词识别的句子融合方法比基线系统。（）模型。该模型面向摘要生成基于深度递归模型学习目标摘要中隐含的结构信息，同时采用作为生成框架来解决推理生成问题，以提高摘要质量。（）模型。该模型在基于框架的摘要系统中引入复制机制，将重要词和句法依赖关系从原句复制到摘要句，提升了系统性能。（）模型。该模型是融合了自然语言理解和自然语言生成能力的统一框架，其核心是通过特殊的来实现不同的语言模型。本文没有专门与文献中所提基于架构的模型进行对比是因为本文实

19、验是在基于框架的上进行改进，已包含该框架的对比结果。根据相应文献来源找到对应模型代码，将实验数据换为本文实验所用数据，实验其他设置与原论文保持一致。本文系统基于模型结合任务特点进行了改进，实现了较好的实验结果。结果分析句子融合结果分析句子融合的具体实验结果如表所示。表句子融合结果（）模型先验知识句子重要词句子重要词先验知识从表可以看出，本文所提方法同其他方法相比获得了最好性能。当“”模型中同时加入先验知识以及句子重要词时，值提升了约，值提升了约，、也有明显提升，而且加入句子重要词提升效果比加入先验知识更明显，表明如果模型可以正确识别句子的重要信息，就可以得到更准确、

20、流畅的结果。当模型中仅加入先验知识时，、和也有改进，表明先验知识的引入在一定程度上可以提升句子融合的质量。此外，还发现“”模型比“”模型、“”模型的效果要好，表明“”模型拥有更强大的学习能力。本文从实验结果中随机抽取了条数据进行分析，部分数据如图所示。原句：“中新网月日电据安县人民政府网站消息，年月日上午，新浪微博出现一则庆安县公安局经刑侦大队副大队长姚永军的妻子王洪涛反映其利用职务之便，贪污受贿、实施家暴的视频。目前已被停职，庆安县人民检察院已介入调查。”标准融合句：“网曝绥化庆安刑侦大队副大队长利用职务之便，贪污受贿、实施家暴，目前已被停职，检方介入调查。”：“安庆庆安县公安局

21、经刑侦大队副大队长姚永军妻子王洪涛被举报，其妻子王洪涛已被刑拘，检方已介入调查。”先验知识：“庆安县公安局经刑侦大队长妻子王洪涛贪污受贿、实施家暴，目前，庆安县检察院已介入调查。”先验知识句子重要词：“庆安刑侦大队副大队长利用职务之便，贪污受贿、实施家暴，目前已被介入调查。”原句：“人民网：北京月日电（记者孝金波）今天，记者从中国铁路总公司获悉，自月日起，中国铁路客户服务中心网站支付宝账户支付服务功能上线试运行，旅客网购火车票新增一种支付方式。”标准融合句：“人民网：网站明日起新增支付宝支付服务功能。”：“铁路客户服务中心网站支付宝账户支付服务功能上线试运行，旅客网购火车票新增

22、一种支付方式。”先验知识：“自月日起，中国铁路客户服务中心网站支付宝账户支付功能上线试运行，新增一种支付方式。”先验知识句子重要词：“网站新增支付宝支付服务功能。”原句：“中新网月日电：据外媒报道，星期日泰晤士报日发布年度富豪榜，出生在乌克兰的布拉瓦特尼克成为英国首富。伊丽莎白女王的财富增长万英镑至亿英镑，但却首次跌出了该国的富豪前强。”标准融合句：“英国公布年度富豪榜：乌克兰裔商人亿英镑居首，女王亿英镑，首次跌出前。”：“英国发布年度富豪榜，出生在乌克兰的布拉瓦特尼克成为英国首富，但首次跌出该国富豪前强。”先验知识：“英国首富布拉瓦特尼克成英国首富，伊丽莎白女王

23、财富增长万英镑至亿英镑，但首次跌出该国富豪前强。”先验知识句子重要词：“英国富豪榜：乌克兰女王成英国首富，女王财富亿英镑，但首次跌出前强。”图句子融合的结果示例从结果的整体上看，加入先验知识和句子重要词识别两个模块后，在一定程度上改善了融合句子的准确性和流畅性。例如，在示例中，“先验知识”模型输出句子中有更多的词来源于原句；“句子重要词先验知识”模型比“先验知识”模型更准确地识别到了原句重要信息，输出的句子更接近于标准融合句。然而，模型的输出还存一些局限。如示例中，由计算机应用与软件年于句子中出现多个实体词：“出生在乌克兰的布拉瓦特尼克”和“伊丽莎白女王”，本文模型输出

24、了错误的实体匹配结构，导致融合的句子质量变差。所以，对于出现多个同类实体的情况，还需要进一步进行研究和改进。句子重要词识别原句重要词识别实验结果如表所示。表句子重要词识别结果（）方法实验结果显示模型识别的精确度更高。本文在采用算法时，在句子中过滤掉停用词，只保留指定词性的词，迭代得到每个词的权重，根据原句子和融合句子的原词率（见表），本文选取前（，其中为句子的长度）个权重较大的句子重要词。在此过程中，并未考虑句子结构信息，导致标注了部分不重要的词。对于模型，其考虑了句法信息，以及融合句与原句子的交互信息。从结果数据看，该模型结果虽有提升，但还不理想。所以，提升句子重要词的预测能力将是下一步研究重点。结语为了解决句子融合后存在重要信息缺失、语义偏离原句等问题，本文提出了一种基于和重要词识别的句子融合方法。该方法主要分为两个模块：句子重要词识别模块负责识别原句的重要信息；句子融合模块基于原句重要信息和先验知识生成融合句。实验结果表明，模型取得了较好效果。然而模型还存在一些局限，如：未能准确获取句子中的实体匹配关系导致融合结果不够好；词语特征构建不充分引起句子重要词识别还不够理想。未来，我们将加强句子重要信息的识别与句子语义关系分析，进一步提升句子融合效果。参考文献：，：，：，（）：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Transformer 重要识别句子融合方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。