基于Transformer和重要词识别的句子融合方法.pdf
《基于Transformer和重要词识别的句子融合方法.pdf》由会员分享,可在线阅读,更多相关《基于Transformer和重要词识别的句子融合方法.pdf(6页珍藏版)》请在咨信网上搜索。
1、第 卷第 期计算机应用与软件 年 月 基于 和重要词识别的句子融合方法谭红叶,李飞艳(山西大学计算机与信息技术学院山西 太原 )(山西大学计算智能与中文信息处理教育部重点实验室山西 太原 )收稿日期:。国家重点研发计划重点专项项目课题();国家自然科学基金项目();山西省研究生联合培养基地人才培养项目()。谭红叶,副教授,主研领域:人工智能,自然语言处理。李飞艳,硕士生。摘要句子融合是为多个句子生成言简意赅、符合语法的句子,可应用到自动摘要、复述生成等自然语言处理任务。目前句子融合方法已取得一定成效,但还存在重要信息缺失、语义偏离原句等问题。该文提出基于 和重要词识别的方法来缓解上述问题。该方
2、法包括两个模块,()重要词识别模块:利用序列标注模型识别原句重要词;()句子融合模块:将重要词与原句输入到 框架并利用 进行语义表示,然后在全连接层引入基于原句和词表获得的向量作为先验知识进行句子融合。基于 摘要任务集构建句子融合数据集,并进行相关实验,结果表明所提方法的性能明显优于基线系统。关键词句子融合重要词 文本生成中图分类号 文献标志码 :,(,)(,),()(),引言文本生成是指给定文本或非文本输入,输出流畅、连贯且符合要求的文本。句子融合是一种典型的文本到文本的生成任务,旨在为给定的一组相关句子(或一个比较长的句子)生成一个较短的概括性句子,且保留其中的重要信息。句子融合与文本摘要
3、有类似之 计算机应用与软件 年处,但也有区别。主要区别包括:()输入不同,句子融合的输入为一个或多个句子,而文本摘要的输入为单文档或多文档。一般来说后者输入句子数多于前者,因此后者压缩率大于前者。()目标不同,句子融合侧重于去除相关句子的冗余信息,生成简短的句子,而文本摘要旨在获得概括篇章内容的多个句子。()句子融合可以作为文本摘要的一个中间技术。如:在抽取式摘要中,句子融合可以将其结果作为输入,进一步融合后,得到更为灵活紧凑的摘要。句子融合的具体示例如图 所示。可以看出,融合句不仅剔除了冗余和不重要的信息,而且生成了原句中未出现过的词。如:示例 中的融合句剔除了原句中“中新网 月 日电”“妻
4、子王洪涛反映”等不重要的短语,同时生成了“网曝”“绥化”和“检方”等新词。从示例 可以看出融合句结构与原句也有不同。原句 :“中新网 月 日电 据安县人民政府网站消息,年 月 日上午,新浪微博出现一则庆安县公安局经刑侦大队副大队长姚永军的妻子王洪涛反映其利用职务之便,贪污受贿、实施家暴的视频。目前已被停职,庆安县人民检察院已介入调查。”标准融合句:“网曝绥化庆安刑侦大队副大队长利用职务之便,贪污受贿、实施家暴,目前已被停职,检方介入调查。”原句 :“人民网:北京 月 日电 今天,记者从中国铁路总公司获悉,自 月 日起,中国铁路客户服务中心 网站支付宝账户支付服务功能上线试运行,旅客网购火车票新
5、增一种支付方式。”标准融合句:“人民网:网站明日起新增支付宝支付服务功能。”图 句子融合示例目前,由于句子融合相关的数据集规模小,句子融合方法主要为基于无监督的方法。如,文献 中使用了词图方法,从原句复制重要信息片段到融合句。等 提出了一种基于句法树的方法,通过使用整数线性规划将句子压缩任务视为优化问题。但由于上述方法未考虑上下文信息和句子结构,生成的融合句缺乏重要信息或有语法错误。有监督的文本生成的主流方法是基于神经网络的编码器 解码器框架。在编码器 解码器框架基础上,文献 提出 复制机制,将原句的重要词和关系复制到摘要句,以确保生成的结果包含原句重要信息。文献 提出一种新颖的 机制对句子进
6、行编码,并设计了一个独立的显性选择网络管理信息流,来区分并强调原句重要信息。然而,这些方法还不能令人满意,主要表现在生成的文本不包含重要信息,或者用词偏离原句语义。为了解决上述问题,本文采用 架构,利用多头注意力机制学习文本的长距离依赖关系,并结合重要词识别模块进行句子融合。该方法主要包括两个模块:重要词识别模块与句子融合模块。其中,重要词识别模块利用 序列标注模型识别原句重要词;句子融合模块将重要词与原句输入 框架,利用 进行语义表示,并在全连接层引入基于原句和词表获得的向量作为先验知识生成融合句。该模型通过重要词识别模块加强了模型对重要词的理解与关注,并且通过引入先验知识,确保融合过程中包
7、含更多原句中的词,使得结果与原句语义一致。此外,本文还基于 会议上的单文档摘要评测数据集,利用相似度计算方法获得了一定规模的汉语句子融合数据集(大约包含 多个样例)来训练模型。相关实验表明,本文所提模型性能明显优于基线系统。相关工作关于句子融合。由于可获得的句子融合数据集规模较小,因此大多数研究都使用无监督的方法。如:文献 提出了简单的词图方法,从不同的输入语句中复制片段并将它们连接起来形成最终句子。在此基础上,研究者尝试使用多种策略(如关键短语重新排名)改善词图方法 。为了改善融合后句子的语法合理性及新词包含率,文献 通过无监督手段引入语义一致的句子对来训练神经网络模型,具体思想为:首先利用
8、词图方法产生粗粒度压缩文本 ,然后用较短的同义词替换压缩文本中的词产生新句子 ,最后利用所获得的语义一致的句子对(,)训练神经网络模型。关于文本生成。现有的主流文本生成方法主要采用基于序列到序列()的基本框架。在此基础上,一些研究者通过使用注意力机制来选择重要词,如:文献 在基于 的 生成模型中引入 结构,将句子固定结构特征作为潜在向量并采用 作为生成框架来解决推理生成问题。也有研究者引入复制机制来获取句子重要信息,如:等 采用结构注入复制机制将原句重要词和依赖关系复制到目标句子。随着 的出现,研究者尝试在 框架上引入 获得了更好的系统性能。如:等 在目标数据集上调整预训练的 获得文档的输入表
9、示,并与 解码器相结合完成生成任务,获得了比之前模型更好的性能。然而,基于 的方法仍存在一些局限,如:生成的融合句未包括原句重要信息,或者偏离原句内容。关于相关数据集。目前关于句子融合的大规模数第 期谭红叶,等:基于 和重要词识别的句子融合方法 据集较少,且多为英文数据集。较早的句子融合数据集来自于 摘要系统的新闻报道并由人标注产生,共包含 个样例 。文献 从 新闻专线中使用基于 计数重叠的简单贪婪方法来对齐句子,构建了融合句 摘要句对形式数据集(约 个样例)。文献 为了探索有监督的句子融合方法,通过制定一些规则从摘要任务数据集构造了 个样例。等 在大规模新闻语料 上,通过提取每篇文章的第一句
10、和标题并经过数据清理,来获得句子和标题对作为句子融合的训练语料。方法 任务定义要句子融合可以形式化定义为:给定 个句子的集合 ,按照式()生成一个保留原始句子集 重要信息的简短句子。()()本文提出了一种基于 和重要词识别的句子融合方法。该方法的模型总体架构如图 所示,主要包括句子重要词识别和句子融合两个模块。其中,重要词识别模块利用 序列标注模型识别原句重要词;句子融合模块将重要词与原句作为 框架的输入,利用 进行语义表示,并在全连接层引入基于原句和词表获得的向量作为先验知识生成融合句。图 本文的句子融合模型框架 句子重要词识别为了使模型更好地捕捉原句重要信息,本文引入句子重要词的相关概念,
11、并基于 模型进行句子重要词的识别。句子重要词是反映句子重要语义信息的词,具体识别时以同时出现在原句与融合句中的实词(主要指:名词、动词和形容词)为判别依据。本文将句子重要词识别任务看作序列标注问题,并通过式()来刻画。()()式中:,为输入句子的词序列,为输出的最优标注序列。其中的标记为、。代表该词为重要词,反之则为 。具体采用 模型来识别,具体如图 左部的模块。该模型包括表示层、层和 层。其中,表示层将句子中的每个词表示为词向量;层负责将词向量作为输入对句子建模,同时更好地捕捉长距离依赖关系;层为标签预测添加一些约束来保证预测标签的准确性,并输出句子中每个词的标签得分以获得最优标签序列的概率
12、。句子融合句子融合模块采用 框架(等 )实现编码与解码。该模块首先对输入句子集利用 获得字的上下文语义表示 ,(为输入字序列的长度)。具体操作时,在输入序列的首部添加 标记,在每个句子末尾添加 标记。然后,将 语义表示()与位置嵌入()、段嵌入()拼接形成输入的向量表示。其中,段嵌入用来标识原句和融合句,对应原句,对应融合句。上述语义表示向量 经过 层 得到第 层的向量表示 (),其中 ,为 总层数。在每层 块中,使用多头自注意力机制聚合上一层输出向量。对于第 层 ,通过式()式()计算自注意力 的输出。其中,、为参数矩阵,为向量 的维数,为掩码矩阵。,()可见 不可见()槡()()需要注意的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Transformer 重要 识别 句子 融合 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。