一种基于全局和局部特征表示的关键词抽取算法.pdf
《一种基于全局和局部特征表示的关键词抽取算法.pdf》由会员分享,可在线阅读,更多相关《一种基于全局和局部特征表示的关键词抽取算法.pdf(12页珍藏版)》请在咨信网上搜索。
1、一种基于全局和局部特征表示的关键词抽取算法祖弦1,谢飞1,2*(1.合肥师范学院计算机学院,安徽合肥230601;2.合肥师范学院安徽省电子系统仿真重点实验室,安徽合肥230601)摘要:为解决传统关键词算法易忽略文档上下文语义信息,以及单词重要的统计特征未在深度学习方法中得到充分利用等问题,提出一种基于全局和局部特征表示的关键词抽取算法.首先,利用 Transformer 和卷积神经网络搭建深度学习模型,通过多头注意力机制计算单词的全局语义特征表示,并利用每个单词的词性和词频统计特征信息,与语义特征拼接融合得出单词的特征向量表示;然后,采用多层卷积神经网络融合空洞卷积神经网络高效捕获单词局部
2、特征信息和单词间依赖关系;最后,将关键词抽取工作看成序列标注任务抽取最终关键词.通过在两个公开语料库上的多项调参和对比实验,证明提出的算法效果优于现有的主流关键词抽取算法,在 Inspec 和 kp20k 数据集上的 F1 值分别达到了 49.87%和 35.77%,有效提高了关键词自动抽取结果的准确性.关键词:关键词抽取;Transformer 模型;卷积神经网络;空洞卷积神经网络;多头注意力;全局语义信息中图分类号:TP391.1文献标志码:A文章编号:02587971(2023)04082512关键词是最能代表文档主题的重要性词语,关键词抽取技术可以帮助人们从大量数据中迅速找出有用信息,
3、实现对海量资源的高效智能化检索,尤其针对一些未提供关键词的文本或网络新闻,可以使读者迅速了解文章的核心含义.目前关键词抽取技术在诸多场景有着重要应用,如推荐系统、用户的兴趣挖掘、文档的自动分类1、信息检索2、社区问答系统3等.因此,关键词抽取算法研究在自然语言处理领域具有非常重要的研究和应用价值.现有的关键词抽取算法分为有监督方法和无监督方法.有监督方法需要大量带有人工标注关键词的训练文档,并融入词性、词频和首次出现位置等重要特征信息训练分类器,这类方法的缺点是训练及抽取关键词的过程需要耗费大量的人力和时间,同时对语料库进行人工标注的主观性和准确性均直接影响抽取效果.无监督方法主要通过结合多项
4、文本特征信息对每个候选词语进行打分排名,其中最著名的无监督方法是基于图的方法,它根据窗口内单词之间的共现度构建图,通过 PageRank 算法对候选单词进行排名4.基于图的方法有两个主要缺陷:在对文档构建图模型时,图更着重于表达两个词语间的共现程度,体现的上下文信息量非常有限,也无法描述同一单词在不同句子中的不同含义;抽取过程忽略了文本的顺序性,这不利于表现单词间的联系.近年来,深度学习模型被用于关键词抽取任务,以获取文档中单词的上下文语义信息,在从短文本中提取关键词时取得了良好的效果.这类方法通常与传统方法相结合,采用深度神经网络架构学习单词的 Embedding 嵌入信息,将嵌入结果与图模
5、型结合完成抽取任务5.虽然赋予了传统的图模型语义方面的特征信息,但却忽略了文本的顺序信息.另外,有学者将关键词抽取看成是序列标注任务,虽收稿日期:2022-07-05;接受日期:2022-10-09;网络出版日期:2022-10-26基金项目:国家自然科学基金(61503116);安徽省高校自然科学研究(KJ2021A0902);安徽省级科研平台专项(2020PT15).作者简介:祖弦(1990),女,安徽人,讲师,主要研究自然语言处理.E-mail:.*通信作者:谢飞(1980),男,安徽人,教授,主要研究数据挖掘、模式识别、自然语言处理.E-mail:.云南大学学报(自然科学版),2023
6、,45(4):825836JournalofYunnanUniversity:NaturalSciencesEditionDOI:10.7540/j.ynu.20220337然可以有效获取单词的上下文信息,但丢失了重要的统计特征,如词性、词频等.因此,为解决上述问题,本文在关键词抽取过程中综合考虑文本的全局语义特征信息和窗口内单词的局部特征信息,提出一种基于全局和局部特征表示的关键词抽取方法.新方法主要利用Transformer6和多层卷积神经网络7构建深度神经网络学习架构.首先,为了解决传统有监督模型和图算法中易忽略单词上下文语义关系及单词间顺序性的问题,利用 Transformer 充分获
7、取单词的语义向量表示.其次,为了解决现有基于深度学习方法易丢失单词各类统计特征信息的问题,新算法计算出每个单词的词性和词频两个统计特征的向量表示,并融合在上述阶段获得的语义向量和统计特征向量,作为下一步多层卷积网络的训练输入;另外在多层卷积网络模型的选择上,采用普通卷积加空洞卷积相结合的方式,这样使神经网络模型更容易学习和捕获窗口内单词更多的局部特征信息和单词间依赖关系.最后,在抽取关键词阶段,将关键词抽取工作看成是序列标注任务来抽取最终关键词.本文主要贡献有以下 3 点:(1)提出了一种新的关键词抽取算法,利用Transformer 和多层卷积神经网络搭建深度学习模型,可以有效捕获文本上下文
8、语义信息和单词局部特征表示信息,不仅解决了在传统关键词抽取算法中忽略词语间语义联系的问题,还能利用单词重要的统计特征信息来提高抽取效率.(2)在模型训练过程中,研究如何让抽取模型学习获得更全面的单词局部特征信息,提出利用多层空洞卷积网络扩大窗口内单词的特征表示.另外还解决了如何统一各类特征信息分布于不同向量表示空间的问题.(3)通过多项消融和调参实验,证明了该方法的有效性和可靠性;并在两个公开语料库上进行了对比实验,证明了本算法效率优于现有的主流关键词抽取算法.1相关工作1.1传统的关键词抽取方法传统的关键词抽取方法包括两大类:有监督方式和无监督方法8.有监督方法将关键词提取任务看作是一项二元
9、分类问题(关键词或者非关键词),该类方法融合词语的各类特征信息,使用预先标记的样本数据训练一个最优分类模型,用于判断候选短语是否为关键词.有监督方法在训练过程中需要设计一个分类器,如朴素贝叶斯分类器9、决策树分类器10、逻辑回归分类器11等.另外,从实验效果来看,有监督方法的提取效果通常优于无监督方法.无监督方法由于不需要人工标注的预训练数据,因此更容易实现.此类方法的抽取过程首先根据词性组成规则从文档中选取候选词语,接着由不同的提取算法对候选词进行打分,最后根据提名选取得分较高的候选词作为关键词.各类无监督方法的区别在于其对候选词打分规则的不同,通常将无监督方法分为基于统计、基于图和基于主题
10、的方法.最早对无监督关键词抽取方法的研究是基于统计的方法,主要关注对文档中单词的统计信息(如词频、词性、位置等)进行处理,抽取过程中需要对不同的特征值进行量化衡量.如 KP-miner 算法12在对候选词计算词频和逆向文档频率值的时候,对候选词的挑选规则进行了限制,并加入位置特征信息提高抽取效率.另外还有些学者不再局限于仅仅统计词语的特征信息,在抽取算法中加入文档级别的特征信息13.随着 TextRank4的出现,学者们开始研究基于图模型的关键词抽取算法14-15.TextRank 对一篇文档建立图模型,图中顶点代表单词,边代表词的共现关系,再根据 Google 的 PageRank 算法评估
11、各个节点的重要性.后续研究对基于图模型的算法改进主要体现在 3 个方面:对构图规则的改变,比如节点代表的不再是单个单词,可以替换成词组,或是根据某些规则筛选后的单词;对边的权重赋值的改变,边代表的是两个顶点之间的关联度,比如将单词间的语义相似度作为权重值;对PageRank 算法的计算规则的改变,如改变每个节点初始权重的赋值.例如 Bellaachia 等针对推特文章的非正式及噪音多等特点提出 NE-Rank 算法16,认为在计算图中结点排序权重时应该同时考虑本结点权重和边的权重.Florescu 等17提出的 PositionRank 算法根据位置信息改变 PageRank中节点的初始值,使
12、出现位置靠前且出现次数多的词语,成为关键词的概率更大.Biswas 等18在计算图中节点重要性时,通过融合位置、邻居结点、与中间结点距离等多方面因素提高关键词抽取826云南大学学报(自然科学版)http:/第45卷效果.另外,很多学者尝试在图中融入主题信息提高关键词抽取效率19-20,例如 Liu 等21提出 TopicalPageRank 方法在算法中融入 LDA 主题模型,图模型首先在不同主题下给边赋予不同的权重值,再利用 PageRank 算法计算每个主题下单词的分值,最后结合主题分布信息计算单词得分.Sterckx 等22在计算单词重要性分值时考虑了该单词与主题的概率向量和文档本身同主
13、题的概率向量的相似性问题.Bougouin 等23提出 TopicRank 算法将候选词分成不同的主题簇,在构造词图模型时,顶点是代表不同主题的主题簇.1.2基于深度学习的关键词抽取方法目前深度学习方法广泛应用于图像和语音处理等领域,在自然语言处理领域也成为一大研究热点.随着Embedding 嵌入技术24-26的出现,文本的不同组成部分如段落、句子、单词和短语均可被映射成低维空间的不同语义相关向量27-28.EmbedRank29同时计算文档与候选词在同一个向量空间中的语义相似度,并选取相似度较高的候选词作为关键词.还有一部分学者研究如何将 Embedding 技术融入传统图模型30-31中
14、改进关键词抽取效果,例如,GKE 算法32将单词与文档的语义相似度作为图模型中每个单词的初始权重,用随机游走算法计算每个候选单词的得分并进行排名.另外,学者们也开始研究如何利用深度学习模型完成关键词抽取任务,如 BERT(BidirectionalEncoderRepresentationfromTransformers)33、LSTM(LongShort-TermMemory)、RNN(RecurrentNeuralNetwork)等.例如,针对 Tweets 文章的长度限制问题,Zhang 等34通过搭建一个基于多层 RNN 架构的深度学习框架捕获更多的文本上下文语义信息,从而解决从单个较
15、短文本中提取关键词的局限性问题.在此基础上,部分学者还将关键词抽取问题看成是一个序列标注任务35-36.Alzaidy 等37提出Bi-LSTM-CRF 模型,利用模型中的 Bi-LSTM 组件获取上下文语义信息,CRF 组件获取句子级的标签信息.为了解决有监督方法需要大量人工标注语料库的问题,Zhu 等38在神经网络模型中引入了自训练方法,从而可以利用更多未标注的文章.二维或者三维卷积神经网络(ConvolutionalNeuralNetworks,CNN)具备较强的局部特征提取能力,目前已广泛应用于图像处理领域,而一维卷积神经网络更偏向于处理时序数据的特征提取和预测,由于文本数据的顺序性,
16、陆续有学者开始研究将一维卷积用于文本处理领域39-40,可将文本数据看成是类似一维的时间序列或一维图像,通过在 CNN 的卷积层中设置不同卷积核大小提取不同的特征信息,因此采用一维 CNN 模型更容易捕获相邻单词间的特征关联信息.综上研究不难发现,传统的有监督算法预先需要大量人工标注语料库,费时耗力;在无监督方法中,基于统计的算法缺乏单词语义信息,仅依赖文本统计特征进行抽取工作;基于图和主题的方法忽略了单词间的上下文语义关系和重要的统计特征信息,以及自然语言文本的顺序特征,从而导致关键词抽取效果不理想;现有流行的基于深度学习的方法更看重文本语义特征,忽略文本浅层的统计特征和顺序性,从而影响了抽
17、取效果.因此,为解决以上各类算法缺陷,本文提出一种新的基于深度学习模型的关键词抽取算法,另外为提高抽取效率,对每个单词的特征表示进行了研究.算法采用Transformer 和卷积神经网络相结合搭建系统总体框架,具体来说采用 Transformer 来学习文本的全局上下文语义信息,同时融合每个单词的统计特征信息,作为相应单词的特征表示.我们认为一个单词的重要性不仅与这个词本身有关,还与相邻若干窗口内的单词有着密切联系,因此单词的局部特征直接影响着最终结果,而卷积网络的作用正在于能有效利用文本的局部特征信息.为了获取有限窗口内更多的相邻单词的特征信息,在算法模型中引入了空洞卷积41,空洞卷积通过调
18、整正常卷积层中卷积核的间隔数量,在降低计算量的同时扩大特征捕捉区域,获取更多的局部特征信息.最终算法模型综合以上文本全局语义信息和单词局部特征信息进行训练学习得出最终关键词.2基于全局和局部特征表示的关键词抽取算法本文提出一种新的基于全局和局部特征表示的关键词抽取算法,设计了一个前馈神经网络架构,系统层次架构包括以下几个部分:全局特征抽取组件,主要结合单词的语义特征表示和统计特征表示,获取输入文本的特征表示向量,并解决不同维度空间的各类向量表示映射至同一空间;局部特征抽取组件,利用一维卷积和一维空洞卷积神经网第45卷祖弦等:一种基于全局和局部特征表示的关键词抽取算法827络共同完成对单词的局部
19、特征提取任务;输出组件,通过训练学习,预测单词是否属于关键词.算法模型整体架构图如图 1 所示.2.1全局特征抽取组件本文算法在全局特征抽取组件中获取输入文本中单词的各类特征向量表示,主要包括语义特征和统计方面特征.用文本中连续离散的单词进入全局特征抽取组件,利用多层双向 Transformer 模型得到每个单词的词向量嵌入表示,其结构如图 2 所示,图中最低层表示在训练时每个单词的输入向量,图 2 的右边展开部分是 Transformer 的编码器(Encoder)结构.当输入向量进入编码器之后,首先会经过一个注意力机制层,使用注意力机制可以增强长距离特征捕获能力,以提取句子级别的语义特征信
20、息.注意力机制采用缩放点积注意力(ScaledDot-productAttention)和多头注意力(Multi-headAttention)两个部分组成,缩放点积注意力计算如下:A(Q,K,V)=softmaxQKTdkV,(1)QKVdkQK式中:、代表输入序列的查询向量序列、键向量序列和值向量序列,为 和中的向量维度.接着多头注意力进行分头操作,然后对每个头进行缩放点积注意力计算,最后再对每个头进行拼接.M(Q,K,V)=Concat(h1,h2,hm)WO,(2)hi=AHWQi,HWKi,HWVi,(3)HWQiWKiWViQKVm式中:是句子向量,、分别代表、的线性变换权重,是多头
21、注意力中头的个数,图1本文算法的模型架构图Fig.1Modelarchitecturediagramoftheproposedalgorithm图2多层 Transformer 模型Fig.2Multi-layertransformermodel828云南大学学报(自然科学版)http:/第45卷ConcatWO代表拼接,是多头注意力机制的权重矩阵.通过自注意力层使编码器对每个单词进行编码时可以查看其前后上下文信息,进行残差归一化处理.接下来将在注意力机制层得到的结果传入一个全连接的前馈神经网络,同样进行残差归一化处理后得到最终的输出.Transformer 模型在训练过程中通过考虑每个单词与
22、句子中其他单词的相互关系,动态表示每个词的特征向量,使最终得到的向量表示不仅包含单词本身的语义,还包含了与上下文其他单词的语义联系.不难看出,Transformer赋予了不同位置的同一个单词不一样的特征向量表示.由于关键词一般是由名词和形容词组成14,并且常在文中多个位置出现,因此在本文算法中,就单词的统计特征而言,我们认为词语在单篇文档中的重要性由词频和词性两个方面特征来决定的.PiiTi首先,对于单词的词性特征,以往的关键词抽取算法通常在预处理阶段会将高频却无用的停用词删去,并且认为候选词是只有形容词和名词的组合词组.因此本文算法也会对单词进行词性标注,将每个单词的词性映射成一个 M 维的
23、嵌入向量.其次,由于文档中有些副词或停用词出现的次数会比较多,因此在统计单词的词频信息时不能只是简单地计算某个单词在文中的出现频次.算法中计算的是 TF-IDF 值,它的核心思想是一个词的重要程度与它在单篇文档中的出现次数成正比,但与它在语料库中的出现次数成反比.跟前者词性特征向量表示不同,TF-IDF 的向量表示维度只有一维,不存在将离散数值映射转换成向量的操作,而是利用文档和语料库信息直接计算所得.每个单词 的 TF-IDF 值 计算公式如下:Ti=fi,djfj,dlog|N|ni+1,(4)fi,didjfj,ddfi,djfj,d|N|nii式中:表示统计单词 在文档 中重复出现的次
24、数;表示文档 中所有单词出现次数的总和,由于语料库不同文本的长度不一致,需要对进行标准化处理,因此将其除以;是语料库中包含的文档总数;为语料库中包含单词 的文档数.i基于上述计算所得每个单词 的语义特征向量EiPiTiXi、词性特征向量、词频的向量表示,根据公式(5)计算得出每个单词的特征向量表示.Xi=Ei+Pi+Ti,(5)式中:“+”表示向量的拼接.通过实验我们发现,不同类型特征的向量表示空间并不相同,且影响算法抽取效果,为解决这一问题,我们在输入层的最后增加了两个线性层对不同的向量空间进行了统一化处理,首先利用第一个线性层将单词的特征向量表示映射到同一个高维空间,实验中将此维度设为 3
25、000,接着利用第二个线性层进行降维处理,将单词的向量维度降低至最初的维度,并将此结果作为下一层隐藏层的输入向量.2.2局部特征抽取组件我们认为,对于固定长度的序列文本,单词不仅仅与全文具有语义相关性,还同相邻的若干个单词有着高度相关性,因此在图 1 中的局部特征抽取组件中,设计了一个包含多层卷积的深度前馈神经网络,完成对单词局部特征的学习表征.CNN 能同时完成特征提取和识别分类两大任务,传统的 CNN 网络架构通常包括卷积层、池化层和全连接层,具体如下:(1)卷积层完成特征提取功能,为避免训练过程中网络参数过多,采用稀疏连接,从而降低模型复杂度.另外为减少训练时过拟合情况发生,通过使用权值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 全局 局部 特征 表示 关键词 抽取 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。