分销赏收藏举报申诉 / 12

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 一种基于全局和局部特征表示的关键词抽取算法.pdf

一种基于全局和局部特征表示的关键词抽取算法.pdf

上传人：自信****多点

文档编号：757251

上传时间：2024-03-05

格式：PDF

页数：12

大小：1.90MB

《一种基于全局和局部特征表示的关键词抽取算法.pdf》由会员分享，可在线阅读，更多相关《一种基于全局和局部特征表示的关键词抽取算法.pdf（12页珍藏版）》请在咨信网上搜索。

1、一种基于全局和局部特征表示的关键词抽取算法祖弦1，谢飞1,2*(1.合肥师范学院计算机学院，安徽合肥230601；2.合肥师范学院安徽省电子系统仿真重点实验室，安徽合肥230601)摘要：为解决传统关键词算法易忽略文档上下文语义信息，以及单词重要的统计特征未在深度学习方法中得到充分利用等问题，提出一种基于全局和局部特征表示的关键词抽取算法.首先，利用 Transformer 和卷积神经网络搭建深度学习模型，通过多头注意力机制计算单词的全局语义特征表示，并利用每个单词的词性和词频统计特征信息，与语义特征拼接融合得出单词的特征向量表示；然后，采用多层卷积神经网络融合空洞卷积神经网络高效捕获单词局部

2、特征信息和单词间依赖关系；最后，将关键词抽取工作看成序列标注任务抽取最终关键词.通过在两个公开语料库上的多项调参和对比实验，证明提出的算法效果优于现有的主流关键词抽取算法，在 Inspec 和 kp20k 数据集上的 F1 值分别达到了 49.87%和 35.77%，有效提高了关键词自动抽取结果的准确性.关键词：关键词抽取；Transformer 模型；卷积神经网络；空洞卷积神经网络；多头注意力；全局语义信息中图分类号：TP391.1文献标志码：A文章编号：02587971(2023)04082512关键词是最能代表文档主题的重要性词语，关键词抽取技术可以帮助人们从大量数据中迅速找出有用信息，

3、实现对海量资源的高效智能化检索，尤其针对一些未提供关键词的文本或网络新闻，可以使读者迅速了解文章的核心含义.目前关键词抽取技术在诸多场景有着重要应用，如推荐系统、用户的兴趣挖掘、文档的自动分类1、信息检索2、社区问答系统3等.因此，关键词抽取算法研究在自然语言处理领域具有非常重要的研究和应用价值.现有的关键词抽取算法分为有监督方法和无监督方法.有监督方法需要大量带有人工标注关键词的训练文档，并融入词性、词频和首次出现位置等重要特征信息训练分类器，这类方法的缺点是训练及抽取关键词的过程需要耗费大量的人力和时间，同时对语料库进行人工标注的主观性和准确性均直接影响抽取效果.无监督方法主要通过结合多项

4、文本特征信息对每个候选词语进行打分排名，其中最著名的无监督方法是基于图的方法，它根据窗口内单词之间的共现度构建图，通过 PageRank 算法对候选单词进行排名4.基于图的方法有两个主要缺陷：在对文档构建图模型时，图更着重于表达两个词语间的共现程度，体现的上下文信息量非常有限，也无法描述同一单词在不同句子中的不同含义；抽取过程忽略了文本的顺序性，这不利于表现单词间的联系.近年来，深度学习模型被用于关键词抽取任务，以获取文档中单词的上下文语义信息，在从短文本中提取关键词时取得了良好的效果.这类方法通常与传统方法相结合，采用深度神经网络架构学习单词的 Embedding 嵌入信息，将嵌入结果与图模

5、型结合完成抽取任务5.虽然赋予了传统的图模型语义方面的特征信息，但却忽略了文本的顺序信息.另外，有学者将关键词抽取看成是序列标注任务，虽收稿日期：2022-07-05；接受日期：2022-10-09；网络出版日期：2022-10-26基金项目：国家自然科学基金（61503116）；安徽省高校自然科学研究（KJ2021A0902）；安徽省级科研平台专项（2020PT15）.作者简介：祖弦（1990），女，安徽人，讲师，主要研究自然语言处理.E-mail：.*通信作者：谢飞（1980），男，安徽人，教授，主要研究数据挖掘、模式识别、自然语言处理.E-mail：.云南大学学报（自然科学版），2023

6、,45（4）:825836JournalofYunnanUniversity:NaturalSciencesEditionDOI:10.7540/j.ynu.20220337然可以有效获取单词的上下文信息，但丢失了重要的统计特征，如词性、词频等.因此，为解决上述问题，本文在关键词抽取过程中综合考虑文本的全局语义特征信息和窗口内单词的局部特征信息，提出一种基于全局和局部特征表示的关键词抽取方法.新方法主要利用Transformer6和多层卷积神经网络7构建深度神经网络学习架构.首先，为了解决传统有监督模型和图算法中易忽略单词上下文语义关系及单词间顺序性的问题，利用 Transformer 充分获

7、取单词的语义向量表示.其次，为了解决现有基于深度学习方法易丢失单词各类统计特征信息的问题，新算法计算出每个单词的词性和词频两个统计特征的向量表示，并融合在上述阶段获得的语义向量和统计特征向量，作为下一步多层卷积网络的训练输入；另外在多层卷积网络模型的选择上，采用普通卷积加空洞卷积相结合的方式，这样使神经网络模型更容易学习和捕获窗口内单词更多的局部特征信息和单词间依赖关系.最后，在抽取关键词阶段，将关键词抽取工作看成是序列标注任务来抽取最终关键词.本文主要贡献有以下 3 点：（1）提出了一种新的关键词抽取算法，利用Transformer 和多层卷积神经网络搭建深度学习模型，可以有效捕获文本上下文

8、语义信息和单词局部特征表示信息，不仅解决了在传统关键词抽取算法中忽略词语间语义联系的问题，还能利用单词重要的统计特征信息来提高抽取效率.（2）在模型训练过程中，研究如何让抽取模型学习获得更全面的单词局部特征信息，提出利用多层空洞卷积网络扩大窗口内单词的特征表示.另外还解决了如何统一各类特征信息分布于不同向量表示空间的问题.（3）通过多项消融和调参实验，证明了该方法的有效性和可靠性；并在两个公开语料库上进行了对比实验，证明了本算法效率优于现有的主流关键词抽取算法.1相关工作1.1传统的关键词抽取方法传统的关键词抽取方法包括两大类：有监督方式和无监督方法8.有监督方法将关键词提取任务看作是一项二元

9、分类问题（关键词或者非关键词），该类方法融合词语的各类特征信息，使用预先标记的样本数据训练一个最优分类模型，用于判断候选短语是否为关键词.有监督方法在训练过程中需要设计一个分类器，如朴素贝叶斯分类器9、决策树分类器10、逻辑回归分类器11等.另外，从实验效果来看，有监督方法的提取效果通常优于无监督方法.无监督方法由于不需要人工标注的预训练数据，因此更容易实现.此类方法的抽取过程首先根据词性组成规则从文档中选取候选词语，接着由不同的提取算法对候选词进行打分，最后根据提名选取得分较高的候选词作为关键词.各类无监督方法的区别在于其对候选词打分规则的不同，通常将无监督方法分为基于统计、基于图和基于主题

10、的方法.最早对无监督关键词抽取方法的研究是基于统计的方法，主要关注对文档中单词的统计信息（如词频、词性、位置等）进行处理，抽取过程中需要对不同的特征值进行量化衡量.如 KP-miner 算法12在对候选词计算词频和逆向文档频率值的时候，对候选词的挑选规则进行了限制，并加入位置特征信息提高抽取效率.另外还有些学者不再局限于仅仅统计词语的特征信息，在抽取算法中加入文档级别的特征信息13.随着 TextRank4的出现，学者们开始研究基于图模型的关键词抽取算法14-15.TextRank 对一篇文档建立图模型，图中顶点代表单词，边代表词的共现关系，再根据 Google 的 PageRank 算法评估

11、各个节点的重要性.后续研究对基于图模型的算法改进主要体现在 3 个方面：对构图规则的改变，比如节点代表的不再是单个单词，可以替换成词组，或是根据某些规则筛选后的单词；对边的权重赋值的改变，边代表的是两个顶点之间的关联度，比如将单词间的语义相似度作为权重值；对PageRank 算法的计算规则的改变，如改变每个节点初始权重的赋值.例如 Bellaachia 等针对推特文章的非正式及噪音多等特点提出 NE-Rank 算法16，认为在计算图中结点排序权重时应该同时考虑本结点权重和边的权重.Florescu 等17提出的 PositionRank 算法根据位置信息改变 PageRank中节点的初始值，使

12、出现位置靠前且出现次数多的词语，成为关键词的概率更大.Biswas 等18在计算图中节点重要性时，通过融合位置、邻居结点、与中间结点距离等多方面因素提高关键词抽取826云南大学学报（自然科学版）http:/第45卷效果.另外，很多学者尝试在图中融入主题信息提高关键词抽取效率19-20，例如 Liu 等21提出 TopicalPageRank 方法在算法中融入 LDA 主题模型，图模型首先在不同主题下给边赋予不同的权重值，再利用 PageRank 算法计算每个主题下单词的分值，最后结合主题分布信息计算单词得分.Sterckx 等22在计算单词重要性分值时考虑了该单词与主题的概率向量和文档本身同主

13、题的概率向量的相似性问题.Bougouin 等23提出 TopicRank 算法将候选词分成不同的主题簇，在构造词图模型时，顶点是代表不同主题的主题簇.1.2基于深度学习的关键词抽取方法目前深度学习方法广泛应用于图像和语音处理等领域，在自然语言处理领域也成为一大研究热点.随着Embedding 嵌入技术24-26的出现，文本的不同组成部分如段落、句子、单词和短语均可被映射成低维空间的不同语义相关向量27-28.EmbedRank29同时计算文档与候选词在同一个向量空间中的语义相似度，并选取相似度较高的候选词作为关键词.还有一部分学者研究如何将 Embedding 技术融入传统图模型30-31中

14、改进关键词抽取效果，例如，GKE 算法32将单词与文档的语义相似度作为图模型中每个单词的初始权重，用随机游走算法计算每个候选单词的得分并进行排名.另外，学者们也开始研究如何利用深度学习模型完成关键词抽取任务，如 BERT（BidirectionalEncoderRepresentationfromTransformers）33、LSTM（LongShort-TermMemory）、RNN（RecurrentNeuralNetwork）等.例如，针对 Tweets 文章的长度限制问题，Zhang 等34通过搭建一个基于多层 RNN 架构的深度学习框架捕获更多的文本上下文语义信息，从而解决从单个较

15、短文本中提取关键词的局限性问题.在此基础上，部分学者还将关键词抽取问题看成是一个序列标注任务35-36.Alzaidy 等37提出Bi-LSTM-CRF 模型，利用模型中的 Bi-LSTM 组件获取上下文语义信息，CRF 组件获取句子级的标签信息.为了解决有监督方法需要大量人工标注语料库的问题，Zhu 等38在神经网络模型中引入了自训练方法，从而可以利用更多未标注的文章.二维或者三维卷积神经网络（ConvolutionalNeuralNetworks，CNN）具备较强的局部特征提取能力，目前已广泛应用于图像处理领域，而一维卷积神经网络更偏向于处理时序数据的特征提取和预测，由于文本数据的顺序性，

16、陆续有学者开始研究将一维卷积用于文本处理领域39-40，可将文本数据看成是类似一维的时间序列或一维图像，通过在 CNN 的卷积层中设置不同卷积核大小提取不同的特征信息，因此采用一维 CNN 模型更容易捕获相邻单词间的特征关联信息.综上研究不难发现，传统的有监督算法预先需要大量人工标注语料库，费时耗力；在无监督方法中，基于统计的算法缺乏单词语义信息，仅依赖文本统计特征进行抽取工作；基于图和主题的方法忽略了单词间的上下文语义关系和重要的统计特征信息，以及自然语言文本的顺序特征，从而导致关键词抽取效果不理想；现有流行的基于深度学习的方法更看重文本语义特征，忽略文本浅层的统计特征和顺序性，从而影响了抽

17、取效果.因此，为解决以上各类算法缺陷，本文提出一种新的基于深度学习模型的关键词抽取算法，另外为提高抽取效率，对每个单词的特征表示进行了研究.算法采用Transformer 和卷积神经网络相结合搭建系统总体框架，具体来说采用 Transformer 来学习文本的全局上下文语义信息，同时融合每个单词的统计特征信息，作为相应单词的特征表示.我们认为一个单词的重要性不仅与这个词本身有关，还与相邻若干窗口内的单词有着密切联系，因此单词的局部特征直接影响着最终结果，而卷积网络的作用正在于能有效利用文本的局部特征信息.为了获取有限窗口内更多的相邻单词的特征信息，在算法模型中引入了空洞卷积41，空洞卷积通过调

18、整正常卷积层中卷积核的间隔数量，在降低计算量的同时扩大特征捕捉区域，获取更多的局部特征信息.最终算法模型综合以上文本全局语义信息和单词局部特征信息进行训练学习得出最终关键词.2基于全局和局部特征表示的关键词抽取算法本文提出一种新的基于全局和局部特征表示的关键词抽取算法，设计了一个前馈神经网络架构，系统层次架构包括以下几个部分：全局特征抽取组件，主要结合单词的语义特征表示和统计特征表示，获取输入文本的特征表示向量，并解决不同维度空间的各类向量表示映射至同一空间；局部特征抽取组件，利用一维卷积和一维空洞卷积神经网第45卷祖弦等：一种基于全局和局部特征表示的关键词抽取算法827络共同完成对单词的局部

19、特征提取任务；输出组件，通过训练学习，预测单词是否属于关键词.算法模型整体架构图如图 1 所示.2.1全局特征抽取组件本文算法在全局特征抽取组件中获取输入文本中单词的各类特征向量表示，主要包括语义特征和统计方面特征.用文本中连续离散的单词进入全局特征抽取组件，利用多层双向 Transformer 模型得到每个单词的词向量嵌入表示，其结构如图 2 所示，图中最低层表示在训练时每个单词的输入向量，图 2 的右边展开部分是 Transformer 的编码器（Encoder）结构.当输入向量进入编码器之后，首先会经过一个注意力机制层，使用注意力机制可以增强长距离特征捕获能力，以提取句子级别的语义特征信

20、息.注意力机制采用缩放点积注意力（ScaledDot-productAttention）和多头注意力（Multi-headAttention）两个部分组成，缩放点积注意力计算如下：A(Q,K,V)=softmaxQKTdkV，(1)QKVdkQK式中：、代表输入序列的查询向量序列、键向量序列和值向量序列，为和中的向量维度.接着多头注意力进行分头操作，然后对每个头进行缩放点积注意力计算，最后再对每个头进行拼接.M(Q,K,V)=Concat(h1,h2,hm)WO，(2)hi=AHWQi,HWKi,HWVi，(3)HWQiWKiWViQKVm式中：是句子向量，、分别代表、的线性变换权重，是多头

21、注意力中头的个数，图1本文算法的模型架构图Fig.1Modelarchitecturediagramoftheproposedalgorithm图2多层 Transformer 模型Fig.2Multi-layertransformermodel828云南大学学报（自然科学版）http:/第45卷ConcatWO代表拼接，是多头注意力机制的权重矩阵.通过自注意力层使编码器对每个单词进行编码时可以查看其前后上下文信息，进行残差归一化处理.接下来将在注意力机制层得到的结果传入一个全连接的前馈神经网络，同样进行残差归一化处理后得到最终的输出.Transformer 模型在训练过程中通过考虑每个单词与

22、句子中其他单词的相互关系，动态表示每个词的特征向量，使最终得到的向量表示不仅包含单词本身的语义，还包含了与上下文其他单词的语义联系.不难看出，Transformer赋予了不同位置的同一个单词不一样的特征向量表示.由于关键词一般是由名词和形容词组成14，并且常在文中多个位置出现，因此在本文算法中，就单词的统计特征而言，我们认为词语在单篇文档中的重要性由词频和词性两个方面特征来决定的.PiiTi首先，对于单词的词性特征，以往的关键词抽取算法通常在预处理阶段会将高频却无用的停用词删去，并且认为候选词是只有形容词和名词的组合词组.因此本文算法也会对单词进行词性标注，将每个单词的词性映射成一个 M 维的

23、嵌入向量.其次，由于文档中有些副词或停用词出现的次数会比较多，因此在统计单词的词频信息时不能只是简单地计算某个单词在文中的出现频次.算法中计算的是 TF-IDF 值，它的核心思想是一个词的重要程度与它在单篇文档中的出现次数成正比，但与它在语料库中的出现次数成反比.跟前者词性特征向量表示不同，TF-IDF 的向量表示维度只有一维，不存在将离散数值映射转换成向量的操作，而是利用文档和语料库信息直接计算所得.每个单词的 TF-IDF 值计算公式如下：Ti=fi,djfj,dlog|N|ni+1，(4)fi,didjfj,ddfi,djfj,d|N|nii式中：表示统计单词在文档中重复出现的次

24、数;表示文档中所有单词出现次数的总和，由于语料库不同文本的长度不一致，需要对进行标准化处理，因此将其除以；是语料库中包含的文档总数;为语料库中包含单词的文档数.i基于上述计算所得每个单词的语义特征向量EiPiTiXi、词性特征向量、词频的向量表示，根据公式(5)计算得出每个单词的特征向量表示.Xi=Ei+Pi+Ti,(5)式中：“+”表示向量的拼接.通过实验我们发现，不同类型特征的向量表示空间并不相同，且影响算法抽取效果，为解决这一问题，我们在输入层的最后增加了两个线性层对不同的向量空间进行了统一化处理，首先利用第一个线性层将单词的特征向量表示映射到同一个高维空间，实验中将此维度设为 3

25、000，接着利用第二个线性层进行降维处理，将单词的向量维度降低至最初的维度，并将此结果作为下一层隐藏层的输入向量.2.2局部特征抽取组件我们认为，对于固定长度的序列文本，单词不仅仅与全文具有语义相关性，还同相邻的若干个单词有着高度相关性，因此在图 1 中的局部特征抽取组件中，设计了一个包含多层卷积的深度前馈神经网络，完成对单词局部特征的学习表征.CNN 能同时完成特征提取和识别分类两大任务，传统的 CNN 网络架构通常包括卷积层、池化层和全连接层，具体如下：（1）卷积层完成特征提取功能，为避免训练过程中网络参数过多，采用稀疏连接，从而降低模型复杂度.另外为减少训练时过拟合情况发生，通过使用权值

26、共享，减少参数，来提高训练优化效率，卷积结果的运算如下所示：xlj=f(conv(ks=1xjl1,wlsj)+blj)，(6)llkxljljwlsjlsjconvbljljf式中：表示第卷积层，是网络层数，表示第层第个神经元输出特征，是第层中第个神经元和第个神经元之间的权重变量，表示对输入变量和权重变量作卷积运算，为第层第个神经元的偏置项，是激活函数.（2）池化层利用特征降维完成特征选择功能，降低卷积层数据输出的特征维度，减少模型参数，防止过拟合.该层对卷积特征进行采样操作，一般包括平均池化和最大池化两种方式.（3）全连接层将前面获得的特征展平，完成下游回归或识别等任务.在

27、本文算法中，由于输入文本数据向量的维度不高，为防止特征数据信息的丢失，在训练过程中需要保持文本长度不变，因此删去池化层和全连接层，只需要卷积层帮助完成局部特征的提取.因此，第45卷祖弦等：一种基于全局和局部特征表示的关键词抽取算法829我们设计了一维多层卷积神经网络，主要包括了 1个卷积层和 2 个空洞卷积层，如图 1 中的局部特征抽取组件区域所示.模型利用卷积核以一定步长在文本上的顺序移动能有效提取这些局部区域内的特征信息.在一维卷积的工作过程中，可将卷积核看成一个固定大小的滑动窗口，并只沿着输入单词的方向按顺序移动，此时的卷积层可看成特征提取器.而空洞卷积网络通过调整卷积核的间隔数量，在降

28、低计算量的同时扩大特征捕捉区域，从而捕获更大范围内的局部特征信息.多层卷积网络实现细节如图 3 所示，在图 3 中，L 表示文本长度，每个卷积核尺寸设为 13，第一层卷积核的宽度设为 512，第二层卷积核的宽度设为128，第三层卷积核的宽度设为 50，所有卷积层的步长设为 1，由于需要提取每个单词的特征信息,两层空洞卷积的卷积核间隔数量都设为 2，因为如果设置间隔太远易丢失相关性较强的相邻单词间特征，影响实验结果.另外，不论哪一层都需要根据卷积核间隔对文本长度的首尾进行补齐操作，以保证经过卷积网络出来的文本长度保持不变.图3多层卷积网络实现细节Fig.3Implementationdetail

29、sofmulti-layerconvolutionalnetworks2.3输出组件与 2.1 小节介绍的两层线性层是用于统一不同向量表示空间的作用不同，本小节输出组件中线性层的作用可以看成分类器，对 2.1 小节和 2.2 小节提取的各类特征进行分类，即将所有从前面层获得的特征表示结果映射到样本标记空间.本文算法将关键词抽取看成是序列标注问题，通过线性层预测每个单词最有可能的类别.本文算法对所有单词的标记有 3 种类：B-Key、I-Key 和 O，其中 B-Key 标记着关键词最开始的单词，I-Key 标记关键词中除首个单词以外的所有单词，O 标记非关键词的单词.3实验结果与分析3.1实验

30、数据及评价标准为了保证实验结果的有效性、正确性和公平性，我们在两个公开语料库Inspec 和 kp20k 上进行实验.Inspec 语料库42由2000 篇英文科技论文的摘要部分组成，整个数据集分为训练集、验证集和测试集，分别为 1000、500篇和 500 篇.kp20k 语料库由 Meng 等43创建，该数据库由来自各种在线数字图书馆(如 ACM 数字图书馆、ScienceDirect等)的 567830 篇科学文章组成，分为 3 个集合：用于模型训练的包含 527830个文档的训练集，用于参数调优的包含 20000 个文档的验证集，用于模型评估的包含 20000 个文档的测试集.这两个数

31、据集的详细统计信息如表 1所示.表 1 中文本平均长度是指在不同的数据集中，统计单篇文档中所有单词的平均个数，人工标注关键词总数是指预先标注的正确关键词个数.两个语料库中的每篇文档都包括标题、摘要和正确标注的关键词.当算法提取关键词时，使用标题和摘要作为输入数据，而在评估算法结果时使用人工标注的关键词进行对比.实验中，我们使用830云南大学学报（自然科学版）http:/第45卷F1 值（F-Measure）作为评价指标来衡量所有模型的性能，其计算公式如下：P=算法预测正确的关键词数算法抽取的关键词总数,(7)R=算法预测正确的关键词数人工标注的关键词总数,(8)F1=2PRP+R,(9)式中：

32、P（Precision）代表准确率，指通过该算法抽取出正确的关键词与该算法抽取的所有关键词的比例；R（Recall）代表召回率，指通过该算法抽取出正确的关键词与全部人工标注的正确关键词的比例.3.2实验环境与工具本文算法所有代码基于Python3.7 和 Pytorch1.1.0，代码运行电脑内存为32GB，处理器为 IntelCorei7-9700KCPU3.60GHz8 核处理器和 GTX1080GPU，操作系统是Ubuntu16.04LTS.在预处理阶段，我们使用 NLTKToolKit 标记每个单词的词性.算法构建的神经网络第一层使用 Transformer 对单词提取全局特征信息，选

33、择采用 BERT 将文档中的离散单词转换为包含语义信息的向量表示.谷歌为不同的语言和不同的模型大小提供了各种预先训练好的 BERT 模型，实验中使用“bert-base-uncased”预训练模型训练每个单词，得到一个 768 维的单词嵌入向量.用于训练神经网络模型的优化器是 Adam44，初始学习率设置为3105，梯度裁剪设置为 1.0.此外，损失函数使用CrossEntropy，为了避免过拟合，dropout比率设置为 0.25.3.3消融实验及调参实验我们通过消融实验和特征参数调节实验，证明本文算法设计的网络架构的有效性及各类特征信息的有用性.首先，对模型的神经网络架构进行了消融实验，具

34、体来说，将本算法模型同只包含 Transformer架构、Transformer+1 层卷积、Transformer+3 层卷积（无空洞）、Transformer+1 层卷积+1 层空洞卷积、Transformer+1 层卷积+3 层空洞卷积等这 5 种架构模型进行了对比，在两个数据集上的实验结果如表 2 所示.表2在 Inspec 和 kp20k 上的消融实验结果Tab.2TheresultsoftheablationexperimentinInspecandkp20k网络模型架构F1/%Inspeckp20kTransformer+1层卷积+3层空洞卷积47.0933.64本文算法（本文算

35、法（Transformer+1层卷积层卷积+2层空洞卷积）层空洞卷积）49.8735.77Transformer+3层卷积47.8334.01Transformer+1层卷积+1层空洞卷积46.5132.16Transformer+1层卷积46.3331.98仅Transformer46.2431.13从表 2 可以看出，本文算法模型架构较其他架构而言，获得了最高的 F1 值，证明我们构建的深度神经网络架构对关键词抽取工作效率的提升有一定效果.以 Inspec 语料库实验结果为例，当网络架构中只剩 Transformer 时，F1 值降低了 3.63 个百分点，由于卷积层的主要作用是提取单词的

36、局部特征信息，说明算法融合单词的局部特征信息对抽取结果有帮助.另一方面，仅有 Transformer 的网络架构意味着我们只使用了文档的上下文语义关系，抽取效果同 3.4 节中其他主流关键词抽取方法相比依然有较大提升，这是由于 Transformer 强大的自注意力机制不仅能获取单词级别的有效语义表示信息，还能对句子级别和文档级别的语义表示有很好的学习能力.当 Transformer 对文本序列进行双向训练时，embedding 嵌入向量的层数较深导致可表征的函数空间足够大，每个单词的输出都能包含文档中其他单词的信息，因此极大地提高了模型抽取效率.实验结果还表明，本文算法与其他隐藏层中只有卷积

37、网络而不包括空洞卷积网络的模型相比，F1 值最高降低了 3.54 个百分点，最低降低了 2.04个百分点，证明了空洞卷积网络的有用性，因为空洞卷积通过扩大卷积核特征捕捉区域，进而提高更表1Inspec 和 kp20k 数据集详细统计信息Tab.1ThedetailedstatisticsofInspecandkp20kdataset数据集文本平均长度人工标注关键词总数Inspec(训练集)1409788Inspec(验证集)1314575Inspec(测试集)1344913kp20k(训练集)1472710067kp20k(验证集)147103123kp20k(测试集)147103247第45

38、卷祖弦等：一种基于全局和局部特征表示的关键词抽取算法831大范围内的局部特征提取效率.另外在表 2 中当模型中只有一层空洞卷积时，F1 值较本算法而言降低了 3.36 个百分点，说明 2 层空洞卷积网络较 1 层空洞卷积网络而言能捕获并利用窗口内更多的局部特征信息.然而并不是空洞卷积层越多越好，比如采用 3 层空洞卷积时，F1 值较本算法而言反而降低了 2.78 个百分点，这是因为空洞越多，来自上一层的相邻局部信息越少，而越远距离卷积获得的信息相关性联系越少，会干扰相邻词语间特征提取的训练结果.接下来，为了验证单词每一种统计特征的有效性，我们逐次往本文算法模型中增加一种新的统计特征，在两个数据

39、集上的实验结果如表 3 所示.从表 3 中不难发现，每加入一个新的统计特征，关键词抽取的效率都得到了提高，当同时采用二个统计特征（词性、词频）时，获得了最高的 F1 值.表3在 Inspec 和 kp20k 上调整不同统计特征的实验结果Tab.3TheresultsofadjustingdifferentstatisticalfeaturesinInspecandkp20k在算法模型中增加的统计特征F1/%Inspeckp20k无47.7831.99词性特征48.9433.52词性特征词性特征+词频特征词频特征49.8735.77另外，我们测试了统计特征信息的不同向量维度对算法结果的影响.由于

40、对词频特征的向量表示只有一维，因此只需要调整词性特征的向量维度，图 4 中折线代表不同的词性向量维度下模型性能的改变.从图 4 中发现，当维度设置为 40 的时候，F1 值达到了峰值，但增加词性维度时，反而降低了，说明维度增加并不一定能增强词性特征的重要性，这是因为关键词的词性一般只局限于名词和形容词的组合，关键词的正确词性范围较小，而过多的特征向量维度会使单词的向量表示分布比较离散，不能代表正确的特征信息.3.4与基本算法的对比实验我们选取了 8 种不同类型的主流关键词抽取算法，分别在两个公开数据集 Inspec 和 kp20k 上进行了对比实验，具体的对比算法及参数设置如下：（1）TF-I

41、DF基于统计的方法，主要利用词频特征抽取关键词；（2）TextRank4基于图的方法，采用词之间的相邻关系建立有权重的图模型，利用 PageRank 算法，窗口大小设置为 10，阻尼系数为 0.85；（3）TopicRank23基于图和主题的方法，图建模时将主题簇作为图中结点，实验中选择每个簇中离中心最近的词语作为最终结果；（4）SingleRank14基于图的方法，图中结点为名词或形容词，利用窗口内词之间的距离计算边的权重，窗口大小设置为 10，阻尼系数为 0.85；（5）PositionRank17基于图的方法，对图结点的初始赋值中加入位置信息，窗口大小设置为 10，阻尼系数为 0.85；

42、（6）EmbedRank29：基于深度学习的方法，利用嵌入技术将语义信息融入算法，权衡参数设置为 1.（7）Bi-LSTM37基于深度学习的方法，利用Bi-LSTM 架构将关键词抽取作为序列标注任务.（8）Bi-LSTM-CRF37基于深度学习的方法，利用 Bi-LSTM-CRF 模型选择关键词.由于语料库中正确标注的关键词一般在 10 个左右，因此上述对比的基线方法在实验中统一抽取 10 个关键词进行比较，实验结果如表 4 所示.从表 4 可以看出，在两个公开语料库上，本文算法相对于其他 8 种主流关键词算法，抽取性能均得到了较大地提升.实验中 TF-IDF 是基于简单统计词频的方法，忽略了

43、其他各类特征，导致抽取性能最差，在两个数据集上，本算法较 TF-IDF 而言，F1 值分别提高了 37.66 和 25.41 个百分点.通过实验发现，在抽取算法中融合多特征信息（如语义特征、统计特征）的思想比以往只依赖位置信息（如PositionRank）或主题信息（如 TopicRank）能获得更好的效果，比如在 Inspec 数据集上，本文算法较图4Inspec 中不同词性维度下的实验结果Fig.4Experimentalresultsunderdifferentdimensionofthepart-of-speechinInspecdatasets832云南大学学报（自然科学版）http

44、:/第45卷PositionRank 而言，F1 值增加了 24.29 个百分点，较 TopicRank增加了 25.16 个百分点.对于另外两个基于图的方法 TextRank 和 SingleRank 均利用图模型在算法中加入两个词语间的关联信息，在构图时忽略了语义层面的特征信息，而本文算法利用Transformer 模型充分考虑了文本的上下文语义信息，结果明显优于前两者，如在 Inspec 上，本文算法的 F1 值较 TextRank 方法增加了 31.53 个百分点，较 SingleRank 方法增加了 22.29 个百分点.由于EmbedRank 只计算了词语同文本间的语义相似度，忽略

45、了单词与单词间的局部语义相关性，而本文算法利用多层卷积和空洞卷积网络，能有效提取单词间的局部特征信息，因此较 EmbedRank 而言，在两个数据集上得出的 F1 值分别提高了 14.48 和 23.77个百分点.基于 Bi-LSTM 和 Bi-LSTM-CRF 模型的两种方法更注重利用 Bi-LSTM 组件获取上下文语义信息，而本文算法不仅关注全局上下文信息，还增加对局部信息的考量，从而得到较好的抽取效果，如在 Inspec 上，本文算法较 Bi-LSTM-CRF 而言，F1 值增加了 4.97 个百分点.在各类算法运行过程中，基于统计（TF-IDF）和基于图的方法（TextRank、Top

46、icRank、SingleRank和 PositionRank）均为无监督方法，其中基于图的 4种方法由于要对全文候选词语进行构图处理，时间复杂度要稍高于基于统计的方法.基于深度学习的 4 种方法（EmbedRank、Bi-LSTM、Bi-LSTM-CRF、本算法）均为有监督方法，在运行时，由于事先需要在训练集上优化模型参数，训练的时间复杂度虽高于其他方法，但在模型参数训练稳定后，就推理时间而言明显优于其他无监督方法.另外我们在实验中发现，表 4 中后 4 个基于深度学习的抽取方法的效率普遍高于其他类型抽取方法，这是因为神经网络架构具有强大的表征学习能力，从而可以提取很多有用的特征信息，说明深

47、度学习模型是用来大幅度提高关键词抽取效率的重要手段.4结束语本文通过研究如何在关键词抽取过程中同时利用文本的全局语义特征信息和单词间的局部特征信息，提出了一种基于全局和局部特征表示的关键词抽取算法.采用 Transformer 模型获取文档中单词的语义特征表示，并计算单词的词频和词性两方面统计特征信息，融合上述两种特征信息得出每个单词的向量表示，利用一维卷积和一维空洞卷积神经网络获取单词在某一窗口内尽可能多的局部特征，综合利用以上全局语义信息和局部特征信息，通过训练学习得出最终关键词.实验结果表明，本文算法效果明显优于目前其他 8 种主流关键词抽取方法.下一步的研究工作预计在以下两方面进行：一

48、是利用其他的神经网络模型学习单词更多的特征信息，并融入更多的统计特征信息，以提高关键词抽取效率；二是目前大部分关键词抽取算法都在短文本上效果比较好，如何提高在长文中的抽取效果，是我们感兴趣的方向.参考文献：HassaineA,MecheterS,JaouaA.Textcategorizationusinghyper rectangular keyword extraction:Applica-tiontonewsarticlesclassificationC/ProceedingsofInternational Conference on Relational and AlgebraicMet

49、hodsinComputerScience,Braga,Portugal,2015:1表4在 Inspec 和 kp20k 上的对比实验结果Tab.4ComparativeresultsinInspecandkp20k数据集抽取算法F1/%InspecTF-IDF12.21TextRank18.34TopicRank24.71SingleRank27.58PositionRank25.58EmbedRank35.39Bi-LSTM21.99Bi-LSTM-CRF44.9本文算法本文算法49.87kp20kTF-IDF10.36TextRank9.96TopicRank10.03SingleRa

50、nk10.1PositionRank11.07EmbedRank12.0Bi-LSTM19.09Bi-LSTM-CRF35.63本文算法本文算法35.77第45卷祖弦等：一种基于全局和局部特征表示的关键词抽取算法833312-325.LiuXQ,SongYQ,LiuSX,etal.Automatictax-onomyconstructionfromkeywordsC/Proceedingsofthe 18th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining,Beijing,China,2012:

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种基于全局局部特征表示关键词抽取算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。