分销赏收藏举报申诉 / 15

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 学术文献全文内容中的方法实体细粒度抽取及演化分析研究.pdf

学术文献全文内容中的方法实体细粒度抽取及演化分析研究.pdf

上传人：自信****多点

文档编号：759042

上传时间：2024-03-06

格式：PDF

页数：15

大小：3.18MB

《学术文献全文内容中的方法实体细粒度抽取及演化分析研究.pdf》由会员分享，可在线阅读，更多相关《学术文献全文内容中的方法实体细粒度抽取及演化分析研究.pdf（15页珍藏版）》请在咨信网上搜索。

1、情报学报 2023 年 8 月第 42 卷第 8 期Journal of the China Society for Scientific and Technical Information,Aug.2023,42(8):952-966学术文献全文内容中的方法实体细粒度抽取及演化分析研究章成志，谢雨欣，张恒（南京理工大学经济管理学院信息管理系，南京 210094）摘要在科学研究过程中，科研人员需要考虑针对不同的研究问题选择合适的研究方法，有时还会对研究方法进行优化，从而更好地解决研究问题。因此，研究方法往往是解决研究问题的关键，是学术文献的重要知识。帮助科研人员快速发现学术文献全文内容中

2、蕴含的方法实体，为其推荐适用于自身研究问题的关键解决方法提供实践参考，可以提高科研人员解决问题的效率。当前相关研究缺乏对方法实体之间共现关系的分析，未充分挖掘学术文献中蕴含的丰富知识。为此，本研究以自然语言处理领域为例，将方法实体细分为算法、数据集、指标以及工具4种类型，并标注了50篇论文作为训练语料。本研究构建了CRF（conditional random field）、BiLSTM（bi-directional long short-term memory）+CRF 等 4 种实体抽取模型。研究结果表明，SciBERT（scientific bidirectional encoder re

3、presentations from transformers）+CRF 模型的性能最优。以 ACL 年会（Annual Meeting of the Association for Computational Linguistics）在20012020年共20年收录的论文全文数据为基础，进一步分析抽取出的方法实体的使用情况。本研究结合经典关联规则挖掘算法Apriori和卡方值构建方法实体共现数据集，并分析方法实体的演化。研究结果揭示了方法实体间的共现关系及其整体演化情况，可辅助特定领域的科研人员寻找合适的研究方法。关键词方法实体；命名实体识别；Apriori算法；演化分析Extractio

4、n and Evolution Analysis of Fine-grained Method Entities from Full Text of Academic ArticlesZhang Chengzhi,Xie Yuxin and Zhang Heng(Department of Information Management,School of Economics and Management,Nanjing University of Science&Technology,Nanjing 210094)Abstract：During scientific research,rese

5、archers should consider choosing appropriate solutions for different research problems and optimize the methods to better solve the research problems.Therefore,research methods are often the key to solving research problems and important knowledge in academic literature.This helps researchers to qui

6、ckly discover the method entities contained in the full text of academic literature and provides a practical reference for recommending key solutions to their research problems,which can improve the efficiency of researchers in solving problems.Currently,research on the relationship between method e

7、ntities and the rich knowledge contained in academic literature is unavailable.To this end,this study considers the field of Natural Language Processing as an example;subdivides the method entities into four types:algorithms,datasets,indicators,and tools;annotates 50 papers as a training corpus.In t

8、his study,four types of models were used to extract entities.The experimental results demonstrated that the performance of the SciBERT+CRF 收稿日期：2022-07-28；修回日期：2023-05-24基金项目：国家自然科学基金项目“基于学术文献全文内容的细粒度算法实体抽取与评估研究”（72074113）。作者简介：章成志，男，1977年生，博士，教授，博士生导师，主要研究方向为信息组织、信息检索、数据挖掘及自然语言处理，E-mail：；谢雨欣，女，1997

9、年生，硕士研究生，主要研究方向为文本挖掘与科学计量；张恒，男，1995年生，博士研究生，主要研究方向为文本挖掘与科学计量。DOI:10.3772/j.issn.1000-0135.2023.08.007第 8 期章成志等：学术文献全文内容中的方法实体细粒度抽取及演化分析研究model is the best.Based on the full-text data of papers collected by the ACL Conference from 2001 to 2020,this study further analyzed the usage of the extracted me

10、thod entities.In this study,an entity association dataset was developed by combining the classical association rule mining algorithm Apriori and the chi-square value,and the evolution of the entities was analyzed.The results of this study reveal the relationship between method entities and their ove

11、rall evolution,which can assist researchers in specific fields to find suitable research methods.Keywords:knowledge entity;named entity recognition;Apriori algorithm;evolution analysis0引言随着开放获取运动的兴起与发展、信息资源存储成本的不断降低，互联网上可获取的学术文献数据量快速增长。学术文献是科研成果的重要载体，其中包含丰富的领域知识。不断增长的学术文献，在推动知识发现和科学进步的同时，也加重了科研工作者的

12、认知负担，增加了其获取知识的成本。如何从海量学术文献中挖掘出有价值的领域知识，帮助相关人员快速准确地获取蕴含在文本中的关键知识，具有重要的现实意义。知识实体是学术文献中知识的基本单位和结构要素，包括关键词、主题、术语和特定领域的知识实体（如生物医学实体：基因、药物和疾病）等1。挖掘学术文献中的知识实体，并考察知识实体的使用和传递，可加速学术文献中的知识发现。当前，关于知识实体的相关研究主要侧重于知识实体的抽取，对知识实体间的关系挖掘相对有限2-3。对特定领域实体及其共现关系进行分析，可以对特定情况下的知识使用和传播提供更多的依据4。因此，本研究以特定领域知识实体作为研究对象，在学术文献中知识实

13、体自动抽取的基础上，分析知识实体及其共现关系。本研究以自然语言处理（natural language processing，NLP）领域为例，抽取学术文献全文本内容中细粒度方法知识实体，并对知识实体的演化、知识实体间的共现进行分析，从而为科研工作者提供参考。具体来说，首先，本研究将以 ACL 选集参考语料库（ACL Anthology Reference Corpus，ACL ARC）开放的全文数据为语料，在论文全文本内容中识别方法实体，区别于以往大多数仅关注论文摘要的研究5。摘要主要包含结论性信息，而缺乏反映研究过程的信息。对文献正文中反映研究过程的方法实体进行分析，可以挖掘出更多

14、有价值的学术信息。其次，综合考虑领域需求和以往针对 NLP 领域的知识实体分类6-8，本研究将论文中研究问题对应解决方案的重要构成要素称为方法相关实体（以下简称“方法实体”），细分为算法实体、数据集实体、指标实体以及工具实体 4 种类型。因为该领域的研究人员需要了解针对特定任务的评估基准，以进行方法的改进或创新，所以这4种类型方法实体往往是论文中的关键信息。此外，此类方法实体的抽取流程也适用于人工智能、生物医学领域等相关领域。下文将结合基于 ACL会议论文的具体标注示例，解释这 4 种类型方法实体的具体含义。表 1 以 ACL 选集中的一篇学术论文为例，展示了这4种类型方法实体的具体形式。ht

15、tps:/acl-p.nus.edu.sg/表1NLP领域4种类型方法实体的语义标注示例序号1234包含方法实体的句子Experimental results indicate that our approach of identifying question topic and question focus for search significantly outperforms the base line methods such as 算法实体算法实体 Vector Space Model(VSM)and Language Model for Information Retrieval

16、(LMIR).数据集实体The tuning set results on the Chinese to English NIST MT03+MT04 task are shown in Table 3.指标实体The BLEU scores are between 0 and 1,higher being better.In(Matusov et al.,2006),different word orderings are taken into account by training alignment models by considering all hypothesis pairs a

17、s a parallel corpus 工具实体using GIZA+(Och and Ney,2003).953第 42 卷情报学报本研究工作的创新点主要包括如下三个方面：首先，区别于以往大多基于论文摘要进行方法实体的识别，本研究从学术文献全文本内容中进行细粒度的方法实体自动抽取，提高方法抽取的召回率。其次，本研究依据学术论文全文内容识别高频方法实体组合，在此基础上，进行方法实体的共现分析，从而解决仅依据论文摘要进行共现分析所造成的数据稀疏问题。最后，本研究引入时间维度进行方法实体演化分析，分析结果蕴含特定领域的知识发展脉络，可辅助科研人员把握技术发展的趋势和机遇，并及时进行知识的更新

18、，以有效应对技术发展对科研工作的挑战。1相关研究概述目前，从学术文献全文内容中抽取知识实体，主要包括人工标注以及基于规则、基于传统机器学习、基于深度学习的抽取方法等，本节对这些相关研究进行概述。（1）人工标注方法人工标注一般需要先制定知识实体标注规范，再通过人工阅读的方式为学术文献中出现的知识实体添加标签。近年来，有代表性的工作是机器之心平台的 SOTA（state-of-the-art）项目，该项目依据人工阅读的方式，从大量机器学习研究的论文中获取特定 NLP任务上的最优模型、数据集和评估指标等信息。近年来，部分学者采用人工标注的方式获取知识实体。例如，QasemiZadeh等7通过人工标注

19、方式为 300 篇 ACL 论文摘要添加 method、tool 等标签；Wang等9以自然语言处理领域的算法实体为研究对象，通过人工标注的方式构建算法词典，并结合多种指标评估不同算法的影响力；章成志等10、张颖怡等11将解决学术文献中研究问题的方法、工具、手段、技术和方案等定义为研究方法，对情报学报 10 年间发表的 198 篇论文中出现的研究方法进行标注。人工标注方法建立的知识实体标注语料库，因其质量可靠常作为金标准用于评价知识实体抽取系统的性能。然而，此类方法过度依赖于专家知识且耗时费力，标注规模难以扩展。（2）基于规则的抽取方法规则匹配方法需要先人工定义规则，再根据规则进行知识实体的

20、匹配。例如，Kondo 等12基于规则识别学术文献中的“领域”“问题”“方法”等信息。基于规则的方法准确率高，但应用于不同的领域时都需要专家重新编写规则，人力成本较高。为了降低构建规则的成本，部分研究者通过 bootstrapping（自举）技术自动挖掘规则13-14。例如，Pan等15-16提出了一种改进的自举方法，将自举方法和多个特征相结合，从学术论文中的方法论章节抽取软件实体。然而，自举技术在多轮迭代过程中容易发生“语义漂移”，严重影响模板挖掘的质量。总之，有限的规则难以应对自然语言表达的灵活性，知识的覆盖性和完备性决定了基于规则的方法性能。（3）基于传统机器学习的抽取方法考虑到基于规则

21、方法的诸多弊端，研究者探索了基于机器学习的抽取方法，该方法一般将知识实体识别看作分类任务或序列标注任务。在现有的实体抽取研究中，隐马尔科夫模型（hidden Markov model，HMM）17-18、条件随机场（conditional random field，CRF）19-20、最大熵（maximum entropy，ME）21和支持向量机（support vector machines，SVM）22是最常用的 4 种统计命名实体识别方法，其他机器学习算法如决策树（decision tree，DT）、马尔科夫逻辑网络（Markov logic network，MLN）等也得到了

22、广泛应用。例如，Nvol等23利用 SVM算法构建分类器，从医学文本中自动识别出文章所提及的数据集实体。基于统计的机器学习方法对未知信息具有良好的发现能力，在命名实体识别任务中表现突出。然而，基于机器学习的方法依赖于标注语料和特征工程，因此，需要构建有效的标注语料和特征模板。（4）基于深度学习的抽取方法为了将研究者从特征工程中解放出来，深度学习技术被引入命名实体识别任务中。2016 年，Wang 等24使用两个深度学习模型，即 LSTM（long short-term memory）和 CNN（convolutional neural network）作为分类器，分

23、别学习候选术语的不同表示，不需要手动选择特征。同年，Ma 等25提出了一种将 BiLSTM（bi-directional long short-term memory）+CRF 模型与特征及命名实体知识库相结合的实体抽取方法，用于抽取生态修复技术领域文献中的时间、地点及技术实体。基于深度学习的实体抽取方法不需要人工筛选术语特征，大大降低了人工成本。然而，该方法的缺点也很明显，依赖于复杂 https:/ 8 期章成志等：学术文献全文内容中的方法实体细粒度抽取及演化分析研究的深度学习模型，需要大量的标注数据或标注句子以及较长的训练时间，且模型的跨领域泛化能力较弱。即便存在诸多问题，基于深度学习的命

24、名实体识别方法仍表现出了显著的性能。毫无疑问，基于深度学习的命名实体识别将成为后续的研究热点。综上可以看出，人工标注的方法耗时耗力，但能够保证结果的准确性，可用于构建机器学习等方法所需的标注语料。当前实体抽取的相关研究通常以机器学习和深度学习相关技术为主，尤其是近年来兴起的深度学习方法已被证明有较好的性能。本研究将使用多组机器学习和深度学习模型进行对比实验，基于合适的评测指标分析比较不同方法实体抽取模型在本研究任务上的性能，最终选择性能最优的模型。2研究方法2.1 研究思路本研究的框架如图 1 所示。本研究先从全文内容分析的角度，以 NLP领域为例，基于计算语言学相关英文文献，构建原始全文语料

25、库和方法实体自动抽取模型训练集；然后进行方法实体自动抽取模型的训练，并根据评价指标选择性能最佳的模型，用于抽取未标注文献中的算法实体、数据集实体、指标实体和工具实体；最后，基于方法实体的自动抽取结果构建该领域的方法实体语料库，并以此为基础构建方法实体的共现数据集，从多个角度开展方法实体的演化分析工作。2.2 全文语料概述（1）ACL会议论文全文语料采集本研究选取 ACL Anthology Reference Corpus官网上的开放学术文献全文作为数据源，采集 20012020 年共 20 年的 ACL 年会（Annual Meeting of the Association for Com

26、putational Linguistics）论文全文，共有 6090篇。经过预处理，整理得到论文的发表年份、标题、摘要、正文等数据。本研究从 6090篇论文中随机抽取 50 篇论文用作方法实体标注语料，余下的 6040篇论文作为待抽取方法实体的全文数据集（简称“待抽取数据集”），待抽取数据集的年份分布情况如图2所示。（2）NLP领域方法实体标注数据集构建本研究随机抽取 50篇论文用于构建方法实体标注语料，综合考虑领域需求和以往针对 NLP领域的方法实体分类标准8，将 NLP 领域的方法实体细分为算法实体、数据集实体、指标实体以及工具实体4种类型，具体含义与示例如表2所示。方法实体标注具体包括

27、预标注和正式标注两个过程。本研究使用 WebAnno作为标注平台。首先，从 50 篇待标注样本中随机抽取 14 篇论文，对其全 https:/acl-p.nus.edu.sg/https:/webanno.github.io/webanno/图1研究框架图2待抽取全文数据集的年份分布955第 42 卷情报学报文内容进行预标注，并拟定初步的方法实体标注规范，由两位情报学专业的二年级硕士研究生进行独立标注。标注完成后，两位标注人员就标注结果中不一致的地方进行讨论，以得到一致的标注结果并对初始标注规范进行调整和优化。然后，以修订后的标注规范为依据，进行正式标注，即对剩余 36篇论文的全文进行方

28、法实体标注，由另外 3 名信息管理与信息系统专业的四年级本科生进行独立标注。最后，依据标注工具 WebAnno提供的一致性检验功能，得到 3 位标注人员两两之间的标注一致性结果，即 Cohen s kappa 值26，分别为 0.90、0.91、0.83，说明本研究的人工标注结果是可靠的，标注数据可用于后续其他工作。最终，本研究共得到来自 50 篇论文的 2815 个包含方法实体的句子。4 种类型方法实体对应的实体数、句子数等信息如表3所示。2.3 关键技术描述2.3.1 方法实体抽取模型本研究借助机器学习模型来抽取方法实体，具体包括经典的序列标注模型 CRF、BiLSTM+CRF、BERT（

29、bidirectional encoder representations from transformers）+CRF 和 SciBERT（scientific bidirectional encoder representations from transformers）+CRF 共 4种神经网络序列标注模型。通过标注数据进行模型训练与测试，选择性能最优的模型从未标注语料中自动抽取方法实体。条件随机场（CRF）模型27是解决命名实体识别任务的经典方法。CRF 结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，在分词、词性标注和命名实体识别等序列标注任务中取得了较好的效果。随着深度学

30、习的发展，深度学习模型与 CRF相结合的方式得到广泛应用。其中，BiLSTM+CRF 模型在命名实体识别任务上表现得较为出色28。BiLSTM 是对 LSTM29（长短期记忆网络）的改进，由前向 LSTM 与后向LSTM 组合而成，在自然语言处理任务中常被用于建模上下文信息。进一步地，将 BiLSTM30替换为BERT 模型31后，BERT+CRF 模型32在该任务上的准确率和效率又达到了新的高度。下文分别简要描述了 BiLSTM+CRF、BERT+CRF和SciBERT+CRF等模型的基本原理。（1）BiLSTM+CRF模型BiLSTM+CRF 模型是一

31、种混合模型，将 LSTM层与顶部的 CRF层相结合。使用这种组合，可以结合两种模型的优点。BiLSTM 又被称作双向长短期记忆网络，其优势在于预测长序列以及单独预测每个词33；而 CRF 基于整个句子的联合概率进行预测，确保达到标签的最优序列34。本研究使用的BiLSTM+CRF 模型结构如图 3 所示。图 3 中输入层的 wi（0in）表示经过预处理后的每个句子中的单词（包括标点符号）。图3中的输出标签BIO对应模型预测的标记类型，每个单词对应一个标记“B-X”“I-X”或“O”。其中，“B-X”表示此单词属于X 类型，并且此单词在此片段的开头；“I-X”表示此单词所在的片段属于 X 类型，

32、并且此单词在此片段的中间位置；“O”表示不属于任何类型。针对本研究任务，“X”将分别对应算法实体、数据集实体、指标实体和工具实体4种实体类型。（2）BERT+CRF模型BERT+CRF 模型也是一种混合模型，其在识别文本中的命名实体方面也取得了优异的性能32。BERT 是谷歌在 2018 年 10 月推出的深度语言表示模型，其在一系列 NLP 任务中产生了最先进的结果31。BERT 网络模型遵循词嵌入方法的总体思路，进一步增加了词向量模型的泛化能力。通过在字表3方法实体标注数据集统计信息类型算法实体数据集实体指标实体工具实体实体数2545841892154句子数1793591608142表2N

33、LP领域方法实体类别含义与示例序号1234类别算法实体数据集实体指标实体工具实体解释算法、模型等语料库、数据集、词典、字典等评估实验结果的指标编程语言、软件、开源工具等示例LDA(latent Dirichlet allocation),SVM,LSTM,skip-gram,Adam(adaptive moment estimation)Brown Corpus,Penn Treebank,WordNetaccuracy,precision,recall,F1-score,BLEU(bilingual evaluation understudy),Rouge,kappaJava,WEKA(Wa

34、ikato environment for knowledge analysis),LibSVM(library for SVM),Stanford Parser,TensorFlow956第 8 期章成志等：学术文献全文内容中的方法实体细粒度抽取及演化分析研究符、词汇和句子级别挖掘多粒度特征关系，BERT提供了包含大量上下文信息的向量化表示，以支持文本中命名实体的识别。本研究使用的 BERT+CRF模型结构如图 4 所示。图 4 中输入层表示输入模型中的每个句子中的单词，词嵌入层表示 BERT 模型的输入是字嵌入（Etoken）、句子嵌入（Eseg）和位置嵌入（Epos）的融合，输出标签是该

35、模型对句子中每个单词对应的BIO标记的预测结果。（3）SciBERT+CRF模型SciBERT+CRF 模型是将 BERT+CRF 模型中的词嵌入层替换成 SciBERT 预训练语言模型。SciBERT是由 Beltagy 等36在 BERT 模型基础上开发的。两者之间唯一的区别是 BERT 在通用文本上进行训练，而 SciBERT 在 Semantic Scholar 的 114 万篇科学文献上进行训练，其中 18%的文献来自计算机科学领域，82%的文献来自生物医学领域。SciBERT 模型专为科学领域的知识抽取而创建，与 BERT 模型相比，其在科技文献语料上确实取

36、得了更好的性能37。2.3.2 方法实体共现数据集构建本研究依据关联规则挖掘算法 Apriori38，从全文内容中识别高频方法实体组合，包括同类型方法实体组合和不同类型方法实体组合。本研究通过计算卡方值（chi-square）39来衡量两个方法实体间的关联性强弱，从而可得到高频方法实体组合及相应的卡方值，最终得到方法实体共现数据集8。Apriori 算法是挖掘产生关联规则所需频繁项集的基本算法。该算法使用一种被称作“逐层搜索”的迭代方法，利用“k-1 项集”来获取“k 项集”。即先从项集长度最低的 1 开始，遍历所有的项集支持度，找出频繁 1项集，再用频繁 1项集找到频繁 2项集，依此

37、类推，直至找不到更高层次的项集为止。本研究需要识别经常一起出现的方法实体对，因此进行频繁 2 项集计算。例如，对于同类型方法实体的共现，以“数据集实体”为例，从方法实体数据集中找出包含“数据集实体”的论文，然后将同一篇论文中的“数据集实体”进行两两匹配，生成方法实体对“数据集实体 1”,“数据集实体2”。不同类型方法实体间的共现与此过程类似。3实验与结果分析3.1 方法实体抽取实验设置（1）实验数据概述本节描述了本研究实验中所使用文本的预处理与方法实体标注实验过程。文本预处理主要为英文分句与字符大小处理，先采用 NLTK（natural language toolkit）工具包对原始学术文献全

38、文本数据集进行分句处理，然后将所有字符统一替换成小写形式。基于方法实体标注实验，本研究共收集整理了来自 50 篇论文的 2815 个包含方法实体的句子。本研究将所有句子按照 811 划分为训练集、验证 https:/www.nltk.org/图3BiLSTM+CRF模型结构示意图35图4BERT+CRF模型结构示意图35957第 42 卷情报学报集和测试集。这 3 类数据集的统计情况如表 4所示。（2）方法实体抽取模型的参数设置与评估方法本研究使用的方法实体抽取模型在训练时使用的优化函数为交叉熵损失函数，优化函数为 Adam40。BiLSTM 的神经元个数设置

39、为 300，BERT+CRF 和 SciBERT+CRF 的神经元个数设置为 200。在BiLSTM+CRF 模型中，本研究选用了两种词向量表示模型，分别是 word2vec41和 fastText42，两者的词向量维度均设置为200。方法实体抽取结果使用准确率 P（precision）、召回率 R（recall）和 F1值进行评估。P、R 和 F1值的计算公式分别为P=TPTP+FP(1)R=TPTP+FN(2)F1=2 P RP+R(3)其中，TP 为将正例预测为正例的样本数；FP 为将反例预测为错误的样本数；FN 为将正例预测为反例的样本数。3.2 方法实体抽取模型结果分析3.2.1 研

40、究方法实体自动抽取模型的结果比较分析本研究使用 CRF+开源软件进行 CRF 训练。本研究使用了 3 种基于深度学习的方法实体抽取模型，分别是 BiLSTM+CRF、BERT+CRF 和 SciBERT+CRF。其中，BiLSTM+CRF 分别使用了 word2vec 和fastText两种词向量训练模型。以上对比模型的方法实体抽取结果如表5所示。由表 5 可以发现，CRF 序列标注模型在 4 种类型方法实体上的准确率分别为 0.89、0.86、0.91 和0.67，基于深度学习的方法的最高准确率分别为0.81、0.79、0.89 和 0.75。CRF 的召回率分别为0.53、0.

41、55、0.58和 0.17，基于深度学习方法的最高召回率分别为 0.77、0.79、0.87 和 0.58。CRF 的 F1值分别为0.66、0.67、0.71和0.27，基于深度学习方法的最高 F1值分别为 0.79、0.78、0.84 和 0.57。从总体对比来看，CRF 的准确率略高于基于深度学习方法的实验结果，但在召回率和 F1值上大多数是基于深度学习方法取得了更好的实验结果。其中，SciBERT+CRF 的 F1值均优于其他 3 个对比深度学习模型，在准确率和召回率上也取得了很好的结果。相较于基于深度学习为基础的模型，CRF 序列标注模型的性能依赖于特征选择的结果，倾向于做出“非任何

42、方法实体”的判断，在方法实体实际测试中易发生“漏检”情况，从而造成高准确率、低召回率的现象。而基于深度学习的模型能较好地学习到上下文信息，大多数情况下方法实体抽取结果有较高的召回率。特别是 SciBERT 使用包含生物学与计算机科学在内的百万篇科技论文进行预训练，使得 SciBERT+CRF 的模型具有较高的准确率和召回率。综上，本研究选用 SciBERT+CRF作为方法实体抽取任务的模型。3.2.2 最优模型的错误识别实例分析本研究对最优模型 SciBERT+CRF在测试集上的 http:/taku910.github.io/crfpp/表4方法实体数据集划分数据集训练集验证集测试集总数句

43、子数量22532812812815表5不同模型的方法实体抽取结果模型CRFBiLSTM+CRF（word2vec）BiLSTM+CRF（fastText）BERT+CRFSciBERT+CRF性能指标算法实体P0.890.700.760.810.81R0.530.480.420.650.77F10.660.570.540.730.79数据集实体P0.860.790.690.760.78R0.550.640.470.760.79F10.670.710.560.760.78指标实体P0.910.870.890.860.82R0.580.550.570.730.87F10.710.670.700.7

44、90.84工具实体P0.670.500.750.540.67R0.170.080.250.580.50F10.270.140.380.560.57958第 8 期章成志等：学术文献全文内容中的方法实体细粒度抽取及演化分析研究抽取结果进行分析，以期为后续模型的优化策略提供参考。具体来说，通过与人工标注的比较分析，可总结出以下3点常见错误。（1）识别不全例句 1.There are also procedures for defining weighted FSTs that are not probabilistic(Berstel and Reutenauer,1988).在例句 1 中，最

45、优模型将“FSTs”识别为算法实体，与人工标注的结果相比，遗漏了前面的限定词“weighted”。但在原文中作者是将“weighted FSTs”与“FSTs”进行对比的，所以它们实际上对应两个不同的算法实体。模型抽取的结果会遗漏前面或者后面的一部分限定词，但是其本质上可能在原文中代表两个方法实体。（2）类型识别错误例句 2.The word-to-word translation probabilities are from the translation model of IBM Model 4 trained on a 160-million-word English-

46、Chinese parallel corpus using GIZA+.在例句 2 中，最优模型将算法实体“IBM Model 4”识别为工具实体类型，这可能是因为训练集中末尾带数字的往往是工具实体偏多。（3）过拟合例句3.Our model is based on the DLCoTrain algorithm proposed by(Collins and Singer,1999),which applies a co-training procedure to decision list classifiers for two independent sets of features.在

47、例句 3 中，最优模型将“list classifiers”识别为算法实体，其具体含义并不是某个算法实体。最优模型可能将后缀带有“classifiers”“model”“algorithm”等的名词短语，都识别为算法实体。3.2.3 方法实体归一化处理及词频统计考虑到学术文本中知识实体命名形式的多样性，本研究制定了一系列的规则策略对部分方法实体的名称进行标准化处理。例如，支持向量机（SVM）在论文原文本中会有不同的命名形式，形如“svm”“svms”“support vector machine(svm)”“support vector machines(svms)”“svm-based cl

48、assifier”等。因此，本研究采用基于规则加人工审核的方法，将部分高频方法实体在文本中出现的不同命名形式整理成字典，用于方法实体的归一化处理。完成方法实体的归一化处理工作后，本研究以论文为单位对知识实体进行频次统计。本研究采用以篇章为单位进行频次计数的方法，即某个方法实体无论在 1 篇论文中出现多少次，只记为 1 次。本研究以论文而非提及频次为单位对算法进行频次计数，主要是为了消除不同作者的写作风格差异对统计结果的影响9。经整理，每种类型的方法实体所在论文数和方法实体总数的统计情况如表6所示。3.3 方法实体的演化分析3.3.1 方法实体的演化分析本研究对各类型方法实体在不同年份的数量进行

49、统计，整体分布情况如图5所示。由图 5 可以看到，算法实体的总量是 4 种类型方法实体中最多的，其随年份的增长速度是最快的，这反映了算法实体在 NLP领域的广泛使用。数据集实体的数量位居第二，指标实体位居第三，工具实体位居第四，数量最低的工具实体使用的论文篇数也达到了4725篇，占待抽取论文总数（6040篇）的78%左右，这说明NLP领域的研究与这4类方法实体的关系都十分密切。因此，以这4类方法实体作为研究对象，开展学术文献全文本内容中的实体演化分析与实体共现关系的演化分析，对于了解 NLP领域常用方法实体及其使用模式具有参考价值。为进一步展示各类型方法实体的演化分析情况，本研究分别对 200

50、12020年每年频次计数结果排名前十的方法实体进行统计分析，使用二维堆积条形图展示演化分析的结果。因此，针对方法实体表6方法实体自动抽取结果的类型分布类别算法数据集指标工具实体数（个）94280427502577314640论文数（篇）5973582256704725图54种类型方法实体数量的年份分布959第 42 卷情报学报的频次统计主要包括两个环节：首先，以篇章为单位对不同年份的方法实体进行频次计数，获取每年排名前十的方法实体数据；其次，对排名前十的方法实体的频次结果构建横轴为频次排名、纵轴为年份的二维矩阵，用于绘制二维堆积条形图。限于篇幅，仅展示算法实体和数据集实体的演化分析

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 学术文献全文内容中的方法实体细粒度抽取演化分析研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。