学术文献全文内容中的方法实体细粒度抽取及演化分析研究.pdf
《学术文献全文内容中的方法实体细粒度抽取及演化分析研究.pdf》由会员分享,可在线阅读,更多相关《学术文献全文内容中的方法实体细粒度抽取及演化分析研究.pdf(15页珍藏版)》请在咨信网上搜索。
1、情报学报 2023 年 8 月 第 42 卷 第 8 期Journal of the China Society for Scientific and Technical Information,Aug.2023,42(8):952-966学术文献全文内容中的方法实体细粒度抽取及演化分析研究章成志,谢雨欣,张恒(南京理工大学经济管理学院信息管理系,南京 210094)摘要 在科学研究过程中,科研人员需要考虑针对不同的研究问题选择合适的研究方法,有时还会对研究方法进行优化,从而更好地解决研究问题。因此,研究方法往往是解决研究问题的关键,是学术文献的重要知识。帮助科研人员快速发现学术文献全文内容中
2、蕴含的方法实体,为其推荐适用于自身研究问题的关键解决方法提供实践参考,可以提高科研人员解决问题的效率。当前相关研究缺乏对方法实体之间共现关系的分析,未充分挖掘学术文献中蕴含的丰富知识。为此,本研究以自然语言处理领域为例,将方法实体细分为算法、数据集、指标以及工具4种类型,并标注了50篇论文作为训练语料。本研究构建了CRF(conditional random field)、BiLSTM(bi-directional long short-term memory)+CRF 等 4 种实体抽取模型。研究结果表明,SciBERT(scientific bidirectional encoder re
3、presentations from transformers)+CRF 模型的性能最优。以 ACL 年会(Annual Meeting of the Association for Computational Linguistics)在20012020年共20年收录的论文全文数据为基础,进一步分析抽取出的方法实体的使用情况。本研究结合经典关联规则挖掘算法Apriori和卡方值构建方法实体共现数据集,并分析方法实体的演化。研究结果揭示了方法实体间的共现关系及其整体演化情况,可辅助特定领域的科研人员寻找合适的研究方法。关键词 方法实体;命名实体识别;Apriori算法;演化分析Extractio
4、n and Evolution Analysis of Fine-grained Method Entities from Full Text of Academic ArticlesZhang Chengzhi,Xie Yuxin and Zhang Heng(Department of Information Management,School of Economics and Management,Nanjing University of Science&Technology,Nanjing 210094)Abstract:During scientific research,rese
5、archers should consider choosing appropriate solutions for different research problems and optimize the methods to better solve the research problems.Therefore,research methods are often the key to solving research problems and important knowledge in academic literature.This helps researchers to qui
6、ckly discover the method entities contained in the full text of academic literature and provides a practical reference for recommending key solutions to their research problems,which can improve the efficiency of researchers in solving problems.Currently,research on the relationship between method e
7、ntities and the rich knowledge contained in academic literature is unavailable.To this end,this study considers the field of Natural Language Processing as an example;subdivides the method entities into four types:algorithms,datasets,indicators,and tools;annotates 50 papers as a training corpus.In t
8、his study,four types of models were used to extract entities.The experimental results demonstrated that the performance of the SciBERT+CRF 收稿日期:2022-07-28;修回日期:2023-05-24基金项目:国家自然科学基金项目“基于学术文献全文内容的细粒度算法实体抽取与评估研究”(72074113)。作者简介:章成志,男,1977年生,博士,教授,博士生导师,主要研究方向为信息组织、信息检索、数据挖掘及自然语言处理,E-mail:;谢雨欣,女,1997
9、年生,硕士研究生,主要研究方向为文本挖掘与科学计量;张恒,男,1995年生,博士研究生,主要研究方向为文本挖掘与科学计量。DOI:10.3772/j.issn.1000-0135.2023.08.007第 8 期章成志等:学术文献全文内容中的方法实体细粒度抽取及演化分析研究model is the best.Based on the full-text data of papers collected by the ACL Conference from 2001 to 2020,this study further analyzed the usage of the extracted me
10、thod entities.In this study,an entity association dataset was developed by combining the classical association rule mining algorithm Apriori and the chi-square value,and the evolution of the entities was analyzed.The results of this study reveal the relationship between method entities and their ove
11、rall evolution,which can assist researchers in specific fields to find suitable research methods.Keywords:knowledge entity;named entity recognition;Apriori algorithm;evolution analysis0引 言随着开放获取运动的兴起与发展、信息资源存储成本的不断降低,互联网上可获取的学术文献数据量快速增长。学术文献是科研成果的重要载体,其中包含丰富的领域知识。不断增长的学术文献,在推动知识发现和科学进步的同时,也加重了科研工作者的
12、认知负担,增加了其获取知识的成本。如何从海量学术文献中挖掘出有价值的领域知识,帮助相关人员快速准确地获取蕴含在文本中的关键知识,具有重要的现实意义。知识实体是学术文献中知识的基本单位和结构要素,包括关键词、主题、术语和特定领域的知识实体(如生物医学实体:基因、药物和疾病)等1。挖掘学术文献中的知识实体,并考察知识实体的使用和传递,可加速学术文献中的知识发现。当前,关于知识实体的相关研究主要侧重于知识实体的抽取,对知识实体间的关系挖掘相对有限2-3。对特定领域实体及其共现关系进行分析,可以对特定情况下的知识使用和传播提供更多的依据4。因此,本研究以特定领域知识实体作为研究对象,在学术文献中知识实
13、体自动抽取的基础上,分析知识实体及其共现关系。本研究以自然语言处理(natural language processing,NLP)领域为例,抽取学术文献全文本内容中细粒度方法知识实体,并对知识实体的演化、知识实体间的共现进行分析,从而为科研工作者提供参考。具体来说,首先,本研究将以 ACL 选集 参 考 语 料 库(ACL Anthology Reference Corpus,ACL ARC)开放的全文数据为语料,在论文全文本内容中识别方法实体,区别于以往大多数仅关注论文摘要的研究5。摘要主要包含结论性信息,而缺乏反映研究过程的信息。对文献正文中反映研究过程的方法实体进行分析,可以挖掘出更多
14、有价值的学术信息。其次,综合考虑领域需求和以往针对 NLP 领域的知识实体分类6-8,本研究将论文中研究问题对应解决方案的重要构成要素称为方法相关实体(以下简称“方法实体”),细分为算法实体、数据集实体、指标实体以及工具实体 4 种类型。因为该领域的研究人员需要了解针对特定任务的评估基准,以进行方法的改进或创新,所以这4种类型方法实体往往是论文中的关键信息。此外,此类方法实体的抽取流程也适用于人工智能、生物医学领域等相关领域。下文将结合基于 ACL会议论文的具体标注示例,解释这 4 种类型方法实体的具体含义。表 1 以 ACL 选集中的一篇学术论文为例,展示了这4种类型方法实体的具体形式。ht
15、tps:/acl-p.nus.edu.sg/表1NLP领域4种类型方法实体的语义标注示例序号1234包含方法实体的句子Experimental results indicate that our approach of identifying question topic and question focus for search significantly outperforms the base line methods such as 算法实体 算法实体 Vector Space Model(VSM)and Language Model for Information Retrieval
16、(LMIR).数据集实体The tuning set results on the Chinese to English NIST MT03+MT04 task are shown in Table 3.指标实体The BLEU scores are between 0 and 1,higher being better.In(Matusov et al.,2006),different word orderings are taken into account by training alignment models by considering all hypothesis pairs a
17、s a parallel corpus 工具实体using GIZA+(Och and Ney,2003).953第 42 卷情 报 学 报本研究工作的创新点主要包括如下三个方面:首先,区别于以往大多基于论文摘要进行方法实体的识别,本研究从学术文献全文本内容中进行细粒度的方法实体自动抽取,提高方法抽取的召回率。其次,本研究依据学术论文全文内容识别高频方法实体组合,在此基础上,进行方法实体的共现分析,从而解决仅依据论文摘要进行共现分析所造成的数据稀疏问题。最后,本研究引入时间维度进行方法实体演化分析,分析结果蕴含特定领域的知识发展脉络,可辅助科研人员把握技术发展的趋势和机遇,并及时进行知识的更新
18、,以有效应对技术发展对科研工作的挑战。1相关研究概述目前,从学术文献全文内容中抽取知识实体,主要包括人工标注以及基于规则、基于传统机器学习、基于深度学习的抽取方法等,本节对这些相关研究进行概述。(1)人工标注方法人工标注一般需要先制定知识实体标注规范,再通过人工阅读的方式为学术文献中出现的知识实体添加标签。近年来,有代表性的工作是机器之心平台的 SOTA(state-of-the-art)项目,该项目依据人工阅读的方式,从大量机器学习研究的论文中获取特定 NLP任务上的最优模型、数据集和评估指标等信息。近年来,部分学者采用人工标注的方式获取知识实体。例如,QasemiZadeh等7通过人工标注
19、方式为 300 篇 ACL 论文摘要添加 method、tool 等标签;Wang等9以自然语言处理领域的算法实体为研究对象,通过人工标注的方式构建算法词典,并结合多种指标评估不同算法的影响力;章成志等10、张颖怡等11将解决学术文献中研究问题的方法、工具、手段、技术和方案等定义为研究方法,对 情报学报 10 年间发表的 198 篇论文中出现的研究方法进行标注。人工标注方法建立的知识实体标注语料库,因其质量可靠常作为金标准用于评价知识实体抽取系统的性能。然而,此类方法过度依赖于专家知识且耗时费力,标注规模难以扩展。(2)基于规则的抽取方法规则匹配方法需要先人工定义规则,再根据规则进行知识实体的
20、匹配。例如,Kondo 等12基于规则识别学术文献中的“领域”“问题”“方法”等信息。基于规则的方法准确率高,但应用于不同的领域时都需要专家重新编写规则,人力成本较高。为了降低构建规则的成本,部分研究者通过 bootstrapping(自举)技术自动挖掘规则13-14。例如,Pan等15-16提出了一种改进的自举方法,将自举方法和多个特征相结合,从学术论文中的方法论章节抽取软件实体。然而,自举技术在多轮迭代过程中容易发生“语义漂移”,严重影响模板挖掘的质量。总之,有限的规则难以应对自然语言表达的灵活性,知识的覆盖性和完备性决定了基于规则的方法性能。(3)基于传统机器学习的抽取方法考虑到基于规则
21、方法的诸多弊端,研究者探索了基于机器学习的抽取方法,该方法一般将知识实体识别看作分类任务或序列标注任务。在现有的实体抽取研究中,隐马尔科夫模型(hidden Markov model,HMM)17-18、条件随机场(conditional random field,CRF)19-20、最大熵(maximum entropy,ME)21和 支 持 向 量 机(support vector machines,SVM)22是最常用的 4 种统计命名实体识别方法,其他机器学习算法如决策树(decision tree,DT)、马尔科夫逻辑网络(Markov logic network,MLN)等也得到了
22、广泛应用。例如,Nvol等23利用 SVM算法构建分类器,从医学文本中自动识别出文章所提及的数据集实体。基于统计的机器学习方法对未知信息具有良好的发现能力,在命名实体识别任务中表现突出。然而,基于机器学习的方法依赖于标注语料和特征工程,因此,需要构建有效的标注语料和特征模板。(4)基于深度学习的抽取方法为了将研究者从特征工程中解放出来,深度学习 技 术 被 引 入 命 名 实 体 识 别 任 务 中。2016 年,Wang 等24使用两个深度学习模型,即 LSTM(long short-term memory)和 CNN(convolutional neural network)作为分类器,分
23、别学习候选术语的不同表示,不需要手动选择特征。同年,Ma 等25提出了一种将 BiLSTM(bi-directional long short-term memory)+CRF 模型与特征及命名实体知识库相结合的实体抽取方法,用于抽取生态修复技术领域文献中的时间、地点及技术实体。基于深度学习的实体抽取方法不需要人工筛选术语特征,大大降低了人工成本。然而,该方法的缺点也很明显,依赖于复杂 https:/ 8 期章成志等:学术文献全文内容中的方法实体细粒度抽取及演化分析研究的深度学习模型,需要大量的标注数据或标注句子以及较长的训练时间,且模型的跨领域泛化能力较弱。即便存在诸多问题,基于深度学习的命
24、名实体识别方法仍表现出了显著的性能。毫无疑问,基于深度学习的命名实体识别将成为后续的研究热点。综上可以看出,人工标注的方法耗时耗力,但能够保证结果的准确性,可用于构建机器学习等方法所需的标注语料。当前实体抽取的相关研究通常以机器学习和深度学习相关技术为主,尤其是近年来兴起的深度学习方法已被证明有较好的性能。本研究将使用多组机器学习和深度学习模型进行对比实验,基于合适的评测指标分析比较不同方法实体抽取模型在本研究任务上的性能,最终选择性能最优的模型。2研究方法2.1 研究思路本研究的框架如图 1 所示。本研究先从全文内容分析的角度,以 NLP领域为例,基于计算语言学相关英文文献,构建原始全文语料
25、库和方法实体自动抽取模型训练集;然后进行方法实体自动抽取模型的训练,并根据评价指标选择性能最佳的模型,用于抽取未标注文献中的算法实体、数据集实体、指标实体和工具实体;最后,基于方法实体的自动抽取结果构建该领域的方法实体语料库,并以此为基础构建方法实体的共现数据集,从多个角度开展方法实体的演化分析工作。2.2 全文语料概述(1)ACL会议论文全文语料采集本研究选取 ACL Anthology Reference Corpus官网上的开放学术文献全文作为数据源,采集 20012020 年共 20 年的 ACL 年会(Annual Meeting of the Association for Com
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学术 文献 全文 内容 中的 方法 实体 细粒度 抽取 演化 分析研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。