基于深度学习技术的科技文献引文分类研究综述.pdf
《基于深度学习技术的科技文献引文分类研究综述.pdf》由会员分享,可在线阅读,更多相关《基于深度学习技术的科技文献引文分类研究综述.pdf(15页珍藏版)》请在咨信网上搜索。
1、86第 5 卷第 4 期2023 年 8 月Vol.5No.4Aug.2023数据与计算发展前沿,2023,5(4)基于深度学习技术的科技文献引文分类研究综述李俊飞1,2,徐黎明1,2,汪洋1,2*,魏鑫11.中国科学院计算机网络信息中心,北京 1000832.中国科学院大学,计算机科学与技术学院,北京 100049摘 要:【目的】科技文献引文分类是学术影响力评估、文献检索推荐等的基础工作。随着深度神经网络和预训练语言模型的发展,科技文献引文分类研究取得巨大成果。学界提出了许多基于深度学习技术的科技文献引文分类方法、模型和数据集。然而,目前仍然缺乏对现有方法和最新趋势的全面调研,因此本文在这方
2、面进行了探索。【方法】本文梳理了基于深度学习技术的科技文献引文分类模型、数据集,并对不同模型的分类性能进行了对比和分析;归纳了不同模型的优缺点,对科技文献引文分类技术进行总结;讨论了未来的发展方向,并提出了建议。【结果】预训练语言模型能够有效地学习全局语义表示,改善了RNNs(Recurrent Neural Networks)训练效率低、CNNs(Convolutional Neural Networks)提取文本序列依赖特征长度有限等问题,显著提高了分类准确率。【局限】本文以介绍科技文献引文分类技术的进展为主,没有对未来技术的发展方向进行全面 预测。关键词:科技文献引文分类;预训练语言模型
3、;深度学习;自然语言处理Review of Automatic Citation Classification Based on Deep Learning TechnologyLI JunFei1,2,XU LiMing1,2,WANG Yang1,2*,WEI Xin11.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100083,China2.School of Computer Science and Technology,University of Chinese Academy of
4、Sciences,Beijing 100049,ChinaAbstract:Objective The citation classification of scientific and technological literature is the basic work of academic influence evaluation and literature retrieval and recommendation.With the development of deep neural networks and pre-trained language models,the resea
5、rch on citation classification of scientific and technological literature has achieved great success.Many citation classification models,data sets,and methods for scientific and technological documents based on deep learning technology have been proposed in the literature.However,there is still a la
6、ck of comprehensive research on existing methods and the latest trends.This paper makes up for this gap.Methods This paper studies the citation classification model and data set of scientific and technological literature based on ISSN 2096-742XCN 10-1649/TP文献CSTR:32002.14.jfdc.CN10-1649/TP.2023.04.0
7、08文献DOI:10.11871/jfdc.issn.2096-742X.2023.04.008页码:86-100 获取全文基金项目:中国科学院态势感知运行维护与应用支持项目(WX1450201-0105-02)*通信作者:汪洋(E-mail:)87数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 deep learning technology,compares and analyzes the performance of different models as well as their advantages and disadvantages
8、,summarizes the citation classification technology for scientific and technological literacy,and discusses the future development direction.Results The classification model based on the pre-trained language model can effectively learn the global semantic representation,improve the problems of low tr
9、aining efficiency of RNNs(Recurrent Neural Networks)and limited length of dependent features of text sequences extracted by CNNs(Convolutional Neural Networks),and significantly improve the classification accuracy.Limitations This paper mainly introduces the progress of citation classification techn
10、ology in scientific and technological literature,and does not comprehensively predict the development direction of technology in the future.Keywords:citation classification of scientific and technological documents;pre-trained language model;deep learning;natural language processing型大部分基于通用文本分类模型,没有
11、针对科技文献引文分类的专用模型,且分类准确率相对通用领域的文本分类还有较大差距,影响了引文分类结果的推广和应用。本文对科技文献引文分类的特点和挑战进行了详细总结,也为科技文献引文分类后续研究的重点提出了建议。综上所述,本文贡献可以总结为以下几点:(1)总结归纳:本文对基于深度学习技术的科技文献引文分类的发展进行详细总结,主要包括基于卷积神经网络、循环神经网络的分类模型和基于预训练语言模型的分类模型。(2)存在问题和展望:本文讨论并分析了现有分类模型存在的问题和挑战,提出了下一步研究工作应该关注的方向和重点。(3)丰富的数据集:本文收集了科技文献引文分类的大量数据集。本文组织结构如下:第 1 节
12、概述了科技文献引文分类体系,数据集和应用广泛的数据集;第 2 节介绍基于统计机器学习的引文分类技术;第 3 节介绍了基于深度学习技术的引文分类技术发展;第 4节对全文进行总结;第 5 节对目前存在的问题及下一步研究方向进行讨论。1 科技文献引文分类体系1.1 科技文献引文分类的起源20 世纪 60 年代,科学引文索引(Science Cita-引 言由于科技文献中的引文具备一定的同行评议效果,所以科技文献引文分析工作一直是文献研究的重点。引文分类工作能够为学术影响力评估1-2、文献检索推荐等提供基础数据,是科技文献引文分析的重要组成部分,得到学术界和工业界的广泛关注。科技文献引文分类研究经历了
13、两个阶段,目前处于第二阶段的快速发展期。第一阶段:引文分类的必要性和可行性研究。该阶段的研究者多为领域专家,他们在对科技文献引文内容分析的基础上,建立起引文分类体系;通过实验证实了引文分类的必要性和可行性;该阶段的主要特点是人工进行、小范围、小样本研究。第二阶段:引文分类技术研究。该阶段引文分类与计算机技术相结合,以引文分类的自动化、规模化和智能化为目的。引文分类系统由三部分构成:引文分类体系、引文分类模型和数据集。本文主要关注引文分类模型的发展,同时对分类体系和数据集进行了汇总。近年来,随着深度学习技术和预训练语言模型的发展,科技文献引文分类已取得重大进展。但目前仍然缺乏对现有方法和最新趋势
14、的全面调研。为了回顾已有的进展,并帮助研究人员在未来开展新的工作,本文对近 12 年来的科技文献引文分类工作发展进行了全面的调研和总结。尽管目前的科技文献引文分类模型在标准数据集上取得了显著的效果,但仍然存在较多问题需要解决。例如,现有分类模88数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 tion Index,SCI)的发展开创了引文分析的大规模实践,其专注于学者间、期刊间的引用次数的统计,引用网络的建立3。随后,以引用频次为基础量化科研人员研究成果的 h 指数(h-index)4、期刊影响因子(Impact Factor,IF)等指标构成了现
15、有的科技评价5和学术影响力评估体系。然而这种将每次引用的重要性同等看待的评估方法受到众多学者的诟病,他们认为并非所有引用的重要性都是一样的,并尝试对引文按照一定的分类标准进行分类(不同的类别表示不同的重要性),然后将分类的统计结果引入到学术影响力评估体系中构建全面而合理的学术影响力评估体系。例如:Voos 等6第一次提出了引用平等性问题,分析了引文在简介、方法、讨论或者结论段落的位置后发现简介相对其他段落包含更多的被引文献;因此他们认为引文的贡献不但应该基于其数量,而且还与其在文献中的位置相关。Herlach 等7扩展了这个观点,认为对于被引文献在方法或者讨论段落再一次被引用应该被认为有更大的
16、贡献。Small8是第一个研究引用科学内容的学者,他认为被高度引用的文章并不是学科前沿的标志。1.2 科技文献引文分类体系汇总早期的一些领域专家从引用动机、情感、目的等不同的角度对引文类别进行划分和小范围的标注,不同的标注类别代表着引文在文章中不同的重要性。例如:Garfield 9从作者引用其他文献动机的角度,通过观察列出“提供阅读背景、修正他人工作、给予相关荣誉”等 15 种原因。这也是学界第一次从引用动机的角度对引文进行深层次的分析。Michael 等10研究了引用的冗余模式,他们对30 篇理论高能物理学文章中 575 篇参考文献进行了分析,从概念的使用、是否冗余、是否评论、观点的肯定与
17、否,将引用划分为 4 个大类,每个大类按照肯定、否定、中立划分为 3 个小类,共 12 个小类,并且发现 1/3 的参考文献是冗余的,1/7 是否定的,2/5 是敷衍的。表 1 科技文献引文分类体系Table 1 Citation Function Classification Schemes数据集样本数分类标签及占比Teufel et al.(2006b)112829Weak(3.1%)CoCoGM(3.9%)CoCoR0(0.8%)CoCo(1.0%)CoCoXY(2.9%)PBas(1.5%)PUse(15.8%)PModi(1.6%)PMot(2.2%)PSim(3.8%)PSup(1
18、.1%)Neut(62.7%)Ulrich(2011)121768Idea(23.80%)Basis(7.18%)Background(65.04%)Compare(3.95%)Li et al.(2013)136355Based on(2.8%)Corroboration(3.6%)Discover(12.3%)Positive(0.1%)Significant(0.6%)Standard(0.2%)Supply(1.2%)Contrast(0.6%)Co-citation(33.3%)Hernandez-Alvarez et al.(2016)142120Use(49.8%)Backgro
19、und(37.4%)Comparison(5.3%)Critique(7.8%)Matthew et al.(2018)153083Background(51.8%)Uses(18.5%)Compares(17.5%)Motivation(4.9%)Continuation(3.7%)Future(3.6%)Cohan et al.(2019)1611020Background(58%)Method(29%)Result(13%)Zhu et al.(2015)173143Influential Non-influentialValenzuela et al.(2015)18450Import
20、ant IncidentalJha et al.(2016)193271criticizing(16.3%)、comparison(8.1%)、use(18.0%)、substantiating(8%)、basis(5.3%)、neutral(44.3%)89数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 早期的引文分类是学者们对少量的特定领域文献引文分析后,提出的分类体系,其实证了引文分类的合理性8-10;同时导致了研究人员各自为政、标注体系过多的问题。学界和业界目前并没有统一的标注规范,影响研究成果的应用和推广。表 1 展示了现有的引文分类体系
21、和数据集,其中 ALC-ARC和 SciCite 数据集是现阶段引文分类领域公认的在分类标准和样本数量方面较好的数据集,被广泛使用,见表 2、表 3。总之,学者们对引文从不同的角度进行分析、构造和命名了众多的引文分类体系。本文认为如从引用目的、引用动机、引文功能、引用意图等角度看,引文分类的本质是通过对科技文献中涉及的外来要素(引文)进行定性分析,根据其在研究主题的逻辑链条中所起的不同作用或者角色,给予不同的标签(不同的标签体现了重要性的不同);从整体上看,这些分类体系之间只是分类的角度、粒度不同,相互之间存在包含、相交或者并列关系。本文统称为科技文献引文分类体系。2 基于统计机器学习的引文分
22、类研究2010 年以前,计算语言学、统计机器学习技术的发展以及文献全文获取相对便捷,引文分类研究重点由分类体系转向分类方法的研究,其中两种主要的方法被提出:第一种方法使用基于规则的策略,通过预定义线索词或者短语集合等语言学特征,利用决策树分类器分类20-22;第二种方法使用统计机器学习分类器,结合关键词词典或者线索短语进行分类,如 Teufel 等11使用将 K 设置为 3 的 K-NN分类器23,Angrosh 等24使用条件随机场分类器(Conditional Random Fields,CRF)25,尹莉等26使用支持向量机分类器(Support Vector Machines,SVM)
23、27,柏晗28使用贝叶斯网络算法进行引文分类。以上基表 2 ACL-ARC 数据集Table 2 ACL-ARC Datasets引文功能类别定义样本数Background提供施引文献的领域相关信息1021Uses使用被引文献的数据、方法等365Compare/Contrast与施引文献进行相似性或者不同的对比344Motivation引文展示了相关的数据、目标,方法等信息98Extends扩展了引文的数据或者方法等73Future引文是作者进一步工作的一部分68表 3 SciCite 数据集Table 3 SciCite Datasets引文功能类别定义样本数Background引文陈述、提
24、及或指向背景信息,提供关于问题、概念、方法、主题或领域中问题重要性的更多背景信息。5837Method使用方法、工具、或数据集2899Result将论文的结果/发现与其他工作的结果/发现进行比较136890数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 于统计机器学习的方法需要首先由语言学家人工抽取引文中的语言学特征,然后使用具备不同特征的样本数据训练分类模型完成引文的自动分类。使用基于统计机器学习的方法可以完成大规模的引文自动分类,然而也存在两个明显的缺点:其一,由于需要人工抽取语言学特征,导致训练数据集规模不可能太大;其二,不同学科的语言学特征
25、也存在差别,而语言学家由于缺乏相应的专业知识背景,其提取精度也存在一定的偏差。统计机器学习方法在进行文本分类时需要事先设计特征模板,然后从语法、关键词、线索词组等语言学的角度人工抽取特征,但是大而全的特征组设计可能使许多特征在数据集中仅仅出现一次,这样的特征在统计学上毫无意义。在完成特征抽取后,将这些特征输入分类器进行分类器的训练及预测。这种流水线式的作业方式存在严重的误差传播问题,亦即前一个模块产生的错误被输入到下一个模块中产生更大的错误,最终导致了整个系统的脆弱性。为了解决传统机器学习与自然语言处理中的数据稀疏、人工特征模板和误差传播等问题,人们将注意力转向了另一种机器学习的重要分支深度学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 技术 科技 文献 引文 分类 研究 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。