科技前沿探测中的科技信息融合方法研究.pdf
《科技前沿探测中的科技信息融合方法研究.pdf》由会员分享,可在线阅读,更多相关《科技前沿探测中的科技信息融合方法研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、情报学报 2023 年 8 月 第 42 卷 第 8 期Journal of the China Society for Scientific and Technical Information,Aug.2023,42(8):906-914科技前沿探测中的科技信息融合方法研究曾文,王海燕,陈峰,马红岩,金辉,王力(中国科学技术信息研究所,北京 100038)摘要 网络和信息技术的发展给科技情报的信息环境带来变化,科技信息融合方法是科技前沿探测研究中的关键问题之一,也是科技情报领域研究的新热点。本文在已有研究基础上,结合科技前沿探测的应用需求,提出科技信息融合方法,并以科技论文、专利和基金项目3
2、个维度的数据为信息源,对科技前沿探测中运用科技信息融合方法的可行性开展实证研究。研究结果表明,本文提出的研究方法可用于科技前沿探测,为后续此项研究的开展奠定了基础。关键词 科技前沿探测;科技信息;信息融合;情报Scientific and Technological Information Fusion Method for Scientific and Technical Frontier ExplorationZeng Wen,Wang Haiyan,Chen Feng,Ma Hongyan,Jin Hui and Wang Li(Institute of Scientific and T
3、echnical Information of China,Beijing 100038)Abstract:The development of information technology networks has changed the ecosystem of scientific and technological intelligence information.The fusion of scientific and technological information is one of the key issues in research on scientific and te
4、chnological frontier detection and a new hotspot in the field of scientific and technological intelligence research.Based on existing research and the application requirements of frontier detection,this paper proposes an information fusion method.Considering scientific and technological papers,paten
5、ts,and funded projects as information sources,an empirical study is conducted on the feasibility of scientific and technological information fusion methods for scientific and technological frontier detection.The results show that the method proposed in this paper can be used for scientific and techn
6、ological frontier detection,laying a foundation for subsequent research.Keywords:scientific and technical frontier exploration;scientific and technological information;information fusion;intelligence0引 言在科学技术发展的历史长河中,具有重大变革性作用的科学技术会从不同程度影响世界的科技和经济环境,每次科技革命均会影响世界力量的布局。2017 年 10 月 27 日,党的十九大报告指出,要瞄准世界
7、科技前沿,强化基础研究,实现前瞻性基础研究、引领性原创成果重大突破。2018 年 5 月 28日,习近平总书记在中国科学院第十九次院士大会、中国工程院第十四次院士大会开幕会上发表重收稿日期:2023-01-03;修回日期:2023-05-17基金项目:国家自然科学基金面上项目“基于开源情报的科技前沿多维度探测方法及模型研究”(72074201)。作者简介:曾文,女,1973年生,博士,研究员,主要研究方向为科技情报理论与方法;王海燕,通信作者,女,1974年生,博士,副研究员,主要研究方向为科学计量、情报研究,E-mail:;陈峰,男,1965年生,博士,研究员,主要研究方向为竞争情报;马红岩
8、,女,1997年生,硕士研究生,主要研究方向为竞争情报;金辉,女,1983年生,硕士,工程师,主要研究方向为知识组织体系研究;王力,女,1993年生,助理研究员,主要研究方向为知识组织与知识服务。DOI:10.3772/j.issn.1000-0135.2023.08.003第 8 期曾文等:科技前沿探测中的科技信息融合方法研究要讲话时强调,我国广大科技工作者要瞄准世界科技前沿,引领科技发展方向。2019 年 10 月 29 日,习近平总书记在第二届世界顶尖科学家论坛的致贺信中指出,中国高度重视科技前沿领域发展,致力于推动全球科技创新协作。科技前沿探测研究旨在为国家科技创新和科技战略决策服务,
9、支持相关科技管理部门和科技创新主体科学预测科技前沿,掌握科技前沿研究方向,抢占科技发展的先机,及早进行科技发展战略的规划和布局。探测具体科技领域的科技前沿研究或技术是世界各国实施科技战略决策和部署的基础,科技发展的加速化、学科领域的集成化、跨领域结合等新内涵赋予科技前沿研究或技术呈现战略性、继承性、未来性等新特征,要求情报机构必须长期坚持开展科技前沿研究,必须不断创新和发展科技前沿研究方法以保证前沿探测的准确性。开源情报是开展科技前沿探测研究的主要信息来源,开源情报在数据层次和内容层次上可呈现不同时空维度的科技前沿信息特征表现,与目前已有其他研究或应用领域的多源信息融合问题研究相比,基于开源情
10、报的科技前沿信息融合问题更为复杂。特别是不同维度的科技信息如何经过分析融合以获得科技前沿信息是当前前沿探测研究的空白。由此,本文将来自不同维度的科技信息类型进行不同层次融合的方法称为科技信息融合方法。在科技前沿探测过程中,科技信息融合方法是解决科技前沿探测有效性的重要方法。1相关研究现状目前,国内外学者对于科技前沿概念的问题尚未统一。相关概念主要可以分为 3 种:基于论文数据识别出的科学研究前沿。1965年,美国科学计量学家de Solla Price1提出“研究前沿”的概念,将某个研究领域内的近期发文规模在 3050 篇且引用频次高的文章集合成为研究前沿。2009 年,Aris等2提出“研究
11、前沿”为新出现的科学主题,并从主题维度定义研究前沿的新颖性特征。基于专利数据识别出的技术前沿。2019 年,Garechana 等3将技术前沿定义为作为广泛技术基础的特定设备或广泛开发的核心技术解决方案。2022 年,关陟昊等4认为,技术前沿是指在特定时间节点针对某一领域而言具有发展潜力的、尚未成熟的新兴技术。基于科技文献、开源项目等多维度数据识别出的科技前沿。本文认为,科技前沿是指在某一科技领域中具有继承性、未来性和战略性特征的研究或技术。其中,继承性是指在已有研究成果的基础上提出和发展代表该领域的最先进科学技术;未来性是指超越现在的科学技术,将来某一阶段被人类掌握和使用的科学技术5;战略性
12、是指具有较大发展潜力或能够产生较大影响的一类科学技术。通过对国内外科技文献的调研发现,国内外关于科技前沿的研究主要集中在研究前沿或技术前沿的探测,研究前沿探测基本以学术论文为主要情报源6-7,技术前沿探测基本以专利文献为主要情报源8,探测方法通常以定量和定性分析方法为主。从数据的视角看,目前涉及科技前沿问题的相关研究主要分为 3 种,即基于论文数据识别出的研究前沿、基于专利数据识别出的技术前沿以及基于多源数据识别出的科学前沿。其存在的主要问题聚焦于开源情报的“源”和“方法”两个方面,具体指:情报源有限。如定量分析方法依赖 Web of Science、Scopus、Derwent等数据库的科技
13、论文、专利分别进行科技前沿探测的情报研究工作9-11,科技前沿的战略性、未来性体现不全面。探测结果的完备性有限。如定量分析方法主要是从统计视角对科技论文、专利分别进行引文或引证分析12-13,或对科技文献内容(标题、关键词、摘要)中的主题词或关键词进行统计分析14-15,得出科技前沿探测结果源于单一维度的信息分析结果。信息和网络技术的发展所带来的信息环境的变化,使得用于科技前沿探测的信息来源更为丰富,即已不再局限于单一的科技信息。已有科技前沿探测研究通常以对科技论文、专利分别进行分析为主,信息源分析维度的有限导致前沿分析结果限于当下可见的研究热点或技术热点,信息源的不足导致探测结果尚不能满足科
14、技战略决策对信息的完备性要求,因此,基于多源信息的科技前沿探测研究成为必然。但是,不同类型开源信息源具有各自特点,不同类型信息源的前沿探测结果如何融合形成探测结论是当前研究的空白。因此,必须提出新的多源科技信息融合方法加以解决。多源信息融合,简称“信息融合”,最早出现在美国军事系统中,最初被称为数据的多源相关性融合,此后逐渐发展成为一门独立的学科16,数据融合、多传感器信息融合均与此概念相关。国外研究人员在信息融合或数据融合方面的研究集中在工程、计算机科学、仪器仪表、化学、电信、生态环境科学、遥感、影像科学摄影技术、地质、物理、数学、自动化控制系907第 42 卷情 报 学 报统、材料科学等研
15、究方向,鲜有图书情报领域的公开性研究报道。国内有研究人员在情报分析中将多源信息划分为同型异源信息、异质异构信息以及多语种信息,并对多种类型信息的融合方法进行了研究。该领域的研究主要集中在数据内容层次,但是在特征级和决策级层次的信息融合方法研究非常有限。例如,通过基于 LDA(latent Dirichlet allocation)主题模型识别文本主题,LDA 主题模型方法虽然从浅层语义的角度出发,兼顾了文本的上下文语境,但其主题表达维度低,忽略了深层的语义表达关系17-18。本文认为,科技情报领域的信息融合问题与情报任务、任务场景具有密切关联性。科技前沿探测的主要任务是支持科技创新主体和科技战
16、略决策部门研判和预测科技前沿。科技前沿探测的任务场景是一种“或然预见”,这种预见是指描述现实中尚不存在的科技发展状况或技术前景问题,并且预见结果是不充分和不确定的,运用方法或模型计算的结果通常是近似值,具有或然性。因此,为最大化地解决科技前沿探测结果的不充分和不确定问题,科技信息融合方法成为一个关键环节和解决途径。2科技信息融合方法科技信息融合方法是解决科技前沿探测过程中多来源开源情报融合问题的主要手段,是实现科技前沿探测结果研判和未来预测的基础。当前,多种来源的开源情报在数据层次上呈现多分类、多模态的特点,在信息内容层次上,不同维度的统计和语义分析结果具有各自的特征表现,融合不同维度的科技信
17、息是有效探测科技前沿的基础。不同类型的开源情报源在具体的科技领域,其内容存在一定的关联性,这是实施科技信息融合方法的基础,那么对不同类型和内容的情报源采取何种方法对科技前沿探测方法得到的探测信息进行表征、关联和融合是科技信息融合方法的主要内容。与目前已有其他研究或应用领域的信息融合问题相比,科技前沿多探测中的信息融合问题更为复杂,如每个维度数据的信息特征如何抽取?特征之间如何关联?各维度的科技前沿探测信息之间是否存在研究或技术的关联?这些信息采用何种方法进行融合?等等。这些皆是面向科技前沿探测的信息融合方法需重点思考和研究解决的内容。本文认为,基于结构的语义分析技术可用于科技信息融合方法中,即
18、将科技信息表示成具有一定语义关系的特征向量,通过算法设计获取语句结构中的研究或技术的更完整概念、关键词、概念和概念、关键词和关键词之间的关系,以更加准确地提取和表达科技信息所蕴含的特征及其关系。本文提出的科技信息融合方法是以基于doc2vec 模型的语义分析技术和基于 SAO(subject-action-object)结构的语义分析技术为主进行的方法设计,即通过语义分析技术实现各维度科技信息的特征分析及其量化表示,通过聚类和相似度方法解决多维度科技信息的融合问题,实现关系融合和聚类融合。2.1 相关研究方法(1)doc2vec模型doc2vec 是一种深度学习方法,通过长文本向量的计算获得句
19、子、段落以及文档的向量表达进行预测。其优点是可以使用不同长度的句子作为训练样本,预测出来的词具有词义。doc2vec 有 PV-DM(distributed memory model of paragraph vector)和PV-DBOW(distributed bag of words version of paragraph vector)两种模型。前者是通过给定的上下文和段落向量预测中心词的概率,输入词对应的词向量与该句子对应的句子向量作为神经网络输入层的输入;后者则是在给定段落向量的条件下预测段落中一组随机单词的概率,句向量作为神经网络输入层的输入。(2)SAO结构及识别方法SAO
20、结构是一种从文本语料中抽取主-谓-宾的三元组结构,该结构是以事实为导向,表示解决问题方法的基本函数单元。其中,subject 和 object 主要由名词或名词词组组成,用于表示技术或产品信息;action 主要由动词或动词词组组成,用于表示subject 和 object 之间的关系。SAO 结构具有丰富的语义信息,可以表达和识别词语之间的关系。SAO结构提取使用的自然语言处理的方法主要分为基于模式匹配和基于机器学习的方法。基于模式匹配的提取方法是通过识别句子的动词,通过句法分析、依存关系分析等识别关系及关系实体;基于机器学习的提取方法是通过分类方法,如 SVM 方法实现关系分类和抽取。(3
21、)k-means聚类算法k-means 聚类算法是一种常见的无监督机器学习方法,其将数据分组到指定数量 k 的聚类类别中,在聚类之前需要指定 k 值。用于选择最佳 k 值的可视化技术,如轮廓系数,可以通过调用 Python908第 8 期曾文等:科技前沿探测中的科技信息融合方法研究中 Yellowbrick 库的 KElbowVisualizer 函数实现轮廓系数的可视化。轮廓系数是评价 k-means 聚类效果的一种方式,其通过对每个样本的轮廓系数求平均值来计算总体轮廓系数,计算公式为S(i)=b(i)-a(i)max a(i),b(i)(1)其中,S(i)为第i个样本的轮廓系数;a(i)表
22、示i向量到同簇内其他点不相似程度的平均值,体现凝聚度;b(i)表示i向量到其他簇的平均不相似程度的最小值,体现分离度。所有样本的S(i)的均值为聚类结果的轮廓系数,聚类结果的轮廓系数的取值在-1,1区间。其中,1表示高密度聚类,-1表示完全不正确的聚类,接近 0 表示重叠聚类。轮廓系数值越高,表示聚类内越精密,类间越分离。2.2 科技信息融合方法的设计本文设计的科技信息融合方法主要实现了多维度信息的特征级关系融合和决策级聚类融合。其中,关系融合是指从文本数据内容中抽取语义关系,从分类信息中抽取分类关系,从引用信息中抽取引用关系,将语义关系、分类关系和引用关系融合成一个新的关系以揭示实体信息的特
23、征情况。聚类融合是指对每一维度的信息进行聚类,获得每一维度信息的聚类簇,每一个聚类簇称为一个决策主题,再进行多维度信息在主题层面的融合。(1)多维度科技信息的关系融合多维度科技信息的关系融合是指将多种来源和类型科技数据的外在关系(如直接引文、合著关系)、主题关系(如主题词共现)、语义关系等融合成一个新的关系,以揭示多维度信息实体之间的关联情况19,主要涉及以下4个步骤:Step1.根据文本内容获取语义关系。获取已处理数据的文本内容(标题和摘要),对文本内容进行分词、去标点符号、去停用词、去数字、词形还原等处理后,采用 doc2vec 模型训练文本内容得到文本向量,文本向量在空间上的相似度可以用
24、来表示文本语义上的相似度。Step2.根据文本分类信息获取分类关系。以科技文献为例,通过获取科技文献的分类信息构建分类向量,分类向量的元素值是该文献与其他文献的共同分类强度,若文献共同的分类号数量多,则表明文献的研究主题比较相似。分类向量的元素值计算公式为Aij=BijCij(2)其中,i、j分别表示第 i篇和第 j篇文献;Aij指第 i篇文献的第 j 个元素值;Bij表示第 i 篇文献和第 j 篇共有分类号的数量;Cij表示第 i 篇文献和第 j 篇文献分类号并集中元素的数量。Step3.根据文本的参考文献获取引用关系。引用向量的元素值是该文献与其他文献的共同引用强度值,若文献共同参考文献的
25、数量多,则说明文献的研究主题比较相似,获取方法与 Step2构建分类向量的方法相同。Step4.根据 Step1Step3 得到的向量获取融合向量。将已获取的文本向量、分类向量、引用向量等 3 种向量通过首尾相连方式进行融合,从而获得文献的多关系融合向量。(2)多维度科技信息的聚类融合多维度科技信息的聚类融合是将相同类型科技信息的若干次聚类结果或对不同来源不同类型科技信息的聚类结果进行融合,其中聚类算法可运用一种聚类方法或多种聚类方法。本文所述的聚类融合主要分为聚类簇划分和聚类簇融合两个阶段。其中,聚类簇划分是对不同维度的科技信息数据分别进行聚类,得到不同维度信息的相关主题;聚类簇融合是对得到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科技前沿 探测 中的 科技 信息 融合 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。