新兴技术识别与演化路径分析...研究——以集成电路领域为例_高楠.pdf
《新兴技术识别与演化路径分析...研究——以集成电路领域为例_高楠.pdf》由会员分享,可在线阅读,更多相关《新兴技术识别与演化路径分析...研究——以集成电路领域为例_高楠.pdf(10页珍藏版)》请在咨信网上搜索。
1、新兴技术识别与演化路径分析方法研究以集成电路领域为例高楠1,2,高嘉骐2,陈洪璞2(1.中国科学技术信息研究所,北京 100038;2.北京大学 信息管理系,北京100871)摘要:【目的/意义】通过综合使用论文和专利数据源,开展新兴技术的识别与演化路径方法研究,期望以此提高学科领域新兴技术探测研究的准确性和科学性。【方法/过程】首先,针对集成电路这一特定领域使用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,并利用LDA主题模型发现并识别集成电路领域隐含的技术主题,构建新颖度、强度和热度等多维指标对新兴技术进行对比和甄别。其次,划分时间窗,采用余弦相似度算法计算相邻时间窗内主题
2、间的相似性,以可视化路径的形式将筛选结果进行呈现,以此判断主题演化关系类型。【结果/结论】研究发现,集成电路领域呈现学界与业界研究成果相互促进的良好态势,结合论文与专利数据的新兴技术识别方法,可以有效且清晰的发现集成电路研究领域的热点型、增长型、成熟型和潜在型技术主题,并通过新兴技术演化路径的构建,揭示了领域科学与技术间知识的交互与转移。【创新/局限】本研究创新性采用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,提高了词袋构建质量,为后续基于LDA主题模型识别隐含的技术主题奠定了基础,但在数据源的多样性、时滞性问题,以及模型阈值设置的客观性上还存在局限性,需要进一步加强相关研究
3、。关键词:LDA模型;集成电路;新兴技术识别;Word2Vec;演化路径中图分类号:G250.2;TM73DOI:10.13833/j.issn.1007-7634.2023.03.015收稿日期:2022-03-05基金项目:社科基金青年项目“基于多源数据的新兴技术识别方法与演化路径研究”(21CTQ038)。作者简介:高楠(1992-),女,山西临汾人,博士研究生,馆员,主要从事专利分析、前沿识别研究;高嘉骐(1997-),男,河北石家庄人,硕士,主要从事学习路径自动生成、教育数据挖掘研究,通讯作者:gjq_;陈洪璞(1998-),男,江西鹰潭人,硕士,主要从事知识计量、数据挖掘研究。从欧
4、盟“地平线2020”计划到德国“工业4.0”战略计划,再到中国的“十四五”国家科技创新规划,世界各国都在积极制定科技发展战略并加强科技创新部署。在这样的社会大背景下,技术的增长和更新迭代的速度在持续提升,同时技术之间的组合性、交叉性、变化性和依赖性也在不断占据越来越重要的地位,而如何快速、准确地识别出具有较大发展潜力的新兴技术成为了各国关注的热点。从国家角度来讲,新兴技术的预测与识别有助于国家技术的总体布局与发展规划;从企业角度来讲,发现并识别具有潜力的新兴技术有助于提前规划、快速研发、节约成本和降低风险,更有助于确定研发重点和投资方向;从研究人员个人的角度来讲,识别新兴技术可以帮助研究人员了
5、解领域新动向,使得关键的早期投资能更好地获得回报,促进产学研的结合。因此,拓展新兴技术识别方法,提高新兴技术识别准确性,缩短新兴技术预测周期,深入把握技术领域适用性,描绘技术演化路径,对于新技术在未来的发展布局具有重要战略意义,也是迫切的现实需要。然而,目前学界对新兴技术的研究往往采用单一的数据源,如单一的论文数据或专利数据,这在一定程度上影响了新兴技术识别的科学性和准确性。专利文献完整记录了专利活动,同时包含了技术属性和市场属性,是世界上反映科学技术发展最迅速、最全面、最系统的信息资源,是技术的实用性结果体现;科学论文是一个领域技术发展的另一个重要显性表征,是技术酝酿与萌芽的科学土壤。因此,
6、本文旨在综合使用论文和专利数据源,开展新兴技术的识别与演化路径构建研究。1 相关研究1 1.1 1 新兴技术概念与特征新兴技术概念与特征新兴技术最早由宾夕法尼亚大学商学院提出了被广泛认可的定义:建立在科学基础上的技术革新,可能创造一个新行业或改变某个老行业【1】;Cozzens【2】认为新兴技术是有巨大潜力但尚未证明其价值或还未达成任何共识的技术;Rotolo【3】认为新兴技术作为一种全新的、相对快速发展的技术,其特点是具有一定程度的持续性,并有可能对社会经济领域产生相当大的影响,其最突出的影响在于未来,因此在情报科学20232023年第年第3 3期期(第第4141卷卷)业务研究-127现阶段
7、仍有些不确定和模糊性。总的来说,所谓的新兴技术就是一种新出现的、快速发展的,依托高科技技术且可能引领或开创新的科学领域,具有较大的市场与经济潜力,可能改变某个老行业,但目前仍然具有不确定性的技术。尽管研究者对新兴技术的概念看法不一,但均可提炼出以下特征【3-5】:一是激进的新颖性,该技术新近涌现或正在发展,这种“新”反映在时间和内容上,会对行业形成创造性毁灭;二是相对增长性,即与同一领域中的其它技术相比时,新兴技术发展速度往往更快;三是发展的连贯性,新兴技术是在其他成熟技术的基础上衍生、融合和发展而来,是对原有技术的继承与超越;四是不确定与模糊性,这种不确定性代表着新兴技术的复杂性,新兴技术可
8、以是多个学科领域交叉融合的结果,其发展态势、演化方向和影响力等都是不明确的;五是显著影响性,新兴技术会对其所属行业以及社会、经济产生重要影响。1 1.2 2 新兴技术识别方法新兴技术识别方法新兴技术识别主要分为定性分析法和定量分析法,本文主要关注定量分析方法,主要分为基于引文分析的探测方法和基于内容主题的探测方法【6-7】。(1)基于引文分析的探测方法又可划分为直接引文分析、共被引分析、耦合分析、混合分析等,其核心思想为基于文献之间的直接引用、共被引、耦合等关系构造关联网络,采用社会网络分析中的社团发现算法(如KL算法、GN算法、Fast Newman算法、Louvian算法等)与谱聚类算法等
9、划分团簇,从而发现潜在的主题。例如,学者Wang【8】基于文献之间的直接引用关系对其进行聚类,以此发现石墨烯领域中的技术主题,并结合一系列特征指标开展新兴技术的识别与分析。Small【9】将两个基于大规模科学文献的直接引用和共被引模型聚类结果进行结合,通过差异函数来筛选技术主题,该函数能有效识别新的、快速增长的主题集群,最终识别出2007-2010年每年的top25个新兴技术主题。这类识别方法的问题包括引用行为偏好无法避免,对高质量的引文数据库依赖性较大,过多的关注于高被引文献,使得低被引文献的研究内容被忽略等。(2)基于内容主题的探测方法。该方法以文本词汇分布特征为依据,主要包括词频分析、共
10、词分析、主题模型、机器学习等。相较于引文分析法,基于文献内容开展主题分析能够在更加微观的层面,揭示科学知识体系内部的各个实体关系特征,对文献资料的挖掘更深入【10】。词频分析是主题探测中最基础的方法,虽然能够在一定程度上揭示目标领域的研究内容特征,但无法用于挖掘科研领域中潜在的技术主题,也无法揭示主题词之间、主题与文献之间的语义关联及相似性。共词分析法通过构建主题词共现矩阵,然后进行聚类得到新兴技术主题。共词分析的缺陷在于对前期数据清洗要求较高,且受限于关键词间的关联关系,如当新兴研究主题与其它传统领域的关联度不高时,很难通过共词分析来识别出来。主题模型能够实现以非监督机器学习的方式,对文献中
11、隐含的语义结构进行揭示。在新兴技术识别中最常用的主题模型即 LDA 及其各种衍化版模型,如 DTM、cDTM、DIM、PLDA等。LDA模型将每一篇文档表示为一些特定主题所构成的一个概率分布,而每一个主题又被表示为很多词所构成的一个概率分布,以此构建并揭示出文档与技术主题之间的关系【11】。董放等【12】使用LDA主题模型和SVM分类模型相结合的方式共同处理论文的摘要数据,实现了对一定数量的论文按照特定技术主题进行分类的任务,并使用ARIMA模型预测未来论文数量变化的趋势,从而判断新兴技术领域未来的发展潜力;D.Choi等【13】利用LDA主题模型确定特定领域的主题,同时计算每个主题的专利份额
12、以及该主题专利份额随时间的变化率,以此识别潜在的技术主题并对其进行分类,得出物流领域主导、新兴、饱和和衰退这4种不同的技术主题。此外,也有学者采用深度学习算法进行新兴技术识别,如Liang等【14】首先采用深度神经网络中的LSTM和NNAR,结合9种计量指标来对技术主题的热度分值进行预测,该指标以时间序列的方式反映候选技术主题的影响力和增长性;其次,从高热度候选技术主题中筛选出新颖性高的新兴技术主题。但此类基于监督的机器学习模型,需要大量人工标记的训练样本,才能保证训练结果的质量,且学习门槛较高,因此不作为本文方法的首选。综合考虑主题识别效果、数据集特点、研究目的、学习门槛等众多因素,最终选择
13、LDA主题模型进行本研究的主题识别。1 1.3 3 新兴技术演化方法新兴技术演化方法目前,关于新兴技术演化方法主要包括以下4种:(1)基于曲线拟合的演化方法,该方法主要基于领域文献数量的历史增长情况描绘出其在未来的数量变化曲线,一般用于预测技术主题的研究热度在未来的演化趋势,或辅助判断新技术出现的时机,常用的曲线拟合模型包括Logistic、密函数、对数函数、AR、MA、ARMA、ARIMA、ARCH、GARCH等【15】。传统的曲线拟合方法已发展的很成熟,没有太多突破性进展。(2)基于引文网络主路径的演化方法。“主路径”的一词最早由Hummon等【16】于1989年提出,其基于网络结构的连通
14、性提取了引文网络的主路径,认为知识从被引节点流向引用节点,从而追踪领域的技术发展轨迹。常用的路径搜索算法有 SPC(Search Path Count)、SPNP(search pathnode pair)、SPLC(search path link count)、NPPC(node pair projectioncount)【17】。如Liu等【18】提出了一种综合的主路径分析方法,即提供了全局主路径、溯源局部路径、多重主路径和关键主路径分析,从多种角度补充基于原始主路径分析的不足。该方法由于仅关注主路径网络,会导致其他非主路径网络上的信息被忽略,且不适于大型网络的分析。(3)基于多元实体关
15、联的演化方法。该方法对不同类型Information ScienceInformation ScienceVol.41,No.3 2023-128的实体关系进行整合,以弥补基于单一实体关系进行演化分析的不足。Jensen等【19】通过论文、作者、关键词、期刊这4种实体,以及实体间的5种直接关系、3种衍生间接关系来构建基于元路径的主题演化树,并为链接节点的边赋予归一化非零权值,从而揭示主题演化的来源路径和演化路径。该方法的难点在于多元关系的表达和整合,以及实体间关联权重的计算,由于复杂性较高,目前应用仍然较少。(4)基于时序主题关联的演化方法。该方法首先将数据集划分为时序子集,然后在每个时间窗口
16、下分别进行主题识别或网络聚类,再基于相邻时间窗口的主题关联性确定技术演化路径,以研究新兴技术在其整个生命周期中的酝酿、产生、发展和演化的过程。如Cobo等【20】基于时序共词网络聚类来探测主题演化路径,主题关联性由相邻时间窗口的主题对所包含的相同词元素来衡量,并结合h指数等计量指标来反映主题的影响力。这类演化方法是目前新兴技术演化分析中应用最广泛的一种方法,也是本文将采用的方法。2 研究方法本文旨在借助LDA主题模型识别集成电路领域的新兴技术主题,并希望以此来揭示其细致的动态演化过程,从而进一步提炼出集成电路领域未来的发展特征和发展方向。研究过程主要包括:前期集成电路领域专利与论文数据收集与预
17、处理、基于LDA主题模型与多维指标的新兴技术甄别、新兴技术演化路径构建等环节(见图1)。2 2.1 1 数据预处理与词袋构建数据预处理与词袋构建新兴技术主题识别与演化分析最重要环节之一即数据预处理,后续主题聚类结果的准确度及效率都与其有着密不可分的关系,因此对论文以及专利数据的信息提取、分词、去除停用词,进行词规范等数据预处理工作必不可少。首先,对于论文数据,将文献的关键词作为词袋元素,并对关键词进行了必要的格式处理,包括将词汇全部转化为小写格式,并剔除括号中的缩写、注释性文本。其次,由于专利文献没有关键词的元数据字段,因此可从其题名与摘要中抽取关键词作为词袋元素。本文将清理后的全部论文关键词
18、添加到nltk第三方库的分词词典中,利用nltk提供的分词工具对专利的题名与摘要文本进行分词处理,并过滤停用词、标点,以及词性为连接词、介词、人称代词、感叹词等无实际含义的其他词汇,随后采用TF-IDF算法从每篇专利的摘要文本中抽取了专利的关键词(关键词数量为清理后的摘要文本的总词汇数量的1/10),将其作为每篇专利文献的词袋元素。此外,本文采用Word2Vec语义相似度与字符串相似度相结合的方法对词袋中的词汇进行了同义词归并操作,以提升LDA模型的效果。其中,Word2Vec模型能够利用神经网络的方法将文本中的单词以词向量的形式表示,词向量的每个维度代表了词汇的一个语义特征【21-22】,通
19、过两个词汇的特征向量余弦相似度表示二者之间的语义相似度(sim1),sim1的数值大小刻画了两个词汇在语义上指代相同内容的可能性。字符串相似度则利用编辑距离表示,即将一个字符串转换成另一个所需的最少编辑操作次数(假定为n)【23】,假定两个字符串中较长的字符数为N,则利用(1 n/N)表示二者之间的字符相似度(sim2),sim2的数值大小刻画了两个词汇在字面含义上指代相同内容的可能性。进一步,研究利用语义相似度(sim1)与字符相似度(sim2)的加权平均值表示两个主题词之间的综合相似度,如公式(1)所示:sim=sim1+sim2(1)其中,为人工赋予的权重值,用于调整两部分相似度数值的重
20、要性。对于给定的阈值,若两个词汇的综合相似度满足sim,则将其归并为同一词汇。2 2.2 2 主题识别主题识别LDA(Latent Dirichlet Allocation,LDA)模型【24】是一种非图1 新兴技术识别与演化框架图Figure 1 Emerging technology identification and evolution frame diagram高楠,高嘉骐,陈洪璞.新兴技术识别与演化路径分析方法研究以集成电路领域为例J.情报科学,2023,41(3):127-135,172.-129监督机器学习技术,通过生成文档-主题矩阵和主题-词汇矩阵,以文本-主题-词语的结构来
21、识别文档中主题,将文档转化为词向量,可以识别出大规模语料库中潜藏的主题信息。LDA模型具体的数学化描述如下:针对每个文档d D,依据dDr(),获得文档d中主题的多项式分布参数d。针对每个主题z K,依据zDr(),获得主题z中词汇的多项式分布参数z。针对文档d中的词汇wd,j,依据多项分布zd,jMult()z,获得主题zd,j;依据多项分布wd,jMult()d,获得词汇wd,j。其中,和为预先设置好的常数;w为观测参数;、z为需要进行推断的3个潜在参数。模型训练中,如何科学地确定主题参数K是研究的关键。本文采用评价指标Perplexity(困惑度)来确定LDA模型的最优主题数。困惑度公式
22、如式(2),其中Dtest为测试集;D为文本数量;wd为文档d中的可观测单词序列;Nd为文档d的单词数目。PerPlexity()Dtest=exp|d=1Dlog P()wdd=1DNd(2)困惑度能够衡量LDA主题模型预测样本的精确程度,困惑度值越小,预测精准度越高。2 2.3 3 多维指标体系构建多维指标体系构建本文通过主题强度、主题新颖度、主题热度3个特征指标,来进行新兴技术甄别、评估和分析。其中,新颖度体现了技术主题的时效性,强度是衡量技术主题领域重要性的量化指 标,而 热 度 则 反 映 了 技 术 主 题 在 领 域 中 的 受 关 注程度【25-26】。(1)主题强度(Tzt)
23、研究利用t时间段内主题z在所有文献中的权重总和来表示主题的强度值(记为Tzt),该值可通过主题概率模型给出的文档-主题矩阵得到。进一步,研究定义平均主题强度计算公式如下:ATt=1NTztN(3)其中,Tzt表示z的主题强度值,N表示t时间段内所识别到的主题数量,ATt表示t时间段内分析数据源所有主题的平均主题强度值。平均主题强度是判断某一主题强度值高低的基线,TPt的计算公式为:TPt=TztATt(4)(2)主题新颖度(Nz)研究利用某主题所包含论文的平均发表年或专利的平均申请年来反映每个主题的新颖性,其计算公式为:Nz=i=1nyin(5)其中,Nz表示主题z的新颖度,n表示主题z涉及的
24、论文或专利的数量,yi表示论文的发表年或专利的申请年。(3)主题热度(Hz)研究利用某主题内所包含的文档数量与所有主题所含平均文档数量的比值来刻画主题的热度,其计算公式为:Hz=Nnzt1Nnzt(6)其中,Hz表示主题z的热度,N表示t时间段内识别到的主题数量,nzt表示主题z涉及的论文或专利的数量。2 2.4 4 新兴技术甄别新兴技术甄别通过对比论文与专利识别出技术主题,可以将其分为共同存在主题和非共同存在主题,再结合新颖度和技术强度可将识别出的技术主题进行分类。其中,如何识别论文与专利中的共同存在与非共同存在的技术主题是新兴技术甄别的关键。本研究将从论文与专利中挖掘到的技术主题的主题词概
25、率分布作为其特征向量,计算了两类文献中任意两个主题之间的余弦相似度数值,并将主题相似度超过特定阈值的主题对定义为共同存在主题,其他主题则为非共同存在主题。对于共同存在的技术主题,可进一步根据主题的技术强度、新颖度数值将其划分为热点型新兴技术、增长型新兴技术、成熟型新兴技术;对于非共同存在的技术主题,则可以将其划分为成熟型新兴技术和潜在型新兴技术【25】(见图1),各类新兴技术的特点如下所示:(1)热点型新兴技术:近期出现的、具备较高领域影响力与研究热度的技术主题,受到研究者广泛关注,具有较高的新颖度与技术强度。(2)增长型新兴技术:这类技术主题的活跃年份相对较新,在学界与业界开始逐步占有一席之
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新兴 技术 识别 演化 路径 分析 研究 集成电路 领域
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。