2022技术结构图谱.pdf
《2022技术结构图谱.pdf》由会员分享,可在线阅读,更多相关《2022技术结构图谱.pdf(83页珍藏版)》请在咨信网上搜索。
1、技术结构图谱Mapping Technology Structure技术结构图谱 202202第一章引言引言.1第二章研制方法一、专利分析数据.4二、技术结构图谱构建方法.5第三章技术结构及其演变一、技术结构图谱 20162021.11二、WIPO 分类体系在技术结构图谱的映射.18三、不同核心专利数据集构建的技术结构图谱的对比分析.21四、人工智能领域技术结构的演变分析.25第四章国家技术创新布局一、中国及科技发达国家整体技术研发活跃度.33二、中国及科技发达国家技术研发覆盖广度.35三、基于技术结构图谱观察中国及科技发达国家的技术布局.38四、中国及科技发达国家优势技术领域分析.42CON
2、TENTS第一章 引言03第五章热点技术领域分析一、手术器械.47二、智能诊察与监护.51三、通信网络.54四、光学与光电子.57五、锂离子电池.60六、智能汽车.63第六章结语结语.68附 录附录一.中国及科技发达国家技术研发活跃度排名前 10 的技术焦点.(含至少 10 件两方专利).69附录二.20162021.年.WIPO.技术领域的技术焦点、专利数量统计.75附录三.中国及科技发达国家在 WIPO 技术领域中两方专利分析.76附录四.中国及科技发达国家在 WIPO 技术领域中技术焦点分析.7801第一章 引言第一章 引言2建设科技强国必须加强重大创新领域的战略研判和前瞻布局,加快科技
3、安全预警监测体系建设。为了解世界技术创新布局,把握未来科技发展方向和关键核心技术,中国科学院科技战略咨询研究院利用大数据分析和深度学习技术,从百万级世界专利中发现专利的文本规律,以揭示专利技术间隐藏的深层关联关系及结构特征。针对高影响力专利进行聚类分析,发掘全球领先机构聚焦的技术方向,构建了世界技术焦点数据库,并绘制描绘全球技术竞争态势的技术结构图谱。技术结构图谱,通过深度学习技术与可视化技术,以直观形象的可视化方法宏观展示错综复杂的专利技术间的结构特征,揭示了技术方向间的关联关系与发展态势。通过图谱可以快速、全面、客观地把握世界技术态势,遴选国际上重要的技术焦点、技术前沿等,评估世界主要国家
4、在这些技术焦点上的技术实力,寻找优势与差距方向等,为科学决策提供客观依据与数据支撑。中国科学院科技战略咨询研究院技术结构研究组自 2017 年开展相关研究,持续跟踪业界最前沿的机器学习技术,不断改进分析数据和分析方法,先后构建了两版“专利文本特征抽取模型”。第二版“专利文本特征抽取模型”,通过结合大量专利文本及专利特征信息的后训练,改进 Google.的 BERT 预训练模型,使之适用于专利文本。运用该模型,对遴选专利数据进行聚类,构建了高影响力专利技术的世界技术焦点数据库,同时,利用技术焦点间的关联关系绘制技术结构图谱。至 2023 年,研究组先后完成了 2012-2017 年、2014-2
5、019 年、2016-2021 年三个时期的技术焦点数据库构建与技术结构图谱绘制与解读分析工作,其中前两期报告的专利数据选用三方同族专利(同时在美国专利商标局、欧洲专利局、日本特许厅寻求保护的专利,简称“三方专利”),本期报告选取两方同族专利(同时在美国专利商标局、欧洲专利局寻求保护的专利,简称“两方专利”)作为底层数据。专利信息可以反映全球所有技术领域的最新发展动态和最活跃的创新技术,但如何从海量的专利数据中,构建合适的数据集来研制技术结构图谱一直是本研究的一项核心研究任务。技术结构图谱2021中我们沿用创新性评价的一个重要指标,即三方专利,作为底层数据,报告获得了很好的反响的同时,专家也提
6、出三方专利数据相对陈旧以及各国专利失衡的问题。技术结构图谱 2022研制过程中,研究团队力求回应专家关切,在进行严谨数据分析的基础上,结合专家研判,选用两方专利作为本期报告的底层专利数据。与三方专利相比,两方专利总量增加了一倍,且平均公开年“更年轻”提前了半年。同时,美国、欧洲和中国等国家和地区的头部企业无论是专利总量还是占比都有大幅增加。技术结构图谱 2022报告对公开日 2016-2021.年间的.600.654.件两方专利进行聚类,形成了12.293 个技术焦点。通过将技术焦点中的高维专利文本特征向量映射到二维空间中,可视化展现全球视野的技术结构图谱,直观形象地展示世界专利技术的结构特征
7、以及技术焦点间的关联关系与发展进程。基于技术结构图谱,叠加不同国家的专利份额,可清晰揭示不同国家在技术创新布局上的偏重,找出中国的差距。报告选取技术结构图谱中的热点技术领域(技术结构中的高密度区域)进行深入分析,分析热点技术领域中的技术重点及领先机构。除了热点技术领域,本报告还展示了另外一种基于技术结构图谱的专题领域分析模式,即采用检索策略,发现人工智能相关的技术焦点,分析其布局及特点,并通过两个时间窗,分析人工智能领域专利技术的演变。引言技术结构图谱 2022302第二章 研制方法第二章 研制方法4研制方法一、专利分析数据专利信息是反映全球所有技术领域的最新发展动态和最活跃的创新技术。世界知
8、识产权组织(WIPO)指出,90%以上的科技信息是通过专利信息反映出来的,若运用好专利信息,可以节约40%的科研开发经费和 60%的科研时间。与目前大多数以本国申请专利的统计分析不同,本研究的目标是构建具有代表性和相对完整性的世界技术焦点数据库,以及反映世界技术前沿态势的技术结构图谱。因此如何选择高价值专利构建核心专利数据集一直是本研究的首要任务。在 2012-2017 年、2014-2019 年两个时期的技术结构图谱选取了在美国专利商标局、日本特许厅、欧洲专利局同时申请的“三方同族专利”(又名三方专利)作为核心专利数据集。通常三方专利被认为具有较高的科技含量和经济价值,反映一个国家技术发明的
9、整体水平及在国际市场上的竞争力,被广泛应用于经济合作与发展组织、欧盟统计局、美国国家科学基金会等国际权威机构的统计报告中。但由于申请三方专利时间较长,并且随着日本经济的日渐低落,世界一些顶级机构并不很重视日本市场等原因,专家提出我们遴选的核心专利数据有一定的时滞性和不同国家专利的失衡性。在 2022 的技术焦点数据库的研制过程中,研究组在严谨数据分析的基础上,结合专家研判,选用了美国专利商标局和欧洲专利局共同保护的专利,后续简称两方专利,作为本期报告的核心专利数据集。本报告的分析数据基于德温特创新平台(Dewent.Innovation)最早公开年为 2016-2021年的两方专利数据,数据检
10、索时间为 2022 年 3 月。表 2-1 显示了三期技术结构图谱中专利数据总量及覆盖时间。连续三期技术结构图谱专利数据的时间间隔为 2 年,重叠时间为 4 年。需要说明的是,虽然两个时期技术结构图谱的时间窗有重叠部分,但由于专利公开的时滞在 18 个月左右,所有两个时期技术结构图谱在重叠窗口内的专利数据并不完全相同,尤其在重叠年份的后两年会出现较多新增数据。与三方专利相比,两方专利的数据量比三方专利高出一倍,平均公开年提前了半年。并且,美国、欧洲和中国等国家和地区的龙头企业的专利量占比大幅增加。表 2-1 三期技术结构图谱使用数据技术结构图谱时间范围20122017 年三方专利检索时间 20
11、18 年 8 月20142019 年三方专利检索时间 2020 年 3 月20162021 年两方专利检索时间 2022 年 3 月专利家族数291498272354600654技术结构图谱 20225二、技术结构图谱构建方法专利布局分析中常用专利分类体系(比如IPC/CPC 等)直接进行统计分析,发现技术领域内容的专利热点方向或技术布局。虽然各类专利分类体系都是较为成熟的标准分类,且通常包含多层分类关系,但在进行技术布局分析时存在一些局限性。现有的专利分类体系设计以功能性为主、应用性为辅,主要以满足检索功能为主要设计前提,在布局分析时难与具体产业技术领域对应,且分类体系粒度过大、更新缓慢,无
12、法细致体现关键技术和最新变化。因此本研究没有直接使用现有的专利分类体系构建技术结构图谱,而是根据专利之间的关联关系发现技术结构,突破传统的分类体系,体现技术交叉融合的趋势。技术结构图谱的构建在学术界暂时没有公认的最佳方案,传统的专利可视化分析通常称为专利地图,常参考科学论文的分析方法,多使用引文共现分析或关键词共现分析,但以上分析方法在分析专利时存在一定缺陷。专利引文分析中,首先专利的引用动机与科学论文引用动机有较大的不同,在揭示知识关联方面存在较大差异1,2。其次,专利引用没有统一的规范,发明人引用与审查员引用各自有不同的引用目的。各国审查员引用要求也有很大差异,美国专利局审查员引用数量是欧
13、洲专利局的 5 倍。除此之外,专利间引用的频次相比科学论文较低,本报告对 6 年的本底专利数据进行统计发现,专利间存在直接引用关系的专利只有 29%,存在共被引关系的专利仅有 37%,因此从数据统计出发,经典的论文引文分析方法也不适用于专利的技术图谱分析。而关键词等文本共现分析存在一词多义或一义多词、词间缺乏语义关系等问题,会造成分析结果存在一定误差。综上所述,我们有必要寻求一种更加科学、合理的技术结构发现方法,帮助相关技术领域的科研技术人员、科研单位以及专利情报分析人员更客观、准确地认识该领域的技术结构和技术方向之间的关联关系,.同时还有利于发现隐含的新技术要素信息、技术前沿方向,从而推动技
14、术创新。随着近年来人工智能中深度学习的发展,为专利文本分析提供了有效支撑。本报告采用了基于深度学习模型的文本分析,融合了专利分类等影响专利技术结构的专利特征,构建专利技术结构图谱。技术结构分析方法流程如图 2-1 所示,主要分为三个主要步骤:首先是专利文本抽取模型,将专利文本转换成高维特征向量,抽取的专利文本图 2-1 技术结构图谱发现流程专利文本文本特征抽取模型聚类可视化算法1李睿,孟连生.论专利引用行为与期刊论文引用行为在揭示知识关联方面的差异 J.情报学报,2010,29(3):474-478.2李睿.专利被引频次和施引频次与专利价值的相关性解析以在美注册的中国专利为样本 J.情报学报,
15、.2014(4):395-404.第二章 研制方法63.Devlin,.Jacob,.et.al.Bert:.Pre-training.of.deep.bidirectional.transformers.for.language.understanding.arXiv.preprint.arXiv:1810.04805.(2018).4.Ting.Chen,.Xiaomei.Wang.and.Guopeng.Li,.Patent.Similarity.in.Neural.Models:.A.Comparative.Study,.Global.TechMining.Conferences.Pr
16、oceedings.2020模型训练特征向量抽取输入专利文本后训练微调输出原生 BERT 模型海量专利文本IPC/CPC 标签专利文本特征抽取专用 BERT 模型专利特征向量图 2-2 基于 Bert 模型的专利文本特征抽取流程特征作为技术结构基本构成单元;其次,基于专利文本的高维特征,通过聚类算法发现技术主题;第三,使用可视化算法,将技术主题的高维特征向量映射入二维图谱,利用图中坐标分布特点,自动发现技术结构图谱中的结构特点,用于后续解读。相关步骤中设计算法与模型详见后续章节。(一)专利文本特征抽取模型为了抽取准确的专利文本特征,本报告训练了二版专利特征抽取模型。第一版专利文本特征抽取模型使
17、用了一种不依赖任何预设领域词典、无需人工标注的无监督 Doc2vec 模型来实现专利文本特征抽取。利用海量专利文本作为学习语料训练模型,并利用 IPC 代码的层次关系构建多组专利特征抽取模型测试数据集。该模型在测试数据集中表现远高于当时被应用最广泛的词袋模型Tf-idf、主题模型 LSA、LDA。Doc2vec 模型虽然采用深度学习的思想,但模型只有 3 层神经网络结构,严格来讲还属于浅层深度学习模型。Google 在 2018 年 11 月推出的BERT 预训练模型3,是网络深度高达 12 层的深层神经网络结构,并采用基于自然语言连贯性假设的双向遮蔽语言模型理解自然语言规律。原生BERT 模
18、型的训练语料使用了海量的新闻、维基百科等综合文本上进行训练,显著提高了自然语言理解任务的准确率,是具有“里程碑”意义的技术进步。但是,BERT 的训练语料与专利文本的特征还是具有很大的差别。因此,第二版专利特征抽取模型将专利文本特征作为先验知识与复杂的深度神经网络模型结合,并与专利已有的标注分类信息融合,进一步提升了专利文本特征抽取模型的准确率。模型训练与文本特征抽取流程如图2-2所示,本报告在原生 BERT 预训练的模型之后加入海量专利文本进行后训练(post-training),并利用IPC/CPC 专利分类标签对 BERT 模型内部神经元参数进行微调(fine-tune),通过以上两个步
19、骤让BERT 模型适配专利申请书文本特征,形成了适用专利文本的专用 BERT 模型。经过一系列试验表明效果比第一版模型有很大的提升4。技术结构图谱 202275.Van.Der.Maaten.L,.Hinton.G.Visualizing.Data.using.t-SNEJ.Journal.of.Machine.Learning.Research,.2008,.9:.2579-2605.6.陈挺,.王海名,.王小梅.基于可视化的基金资助热点及其演化发现方法研究 J.现代图书情报技术,.2020,.004(002):60-67.7.Chen.T,.Li.G,.Deng.Q,.Wang.X.Usi
20、ng.Network.Embedding.to.Obtain.a.Richer.and.More.Stable.Network.Layout.for.a.Large.Scale.Bibliometric.Network.J.Journal.of.Data.and.Information.Science,.2021,.6(01):154-177.(二)基于专利文本特征聚类确定技术焦点本报告通过专利文本的聚类分析,把主题相同的专利聚在一起,产生若干的专利技术簇,反映了世界上创新机构主体所关注的技术焦点方向。帮助相关技术领域的科研技术人员与专利情报分析人员更客观、准确地认识该领域的技术分类和技术结构
21、,有利于发现隐含的新技术要素信息,.推动技术创新。本报告采用了基于特征空间向量的聚类算法,没有采用引用网络社团划分的聚类方法。由于本报告涉及专利数量较大,聚类算法采用了适用于大数据量的 K-means+聚类算法,进行了两次聚类。利用轮廓系数算法计算 10 以下最优聚类数,将 60 万专利分成若干大类。之后二次利用轮廓系数再次计算每个大类中最优聚类数,利用最优聚类参数完成第二级 K-means 聚类,发现技术焦点。(三)技术结构图谱可视化报告选用非线性降维 t-SNE 算法5作为技术结构的可视化算法,它是一种非监督降维算法,无需预先给定样本的分类标签信息。目前 t-SNE可视化算法已成功应用于很
22、多真实高维数据集,如图像文字、生物信息、新闻文本数据等。研究组也在论文结构图谱与基金图谱中使用了 t-SNE算法制作了可视化图谱6,7,不论是对局部细节结构的揭示还是稳定性方面都有较大的提升。首先将技术焦点中包含的专利文本特征向量加和平均后,形成了一个代表技术焦点的平均向量。之后再利用 t-SNE 降维算法将这些技术焦点的高维向量映射到二维图谱形成技术结构图谱。图谱中每个点代表了一个技术焦点,点的大小代表技术焦点内包含的专利个数。该可视化方法在保证大样本整体布局稳定的情况下,揭示了更多的局部特征,不同的技术大类在图谱中有各自清晰的区域,在技术大类内部子类也出现了聚集效果,子类之间呈现出明显的轮
23、廓。这些在图谱中呈现出的技术子类我们在报告中成为技术焦点群,在图谱中作为主要的显示单元进行展示,以提升技术结构图谱的可读性。第二章 研制方法803第三章 技术结构及其演变技术结构图谱 20229技术结构及其演变本章基于技术结构图谱进行技术结构及其演化的分析。技术焦点的构成及技术焦点间的关系反映了世界高价值专利的整体结构,技术结构图谱是一系列描述技术结构的可视化图,直观地反映了世界专利技术领域的关联关系以及演化进程。全球技术竞争态势从技术结构图谱中可以看出世界两方专利技术重点集中在信息与通信技术(ICT)、医疗健康、汽车及其他交通工具三大产业。这三大产业在技术结构图谱中占据了大半的面积。其他的主
24、要产业还有机械制造、化工冶金和能源等。ICT 产品及服务,包括半导体、无线通信、机器学习、计算机软硬件、网络安全、音视频处理、电力设备和电器元件等;医疗健康,包括医疗技术、生物技术、医疗器械、生物制药、药物研发等;汽车及其他交通工具,主要包括智能驾驶、汽车动力电池、车辆传动装置、车辆部件、转向控制系统、汽车发动机、汽车照明和轮胎等技术,在其他交通工具中,主要是和飞机等航空技术相关的自动驾驶、飞行器、航空发动机等;机械制造中,很大区域是和内燃机、燃气轮机、涡轮发动机、复杂机床切削刀具等相关的技术。专利技术结构的布局,总体上保持稳定。基于两方专利数据的技术结构图谱 20162021 与基于三方专利
25、数据的技术结构图谱 20142019 和技术结构图谱 20122017 在总体结构上的领域划分与布局基本一致,仅在局部细节上存在一些差异。热点专利技术从三期技术结构图谱来看,持续高热度的技术焦点群包括“通信网络设备与技术”“视频编码技术”“锂离子电池”“半导体器件及工艺”“LED 技术及其深度集成应用”“医用诊察和监护装置、系统和方法”“手术器械”“杂环药物原料”“生物药”“车辆传动装置、车辆部件”“内燃机与燃气轮机”“复杂机床切削刀具相关技术”等。对比两方专利和三方专利的技术结构图谱,技术结构图谱 20162021 新增或热度明显增高的技术方向包括“区块链与密码学”“分布式网络数据安全”“网
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 技术 结构 图谱
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。