融合专利计量指标和文本特征的侵权无效宣告预警.pdf
《融合专利计量指标和文本特征的侵权无效宣告预警.pdf》由会员分享,可在线阅读,更多相关《融合专利计量指标和文本特征的侵权无效宣告预警.pdf(11页珍藏版)》请在咨信网上搜索。
1、 29第19卷 第4期2023年8月Vol.19 No.4Aug.2023竞争情报Competitive Intelligence摘 要:基于机器学习算法,对专利无效宣告构建多模态特征融合预测模型,探究专利无效宣告预警指标体系。将文本数据和指标数据进行降维融合,建立基于机器学习中集成学习模型和单个分类模型的专利无效分类预测模型,对新兴产业中信息技术产业的专利侵权案件进行无效宣告分类预测。构建的5种模型在测试集上的平均F1值均在0.8以上,其中逻辑回归随机森林模型表现最优(F1=0.982 1)。关键词:专利无效宣告;预警体系;集成学习;word2vec;PCA降维融合专利计量指标和文本特征的侵
2、权无效宣告预警*Research on the Construction of Patent Early WarningModel Based on Multi-modal Feature FusionPENG Qining1,LIU Bingxiang1,2,FU Zhenkang3,FENG Guangyu1,BEI Wenyu11.Intellectual Property Information Service Center,Jingdezhen Ceramic University,Jingdezhen 333001,China;2.School of Information Eng
3、ineering,Jingdezhen Ceramic University,Jingdezhen 333403,China;3.School of Information Management,Nanjing University,Nanjing 210023,China彭启宁 女,景德镇陶瓷大学知识产权信息服务中心硕士研究生,研究方向为专利情报分析与文本挖掘。柳炳祥 男,景德镇陶瓷大学知识产权信息服务中心博士,教授,研究方向为数据挖掘、群智能算法、竞争情报分析。通信作 者电子邮箱:1093624070 。付振康 男,南京大学信息管理学院硕士研究生,研究方向为专利情报分析与文本挖掘。冯广宇
4、男,景德镇陶瓷大学知识产权信息服务中心硕士研究生,研究方向为专利情报分析。贝汶瑜 女,景德镇陶瓷大学信息工程学院硕士研究生,研究方向为专利情报分析。彭启宁1 柳炳祥1,2 付振康3 冯广宇1 贝汶瑜11.景德镇陶瓷大学知识产权信息服务中心,景德镇 333001;2.景德镇陶瓷大学信息工程学院,景德镇 333403;3.南京大学信息管理学院,南京 210023*本文为2022年度文化和旅游部提质培优计划专业研究生重点扶持项目(MLIS类)“中小型文化创意企业知识产权创造能 力影响因素研究以景德镇陶瓷文创企业为例”(编号:Mlis-003)、江西省研究生创新基金项目“江西省新材料产业 核心专利识别
5、研究”(编号:JYC202207)的研究成果之一。Abstract:Based on machine learning algorithm,a multi-modal feature fusion patent invalidation prediction model is constructed to explore the patent invalidation early warning index system.The text data and index data are reduced and fused,and then the patent invalidation cla
6、ssification prediction model based on random forest algorithm and decision tree algorithm in machine learning is established.Finally,the invalidation classification prediction of patent infringement cases in biological industry in emerging industries is carried out.The average F1 values of the five
7、models constructed in this paper are all above 0.8 on the test set,among which the random forest model performs best,with an average F1 value of 0.982 1.Keywords:declaration of the patent right invalid;early warning system;ensemble learning;Word2vec;PCA dimension reduction0 引言 专利是反映科技创新成果的主要客体,是知识产权
8、的重要部分之一。专利无效宣告是保护自身知识产权的重要手段,企业相互提起专利侵权诉讼和专利无效宣告请求已经成为产业竞争的常态。同时,专利侵权诉讼与无效宣告请求已成为学术界和实务界共同关注的热点,对于加强专利诉讼和专利侵权研究具有重大意义。近几年来,国内专利申请数量不断增加,专利侵权和专利无效宣告发生的案件数量也随之不断增长。刘蕾认为无效宣告制度有助于纠正专利审查机关的不当授权1。与此同时,相关程序和制度方面的问题较以往更加凸显。倪静认为目前我国专利无效宣告程序仍然存在程序拖延、冗长,权利无法得到及时救济等问题2。李新芝等认为我国对专利无效程序中专利文件修改的规定不利于专利权人充分完善其专利文件3
9、。因此,构建一套科学的专利无效宣告预警体系,对于促进新兴产业技术的发展、识别易发生无效宣告的专利,以及提高我国相关创新主体的创新能力、研判产业技术发展方向等具有重要意义。本文以专利侵权诉讼背景下的无效宣告为切入点,提出构建专利预警指标体系;在综合分析专利诉讼风险特征影响因素的前提下,结合专利无效宣告的特点,从专利计量指标和文本特征2个方面,构建多模态融合的专利无效宣告的风险识别模型,建立较为精准的专利无效宣告预警指标体系。1 研究现状1.1 无效宣告相关研究 经阅读文献可以发现,目前国内对于专利无效宣告的研究主要集中在以下几方面:首先,在专利法视角下,主要有针对专利无效宣告制度特点进行的讨论。
10、李晓鸣认为相关法律法规对专利无效宣告各类程序的期限规定不够完善,并提出一系列建议4,王瑞龙指出侵权诉讼中专利权无效抗辩制度的弊端,认为专利无效抗辩制度导致了专利侵权诉讼周期的冗长,并提出了解决方式5。不过,上述文献主要涉及无效宣告判别的各类程序,未涉及导致无效宣告发生的指标研究。其次,在创新经济学视角下,主要有针对专利无效宣告对市场份额影响进行的研究。国外学者Alessandro认为专利无效宣告与专利市场份额增长率呈正相关,专利的市场份额越高,专利发生无效宣告的可能性越大6。上述文献主要探讨了专利无效宣告与市场价值的关系,未涉及各类指标对无效宣告结果的影响。最后,在情报学视角下,在竞争情报学中
11、将申请宣告竞争对手的专利无效视作企业竞争情报中较为重要的内容和手段。李睿等指出在技术市场权益的争夺中,优质专利通常是竞争对手请求无效宣告的主要目标7。此外,专利无效宣告在不同技术领域所表现的程度不尽相同。国外学者Patel等发现专利异议率在不同的领域所占比例不30竞争情报第19卷 第4期 31实践与应用彭启宁,等.融合专利计量指标和文本特征的侵权无效宣告预警同,如在电气工程领域的异议率为5.3%9.7%左右8。上述文献并未系统地构建一套完整的无效宣告识别体系;目前国内外学者对于无效宣告的研究,主要集中在专利无效宣告制度的合理性方面,或是专注在专利无效宣告对不同领域的影响,对于影响专利无效宣告的
12、特征因素方面的研究较为欠缺。1.2 特征识别模型相关研究 现如今,随着学科的进一步融合发展,针对专利不同特征的识别模型也在增加。对于专利识别的研究主要集中在2个方面:利用传统的数学统计分析方法进行研究。国内学者孙玉艳等利用市场法、成本法、收益法和修正收益法,对专利价值进行线性和非线性组合预测,得到加权算术平均值组合预测和加权调和平均组合预测这2种评估模型9,徐晨倩采用量化研究与案例研究相结合的方法,构建了诉讼专利特征与“337调查”的回归模型,并将模型运用至其他专利侵权诉讼案件中,达到专利情报预警的目的10,王子焉等利用文献计量、社会网络分析方法,从专利价值的内涵、评估指标体系、评估方法3个方
13、面对专利价值进行评估11。利用数据挖掘方法,例如深度学习、机器学习等,对专利各类特征进行识别。国内学者张杰等采用AdaBoost算法对诉讼专利的专利质量进行评价12,李静采用深度学习算法模型对新兴主题进行分析,了解新兴主题的发展趋势13;国外学者Jee等利用人工神经网络方法对制药技术领域专利进行分类,达到识别高质量专利的目的14,Kang等提出建立聚类模型检索侵权专利,建立侵权专利的特征模型15。上述研究均未涉及利用专利特征构建识别,目前的专利识别模型主要集中在对专利价值的特征识别和挖掘,而对侵权专利和无效宣告专利的文本特征识别等方面的研究较为欠缺。本文基于传统侵权专利分析的研究,在侵权专利的
14、基础上对于该专利的无效宣告风险特征进行识别,创新性地进行国内侵权专利通过机器学习算法构建专利指标体系的研究;通过数据挖掘研究专利诉讼产生的条件,区别分析专利诉讼风险特征,不仅具有重要的学术价值,而且对解决我国企业在国内外市场竞争中的专利纠纷冲突、预防专利侵权风险等都具有十分重要的现实意义。2 特征选取与研究设计2.1 特征因素选取 特征因素的选取,包括语义特征提取和计量指标选取这2个方面。2.1.1 语义特征提取 学术界对于专利文本的选取方法各不相同,主要包含专利摘要、专利权利要求书和专利说明书等,本文主要选取专利摘要进行语义特征提取。专利摘要是对是专利说明书内容的概述,主要包括发明或实用新型
15、专利的名称、专利所属的技术领域、需要解决的技术问题、发明或实用新型涉及的主要技术特征和用途等。在专利摘要研究方面,国内学者缪建明在专利摘要的基础上,采用类中心向量分类算法对专利进行快速自动分类16,吴洁利用专利摘要生成的专利的核心词汇网络,搭建基于图卷积网络的高质量专利自动识别模型17,谷俊利用摘要对中文专利的新技术术语进行识别18。因此,在语义识别方面,本文利用自然语言识别中的Word2vec模型对文本内容进行词语向量化处理,利用CBOW模型(Continuous Bag-of-Words Model)或Skip-gram模型(Skip Gram Model)将文本数据转换成计算机能识别的数
16、据,抓住所选取文本的上下文、语义,衡量词与词的相似性;其次利用负采样(negative sampling),将各个词向量用直接平均的方式生成整句所对应的词向量,具体训练方法为:使用夹角余弦来反映词语间的关联程度。夹角余弦计算方式如式(1)所示,空间中的2个词的语义越相似,它们的夹角余弦值也就越接近于。Sim(W1,W2)=(W1i)2 ni=1 (W2i)2 ni=1 (W1i W2i)ni=1(1)竞争情报第19卷 第4期322.1.2 计量指标选取 学术界对于专利各类特性的评估指标的选取方式各不相同。袁任远等在对企业风险进行预警时,从宏观、微观以及综合指标因素3个维度选取科学评定风险等级1
17、9,郭青等从专利的经济、法律、技术3个方面,选取相应的专利质量评价指标,构建了三位一体的专利质量评价指标体系20。由于国内对专利风险识别相关计量指标的研究较少,故本文结合专利质量评价相关的研究选取了影响专利侵权风险的指标。基于前人的研究,本文的特征指标选取主要从经济质量、技术质量和法律质量的维度分别选取3个指标,构建较为完整的侵权专利无效宣告风险特征识别体系,如表1所示。在技术层面,本文主要选取6个计量指标。在专利技术层面,涉及单价专利的“IPC个数”,此类指标主要体现了专利的技术覆盖范围。Josh等提出用专利文件中的IPC(国际专利分类号)小类的数量来衡量专利覆盖的技术范围21。在专利引证层
18、面,主要涉及单件专利的“引证次数”“家族引证次数”。张娴指出根据专利的引证关系可以看出专利之间的累积与继承关系22。在专利的被引证层面,主要涉及单件专利的“被引证次数”和“家族被引证次数”。李春燕等指出如果专利的被引用次数越高,则该专利越能代表该领域的基础技术,可以反映出该专利的技术先进性23。在专利的“审查时长”层面,主要反映专利申请日与提出实质审查日之间的差值。冯仁涛指出价值越高的专利,申请文件撰写质量通常也越高,越容易满足专利授权条件,审查过程中需要与审查员文件往来的次数越少,授权也越快24。在市场层面,主要选取“同族个数”“PCT申请”“申请人反映目标专利的技术应用广度反映目标专利的技
19、术影响力目标专利文献的被引证次数同族专利中引用其他专利文献的总和同族专利中被引用专利文献的总和专利申请日与提出实质审查日之间的差值目标专利的维持年限反映目标专利的布局国家数量有间接相同关系优先权号的专利个数一个发明在不同的国际(国家)专利局的申请个数专利是否向世界知识产权组织递交了国际专利申请目标专利发明人总数反映目标专利是不是合作申请目标专利发生转让的次数目标专利发生诉讼的次数目标专利的独立权利要求字数目标专利的法律保护范围和权利稳定性目标专利法律保护范围目标专利所引用的前述权利要求和需要进一步说明的内容目标专利文献的总页数IPC个数引证次数被引证次数家族引证次数家族被引证次数审查时长专利寿
20、命(月)简单同族个数扩展同族个数DocDB同族个数PCT申请申请人数量发明人数量转让次数诉讼次数首权字数权利要求数量独立权利要求数量从属权利要求数量文献页数技术层面市场层面法律层面指标名称指标含义指标维度表1 专利特征指标33 数量”和“发明人数量”,在“同族个数”中,主要包括“简单同族个数”“拓展同族个数”和“DocDB 同族个数”。杨秀财认为同族专利数量可以反映专利家族学术影响力25。PCT申请主要反映了专利是否向世界知识产权组织递交了国际专利申请。张杰认为PCT国际专利申请数量是考核企业创新能力和专利质量的重要指标12,付振康指出发明人数量以及申请人数量越多,则证明目标专利的研发投入较大
21、,专利质量较高26。在法律层面,主要选取“权利要求数量”“转让次数”“诉讼次数”和“首权字数”,主要涉及专利权法律效力所涉及的发明创造的范围。郭青等认为权利要求数量越多,专利的保护范围越广20。“转让次数”反映专利的交易次数。刘强认为重大技术的专利转让会给企业带来大额的经济效益,极易发生转让合同生效与解除、合同权利与义务等法律问题27;“首权字数”反映专利保护的技术特征数量。袁晓东等指出专利诉讼倾向与产品类型、公司所在国家和诉讼持续时间等都有相关性28。2.2 模型选取2.2.1 研究设计 图1为专利无效宣告预测模型。首先,通过大量阅读国内外文献,对专利无效宣告进行概念界定,结合指标的可获取性
22、、科学性等因素,选取影响专利无效的文本内容和数据指标;通过文献检索的方法,获取影响专利诉讼的指标数据和文本数据,建立样本库。其次,对文本数据和指标数据进行降维数据融合,形成新指标特征。最后,通过机器学习的监督学习算法中的决策树和随机森林模型,对样本库中的侵权专利进行分析,对影响专利无效宣告的指标进行分类训练,对比2种模型诉讼专利特征识别的各类性能,构建基于机器学习的诉讼专利特征识别模型,并对算法的结果进行参数调整,使得算法模型达到最优效果;通过特征重要程度的对比,对特征的各项指标的重要程度进行对比,获得在不同领域专利无效宣告风险识别的最优选算法指标,得出导致专利发生无效宣告的指标影响程度排序,
23、进而建立较为精准的专利预警指标体系。2.2.2 模型选取(1)模型降维融合 在模型数据降维融合方面,选取目前较为常用的降维方法PCA(Principal Component Analysis)主成分分析法。PCA是一种非监督的机器学习算法,一般使用方差(Variance)来定义样本之间的间距,计算公式如下。实践与应用彭启宁,等.融合专利计量指标和文本特征的侵权无效宣告预警图1无效宣告预测模型专利预警模型构建评价指标incoPat数据库数据采集文本特征提取数据指标选取指标特征融合分类算法1分类算法2分类算法3分类算法4分类算法5平均精确率平均召回率平均准确率平均F1值特征影响程度排序建立专利预警
24、指标体系竞争情报第19卷 第4期 34(2)训练模型选取 在数据模型建立方面,选择机器学习中常见的单个学习模型和集成学习模型对所选取的数据指标进行分类,再进行指标结果对比。在单个模型中选取3个模型:逻辑回归(Logistic Regression),主要运用极大似然函数的方法,对数据进行二分类的算法;决策树(Decision Tree),也称作判定树,这是一种典型的分类学习方法,主要是利用给定的训练数据集学习一个模型,再将新的数据放入模型进行分类预测;支持向量机(Support Vector Machine),通过计算学习样本求解的决策边界,达到数据二分类目的。集成学习模型主要选取以下2种:随
25、机森林(Random Forests),一个以决策树模型为基础构建的Bagging集成模型,主要将多个决策树的分类器并行,再由个别树输出的类别的众数决定其输出的类别;XGBoost,一种基于机器学习单个决策树模型而改进的集成机器学习算法,适用于分类和回归问题,优点在于速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数。2.3 模型性能度量 采用多模态模型最终完成的任务是专利无效宣告的二分类问题,故本文采用准确率(Accuracy)、平均精确率(Precision)、平均召回率(Recall)、平均F1值(F1)以及ROC曲线下方的面积(Area Under ROC the Cu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 专利 计量 指标 和文 特征 侵权 无效 宣告 预警
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。