2022年知识图谱发展报告.pdf
《2022年知识图谱发展报告.pdf》由会员分享,可在线阅读,更多相关《2022年知识图谱发展报告.pdf(253页珍藏版)》请在咨信网上搜索。
1、 中国 北京 2022.08 知识图谱 !发展报告(2022)中国中文信息学会 语言与知识计算专委会 KNOWLEDGE GRAPH DEVELOPMENT REPORT 目录目录 序言序言 1 1 第一章第一章 知识表示与建模知识表示与建模 3 3 第二章第二章 知识表示学习知识表示学习 1313 第三章第三章 实体抽取实体抽取 2929 第四章第四章 实体关系抽取实体关系抽取 4141 第五章第五章 事件知识获取事件知识获取 5656 第六章第六章 知识融合知识融合 8282 第七章第七章 知识推理知识推理 9696 第八章第八章 知识图谱的存储和查询知识图谱的存储和查询 121121 第
2、九章第九章 通用和领域知识资源通用和领域知识资源 141141 第十章第十章 知识图谱质量评估与管理知识图谱质量评估与管理 163163 第十一章第十一章 基于知识的问答与对话基于知识的问答与对话 193193 第十二章第十二章 基于知识的搜索与推荐基于知识的搜索与推荐 213213 第十三章第十三章 知识图谱交叉前沿知识图谱交叉前沿 234234 1#当前人工智能正在经历从感知智能到认知智能的重要发展阶段。认知是人们获取和应用知识的过程,因此,作为人类对客观世界认知的一种表现形式,知识图谱是认知智能研究不可或缺的组成部分。知识图谱可以帮助机器积累人在解决问题中使用的知识,可以帮助组织互联网资
3、源,进而用知识赋能行业智能应用,知识图谱及其知识引擎技术已经成为人工智能系统的基础设施。知识图谱发展报告(2022)是中国中文信息学会语言与知识计算专委会邀请知识图谱领域专家结合人工智能和知识图谱技术的最新发展,在知识图谱发展报告(2018)基础上对本方向前沿技术和应用的又一次系统总结,并对未来前沿趋势进行展望。近年来,随着人工智能特别是大数据、深度学习和大规模预训练模型的快速发展,知识图谱的理论、方法和应用也有了很大进展。在知识表示和建模中,知识图谱表示形式更加多样化,从单一语言和符号表示的知识图谱,到多语言和多模态的知识图谱;从结构化知识表示发展到与半结构化和非结构化数据融合的概念-实体-
4、上下文一体化知识表示,从符号知识表示到融合符号和数值的知识表示。在知识获取方面,低资源、真实场景下的知识获取技术也有了长足进步,由传统限定领域的知识抽取,到如今开放领域的多类别知识抽取;由基于知识库的关系获取,到以知识为指导的面向大规模预训练技术的关系获取;由粗粒度有监督学习到细粒度小样本学习,以及由单一模态的概念抽取到跨模态的联合学习。在知识图谱应用方面,知识图谱领域应用越来越广泛,以多模态知识为驱动的虚拟数字人推动着人工智能走向更广阔的应用场景,“知识图谱+产业”的新范式凸显着以知识为中心的应用与现实业务的深度融合。“知识图谱+其他学科(如区块链、物联网)”的交叉研究也正在兴起和发展。知识
5、图谱未来发展趋势和面临的挑战在于,能否利用大规模预训练模型进一步促进知识表示、获取和推理技术的发展,能否基于认知推理实现具有认知能力的人工智能新架构,能否利用知识的可解释性释放更多产业潜能和应用。本发展报告的定位是深度科普,旨在向政府、企业、媒体中对知识图谱感兴趣的社会各界人士简要介绍相关领域的基本概念、基本方法和应用方向,向高等院校、科研院所和高新技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。本报告共由 13 章组成,每一章按照 1)任务定义、目标和研究意义;2)研究内容和关键科学问题;3)技术方法和研究现状;4)技术展望与发展趋势等四部分的结构形成每一章 2 的内容。每
6、一章我们邀请了本专业领域内的专家协同撰写完成。具体结构如下:n 序言:李涓子(清华大学)、赵军(中国科学院自动化研究所)n 知识表示与建模:张文,耿玉霞,许泽众,陈华钧(浙江大学)n 知识表示学习:刘知远、汪华东(清华大学)n 实体抽取:林鸿宇、韩先培(中国科学院软件研究所)n 实体关系抽取:曾道建(湖南师范大学)、陈玉博、刘康(中国科学院自动化研究所)n 事件知识获取:丁效(哈尔滨工业大学)n 知识融合:胡伟(南京大学)、漆桂林(东南大学)n 知识推理:张小旺(天津大学)、李炜卓(南京邮电大学)、张文(浙江大学)、漆桂林(东南大学)n 知识图谱的存储和查询:彭鹏(湖南大学)n 通用和领域知识
7、资源:王昊奋(同济大学)、曹征晖(复旦大学)、林俊宇(中国科学院信息工程研究所)n 知识图谱质量评估与管理:李直旭(复旦大学)、王萌(东南大学)、漆桂林(东南大学)、阮彤(华东理工大学)n 基于知识的问答与对话:何世柱、张元哲、刘康(中国科学院自动化研究所)n 基于知识的搜索与推荐:程龚(南京大学)n 知识图谱交叉前沿:张文、毕祯,朱渝珊,李娟,陈卓,陈华钧(浙江大学)发展报告最后由刘康(中国科学院自动化研究所)、程龚(南京大学)、侯磊(清华大学)、张元哲(中国科学院自动化研究所)、吴天星(东南大学)、陆垚杰(中国科学院软件研究所)等根据反馈意见对初稿进行校对并统一成文。由于时间仓促,本报告难
8、免有疏漏甚至错误的地方,仅供有志于语言与知识计算研究和开发的同仁参考,并激发更广泛的思考和讨论。期待在我们的共同努力下,知识图谱以及语义计算技术能够取得更辉煌的成果。李涓子(清华大学)、赵军(中国科学院自动化研究所)2022 年 8 月 3$%&$%&()*+,-()*+,-张文2,耿玉霞1,许泽众1,陈华钧1 1.浙江大学 计算机科学与技术学院,浙江省 杭州市 310007;2.浙江大学 软件学院,浙江省 宁波市 315048!#$%&()*+,$%&()*+,&知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的被广泛论证的正确的信息,知识具有三大特点:合理(Justi
9、fied)、真实(True)和被相信(Believed)。在人类社会中,知识表示将人类的认知知识以特定的形式进行描述、表达和传承,人类表示知识的形式多种多样,包括声音、文字、绘画、音乐、数学语言、物理模型以及化学公式等,这些丰富的知识表示方法让人类更准确地表达自己的认知,有力地促进了社会文明进步。对于机器而言,知识表示(Knowledge Representation,KR)将现实世界中的各类知识表达成计算机可存储和可计算的结构,使得计算机可以无障碍地理解所存储的知识。上世纪 90年代,MIT AI 实验室的 R.Davis 定义了知识表示的五大特点:l 客观事物的机器标识(A KR is a
10、 surrogate),即知识表示首先需要定义客观实体的机器指代或指称。l 一组本体约定和概念模型(A KR is a Set of ontological commitments),即知识表示还需要定义用于描述客观事物的概念和类别体系。l 支持推理的表示基础(A KR is a Theory of Intelligent Reasoning),即知识表示还需要提供机器推理的模型与方法。l 用于高效计算的数据结构(A KR is a medium of efficient computation),即知识表示也是一种用于高效计算的数据结构。l 人可理解的机器语言(A KR is a mediu
11、m of human expression),即知识表示需要接近人的认知,是人可理解的机器语言。自人工智能提出至今,知识表示已经探索过语义网络、专家系统、语义网、知识图谱等形态,形成了基于框架的语言、产生式规则、RDF 以及 OWL 等知识表示语言。近年来,人工智能依靠机器学习技术的进步,在数据感知方面取得了巨大的进步,可以精准地完成图像识别、语音识别等任务。但当前人工智能在语言理解、视觉场景分析、决策分析等方面依然面临巨大的挑战,其中一个关键挑战便是如何让机器掌握大量的知识,尤其是常识知识,这体现了知识表示的重要性。4-*+./0123456*+./0123456 根据知识呈现的形态和方式,
12、我们可以将知识分为不同的类型,包括本体知识、规则知识以及事件知识等。其中本体知识表达实体和关系的语义层次,用于建模领域的概念模型;规则知识表达实体和关系之间存在的推理规律,是更抽象的知识;事件知识包含多种事件要素,是更多维更复杂的知识。本章主要针对本体知识和规则知识的表示与建模展开三个方面的介绍,包括当前建模语言、建模工具以及应用实践示例。事件知识相关内容参见第五章。1.本体知识本体知识 在万维网中,我们可能会用不同的术语来表达相同的含义,或者一个术语有多个含义。因此,消除术语差异是很有必要的。目前较受欢迎的解决方案就是,对某个领域建立一个公共的本体,鼓励大家在涉及该领域的时候都使用公共本体里
13、的术语和规则。本体最先是哲学领域提出的研究概念,其作用主要是为了更好地对客观事物进行系统性的描述,即总结、提炼描述对象的共性,从而将客观事物抽象为系统化、规范化的概念或专业术语。概括而言,哲学本体关心的是客观事物的抽象本质。应用至计算机领域,本体可以在语义层次上描述知识,因此可以用于建立某个领域知识的通用概念模型,即定义组成“主题领域”的词汇表的“基本术语”及其“关系”,以及结合这些术语和关系来定义词汇表外延的“规则”Neches et al.,1991。具体来说,“领域”是指一个本体,描述的是一个特定的领域,如“大学”、“公司”等;“术语”指给定领域中的重要概念,例如大学这一领域中涉及的有教
14、工、学生、课程等概念;“基本术语之间的关系”包括类的层次结构(类比 taxonomy)等关系,比如大学师生员工中包含了教工和学生,学生又可分为本科生和研究生,教工同理,而学生和教工是两个并列的概念,该层次关系如下图 1 所示;“词汇表外延的规则”,则类似数据库中的“约束”,包括概念的属性约束(如 X 教 Y)、值约束(如只有教职人员才能授课)、不相交描述(如教职人员和普通员工不相交)以及对象间的逻辑关系规定(如一个系至少要有 10 个教职员工)等。图 1 学校领域概念及概念间层次关系 5 通过对事物所具有的概念、概念的关系、概念的属性及概念的约束等明确、清晰地描述,本体体现了客观事物内在、外在
15、的关系。从上述本体的定义中,我们可以看出本体四个重要的特点,即概念化、明确性、形式化和共享性。概念化是说本体表示的是各种客观存在的抽象模型,它并不描绘实体的具体形象而是表达出一个抽象的本质概念;明确性主要体现在描述客观事物时,利用自身概念化的表述优势和系统化的思想,准确地展示描述对象的特征;形式化则侧重使用特定的、严格规范化的、无歧义的语言对客观事物进行描述,以达到明确清晰的目的;共享性则是指本体所描述和表达的知识信息具有共享特性,希望能够被用户普遍认同并使用。而本体与知识图谱之间又有着什么样的联系呢?从逻辑结构上看,知识图谱一般可分为两层,数据层存储知识图谱中的所有三元组信息,模式层(也称
16、schema 层或本体层)位于数据层之上,对数据层知识结构进行提炼,即通过在模式层上建立约束和规则,可规范图谱中的实体、关系、实体属性、属性值之间的联系,以及完成在知识图谱上的推理。基于知识图谱,本体既可以以模式层的形式出现,表达数据层的抽象知识,也可以以数据层的形式出现,表达资源之间的约束关系,尤其是层次约束关系。2 2.规则知识规则知识 传统知识推理历史悠久,相对完备,其理论支持也比较完备,其所基于前提和规则更容易被理解,具有较好的解释性。其中,规则是传统推理中一种重要的方式,一般而言,知识图谱中的规则被表示为以下形式:head body 其中,body 表示规则的主体,head 表示规则
17、的头部,一条规则被表示为由主体推导出头部。规则头由一个二元的原子构成,而规则的主体则由一个或者多个一元原子或者二元原子所构成。原子就是包含了变量的三元组,其本身也有肯定和否定之分。如果主体中仅仅包含肯定的原子,那么这样的规则也可以被称之为霍恩规则。对于规则,其质量评价方法一般包括三种,分别为支持度(support),置信度(confidence),规则头覆盖度(head coverage)。支持度表示满足规则主体和规则头的实例的个数,即该规则在知识图谱中成立的实例数;置信度为满足规则主体的实例的个数和支持度的比值;规则头覆盖度即满足规则头部的实例数量和支持度的比值。基于以上指标,可以对规则的质
18、量有一个比较直观的判断。作为一种抽象知识,规则的典型应用是根据给定的一套规则,通过实际情况得出结论。这个结论可能是某种静态结果,也可能是需要执行的一组操作。应用规则的过程称为推理。如果一个程序处理推理过程,则该程序称为推理引擎。推理引擎是专家系统的核心模块。其 6 中,有一种推理引擎以规则知识为基础进行推理,其具有易于理解、易于获取、易于管理的特点,这样的推理引擎被称为“规则引擎”。789:;)*+=789:;)*+89?0A?89?0A?BCBC 近年来,本体知识建模利用自然语言处理、机器学习等技术从多源异构数据中进行自动化的构建取得了长足的进展。自动构建的过程中,如果数据是结构化的(例如图
19、表数据),已知属性名称、属性间的层次结构等,构建本体相对较为容易。如果缺乏以上信息,则只能通过文本信息等非结构化数据提炼知识构建本体,技术上将面临很多挑战。整体来看,呈现以下趋势:l 多模态数据及数据的结构化工作。随着数据资源的丰富,越来越多的本体构建工作需要处理多种模态的数据,进行模态融合和语义的对齐,例如,从图片或文本中提取出结构化的知识,进行语义对齐。l 低资源场景下的本体构建。由于标记数据的缺乏或相关领域数据保密的要求,本体的自动化构建面临小样本甚至是零样本的挑战,近年来的很多工作围绕小样本和零样本利用集成学习、多任务学习、预训练模型、元学习等技术结合深度学习模型进行探索。l 大规模本
20、体构建。随着算力的不断提升,现有实用系统可以有效处理更大规模的本体数据,数据量大、种类多样、结构不同都为本体构建带来巨大的挑战。规则引擎的发展也遇到了很多问题,需要在未来进一步研究和解决。主要问题如下:l 规则可视化配置。需要设计更高级的方案,让业务人员通过界面引导配置各种规则,而不是让技术人员从后台手动配置,彻底解放技术人员。l 规则执行的效率。在规则数量不断增加,业务数据被索引并不断增长的情况下,如何快速选择规则,做出快速准确的决策,不会使规则数量成为系统的瓶颈。l 规则的维护。当规则数量增加时,如何维护这些规则?更改规则时如何保证与之前发布的规则不冲突?规则能够更好的维护将使这些规则不会
21、相互干扰,相互独立。应用方面,随着企业智能化进程的加快,知识工程与产业互联的结合更加紧密,除了在数据治理、搜索与推荐、问答等通用领域有所突破之外,在智能生产、智慧城市、智能管理、智能运维等众多领域,以及工业、金融、司法、公安、医疗、教育等众多行业也都有进一步的场景化落地的突破。但落地的热潮在应对不同领域的知识建模需求时,需要行业专家与 AI技术人才进行深度的磨合和协作。参考文献参考文献 Neches et al.,1991 Neches R,Fikes R E,Finin T,et al.Enabling technology for knowledge sharingJ.AI magazin
22、e,1991,12(3):36-36.12 陈华钧 et al.,2011 陈华钧.基于本体推理的中医药五行诊疗系统:中国,CN102156801A P.2011-08-17.荣冈 et al.,2015 荣冈.一种基于本体构建模型的化工生产过程控制方法:中国,CN104678780A P.2015-06-03.13$.&()*/0()*/0 刘知远,汪华东 清华大学 计算机科学与技术系,北京 100084!#$%&()*+,$%&()*+,&知识表示是知识获取与应用的基础,因此知识表示学习问题,是贯穿知识图谱的构建与应用全过程的关键问题。人们通常以网络的形式组织知识图谱中的知识,网络中每
23、个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表实体间的关系。然而,直接应用符号表示的知识图谱存在计算效率低、数据稀疏等诸多挑战性难题。近年来,以深度学习为代表的表示学习Bengio et al.,2013技术得到了广泛研究,在自然语言处理、图像分析和语音识别领域取得了巨大成功。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,两个对象距离越近,则说明其语义相似度越高。知识表示学习,则是面向知识图谱中的实体和关系进行表示学习。知识表示学习实现了对实体和关系的分布式表示,它具有以下主要优点:(1)显著提升计算效率)显著提升计算效率。知识图谱的三元组表示实际
24、就是基于独热表示的。如前所分析的,在这种表示方式下,需要设计专门的图算法计算实体间的语义和推理关系,计算复杂度高,可扩展性差。而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作,显著提升计算效率。(2)有效缓解数据稀疏)有效缓解数据稀疏。由于表示学习将对象投影到统一的低维空间中,使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,这主要体现在两个方面。一方面,每个对象的向量均为稠密有值的,因此可以度量任意对象之间的语义相似度。另一方面,将大量对象投影到统一空间的过程,也能够将高频对象的语义信息用于帮助低频对象的语义表示,提高低频对象的语义表示的精确性。(3)实现异质信息融合)
25、实现异质信息融合。不同来源的异质信息需要融合为整体,才能得到有效应用。例如,人们构造了大量知识图谱,这些知识图谱的构建规范和信息来源均有不同。大量实体和关系在不同知识图谱中的名称不同。如何实现多知识图谱的有机融合,对知识图谱应用具有重要意义。通过设计合理的表示学习模型,将不同来源的对象投影到同一个语义空间中,就能够建立统一的表示空间,实现多知识图谱的信息融合。综上,由于知识表示学习能够显著提升计算效率,有效缓解数据稀疏,实现异质信息融合,因此对于知识图谱的构建、推理和应用具有重要意义,值得广受关注、深入研究。14-*+./)123456*+./)123456 知识表示学习是面向知识图谱中实体和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 知识 图谱 发展 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。