知识图谱与大模型融合实践研究报告.pdf
《知识图谱与大模型融合实践研究报告.pdf》由会员分享,可在线阅读,更多相关《知识图谱与大模型融合实践研究报告.pdf(70页珍藏版)》请在咨信网上搜索。
1、中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院前言为推进知识图谱与大模型在企业级的落地应用,分析知识图谱与大模型融合技术路径,研究报告从知识图谱与大模型落地面临的瓶颈出发,分析了知识图谱与大模型的主要特征、知识图谱与大模型擅长的主要场景和核心基础能力,对比了知识图谱与大模型的优劣势,进而从技术演化层面、技术互补层面、知识库建设层面探讨了知识图谱与大模型融合的可行性及收益。同时,研究报告分析了知识图谱与大模型融合的技术路径及其关
2、键技术,研究了知识图谱与大模型融合系统评测体系,对比了实际融合系统与大模型的性能测试结果。最终,通过梳理已有11个领域的实践案例,给出了技术挑战与发展展望。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明来源为“中国电子技术标准化研究院”或对应案例提供单位,且不得对本报告进行有悖原意的删减与修改。由于知识图谱与大模型技术发展迅速,研究报告编制时间和作者学识限制,恐有纰漏或不严谨之处,敬请谅解和批评指正。研究报告编写组中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国
3、电子技术标准化研究院中国电子技术标准化研究院第一章 背景中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院知识图谱Knowledge Graph-KG国家标准及研究报告学者/机构以结构化形式描述的知识元素及其联系的集合。1知识图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。2知识图谱本质上是一种叫作语义网络的知识库,即一个具有有
4、向图结构的知识库。3维基百科:对事实和数字的组合,谷歌将其用于为搜索提供了上下文意义。谷歌于2012年推出,使用维基百科、维基数据和其他来源的数据。百科百度百科:在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图结构化形式可呈现为有向图结构化的形式谷歌:知识图谱是一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。61GB/T 42131-2022信息技术 人工智能 知识图谱技术框架2中国中文信息学会语言与知识计算专委会,知识图谱发
5、展报告(2018)3漆桂林,高桓,吴天星.知识图谱研究进展J.情报工程,2017,3(1):004-0254王昊奋,漆桂林,陈华钧.知识图谱:方法,实践与应用J.自动化博览,2020(1).DOI:CNKI:SUN:ZDBN.0.2020-01-014.5 L.Ehrlinger and W.Wo,“Towards a definition of knowledge graphs,”SEMANTiCS(Posters,Demos,SuCCESS),vol.48,pp.14,2016.6https:/blog.google/products/search/introducing-knowledg
6、e-graph-things-not/Farber:知识图谱是一种资源描述框架(RDF)图,可用于描述任何基于图的知识库。5知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型。4高效的检索能力可将概念、实体及其关系结构化组织起来,具有高效检索能力智能化推理能力可从已有知识中挖掘和推理多维的隐含知识附1:海外学者在知识图谱领域相关研究1.知识图谱的定义与发展历程知识图谱的定义知识图谱与传统知识库相比具有的三大特征中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技
7、术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院加菲尔德提出引文索引的思想1955普莱斯引文网络分析1965Quillian语义网络提出最早的表达人类知识1968Feigenbaum知识工程提出专家系统开始广泛研究与应用1977Douglas Lenat建立Cyc知识库1984Tim Berners Lee提出语义网概念,是后续知识图谱的基础1998首届国际语义网大会(ISWC)召开,该会议延续至今,在国际上具有很高的学术影响力2002W3C将RDF和OWL纳入标准,并在后续不断更新,包括RDFS、SPAQL等逐渐填充进入,形成丰富的语义网技术栈 2004Tim Berners
8、Lee提出linked Open Data2006Dbpedia知识库建立2007Schema.org建立2011Google正式提出知识图谱(Knowledge Graph,KG)概念同年,Wikidata项目启动2012首个KG嵌入方法TransE提出,推动了后续包括图神经网络等KG推理方法飞速发展2013OpenKG组织成立2015首届CCKS大会召开2016事理图谱概念提出,强调了KG对事件的顺承、因果等复杂认知能力的建模2018RichPedia作为多模态KG发布,代表KG进入新时代2020首个知识图谱国标发布20221.知识图谱的定义与发展历程知识图谱发展历程中国电子技术标准化研究
9、院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院具有涌现能力在特定任务上,随着模型规模提升模型性能突然出现显著提升大模型与传统模型相比具有三大特征2参数规模庞大参数规模不少于十亿(1B),严格意义上需超过一百亿(10B)2权威论文中大模型的定义具有通用性能够仅通过提示、微调适应广泛的下游任务2.大模型的定义与发展历程大模型的定义大模型通常是指参数规模在一百亿(10B)以上,使用大规模的训练数据,具有良好的涌现能力,并在各种任务上达到较高性能水平的模型
10、。2狭 义 上:大模型是指参数数量大、结构复杂的深度学习模型,具备涌现能力、通用能力,并能够处理复杂的下游任务,如自然语言处理、图像识别等。广 义 上:中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院AlexNet为代表的新一代模型在规模和性能上超越传统方法2012年自然语言处理模型Word2Vec诞生2013年Google提出Transformer架构,奠定了大模型预训练算法架构的基础2017年 OpenAI发布GPT-1(D
11、ecoder)Google发布BERT(Encoder)预训练大模型成为自然语言处理领域的主流2018年RLHF算法被提出2022年3月2023年5月2023年7月OpenAI公司推出GPT-2,模型参数规模15亿,Decoder技术路线优势显现2019年OpenAI公司推出GPT-3,模型参数规模1750亿,在零样本学习任务上实现了巨大性能提升2020年微软发布BEiT-3模型,标志多模态大模型时代到来2022年8月搭载GPT3.5的ChatGPT正式发布2022年11月 GPT4正式发布,包含1.8 万亿参数,采用混合专家模型 百度发布“文心一言”,国内大模型研发热潮涌现2023年3月 国
12、家人工智能标准化总体组下设立大模型标准化专题组,启动标准编制工作 生成式人工智能服务管理暂行办法公布CNN为代表的传统神经网络模型占主导地位2005年中国发布的10亿以上参数大模型超过79个,“百模大战”态势初步形成2.大模型的定义与发展历程大模型的发展历程中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院4.本体构建难度大本体构建对领域专业知识和构建经验要求高,实体与关系的标识和对齐、本体扩展和更新、本体评估和质控、不同本体融合
13、等方面仍面临技术挑战6.知识完备性不足企业级知识图谱构建中通常面临领域边界限制、企业内数据规模有限、数据中知识稀疏等问题,导致其知识完备性不足5.知识通用性不足企业级知识图谱平台及其知识内容具有较强的行业属性和领域专业性,通用性和迁移泛化能力尚有不足,跨行业、跨领域规模化应用有待提升3.语义理解和自然语言处理难度大知识图谱在面对自然语言中的语义歧义、上下文理解、语言常识推理等问题时,仍缺乏有效的解决办法2.知识抽取质量,难以保证知识抽取规则的构建仍主要依赖人工,主观性强,导致可移植性差和误差传播,使得知识抽取质量难以保证1.语料数据标注效率低、主观性强语料数据标注仍大量依靠人工,存在标注效率低
14、、主观性强等问题3.知识图谱落地面临的瓶颈中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院大模型的训练和优化需要大量的算力资源和海量的数据资源,涉及高性能硬件设备、强大的分布式计算能力、数据治理与融合等,投入成本巨大大模型的开放性导致其存在信息泄露、数据攻击的风险,影响输出结果的鲁棒性和安全性大模型的输出结果是根据概率推理而生成,具有随机性和不稳定性,导致其正确性的验证难度大,难以保证结果的准确可信面向特定领域、多应用场景的高质
15、量中文语料规模和质量不足1.训练大模型的成本高2.训练数据的规模和质量不足3.训练过程的可控性差4.输出的可信度不足5.输出的安全性不足6.知识更新的实时性不足7.领域知识的覆盖率不足8.社会和伦理问题隐现大模型的黑盒问题使得其推理过程很难得到合理的解释和有效的控制,增加了大模型优化的难度,并限制了其在部分领域的应用大模型训练新数据、获取新知识的周期较长,且成本较高,导致其数据更新的滞后和知识时效性的不足GPT等大模型对各领域专业知识的覆盖仍不足,对专业问题的回答尚无法令人满意大模型的输出可能存在与社会和伦理要求相悖的内容,如:生成内容消极、负面,具有破坏性等4.大模型落地面临的瓶颈中国电子技
16、术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院附附1 1:知知识识图图谱谱领领域域国国内内外外学学者者及及相相关关研研究究知知识识图图谱谱国国内内外外研研究究学学者者:G Ge er rh ha ar rd d W We ei ik ku um m,德德国国萨萨尔尔布布吕吕肯肯M Ma ax x-P Pl la an nc ck k信信息息学学研研究究所所T To om m M M.M Mi it tc ch he el ll l,卡卡
17、内内基基梅梅隆隆大大学学计计算算机机科科学学学学院院最最高高级级别别 E E.F Fr re ed dk ki in n 讲讲席席教教授授I Ia an n H Ho or rr ro oc ck ks s,英英国国牛牛津津大大学学计计算算机机专专业业教教授授唐唐杰杰,清清华华大大学学教教授授李李涓涓子子,清清华华大大学学教教授授漆漆桂桂林林,东东南南大大学学教教授授陈陈华华钧钧 ,浙浙江江大大学学教教授授王王昊昊奋奋,同同济济大大学学教教授授刘刘峤峤 ,电电子子科科技技大大学学教教授授G Ge er rh ha ar rd dW We ei ik ku um m研研究究知知识识获获取取表表示
18、示、分分布布式式信信息息系系统统、数数据据库库性性能能优优化化与与自自主主计计;算算、信信息息检检索索与与信信息息提提取取等等;T To om m M M.M Mi it tc ch he el ll l 的的研研究究涵涵盖盖知知识识表表示示、知知识识库库构构建建、机机器器学学习习、人人工工智智能能,机机器器人人和和认认知知神神经经科科学学等等;I Ia an n H Ho or rr ro oc ck ks s 的的研研究究涵涵盖盖述述述述逻逻辑辑、语语义义网网络络、知知识识表表达达、知知识识库库、网网络络本本体体语语言言等等方方向向;唐唐杰杰研研发发出出研研究究者者社社会会网网络络 A A
19、r rn ne et tM Mi in ne er r 系系统统,唐唐杰杰的的高高引引用用论论文文是是 2 20 00 08 8 年年在在 K KD DD D 会会议议上上发发表表的的“A Ar rn ne et tM Mi in ne er r:e ex xt tr ra ac ct ti io on n a an nd d m mi in ni in ng g o of f a ac ca ad de em mi ic c s so oc ci ia al l n ne et tw wo or rk ks s”对对其其负负责责的的知知识识工工程程实实验验室室 A Ar rn ne et t
20、M Mi in ne er r 系系统统关关键键问问题题进进行行讨讨论论,整整合合来来自自在在线线 W We eb b 数数据据库库的的出出版版物物并并 出出一一个个概概率率框框架架来来处处理理名名称称歧歧义义问问题题;中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院第二章中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标
21、准化研究院中国电子技术标准化研究院中国电子技术标准化研究院场景名称场景描述大模型知识图谱智能对话内容生成内容加工作品创作机器翻译意图识别智能检索智能推荐辅助决策知识管理代表对此场景有较好的支撑能力。1.知识图谱与大模型的对比典型应用场景层面 知识图谱与大模型分别拥有相对擅长的应用场景。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院应用场景大模型的基础能力知识图谱的基础能力智能对话语义理解、指令遵循、思维链、基础常识支持上下文理
22、解、情感分析、推理规划语义理解、知识融合、知识查询、知识推理内容生成语义理解、指令遵循、思维链、基础常识支持上下文理解、情感分析、数据可视化语义理解、知识融合、知识查询知识推理、知识可视化内容加工语义理解、指令遵循、思维链、基础常识支持上下文理解、语义分割-作品创作语义理解、指令遵循、思维链基础常识支持、上下文理解、情感分析-机器翻译语义理解、指令遵循-意图识别语义理解、上下文理解支持、情感分析-智能检索语义理解、指令遵循、基础常识上下文理解、情感分析语义理解、知识查询、知识推理智能推荐语义理解、推理规划语义理解、知识查询、知识查询辅助决策语义理解、指令遵循基础常识、上下文理解语义理解、知识融
23、合、知识查询知识推理、知识溯源知识管理-知识融合、知识存储、知识补全、知识查询知识推理、知识溯源、知识共享与交换、知识更新与维护1.知识图谱与大模型的对比核心基础能力层面 知识图谱与大模型通过自身的核心基础能力支撑了对应的应用场景,难以简单替代。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院大大模模型型的的优优势势大大模模型型的的不不足足知知识识图图谱谱的的优优势势知知识识图图谱谱的的不不足足通用性:模型具有指令遵循能力,能处
24、理多种任务,并支持多语言、多模态、多领域的应用。可生成性:模型能生成各种形式和风格的文本,也能生成多模态的内容,如图像、音频等。学习能力:基于大量语料的训练,能对新输入产生合理的响应,也能从多模态数据中进行学习。创作能力:能生成新颖、连贯和通顺的文本,也能生成多模态作品,如图片、歌曲等。常识能力:基于海量通用训练数据中的知识,具有常识理解能力。语义理解能力:能根据文本、多模态数据中出现的内容,理解其含义和关系。可解释性:模型的决策过程是黑箱的,难以解释。可信赖性:模型的输出可能存在错误或有偏见的信息。可溯源性:模型的输出是基于训练的数据,而不是特定的数据点或知识点,较难追溯其输出的来源。可校验
25、性:模型的输出和推理结果有赖于通过人工或者其他系统进行校验。可评价性:模型的性能和输出可通过一些标准任务进行评价,尚不成熟。常识能力:无法处理超出训练语料范围的常识问题。领域能力:缺乏丰富全面的领域知识,领域服务能力一般。语义理解能力:可能出现理解错误或歧义等问题。通用性:知识图谱通常面向特定领域,在通用性上可能较弱。可生成性:知识图谱主要用于查询和分析,而非生成新的内容。学习能力:缺乏自主学习能力。创作能力:缺乏自主创作能力。常识能力:局限于知识图谱中的信息,常识能力较弱。语义理解能力:语义理解能力主要局限于知识图谱中的知识内容,理解能力较弱。可解释性:知识图谱可基于基于明确的语义结构进行查
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 图谱 模型 融合 实践 研究 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。