基于复合语义特征的事件图谱构建技术研究进展.pdf
《基于复合语义特征的事件图谱构建技术研究进展.pdf》由会员分享,可在线阅读,更多相关《基于复合语义特征的事件图谱构建技术研究进展.pdf(18页珍藏版)》请在咨信网上搜索。
1、世界是由无数相互关联的事件组成的,人们的社会活动也往往是由不同的事件来触发和驱动的.针对事件与事件之间关系的演化规律进行研究,不仅有助于人们认识和了解社会事件的演化规律与模式,同时也为基于人工智能的机器推理与思考提供了重要的决策支撑,并且已成为目前人们关注的研究前沿和新焦点.与传统的知识图谱不同,事件图谱是以现实世界中的抽象事件为节点,以不同事件之间的状态变化或动作序列等形成的逻辑关系来构建复合语义特征的知识网络,并在更高层语义条件下,通过抽象复杂的事件与事件间隐含的逻辑关系,刻画出事物发展演化的行为规律.在事件图谱构建方法的基础上,围绕开放域事件抽取、建立通用的事件标准、事件间关系抽取、事件
2、图谱的融合与加工,以及事件图谱的表示学习等关键技术问题展开深入分析,并对目前相关领域中存在的核心技术、常见的评测数据集以及相关指标进行综述与总结,并对未来发展的新方向进行了展望.关键词:知识图谱;事件抽取;关系抽取;事件图谱;表示学习中图法分类号T P O v e r v i e wA b o u tC o m p o s i t eS e m a n t i c b a s e dE v e n tG r a p hC o n s t r u c t i o nZ HA IL i z h i,L IR u i x i a n g,YAN GJ i a b e i,R AOY u a n,Z
3、HAN GQ i t a n,a n dZ HOUY u nT h e t hR e s e a r c hI n s t i t u t eo fC E T C,S h i j i a z h u a n g ,C h i n aH e b e iK e yL a b o r a t o r yo f I n t e l l i g e n t I n f o r m a t i o nP e r c e p t i o na n dP r o c e s s i n g,S h i j i a z h u a n g ,C h i n aS c h o o l o fS o f t w a
4、 r eE n g i n e e r i n g,X ia nJ i a o t o n gU n i v e r s i t y,X ia n ,C h i n aP l Aa r m yE q u i p m e n tD e p a r t m e n tS h i j i a z h u a n g s t hr e g i o nm i l i t a r yr e p r e s e n t a t i v eo f f i c e,S h i j i a z h u a n g ,C h i n aA b s t r a c t T h ew o r l d i sm a d
5、eu po f c o u n t l e s s i n t e r c o n n e c t e de v e n t sa n dt h es o c i a l a c t i v i t i e so fh u m a nb e i n g sa r eo f t e nd r i v e nb yt h e s ev a r i o u se v e n t s R e s e a r c ho nt h ep r o c e s so f e v o l u t i o na n d i n f l u e n c eo f e v e n t sc a nn o to n l
6、 yh e l p su su n d e r s t a n dt h ee v o l u t i o nl a w so fh u m a nb e h a v i o r sa n ds o c i a l a c t i v i t i e s,b u ta l s op r o v i d eas t r a t e g yf o rr e a s o n i n ga n dt h i n k i n ga b o u ta r t i f i c i a l i n t e l l i g e n c et e c h n i q u e s,w h i c hh a sb e
7、 e np a i da l o ta t t e n t i o na n db e c o m e so n eo f t h en e wh o t t e s tr e s e a r c hf i e l d U n l i k et r a d i t i o n a lk n o w l e d g eg r a p h,e v e n tg r a p h sc a na b s t r a c tv a r i o u se v e n t sf r o mt h er e a lw o r l da sn o d e sa n dr e c o g n i z et h e
8、l o g i c a lr e l a t i o n s h i p sb e t w e e ne v e n t s,s u c ha ss t a t et r a n s f o r m so ra c t i o ns e q u e n c e sb e t w e e nd i f f e r e n te v e n t s,t of o r ma ni n n o v a t i o nk n o w l e d g en e t w o r kw i t hs o m ec o m p o s i t es e m a n t i cf e a t u r e s F
9、r o mt h eh i g h e r l e v e ls e m a n t i cv i e w p o i n t s,t h ee v o l u t i o no ft h ec o m p l e xe v e n t sr e f l e c t st h ep r o c e s so f s o c i a l a c t i v i t yw i t ha c e r t a i no f h i d d e n l o g i c a l r e l a t i o n s h i p sb e h i n do f t h e m I n t h i sp a p
10、 e r,s o m e c r i t i c a l c h a l l e n g e s i n t h ep r o c e s so f e v e n tg r a p hc o n s t r u c t i o nh a v eb e e na n a l y z e d,i e,h o wt oe x t r a c tt h ee v e n t i no p e nd o m a i n,t oe s t a b l i s hac o mm o ne v e n t s t a n d a r d s,t oe x t r a c t t h er e l a t i
11、 o n s h i pb e t w e e ne v e n t s,t of u s i o na n do p t i m i z et h ee v e n tg r a p h,a n dt ob u i l das t r a t e g yf o re v e n tg r a p hr e p r e s e n t a t i o nl e a r n i n g I na d d i t i o n,t h i sp a p e ra l s oo v e r v i e w sa n ds u mm a r i z e ss o m ec o r e t e c h n
12、 o l o g i e s,p u b l i ce v a l u a t i o nd a t as e t s,r e l a t e dm e a s u r e i n d i c a t o r s,a n dt h e ns o m er e s e a r c hd i r e c t i o n s i nf u t u r eh a v eb e e n i l l u s t r a t e d K e y w o r d s K n o w l e d g eg r a p h,E v e n t e x t r a c t i o n,R e l a t i o n
13、e x t r a c t i o n,E v e n tg r a p h,R e p r e s e n t a t i o nl e a r n i n g事件是描述客观世界复杂现象以及人类社会行为的核心概念之一,人们通过事件以及不同事件之间的关系来认识和了解世界.S c h a n k等 针对知识的本质以及如何利用知识等核心问题,结合心理学、语言学和人工智能等多学科的理论与模型,首次提出了脚本事件的概念,即用来表示人们记忆中标准化的一种广义情节,并进一步认为人们是通过记忆中的脚本事件来填补当前场景中的理解与认知空白.例如,当有人问我们要一杯水时,我们不必问他为什么要水,因为当我们脑海中
14、存储着喝水这一常见的动作序列后,很容易理解他的目的以及后续的计划行为.随后,手工编写的脚本事件也一度成为在当时条件下知识表示的核心任务,并被用于支持知识推理、预测等N L P任务.但手工编写脚本事件只能涵盖有限的场景,无法满足广泛场景下的真实需求.因此,利用机器学习来自动抽取事件及构建脚本事件链成为目前研究的主要方向之一.在知识图谱的概念基础上,L i u等首次提出事理图谱的概念,事理图谱是以事件为核心、反映出事物的演化规律与行为模式的新一代知识库.特别是在金融、司法、交通等领域的业务场景中,构建特定领域的事件图谱,能够为知识挖掘与推理等任务提供有效的辅助决策依据,从而引起了业界的极大兴趣与广
15、泛关注,并成为目前知识表示领域中的研究热点之一.本文在事件抽取以及事件图谱基本概念的基础上,针对开放域与限定域不同条件下的事件图谱构建过程中,事件抽取、事件之间因果、顺承等富语义关系的抽取、事件图谱的加工与补全机制、图谱质量评价、表示学习过程中所存在的一些亟需解决的关键性问题与挑战进行了系统的梳理与分析,对该领域最新的研究成果进行总结与综述,并指出了该领域未来的重点研究方向与应用领域.事件图谱的定义 事件的基本概念虽然事件是人们认知和理解世界的重要知识资源这一概念早已深入人心,但关于事件的概念、事件的表示方式等基础问题在人工智能领域中始终没有统一的答案.S c h a n k等将事件表示为最简
16、化形式下的动词和具有类型依赖表示的参与者组合的多元组.L i等将事件定义为由一个抽象的、广义的和语义的完整动词短语表示,且每个事件必须包含一个触发词用来指示事件的发生,同时还包括一些其他的必要属性特征,如主体与客体对象或修饰词等以确保语义完整性,例如“吃火锅”“看电影”“去机场”等.上海大学语义智能实验室构建的中文突发事件语料库(C h i n e s eE v e n tC o r p u s,C E C)将事件定义为:在某个特定的时间和地点环境下发生的、由若干角色参与、表现出若干动作特征的行为序列,包含了时间、地点、主体、客体和触发词这个个特征所形成的五元组.国际上最具影响力的事件抽取公开
17、评测会议 自动内容抽取国际评测会议(A u t o m a t i cC o n t e n tE x t r a c t i o n,A C E)在事件抽取任务中将事件定义为:发生在某个特定时间点或时间段,某个特定地域范围内,由一个或多个角色参与的一个或者多个动作组成的事情或者状态的改变.从A C E对事件的定义中可以看到,事件包括时间、地址、角色、行为动作、对象状态以及迁移这种抽象的核心要素.在此基础上,针对文本中描述事件的短语或句子,可以将事件进一步进行形式化定义,如下所示:E v e n tE T,E A,A R,E T其中,E T表示事件触发词(E v e n tT r i g g
18、e r),指能够清晰准确表达某类事件发生的关键词,通常是动词或名词;E A表示事件元素(E v e n tA r g u m e n t s),也称事件论元,指参与一个具体事件所涉及的核心要素,包括事件相关概念、不同人名、地名、组织机构、交通工具等事件实体(E n t i t y)、数值以及时间等所形成的集合;A R表示元素角色(A r g u m e n tR o l e s),也称论元角色,指在事件中不同事件元素以及事件元素之间的关系;E T表 示事件类型(E v e n tT y p e),指某一特定的事件类别,A C E测评定义了种事件类型,种子事件类型,并且构建了相应的事件表示框架.
19、为了进一步衡量事件抽取的准确性与有效性,A C E进一步定义了以下几种评测规则标准:)如果一个事件触发词的位置偏移和事件类型与标注内容匹配,则表示正确识别该事件触发词.)如果一个事件元素词的位置偏移和对应事件与标注内容匹配,则表示正确识别该事件元素.)如果一个事件元素词的位置偏移、对应事件及元素角色与标注内容匹配,则表示正确识别并分类.事件图谱事件图谱,也称事理图谱,是一个描述事件之间顺承、因果关系的事理演化逻辑的有向图.类比知识图谱的定义,事件图谱可形式化定义为:E v e n tG r a p h(E,R,S)()其中,Ee,e,e|E|表示事件图谱中的事件所构成的集合;Rr,r,r|R|
20、表示事件图谱中代表事件之间的顺承、因果、条件和上下位等逻辑关系的关系集合;S包含于ERE,表示事件图谱中三元组的集合.根据上述定义,构建一个完整的事件图谱需要完成以下步骤:)在原始的结构化与非结构化数据进行事件抽取以及事件间关系抽取的基础上,一方面形成事件的结构化特征表示,另一方面形成事件关系三元组,并生成初步的事件图谱框架;)通过事件泛化、本体构建、质量评估来生成一个完整的事件图谱;)通过知识推理来完成事件的属性与关系补全,最终形成一个可持续优化的优化事件图谱,为智能化的推理与应用提供事理的基础.因此,事件图谱的构建与知识图谱构建相似,均具有较高的复杂性.为了降低事件图谱构建与处理应用过程的
21、复杂性,特别是事件抽取的复杂性,事件抽取也可以进一步减化并采用抽象、泛化、语义完备的谓词短语来表示,通过事件触发词以及明确的事件元素来保持该事件的语义完备性.例如“吃火锅”“看电影”“去机场”表达了明确的事件语义,而“去地方”“做事情”“吃东西”则是不合理或不完 整的 事件表达.考虑到事件的类型以及数据来源不同,事件图谱的构建也可以分为数据获取、事件抽取、事件关系抽取、知识融合与加工部分,事件图谱构建框架如图所示.翟利志,等:基于复合语义特征的事件图谱构建技术研究进展图事件图谱构建框架F i g E v e n tm a p p i n gc o n s t r u c t i o nf r
22、a m e w o r k 存在的关键技术挑战根据事件图谱的形式化定义中所包括的个核心要素,目前事件图谱生成领域仍然面临着以下方面的关键问题与挑战.挑战事件的分类描述与准确抽取.事件抽取不同于实体抽取,为了准确识别事件类别以及抽取其所包含的事件各要素,首先需要对事件以及事件类别的特征进行定义和描述,而现有的A C E,MU C,K B P等公开评测数据集均是针对特定领域的有限标注语料及事件表示.由于目前缺乏统一、通用的事件定义与表示框架标准,例如,在金融、医学以及司法等不同领域与任务场景中,对于已标注好的事件数据,在事理逻辑与表达上存在着明显的差异,导致大量的事件抽取成果仅仅只能局限在特定任务
23、的事件处理中,从而限制了应用的推广.因此,如何建立标准和通用的事件表示学习框架,在开放领域下实现完备性语义的复杂事件抽取,是目前面临的重大挑战之一.此外,由于手工标注的训练数据生产成本昂贵,事件类型覆盖率低,且标注的数据量有限,因此传统的有监督学习方法难以应用于开放域大规模语料的事件抽取任务中.如何通过大规模、高质量的标注语料进行训练与学习,实现事件的准确抽取,也是目前迫切需要解决的关键性问题.挑战复合语义特征条件下的事件关系抽取.一般地,事件间关系可分为局部关系与全局关系.其中,局部关系指不同事件中各要素之间存在的相关关系,如空间关系与主题关系等;全局关系则指以事件作为基本语义逻辑单元的不同
24、事件之间所存在的时序、因果、共指、子事件等语义逻辑关系.事件间的全局逻辑关系在文档中的表现形式通常具有隐蔽性和多样性,导致事件间的全局关系相对不容易获取.目前,广泛采用的因果关系抽取方法往往通过识别和挖掘表示事件关系的连接词来确定事件关系.而对于复杂且隐含的事件关系而言,如何能够对事件关系进行准确抽取,不仅需要考虑文本内容的语法逻辑结构特征,也需要考虑文本内容的深度语义理解.因此,如何对事件关系进行准确抽取具有重要的研究价值并且是一项具有挑战性的任务.挑战事件图谱构建与补全.如何将获取到的事件和事件关系所蕴含的知识系统地组织起来,形成事件图谱也面临着许多挑战.首先,事件抽取任务中,事件的表示形
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 复合 语义 特征 事件 图谱 构建 技术研究 进展
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。