基于反馈图卷积神经网络的事件检测方法.pdf
《基于反馈图卷积神经网络的事件检测方法.pdf》由会员分享,可在线阅读,更多相关《基于反馈图卷积神经网络的事件检测方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 50 卷 第 8 期2 0 2 3 年 8 月Vol.50,No.8Aug.2 0 2 3湖 南 大 学 学 报(自 然 科 学 版)Journal of Hunan University(Natural Sciences)基于反馈图卷积神经网络的事件检测方法刘浏 1,2,丁鲲 1,刘姗姗,刘茗 1(1.国防科技大学 第六十三研究所,江苏 南京 210007;2.宿迁学院 信息工程学院,江苏 宿迁 223800)摘 要:事件检测是自然语言处理领域的重要任务之一,其结果可以有效支撑信息抽取、文本分类和事件推理等下游任务.预训练语言模型BERT在事件检测任务上取得了显著的成绩,然而该类方法无法
2、有效获取长距离和结构化的文本信息.为了缓解该问题,本文提出基于反馈网络的图卷积神经网络模型进行文本结构信息捕获,同时这种新方法能够有效解决图卷积神经网络带来的语义信息衰减性问题.本文首先使用BERT预训练模型获取文本的语义特征,然后使用融入反馈网络的图卷积神经网络提取文本的句法结构特征,最终使用多分类器实现对事件触发词的识别和分类.公开数据集ACE 2005上的实验结果表明,本文提出的事件检测方法在事件触发词识别和分类任务上的F1值分别达到了74.46%和79.49%,较现有工作平均提高了4.13%和4.79%.关键词:事件检测;图神经网络;BERT;句法分析;自然语言处理中图分类号:TP39
3、1 文献标志码:AEvent Detection Method Based on Feedback Graph Convolutional NetworksLIU Liu1,2,DING Kun1,LIU Shanshan1,LIU Ming1(1.The Sixty-third Research Institute,National University of Defense Technology,Nanjing 210007,China;2.School of Information Engineering,Suqian University,Suqian 223800,China)Abs
4、tract:Event detection is one of the most important tasks in the field of natural language processing(NLP).Its result is the key information supporting downstream tasks,such as information extraction,text classification and event reasoning.BERT model has achieved remarkable achievements in event dete
5、ction.However,it cannot effectively obtain long-distance and structured text information.To alleviate this problem,feedback-based GCNs network is proposed to capture text structure information in this paper,and it can solve the problem of semantic information attenuation caused by GCNs.This paper fi
6、rst uses BERT model to obtain semantic features of the text,then adopts GCNs integrated into the feedback network to extract the syntactic structure features of the text,and finally employs multiple classifiers to identify and classify event trigger words.The experimental results on the open 收稿日期:20
7、22-06-27基金项目:国家自然科学基金资助项目(71901215),National Natural Science Foundation of China(71901215);中国博士后科学基金资助项目(2021MD703983),China Postdoctoral Science Foundation(2021MD703983);江苏省“333工程”培养资金资助项目(BRA2020418),Jiangsu Province“333 Projects”(BRA2020418);国防科技大学科研计划项目(ZK20-46);江苏省高等学校自然科学研究面上项目(20KJB413003),Na
8、tural Science Foundation of the Jiangsu Higher Education Institutions of China(20KJB413003);宿迁市科技计划项目(K202128),Science and Technology Program of Suqian(K202128)作者简介:刘浏(1988),男,江苏宿迁人,国防科技大学博士后,博士 通信联系人,E-mail:文章编号:1674-2974(2023)08-0205-08DOI:10.16339/ki.hdxbzkb.2023284湖南大学学报(自然科学版)2023 年dataset ACE
9、2005 show that the F1 value of the event detection method proposed in the task of event trigger word recognition and classification has reached 74.46%and 79.49%,respectively,which gains an average increase of 4.13%and 4.79%compared with the existing work.Key words:event detection;graph neural networ
10、k;BERT;syntactic parsing;natural language processing在大数据时代,信息以爆炸式速度增长,而它们大多以非结构化文本形式存在,如微博、新闻以及军事情报等.如何有效利用文本中蕴含的有价值信息成为新的挑战.事件检测作为自然语言处理技术一个重要子任务,其目标就是要从这些不规则的文本中提取出结构化信息用以支持知识图谱、信息检索、推荐系统等下游任务.事件检测的主要目标是识别文本中的事件触发词并对事件进行分类.触发词主要表现为动词,动词通常是一个句子的核心词汇,能够直接体现事件的类型和状态.ACE会议(自动内容抽取测评会议)则将触发词描述为触发事件发生的词1
11、.例如下面的句子:S:Many refugees have left Ukraine.(许多难民乌克兰.)在句子 S中,事件检测的主要任务是识别动词“left”为触发词并将其分类为“Transport”.深度学习在欧氏空间数据特征的挖掘上取得了成功,但是在现实应用场景中数据大多来自非欧式空间,例如社交网络中,用户之间非规则化的复杂关系.为此,有学者提出了以节点和边形成的图结构学习模型,即图神经网络(Graph Neural Network,GNN)2.GNN模型能够学习非欧氏空间中数据之间的依赖关系,同时通过聚合邻居节点的信息进而丰富其表征能力.因此在自然语言处理领域,通常使用GNN模型获取具
12、有词间依赖关系的结构化信息.同时,GNN随着隐藏层深度的增加,其节点可感知更远的邻居节点信息,因此GNN能够获取长距离的节点信息.近年来,预训练语言模型BERT3在文本分类、机器翻译以及自动问答等领域任务上展示了卓越性能,成为实现事件检测任务的重要技术手段.虽然BERT相较于ELMo4、GPT5等其他预训练模型具有更强的语义理解能力和语义特征提取能力,但是BERT 无法有效捕获长距离的结构化文本特征.为此,本文提出了一种改进图神经网络模型,即反馈图卷积神经网络模型(FB-GCNs).本文的主要贡献在于:首先使用 GCNs 与预训练语言模型 BERT 相结合,从而提高模型捕获长距离和结构化信息的
13、能力;其次,设计反馈网络模块用以缓解由GCNs模型带来的语义特征衰减问题;然后,通过在公开数据集上开展对比实验和消融实验,验证了本文模型的可行性和优越性.同时,消融实验也进一步验证了随着隐藏层的增加,GCNs模型对语义信息的传递呈线性衰减趋势.1 相关工作与传统的统计学模型不同,深度学习模型作为具有非线性表示能力的深层次网络,能够自动挖掘数据特征,因此许多学者将其应用于事件检测任务.Chen 等6和 Nguyen 等7最早将深度卷积神经网络(CNN)应用于事件检测任务,并取得了不错的效果.Nguyen 等8和 Jagannatha 等9使用循环神经网络(RNN)进行事件检测,其中前者利用BiR
14、NN进行文本表征,然后采用联合学习模型对事件触发词和论元进行识别.后者则利用BiRNN获取词嵌入,并利用条件随机场实现对电子病历中包含的医疗事件进行检测.Hong等10提出了一种名为自约束学习方法,其利用生成对抗网络生成虚假特征从而解决事件检测过程中可能由伪关系引起的错误.Liu等11为减少触发词标注带来的时间成本,提出了一种无须触发词标注的事件检测方法.该方法使用LSTM学习词的上下文环境特征,同时联合注意力机制获取的触发词局部信息,最终通过多任务分类器实现对事件类型的判断.然而,基于深度学习的事件检测技术依然面临着数据标注的问题,因为深度学习模型的训练严重依赖大规模的有标签实验数据的支撑.
15、同时,它难以处理像图数据这样的非欧式空间问题.因此,许多自然语言处理的专家开始越来越关注图神经网络在事件检测任务上的应用.Nguyen和Grishman12认为之前的神经网络主要研究的是文本序列特征,对文本的语义结构特征研究相对较少,因此提出基于图206第 8 期刘浏等:基于反馈图卷积神经网络的事件检测方法神经网络的事件检测方法.Cui等13认为经典的图神经网络忽略了依赖关系标签的信息,因此设计了一种强化边信息的图卷积神经网络用于事件检测.该方法利用边代表的节点依赖关系更新节点信息,同时又使用节点信息更新边表征.BERT模型凭借着强大的语义表征能力成为较成功的预训练语言模型之一.目前许多事件检
16、测任务都是基于该模型开展研究的,并取得了显著的成果.Yang等14将文本中的词、位置以及段嵌入输入到BERT模型获取具有语义信息的编码,然后使用多分类器作用于编码进行触发词抽取.Wadden等15利用BERT构建一个DyGIE+框架,进行跨文本建模,并捕获句内和跨句子上下文信息.Liu等16和Du等17为了缓解模型对数据的依赖以及错误传播的问题,将事件抽取任务构造为基于BERT的机器阅读理解模型.两者不同的是,前者使用非监督方法进行问题生成,而后者使用人工方式设计问题.但是这类方法往往对长距离的信息挖掘存在不足.因此本文利用预训练模型获取文本的语义特征,并输入图神经网络,从而实现语义特征和长距
17、离的结构特征相结合.2 事件检测模型图 1为事件检测模型框架,主要由语义特征提取、结构特征提取、反馈网络以及事件检测等模块组成.语义提取模块使用预训练语言模型挖掘句子级的上下文语义信息.结构特征提取模块是使用由文本句法分析结果转化的邻接矩阵构造的图神经网络,提取文本的结构化信息.反馈网络包含多个反馈层,每个反馈层由归一化函数、激活函数组成.最后,全连接层使用多任务分类器实现对文本中的事件触发词的识别和分类.2.1 语义特征语义特征提取模块主要包括词编码和BERT模型两个部分.本文的词编码由两个部分组成,即 Token embeddings和Position embeddings.前者通过查询
18、WordPiece embeddings方法17形成的编码词典获取不同词的数值表示,其中该词典包含英文常用的30 000个单词的编码结果.后者通过三角函数表示不同词在句子中相对位置信息.需要说明的是,由于本文重点研究句子级的事件检测任务,因此没有加入段嵌入(Segment embeddings).BERT 预 训 练 模 型 是 将 Token embeddings 和 Position embeddings 作为输入,使用叠加的 Transformer encoder作为语义分析的核心模块.本文使用的 BERT 模型是采用文献 18 中的 BERT_Base 结构,其包含Transforme
19、r Block的层数为12,隐藏层的维度为768,Self-Attention头数为12.2.2 结构特征为了获取文本的结构化特征,本文使用图神经网络捕获不同词汇之间的依赖关系.首先,使用句法分析工具抽取原始文本中词间依赖关系,然后将其转化为邻接矩阵,最后使用邻接矩阵对图神经网络中节点关系进行初始化.图1 FB-GCNs模型框架图Fig.1 Illustration of FB-GCNs architecture207湖南大学学报(自然科学版)2023 年2.2.1 句法分析本文使用NLP工具spaCy对句子进行句法分析,并得到词之间的依存关系,如图2所示.通常依存关系是二元非对称的,其中以动
20、词或动词短语为中心词(Root).句子与中心词之间存在依存路径,图中的圆 弧 表 示 词 之 间 的 存 在 依 存 关 系,例 如(left,Ukaine)的关系为dobj,表示后者是前者的直接宾语.句子中的词间依赖关系具有多样性,示例中便存在5种关系.关系的非对称性又决定了依存路径的有向性.为了能够将这种依存路径表示为可计算的邻接矩阵An n,其元素表示为Ai,j=1,(vi,vj)E0,(vi,vj)E.本文将存在依存路径的两个词关系值表示为1,不存在依存路径的值表示为0.依存路径分为直接和间接路径两种,图中(left,Ukaine)为直接路径,由(left,refugees)-(ref
21、ugees,Many)推导的(left,Many)的路径为间接路径.由于词间的依存关系是相互,因此在邻接矩阵的转化过程中将路径依存关系转化为对称的无向图.同时为每一个词添加环,使得自身原始信息得以保留.2.2.2 图卷积神经网络为便于描述,本文采用文献 12 的描述形式将图表示为G=(V,E),其中V表示节点(词向量)的集合,E表示边(词间关系)的集合.定义一个矩阵X Rm n表示句子词嵌入,n表示词的数量,m表示词向量xv V的维度.如图4所示,原始的GCNs模型中的节点向量更新是由邻居节点聚合而成,而本文则通过上一节中的邻接矩阵确定用来聚合的邻居节点.图神经网络的层次代表需要更新的次数,其
22、中对第k+1 层节点进行更新的公式如下所示:h(k+1)v=ReLU(u N(v)W(k)L(u,v)h(k)u+b(k)L(u,v)(1)式中:N(v)V表示节点v的邻居集合,L(u,v)表示节点v与邻居节点之间存在的依存路径,若存在则为1,否则为0.v表示隐藏层数,W(k)L(u,v)Rn n 是可学习参数,b(k)L(u,v)为偏置参数,ReLU 为激活函数,h(1)v=xv.2.3 反馈网络受残差网络19的启发,本文设计了一种反馈网络用以缓解GCNs模型的退化问题以及破坏xv的语义信息.如图5所示,与上一节中在第(k+1)隐藏层的节点xv的更新公式不同,经过反馈网络后的公式为:hv(k
23、+1)=(k+1)LN(h(k+1)v)+(k+1)LN(xv)(2)式 中:LN(x)=x-E xVar x+,和 0,1为 超参数.反馈网络通过在 GCNs 模型每一层中引入由BERT模型获取的语义信息,从而减少由GCNs模型节点信息聚合带来的语义信息衰减和破坏.在语义特征与结构化特征融合过程中采用了归一化方法避免两者向量化计算时出现数值空间差异较大的问题,并能够加快模型收敛.同时使用权重系数对语义特征和结构特征进行调和,使其达到最优的状态.图2 句法分析示例图Fig.2 An example of syntactic dependency parsing图3 基于句法依赖关系的邻接矩阵F
24、ig.3 Adjacency matrix based on syntactic dependency图4 图卷积神经网络结构图Fig.4 Illustration of GCNs architecture208第 8 期刘浏等:基于反馈图卷积神经网络的事件检测方法2.4 事件检测由于事件的类型是多样的,因此本文使用多分类器对样本中的词进行预测.GCNs模型中的节点是对样本句中词的量化表示,因而使用如下公式:y=softmax(hW+b)RT n(3)式中:h为GNN中的节点表示向量,即包含语义和结构信息的词向量,W为可训练参数,b为偏置向量.本文将交叉熵作为损失函数,其公式如下:L=(-i=
25、0N-1log(eyijeyij)/N(4)式中:N 表示训练batch中的样本数量,yi 表示样本的真实标签概率,yij表示第i个样本的被判断为类别j的概率.3 实验3.1 实验数据与评估指标本文实验采用的是ACE 2005数据集,该数据集包含来自不同领域的新闻、微博、广播等文本20.ACE 2005数据集包含8种事件类型,33种子类型.为了实验的公平性,使用文献 21 中的方法共抽取599篇文本中的15 715个句子作为实验数据,其中14 180个句子作为训练集样本,863个句子作为验证集样本,672个句子作为测试集样本.本文使用精准率 P(precision)、召回率 R(recall)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 反馈 图卷 神经网络 事件 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。