基于过滤机制的链式实体关系抽取模型.pdf
《基于过滤机制的链式实体关系抽取模型.pdf》由会员分享,可在线阅读,更多相关《基于过滤机制的链式实体关系抽取模型.pdf(12页珍藏版)》请在咨信网上搜索。
1、当前实体关系抽取任务中普遍采用堆叠标注层的方式处理关系重叠问题.这种处理方式中很多关系对应标注层的计算是冗余的,会导致标注矩阵的稀疏化,影响模型的抽取效果.针对上述问题,文中提出基于过滤机制的链式实体关系抽取模型,先通过编码层获得文本的向量特征,再通过五阶段的链式解码结构顺序抽取关系三元组的主体、客体和关系.链式解码结构在避免标注矩阵稀疏化的同时,能够通过过滤机制完成实体和关系的自动对齐.在解码过程中:条件层规范化用于提高阶段间特征的融合程度,减少误差累积的影响;门控单元用于优化模型的拟合性能;首尾分离和关系修正模块用于关系集的多重校验.在公开数据集上的对比实验表明,文中模型取得较优性能.关键
2、词摇 实体关系抽取,关系三元组,链式解码结构,过滤机制,门控单元,条件层规范化引用格式摇 夏鸿斌,沈 健,刘 渊.基于过滤机制的链式实体关系抽取模型.模式识别与人工智能,2023,36(7):590-601.DOI摇 10.16451/ki.issn1003鄄6059.202307002摇 摇 摇 摇 摇 摇 中图法分类号摇 TP 391Chain Entity Relation Extraction Model with Filtering MechanismXIA Hongbin1,2,SHEN Jian1,LIU Yuan1,2ABSTRACT摇Stacking labeling lay
3、er is commonly adopted to deal with relation overlap in current entityrelation extraction task.In this method,the calculation of the labeling layers corresponding to manyrelations is redundant,resulting in sparse labeling matrix and weak extraction performance of the model.To solve these problems,a
4、chain entity relation extraction model with filtering mechanism is proposed.Firstly,the vector feature of the text is obtained through the encoding layer,then the subject,object andrelation of the relation triple are sequentially extracted through the five鄄stage chain decoding structure.The chain de
5、coding structure avoids the sparse labeling matrix,and the automatic alignment of entitiesand relations is completed through the filtering mechanism.In the decoding process,conditional layernormalization is employed to improve the fusion degree of features between stages and reduce the impactof erro
6、r accumulation.Gated unit is utilized to optimize the fitting performance of the model.Head鄄to鄄tailseparation and relation correction module are applied to multiple verification of relation sets.Comparativeexperiments on public datasets show that the proposed model achieves better performance.Key wo
7、rds 摇Entity Relation Extraction,Relation Triples,Chain Decoding Structure,FilteringMechanism,Gated Unit,Conditional Layer Normalization收稿日期:2023-05-05;录用日期:2023-07-28Manuscript received May 5,2023;accepted July 28,2023国家自然科学基金项目(No.61972182)资助Supported by National Natural Science Foundation of China
8、(No.61972182)本文责任编委 陈恩红Recommended by Associate Editor CHEN Enhong1.江南大学 人工智能与计算机学院摇 无锡 2141222.江南大学 江苏省媒体设计与软件技术重点实验室摇无锡2141221.School of Artificial Intelligence and Computer Science,Jiang鄄nan University,Wuxi 2141222.Jiangsu Key Laboratory of Media Design and Software Tech鄄nology,Jiangnan Universit
9、y,Wuxi 214122第 36 卷摇 第 7 期模式识别与人工智能Vol.36摇 No.72023 年 7 月Pattern Recognition and Artificial IntelligenceJul.摇2023摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇Citation摇 XIA H B,SHEN J,LIU Y.Chain Entity Relation Extraction Model with Filtering Mechanism.Pattern Recognition and Artificial Intelligence,2023,36(
10、7):590-601.摇 摇实体关系抽取任务目的是从文本数据中抽取出由主体(Subject)、客体(Object)和谓语(Pre鄄dicate,即主体和客体之间的关系)组成的关系三元组1.实体关系抽取是知识图谱构建的关键步骤2-3,在医学知识发现4、情感分析5等领域都具有广泛应用.关系重叠问题是实体关系抽取中的一个关键问题,包括 Normal、SEO(Single Entity Overlap)和 EPO(Entity Pair Overlap)三种情况.Normal 表示一对实体之间关系唯一,SEO 表示多个实体与同一个实体间存在关联,EPO 表示一对实体之间拥有多个不同的关系.实体关系抽取
11、任务可以分为实体抽取和关系抽取两个子任务.常用的实体抽取方式有基于序列标注的方式和基于跨度(Span)的方式.Zheng 等6将关系类别与序列标注中的 BIEO 标签结合,为每个分词片段进行分类,再按照标签类型进行组合,得到三元组.这种处理方式将实体限定在某种关系上,无法处理关系重叠问题.常用的基于跨度的方式有片段排列和指针网络两种.Dixit 等7提出的 Span鄄Level Model for RelationExtraction 和 Eberts 等8提出的 SpERT(Span鄄BasedEntity and Relation Transformer)都采用片段排列的方式抽取实体 Sp
12、an.这种方式会先列举出本文序列中所有可能的实体 Span,再使用过滤器进行筛选,实际抽取过程中会对很多冗余的实体 Span 进行判断,导致计算开销变大.指针网络通过两个标注层分别标注实体的首部和尾部,最后组合成实体 Span,这种 抽 取 方 式 更 简 单 高 效.Wei 等9提 出 的CASREL 和王泽儒等10提出的指针级联标注策略(Novel Pointer Cascade Tagging Strategy,NPCTS)都采用指针网络处理实体抽取任务.在关系抽取任务方面,早期模型在抽取得到实体对后,会采取基于特征的方式11和基于核函数的方式12抽取关系,当前模型更倾向于实体与关系的联
13、合抽取.例如:CASREL 和 TPLinker13都会按照关系类别数堆叠标注层,即在每个关系下预测对应的实体,从而实现实体和关系的自动对齐.实体 关 系 抽 取 模 型 可 以 分 为 管 道 模 型(Pipeline)和联合模型(Joint).管道模型的任务按照顺序执行,任务之间的关联性较低,存在误差累积、曝光偏差等问题.联合模型通过参数共享或联合解码的方式,提高子任务之间的关联性.参数共享的联合模型(如 CASREL)在本质上仍是多阶段模型,同样存在误差累积、曝光偏差等问题.而类似 TPLinker的联合解码模型,虽然能够在单阶段内抽取三元组的全部内容,避免曝光偏差和误差累积的产生,但解
14、码结构会相对变得更复杂,导致模型的计算性能不佳.CASREL 的堆叠指针网络和 TPLinker 的握手标注机制(Handshaking Tagging Scheme)都采用按照关系种类数堆叠标注层的策略,即在每个关系类别下抽取对应的实体对.在实际情况中,多数文本包含的关系三元组不会很多,能够覆盖到的关系种类很少,因此大量关系对应的标注层计算是冗余的,导致模型标注矩阵的稀疏化,最终影响抽取性能.为了处理这种由关系类别失衡而产生的矩阵稀疏问题,Zheng等14提出 PRGC(Potential Relation and Global Corre鄄spondence),采用关系和实体分开抽取的策略
15、,并使用全 局 对 应 矩 阵(Global Correspondence Matrix,GCM)对齐实体.全局对应矩阵的大小为文本序列长度的平方,其中只有实体首部对应位置会进行标注,同样是一个较稀疏的矩阵.CASREL 和 PRGC 均为两阶段的解码模型,CASREL 利用主体信息抽取对应的客体和关系,PRGC 利用关系信息抽取对应的实体对,这两个模型在第二阶段都利用第一阶段的输出结果,成功过滤不必要的信息,完成三元组的部分元素之间的对齐.本文将这种利用前一阶段输出排除无用信息,并自动对齐三元组内元素的机制称为过滤机制.针对上述模型的一些问题,本文提出基于过滤机制的链式实体关系抽取模型(Ch
16、ain Entity Rela鄄tion Extraction Model with Filtering Mechanism,Chain鄄Rel).首先,通过 BERT(Bidirectional Encoder Repre鄄sentations from Transformers)15获取文本的编码输出,使用门控注意力单元(Gated Attention Unit,GA鄄U)12对输出特征进一步编码.然后,将特征输入关系修正模块和链式解码模块中分别进行抽取,得到文本的全局关系集和关系三元组集.最后,使用全局关系集对关系三元组集进行校验,得到输出结果.链式解码结构分为五个阶段,前四个阶段用于抽
17、取主体和客体,最后一个阶段用于获取实体对间的关系.从第二阶段开始,每个阶段都会使用前驱阶段的输出进行数据过滤,使主体、客体、关系能够在链式的195第 7 期摇 摇 摇 摇 夏鸿斌摇 等:基于过滤机制的链式实体关系抽取模型抽取过程中自动对齐.为了提升过滤机制的作用,减少误差累积的影响,ChainRel 使用条件层规范化(Conditional Layer Normalization,CLN)16进行阶段间的特征融合.在进入最后一阶段前,模型会通过门控线性单元(Gated Linear Unit,GLU)17以及首尾分离操作进一步丰富输入特征包含的信息,提升关系抽取效果.1摇基于过滤机制的链式实体
18、关系抽取模型1.1摇 模型框架ChainRel 分为 3 部分:BERT 编码层、链式解码模块和关系修正模块.ChainRel 的具体结构如图 1 所示:H0为 BERT的输出编码;H 为 H0经过 GAU 处理过后的文本编码;CLS 为 BERT 输出中用作分类的一个向量;SH、OH、ST、OT 为主体首部、主体尾部、客体首部和客体尾部对应的索引下标候选集;S 和 O 为对齐后的实体 Span 集,包括 4 个对齐后的索引集 idxSH、idxST、idxOH、idxOT;FSH、FOH、VSH、VST、VOH、VOT为 SH、OH、idxSH、idxST、idxOH和 idxOT中的下标信
19、息,通过 extra鄄ct()从 H 中截取得到的特征向量;H*S为 H 和 FS的融合向量,SH*OH为VSH和VOH的融合向量,ST*OT为VST和VOT的融合向量;RelH和RelT为关系抽取部分得到的两个关系集,RelG为通过关系修正模块得到的全局关系集.?BERTGAUHO?HCLNH*S?O?CLNSH*OHGLU?ST*OTRelHRelT?HSFSHS(,)idxidxSHOH(,)idxidxSTOTH(,),(,)SHSTOHOTVVVVRelGCLSSHLinear&sigmoidHHCLNFSHHLinear&sigmoid?ST?OHLinear&am
20、p;sigmoidH*SHCLNFOHHLinear&sigmoid?OT?extract().extract().extract().extract().图 1摇 ChainRel 结构图Fig.1摇 Structure of ChainRel1.2摇 BERT 编码层BERT 是由 Transformer18的 Encoder Block 堆叠而成.模型结合上下文进行训练,生成深度的语义表征.ChainRel 使用 BERT 的分词器对输入文本进行处理,得到文本序列,并将该序列输入预训练的BERT 中,用于计算对应的编码向量.本文取 BERT最后一个 Block 的输出 H0以及对
21、应的 CLS 向量供后续模块使用.1.3摇门控结构GLU 源于门控卷积网络(Gated ConvolutionalNetwork,GCN)17,其本质是通过两个相同的卷积层对输入向量进行强化输出.两个卷积层对应两个通道,未加激活函数的通道保证运算过程中梯度的不易消失,加激活函数的部分实现特征的非线性转换.两个通道相加后的输出能够有效强化输入特征.ChainRel 中的 GLU 结构,在网络层上使用简单高效的线性层,具体计算公式如下:glu(X)=(W1X+b1)茚 滓(W2X+b2),其中,W1、b1和 W2、b2为两个结构一致的线性层的可训练参数,茚 为元素级乘法,即两个矩阵的对应元素相乘.
22、Hua 等12在FLASH(Fast Linear Attention witha Single Head)中提出 GAU 的结构,并结合 GLU、Attention 及 FFN(Feed Forward Network).其 中Dense 层包含线性层和激活函数,激活函数使用SiLU 函数.SiLU 函数的计算公式如下:SiLU(x)=x*滓(x),其中,滓()为 sigmoid 激活函数,*为矩阵间元素级的乘法,并支持广播机制.与原生 GLU 不同,GAU 参考的 GLU 结构使用295模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷两个 Dense 层,即两个通道都使用 S
23、iLU 函数进行激活.GAU 在 GLU 的基础之上加入注意力机制,计算过程如下:U=SiLU(WUX+bU),V=SiLU(WVX+bV),Z=SiLU(WzX+bz),A=1nrelu2Q(Z)K(Z)Ts,gau(U,V)=(U已AV)Wgau.其中:U、V、Z为输入X通过Dense层后得到的输出,A为注意力计算公式;n为文本长度,s为注意力头的个数,已 为哈达玛积;Q()和 K()对应两个仿射变换;Wgau为最后输出时 Dense 层的可训练权重.需要注意地是,Hua 等12在基础 GAU 的注意力计算过程中会计算 RoPE(Rotary Position Embed鄄ding)19,
24、由于 RoPE 的计算过程较耗时,并且对抽取结果的影响不大,因此本文使用的 GAU 中不包含RoPE 的计算过程.将1.2节中得到的文本编码H0输入GAU中,进行二次编码,得到共享编码 H,即U0=SiLU(WUH0+bU),V0=SiLU(WVH0+bV),H=gau(U0,V0).1.4摇链式解码模块链式解码模块分为五个阶段的抽取任务,前四个阶段用于抽取主、客体的首部和尾部,最后一个阶段为关系抽取,阶段之间采用 CLN 进行特征融合.1.4.1摇条件层规范化为了减少误差累积的影响,ChainRel 在链式解码结构中使用 CLN 强化阶段间的特征融合.CLN 计算公式如下:cln(y,e)=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 过滤 机制 链式 实体 关系 抽取 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。