基于上下文语义增强的实体关系联合抽取_雷景生.pdf
《基于上下文语义增强的实体关系联合抽取_雷景生.pdf》由会员分享,可在线阅读,更多相关《基于上下文语义增强的实体关系联合抽取_雷景生.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1438-1444ISSN 1001-9081CODEN JYIIDUhttp:/基于上下文语义增强的实体关系联合抽取雷景生1,剌凯俊1,杨胜英1*,吴怡2(1.浙江科技学院 信息与电子工程学院,杭州 310023;2.浙江省肿瘤医院,杭州 310022)(通信作者电子邮箱)摘要:基于span的联合抽取模型在实体和关系抽取(RE)任务中共享实体span的语义表示,能有效降低流水线模型带来的级联误差,但现有模型无法充分地将上下文信息融入实体和关系的表示中。针对上述问题,提出一个基
2、于上下文语义增强的实体关系联合抽取(JERCE)模型。首先通过对比学习的方法获取句子级文本和实体间文本的语义特征表示;然后,将该表示加入实体和关系的表示中,对实体关系进行联合预测;最后,动态调整两个任务的损失以使联合模型的整体性能最优化。在公共数据集CoNLL04、ADE和ACE05上进行实验,结果显示JERCE模型与触发器感知记忆流框架(TriMF)相比,实体识别F1值分别提升了1.04、0.13和2.12个百分点,RE的F1值则分别提升了1.19、1.14和0.44个百分点。实验结果表明,JERCE模型可以充分获取上下文中的语义信息。关键词:命名实体识别;关系抽取;对比学习;文本span;
3、加权损失中图分类号:TP183;TP391.1 文献标志码:AJoint entity and relation extraction based on contextual semantic enhancementLEI Jingsheng1,LA Kaijun1,YANG Shengying1*,WU Yi2(1.School of Information and Electronic Engineering,Zhejiang University of Science and Technology,Hangzhou Zhejiang 310023,China;2.Zhejiang Can
4、cer Hospital,Hangzhou Zhejiang 310022,China)Abstract:Span-based joint extraction model shares the semantic representation of entity spans in entity and Relation Extraction(RE)tasks,which effectively reduces the cascade error caused by pipeline models.However,the existing models cannot adequately int
5、egrate contextual information into the representation of entities and relations.To solve this problem,a Joint Entity and Relation extraction model based on Contextual semantic Enhancement(JERCE)was proposed.Firstly,the semantic feature representations of sentence-level text and inter-entity text wer
6、e obtained by contrastive learning method.Then,the representations were added into the representations of entity and relation to predict entities and relations jointly.Finally,the loss values of the two tasks were adjusted dynamically to optimize the overall performance of the joint model.In experim
7、ents on public datasets CoNLL04,ADE and ACE05,compared with Trigger-sense Memory Flow framework(TriMF),the proposed JERCE model has the F1 scores of entity recognition improved by 1.04,0.13 and 2.12 percentage points respectively,and the F1 scores of RE increased by 1.19,1.14 and 0.44 percentage poi
8、nts respectively.Experimental results show that the JERCE model can fully obtain semantic information in context.Key words:Named Entity Recognition(NER);Relation Extraction(RE);contrastive learning;text span;weighted loss0 引言 实体与关系抽取(Relation Extraction,RE)是自然语言处理(Natural Language Processing,NLP)领域的
9、核心任务,用于从非结构化文本中自动提取实体及其关系。该任务的结果在知识图谱的构建、问答系统和机器翻译等各种高级自然语言处理应用中发挥着至关重要的作用。有监督的实体和关系抽取传统上采用流水线或联合学习方法1。流水线方法将抽取任务看作两个串行子任务:命名实体识别(Named Entity Recognition,NER)和关系分类。关系分类子任务对识别出的实体进行配对并分类。由于相关实体数量较少,流水线模型在配对阶段通常会生成大量的不相关实体对。此外,该方法还存在错误传播,同时对两个子任务的关联性关注不足等问题。为了解决这些问题,研究者们对联合学习进行了大量研究,取得了较好的效果。联合学习是指通过
10、一个联合模型提取实体并对关系进行分类,能够有效缓解级联错误,提高信息的利用率。联合提取任务通常通过基于序列标注的方法解决2。最近,基于span的方法由于其良好的性能而受到了广泛的研究3。该方法首先将文本分割成文本 span 作为候选实体,然后形成span对作为候选关系元组,最后,对实体span和span对进行联合分类。例如,在图1中,“Boston University”“Boston”等是文本 span;“Boston University”,“Boston”和“Michael D.文章编号:1001-9081(2023)05-1438-07DOI:10.11772/j.issn.1001-
11、9081.2022040625收稿日期:2022-05-07;修回日期:2022-07-28;录用日期:2022-08-02。基金项目:国家自然科学基金资助项目(61972357);浙江省重点研发计划项目(2019C03135);浙江省医药卫生科技计划项目(2022KY104)。作者简介:雷景生(1966),男,陕西韩城人,教授,博士,主要研究方向:数据科学与大数据、机器学习、人工智能;剌凯俊(1996),男,山西介休人,硕士研究生,主要研究方向:自然语言处理、关系抽取;杨胜英(1989),男,山东东营人,讲师,博士,主要研究方向:机器学习、人工智能;吴怡(1988),女,浙江杭州人,硕士,主
12、要研究方向:人工智能、护理对话。第 5 期雷景生等:基于上下文语义增强的实体关系联合抽取Papagiannis”,“Boston University”是 span 对;同 时“Boston University”被分类为Org(Organization的缩写);“Michael D.Papagiannis”,“Boston University”被分类为Work_For。现有的联合实体和关系抽取方法的研究主要集中于两个子任务之间的交互,但存在对上下文的关注度不足的问题,且过度依赖 ELMo(Embeddings from Language Models)4、BERT(Bidirectiona
13、l Encoder Representation from Transformers)5等预训练语言模型的编码能力,导致其文本广度语义不足。如Eberts 等3直接使用 BERT 中 CLS 的信息以及采用简单的最大池化将文本信息融入实体和关系表示中。这样无法很好地关注到上下文中的潜在信息,而这些信息对分类的准确性有着重要影响。为了解决这一问题,本文提出了一个基于上下文语义增强的实体关系联合抽取(Joint Entity and Relation extraction based on Contextual semantic Enhancement,JERCE)模型,通过增强上下文的语义表示提
14、高两个子任务的准确性。本文将同样的句子和上下文重复传递给预训练的编码器,通过应用标准随机掩码丢弃,可以得到语义相近且表示不同的嵌入,将它们作为正样本对;将同一训练批次的其他句子和实体间上下文作为负样本对。然后将上述样本输入对比学习模块,以获取增强后的文本语义表示。这种方法的优点是不需要通过复杂的操作就可以更好地捕获上下文中的关键信息,从而得到实体间关系的更准确的嵌入表示。在此基础上,还引入了一种加权损失函数来平衡训练过程中两个任务的损失,以此来获取整体性能更好的模型。在3个基准数据集上的大量实验表明,本文模型相较于现有模型有着更好的表现。1 相关工作 1.1联合实体和关系抽取联合实体和关系抽取
15、的目的是同时从非结构化文本中检测实体以及实体之间的语义关系。它已被证明是有效的,因为它可以缓解错误传播,并有效利用命名实体识别(NER)和关系抽取(RE)之间的相互关系6。许多研究通过级联方法解决联合问题,它们先执行 NER,然后执行 RE。Gupta等7将联合实体和关系抽取作为一个表格填充问题,其中表格的每个单元对应句子的一个词对,同时使用双向循环神经网络来标记每个词对。Zhao等8提出了一种特定于实体相对位置表示的模型,充分利用实体和上下文标记之间的距离信息,解决了实体特征模糊和局部信息不完整的问题。Sui等9将联合实体和关系抽取作为一个直接集预测问题,可以一次性预测所有三元组。Ebert
16、s等3通过强负采样、跨度过滤和局部上下文表示,搜索输入句子中的所有跨度。Shen等10提出一个触发器感知记忆流框架(Trigger-sense Memory Flow framework,TriMF),通过多级记忆流注意模块,增强NER和RE任务之间的双向交互。1.2对比学习对比学习的目的是在将不同样本的嵌入推开的同时,将相同样本的增强版本嵌入到彼此之间。该方法最早由Mikolov等11引入自然语言处理,他们提出了一种基于对比学习的框架,使用共现词作为语义相似点,并通过负采样来学习单词嵌入。负采样算法利用逻辑回归将单词与噪声分布区分开,有助于简化训练方法。该框架以一种计算效率较高的方式明显地提
17、高了单词和短语的表示质量。Saunshi等12提出了对比学习的理论框架,在使用学习到的表示进行分类任务时表现良好。该框架从未标记数据中学习有用的特征表示,并引入潜在类来形式化语义相似度的概念。近年来,对比学习在一些自然语言处理任务中表现优异。Fang等13提出了一种使用句子级对比学习的预训练语言 表 示 模 型 CERT(Contrastive self-supervised Encoder Representations from Transformers),以促进语言理解任务。CONPONO(CONtrastive Position and Ordering with Negatives
18、Objective)模型14研究了篇章连贯性和文本中细粒度的句子排序,尽管与BERT-base模型的参数数量相同,但性能更优。2 本文模型JERCE 本文模型JERCE使用BERT5进行编码,如图2所示:将句子重复输入BERT,利用BERT随机地丢弃掩码,获得正样本对,以便进行对比学习。在此基础上,计算得到增强的span表示,并进行分类、过滤。然后用得到的实体集合组成关系空间,预测关系元组,计算关系表示并进行分类、过滤。图1span示例Fig.1Examples of span图2JERCE的模型架构Fig.2Model architecture of JERCE1439第 43 卷计算机应用
19、2.1BERT预训练语言模型BERT 模型基于 Transformer 编码器结构,能够学习到上下文的相关信息,解决了 Word2Vec 和 GloVe 等分布式词向量表示无法有效获取高维度特征的缺点。BERT 的网络结构如图 3所示,它的模型架构是一个多层双向的Transformer编码器。BERT利用大规模无标注语料进行训练,获得文本包含丰富语义信息的表示,并在下游任务对预训练模型进行微调。它包含两个核心任务,即掩码语言模型(Masked Language Model,MLM)任务和下一句预测(Next Sentence Prediction,NSP)任务。MLM使模型能够捕捉到辨别性的上
20、下文特征,NSP任务使理解句子对之间的关系成为可能。本文采用BERT作为文本编码器,得到的输出表示为:H=BERT(S)(1)其中:S=s1,s2,sn表示文本输入;H=h1,h2,hn,H R d表示每个token被BERT编码后得到的token嵌入,n为token个数,d为BERT隐藏状态的维度。2.2基于对比学习的文本语义增强表示本文的目标是通过潜在空间的对比损失,使正样本对输入的一致性最大化,即正样本对语义向量的空间距离更近,负样本对语义向量的空间距离更远,从而学习到更准确的文本表示。JERCE 使用预训练的语言模型 BERT 对输入句子进行编码,然后使用对比学习目标对所有参数进行调整
21、。该任务的关键之一是在不破坏关键语义的前提下获取句子的正样本对,本文将同样的句子和上下文重复传递给预训练的编码器以实现这一目的。这是因为在 BERT 的标准训练中,在全连接层和注意力层上有丢弃掩码。即hzi=f(xi,z)(2)其中:z是随机的丢弃掩码;hzi表示输入xi的隐藏层输出;为函数f的参数。本文将相同的token序列重复输入到编码器,得到具有不同丢弃掩码(zi,zi)的嵌入,对于一个最小批次的N个句子或实体间上下文,同批次其余句子的对应内容作为负样本,本模块的训练目标便成为:i=-lnexp()cos()hzii,hzii Tj=1Nexp()cos()hzii,hzii T(3)其
22、中:z是Transformers中的标准丢弃掩码;T是温度超参数,它会将模型的重点聚焦到距离正例较近的负例,并作出相应的惩罚。这可以视为一种最低程度的数据增强,正样本对采用了完全相同的句子,它们的嵌入只是在进行随机掩码丢弃的过程中有所不同。图 4展示了本文的对比学习模块的框架。给定一个句子w=w1,w2,wn,利用两次随机掩码丢弃获得两个语义相近的嵌入视图vi和vi。接着加入了一个特征映射g()进一步提取特征,g()是一个 2 层的多层感知机(Multi-Layer Perceptron,MLP)。从第一个嵌入视图vi得到了一个映射vi h,同 时 从 第 二 个 嵌 入 视 图vi得 到 了
23、 另 一 个 映 射vi h。对比学习方法通过比较训练数据中的不同样本来学习表示。在训练过程中,通过使正对具有相似表征,使负对具有不同表征来学习文本语义。2.3span分类由于span的文本内容相对较少,可用信息有限,为此本文将工作的重心放在它的上下文表示部分。如图 2 所示,用于分类的 span 表示由三部分组成:span文本信息、基于 span 宽度的嵌入表示以及句子级上下文表示。本文用ti表示文本经过编码后得到的 token 嵌入,将句子的嵌入序列表示为t0,t1,tN。span嵌入序列定义如下:Es=ti,ti+1,ti+j(4)span自身的文本信息根据函数f融合得到,此处f采用最大
24、池化处理,表示为:infs=f(Es)(5)对于特定长度的span,模型学习一个专用的矩阵以查找特定跨度的嵌入,它包含不同跨度 1;2;3;4;5-7;8-15;的span的嵌入表示。这些嵌入通过反向传播学习。对于长度为k的span,其跨度嵌入为lk。通过2.2节的方法得到增强的句子级上下文表示,记为sc,并将它融入 span的表示中,以此来增强对上下文的信息捕获能力。所得到的分类实体span的最终表示如下:Zs=infs;lk;sc(6)Zs最后被送入 Softmax 分类器,该分类器在每个实体类别上产生一个后验:ys=Softmax(WsZs+bs)(7)其中:Ws为权重参数;bs为偏移量
25、。通过查看得分最高的类,span分类器估计每个span属于哪个类,得到构成实体的 span 的集合,记为。然后对 衍生的关系元组进行关系分类。2.4关系分类关系集合用表示。关系分类器处理从 提取得到候选实体对s1,s2,即:s1,s2 ;s1 s2(8)图3BERT模型Fig.3BERT model图4对比学习模块的框架Fig.4Framework of contrastive learning module1440第 5 期雷景生等:基于上下文语义增强的实体关系联合抽取并估计它是否存在中存在的关系。如图 2所示,用于分类的关系表示由两部分组成,包括被识别的实体对和增强的实体间上下文表示。对于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 上下文 语义 增强 实体 关系 联合 抽取 雷景生
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。