基于负训练和迁移学习的关系抽取方法.pdf
《基于负训练和迁移学习的关系抽取方法.pdf》由会员分享,可在线阅读,更多相关《基于负训练和迁移学习的关系抽取方法.pdf(5页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2426-2430ISSN 10019081CODEN JYIIDUhttp:/基于负训练和迁移学习的关系抽取方法陈克正1,2,郭晓然3,钟勇1,2*,李振平1,2(1.中国科学院 成都计算机应用研究所,成都 610213;2.中国科学院大学 计算机科学与技术学院,北京 100049;3.西北民族大学 数学与计算机科学学院,兰州 730124)(通信作者电子邮箱)摘要:远程监督是关系抽取任务中常用的数据自动标注方法,然而该方法会引入大量的噪声数据,从而影响模型的表现效果。为了解
2、决噪声数据的问题,提出一种基于负训练和迁移学习的关系抽取方法。首先通过负训练的方法训练一个噪声数据识别模型;然后根据样本的预测概率值对噪声数据进行过滤和重新标注;最后利用迁移学习的方法解决远程监督存在的域偏移问题,从而进一步提升模型预测的精确率和召回率。以唐卡文化为基础,构建了具有民族特色的关系抽取数据集。实验结果表明,所提方法的F1值达到91.67%,相较于SENT(Sentence level distant relation Extraction via Negative Training)方法,提升了 3.95 个百分点,并且远高于基于 BERT(Bidirectional Encod
3、er Representations from Transformers)、BiLSTM+ATT(Bi-directional Long Short-Term Memory And Attention)、PCNN(Piecewise Convolutional Neural Network)的关系抽取方法。关键词:远程监督;负训练;知识图谱;关系抽取;迁移学习;自然语言处理中图分类号:TP391.1 文献标志码:ARelation extraction method based on negative training and transfer learningCHEN Kezheng1,2,
4、GUO Xiaoran3,ZHONG Yong1,2*,LI Zhenping1,2(1.Chengdu Institute of Computer Application,Chinese Academy of Sciences,Chengdu Sichuan 610213,China;2.School of Computer Science and Technology,University of Chinese Academy of Sciences,Beijing 100049,China;3.School of Mathematics and Computer Science,Nort
5、hwest Minzu University,Lanzhou Gansu 730124,China)Abstract:In relation extraction tasks,distant supervision is a common method for automatic data labeling.However,this method will introduce a large amount of noisy data,which affects the performance of the model.In order to solve the problem of noisy
6、 data,a relation extraction method based on negative training and transfer learning was proposed.Firstly,a noisy data recognition model was trained through negative training method.Then,the noisy data were filtered and relabeled according to the predicted probability value of the sample,Finally,a tr
7、ansfer learning method was used to solve the domain shift problem existing in distant supervision tasks,and the precision and recall of the model were further improved.Based on Thangka culture,a relation extraction dataset with national characteristics was constructed.Experimental results show that
8、the F1 score of the proposed method reaches 91.67%,which is 3.95 percentage points higher than that of SENT(Sentence level distant relation Extraction via Negative Training)method,and is much higher than those of the relation extraction methods based on BERT(Bidirectional Encoder Representations fro
9、m Transformers),BiLSTM+ATT(Bi-directional Long Short-Term Memory and Attention),and PCNN(Piecewise Convolutional Neural Network).Key words:distant supervision;negative training;knowledge graph;relation extraction;transfer learning;Natural Language Processing0 引言 关系抽取是信息抽取领域1的重要研究任务,也是构建知识图谱2的基础,被广泛应
10、用在搜索引擎3、智能问答4、文本检索5、辅助诊疗6等领域,基于深度神经网络的抽取方法虽然准确率较高,但对数据量要求高、标注成本大,尤其在特定的领域,例如医疗、佛学等,必须由专业人士才能完成。因此,目前常使用基于远程监督7的方法自动标注,远程监督的方法基于一种简单的假设:即如果两个实体之间存在某种关系,那么包含两个实体的句子都具有这种关系。根据这一假设可以在半结构化的数据基础上扩充训练数据,但由于这一假设在现实语料中不一定成立,导致扩充数中引入大量的噪声数据。表1为通过远程监督的方式自动标注并引入噪声数据的例子。标注过程为:根据已知“观音”和“观世音菩萨”之间是“别称”的关系,将未标注语料中包含
11、(观音、观世音菩萨)的句子都标注为“别称”这一关系。文章编号:1001-9081(2023)08-2426-05DOI:10.11772/j.issn.1001-9081.2022071004收稿日期:20220711;修回日期:20221103;录用日期:20221121。基金项目:四川省科技成果转移转化平台项目(2020ZHCG0002);中央高校基本科研业务费(青年教师创新)项目(31920210090)。作者简介:陈克正(1998),男,山东济宁人,硕士研究生,CCF会员,主要研究方向:自然语言处理、大数据;郭晓然(1981),女,河北藁城人,副教授,博士,主要研究方向:信息抽取、知识
12、图谱;钟勇(1966),男,四川岳池人,研究员,博士,CCF会员,主要研究方向:大数据、人工智能、软件过程;李振平(1990),男,河南郑州人,博士研究生,主要研究方向:自然语言处理。第 8 期陈克正等:基于负训练和迁移学习的关系抽取方法通过表 1的标注结果可以得出:第 1句和第 2句标注正确,但第3句和第4句虽然包含“观音”“观世音菩萨”,但无法表达出别称这一关系,故为错误标注。为了解决错误标注问题,文献 8 中引入多示例学习的方法,将包含相同实体对的句子作为一个包,并在每个包中只保留一个置信度最高的句子,以减少噪声数据的影响。随着深度学习的发展,文献 9-10 中使用深度神经网络的方式提取
13、语句的特征,从而更充分挖掘句子的语义信息;文献 11-12中运用注意力机制的方式降低噪声数据的权重,从而缓解噪声数据对模型的影响;文献 13-15 中使用对比学习的方法,通过构造正例样本和负例样本,挖掘噪声数据内部的相关性;文献 16 中使用聚类的方式纠正错误标签,以提高训练语料的质量;文献 17 中提出使用负训练的方法过滤远程监督产生的噪声数据,通过在构造的负样本上训练模型来识别并过滤噪声数据,这一方法取得了当时最优的效果,但是没有考虑远程监督扩充数据集和目标域数据集分布不同,会产生的域偏移问题。在以上研究的基础上,本文提出一种基于负训练和迁移学习的关系抽取方法。首先,通过负训练的方式训练一
14、个噪声数据识别模型,来识别远程监督产生的噪声数据;然后,根据样本的预测值对识别出的噪声数据进行重标,将它转化为有用的训练数据;最后,通过迁移学习的方法解决远程监督扩充数据集和目标域数据集分布不同导致的域偏移问题。实验结果表明,与基线方法相比,本文方法在使用较少的标注数据情况下,取得了更优的效果。另外本文还构建了一个基于唐卡文化的中文数据集,解决在远程监督关系抽取领域中中文数据集稀缺的问题,数据集包括人工标注数据5 515条,通过远程监督的方式扩展数据18 282条,共计23 797条数据,数据链接为https:/ 相关工作 1.1负训练负训练18的思想最早源于图像领域,它的核心思想是通过对噪声
15、数据训练建模,使模型具有识别噪声数据的能力。它随机选取样本原标签之外的其他标签作为该样本的标签以构建噪声数据集,如果无法判断样本的原标签是否正确,那么把这个样本标记为原标签之外的其他标签,则有更高的置信度认为此时的标记是错的。通过这种方式构造噪声数据集,并在此噪声数据集上训练模型,使模型具有识别噪声数据的能力。在关系抽取领域,通过远程监督的方式对样本进行关系类型标注,虽不能确定是否标注正确,但如果给该样本标记为远程监督产生的标签之外的其他关系标签,则有更高的置信度认为此标注是错的,通过这种方式构造噪声数据集,并在此数据集上建模训练,使模型具有识别噪声数据的能力。1.2迁移学习传统的深度学习算法
16、,遵循训练数据和实际落地应用数据符合同一分布这一假设,然而在实际的应用中,受限于训练数据集的采集方式不同和采集成本的限制,模型的训练数据分布和实际落地应用数据的分布不一致,这一现象被称为域偏移。在远程监督关系抽取任务中,由于通过远程监督的方式扩充的数据集与人工标注的数据集的分布不同,因此会产生域偏移的问题,从而影响模型的表现效果。迁移学习19是解决域偏移问题的常用方法,它把在源领域学习的知识迁移到目标领域中,使模型在目标领域取得更好的效果。迁移学习适用于目标领域数据量较少,而源领域数据较多的情况。根据源领域和目标领域的相似度,迁移学习可分为归纳式迁移学习、无监督迁移学习和直推式迁移学习20,迁
17、移学习技术现在已被广泛应用在文本分类21、命名实体识别22、关系抽取23等自然语言处理任务中。基于深度学习网络的迁移方式是归纳迁移的一种,具有更强的特征提取能力和关系映射能力。在深度神经网络模型的迁移学习方法中,微调24是最常用且非常有效的手段。本文使用深度神经网络模型的迁移方法,解决远程监督产生的域偏移问题,从而进一步提升了关系抽取的准确率。2 基于负训练和迁移学习的关系抽取方法 本文提出的基于负训练和迁移学习的关系抽取方法的整体框架如图1所示,该框架主要由数据精炼、关系抽取和模型迁移三部分组成。按照顺序依次执行:首先,执行数据精炼部分,对远程监督的方式扩充的数据集进行过滤和精炼;然后,将精
18、炼后的数据集和人工标注数据集作为输入,构建并训练关系抽取模型;最后,将上一步训练的模型迁移到人工标注的数据集上进行微调,引导模型学习目标域的知识,从而解决远程监督扩充数据集与目标域数据分布不同而产生的域偏移问题。2.1数据精炼数据精炼部分的主要功能是对远程监督的方式扩充的数据集进行过滤和精炼,主要包含BERT(Bidirectional Encoder Representations from Transformers)编码层、全连接层、负训练、噪声数据过滤和噪声数据重标5个过程,具体执行过程如下。1)首先将远程监督扩充的数据集作为输入,通过BERT编码层提取语句的特征;2)通过全连接层将提取
19、到的特征进行合并,并将特征向量地转变为特定的输出维度;3)通过负训练的方式优化数据精炼模型,使噪声数据对应的预测值降低;4)通过噪声数据的过滤模块,将噪声数据集从数据集中分离出来;表1远程监督标注句子Tab.1Sentences labelled by distant supervision序号1234句子观音观音,即观世音菩萨观世音菩萨观音观音一般指的就是观世音菩萨观世音菩萨多罗观音观音为观世音菩萨观世音菩萨的修行伴侣千手观音观音是观世音菩萨观世音菩萨的三十二相之一远程监督标签别称别称别称别称是否标注正确正确正确错误错误图1基于负训练和迁移学习的关系抽取方法的整体框架Fig.1Overall
20、 framework of relation extraction method based on negative training and transfer learning2427第 43 卷计算机应用5)通过噪声数据重新标注模块,将分离出的噪声数据重新标注,将噪声数据转化为正确标注的数据。在训练过程中不断迭代第1)5)步,使得噪声数据不断减少,从而过滤掉远程监督产生的噪声数据,得到精炼后的数据集。2.1.1BERT编码层BERT 是 一 种 预 训 练 语 言 表 示 模 型25,它 使 用Transformer26网络结构的编码层作为基本结构,通过在大规模语料中随机遮蔽输入语句的字词
21、,并根据上下文信息预测被遮蔽的字词的方式进行预训练。使用BERT预训练语言模型,能更加充分挖掘词的上下文信息。本文主要使用BERT预训练语言模型作为编码层提取语义特征。如式(1)(3)所示,将句子向量x、头实体向量xhead和尾实体向量xtail作为输入,s代表句子编码后的矩阵表示,h代表头实体编码后的矩阵表示,t代表尾实体编码后的矩阵表示。S=BERT(x)(1)h=BERT(xhead)(2)t=BERT(xtail)(3)2.1.2全连接层输入数据经过BERT编码层提取特征后,得到句子编码矩阵s、头实体编码矩阵h和尾实体编码矩阵t。全连接层的主要作用是将这些矩阵进行合并,并转化到固定的输
22、出维度,如式(4)所示:V=Linear(S;h;t)(4)其中:S;h;t表示拼接后的句子、头实体和尾实体编码矩阵;V表示经过全连接层维度转化之后的编码矩阵。2.1.3负训练负训练的主要作用是使噪声数据对应标签的预测值降低,从而为2.1.4节中实现噪声数据的识别和过滤奠定基础。远程监督扩充数据集中的每一个输入样本,在经过BERT编码层和全连接层后可以得到一个特征矩阵V,每一个输入样本都具有特定的原标签,由于样本的原标签通过远程监督的方式标注产生,所以无法确定原标签是否标注正确,但是如果在所有的标签中随机选择一个原标签之外的其他标签作为该样本的标注,则有更高的置信度认为此时的标签为错误标签。根
23、据这一原理,设置损失函数如式(5)所示,使得该样本对应的错误标签的预测值不断减小。VLoss=-i=1cy i(1-pi)(5)y i表示选择互补标签作为标注时,输入样本属于第i个类别的概率值;pi表示选择互补标签作为标注时,输入样本预测为第i个类别的概率值;c表示样本的标签类别总数。由式(5)可知随着模型的不断优化,VLoss不断减小,样本预测为互补标签对应类别的概率值也越来越小,由于互补标签是随机选择的该样本原标签之外的其他标签,所以基本可以认为是错误标签,因此预测为错误标签对应类别的概率值也越来越小。2.1.4噪声数据过滤根据2.1.3节可以得出,随着模型的不断优化,错误标签对应的预测值
24、不断减小,在模型优化10轮之后,将远程监督数据集重新加载到训练好的模型中,此时噪声数据对应原标签的预测值会很低。根据这一原理,设置阈值与输入样本预测为原标签的预测值比较:将小于阈值的数据作为噪声数据、不小于阈值的数据作为干净数据进行分离。2.1.5噪声数据重新标注噪声数据重新标注的主要作用是将分离出的噪声数据转化为正确的训练数据。输入样本在经过负训练的方式训练的模型预测后,会对每一个标签产生一个预测值,预测值的大小表示预测为该标签的可能性,输入样本的所有标签预测值中的最大值称为该样本的最大标签预测值。重新标注过程为:首先设置重标阈值,然后判断噪声数据的最大标签预测值是否大于重标阈值:如果大于重
25、标阈值,表示该条数据存在正确标签,将该条数据标注为该条数据的最大标签预测值对应的标签;否则,该数据无法找到正确标签,删除该条数据。2.2关系抽取远程监督扩充的数据集通过数据精炼部分的处理后,得到精炼后的数据集,该数据集相较于人工标注的数据集,数据量更大并且句子结构更加复杂,将该数据集和人工标注的训练集作为模型的输入,可以使得模型学习到更加丰富的特征,关系抽取模型如图1所示,主要由BERT编码层、全连接层构成,使用交叉熵损失函数。对于每一个输入样本首先经过BERT编码层提取样本的语义特征得到句子编码矩阵、头实体编码矩阵和尾实体编码矩阵,然后通过全连接层对上述矩阵进行拼接,并将其转化为特定维度的输
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 训练 迁移 学习 关系 抽取 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。