自然语言场景下增量知识构造与遮蔽回放策略.pdf
《自然语言场景下增量知识构造与遮蔽回放策略.pdf》由会员分享,可在线阅读,更多相关《自然语言场景下增量知识构造与遮蔽回放策略.pdf(9页珍藏版)》请在咨信网上搜索。
1、自然语言场景下增量知识构造与遮蔽回放策略周航,黄震华(华南师范大学计算机学院,广州510631)通信作者:周航,E-mail:摘要:在增量学习中,随着增量任务的数量增多,模型在新增任务上训练后,由于数据分步偏移等一系列问题,模型对旧任务上所学到的知识发生灾难性遗忘,致使模型在旧任务上性能下降.对此,本文提出了基于知识解耦的类增量学习方法,分层次的学习不同任务共有知识与特有知识,并对这两种知识进行动态的结合,应用于下游的分类任务中.并在回放学习中运用自然语言模型的遮蔽策略,促进模型快速回忆起先前任务的知识.在自然语言处理数据集 AGNews、Yelp、Amazon、DBPedia 和 Yahoo
2、 的类增量实验中,本文所提出的方法能有效降低模型的遗忘,提高在各个任务上的准确率等一系列指标.关键词:增量学习;特征学习;自然语言处理引用格式:周航,黄震华.自然语言场景下增量知识构造与遮蔽回放策略.计算机系统应用,2023,32(8):269277.http:/www.c-s- Knowledge Construction and Mask Replay Strategy in NLP ScenarioZHOUHang,HUANGZhen-Hua(SchoolofComputerScience,SouthChinaNormalUniversity,Guangzhou510631,China)
3、Abstract:Inincrementlearning,asthenumberoftasksincreases,theknowledgelearnedbythemodelontheoldtaskiscatastrophicallyforgottenafterthemodelistrainedonthenewtaskduetoaseriesofproblemssuchasstep-by-stepdatamigration,resultinginthedegradationofthemodelperformanceontheoldtask.Giventhisproblem,aclass-incr
4、ementallearningmethodbasedonknowledgedecouplingisproposedinthisstudy.Thismethodcanlearnthecommonanduniqueknowledgeofdifferenttaskshierarchically,combinethetwokindsofknowledgedynamically,andapplythemtothedownstreamclassificationtasks.Besides,themaskstrategyofthenaturallanguagemodelisusedinreplaylearn
5、ing,whichpromptsthemodeltoquicklyrecalltheknowledgeoftheprevioustasks.Inclass-incrementalexperimentsonNLPdatasetsAGNews,Yelp,Amazon,DBPediaandYahoo,theproposedmethodcaneffectivelyreducetheforgettingofthemodelandimprovetheaccuracyandotherindicatorsonvarioustasks.Key words:incrementlearning;representa
6、tionlearning;naturallanguageprocessing(NLP)随着数据量的骤增,时刻都涌现着新的任务数据,而在旧的任务数据上训练所得到的深度学习模型,其性能随着不断新增的数据持续下降,急需在新的数据上重新学习;与此同时,由于数据的隐私或存储问题,以往的数据可能无法再次获得,由此诞生了增量学习场景.增量学习最先兴起于图像分类场景,是对人工神经网络模拟人类在不同任务间对已学习的任务“记忆”“推导”能力的一种模仿.关于增量学习动机,即避免模型的灾难性遗忘问题的研究最早在文献 1 提出,指出模型在新的任务数据上训练学习,会影响先前任务的计算机系统应用ISSN1003-3254,
7、CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(8):269277doi:10.15888/ki.csa.009174http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(62172166)收稿时间:2023-01-12;修改时间:2023-02-09;采用时间:2023-02-23;csa 在线出版时间:2023-06-09CNKI 网络首发时间:2023-06-09ResearchandDevelopment研究开发269性能.基于此,学者提出了灾难性遗忘这个
8、概念.尔后,Li 等人2提出了用蒸馏学习的方法3减缓灾难性遗忘问题.随着增量学习问题研究的深入,深度学习模型灾难性遗忘的原因被归因于几方面:首先,是学习新任务时的权重漂移现象.这是在模型规模固定的情况下,由于更新参数所用的数据发生了改变,使得相关的网络权重以及相关激活变化,进而导致网络输出发生较大的改变,从而影响先前任务的性能;其次,是任务间混淆4问题.这种问题是由于在类增量学习的场景中,目标是将类与所有任务区分开来.本文将现有的解决方式分为两大类别:第 1 类方法为静态的模型结构;第2 类为模型结构动态分配的方法.在静态结构增量场景中,模型的神经元资源静态固定,模型的大小或资源是在初次训练前
9、就完成分配的.这一类方法通过各种手段,使得模型表征重叠部分相对固定或较小变化.由于模型参数是以一定程度更新,而非完全更新或者不加限制的更新,所以模型理论上是能够既具有先前任务所学习到的知识,又使得模型能够在新的任务上拟合的.主要是通过一些正则化方法,使得模型的参数受其约束,理论上能够让模型在学习心得数据时巩固先前的知识,这一系列方法大致可以进一步分为基于数据的正则化方法以及基于先验知识的正则化方法.Li等人2最先将蒸馏学习方法用以解决增量学习问题.Huang 等人5通过模式迁移学习的方法,将表征解耦方法运用在任务增量方法上,解耦后的类别相关信息输入到任务判别器作任务分类,以辅佐最终重构的表征作
10、增量分类任务.Ke 等人6针对增量任务中不同任务间的相似性程度不同,提出了针对任务相似性的算法.Zhou 等人7利用了这种新、旧中类别语义关系之间的关联性,提出了协同运输的增量学习方法.Lee 等人8提出了一组注意力独立机制,彼此独立的注意力模块相互竞争的学习用于解耦提取到的高维特征,从而学习任务之间通用的独立机制,从而避免模型的遗忘问题.结构扩展的增量学习方法,通过在新的任务上动态分配并适应新分配的神经元资源,从而改变新数据在神经元上的表征分步,使得相较于前任务时的网络有了不同的结构属性,常见的方法为直接增加神经元个数或者直接以并联或串联增加网络层的方式进行重新训练.Shen 等人9设计了一
11、个面向自然语言处理槽填充的基于扩张结构的增量学习方法.Monaikul 等人10提出了 AddNER 框架以及 ExtendNER 框架,以解决增量场景在命名实体识别中,新任务的数据无需重新对旧任务标签进行标记的问题.Yan 等人11设计了一个两阶段动态扩张表征的增量模型框架.Singh 等人12利用一部分的网络参数学习修正参数信息,使得主网络能够利用这些信息来修正网络参数,最终能够在新任务数据上拟合.除了上述常规意义上的对网络模型结构的某些部分(一般是表征部分)进行扩张,本文将基于记忆网络的回放方法2也归纳入模型扩张部分.Castro 等人13对基于回放的增量学习方法进行细化,完善了旧任务训
12、练案例构建、更新的策略,提出了一整完整的端到端的基于回放的增量学习框架.针对分类器的偏置项参数倾向于新任务的问题,Wu 等人14提出利用少量新、旧样本对分类器再次进行纠正训练,避免因为回放数据过少的类不平衡问题.Lopez-Paz 等人15提出梯度片段记忆算法,通过约束先前任务损失不增加,避免模型对先前任务的遗忘.deMasson 等人16提出了稀疏性经验回放策略,并创新性的将回放数据局部适应步骤增加在模型推断阶段.但是,上述方法存在以下几点问题.首先,针对任务增量的增量学习场景在测试时经常会由于缺少了任务标签导致性能下降,且并不具有普遍性,而没有任务标签的类增量场景更为普遍;其次,当模型在第
13、 t 个任务时,相较于第前 t1 个任务,当前任务的数据是足以让模型在当前任务中充分得到训练的,这一点从深度学习本身以及我们做的消融实验本身都是足以说明的.而前 t1 个任务的样本的回放训练才是影响模型性能的关键,有效利用存储的回放样本使模型快速恢复在先前任务上的性能是回放任务的重点.对此,本文提出了基于表征解耦的增量知识构造与遮蔽回放策略方法(incrementalknowledgecons-tructionandmaskreplay,IKCMR).相较于利用类标签的解耦方法,本文认为通过类标签解耦的知识并不能很好的指导最终分类,因为模型所学到的知识其实是针对任务的而不是针对类别的,而本文的
14、最终目的是利用模型所学习到的知识去进行分类.受启发于文献 4所述的互补学习系统理论,模型在有效提取感知时间的统计结构、泛化知识的同时,还保留了特定任务的记忆或经验.根据这一理念,模型解耦后的公共特征与类别特征在学习和记忆方面的互补作用,公共特征解计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第8期270研究开发ResearchandDevelopment耦器通过新的任务数据,补充学习不同数据中语言、语义信息的共有特征,类别特征解耦器专注于学习类别相关知识.而后,通过特征相似性方法,本文将学习到的泛化知识与特定知识动态的结合,以此作为最终分类器的输入.本文的方法动态地协
15、调了模型可塑性与稳定性平衡的问题.同时,为了进一步避免模型遗忘问题,在回放训练中本文利用缓冲区存储的数据进行学习,使得模型的类别相关的解耦器能够通过这些少量的回放数据快速回忆起先前任务的知识.归纳起来,本文的主要贡献如下.(1)针对自然语言处理中更普遍的类别增量问题,本文基于此提出了类增量特征解耦方法,在避免了任务标签的同时,以类的粒度对特征进行解耦,并依照互补学习理论动态地进行特征重构.(2)本文探索了在样例回放学习过程中,普通的回放方法对比遮蔽回放学习方法对模型快速回忆先前任务知识的效果.本文的解耦模型配合遮蔽回放学习方法,能够在保持当前任务良好的情况下,减少先前任务上知识遗忘造成的性能上
16、的损失.(3)本文通过自然语言处理的分类任务上的 5 个公认的数据集验证了 IKCMR 模型的有效性.实验结果说明,IKCMR 模型比现有的 SOTA 模型在类增量问题上的性能要更加出色.除此之外,也通过实验验证了融合了遮蔽回放的 IKCMR 能进一步提高模型的表现.本文第 1 节将对本文的工作进行具体的描述.第2 节会呈现本文的实验结果以及结论部分.最后,第 3节是本文的总结以及未来工作部分.1自然语言场景下的类增量问题方法Tnt=T1,TntTt(xti,yti)nti=1xti Xyti Yxj Ttb yj=f(xj)YTt1TtMt1首先,本文对增量学习进行定义.增量学习的任务通常来
17、说是将模型在一系列非独立同分布的任务上进行训练.将这一系列的非独立同分布的任务定义为,其中,第 n 个 task 的包含了输入语言序列以及其对应的分类标签.而增量学习的目标为训练一个模型,使其能对给定的任意已训练的任务的测试语言序列,都能预测其对应的标签.模型在训练第 t 个任务的时候,先前的任务都不可见,只有和少量存储在 memorybuffer 中的样例可见.本文的总体框架如图 1 所示,模型的主体由 3 个部分构成.首先是低层特征提取部分,该部分将输入的自然语言序列转化为特征向量;模型的第 2 个部分是高层特征的解耦以及重构部分,最后一部分则为模型的分类器部分.近年,各种大规模预训练模型
18、在各项自然语言处理任务中效果突出,例如 BERT17和 GPT-218等大规模的编码器-解码器19结构的模型.为了更加高效的搭建模型以及资源限制问题,本文将预训练语言模型 BERT 作为表征嵌入部分.在此基础上,模型的第2 部分从高层特征表示出发.首先,将句子的特征输入公共编码器和类别编码器中,得到编码后的关于当前任务的类别特征以及公共特征,例如更好的文本表征、句子间的关系等;接着,通过对公共表征与类别表征的表征相似度分析,并以此为依据将两种特征进行融合,得到模型结构的相似性,这种相似性是区别于模型表征的相似性的,模型表征的相似度其实是较为底层的,生成其最终的语义特征.1.1 公共特征网络Ti
19、 Tnt=T0,Tntxi=token1,tokenmask,tokenn TiNetG():Rn768 RnDb xi公共特征解耦器如何学习到自然语言的共性,即类别无关的特征是本文要解决的一大难点,而大规模语言模型的训练给了本文以启发.大规模预训练模型通过例如下一句预测、遮蔽语言模型等任务,使模型通过大量不同的语料学习到其共性特征.类似的,从理论上来说,公共特征网络接触过的任务越多,其能学习到的自然语言特征的共性也就越多.模型在学习任务时,令公共特征网络采用遮蔽语言的任务进行语言特征共性的学习.具体的,本文与Devlin 等人17的实验设置相同,对样本,n 为句子长度,将其中所有token
20、以 15%的概率进行遮蔽处理.其中,遮蔽处理的token 之中,用 MASK 替代的占 80%,随机用其他token 替代的占 10%,还有 10%的不做改变.本文将公共特征处理器定义为,其中 D是特征的维度.遮蔽后的样本,经过预训练语言模型处理后,输入到公共特征网络,再通过一个激活层,得到公共特征:EG=e1G,enG,ejG RDeijG=tanh(NetG(tokenj)(1)x公共特征网络需要学习和理解样本 的内容,然后通过上下文含义对遮蔽部位进行预测.通过对遮蔽词向量的预测,可以监督公共特征网络对不同领域自然语言知识的学习情况,判断公共特征解耦网络对自然2023年第32卷第8期htt
21、p:/www.c-s-计 算 机 系 统 应 用ResearchandDevelopment研究开发271b xemaskGNetD()ti语言共性特征空间的构建情况.具体的,公共特征解耦网络预测样本 的遮蔽表征,通过一个辅助解码网络映射到词典中,检验公共特征网络是否理解了输入文本的含义,从而使公共特征网络学习到的基于任务 的语言本身的知识.tokenmask=NetD(ei,maskG)(2)其中,对于公共特征网络的训练,本文采用交叉熵作为预测的监督损失:LG=E(x,y)Ti(tokeni,mask,tokeni,mask)(3)此外,为了进一步缓解模型遗忘问题,本文对模型参数加上了额外的
22、限制,即对训练数据的解耦表征采取回归损失:LGreg=(x,y)Ti|Neti1G(x)NetG(x)|2(4)Neti1G()Ti1其中,为在任务学习后的解耦网络.增量知识构建特征解耦增量知识解码器辅助解码器遮蔽词Increment taskiCLSMASKSEPtoken1tokenn模型输出模型输入类别特征编码器公共特征编码器预训练 BERT 编码器RegularizationRegularizationExemplar 池Mask 池图 1增量知识构造与遮蔽回放策略方法 1.2 类别特征网络tiNetS()tixiNetS()eiS传统的深度学习模型中,只要低层特征训练足够充分,通过训
23、练数据即可直接训练出一个性能优异的网络.类似的,通过大规模预料训练的底层特征处理器,再加上足够的训练数据,即可在训练任务 时,使得类别特征网络记为直接地关注当前的分类任务涉及的类别本身,而无需再加上类别标签或者其他额外的训练技巧与方式.具体的,在训练任务 时,在获得输入样本 的底层表征向量后,将其输入到类别特征处理器,得到类别相关特征:eijS=tanh(NetS(tokenj)(5)EmixCls()然后,通过第 3.4 节中的特征融合方法得到融合后的特征表示,并将其用作训练分类器的特征:Eimix=Mix(Eis,EiG)(6)b y=Cls(Eimix)|i=0n(7)最后,再通过分类器
24、到的标签进行分类损失学习,同时对类别特征网络和分类器进行训练更新:Lc=(x,y)Ti(b y,y)(8)此外,对于类别特征网络,本文对网络同样采用了一个回归损失以缓解灾难性以往问题:Lsreg=(x,y)Ti?Neti1S(x)NetS(x)?2(9)Neti1S()Ti1其中,为在任务学习后的解耦网络.1.3 增量知识构造EG RndES Rnd通过公共特征、类别特征解耦网络得到的特征和,本文设计通过衡量特征解耦网络得到的特征,并以其作为类别特征网络蕴含公共特征信息的置信度参数,将两个特征进行融合.具体的,本文采用 CKA(centeredkernelalignment)方法20,衡量来自
25、两个不同网络结构对同一数据源数据的特征相计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第8期272研究开发ResearchandDevelopment似度:HSIC(K,L)=1(n1)2tr(K(EG,ES)L(EG,ES)(10)Sim(EG,ES)=CKA(EG,ES)=HSIC(K,L)HSIC(K,K)HSIC(L,L)(11)Kij(Ei,Ej),Lij(Ei,Ej)其中,是两个核函数,HSIC 是 Hil-bert-Schmidt 独立性准则.然后,通过得到的特征相似度为置信度参数,动态地结合类别特征和公共特征:E=Sim(EG,ES)ES(1Sim(E
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 场景 增量 知识 构造 遮蔽 回放 策略
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。