面向任务型对话机器人的多任务联合模型研究.pdf
《面向任务型对话机器人的多任务联合模型研究.pdf》由会员分享,可在线阅读,更多相关《面向任务型对话机器人的多任务联合模型研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、Jun.2023JOURNAL OFCHENGDU UNIVERSITY OF INFORMATION TECHNOLOGY2023年6 月Vol.38No.3息程大学学报成都3信第38 卷第3期文章编号:2 0 9 6-16 18(2 0 2 3)0 3-0 2 51-0 7面向任务型对话机器人的多任务联合模型研究高作缘,陶宏才(西南交通大学计算机与人工智能学院,四川成都6 117 56)摘要:在任务型对话机器人的搭建过程中,一般需要执行多个自然语言处理的子任务。目前传统的训练方式是将每个子任务独立训练后再进行整合,这样忽视了不同子任务之间的关联性,限制了模型的预测能力。现提出一种Joint
2、-RoBERTa-WWM-of-Theseus压缩联合模型,一方面通过多任务联合学习训练的方式对意图识别、行业识别和语义槽填充3个子任务进行联合训练,并在多分类的子任务中引人Focalloss机制来解决数据分布不平衡的问题;另一方面,模型通过Theseus方法进行压缩,在略微损失精度的前提下,大幅提高模型预测速度,提高模型在生产环境中的实时性与实用性。关键词:RoBERTa-WWM模型;多任务联合学习;Theseus压缩;Focalloss中图分类号:TP391.12文献标志码:Adoi:10.16836/ki.jcuit.2023.03.0010引言在任务型对话机器人11的搭建中,准确地理解
3、用户的意图、判断语句中可能包含的行业分类、提取语句中的关键信息至关重要。因为对话机器人会依据内容,再结合对话的上下文信息来决定下一步的行为走向。近年来,随着大规模预训练BERT(b i d i r e c t i o n a lencoder representation from transformers)模型的提出2 ,自然语言处理的发展迈入了新阶段。BERT模型采用了双向的Transformer作为特征提取器,性能有显著提升,刷新了自然语言处理的多项记录3。另外,应用迁移学习4 后的自然语言处理不再受数据源的限制,轻松解决了目标领域数据样本不足的问题。而RoBERTa-WWM模型5 作为
4、BERT模型的改进版本,采用了更大的模型参数量、更多的训练数据和更大的batch size,还引人了动态掩码、文本编码,比BERT模型更好地推广到下游任务。因此,本文将以Ro-BERTa-WWM模型为基础开展研究,实现意图识别和行业识别的子任务。在此基础上,该部分还引人了Focal loss机制,解决多分类中数据不平衡的问题,提高模型的稳定性和性能。语义槽填充子任务本质就是序列标注问题6 ,主要目的就是提取语句中的实体信息,并填充到对应的语义槽中。在序列标注问题中,BiLSTM+CRF是非常经典的模型7 。该模型通过双向LSTM能更好地捕捉序列中上下文的信息,提高标注的准确性;通过条件随机场收
5、稿日期:2 0 2 3-0 2-2 0基金项目:国家自然科学基金资助项目(6 18 0 6 17 0)(CR F)可以获取全局最优解,避免出现不合理的标注结果。最后,再引人RoBERTa-WWM模型来获取语义表示,提高模型的整体性能。综上,将采用RoBERTa-WWM-BiLSTM-CRF模型来完成语义槽填充子任务。自然语言处理常见的任务有文本分类、序列标注、自动文摘等8 。意图识别和行业识别实际就是文本分类任务,再加上本质为序列标注任务的语义槽填充,模型需处理3个子任务。而在传统的自然语言处理算法中,面对多任务时一般采用不同子任务独立训练,最终以结合的方式来完成模型的整合。而在实际的语言表达
6、中,意图识别、行业识别和语义槽填充3个子任务并非完全孤立9 ,其中一个子任务的预测结果很可能影响其他子任务的预测过程。因此,提出Joint-Ro-BERTa-WWM模型,将意图识别、行业识别和语义槽填充进行联合学习,强化子任务之间的关联性,提高模型的综合预测能力。研究表明10 ,像BERT这样基于Transformer的预训练模型,存在参数设置过多、模型过厚重、计算成本过高的问题。因此,本文基于模型的工程性应用考虑,进一步提出了一种基于模块替换11 的压缩联合模型Joint-RoBERTa-WWM-of-Theseus,在略微损失预测精度的前提下,大幅加快了预测速度,提高了模型的实时性,更好地
7、为实际工程应用提供服务。1相关工作1.1任务型机器人1950 年,Turing.12提出了图灵测试。之后,围绕大252息都报程成第3 8 卷信学学人机对话的研究逐渐成为了人机交互13 领域中的核心研究内容,而对话系统是实现人机对话最直观的表现形式。经过基于规则模板的对话系统、统计对话系统和神经对话系统等3个阶段的发展14,对话系统已经开始向对话机器人演变。在应用场景上,对话机器人可分成3类:问答型机器人(QArobot)、闲聊型机器人(chat robot)和任务型机器人(task robot)。问答型机器人主要为一问一答的形式,机器人在解析用户提出的问题后,需要在知识库中搜索相关的正确答案并
8、将结果返回给用户。其中,每次问答均是独立的,与上下文对话无关。而闲聊型机器人主要以满足用户的情感需求为主,通过有趣、个性化的回复与用户进行互动,较知名产品有微软的小冰。相对于前面两类对话机器人,任务型机器人可以满足更复杂的业务需求,一般指的是机器人为了满足用户的需求目标从而产生多轮对话,通过在对话中不断澄清或调整用户意图完成用户的请求。这就要求机器人能整合上下文信息,根据上一轮对话的内容来决定下一轮对话的子目标。典型的任务型机器人有阿里巴巴的天猫精灵15、苹果的Siri16和微软的Cortana(小娜)17 。目前,任务型对话机器人被广泛使用于不同领域的多个场景,如客服行业、医疗行业、生活娱乐
9、场景等。在生活场景中,任务型对话机器人的出现能够帮助人们更方便快捷地工作,提高效率。以Siri为例,它可以帮助机主完成打电话、发短信、播放歌曲等任务。在执行任务的过程中,Siri需要先对机主的语音消息进行识别,再根据识别结果执行意图、领域的预测和语义槽填充3个子任务,最后再根据预测结果做出相应的行为来帮助机主完成该次任务。类似此应用场景,本文的模型将用于搭建电商行业的智能客服机器人,因此模型的预测主要包括了意图识别、行业识别和语义槽填充3个子任务。意图、行业的预测和语义槽填充的样例如表1所示。表1子任务结果样例语句意图行业语义槽给我推荐一下黑色的手机商品求购手机颜色:黑色店里有没有双开门冰箱商
10、品求购冰箱门款式:双开门1.2RoBERTa-WWM模型BERT模型的训练过程主要包含掩码语言模型(mask language model,MLM)和下一句预测(next sen-tence prediction,NSP)两个重要任务。其中,掩码语言模型的原理是随机选取输人序列中15%的Token,在已经选取的Token中,以8 0%的概率用标记MASK替换掉原始Token,以10%的概率将原始Token替换为随机Token,以剩余10%的概率保持原有Token,这样可以大大提高模型的泛化能力。而NSP主要用于判断两个句子之间的关系,对自然语言推理(naturallanguage infere
11、nce,NL I)这样的下游任务起到至关重要的作用。对比BERT模型,RoBERTa模型的改进主要体现在:(1)RoBERTa模型移除了NSP任务,采用Full-Sentences方式,可以从一篇或多篇文章中连续抽取句子填充到模型的输人序列中,提高了效率。(2)BERT模型采用的是Character级别的字节对编码(byte-pairencoding,BPE),词表大小仅有30 KB;而RoBERTa模型采用了Byte级别的字节对编码,词表大小50 KB左右,比BERT模型词表大近7 0%。(3)BERT模型只在数据预处理期间执行一次掩码,得到一个静态掩码,这样会导致每次训练时mask位置都相
12、同,使模型学习的语句模式比较单一;而RoBERTa模型采用动态掩码,每次向模型输人一个序列时都会随机地mask不同的Token,可以保证模型逐渐适应不同的掩码策略,学习不同的语言表征。(4)RoBERTa模型通过采用更大的batch size、更多的训练数据和训练步骤,较BERT模型表现更好。通过以上4个方面的改进,RoBERTa模型在自然语言理解基准测试RACE、G L U E和SQuAD中达到了SOTA。而RoBERTa-WWM模型就是在RoBERTa模型的基础上,采用全词掩码(wholewordmasking,W W M)策略。在中文文本中,采用原始策略可能会使一个词语中只有部分字被ma
13、sk,而采用WWM策略可以使整个词语都被mask,这样能增强文本的表示效果。在模型结构上,RoBERTa-WWM模型继承了BERT模型的特点,由12 层双向Transformer组成。初始文本输人,用W=w1,w2,w3,w,表示;模型的输人为该文本字向量、段向量和位置向量的和,用E=le1,e2,e3,,e,表示;模型的输出向量用T=ti,t2,t3,,t,表示。RoBERTa-WWM模型结构如图1所示。模型输出向量Tt12层Transformer模型输入Ee1e2e3e初始文本输入WW2WaWWa图1RoBERTa-WWM模型结构图253高作缘,等:面向任务型对话机器人的多任务联合模型研究
14、第3 期1.3BiLSTM-CRF模型循环神经网络(recurrentneural network,R NN)是一种用来处理序列数据的神经网络19 ,它能挖掘数据中的时序信息和语义信息。但是,在实际应用中,RNN因为单元堆叠导致梯度爆炸或消失较明显。为解决这个问题,Hochreiter等2 0 在19 9 7 年提出了长短期记忆(long short-term memory,LSTM)网络概念。LSTM 作为RNN的一种变体,通过在隐藏层加人记忆单元和门控制器结构,使其具备长期记忆的能力。在LSTM中,每个重复的神经元都有三类门,分别为遗忘门(f.)、输人门(i)和输出门(o)。L ST M
15、的单元结构如图2 所示。tanhlanh图2LSTM单元结构图在LSTM中,第一步,计算遗忘门,确定要遗忘的信息。遗忘门由ht-和x,线性变换后通过sigmoid函数计算输出后并与C-,相乘。遗忘门的计算如下:f,=o(W,xht-1,x,+b,)第二步,确定要记忆的信息,通过sigmoid函数决定需要更新的值it,再通过tanh函数创建一个新的候选值向量,并将其加入到神经元状态中,对神经元状态进行更新得到C。第二步的计算如下:i,=(W,xht-1,x,+b,)C,=tanh(Wcxh-1,x,+bc)C,=f,xCr-1+i,xC,第三步,基于当前时刻的隐藏层状态来决定最终的输出。首先使用
16、sigmoid函数决定输出神经元状态的部分ot,再使用tanh函数处理神经元状态,最后与门控值相乘后即可得到当前时刻的输出h,。第三步的计算如下:0,=o(W,xht-1,x,+b。)h,=o,xtanh(C,)在此基础上,Fukada21提提出了双向长短期记忆(bi-directional long short-term memory,BiLSTM)网络概念,更好地捕捉双向的语义依赖。BiLSTM模型由前向LSTM和后向LSTM组成,相较于单向LSTM,它可以获得更加完整的上下文语义信息。但是BiLSTM模型的输出没有考虑标签之间的约束和依赖关系,可能会输出无效的序列。如预测的实体开头应该是
17、“B-”而非I-”,句子的开头应该是“B-”或“O”。为了解决这个问题,在模型中引入条件随机场(condition randomfield,CR F)模型,为BiLSTM模型的输出添加约束关系,保证输出序列的正确性。CRF 由 Lafferty 等2 于2001年提出,结合最大熵模型和隐马尔科夫模型的特点,在序列标注任务中表现突出。在CRF中,对于指定的输人序列x=(x1,2,x,),预测序列y=(y 1,2,y,)的得分:nS(X,Y)=ZA,+ZPyiYit1i,i式中,P为BiLSTM的输出,A为转移分数矩阵,A,为标签i转移到标签j的分数。进一步,预测序列Y产生的概率:s(X,)P(Y
18、IX)=S(X,Y)YeYx式中,Y表示真实的标注序列;Yx表示所有可能的标注序列。最后,使用Viterbi算法寻找所有Y中得分最高的Y*:Y*=argmax(S(X,Y)综上,在BiLSTM模型后接人条件随机场可以保证最终获取一个有效的预测结果,得到全局最优序列。2多任务联合模型及模型压缩2.1Joint-RoBERTa-WWM联合模型意图识别和行业识别这两个子任务本质就是文本分类问题,本文将使用RoBERTa-WWM模型通过对下游任务进行微调来实现。模型的初始输人是文本语句,语句经过分词后形成“CLS语句SEP”的结构。“CLS”标签先经过Encoder的向量表征,再经过Pooler后就能
19、得到句子的向量表征,最后通过soft-max函数就可以实现文本分类任务,输出句子所属的意图和行业。在实验过程中发现,数据集中的意图类别分布极其不均匀,导致模型的稳定性较差。因此,在处理意图识别和行业识别这两个多分类子任务时,引人Focalloss23机制,通过改进损失函数来兼顾数据量少的类别。这样,既不影响数据集的原始分布,也能有效提高模型的性能。Focal loss是交叉熵损失函数(CEloss)的优化版本,简单的二分类交叉摘损失函数如下:(-lg(p)if y=1CE(p,y)=(-lg(1-p)otherwise为方便表示,可化简为:(Pif y=1CE(p,)=-lg(p,)P(1-p
20、otherwise针对类别不均匀问题,传统的做法是-balancedCE,即在CEloss前增加权重系数,以此来平衡各类别的分布情况。其中,数据量少的类别越大,而数大254息都程成第38 卷报信学学居量多的类别越小。-balancedCE的表示如下:CE(p,)=-,lg(p,)但是,-balancedCE只平衡了不同类别对于模型的影响,它无法区分容易样本和困难样本,可能导致容易样本主导梯度而困难样本影响轻微的问题。因此,在模型中引人Focal loss,以在平衡各类别分布的同时,加强困难样本对loss的影响,削弱容易样本的重要性。Focal loss 函数表示:FL(p,)=-,(1-p,)
21、lg(p,)其中(1-p,)是调节因子,控制了样本权重的下降程度。语义槽填充子任务本质上是序列标注问题,本文将使用RoBERTa-WWM-BiLSTM-CRF模型来实现该任务。该模型主要分为3层:首先,在RoBERTa-WWM层,将初始输入的文本语句转换为向量;其次,在BiL-STM层中,RoBERTa-WWM层的向量输出将作为该层的输人,提取上下文信息;最后,在CRF层,通过施加约束和标签间的依赖关系保证获取有效的预测结果,获得全局最优序列。在实际的文本语义中,意图识别、行业识别和语义槽填充3个子任务并非是独立的,三者之间存在较强的关联性,其中一个子任务可能对另外两个子任务的预测过程产生一定
22、的影响。因此,提出Joint-RoBER-Ta-WWM联合模型,采用多任务学习(multitasklearn-ing)的方式将3个子任务进行联合学习,通过最小化3个子任务的损失来建立统一的联合损失函数。若用L()、L P()、L()分别表示意图识别、行业识别和语义槽填充3个子任务的损失函数,则联合损失函数为L(0)=L(0)+LP(0)+L(0)Joint-RoBERTa-WWM联合模型的结构如图3所示(B-color)I-colorhh244分类结果hhaTsofmatCt2t5RoBERTa-WWMe1e2e4cls有黑色的吗图3Joint-RoBERTa-WWM联合模型结构图2.2Joi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 任务 对话 机器人 联合 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。