分销赏收藏举报申诉 / 7

立即下载 VIP下载

当前位置：首页 > 学术论文 > 自然科学论文 > 面向任务型对话机器人的多任务联合模型研究.pdf

面向任务型对话机器人的多任务联合模型研究.pdf

上传人：自信****多点

文档编号：327638

上传时间：2023-08-16

格式：PDF

页数：7

大小：4.13MB

《面向任务型对话机器人的多任务联合模型研究.pdf》由会员分享，可在线阅读，更多相关《面向任务型对话机器人的多任务联合模型研究.pdf（7页珍藏版）》请在咨信网上搜索。

1、Jun.2023JOURNAL OFCHENGDU UNIVERSITY OF INFORMATION TECHNOLOGY2023年6 月Vol.38No.3息程大学学报成都3信第38 卷第3期文章编号：2 0 9 6-16 18(2 0 2 3)0 3-0 2 51-0 7面向任务型对话机器人的多任务联合模型研究高作缘，陶宏才（西南交通大学计算机与人工智能学院，四川成都6 117 56)摘要：在任务型对话机器人的搭建过程中，一般需要执行多个自然语言处理的子任务。目前传统的训练方式是将每个子任务独立训练后再进行整合，这样忽视了不同子任务之间的关联性，限制了模型的预测能力。现提出一种Joint

2、-RoBERTa-WWM-of-Theseus压缩联合模型，一方面通过多任务联合学习训练的方式对意图识别、行业识别和语义槽填充3个子任务进行联合训练，并在多分类的子任务中引人Focalloss机制来解决数据分布不平衡的问题；另一方面，模型通过Theseus方法进行压缩，在略微损失精度的前提下，大幅提高模型预测速度，提高模型在生产环境中的实时性与实用性。关键词：RoBERTa-WWM模型；多任务联合学习;Theseus压缩;Focalloss中图分类号：TP391.12文献标志码：Adoi:10.16836/ki.jcuit.2023.03.0010引言在任务型对话机器人11的搭建中,准确地理解

3、用户的意图、判断语句中可能包含的行业分类、提取语句中的关键信息至关重要。因为对话机器人会依据内容，再结合对话的上下文信息来决定下一步的行为走向。近年来，随着大规模预训练BERT（b i d i r e c t i o n a lencoder representation from transformers）模型的提出2 ，自然语言处理的发展迈入了新阶段。BERT模型采用了双向的Transformer作为特征提取器，性能有显著提升，刷新了自然语言处理的多项记录3。另外，应用迁移学习4 后的自然语言处理不再受数据源的限制,轻松解决了目标领域数据样本不足的问题。而RoBERTa-WWM模型5 作为

4、BERT模型的改进版本，采用了更大的模型参数量、更多的训练数据和更大的batch size，还引人了动态掩码、文本编码，比BERT模型更好地推广到下游任务。因此，本文将以Ro-BERTa-WWM模型为基础开展研究，实现意图识别和行业识别的子任务。在此基础上，该部分还引人了Focal loss机制，解决多分类中数据不平衡的问题，提高模型的稳定性和性能。语义槽填充子任务本质就是序列标注问题6 ，主要目的就是提取语句中的实体信息，并填充到对应的语义槽中。在序列标注问题中,BiLSTM+CRF是非常经典的模型7 。该模型通过双向LSTM能更好地捕捉序列中上下文的信息，提高标注的准确性；通过条件随机场收

5、稿日期：2 0 2 3-0 2-2 0基金项目：国家自然科学基金资助项目（6 18 0 6 17 0）（CR F)可以获取全局最优解，避免出现不合理的标注结果。最后，再引人RoBERTa-WWM模型来获取语义表示，提高模型的整体性能。综上，将采用RoBERTa-WWM-BiLSTM-CRF模型来完成语义槽填充子任务。自然语言处理常见的任务有文本分类、序列标注、自动文摘等8 。意图识别和行业识别实际就是文本分类任务，再加上本质为序列标注任务的语义槽填充，模型需处理3个子任务。而在传统的自然语言处理算法中，面对多任务时一般采用不同子任务独立训练，最终以结合的方式来完成模型的整合。而在实际的语言表达

6、中，意图识别、行业识别和语义槽填充3个子任务并非完全孤立9 ,其中一个子任务的预测结果很可能影响其他子任务的预测过程。因此，提出Joint-Ro-BERTa-WWM模型,将意图识别、行业识别和语义槽填充进行联合学习，强化子任务之间的关联性，提高模型的综合预测能力。研究表明10 ,像BERT这样基于Transformer的预训练模型,存在参数设置过多、模型过厚重、计算成本过高的问题。因此,本文基于模型的工程性应用考虑，进一步提出了一种基于模块替换11 的压缩联合模型Joint-RoBERTa-WWM-of-Theseus，在略微损失预测精度的前提下，大幅加快了预测速度，提高了模型的实时性，更好地

7、为实际工程应用提供服务。1相关工作1.1任务型机器人1950 年,Turing.12提出了图灵测试。之后,围绕大252息都报程成第3 8 卷信学学人机对话的研究逐渐成为了人机交互13 领域中的核心研究内容，而对话系统是实现人机对话最直观的表现形式。经过基于规则模板的对话系统、统计对话系统和神经对话系统等3个阶段的发展14,对话系统已经开始向对话机器人演变。在应用场景上，对话机器人可分成3类：问答型机器人（QArobot）、闲聊型机器人（chat robot）和任务型机器人（task robot）。问答型机器人主要为一问一答的形式，机器人在解析用户提出的问题后，需要在知识库中搜索相关的正确答案并

8、将结果返回给用户。其中，每次问答均是独立的，与上下文对话无关。而闲聊型机器人主要以满足用户的情感需求为主，通过有趣、个性化的回复与用户进行互动，较知名产品有微软的小冰。相对于前面两类对话机器人，任务型机器人可以满足更复杂的业务需求，一般指的是机器人为了满足用户的需求目标从而产生多轮对话，通过在对话中不断澄清或调整用户意图完成用户的请求。这就要求机器人能整合上下文信息，根据上一轮对话的内容来决定下一轮对话的子目标。典型的任务型机器人有阿里巴巴的天猫精灵15、苹果的Siri16和微软的Cortana（小娜）17 。目前，任务型对话机器人被广泛使用于不同领域的多个场景，如客服行业、医疗行业、生活娱乐

9、场景等。在生活场景中,任务型对话机器人的出现能够帮助人们更方便快捷地工作，提高效率。以Siri为例，它可以帮助机主完成打电话、发短信、播放歌曲等任务。在执行任务的过程中，Siri需要先对机主的语音消息进行识别,再根据识别结果执行意图、领域的预测和语义槽填充3个子任务，最后再根据预测结果做出相应的行为来帮助机主完成该次任务。类似此应用场景，本文的模型将用于搭建电商行业的智能客服机器人，因此模型的预测主要包括了意图识别、行业识别和语义槽填充3个子任务。意图、行业的预测和语义槽填充的样例如表1所示。表1子任务结果样例语句意图行业语义槽给我推荐一下黑色的手机商品求购手机颜色：黑色店里有没有双开门冰箱商

10、品求购冰箱门款式：双开门1.2RoBERTa-WWM模型BERT模型的训练过程主要包含掩码语言模型(mask language model,MLM)和下一句预测(next sen-tence prediction，NSP）两个重要任务。其中，掩码语言模型的原理是随机选取输人序列中15%的Token，在已经选取的Token中，以8 0%的概率用标记MASK替换掉原始Token，以10%的概率将原始Token替换为随机Token,以剩余10%的概率保持原有Token,这样可以大大提高模型的泛化能力。而NSP主要用于判断两个句子之间的关系,对自然语言推理（naturallanguage infere

11、nce，NL I)这样的下游任务起到至关重要的作用。对比BERT模型,RoBERTa模型的改进主要体现在：（1）RoBERTa模型移除了NSP任务，采用Full-Sentences方式，可以从一篇或多篇文章中连续抽取句子填充到模型的输人序列中,提高了效率。（2）BERT模型采用的是Character级别的字节对编码（byte-pairencoding，BPE），词表大小仅有30 KB；而RoBERTa模型采用了Byte级别的字节对编码，词表大小50 KB左右，比BERT模型词表大近7 0%。（3）BERT模型只在数据预处理期间执行一次掩码,得到一个静态掩码，这样会导致每次训练时mask位置都相

12、同，使模型学习的语句模式比较单一；而RoBERTa模型采用动态掩码，每次向模型输人一个序列时都会随机地mask不同的Token，可以保证模型逐渐适应不同的掩码策略，学习不同的语言表征。（4）RoBERTa模型通过采用更大的batch size、更多的训练数据和训练步骤,较BERT模型表现更好。通过以上4个方面的改进，RoBERTa模型在自然语言理解基准测试RACE、G L U E和SQuAD中达到了SOTA。而RoBERTa-WWM模型就是在RoBERTa模型的基础上，采用全词掩码（wholewordmasking，W W M)策略。在中文文本中,采用原始策略可能会使一个词语中只有部分字被ma

13、sk，而采用WWM策略可以使整个词语都被mask,这样能增强文本的表示效果。在模型结构上，RoBERTa-WWM模型继承了BERT模型的特点，由12 层双向Transformer组成。初始文本输人,用W=w1,w2,w3,w,表示;模型的输人为该文本字向量、段向量和位置向量的和,用E=le1,e2,e3，,e,表示;模型的输出向量用T=ti,t2,t3，,t，表示。RoBERTa-WWM模型结构如图1所示。模型输出向量Tt12层Transformer模型输入Ee1e2e3e初始文本输入WW2WaWWa图1RoBERTa-WWM模型结构图253高作缘，等：面向任务型对话机器人的多任务联合模型研究

14、第3 期1.3BiLSTM-CRF模型循环神经网络（recurrentneural network，R NN）是一种用来处理序列数据的神经网络19 ,它能挖掘数据中的时序信息和语义信息。但是,在实际应用中,RNN因为单元堆叠导致梯度爆炸或消失较明显。为解决这个问题,Hochreiter等2 0 在19 9 7 年提出了长短期记忆(long short-term memory,LSTM)网络概念。LSTM 作为RNN的一种变体,通过在隐藏层加人记忆单元和门控制器结构，使其具备长期记忆的能力。在LSTM中，每个重复的神经元都有三类门，分别为遗忘门（f.）、输人门(i）和输出门（o）。L ST M

15、的单元结构如图2 所示。tanhlanh图2LSTM单元结构图在LSTM中,第一步,计算遗忘门,确定要遗忘的信息。遗忘门由ht-和x,线性变换后通过sigmoid函数计算输出后并与C-,相乘。遗忘门的计算如下：f,=o(W,xht-1,x,+b,)第二步，确定要记忆的信息，通过sigmoid函数决定需要更新的值it,再通过tanh函数创建一个新的候选值向量，并将其加入到神经元状态中，对神经元状态进行更新得到C。第二步的计算如下：i,=(W,xht-1,x,+b,)C,=tanh(Wcxh-1,x,+bc)C,=f,xCr-1+i,xC,第三步，基于当前时刻的隐藏层状态来决定最终的输出。首先使用

16、sigmoid函数决定输出神经元状态的部分ot,再使用tanh函数处理神经元状态，最后与门控值相乘后即可得到当前时刻的输出h，。第三步的计算如下：0,=o(W,xht-1,x,+b。)h,=o,xtanh(C,)在此基础上,Fukada21提提出了双向长短期记忆(bi-directional long short-term memory,BiLSTM）网络概念，更好地捕捉双向的语义依赖。BiLSTM模型由前向LSTM和后向LSTM组成，相较于单向LSTM，它可以获得更加完整的上下文语义信息。但是BiLSTM模型的输出没有考虑标签之间的约束和依赖关系，可能会输出无效的序列。如预测的实体开头应该是

17、“B-”而非I-”,句子的开头应该是“B-”或“O”。为了解决这个问题,在模型中引入条件随机场（condition randomfield，CR F）模型，为BiLSTM模型的输出添加约束关系,保证输出序列的正确性。CRF 由 Lafferty 等2 于2001年提出，结合最大熵模型和隐马尔科夫模型的特点,在序列标注任务中表现突出。在CRF中,对于指定的输人序列x=(x1,2,x,）,预测序列y=（y 1,2,y,）的得分：nS(X,Y)=ZA,+ZPyiYit1i，i式中,P为BiLSTM的输出,A为转移分数矩阵,A,为标签i转移到标签j的分数。进一步,预测序列Y产生的概率：s(X,)P(Y

18、IX)=S(X,Y)YeYx式中,Y表示真实的标注序列；Yx表示所有可能的标注序列。最后，使用Viterbi算法寻找所有Y中得分最高的Y*：Y*=argmax(S(X,Y)综上，在BiLSTM模型后接人条件随机场可以保证最终获取一个有效的预测结果，得到全局最优序列。2多任务联合模型及模型压缩2.1Joint-RoBERTa-WWM联合模型意图识别和行业识别这两个子任务本质就是文本分类问题，本文将使用RoBERTa-WWM模型通过对下游任务进行微调来实现。模型的初始输人是文本语句,语句经过分词后形成“CLS语句SEP”的结构。“CLS”标签先经过Encoder的向量表征，再经过Pooler后就能

19、得到句子的向量表征，最后通过soft-max函数就可以实现文本分类任务，输出句子所属的意图和行业。在实验过程中发现，数据集中的意图类别分布极其不均匀,导致模型的稳定性较差。因此,在处理意图识别和行业识别这两个多分类子任务时，引人Focalloss23机制,通过改进损失函数来兼顾数据量少的类别。这样,既不影响数据集的原始分布，也能有效提高模型的性能。Focal loss是交叉熵损失函数(CEloss）的优化版本，简单的二分类交叉摘损失函数如下：(-lg(p)if y=1CE(p,y)=(-lg(1-p)otherwise为方便表示，可化简为：(Pif y=1CE(p,)=-lg(p,)P(1-p

20、otherwise针对类别不均匀问题，传统的做法是-balancedCE,即在CEloss前增加权重系数,以此来平衡各类别的分布情况。其中，数据量少的类别越大,而数大254息都程成第38 卷报信学学居量多的类别越小。-balancedCE的表示如下：CE(p,)=-,lg(p,)但是，-balancedCE只平衡了不同类别对于模型的影响，它无法区分容易样本和困难样本，可能导致容易样本主导梯度而困难样本影响轻微的问题。因此，在模型中引人Focal loss,以在平衡各类别分布的同时,加强困难样本对loss的影响,削弱容易样本的重要性。Focal loss 函数表示：FL(p,)=-,(1-p,)

21、lg(p,)其中(1-p,）是调节因子，控制了样本权重的下降程度。语义槽填充子任务本质上是序列标注问题，本文将使用RoBERTa-WWM-BiLSTM-CRF模型来实现该任务。该模型主要分为3层：首先，在RoBERTa-WWM层，将初始输入的文本语句转换为向量；其次，在BiL-STM层中,RoBERTa-WWM层的向量输出将作为该层的输人，提取上下文信息；最后，在CRF层，通过施加约束和标签间的依赖关系保证获取有效的预测结果，获得全局最优序列。在实际的文本语义中，意图识别、行业识别和语义槽填充3个子任务并非是独立的，三者之间存在较强的关联性,其中一个子任务可能对另外两个子任务的预测过程产生一定

22、的影响。因此，提出Joint-RoBER-Ta-WWM联合模型，采用多任务学习（multitasklearn-ing）的方式将3个子任务进行联合学习，通过最小化3个子任务的损失来建立统一的联合损失函数。若用L(）、L P（）、L（)分别表示意图识别、行业识别和语义槽填充3个子任务的损失函数,则联合损失函数为L(0)=L(0)+LP(0)+L(0)Joint-RoBERTa-WWM联合模型的结构如图3所示(B-color)I-colorhh244分类结果hhaTsofmatCt2t5RoBERTa-WWMe1e2e4cls有黑色的吗图3Joint-RoBERTa-WWM联合模型结构图2.2Joi

23、nt-RoBERTa-WWM-of-Theseus压缩联合模型目前,基于Transformer的预训练模型已经占据了自然语言处理领域举足轻重的地位。但有研究表明2 4,这其实是得益于它们“过度参数化”的特点，它们包括了数百万甚至十亿个参数，导致计算成本高并且效率低下,严重阻碍了模型在生产环境中的应用。XuC等11 提出BERT-of-Theseus,这是一种基于模块替换的模型压缩方法。相比于传统的知识蒸馏2 5,该方法在对初始模型进行压缩后可以保证压缩模型的结构与初始模型仍然相似，使整个压缩过程更加简捷。BERT-of-Theseus压缩方法可以将原始的12 层BERT教师模型P=（p r d

24、 i,p r d，,p r d i z 2 ,压缩成一个6 层的学生模型S=scc1,scc2，,s c c。l，具体可以分为两个阶段：(i)第一阶段是模块替换训练。将每个教师模块prd,替换为相应的学生模块scc;。若第i个模块的输出向量表示为y，则教师模型第+1个模块的前向计算输出：Yi+1=prd,(y;)对于第+1个模块，通过伯努利分布采样一个随机变量r+1,采样概率为P,如下：Ti+1 Bernoulli(p)则第1个模块在学生模型中的最终输出为Yi+1=Ti+1*scc,(y,)+(1-ri+1)*prd,(y,)其中*表示按元素计算的乘法。第一阶段的替换流程如图4所示。输出层SC

25、C3prd.prdSCC2prdscC1输入层图4第一阶段替换流程图(ii)第二阶段是学生模型S自身的微调,让所有的学生模块都参与到训练中，最后组合成学生模型S：S=(sCC1,SCC2,SCC6yi+1=Scc,(第二阶段的训练流程如图5所示。255高作缘合模型研究九不天第3 期输出层SCCgSCC2ScC1输入层图5第二阶段训练流程图经过以上两个阶段，每个prd，模块都压缩成更小的scc,模块,这样教师模型P被压缩成一个更小的学生模型 S。借助Theseus压缩的思想,Joint-RoBERTa-WWM模型经过相同的方法进行压缩后，便构成了本文所提出的Joint-RoBERTa-WWM-o

26、f-Theseus模型,大幅提高了模型的预测速度，使模型能更好地服务于生产环境。3实验3.1实验环境实验环境如下：Windows10操作系统，Ryzen55600X3.70 GHz CPU,NVIDIA GeForce RTX 3070 显卡,16 GB内存。另外,实验中采用Python编程语言和Tensorflow深度学习框架实现模型的搭建。3.2实验数据集以某大赛提供的真实对话数据为基础,添加了通过Scrapy框架爬取的某电商平台4个品类共9 8 6 5条商品数据，抽取、标注了30 7 5条文本语料作为实验数据集。在数据集中，共有4个行业分类、14个意图分类和2 2 个槽位。数据分布不平衡

27、的问题在多分类任务,尤其是在意图识别子任务中，表现得尤其明显，图6 展示了不同意图在数据集中的分布对比。由图可以看出，不同的类别之间数据量相差较大。因此,在模型的调优过程中解决数据分布不平衡的问题是十分必要的。意图14 31意图13 115意图12 10 3意图1 50 7意图11 530意图2 10 8意图3 2 7意图4 7 0意图5 432意图10 330意图9 45意图6 19意图7 157意图8 6 0 1图6各类意图分布情况3.3实验参数与评价指标实验中采用Adam优化器；设置的最大文本长度是12 8；学习率为0.0 0 0 0 2;RoBERTa-WWM层数为12层，隐藏层大小为

28、7 6 8；训练时加入早停机制，并设置Dropout比例为0.5来避免过拟合；为使损失函数下降更稳定,设置Warmpu比例为0.1;在进行Theseus压缩时，模块替换概率设置为0.5。实验中主要的超参数如表2 所示。表2超参数设置参数名称参数值优化算法Adam最大文本长度128初始化学习率0.00002RoBERTa-WWM隐藏层大小768LSTM隐藏层大小128Dropout 比例0.5Warmup比例0.1模块替换概率0.5在实验中，采取F，值作为模型的评价指标，同时兼顾准确率和召回率。若用FI、F、F分别表示意图识别、行业识别和语义槽填充3个子任务的F值，则模型整体的F：F+FP+FF

29、,=33.4实验结果与分析实验将Joint-RoBERTa-WWM模型和Joint-BERT模型进行比较，并对比了Joint-RoBERTa-WWM模型在使用CEloss、-balancedCE、Fo c a l l o s s 等不同的损失函数时的表现情况，证明了Joint-RoBERTa-WWM模型使用Focal loss解决数据不平衡问题的优势。这些模型的对比实验结果如表3所示。表3模型对比实验结果模型FJoint-BERT96.38Joint-RoBERTa-WWM+CEloss96.60Joint-RoBERTa-WWM+-balanced CE96.80Joint-RoBERTa-

30、WWM+Focalloss（本文模型）97.06另外，实验将Joint-RoBERTa-WWM-of-Theseus模型、Joint-RoBERTa-WWM模型进行对比，证明经过大256息都成第3 8 卷报程信学学Theseus方法压缩,可以使模型在略微损失精度的前提下，大幅提高预测速度，帮助其为生产环境提供性能良好的实时预测服务。为了模拟真实生产环境下的模型运行情况，实验使用Flask框架分别将两个模型接口化部署后，测试9 0 0 条不同文本的实时预测接口请求平均时长并将其作为评估标准，对比两个模型的预测速度，对比结果如表4所示。经过实验验证发现，通过Theseus方法压缩后的联合模型预测速

31、度可以提高至压缩前的2.33倍,为模型在实际生产环境中的顺利使用奠定了基础。表4模型压缩前后预测速度对比模型F预测速度Joint-RoBERTa-WWM97.061.00XJoint-RoBERTa-WWM-of-Theseus96.792.33X4结束语在任务型对话机器人的应用场景下，提出了Joint-RoBERTa-WWM-of-Theseus压缩联合模型。该模型充分考虑不同子任务之间的相互影响，将意图识别、行业识别和语义槽填充3个子任务进行联合学习训练；其次，在多分类子任务中引人了Focalloss机制，通过损失函数的优化来解决数据分布不平衡问题；另外，采用Theseus方法将模型进行压

32、缩，使模型以很小的精度损失为代价换取了更快的预测速度，大幅提高了其在生产环境下的服务能力。实验表明，Joint-RoBERTa-WWM-of-Theseus压缩联合模型为任务型对话机器人的搭建提供了良好的算法基础。参考文献：1于丹，闫晓宇，王艳秋，等.任务型对话机器人的设计及其应用J.软件工程,2 0 2 1,2 4(2):55-59.2Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding J.arXiv preprint arX

33、iv,2018,1810:4805.3李法来，金震，熊婷,等.基于中文Bert模型智能机器人的实现方法和系统P.中国：CN113553405A,2021-10-26.4Karl Weiss,Taghi M Khoshgoftaar,DingDing Wang.A survey of transfer learning J.Journal of BigData,2016,3(1):1-40.5Yinhan Liu,Myle Ott,Naman Goyal,et al.VeselinStoyanov.RoBERTa:A Robustly Optimized BERTPretraining Appr

34、oachJ.CoRR,2019.6Xuezhe Ma,Eduard H.Hovy.End-to-end SequenceLabeling via Bi-directional LSTM-CNNs-CRFJ.CoRR,2016.7柏兵，侯霞，石松.基于CRF和BI-LSTM的命名实体识别方法J.北京信息科技大学学报（自然科学版）,2 0 18,33(6):2 7-33.8赵京胜，宋梦雪，高祥.自然语言处理发展及应用综述J.信息技术与信息化,2 0 19(7)：142-145.9Qian Chen,Zhu Zhuo,Wen Wang.BERT for Joint In-tent Classific

35、ation and Slot Filling J.CoRR,2019.10Zhenzhong Lan,Mingda Chen,Sebastian Good-man,et al.ALBERT:A Lite BERT for Self-super-vised Learning of Language Representations J.CoRR,2019.11Xu C,Zhou W,Ge T,et al.BERT-of-Theseus:Compressing BERT by Progressive Module Repla-cing J.arXiv preprint arXiv,2020,2002

36、:2925.12Turing A M.Computing machinery and intelli-genceJ.Mind,1950,59(236):433-460.13 俞凯，陈露，陈博，等.任务型人机对话系统中的认知技术一一概念、进展及其未来J.计算机学报,2 0 15,38(12)2 333-2 348.14陈龙,孙泽健.面向任务的对话系统现状研究J.电子技术与软件工程,2 0 17(2 3)：17 2-17 3.15天猫精灵鲍娟：天猫精灵用AI连接家庭全场景智慧营销J.国际品牌观察,2 0 2 1(2 0)：47-48.16Aron J.How innovative is Apple

37、s new voice assis-tant,Siri?J.New Scientist,2011,212(2836):24.17Hoy Matthew B.Alexa,Siri,Cortana,and More:AnIntroduction to Voice AssistantsJ.Medical refer-ence services quarterly,2018,37(1):81-88.18Yiming Cui,Wanxiang Che,Ting Liu,et al.Pre-Training with Whole Word Masking for ChineseBERTJ.CoRR,201

38、9.19Schmidhuber J.Deep Learning in Neural Net-works:An OverviewJ.Neural Networks,2015,61:85-117.20Hochreiter S,Schmidhuber J.Long short-termmemory J.Neural computation,1997,9(8):1735-1780.21ToshiakiFukada,MikeSchuster,Yoshinori257高作缘，等：面向任务型对话机器人的多任务联合模型研究第3 期Sagisaka.Phoneme boundary estimation usi

39、ng bi-directional recurrent neural networks and its ap-plications J.Systems and Computers in Japan,1999,30(4):20-30.22Lafferty J,Mccallum A,Pereira F.ConditionalRandom Fields:Probabilistic Models for Segmen-ting and Labeling Sequence Data C.Interna-tional Conference on Machine Learning.SanFrancisco,

40、USA,2001:282-289.23 Lin Tsung-Yi,Goyal Priya,Girshick Ross,et al.Focal Loss for Dense Object Detection C.Pro-ceedings of the IEEE international conference oncomputer vision.2017:2980-2988.24Geoffrey E Hinton,Oriol Vinyals,Jeffrey Dean.Distilling the Knowledge in a Neural NetworkJ.CoRR,2015.25Nakkira

41、n P,Kaplun G,Bansal Y,et al.2020Deep double descent:where bigger models andmore data hurt Int.Conf.Learning Representa-tions J.Journal of Statistical Mechanics:Theoryand Experiment,2021(12):124003.Research on Multi-task Jointing Model for Task Chat RobotGAo Zuoyuan,TAO Hongcai(School of Computing&Ar

42、tificial Intelligence,Southwest Jiaotong University,Chengdu 611756,China)Abstract:In the process of building a task-oriented chatbot,it is generally necessary to execute several subtasks of Natu-ral Language Processing.And the traditional training method is to integrate each subtask after training i

43、ndependently,which will ignore the relevance between different subtasks and limit the predictive power of the model.This paper propo-ses a compressed jointed model,i.e.,Joint-RoBERTa-WWM-of-Theseus.On the one hand,intention classification,domain classification and semantic slot filling are jointly t

44、rained through multi-task joint learning and training.And thefocal loss mechanism is introduced to the multi-class classification subtask to solve the problem of data distribution imbal-ance.On the other hand,the model is compressed by means of Theseus compression method,which greatly improves theprediction speed of the model and improves the applicability and the real-time in the production environment with a slightloss of accuracy.Keywords:RoBERTa-WWM model;multi-task joint learning;Theseus compression;Focal loss

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 面向任务对话机器人联合模型研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。