改进判别式深度Dyna-Q的任务对话策略学习方法.pdf
《改进判别式深度Dyna-Q的任务对话策略学习方法.pdf》由会员分享,可在线阅读,更多相关《改进判别式深度Dyna-Q的任务对话策略学习方法.pdf(10页珍藏版)》请在咨信网上搜索。
1、doi:10.12052/gdutxb.220122改进判别式深度Dyna-Q的任务对话策略学习方法戴彬1,曾碧1,魏鹏飞1,黄永健2(1.广东工业大学计算机学院,广东广州510006;2.广州轩辕研究院有限公司广东广州510000)nQ摘要:作为任务型对话系统中的关键一环,对话策略可以通过判别式深度Dyna-Q框架训练得到。然而,该框架在直接强化学习阶段采用原始的深度Q网络方法学习对话策略,在世界模型方面采用多层感知机作为模型的基本结构,导致对话策略的训练效率、性能和稳定性降低。本文提出了一种改进判别式深度Dyna-Q的任务对话策略学习方法。在改进后的直接强化学习阶段,利用噪声网络改进了智能
2、体的探索方式,同时将竞争网络的双流架构、双Q网络与步自举法三者相结合,优化了值的计算过程。在世界模型方面,设计了一种基于软注意力的模型替代多层感知机结构。实验结果表明,本文提出的方法在对话成功率、平均对话轮数以及平均奖励3个指标上均优于现有的最佳结果,最后本文通过消融分析和鲁棒性分析,进一步验证了方法的有效性。关键词:任务型对话系统;对话策略学习;强化学习;用户模拟器中图分类号:TP391文献标志码:A文章编号:10077162(2023)04000909A Task-oriented Dialogue Policy Learning Method of ImprovedDiscriminat
3、ive Deep Dyna-QDaiBin1,ZengBi1,WeiPeng-fei1,HuangYong-jian2(1.SchoolofComputerScienceandTechnology,GuangdongUniversityofTechnology,Guangzhou510006,China;2.GuangzhouXuanyuanResearchInstituteCo.,Ltd.,Guangzhou510000,China)Abstract:Asapivotalpartofthetask-orienteddialoguesystem,dialoguepolicycanbetrain
4、edbyusingthediscriminativedeepDyna-Qframework.However,theframeworkusesvanilladeepQ-networkmethodinthedirectreinforcementlearningphaseandadoptsMLPsasthebasicnetworkofworldmodel,whichlimitstheefficiencyandstabilityofthedialoguepolicylearning.Inthispaper,wepurposeanimproveddiscriminativedeepDyna-Qmetho
5、dfortask-orienteddialoguepolicylearning.IntheimproveddirectRLphase,wefirstemployaNoisyNettoimprovetheexplorationmethod,andthencombinethedual-streamarchitectureofDuelingNetwork,Double-QNetworkandn-stepbootstrappingtooptimizethecalculationoftheQvalues.Moreover,wedesignasoft-attention-basedmodeltorepla
6、cetheMLPsintheworldmodel.Theexperimentalresultsshowthatourproposedmethodachievesbetterresultsthanotherbaselinemodelsintermsoftasksuccessrate,averagedialogturnsandaveragereward.Wefurthervalidatetheeffectivenessofproposedmethodbyconductingbothablationandrobustnessanalysis.Key words:task-orienteddialog
7、uesystem;dialoguepolicylearning;reinforcementlearning;usersimulator当前消费市场上已存在许多技术成熟的语音助手产品,例如苹果Siri、微软小娜、小爱同学等。这些产品内置了精心设计的对话系统,用户可直接使用自然语言与其交互,完成一系列指定的任务。与开放域对话系统不同的是,任务对话系统聚焦于完成用户指定的一个或多个领域的任务。当前任务对话系统的研究主要使用管道方法(PipelineMethod)和端到端方法(End-to-EndMethod)1。其中,第40卷第4期广东工业大学学报Vol.40No.42023年7月Journal o
8、f Guangdong University of TechnologyJuly2023收稿日期:2022-07-20基金项目:国家自然科学基金联合基金资助重点项目(U21A20478);广东省自然科学基金资助项目(2019A1515011056);顺德区核心技术攻关项目(2130218003002)作者简介:戴彬(1997),男,硕士研究生,主要研究方向为自然语言处理、任务型对话系统和强化学习通信作者:魏鹏飞(1991),男,助理实验师,主要研究方向为任务型对话系统和强化学习,E-mail:管道方法将任务对话系统分解成以下4个部分:自然语言理解(NaturalLanguageUndersta
9、nding,NLU)、对话状态跟踪(DialogStateTracking,DST)、对话策略学习(DialogPolicyLearning,DPL)和自然语言生成(NaturalLanguageGeneration,NLG)。端到端方法采用某种框架将管道方法中的部分或所有模块统一起来,根据用户的输入直接输出结果。然而,端到端方法面临着相当多的挑战,例如存在着难以与数据库相结合等问题,因此该方法仍处于探索阶段。对话策略作为管道方法中的关键一环,根据当前对话状态选择下一步要执行的动作,一般采用强化学习方法训练得到23。强化学习可分为基于值函数的方法和基于策略的方法4。在基于值函数的方法中,Mni
10、h等5将卷积神经网络(ConvolutionalNeuralNetworks,CNN)与传统的Q学习(Q-Learning)方法相结合,提出了深度Q网络(DeepQ-Network,DQN)。经典的基于策略的方法有演员评论家算法(Actor-Critic),它由演员和评论家两个模型组成:评论家模型用于更新价值函数,演员按照评论家引导的方向更新,以减小回报方差。Haarnoja等6在演员评论家算法的基础上进一步提出了软演员评论家(SoftActorCritic)算法,该算法引入了最大熵的概念,在确保训练稳定性的同时进一步鼓励探索。由于训练对话策略需要海量的数据,智能体需要与真实用户不断交互,而该
11、过程所需成本十分高昂,单独采用直接强化学习的方法只能满足小规模任务的需要。一种常见的解决思路是:设计一个由真实对话数据训练得到的用户模拟器与智能体进行交互78。2018年微软研究院提出了一种基于世界模型的方法910,该方法通过构建世界模型来训练智能体,在保证低成本的同时获取到海量的对话数据。然而,对话本身的复杂性和用户模拟器设计时产生的偏差11,给对话策略学习带来了挑战。为了应对该挑战,Peng等9将传统的Dyna-Q框架12与深度学习相结合,提出了深度Dyna-Q框架(DeepDyna-Q,DDQ)。该框架将世界模型视为一个可学习的环境模型,用于产生模拟经验以弥补真实经验在数量上的不足。而真
12、实经验一方面被用于训练智能体,另一方面被用于改进世界模型,使其表现更趋于真实用户。由于DDQ的性能深受模拟经验质量高低的影响,受对抗生成网络13的启发,Su等10在DDQ的基础上进一步提出了判别式深度Dyna-Q(DiscriminativeDeepDyna-Q,D3Q)框架。该框架在规划阶段加入了基于循环神经网络(RecurrentNeuralNetwork,RNN)的鉴别器,用于筛选出高质量的模拟经验,因而避免了采用依赖于经验的启发式方法,从而提高了训练的稳定性。然而D3Q框架仍存在着许多改进的空间,为了进一步优化对话策略的学习过程,本文提出了一种改进判别式深度Dyna-Q的任务对话策略学
13、习方法。本文的主要贡献有以下几点:Q(1)在直接强化学习阶段,本文采用噪声网络改进了智能体的探索方式,同时结合双流架构、双Q网络与n步自举法优化了 值的计算过程。(2)设计了一种基于软注意力机制的世界模型,通过提高模拟经验的质量,增强了对话策略学习的效率与鲁棒性。(3)与各基准模型相比,本文提出的模型取得较优结果。最后通过消融分析和鲁棒性分析证明了本文方法的有效性。1 改进判别式深度Dyna-Q的任务对话策略学习方法如图1所示,本文采用的对话系统框架包含6个模块。自然语言理解真实经验模拟经验鉴别器世界模型自然语言生成用户语义帧对话管理对话状态追踪状态表示对话策略学习系统动作(策略)图1本文采用
14、的对话系统框架Fig.1Illustrationofdialoguesystemframework(1)自然语言理解模块:采用文献14提出的基于双向RNN-LSTM模型,用于识别用户的意图以及提取相关的槽;(2)对话状态追踪模块:采用文献15提出的神经信念跟踪(NeuralBeliefTracking,NBT)框架,用于跟踪对话状态;(3)对话策略学习模块:采用本文提出的任务对话策略学习方法,根据当前的状态产生接下来的动作;(4)自然语言生成模块:采10广东工业大学学报第40卷用Wen等16提出的基于语义条件的长短期记忆(LongShort-TermMemory,LSTM)模型,用于将对话动作
15、转换成自然语言;(5)世界模型模块:采用基于软注意力的世界模型,用于模拟用户和提供奖励;(6)鉴别器模块:采用Su等10提出的基于循环神经网络的鉴别器,用于控制模拟经验的质量。图2(a)展示了本文提出的智能体模型结构,图2(b)展示了对话策略学习的步骤:(1)初始化:采用模仿学习和监督学习分别初始化策略模型和软注意力世界模型;(2)改进后的直接强化学习:首先收集智能体与用户交互所产生的真实经验,然后采用改进后的直接强化学习方法训练智能体;(3)世界模型学习:使用真实经验训练软注意力世界模型;(4)鉴别器学习:使用真实经验训练鉴别器,以鉴别出高质量的模拟经验;(5)控制规划:智能体使用高质量的模
16、拟经验改进对话策略。(a)智能体模型(b)对话策略学习步骤真实对话数据模仿学习监督学习世界模型学习策略模型执行动作控制规划鉴别器用户改进后的直接强化学习真实经验鉴别器学习软注意力世界模型优势V(价值函数)计算Q 值价值网络优势网络噪声线性层噪声线性层噪声线性层噪声线性层特征提取网络对话状态图2对话策略学习步骤及对话智能体的模型Fig.2Theprocessofdialoguepolicylearningandthemodelarchitecturesofthedialogagent 1.1 改进直接强化学习在该阶段,本文介绍改进后的直接强化学习方法。1.1.1噪声网络sQ在D3Q框架中,智能体
17、观察到当前的对话状态,根据贪婪策略选择动作:以的概率随机选择一个动作,以1的概率遵循贪婪策略选择 值最大的动作。然而贪婪策略依赖于启发式方法:需要在训练前期设定较高的值,促使智能体尽快探索到最优动作以提高探索效率。到了训练后期则逐步缩小值,以求取得最大化奖励。然而,智能体又因缺乏探索而导致局部最优的问题。为了解决探索与利用之间的矛盾,本文参考Fortunato等17提出的噪声网络(NoisyNet),通过在参数空间中添加噪声参数(该参数与智能体一同被训练),以参数学习的方式代替依赖于经验的启发式方法,改善了智能体探索方式,使智能体能够在不同的训练阶段实现探索与利用之间的平衡。pq考虑一个输入维
18、度为、输出维度为 的神经网络线性层:y=wx+b(1)x Rpw Rqpb Rq式中:为线性层的输入,为权重矩阵,为偏置。w+wwb+bbwb那么噪声线性层定义如下:用和代替式(1)中的权重矩阵 和偏置,得到式(2)。y=(w+ww)x+b+bb(2)w Rqp,b Rq,w Rqp,b Rqw Rqp,b Rqpiqj式中:为按元素乘法,均为可学习的参数;采用分解高斯噪声(FactorizedGaussiannoise)的方法生成,将个单位的高斯变量 作为噪声输入,个单位的高斯变量 作为噪声输出,如式(3)(4)所示。wi,j=f(i)f(j)(3)bj=f(j)(4)f=sgn(x)|x|
19、式中:。1.1.2竞争双流架构本文引入了Wang等18在竞争网络中提出的双第4期戴彬,等:改进判别式深度Dyna-Q的任务对话策略学习方法11|A|A|A|Q流架构,旨在提高智能体的训练效率。具体来说,双流架构的底层网络与DQN相同,均使用线性层提取特征,但双流架构在网络顶层处分离出2个流:一个流负责输出状态价值,另一个流负责输出具有维大小的优势函数(为动作集的大小),最后合并两者输出 值。AsaAA如式(5)所示,优势函数 体现了智能体处在状态 下执行动作 所产生的影响:若 值为正,表明执行该动作能够带来正面影响,是优于平均水平的选择;若 值为负则相反。A(s,a)=Q(s,a)V(s)(5
20、)Q(s,a)saV(s)s式中:为状态动作价值函数,代表在状态 下选择动作 所带来的价值,为价值函数,代表状态的价值。在定义了优势函数之后,动作价值函数如式(6)所示。Q(s,a;,)=V(s;,)+(A(s,a;,)1|A|aA(s,a;,)(6)a式中:为网络参数,和 为2个流各自的参数,为下一时间步的动作。1.1.3双Q网络QQQQD3Q框架采用原始DQN方法估计值,该方法使用同一个网络进行值的计算和动作的选取,从而易产生过度估计问题,即估计的值大于真实的值,并且估计的偏差随着动作集增大而增大,进而产生次优策略。QQaQ本文采用了文献19提出的双Q网络,利用原始方法中已有的2个网络 和
21、,在每次更新时一个网络负责根据策略生成动作,另一个网络用于计算其值,从而有效缓解了原始DQN所带来的过度估计问题。引入双Q网络后的时序差分目标(Temporal-DifferenceTarget,TD)如式(7)所示。YDDQN=r+Q(s,argmaxaQ(s,a;Q);Q)(7)r 0,1saQQQQ式中:为奖励,为折扣因子,为下一时间步的状态,为下一时间步的动作,为网络 的参数,为目标网络的参数。1.1.4n步自举法原始的DQN方法采用单步更新方法,即仅根据下一时间步的即时收益和状态估计值进行自举更新。受Sutton等20的启发,本文采用n步自举法改进单步Q学习,通过调节参数n解决强化学
22、习中偏差与方差的取舍问题。本文将n步自举法与双Q网络相结合得到n步DDQN的TD,如式(8)所示。YnDDQN=R(n)t+(n)tQ(st+n,argmaxaQ(st+n,a;Q);Q)(8)tst+nt+nR(n)tt+nR(n)t=n1k=0(k)tRt+k+1式中:为时间步,为个时间步的状态,为 后 续个 时 间 步 累 积 的 折 扣 奖 励,。最后给出直接强化学习的损失函数,如式(9)所示。L(Q)=EE(s,a,r,s)BuR(n)t+(n)tmaxaQ(st+n,a(st+n),;Q)Q(s,a,;Q)2(9)a(st+n)=argmaxaAQ(st+n,a,;Q)式中:。1.
23、2 世界模型学习Wang等18认为,在大多数状态下不同动作的选择并不会对最终的结果产生至关重要的影响,而某些状态却直接关系到任务的成功与否。考虑到单层感知器的学习能力存在不足,受文献21的启发,本文设计了一种基于软注意力机制的世界模型,使其聚焦于关键特征的提取,避免受到不重要信息的影响,从而提升世界模型的性能和学习效率。Ms基于软注意力机制的世界模型如图3所示,每次对话时,世界模型将当前的对话状态 以及上一个特定任务网络层用户回复 奖励 中止信号相加运算与最大池化运算注意力层系统动作aoo1ot1a1rz对话状态shShA模拟经验世界模型鉴别器真实经验Bhigh(s,a,r,s)Bsim(s,
24、a,r,s)0:低质量1:高质量对话上下文输入层输出层LSTM图3世界模型及鉴别器的模型结构Fig.3Themodelarchitecturesoftheworldmodelandthediscriminator12广东工业大学学报第40卷aorzozr系统动作(用独热向量表示)作为输入,输出模拟的用户回应、奖励 和二元变量(用于标识对话是否结束)。其中,输出用户回应 和二元变量 为分类任务,生成奖励 为回归任务。sahShA具体来讲,首先将对话状态 和动作 输入一个注意力层(AttentionLayer),得到各自的编码信息向量和,如式(10)(11)所示。hS=sigmoid(f1(s)t
25、anh(f2(s)(10)hA=sigmoid(f1(a)tanh(f2(a)(11)f()hShAMaxpoolingh式中:为多层感知机,为按元素乘法。前者为软注意力权重,后者为非线性特征变换。接着对2个编码信息和进行加权平均,再对二者施加最大池化函数以提取关键信息。最后将加权平均后的编码信息与经过最大池化函数的编码信息相加,得到最终的融合信息向量,如式(12)所示。h=1|V|VS,AhV+Maxpooling(hS,hA)(12)horz最后,将融合信息向量 作为多任务深度神经网络(见图3左侧部分)的输入,如式(13)(15)所示,分别输出用户回应、奖励 和二元变量。r=Wrh+br(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 判别式 深度 Dyna 任务 对话 策略 学习方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。