一种改进的近端策略优化算法_费正顺.pdf
《一种改进的近端策略优化算法_费正顺.pdf》由会员分享,可在线阅读,更多相关《一种改进的近端策略优化算法_费正顺.pdf(7页珍藏版)》请在咨信网上搜索。
1、浙江科技学院学报,第 卷第期,年月 ,:收稿日期:基金项目:浙江省重点研发计划项目();浙江省自然科学基金项目();浙江省教育厅科研项目();浙江科技学院研究生科研创新基金项目()通信作者:项新建(),男,浙江省永康人,教授,硕士,主要从事人工智能、机器人技术研究。:。一种改进的近端策略优化算法费正顺,王焰平,龚海波,项新建,郭峻豪(浙江科技学院 自动化与电气工程学院,杭州 )摘要:近端策略优化(,)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对 算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的
2、算法。【方法】首先提出一种新损失函数来更新 算法中的网络参数,采用泛化优势估计(,)对优势函数进行描述;然后采用类似异步优势演员 评论家(,)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的 算法至少快倍。【结论】改进的 算法其性能更好,这为后续强化学习算法的研究提供了新思路。关键词:强化学习;近端策略优化;泛化优势估计;多线程中图分类号:文献标志码:文章编号:(),(,):(),();,();,;,:;强化学习属于机器学习的一种类型,根据动物心
3、理学的相关原理模仿人类和动物学习的试错机制,它是一种通过与环境相互作用来学习从状态到行为的映射关系,从而使累积预期收益最大化的方法。目前它已经在很多领域得到运用,如工业制造、机器人系统、机器人控制、自动驾驶等。近些年来,随着强化学习研究的不断深入,许多相关算法也涌现出来。其中比较有代表性的是深度学习网络算法(,),它将神经网络运用于强化学习,能够有效地避免因过多的行为状态对信息造成的计算机内存不足。算法主要是通过价值(或奖惩值)来选择行为。有研究者提出策略梯度(,)算法,即直接通过状态来输出动作或动作的概率,由于其遵循的是梯度法,会向着优化策略的方向进行更新,因此具有很好的收敛性,但缺点是在使
4、用梯度法对目标函数进行求解时,容易收敛到局部最小值。在演员 评论家(,)算法中,是基于概率来选择行为,用于评判 的行为得分,然后 又会根据 的评分修改行为的概率。这样就可以解决策略梯度算法在回合更新时效率低的问题,但存在难收敛的问题。为此深度确定性梯度(,)算法被提出,但它只在连续动作区间上输出一个动作值。为了解决 算法难以收敛及加快其训练速度,异步优势演员 评论家(,)算法将 算法放到多线程中进行同步训练。而置信域策略优化(,)算法的出现解决了 算法在平衡模型的方差和偏差时存在波动的问题,能够确保策略模型在优化时单调提升。随后在 的算法框架基础上,深度思考()公司提出了近端策略优化(,)算法
5、。算法的提出解决了之前强化学习算法表现出的不足,比如传统的策略梯度方法数据利用效率低和鲁棒性差,信任区域策略优化()算法相对复杂。其主要优势体现在:易于部署且迭代过程中其方差较小,使用方便,训练起来也比较稳健。算法是一种用来解决策略梯度不好确定学习率(或者训练步长)问题的策略。在优化学习过程中如果训练步长过大,学出来的策略会难以收敛,但如果训练步长太小,则完成训练耗费的时间又会过长。算法利用新旧策略的比例来限制新策略的更新范围,使得策略梯度对过大的训练步长不太敏感。对此 公司在人工智能研究()公司发表的 算法基础上提出了新的 算法,其中单线程的 算法与 公司的 算法在更新 网络参数,及 网络参
6、数的方式上不同。在此基础上,公司又提出分布式 算法(,),采用多线程来加快智能体的训练效率。一般的 算法在学习效率和收敛性上表现得不够理想,为此本研究提出一种改进的 算法:首先将泛化优势估计(,)作为优势函数来估计优势;然后参考文献 在 网络结构中选取网络参数的损失函数,参考文献 在参数的更新过程中选取对相对熵(,)散度项的限制,以此来更新参数,再参考文献 在 网络结构中选取网络参数的损失函数;最后提出一种新的主副网络参数更新方式。为验证算法的效果,我们在 模块的经典控制环境及复杂的 环境中进行了仿真试验。强化学习介绍 强化学习模型强化学习是一个马尔科夫决策过程,此过程可用一个五元组 构成:,
7、。其中:为环浙江科技学院学报第 卷境的状态集,状态是智能体对环境的感知;为智能体的动作集,是智能体在当前的强化学习任务中选择图强化学习的过程 的动作范围;为状态转移概率,指智能体采取某一个动作后从当前状态到下一个状态的概率;为奖励机制,指智能体在当前状态下采取某一个动作后,环境反馈给智能体的奖励;为衰减系数(或折扣因子),用于计算当前状态的累计回报。强化学习是智能体与环境相互作用的过程。首先,智能体观测自己的当前状态,然后根据观测结果做出决策并采取相应的行为。一方面,该行为与环境相互作用,环境会对智能体的行为进行奖励;另一方面,该行为使得智能体从当前状态进入下一个状态。如此循环往复,直至结束循
8、环,强化学习的过程 如图所示。值函数在强化学习过程中,状态到行为的映射关系可称之为策略,指在各个状态下智能体所采取的行为或行为概率。值函数是强化学习算法中最基础的评价指标,这个指标反映算法的优劣,它是智能体在给定的状态和最优策略下采取某个动作或行为时的优劣程度。值函数 主要分两种:一种为状态值函数(),是从状态开始,按照某种策略行为产生的长期回报期望;另一种为状态动作值函数(,),是在状态和策略下,采取动作,按照某种策略行为产生的长期回报期望。改进的 算法构造 优势函数的选取优势函数指智能体在状态下,采取动作时,其相应动作下产生的平均优势,从数量关系来看,就是随机变量相对均值的偏差,是将状态行
9、为值函数归一化到值函数的基线上。这样有助于提高智能体学习的效率,减小方差及避免方差过大带来的过拟合。本研究采取了 作为优势函数的估计方式,其作用是能够平衡偏差和误差给价值函数及回报带来的影响。优势函数的表达式如下:()()();()()()。()式()()中:为时序差分误差,是每一时刻的现实值与估计值之间的差距;为超参数,用于调节方差与偏差之间的平衡,当时,就是计算时序差分误差;当时,就变成了蒙特卡罗 目标值和价值估计之间的差。目标函数的选取本研究选取变量来控制约束项和目标项之间的权重关系,将 散度作为目标函数的惩罚项,其目标函数也称为 网络的损失函数,表达式如下:()()(),()。()式(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 改进 策略 优化 算法 费正顺
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。