基于DDPG的自主水下机器人角度控制研究_李凌霄.pdf
《基于DDPG的自主水下机器人角度控制研究_李凌霄.pdf》由会员分享,可在线阅读,更多相关《基于DDPG的自主水下机器人角度控制研究_李凌霄.pdf(6页珍藏版)》请在咨信网上搜索。
1、基金项目:国家自然科学基金青年科学基金项目(51807124);河北省自然科学基金青年基金项目(E2015210082)收稿日期:2021-06-30 修回日期:2021-08-07 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0422-05基于 DDPG 的自主水下机器人角度控制研究李凌霄,王伟明,贺佳飞,闻 程(石家庄铁道大学电气与电子工程学院,河北 石家庄 050043)摘要:针对自主水下机器人 AUV(Autonomous Underwater Vehicle)的水下角度控制问题,提出一种基于深度确定性策略梯度DDPG(
2、Deep Deterministic Policy Gradient)的水下控制方法,采用熵正则化的方式改进 DDPG 算法的训练效果。仿真结果表明,改进后的 DDPG 算法在水下角度的控制方面相较于未改进的 DDPG 算法具有更快速、更稳定的控制效果,可以有效的提高 AUV 的水下角度控制性能,同时也具有较强的鲁棒性。关键词:自主水下机器人;深度确定性策略梯度;角度控制;熵正则化中图分类号:TP183;文献标识码:BResearch on Angle Control of Autonomous UnderwaterRobot Based on DDPGLI Ling-xiao,WANG We
3、i-ming,HE Jia-fei,WEN Cheng(School of Electrical and Electronic Engineering,Shijiazhuang Tiedao University,Shijiazhuang Hebei 050043,China)ABSTRACT:Aiming at the underwater angle control problem of AUV(Autonomous Underwater Vehicle),an un-derwater control method based on DDPG(Deep Deterministic Poli
4、cy Gradient)is proposed.The entropy regulariza-tion method is used to improve the training effect of the DDPG algorithm.The simulation experiment results show thatthe improved DDPG algorithm has a faster and more stable control effect in the underwater angle control comparedwith the unimproved DDPG
5、algorithm,which can effectively improve the underwater angle control performance of theAUV,and it also has strong robustness.KEYWORDS:Autonomous underwater vehicle;Deep deterministic policy gradient;Angle control;Entropy regulariza-tion1 引言经典的控制理论在解决 AUV 这种复杂非线性模型时具有很多的局限性,比如传统的 PID 控制1,模糊控制2,滑模控制3,
6、在实际环境中通常会出现各种各样的问题,PID 控制虽然结构和实现较为简便,但是在不确定性和干扰性强的被控对象中,参数的整定和调试会限制 PID 控制在高级应用中的性能。模糊控制和滑模控制不需要建立复杂的系统模型,但是模糊控制的控制精确度会随着模糊处理的信息多少而降低,滑模控制的变量抖动幅度也相较于其它方法有着很明显的差距。这些控制方法都对在水下航行的 AUV 进行精确地角度控制带来了很大的困难,为了解决传统控制理论难以解决的难题,通过近些年来兴起的强化学习的控制方法可以有效地进行 AUV 的水下控制4。强化学习是机器学习的一种分支,标准的强化学习过程是马尔可夫决策5,假设整个过程的状态集合为
7、S,转化到到下一个时刻的状态 St+1仅仅和上一个状态 St有关,与之前的状态无关。由于在实际过程中会遇到各种各样的环境参数,应用传统的控制方法会陷入复杂的模型设计中,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数6,具有很强的环境适应性,非常适合水下非线性的 AUV 控制设计。文献7将神经网络融合到了 AUV 的水下动力定位跟踪,然而优化的整体程度还不够明显。文献8提出了一种DQN(Deep Q Network)的强化学习算法,这种算法将深度神经网络和 Q 学习相结合,通过学习当前的动作与记忆回放单224元中的经历,达到有效的神经网络参数更新,
8、但收敛得过于缓慢。文献9通过建立两个深度神经网络,Actor 网络用来输出动作的选择,Critic 网络则利用 Actor 网络输出的动作来进行 Q 值的评分,使得 AUV 在水下跟踪复杂的轨迹时可以保持良好的精度和稳定性,但是在复杂的非线性环境下表现欠佳,容易收到环境的干扰。文献10提出了深度确定性策略梯度(Deep Deterministic Policy Gradient)的强化学习算法,解决了在状态复杂的非线性环境中连续动作的控制要求,但在训练中其价值网络通常会将偏差高估,造成最后选择的策略无法达到最优。文献11将 DDPG 算法应用于 AUV 的水下路径跟踪控制,很好地改善了在跟踪参
9、考路径时的轨迹,但是训练的过程过于繁琐。本文的创新在于将熵正则化的网络输出方式引入到DDPG 的强化学习算法架构中,并将其应用到 AUV 的水下角度控制领域,通过 AUV 水下角度控制的训练可知,改进后得DDPG 算法相比于未改进前可以在更短得训练时间内达到收敛,避免了 Actor 网络的动作选择局部最优,同时更容易达到全局最优得控制效果。2 AUV 的运动数学模型图 1 为 AUV 的体坐标系,其中 ROLL 为翻滚角,PITCH为俯仰角,YAW 为偏航角,分别记为、。图 1 AUV 体坐标系示意图X、Y、Z 分别是沿 x、y、z 轴方向上运动所受到的力,具体的计算公式如下m?u-vr+wq
10、-xG(q2+r2)+yGpq-?r()+zGpr+?q()=Xm?v-wp+ur-yG(r2+p2)+zGqr-?p()+xGqp+?r()=Ym?w-uq+vp-zG(q2+p2)+xGrp-?q()+yGrq+?p()=Z|(1)K、M、N 分别是绕 x、y、z 轴进行旋转产生的力矩,具体的计算公式如下Ix?p+(Iz-Iy)qr+m yG?w-uq+vp()-zG?v-wp+ur()=KIy?q+(Ix-Iz)rp+m zG?u-vr+wq()-xG?w-uq+vp()=MIz?r+(Iy-Ix)pq+m xG?v-wp+ur()-yG?u-vr+qw()=N|(2)其中俯仰角的计算公
11、式为=cos q-sin r(3)力和力矩主要是由水下环境中的静水压力、浮力,阻力已经外加推力和控制力组成。其中,u、v、w 分别是 AUV 在 x、y、z 轴方向上运动时的线速度;p、q、r 分别是 AUV 绕 x、y、z 轴旋转的角速度。Ix、Iy和 Iz是车辆的惯性矩,xG、zG是 AUV 体系中 x 和 z 方向上的质心。由于在实际建造中 AUV 的俯仰角不可能达到完全垂直,因此添加一个-30,30 的角度限制。3 DDPG 算法的设计与改进3.1 DDPG 算法DDPG 算法以 DQN 算法的理论为依据,借助 Actor-Critic 的算法12框架实现了在连续状态下输出对应的策略,
12、同时采用 DPG 算法中确定性策略的方法13,将输出的动作由概率性变成确定性。图 2 为 DDPG 算法原理结构图。DDPG 算法设置了两种深度神经网络,分别是 Actor 和 Critic,每种网络又分为现实主网络与目标网络,各个网络的功能可概括如下14:主 Actor 网络:进行网络参数 Q的更新设置,以输入的状态 St为基础,选择出当前的最优动作 at,输出下一时刻的状态 St+1,奖励 R。目标 Actor 网络:根据记忆回放单元存放的采样数据选择最优下一动作 at+1。网络参数 Q定期从 Q更新。主 Critic 网络:更新网络参数,计算当前状态-动作价值 Q(St,at)。目标 C
13、ritic 网络:负责计算 Q(St+1,at+1)部分,用于生成目标 Q 值 Q=R+Q(St+1,at+1),网络参数 定期从 更新。图 2 DDPG 算法原理结构图3.2 奖励函数的设计AUV 的学习效能以及控制效率的关键在于奖励函数 R的设置,为此,设计奖励函数。R=-t-1+t-1()(4)其中 是一个常数,并且其数值大于零,t和 t为 t 时刻下AUV 的俯仰角和偏航角,1和 1是 t 时刻下预设的角度,通过选取合适的 可以优化奖励函数,提高 AUV 角度控制的324学习效率。在 AUV 的实际偏转角度等于预设的偏转角度时 R=,为常数,其数值与 有关。通过设立这步奖励函数来使得角
14、度达到预定值时,可以一直跟踪预设角度。因此奖励函数可以写为R=-t-1+t-1()|t-1|0.2t-1 0.2()|t-1|0.2t-1 0.2()(5)经过多次的仿真调试,在本设计中,取 60,取-40。3.3 网络结构设计以深度学习框架为基础设计 Actor 和 Critic 两种深度神经网络。由状态变量组成的状态矩阵 St作为现实 Actor 主网络的输入,Actor 网络的构架中使用三层隐藏层,第一层和第三层的节点数为 32 个,第二层的节点数为 16 个。将 Critic网络的构架进行改进,使用两层隐藏层,避免由于网络层数的过于复杂造成梯度计算的过大问题,其中每层的节点数都为 16
15、 个。使用全网络连接来作为神经网络中各个节点之间的连接方式,使用 tanh 函数来对输出层进行归一化处理,避免各个参数权值的不同导致结果的量级问题。图 3 为 Actor网络结构。图 4 为 Critic 网络结构。图 3 Actor 网络结构图 4 Critic 网络结构3.4 DDPG 算法的改进在 AUV 实际的学习控制当中,Actor 网络经常会选择那些概率比较大的动作作为自己的输出,因此动作输出的确定程度比较大,这就容易造成 AUV 不求上进,探索能力变弱,动作的可选择范围变窄,导致最终无法获取最优解。为了改善算法的 Actor 网络输出情况,本文采取熵正则化的方法使得 Actor
16、网络输出的动作具有较大的不确定性,增加可选择动作的多样性,避免局部优化,使得 AUV 可以探索到最佳的策略。熵正则化的方法主要是通过熵进行动作概率的表示,在n 个概率分布当中,熵值的计算公式如下Entropy(p)=-ni=1pilnpi(6)熵值大则概率分布均匀,动作随机性大,如图 5(左);熵值小则概率分布较为集中,动作随机性小,如图 5(右)。图 5 概率分布图Actor 网络输出的动作有不同的概率密度,动作的集合向量 A,其熵值可以被表示为H(s;)=-a(a|s;)ln(a|s;)(7)在进行 Actor 网络参数优化的同时,需要考虑到熵值的大小,因此将熵设置成代价函数的正则项,新的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 DDPG 自主 水下 机器人 角度 控制 研究 凌霄
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。