示教知识辅助的无人机强化学习控制算法.pdf
《示教知识辅助的无人机强化学习控制算法.pdf》由会员分享,可在线阅读,更多相关《示教知识辅助的无人机强化学习控制算法.pdf(10页珍藏版)》请在咨信网上搜索。
1、http:/DOI:10.13700/j.bh.1001-5965.2021.0466示教知识辅助的无人机强化学习控制算法孙丹1,2,高东1,2,*,郑建华1,2,韩鹏1(1.中国科学院国家空间科学中心,北京100190;2.中国科学院大学,北京100049)摘要:针对强化学习(RL)应用于无人机自主控制中学习效率低的问题,结合示教学习利用专家经验对其进行改进,提出基于示教知识辅助的无人机 RL 控制算法。通过设立示教目标函数、修正值函数,将专家经验作为监督信号引入到策略更新中,实现专家经验对基于 RL 的无人机自主控制系统优化过程的引导,同时,设置专家经验样本缓存库,利用经验优先回放机制赋予
2、经验样本不同的利用率,提高数据的使用效率。仿真结果表明:与普通的无人机 RL 控制器相比,所提算法能够在训练初期快速获得奖励值,整个学习过程中获得的奖励值更高,学习到的控制策略的响应速度更快、准确性更高。示教知识的加入有效引导了算法的学习,提高了无人机自主控制系统的学习效率,同时,能够提高算法的性能,有利于学习到更好的控制策略。此外,示教知识的加入扩大了经验数据的种类,有利于促进算法的稳定性,使无人机自主控制系统对奖励函数的设置具有鲁棒性。关键词:强化学习;专家示教;无人机;自主控制;学习系统中图分类号:V249.12文献标志码:A文章编号:1001-5965(2023)06-1424-10无
3、人机成本低、灵活性强,得到了广泛的应用与研究,随着人工智能技术的发展,智能飞行技术成为当前无人机研究的热点1。强化学习(reinforcementlearning,RL)能够在被控对象模型未知的情况下,自主学习控制策略,是实现无人机智能自主化的有效途径。Faust 等2利用 RL 搭建无人机运动规划框架,使带可变负载的无人机实现了稳定的轨迹控制。Zhang 等3提出基于几何的 Q 学习算法,将距离信息融入到学习中,减少了无人机到达目标所需的时间。Koch 等4利用 RL 构建智能姿态控制系统,该控制系统的精度和性能均优于传统比例积分微分(PID)控制器。Hwangbo 等5将神经网络和 RL
4、相结合,控制无人机完成复杂任务。Pham 等6提出基于函数近似的 RL 框架,实现了无人机在未知环境中的导航和路径规划。Wang 等7提出了一种基于 RL 的两阶段运动规划方法,能够在环境高度不确定和有噪声的情况下实现多无人机的避撞。Zeng 等8利用深度 RL 进行轨迹优化,实现无人机在空中的三维通信覆盖。Ebrahimi 等9利用 RL 进行导航,在最短时间和路径内提高对多个地面对象的定位精度。但是 RL 需要多次“试错”,学习效率低10,而且,如果无人机在训练过程中多次进行错误尝试,会对系统的安全性造成影响,容易导致严重后果。为了提高学习算法的效率,文献 11-12 将人类监督行为加入到
5、 RL 中,但是人类的参与会消耗过多的时间;GoogleBrain 通过离线策略经验进行高、低层次的训练,从而提高分层 RL 的效率13。文献14 通过并行的方式来解决数据利用低的问题,但是在实际环境中,该方法成本高、实用性低。示教学习是一类从导师示范中进行学习的算法,具有学习效率高、算法提升快的优势,但是,单纯的示教学收稿日期:2021-08-16;录用日期:2021-11-14;网络出版时间:2021-11-3015:41网络出版地址: J.北京航空航天大学学报,2023,49(6):1424-1433.SUN D,GAO D,ZHENG J H,et al.UAV reinforceme
6、nt learning control algorithm with demonstrationsJ.Journal of Beijing Universityof Aeronautics and Astronautics,2023,49(6):1424-1433(in Chinese).2023年6月北京航空航天大学学报June2023第49卷第6期JournalofBeijingUniversityofAeronauticsandAstronauticsVol.49No.6习存在优质数据获取代价高、数据不准确导致次优解的缺点15。借鉴示教学习的思想,本文提出了示教知识辅助的无人机 RL 控
7、制算法,利用示教学习的优势提高 RL 自主控制算法前期学习的效率,有利于 RL 生成控制效果更好的控制策略。1强化学习模型(S,A,Psa(),R,)SAPsa()s Sa AR 0,1tst Sat Ar(si,ai)RPsa()st+1st+1stRL 问题可以建模成马尔可夫决策过程(markovdecision process,MDP),MDP 用 元 组描述,其中:为可能的状态空间,为可能的动作空间,表示在状态时采取动作后的状态转移分布,为回报函数,为折扣因子,用来计算累积回报。需要进行学习的个体被称为智能体(agent),在时刻,agent从环境中观测状态,然后根据策略 得到需要采取
8、的行为,该 行 为 作 用 于 环 境 后 得 到 奖 励 信 号,同时根据得到下个时刻的状态,状态得到更新。MDP 中的状态转移需要满足马尔可夫性,即系统下一个时刻的状态仅与当前时刻状态有关,与之前时刻的状态无关。将状态的回报定义为未来奖励的折扣和,表达式为Gt=Ti=t(it)r(si,ai)(1)J该回报值与策略产生的动作有关。定义目标函数 为 agent 采取策略 时回报的期望值,表达式为J()=EsiD,aiG1(2)Dsi DsiDai ai式中:E 为期望;为数据集;为状态 从数据集 中取得;为策略 产生动作。RL 的目标是学习到一个最优策略,使得式(2)表示的目标函数值最大16
9、。V(st)Q(st,at)ststatRL 中常用到状态值函数和状态动作值函数,其中状态值函数表示在状态 处的期望回报,状态动作值函数表示在状态 采取动作后的期望回报,具体为V(st)=EsitD,aitGt|st(3)Q(st,at)=EsitD,aitGt|st,at(4)两者的关系为V(st)=atA(at|st)Q(st,at)(5)状态值函数和状态动作值函数的数值与策略有关,因为策略 决定了累积回报的状态分布。状态动作值函数通常通过贝尔曼公式进行迭代求解,表达式为Q(st,at)=EstDr(st,at)+Eat+1Q(st+1,at+1)(6)如果目标策略是确定的,该策略能够用函
10、数表示出来,那么在利用式(6)迭代求解 Q 值函数时,可以避免求解式(6)等号右侧的第 2 个期望。RL 在求解最优策略的过程中,需要探索不同的状态,同时得到每个状态对应的值函数,整个过程需要充分地探索整个状态空间。如果环境复杂,状态空间大,充足的探索和迭代试错需要耗费大量时间,导致 RL 效率低;此外,RL 的更新依赖奖励值,但是奖励函数是人为设计的,奖励函数设计的好坏也会影响 RL 最终的学习效果。2示教知识辅助的强化学习控制算法2.1示教目标函数EDE专家策略用表示,该策略产生的专家数据存放在专家数据集中,数据分布符合:DE(si,ai)Ni=1i.i.d.E(s,a)(7)E(s,a)
11、EDE式中:为专家策略产生的数据的非归一化分布;i.i.d.表示专家数据集中的数据是独立同分布的。为了能够在 RL 训练过程中直接利用专家数据进行引导,设计策略学习的示教目标函数为J()=EsiD,aiTt=0t(r(st,at)+IstDE(M|atE(st)|2)(8)IstDEst DEst DEMM|atE(st)|2 0式中:为指示函数,当满足时,该函数取值为 1,当不满足时,该函数取值为 0;为正常数,在保证的基础上取值尽可能小。ststQ(s,a)式(8)等号右边中括号内第 1 项为原始 RL的策略目标函数、第 2 项用于引导待学习的策略靠近专家策略。如果状态 不在专家数据集中,
12、式(8)等号右边中括号内的第 2 项为零,策略会按照原始的 RL 算法进行更新;如果状态 存在于专家数据集中,式(8)等号右边中括号内的第 2 项为正值,促进当前策略学习专家策略。而且,当前策略给出的动作与专家策略给出的动作差别越小,式(8)等号右边中括号内第 2 项的值越大。但是,式(8)的设置假定了专家经验为最优,限制了策略网络的进一步优化,特别是在训练后期,限制效果更明显。为了避免该问题,利用状态动作值函数来决定专家动作是否值得学习,如果专家动作的 Q 值大于策略给出的动作 Q 值,则加入示教知识的引导,因此第6期孙丹,等:示教知识辅助的无人机强化学习控制算法1425策略的示教目标函数修
13、正为J()=EsiD,aiTt=0tr(st,at)+Tt=0tI(M|atE(st)|2)(9)I=IstDEIQ(st,E(st)Q(st,at)式中:。eV(s)同样,为了鼓励与专家策略相似的动作输出,设置示教值函数和示教 Q 值函数分别为eV(s)=ETt=0t(r(st,at)+I(M|atE(st)|2)|s0=s)(10)eQ(s,a)=ETt=0tr(st,at)+Tt=1tI(M|atE(st)|2)|s0=s,a0=a(11)=(s0,a0,sT)式中:为轨迹。与 RL 中 Q 函数的更新一样,示教 Q 值函数也可以通过贝尔曼公式迭代求解,具体为eQ(st,at)=r(st
14、,at)+Est+1p(|st,at)eV(st+1)(12)式中:eV(st+1)=Eat+1(|st+1)eQ(st+1,at+1)+I(M|at+1E(st+1)|2)这样设置使策略的更新分为 2 部分,一部分用于最大化奖励值,另一部分直接利用专家数据提供的监督信号,加快策略学习的速度。2.2优先经验回放DDEDDE在本文算法的训练过程中,建立 2 个样本缓存区 和,其中,用于存放当前策略与环境交互得到的经验数据,用于存放专家经验。为了防止过拟合,存放到缓存区的数据需要进行正则化处理。训练数据的质量对 RL 有重要影响,不同样本对学习过程中反向传播的作用不一样,时间差分(temporal
15、-difference,TD)误差越大,作用越大。因此,本文算法借鉴优先回放机制17-18,在训练学习时,根据样本的表现情况给出不同的权重,样本被采样的概率跟该权重有关,从而让学习效率高的样本有更大的概率被用于控制算法的训练。一般采用 TD 误差来衡量样本数据的质量,但是如果只用TD 误差来进行衡量,会损失数据多样性,特别在学习初期,TD 误差高的数据会被频繁利用,容易导致过拟合。因此,本文引入随机采样方法,结合纯贪婪优先采样和均匀随机采样,这样既能保证采样概率的单一性,又能保证低优先值数据的采样概率非ipi零。定义样本 的优先级为pi=2i+|aQ(si,ai)|2+D(13)iiDP(i)
16、式中:为样本 的 TD 误差;等号右边的第 2 项为策略网络的损失;为一个数值很小的正常数,用于保证所有样本都有一定的概率被采集到;为正常数,用于增加专家经验样本被采集到的概率;为权重系数。样本的采样概率与其优先级成正比,计算式为P(i)=pikpk(14)wi采用优先回放机制进行采样时,动作值函数的估计为有偏估计,因为采样分布与动作值函数的分布不同,利用重要性采样更正此偏差,通过重要性采样系数对网络更新进行加权,表达式为wi=(1N1P(i)(15)N式中:为数据的个数;为自定义系数。此外,优先经验回放机制还可以对专家经验数据、通过环境交互得到的经验数据进行优先排序,从而控制两者之间的数据比
17、例。这样设置不仅能够促进本文算法的稳定性,还能提高优秀经验的利用率,从而提高训练的性能。2.3示教知识辅助Q(s,a)(s)N(s)NQN(s,a)N为了应对无人机连续的状态动作空间,本文算法利用神经网络近似 Q 值函数和策略,并采用策略-评价(Actor-Critic)框架进行学习更新。Actor 网络用于表示策略网络,神经网络参数由表示,该网络负责输出控制指令,Critic 网络为评价网络,用于近似动作值函数,网络参数为。Critic 网络通过最小化 Q 值函数的代价函数进行优化,具体为JQ(N)=Es,aD12(QN(s,a)QN(s,a)2(16)式中:QN(s,a)=r(s,a)+Q
18、N(s,N(s)(17)ssQN(s,a)N(s)QN(s,a)式中:为状态 之后的下个状态;为评价网络更新时的目标值,如果计算该目标值用到的网络参数与计算当前 Q 函数更新所用的参数相同,会导致数据之间的关联性,从而使训练不稳定,可能导致 Q 值发散19。为了解决该问题,建立独立的网络和用于计算目标值,那么式(17)可变为1426北 京 航 空 航 天 大 学 学 报2023年QN(s,a)=r(s,a)+QN(s,N(s)(18)新建的目标网络参数由原始的策略、评价网络参数计算得到:N N+(1)NN N+(1)N(19)1式中:系数。本文算法的结构如图 1 所示,其中策略网络的输入是无人
19、机当前的状态,输出控制指令,评价网络的输入是当前状态和策略网络输出的控制指令,输出是对当前状态动作的评价,而目标网络负责处理下一个时刻的状态和控制指令。状态s动作a下个时刻状态s状态s动作a下个时刻状态s下个时刻动作a下个时刻动作a策略网络N(s)目标策略网络N(s)评价网络QN(s,a)目标评价网络QN(s,a)动作值函数QN(s,a)动作值函数QN(s,a)图1示教知识辅助的无人机强化学习控制算法结构Fig.1StructureofUAVRLcontrolalgorithmwithdemonstrationsN(s)策略网络的参数可以通过最大化式(9)来更新,即J(N)=EsD,aN(|s
20、)QN(s,a)+I(M|atE(st)|2)(20)N(s)由于策略是确定性策略,不具有探索性,所以需要额外设置探索策略,本文采用的探索策略是在策略网络输出的动作中添加噪声,具体为a=N(s)+dN(21)dN式中:为噪声,采用自适应参数噪声20,该噪声的方差可以根据效果自适应调整。综上,将本文算法的训练学习过程总结为算法 1,为了保证算法的收敛性,学习过程中评价网络的更新要比策略网络快。算算法法 1示教知识辅助的无人机强化学习控制算法QN(s,a)N(s)NN1.随机初始化评价网络和策略网络及其参数和NNN NN N2.初始化对应的目标网络和:,DDE3.初始化样本缓存区 和=0.7,=0
21、.5K4.设置参数,采样个数5.forepisode=1,Max_episodedos16.初始化观测状态7.fort=1,Tdoat=N(st)8.由策略网络和探索噪声得到控制输出:+dNatrtst+19.将 施加到被控对象中,得到奖励 和新状态(st,at,rt,st+1)D10.将状态转换存储到 中11.forj=1,KdoDDE12.根据式(13)和式(14)在 和中采样13.根据式(15)计算重要性采样系数QN(st,at)14.根据式(18)计算得到目标值15.endfor16.计算损失函数:JQ(N)=1Kiwi(QN(si,ai)QN(si,ai)2JQ(N)17.通过最小化
22、更新评价函数18.通过最大化式(20)更新策略网络19.更新目标网络的参数:N N(1)N,N N+(1)N+20.endfor21.endfor3仿真校验为了验证本文算法的效果,搭建四旋翼仿真模拟环境,训练并测试该算法的性能,同时在相同条件下训练基于深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法19的普通 RL 控制器作为对比。1、2、3、4四旋翼模拟器中采用的四旋翼结构如图 2 所示,其中(xE,yE,zE)为地球固连坐标系,(xB,yB,zB)为机体坐标系,为 4 个螺旋桨的转速。该模拟器采用简化的四旋翼动力学模型21:x=f(coss
23、incos+sinsin)/mK1 x/m y=f(sinsincoscossin)/mK2 y/mz=f(coscos)/mgK3z/m =(JyJz)/Jx+x/JxdK4/Jx=(JzJx)/Jy+y/JydK5/Jy=(JxJy)/Jz+z/JzK6/Jzx,y,zT x,y,zT,TJx、Jy、Jzx、y、zfx,y,zT式中:为四旋翼无人机质心在地球固连坐标系下的位置;为速度;为四旋翼绕机体坐标系的 3 个轴旋转的欧拉角,用于描述四旋翼姿 态,为 滚 转 角,为 俯 仰 角,为 偏 航 角;分别为四旋翼相对于本体系的这3 个轴的转动惯量;和分别为总拉力和力矩。螺旋桨转速与总拉力、力
24、矩之间的关系为第6期孙丹,等:示教知识辅助的无人机强化学习控制算法1427f=cT(21+22+23+24)x=dcT(222122222223+2224)y=dcT(22212222+2223+2224)z=cM(21+2223+24)其中:螺旋桨转速限制在 0800rad/s,其他参数的含义及数值设定如表 1 所示。该模拟器的控制信号为 4 个螺旋桨的转速。OmgzBxByB4123xEyEzEO图2四旋翼模拟器结构Fig.2Structureofquadrotorsimulator表1四旋翼模拟器模型参数Table1Parametersofquadrotorsimulatormodel参
25、数数值m质量/kg1.5d四旋翼半径/m0.225g重力加速度/(ms2)9.8Jx转动惯量/(kgm2)0.01745Jy转动惯量/(kgm2)0.01745Jz转动惯量/(kgm2)0.03175K1阻力系数/(Nsm1)0.01K2阻力系数/(Nsm1)0.01K3阻力系数/(Nsm1)0.01K4阻力系数/(Nsm1)0.04K5阻力系数/(Nsm1)0.04K6阻力系数/(Nsm1)0.04cT单桨综合拉力系数/(N(rads)2)1.105105cM单桨综合力矩系数/(Nm(rads)2)1.489107(st,at,rt,st+1)DEDE示教经验由调整好的 PID 控制器提供,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 辅助 无人机 强化 学习 控制 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。