分销赏收藏举报申诉 / 10

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 示教知识辅助的无人机强化学习控制算法.pdf

示教知识辅助的无人机强化学习控制算法.pdf

上传人：自信****多点

文档编号：574515

上传时间：2024-01-02

格式：PDF

页数：10

大小：2.30MB

《示教知识辅助的无人机强化学习控制算法.pdf》由会员分享，可在线阅读，更多相关《示教知识辅助的无人机强化学习控制算法.pdf（10页珍藏版）》请在咨信网上搜索。

1、http:/DOI:10.13700/j.bh.1001-5965.2021.0466示教知识辅助的无人机强化学习控制算法孙丹1，2，高东1，2，*，郑建华1，2，韩鹏1(1.中国科学院国家空间科学中心，北京100190；2.中国科学院大学，北京100049)摘要：针对强化学习（RL）应用于无人机自主控制中学习效率低的问题，结合示教学习利用专家经验对其进行改进，提出基于示教知识辅助的无人机 RL 控制算法。通过设立示教目标函数、修正值函数，将专家经验作为监督信号引入到策略更新中，实现专家经验对基于 RL 的无人机自主控制系统优化过程的引导，同时，设置专家经验样本缓存库，利用经验优先回放机制赋予

2、经验样本不同的利用率，提高数据的使用效率。仿真结果表明：与普通的无人机 RL 控制器相比，所提算法能够在训练初期快速获得奖励值，整个学习过程中获得的奖励值更高，学习到的控制策略的响应速度更快、准确性更高。示教知识的加入有效引导了算法的学习，提高了无人机自主控制系统的学习效率，同时，能够提高算法的性能，有利于学习到更好的控制策略。此外，示教知识的加入扩大了经验数据的种类，有利于促进算法的稳定性，使无人机自主控制系统对奖励函数的设置具有鲁棒性。关键词：强化学习；专家示教；无人机；自主控制；学习系统中图分类号：V249.12文献标志码：A文章编号：1001-5965（2023）06-1424-10无

3、人机成本低、灵活性强，得到了广泛的应用与研究，随着人工智能技术的发展，智能飞行技术成为当前无人机研究的热点1。强化学习（reinforcementlearning,RL）能够在被控对象模型未知的情况下，自主学习控制策略，是实现无人机智能自主化的有效途径。Faust 等2利用 RL 搭建无人机运动规划框架，使带可变负载的无人机实现了稳定的轨迹控制。Zhang 等3提出基于几何的 Q 学习算法，将距离信息融入到学习中，减少了无人机到达目标所需的时间。Koch 等4利用 RL 构建智能姿态控制系统，该控制系统的精度和性能均优于传统比例积分微分（PID）控制器。Hwangbo 等5将神经网络和 RL

4、相结合，控制无人机完成复杂任务。Pham 等6提出基于函数近似的 RL 框架，实现了无人机在未知环境中的导航和路径规划。Wang 等7提出了一种基于 RL 的两阶段运动规划方法，能够在环境高度不确定和有噪声的情况下实现多无人机的避撞。Zeng 等8利用深度 RL 进行轨迹优化，实现无人机在空中的三维通信覆盖。Ebrahimi 等9利用 RL 进行导航，在最短时间和路径内提高对多个地面对象的定位精度。但是 RL 需要多次“试错”，学习效率低10，而且，如果无人机在训练过程中多次进行错误尝试，会对系统的安全性造成影响，容易导致严重后果。为了提高学习算法的效率，文献 11-12 将人类监督行为加入到

5、 RL 中，但是人类的参与会消耗过多的时间；GoogleBrain 通过离线策略经验进行高、低层次的训练，从而提高分层 RL 的效率13。文献14 通过并行的方式来解决数据利用低的问题，但是在实际环境中，该方法成本高、实用性低。示教学习是一类从导师示范中进行学习的算法，具有学习效率高、算法提升快的优势，但是，单纯的示教学收稿日期：2021-08-16；录用日期：2021-11-14；网络出版时间：2021-11-3015：41网络出版地址： J.北京航空航天大学学报，2023，49（6）：1424-1433.SUN D，GAO D，ZHENG J H，et al.UAV reinforceme

6、nt learning control algorithm with demonstrationsJ.Journal of Beijing Universityof Aeronautics and Astronautics，2023，49（6）：1424-1433（in Chinese）.2023年6月北京航空航天大学学报June2023第49卷第6期JournalofBeijingUniversityofAeronauticsandAstronauticsVol.49No.6习存在优质数据获取代价高、数据不准确导致次优解的缺点15。借鉴示教学习的思想，本文提出了示教知识辅助的无人机 RL 控

7、制算法，利用示教学习的优势提高 RL 自主控制算法前期学习的效率，有利于 RL 生成控制效果更好的控制策略。1强化学习模型(S,A,Psa(),R,)SAPsa()s Sa AR 0,1tst Sat Ar(si,ai)RPsa()st+1st+1stRL 问题可以建模成马尔可夫决策过程（markovdecision process,MDP），MDP 用元组描述，其中：为可能的状态空间，为可能的动作空间，表示在状态时采取动作后的状态转移分布，为回报函数，为折扣因子，用来计算累积回报。需要进行学习的个体被称为智能体（agent），在时刻，agent从环境中观测状态，然后根据策略得到需要采取

8、的行为，该行为作用于环境后得到奖励信号，同时根据得到下个时刻的状态，状态得到更新。MDP 中的状态转移需要满足马尔可夫性，即系统下一个时刻的状态仅与当前时刻状态有关，与之前时刻的状态无关。将状态的回报定义为未来奖励的折扣和，表达式为Gt=Ti=t(it)r(si,ai)（1）J该回报值与策略产生的动作有关。定义目标函数为 agent 采取策略时回报的期望值，表达式为J()=EsiD,aiG1（2）Dsi DsiDai ai式中：E 为期望；为数据集；为状态从数据集中取得；为策略产生动作。RL 的目标是学习到一个最优策略，使得式（2）表示的目标函数值最大16

9、。V(st)Q(st,at)ststatRL 中常用到状态值函数和状态动作值函数，其中状态值函数表示在状态处的期望回报，状态动作值函数表示在状态采取动作后的期望回报，具体为V(st)=EsitD,aitGt|st（3）Q(st,at)=EsitD,aitGt|st,at（4）两者的关系为V(st)=atA(at|st)Q(st,at)（5）状态值函数和状态动作值函数的数值与策略有关，因为策略决定了累积回报的状态分布。状态动作值函数通常通过贝尔曼公式进行迭代求解，表达式为Q(st,at)=EstDr(st,at)+Eat+1Q(st+1,at+1)（6）如果目标策略是确定的，该策略能够用函

10、数表示出来，那么在利用式（6）迭代求解 Q 值函数时，可以避免求解式（6）等号右侧的第 2 个期望。RL 在求解最优策略的过程中，需要探索不同的状态，同时得到每个状态对应的值函数，整个过程需要充分地探索整个状态空间。如果环境复杂，状态空间大，充足的探索和迭代试错需要耗费大量时间，导致 RL 效率低；此外，RL 的更新依赖奖励值，但是奖励函数是人为设计的，奖励函数设计的好坏也会影响 RL 最终的学习效果。2示教知识辅助的强化学习控制算法2.1示教目标函数EDE专家策略用表示，该策略产生的专家数据存放在专家数据集中，数据分布符合：DE(si,ai)Ni=1i.i.d.E(s,a)（7）E(s,a)

11、EDE式中：为专家策略产生的数据的非归一化分布；i.i.d.表示专家数据集中的数据是独立同分布的。为了能够在 RL 训练过程中直接利用专家数据进行引导，设计策略学习的示教目标函数为J()=EsiD,aiTt=0t(r(st,at)+IstDE(M|atE(st)|2)（8）IstDEst DEst DEMM|atE(st)|2 0式中：为指示函数，当满足时，该函数取值为 1，当不满足时，该函数取值为 0；为正常数，在保证的基础上取值尽可能小。ststQ(s,a)式（8）等号右边中括号内第 1 项为原始 RL的策略目标函数、第 2 项用于引导待学习的策略靠近专家策略。如果状态不在专家数据集中，

12、式（8）等号右边中括号内的第 2 项为零，策略会按照原始的 RL 算法进行更新；如果状态存在于专家数据集中，式（8）等号右边中括号内的第 2 项为正值，促进当前策略学习专家策略。而且，当前策略给出的动作与专家策略给出的动作差别越小，式（8）等号右边中括号内第 2 项的值越大。但是，式（8）的设置假定了专家经验为最优，限制了策略网络的进一步优化，特别是在训练后期，限制效果更明显。为了避免该问题，利用状态动作值函数来决定专家动作是否值得学习，如果专家动作的 Q 值大于策略给出的动作 Q 值，则加入示教知识的引导，因此第6期孙丹，等：示教知识辅助的无人机强化学习控制算法1425策略的示教目标函数修

14、,at)+Est+1p(|st,at)eV(st+1)（12）式中:eV(st+1)=Eat+1(|st+1)eQ(st+1,at+1)+I(M|at+1E(st+1)|2)这样设置使策略的更新分为 2 部分，一部分用于最大化奖励值，另一部分直接利用专家数据提供的监督信号，加快策略学习的速度。2.2优先经验回放DDEDDE在本文算法的训练过程中，建立 2 个样本缓存区和，其中，用于存放当前策略与环境交互得到的经验数据，用于存放专家经验。为了防止过拟合，存放到缓存区的数据需要进行正则化处理。训练数据的质量对 RL 有重要影响，不同样本对学习过程中反向传播的作用不一样，时间差分（temporal

15、-difference,TD）误差越大，作用越大。因此，本文算法借鉴优先回放机制17-18，在训练学习时，根据样本的表现情况给出不同的权重，样本被采样的概率跟该权重有关，从而让学习效率高的样本有更大的概率被用于控制算法的训练。一般采用 TD 误差来衡量样本数据的质量，但是如果只用TD 误差来进行衡量，会损失数据多样性，特别在学习初期，TD 误差高的数据会被频繁利用，容易导致过拟合。因此，本文引入随机采样方法，结合纯贪婪优先采样和均匀随机采样，这样既能保证采样概率的单一性，又能保证低优先值数据的采样概率非ipi零。定义样本的优先级为pi=2i+|aQ(si,ai)|2+D（13）iiDP(i)

16、式中：为样本的 TD 误差；等号右边的第 2 项为策略网络的损失；为一个数值很小的正常数，用于保证所有样本都有一定的概率被采集到；为正常数，用于增加专家经验样本被采集到的概率；为权重系数。样本的采样概率与其优先级成正比，计算式为P(i)=pikpk（14）wi采用优先回放机制进行采样时，动作值函数的估计为有偏估计，因为采样分布与动作值函数的分布不同，利用重要性采样更正此偏差，通过重要性采样系数对网络更新进行加权，表达式为wi=(1N1P(i)（15）N式中：为数据的个数；为自定义系数。此外，优先经验回放机制还可以对专家经验数据、通过环境交互得到的经验数据进行优先排序，从而控制两者之间的数据比

17、例。这样设置不仅能够促进本文算法的稳定性，还能提高优秀经验的利用率，从而提高训练的性能。2.3示教知识辅助Q(s,a)(s)N(s)NQN(s,a)N为了应对无人机连续的状态动作空间，本文算法利用神经网络近似 Q 值函数和策略，并采用策略-评价（Actor-Critic）框架进行学习更新。Actor 网络用于表示策略网络，神经网络参数由表示，该网络负责输出控制指令，Critic 网络为评价网络，用于近似动作值函数，网络参数为。Critic 网络通过最小化 Q 值函数的代价函数进行优化，具体为JQ(N)=Es,aD12(QN(s,a)QN(s,a)2（16）式中：QN(s,a)=r(s,a)+Q

18、N(s,N(s)（17）ssQN(s,a)N(s)QN(s,a)式中：为状态之后的下个状态；为评价网络更新时的目标值，如果计算该目标值用到的网络参数与计算当前 Q 函数更新所用的参数相同，会导致数据之间的关联性，从而使训练不稳定，可能导致 Q 值发散19。为了解决该问题，建立独立的网络和用于计算目标值，那么式（17）可变为1426北京航空航天大学学报2023年QN(s,a)=r(s,a)+QN(s,N(s)（18）新建的目标网络参数由原始的策略、评价网络参数计算得到：N N+(1)NN N+(1)N（19）1式中：系数。本文算法的结构如图 1 所示，其中策略网络的输入是无人

19、机当前的状态，输出控制指令，评价网络的输入是当前状态和策略网络输出的控制指令，输出是对当前状态动作的评价，而目标网络负责处理下一个时刻的状态和控制指令。状态s动作a下个时刻状态s状态s动作a下个时刻状态s下个时刻动作a下个时刻动作a策略网络N(s)目标策略网络N(s)评价网络QN(s,a)目标评价网络QN(s,a)动作值函数QN(s,a)动作值函数QN(s,a)图1示教知识辅助的无人机强化学习控制算法结构Fig.1StructureofUAVRLcontrolalgorithmwithdemonstrationsN(s)策略网络的参数可以通过最大化式（9）来更新，即J(N)=EsD,aN(|s

20、)QN(s,a)+I(M|atE(st)|2)（20）N(s)由于策略是确定性策略，不具有探索性，所以需要额外设置探索策略，本文采用的探索策略是在策略网络输出的动作中添加噪声，具体为a=N(s)+dN（21）dN式中：为噪声，采用自适应参数噪声20，该噪声的方差可以根据效果自适应调整。综上，将本文算法的训练学习过程总结为算法 1，为了保证算法的收敛性，学习过程中评价网络的更新要比策略网络快。算算法法 1示教知识辅助的无人机强化学习控制算法QN(s,a)N(s)NN1.随机初始化评价网络和策略网络及其参数和NNN NN N2.初始化对应的目标网络和：，DDE3.初始化样本缓存区和=0.7,=0

21、.5K4.设置参数，采样个数5.forepisode=1,Max_episodedos16.初始化观测状态7.fort=1,Tdoat=N(st)8.由策略网络和探索噪声得到控制输出：+dNatrtst+19.将施加到被控对象中，得到奖励和新状态(st,at,rt,st+1)D10.将状态转换存储到中11.forj=1,KdoDDE12.根据式(13)和式(14)在和中采样13.根据式(15)计算重要性采样系数QN(st,at)14.根据式(18)计算得到目标值15.endfor16.计算损失函数：JQ(N)=1Kiwi(QN(si,ai)QN(si,ai)2JQ(N)17.通过最小化

22、更新评价函数18.通过最大化式(20)更新策略网络19.更新目标网络的参数：N N(1)N,N N+(1)N+20.endfor21.endfor3仿真校验为了验证本文算法的效果，搭建四旋翼仿真模拟环境，训练并测试该算法的性能，同时在相同条件下训练基于深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法19的普通 RL 控制器作为对比。1、2、3、4四旋翼模拟器中采用的四旋翼结构如图 2 所示，其中(xE,yE,zE)为地球固连坐标系，(xB,yB,zB)为机体坐标系，为 4 个螺旋桨的转速。该模拟器采用简化的四旋翼动力学模型21：x=f(coss

23、incos+sinsin)/mK1 x/m y=f(sinsincoscossin)/mK2 y/mz=f(coscos)/mgK3z/m =(JyJz)/Jx+x/JxdK4/Jx=(JzJx)/Jy+y/JydK5/Jy=(JxJy)/Jz+z/JzK6/Jzx,y,zT x,y,zT,TJx、Jy、Jzx、y、zfx,y,zT式中：为四旋翼无人机质心在地球固连坐标系下的位置；为速度；为四旋翼绕机体坐标系的 3 个轴旋转的欧拉角，用于描述四旋翼姿态，为滚转角，为俯仰角，为偏航角；分别为四旋翼相对于本体系的这3 个轴的转动惯量；和分别为总拉力和力矩。螺旋桨转速与总拉力、力

24、矩之间的关系为第6期孙丹，等：示教知识辅助的无人机强化学习控制算法1427f=cT(21+22+23+24)x=dcT(222122222223+2224)y=dcT(22212222+2223+2224)z=cM(21+2223+24)其中：螺旋桨转速限制在 0800rad/s，其他参数的含义及数值设定如表 1 所示。该模拟器的控制信号为 4 个螺旋桨的转速。OmgzBxByB4123xEyEzEO图2四旋翼模拟器结构Fig.2Structureofquadrotorsimulator表1四旋翼模拟器模型参数Table1Parametersofquadrotorsimulatormodel参

25、数数值m质量/kg1.5d四旋翼半径/m0.225g重力加速度/(ms2)9.8Jx转动惯量/(kgm2)0.01745Jy转动惯量/(kgm2)0.01745Jz转动惯量/(kgm2)0.03175K1阻力系数/(Nsm1)0.01K2阻力系数/(Nsm1)0.01K3阻力系数/(Nsm1)0.01K4阻力系数/(Nsm1)0.04K5阻力系数/(Nsm1)0.04K6阻力系数/(Nsm1)0.04cT单桨综合拉力系数/(N(rads)2)1.105105cM单桨综合力矩系数/(Nm(rads)2)1.489107(st,at,rt,st+1)DEDE示教经验由调整好的 PID 控制器提供，

26、将示教经验拆分成状态转换对存放在中，更换不同的初始状态和环境条件，比如增加扰动等，尽可能得到类型丰富的示教经验数据，同时，在一部分专家经验数据中添加噪声后再存放到中。在收集数据时，重点收集收敛前的数据。本文算法的训练过程中，参数设置如表 2 所示，考虑到实际飞行中的安全因素，仿真过程中限定四旋翼姿态角中滚转角和俯仰角的变化范围为45,45，四旋翼 3 个维度的活动范围不超过 10m。用参数 done 表示四旋翼状态是否超出设定范围，若四旋翼状态没有超出设定范围，参数 done 为False，否则参数 done 为 True。训练过程中，四旋翼的初始状态从允许范围内随机取得，四旋翼的状态超出设定

27、范围，参数 done 变为 True，该回合学习停止，所有状态初始化后开始下个回合的训练。表2示教知识辅助的无人机强化学习控制算法训练参数Table2TrainingparametersofUAVRLcontrolalgorithmwithdemonstrations参数数值交互样本容量106专家样本容量105单次训练样本数68总训练步数106每个回合可仿真的步数上限1000动作网络学习速率0.0001价值网络学习速率0.001目标网络更新速率0.001每步的仿真时间/s0.1折扣因子0.99RL 算法的控制目标是将四旋翼稳定快速地控制到目标位置并实现悬停，奖励函数应基于此目标进行设置。因此，

28、奖励函数应该包含四旋翼当前状态与目标状态的偏差，且偏差越小，奖励值越大；同时，为了防止震荡，将控制信号加入到奖励函数中，作为惩罚项。奖励函数设置的结构为R=1x2e2y2e3z2e42e5(21+22+23+24)+6done=False7done=True（22）1 7xe、ye、zee式中：参数为正的常数；分别为 x、y、z 方向的位置误差；为偏航角误差。为了让基于 DDPG 算法的普通 RL 控制器学习到符合控制要求的控制策略，经过多次仿真调整奖励函数中的参数，最终，确定奖励函数为R=xe2140ye225ze2190e24i=12i2107+1done=False5done=True（

29、23）为了展示控制器学习的过程，在训练过程中，每训练 20 回合进行一次测试。测试环节与训练环节略有不同，测试环节的动作策略直接由动作网络得到，不需要加入探索噪声，并且，测试环节不存储状态，所有网络不进行更新。示教知识辅助的无人机自主控制系统按照算1428北京航空航天大学学报2023年法 1 进行训练，随机训练 10 次，累积奖励的平均值变化如图 3(a)中蓝线所示，蓝色阴影部分为 10 次训练得到的奖励值的标准差，相同仿真条件下，普通 RL 控制器获得的累积奖励变化情况如图 3 中绿色部分所示。从图中可以看到，与普通 RL 控制器相比，示教知识辅助的无人机 RL 控制器前期

30、能够快速获得较高的奖励值，说明示教知识在算法的学习过程中起到了引导的作用，能够加快算法的学习过程，同时，在整个训练过程中，示教知识辅助的无人机 RL 控制器得到的奖励值明显更高，表明示教知识的加入能够提高本文算法的性能，有利于本文算法学习到更好的策略。训练过程中，奖励值的标准差变化如图 3(b)所示，可以看到，示教知识辅助的无人机 RL控制器在优化过程中奖励值的标准差小于普通 RL 控制器的奖励值标准差。1 0005000累积奖励值训练步数/106(a)累积奖励值00.250.500.751.00示教知识辅助的RL控制器普通RL控制器2001000奖励值标准差训练步数/10600.250.50

31、0.751.00(b)奖励值标准差图3训练过程中奖励值及其标准差变化Fig.3Valuesandstandarddeviationofrewardsduringtraining训练结束后，保存控制器的结构和参数，测试控制器对四旋翼的控制效果。随机选取四旋翼的初始位置和姿态，用学习到的控制算法对四旋翼进行控制，控制效果如图 4 所示，控制信号变化情况如图 5 所示，控制信号为 4 个螺旋桨的转速。从图 4 可以看到，虽然 2 种控制器都能将四旋翼稳定控制到期望位置，但是示教知识辅助的 RL 控制器的控制效果更好，调节时间更短，在 4s左右就将四旋翼稳定到了期望位置，而普通 RL 控制器的调节时间

32、在 12s 附近。测试共进行了 100 次，控制性能指标的统计数据如表 3 所示，其中“达到控制要求”的标准是在 50s的时间内将四旋翼稳定控制到期望位置，从表中可以看到，示教知识辅助的 RL 控制器的指标普遍优于普通 RL 控制器，该结果证明了示教知识的加入有利于提升算法的性能，学习到更优的控制策略。示教知识辅助的RL控制器普通RL控制器t/s01020304050502.502.50.250.50000.2500.505z/my/mx/m/()/()/()图4无人机 RL 控制器的控制信号Fig.4SignalsofUAVRLcontroller示教知识辅助的RL控制器普通RL控制器t/s

33、010203040505006006005006005006007501/(rads1)2/(rads1)3/(rads1)4/(rads1)图5无人机 RL 控制器的控制信号Fig.5SignalsofUAVRLcontroller第6期孙丹，等：示教知识辅助的无人机强化学习控制算法1429表3控制性能指标对比Table3Comparisonofcontrolperformanceindicators控制器类型达到控制要求的比例/%位置稳定调节时间（均值）/s姿态稳定调节时间（均值）/s稳定后波动情况示教知识辅助的RL控制器9554无波动普通RL控制器911210无波动此外，设计了仿真实验验

34、证在控制器作用下，四旋翼对期望轨迹的跟踪效果，结果如图 6 所示，四旋翼的初始位置随机挑选。从图中可以看到，示教知识辅助的 RL 控制器的跟踪效果更好，前期将四旋翼从初始位置控制到期望轨迹上，速度更快，后期基本没有跟踪误差。该结果再次表明，在相同的设置条件下，示教知识辅助的 RL 控制算法学习到的控制策略性能优于普通的 RL 控制器。5.02.502.5x/my/mz/m5.01.61.20.85.02.502.55.0期望轨迹示教知识辅助的RL控制器普通RL控制器图6无人机轨迹跟踪图Fig.6TrajectortrackingmapofUAV修改奖励函数为稀疏的情况，只有当无人机接近目标点时

35、才获得精确的奖励值，否则奖励值只反馈为一个负常数，具体设置为R=(xe2+ye2+ze2+e2)24i=12i2107+1(done=False)且(xe 1)且(ye 1)且(ze 1)3(done=False)且(xe1)或(ye1)或(ze 1)5done=True（24）只有当 3 个方向上的位置误差都小于 1m 的时候，才会进行详细的奖励反馈，而且此时的奖励值设置与式（23）中第 1 个式子相比，式（24）的系数选取更随意，没有经过多次仿真调整。在本节条件下，示教知识辅助的无人机 RL 控制器和普通 RL 控制器在训练过程中，累积奖励值的变化情况如图 7 所示，图中实线是 10 次训

36、练中奖励值的平均值，阴影部分为奖励值的标准差变化情况。与普通 RL 控制器相比，示教知识辅助的无人机 RL 控制器在训练前期能够快速获得较高的奖励，收敛速度更快，证明了示教知识的加入能够加快算法的学习效率；此外，示教知识辅助的无人机RL 控制器最终获得的累积奖励更高，证明示教知识的加入能够促进算法学习到更优的控制策略。图 8 为 2 种控制器在训练过程中累积奖励的标准差，其中，示教知识辅助的无人机 RL 控制器奖励值标准差的平均值为 95.68，普通 RL 控制器奖励值标准差的平均值为 83.99，示教知识辅助的无人机RL 控制器的奖励值标准差更高。1 0007502505000累积奖励训练步

37、数/10600.250.500.751.00示教知识辅助的RL控制器普通RL控制器图7稀疏奖励下训练过程中累积奖励值的变化Fig.7Changesinaccumulaterewardsduringtrainingontheconditionofsparserewards示教知识辅助的RL控制器普通RL控制器2001000奖励值标准差训练步数/10600.250.500.751.00图8稀疏奖励下训练过程中奖励值标准差的变化Fig.8Sandarddeviationofrewardsduringtrainingontheconditionofsparserewards训练完成后，对 2 种控制器

38、的控制效果进行验证，随机选取四旋翼的位置和姿态，共进行 100 次测试。其中，示教知识辅助的 RL 控制器能够实现无人机稳定控制的比例是 92%，控制效果和控制信号如图 9 和图 10 中的蓝色实线所示，位置稳定的调节时间在 15s 左右；普通 RL 控制器中只有 2 次在50s 的时间内实现了四旋翼的稳定控制，且位置稳定的调节时间有 40s，时间较长，87%的控制结果如图 9 和图 10 中的绿色虚线所示，在 50s 的时间内没有将位置和姿态收敛到期望位置，具体数据总1430北京航空航天大学学报2023年结见表 4。从表 4、图 9 和图 10 中可以看到，示教知识辅助的

39、RL 控制器的控制效果明显优于普通RL 控制器的效果，表明示教知识的加入有利于提高算法的性能，从而学习到更好的控制策略。对比表 3 和表 4 发现，当奖励函数变为稀疏情况后，2 种控制器的性能指标都有所下降，但是示教知识辅助的 RL 控制器的性能指标下降比较小，100 次测试中达到控制要求的比例由原来的 95%下降到 92%，调节时间由原来的 5s 延长到 15s，该结果仍然符合控制标准。而普通 RL 控制器的性能下降大，只有 2%的测试达到了控制要求，表明在稀疏奖励的设置下，示教知识辅助的无人机控制算法仍然能够学习到有效的控制策略，算法受奖励函数设置的影响小。示教知识辅助的RL控制器普通RL

40、控制器t/s01020304050510050.250.25000.500.252.502.5z/my/mx/m/()/()/()图9奖励稀疏情况下 RL 控制器的控制效果Fig.9ControleffectofRLcontrollerontheconditionofsparserewards2 种控制器的轨迹跟踪结果对比如图 11 所示，可以看到，普通 RL 控制器的轨迹跟踪效果不好，前期控制无人机从初始位置到期望轨迹耗时长，后期没有完全跟踪上轨迹，存在误差，该结果与图 9 中的悬停结果一致。而示教知识辅助的 RL 控制器的轨迹跟踪效果较好，将无人机从初始位置控制到期望轨迹上用时较短，后期轨

41、迹跟踪没有误差，精度高。该结果再次证明了示教知识的加入对算法性能的提高，有利于算法学习到更优的控制策略。5.02.502.5x/my/mz/m5.01.20.80.45.02.502.55.0期望轨迹示教知识辅助的RL控制器普通RL控制器图11奖励稀疏情况下无人机轨迹跟踪图Fig.11TrajectorytrackingmapofUAVontheconditionofsparserewards4结论1）与基于 DDPG 算法的普通 RL 控制器相比，本文算法能够在前期快速获得高奖励值，表明示教知识在算法的学习过程中起到了引导作用，提高了学习效率。2）整个学习过程中，示教知识辅助的自主控制表4奖

42、励稀疏情况下 RL 控制器控制性能指标对比Table4ComparisonofRLcontrollerscontrolperformanceindicatorsonconditionofsparserewards控制器类型达到控制要求的比例/%位置稳定调节时间（均值）/s姿态稳定调节时间（均值）/s稳定后波动情况示教知识辅助的RL控制器921510无波动普通RL控制器24034无波动示教知识辅助的RL控制器普通RL控制器t/s010203040505505006005006005506006506001/(rads1)2/(rads1)3/(rads1)4/(rads1)图10奖励稀疏情况下

43、RL 控制器的控制信号Fig.10SignalsofRLcontrolleronconditionofsparserewards第6期孙丹，等：示教知识辅助的无人机强化学习控制算法1431系统得到的奖励值明显更高，最终获得的控制策略的性能更好，表明示教知识的加入能够提高算法的性能，有利于算法学习到更好的控制策略。3）示教知识的加入能够促进算法的稳定性，对奖励函数的变化具有一定的鲁棒性。参考文献（References）SANTOSOF,GARRATTMA,ANAVATTISG.State-of-the-artintelligent flight control systems in unmann

44、ed aerial vehiclesJ.IEEETransactionsonAutomationScienceandEngineering,2018,15(2):613-627.1FAUSTA,PALUNKOI,CRUZP,etal.Learningswing-freetra-jectoriesforUAVswithasuspendedloadC/2013IEEEInterna-tionalConferenceonRoboticsandAutomation.Piscataway:IEEEPress,2013:4902-4909.2ZHANGBC,MAOZL,LIUWQ,etal.Geometr

45、icreinforce-mentlearningforpathplanningofUAVsJ.JournalofIntelligent&RoboticSystems,2015,77(2):391-409.3KOCHW,MANCUSOR,WESTR,etal.ReinforcementlearningforUAVattitudecontrolJ.ACMTransactionsonCyber-PhysicalSystems,2019,3(2):1-21.4HWANGBOJ,SAI,SIEGWARTR,etal.Controlofaquadrotorwithreinforcementlearning

46、J.IEEERoboticsandAutomationLet-ters,2017,2(4):2096-2103.5PHAMHX,LAHM,FEIL-SEIFERD,etal.Reinforcementlearn-ingforautonomousUAVnavigationusingfunctionapproximationC/2018IEEEInternationalSymposiumonSafety,Security,andRescueRobotics.Piscataway:IEEEPress,2018:1-6.6WANGDW,FANTX,HANT,etal.Atwo-stagereinfor

47、cementlearningapproachformulti-UAVcollisionavoidanceunderimper-fectsensingJ.IEEERoboticsandAutomationLetters,2020,5(2):3098-3105.7ZENGY,XUXL,JINS,etal.Simultaneousnavigationandradiomapping for cellular-connected UAV with deep reinforcementlearningJ.IEEETransactionsonWirelessCommunications,2021,20(7)

48、:4205-4220.8EBRAHIMID,SHARAFEDDINES,HOPH,etal.AutonomousUAV trajectory for localizing ground objects:A reinforcementlearning approachJ.IEEE Transactions on Mobile Computing,2021,20(4):1312-1324.9ESCANDELL-MONTEROP,LORENTED,MARTNEZ-MARTNEZJM,etal.Onlinefittedpolicyiterationbasedonex-tremelearningmach

49、inesJ.Knowledge-BasedSystems,2016,100:200-211.10SAUNDERS W,SASTRY G,STUHLMLLER A,et al.Trialwithouterror:Towardssafereinforcementlearningviahumaninter-ventionC/Proceedings of the 17th International Conference onAutonomousAgentsandMultiAgentSystems.NewYork:ACM,2018:20672069.11ABEL D,SALVATIER J,STUHL

50、MLLER A,et al.Agent-ag-nostichuman-in-the-loopreinforcementlearningC/ProceedingofConferenceonNeuralInformationProcessingSystems.Cambridge:MITPress,2017:1-13.12NACHUMO,GUS,LEEH,etal.Data-efficienthierarchicalrein-forcementlearningC/Proceeding of Conference on Neural In-formationProcessingSystems.Camb

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 知识辅助无人机强化学习控制算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。