分销赏收藏举报申诉 / 10

立即下载 VIP下载

当前位置：首页 > 品牌综合 > 临存文档 > 一种基于PIO改进强化学习...杂多约束姿态机动规划新方法_华冰.pdf

一种基于PIO改进强化学习...杂多约束姿态机动规划新方法_华冰.pdf

上传人：自信****多点

文档编号：473005

上传时间：2023-10-13

格式：PDF

页数：10

大小：2MB

《一种基于PIO改进强化学习...杂多约束姿态机动规划新方法_华冰.pdf》由会员分享，可在线阅读，更多相关《一种基于PIO改进强化学习...杂多约束姿态机动规划新方法_华冰.pdf（10页珍藏版）》请在咨信网上搜索。

1、一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法华冰*,孙胜刚,吴云华,陈志明南京航空航天大学航天学院,南京 210016*E-mail:收稿日期:2021-08-04;接受日期:2021-10-14;网络版发表日期:2022-07-14中央高校基本科研业务费(编号:NS2021063)资助项目摘要本文针对多个姿态约束条件下的航天器姿态机动规划问题进行了研究,提出了一种基于鸽群算法的改进的策略梯度强化学习算法(PIOPGRL).首先,针对强制指向约束和禁止指向约束,建立了基于角度的姿态约束模型,根据约束模型建立了强化学习的回报函数.然后,使用适应度函数替代策略评价函数,将鸽群算法

2、与强化学习相融合.针对策略梯度强化学习算法计算量大、收敛速度慢的问题,使用鸽群算法求解策略梯度,极大减少了计算量.仿真结果表明,相比于策略梯度强化学习算法,基于自PIO改进强化学习的航天器姿态机动规划算法(PIOPGRL)在极大减少计算量的同时,有更优的规划结果,更小的机动代价,适用于微小航天器解决多个姿态约束条件下的姿态机动规划问题.关键词姿态机动,姿态约束,路径规划,强化学习,鸽群算法,航天器1引言随着航天任务愈发多样,航天器执行任务时要进行大量的姿态机动.在姿态机动过程中,航天器需要满足一定的约束条件.例如,为了获取能量,航天器的光伏电池阵列必须始终保持面对太阳;而对于某些精密器件,在姿

3、态机动过程中却需要避免太阳光直射.除了上述姿态约束,还需要考虑通信天线指向、光学敏感器杂光抑制、机动能力有限等约束.因此,在航天器执行姿态机动任务时,需要在复杂约束条件下进行姿态机动规划,合理的规划是任务执行的重要保障.对于航天器姿态机动规划问题,国内外学者展开了大量研究.传统思路有两种.一种是在线规划法,如半定规划法1、约束检测法2和随机规划法3,但是上述方法普适性差,计算量较大,难以投入工程实用.武长青等人4将约束机动问题归纳为非凸二次约束二次规划问题,利用线性松弛结合评价函数进行迭代,求出姿态优化最优解.Xu等人5提出了一种基于动态迭代的多目标规划(DIMP)方法,但该方法将约束线性化处

4、理,放宽了对路径中间节点高精度的要求.Kjellberg等人6和Tanygin7分别使用A*算法寻找远离姿态禁区的引用格式:华冰,孙胜刚,吴云华,等.一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法.中国科学:技术科学,2023,53:200209Hua B,Sun S G,Wu Y H,et al.A spacecraft attitude maneuvering path planning method based on PIO-improved reinforcement learning(in Chinese).Sci Sin Tech,2023,53:200209,do

5、i:10.1360/SST-2021-0346 2022 中国科学杂志社中国科学:技术科学2023 年第 53 卷第 2 期:200 209SCIENTIA SINICA T群体智能激发汇聚及应用专辑论文最优路径,但是A*算法在搜索前期效率较差,容易使航天器做无效的姿态机动.另一种思路是确定性解析法,目前该思路的主流方法是势函数法.武长青等人8提出了一种基于对数势函数的多约束姿态机动规划方法.冯振欣等人9在势函数的基础上,引入自适应干扰估计律,增强了控制器的鲁棒性.马广富等人10设计了新型的凸势函数,并设计了基于反步法的控制率.势函数方法存在固有不足:极易陷入局部最小值,且存在目标附近目标不

6、可及问题(goals nonreachable with obstaclesnearby)11.相关研究大多简化了排斥势函数的存在条件,参数设置不当,易造成不必要的姿态机动12.目前,国内外对于姿态机动问题的势函数研究大多停留在虚拟空间内静态的指向约束,约束数量也仅限于23个.将姿态规划和传统路径规划进行相比,在轨的航天器的姿态规划实际上是姿轨耦合问题,而且姿态运动的三自由度耦合性较高,相互影响较大.另外,航天器的姿态机动规划相对于路径规划来说,机动能力较弱但精度要求更高,这对控制机构和规划算法提出了更严格的要求.近年来,以机器学习为代表的人工智能技术在航天领域取得了极大的应用与进展.强化学习

7、是机器学习的范式之一,不需要复杂繁琐的问题建模过程,不需要系统完全可知,便于解决非线性问题13.多约束条件下航天器姿态机动规划问题,属于非线性高维度的最优化问题,适合运用强化学习求解.考虑到星载计算机的计算能力,其中基于策略梯度的强化学习算法计算量较小,适合航天器使用,但是存在策略梯度收敛速度慢的缺点.本文选择群体智能优化算法中的鸽群算法(pigeon-inspired optimization,PIO)来计算策略梯度,进一步减少强化学习算法的计算量,加快收敛.本文研究了多姿态约束条件下的航天器姿态机动规划问题.针对现有姿态机动规划模型复杂、通用性较差和求解精度较差等问题,提出了一种基于PIO

8、改进强化学习的航天器姿态机动规划方法(PIOPGRL).仿真结果表明,在基本策略梯度强化学习算法的基础上,引入鸽群算法计算策略梯度,规划结果成功规避多个动态姿态约束区域,不仅大幅度降低了计算量,同时得到了更好的规划结果.2问题模型构建本文为复杂多约束条件下的航天器保持低可见性制定姿态机动策略,要求航天器在满足太阳能发电的对日定向姿态要求下,通过姿态机动使自身携带的敏感器规避姿态禁区.航天器所面临的姿态约束分为强制指向约束和禁止指向约束.2.1姿态模型航天器本体系Ox y zB B B定义为:O为坐标系原点,位于航天器质心.xB轴,yB轴和zB轴分别与航天器的三个惯性主轴重合.质心轨道坐标系Ox

9、 y zO OO定义为:坐标系原点位于航天器质心,xO轴指向地心,yO轴在轨道平面内,与zO轴垂直并且指向航天器飞行的方向.本文使用姿态角描述航天器姿态,姿态角包括滚转角、俯仰角和偏航角,分别代表航天器绕xB轴,yB轴和zB轴逆时针旋转的角度(图1).2.2姿态约束模型姿态约束包括强制指向约束和禁止指向约束两类.强制指向约束要求包括航天器对日的能量获取约束和对地指向约束.本文中航天器的太阳能帆板朝向与yB轴一致,通信天线朝向与zB轴一致.能量获取约束要求在航天器本体系中,yB轴和太阳位置矢量Rsun的夹角小于1:y RyRRcos,=cos().(1)BBsunsunsun1对地指向约束要求在

10、航天器本体系中,zB轴和地心位置矢量Rearth的夹角小于2:图 1姿态角示意图Figure 1Schematic diagram of attitude angle.中国科学:技术科学2023 年第 53 卷第 2 期201zRzRRcos,=cos().(2)BBearthearthearth2禁止指向约束针对敏感器禁止指向,某些星载敏感器在工作时要求规避强光强热和抑制杂光,因此对于航天器来说存在敏感器姿态禁区.本文假设敏感器中心轴的指向代表敏感器指向,敏感器姿态禁区是圆形区域,航天器质心与该圆形区域圆心的连线定义为敏感器禁止指向.禁止指向约束要求:敏感器中心轴矢量与敏感器禁止指向矢量之间

11、的夹角大于最小约束角.设第i个敏感器的中心轴指向在航天器本体坐标系下的位置矢量为rfiB,敏感器禁止指向j相对于航天器的位置矢量在航天器本体坐标系下表示为rm jB,本文要求rfiB和rm jB的夹角大于最小约束角:rrrrrrcos,=cos.(3)f iBm jBf iBm jBf iBm jB3 基于PIO改进的策略梯度强化学习姿态机动规划方法强化学习可分为三类,包括基于策略、基于价值、基于策略和价值.考虑到星载计算机的计算能力,本文采用的基于有限差分的策略梯度方法(PGRL)属于基于策略的强化学习算法.3.1鸽群算法鸽群算法14是受到鸽群在归巢中的导航过程启发而创造的,算法包括地图指南

12、针算子和地标算子.在地图指南针算子阶段,鸽群中每个个体通过当前种群中的最优解个体与自身的位置和速度进行更新,地图指南针算子公式如下:ttrandtVVXX()=(1)e+(1),(4)iiRtgitttXXV()=(1)+(),(5)iii式中,t是迭代次数,R是地图和指南针因子,是一个0,1的常数.rand是0,1的随机数,Vi(t)和Xi(t)分别是个体i在第t代的速度和位置,Xg是当前种群所有个体的最佳位置.在地标算子阶段,鸽群跟随熟悉地标的精英个体飞行,不熟悉地标的个体将被逐渐舍弃,鸽群的中心位置成为个体速度的参考方向.地标算子的数学表达式如下:N tN t()=(1)2,(6)ppt

13、fitnesstNfitnesstttrandttXXXXXXXX=()()(),()=(1)+()(1),(7)ciNiipiNiiici=1=1pp式中,Np(t)为第t次迭代的个体数目,Xc是剩余鸽群的中心位置,fitness(Xi(t)是个体i在第t次迭代时的适应度函数.3.2基于PIO改进的策略梯度强化学习策略梯度强化学习的基本思想15是基于策略价值函数对的策略进行优化,经过策略的多次迭代逐步逼近并求出最优解.多次迭代评估策略耗时较多,而基于PIO改进的策略梯度强化学习方法使用鸽群算法评估并改进策略,大大加快了收敛速度并且能够探索到更好的策略,提高求解精度.下面阐述使用基于PIO改进

14、的策略梯度强化学习方法进行航天器姿态机动规划的基本步骤.为建立强化学习数据库,首先定义两个辅助坐标系Oxyzearth earthearth和Oxyzsun sunsun,定义分别如式(8)和(9)所示.z=zy=zx,(8)OBearthearthearthy=RRz=xy,(9)Bsunsunsunsunsun式中,Rsun为太阳相对航天器的位置矢量,代表向量叉乘.以不同的对日、对地定向重要性考虑上述两个辅助坐标系,则有:y=y+yy+yz=z+zz+z,(10)ccsunsunearthearthsunsunearthearthsunsunearthearthsunsunearthear

15、th华冰等:一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法202式中,0,1earthsun为权重系数.在式(8)(10)的基础上最终建立强化学习数据库如式(12)所示:EEEy zzzxzxyxx1=arctan,2=arcsin(),3=arctan,(11)cOcOBOBOBOEdnNn EEdnNn EnNEdnNn E1()=11,2()=12,=1,3()=13.(12)因航天器有对日和对地定向需求,本文以航天器不同权重满足对地或对日定向的姿态集组成N组数据的数据库.本文使用姿态角描述航天器姿态,故强化学习的策略u定为航天器的姿态角.设当前强化学习迭代次数为k=1,

16、当前时刻m=1.然后设定鸽群的种群数目为Np,NNk=+1p.根据数据库,种群中第i只鸽子的初始位置为u m()i,则初始化种群分别为u mu mum(),(),()N k12+1.考虑到鸽群算法的特点和强化学习的计算过程,本文改进的关键是使用鸽群算法中的地标算子加速策略梯度的收敛,并将强化学习概念中的策略评价函数选为鸽群算法的适应度函数.适应度函数表达式为fit u mm r u m()=()(),(13)inmi=1f式中,mf是终止时刻,(m)为强化学习概念中的折扣因子.r u m()k是策略的总回报函数,与航天器对地和对日定向精度以及禁止指向姿态约束相关:r u mRmRm()=()+

17、(),(14)id km i j k,RmmmmmRmmmzzyRrr()=1cos(),()1cos(),(),()=cos(),(),(15)d kB kO kB kkm i j kiNNfif i kBm kB,earth2,sun2,sun,=1 j=1-j-2,-j,oJ式中,下标k表示当前迭代次数,Rm()d k,为与对地和对日定向相关的回报函数,No代表航天器敏感器的个数,NJ代表姿态禁区个数.Rm()m i j k,是第i个敏感器中心轴与第j个禁止指向的夹角的回报函数,f j i为回报函数权重系数.借助地标算子更新当前迭代次数的鸽群中心位置,更新种群位置,淘汰远离鸽群中心位置的

18、鸽子后,进入下一次迭代:xxfit xNfit x=,(16)ckiNikikpiNik()=1()()=1()pp()xxrandxx=+,(17)ikikckik(+1)()()()NfixN=2,(18)pkpk+1式中,fix()为取整函数.当N=1p时,鸽群算法停止,计算此时刻的策略梯度:G msign xGm()=().(19)kckk()1更新强化学习的策略,即得到航天器下一时刻的姿态角:u mu mG m(+1)=()+().(20)iik重复式(13)(20),直到所有时刻的姿态角计算完毕,即完成了一次完整的强化学习迭代过程.图2是基于鸽群算法改进的策略梯度强化学习方法进行航

19、天器姿态机动规划的流程图.首先确定航天器所处的轨道和初始姿态,设置多个敏感器在航天器上的位置,同时计算多个姿态禁区在本体系中的坐标.根据时间和轨道信息,可以得到初始的太阳、地心相对于航天器的相对位置矢量,根据对日对地定向需求,就可以计算强化学习所需的数据库.然后,进行基于PIO改进的策略梯度强化学习过程,最终得到多姿态约束条件下的姿态机动轨迹.4仿真实验与分析本文中针对太阳同步轨道上的航天器进行仿真分析.设置了4个动态的敏感器禁止指向,太阳位置矢量中国科学:技术科学2023 年第 53 卷第 2 期203和敏感器禁止指向矢量均为航天器本体系下的单位矢量.仿真时间为600 s,强化学习迭代80次

20、,数据库包含数据数目N取20,鸽群算法地标算子迭代20次.折扣因子m()取0.1,对日定向权重sun取3,对地定向权重earth取0.3,回报函数权重系数f-j-i取20.仿真初始条件如表1所示.航天器初始姿态为xB轴指向航天器速度方向,zB轴指向地心,yB轴由右手规则确定.航天器最大允许角速度的绝对值为0.8/s,最大允许角加速度绝对值为0.02/s.yB轴对日定向精度要求在30以内,zB轴对地定向精度要求在10以内,敏感器指向与禁止指向的夹角要求大于3.航天器携带8个敏感器,所有敏感器指向在航天器本体坐标系中的单位矢量分别为rrrrrCCrCCrCCrCC=0 sin(50deg)cos(

21、50deg),=0 sin(25deg)cos(25deg),=0 sin(25deg)cos(25deg),=0 sin(50deg)cos(50deg),=(37deg)(37deg)1 0 0,=(37deg)(37deg)1 0 0,=(149deg)(138deg)1 0 0,=(149deg)(138deg)1 0 0,(21)fBfBfBfBfBzyfBzyfBzyfBzy-1T-2T-3T-4T-5T-6T-7T-8T式中,C()z和C()y分别代表绕zB轴和yB轴旋转角度,逆时针旋转为正方向.本文选择的仿真起始时刻选在2022年8月,该月份yB轴和太阳位置矢量Rsun的夹角较

22、大,在30左右.选择此时刻作为仿真起始时刻,对比策略梯度强化学习(PGRL),更能体现本文提出的基于鸽群算法改进的策略梯度强化学习算法的有效性.图 2基于PIOPGRL的姿态机动规划流程图Figure 2Flow chart of the attitude maneuver planning based onPIOPGRL.表 1仿真初始条件Table 1Initial conditions for simulation条件参数参数值仿真起始时刻9 Aug 2022 08:24:10.000半长轴(km)6978.14偏心率0轨道倾角()97.509升交点赤径()227.538近地点幅角()0

23、真近点角()37.957太阳位置矢量初始值(0.299,0.917,0.262)禁止指向1初始值(0.167,0.904,0.392)禁止指向2初始值(0.310,0.857,0.409)禁止指向3初始值(0.133,0.891,0.432)禁止指向4初始值(0.818,0.297,0.491)华冰等:一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法204图3是使用策略梯度强化学习算法得到的姿态机动规划结果.图4是8个敏感器的指向与4个禁止指向之间的夹角.图5是在航天器在图2的姿态轨迹下,yB轴与太阳矢量的夹角以及zB轴与地心矢量的夹角.图6是航天器在图2的姿态轨迹下的姿态角速度

24、以及角加速度.图7是使用策略梯度强化学习算法得到的姿态机动规划结果,图8分别是8个敏感器的指向与4个禁止指向之间的夹角.图9是在航天器在图7的姿态轨迹下,yB轴与太阳矢量的夹角以及zB轴与地心矢量的夹角.图10是航天器在图7的姿态轨迹下的姿态角速度以及角加速度.表2所示为PGRL和PIOPGRL结果对比,可以看到,两种算法得到的规划结果中,敏感器与禁止指向最小夹角都在5以上,满足了禁止指向姿态约束.策略梯度强化学习算法的对日定向和对地定向精度较高,极大地满足了太阳能发电和对地通信需求;PIOPGRL的这两项指标也是满足要求的.值得注意的是,航天器需要进行姿态机动来规避姿态禁区的时间较短.在规避

25、过程中的短时间内,对图 3策略梯度强化学习姿态规划结果(PGRL)Figure 3The attitude planning result of policy gradient reinforcementlearning(PGRL).图 4敏感器指向与禁止指向1(a),2(b),3(c)和4(d)的夹角(PGRL)Figure 4The angles between the sensors pointing and the prohibited pointing 1(a),2(b),3(c)and 4(d)(PGRL).中国科学:技术科学2023 年第 53 卷第 2 期205日定向和对地定向

26、精度不是最重要的约束条件,最需要关注的约束是敏感器与禁止指向最小夹角,以及航天器为规避姿态禁区付出的机动代价.PGRL的姿态机动规划结果显示,偏航角的变化幅值达到了14.7,而PIOPGRL的姿态角变化幅值仅仅为3.4.由于PGRL的规划结果进行了大幅度的姿态机动,其最大角速度绝对值为0.738/s,已经接近0.8/s的最大允许角速度;其最大角加速度0.881/s2已经大大超过了最大允许角加速度.相比之下,PIOPGRL姿态规划结果的最大角速度绝对值为0.006/s,最大角加速度绝对值为0.004/s2,均远远小于最大允许值.PIOPGRL在保证规避姿态禁区的同时,付出的机动代价较小,意味着航

27、天器可以避免无效的姿态调整.并且角速度和角加速度绝对值较小,可见整个姿态机动过程比较平滑,适合微小航天器使用.本仿真算例的运算环境为Intel i5-8300H CPU2.30GHz,8G RAM.同等条件下,PGRL的运算时间在30 s左右,而PIOPGRL的运算时间仅16 s左右,运算时间几乎减少了一半.本文设计的PIOPGRL算法,是航天器用于自主调用的算法.由于规划必须先于执行,所以一般是提前一个轨道周期完成规划任务,如果有紧急规划任务,只需要提前10 min左右规划即可.所以,本文所设计的算法完全满足实时性要求.5总结本文针对多个姿态约束条件下的航天器姿态机动规划问题进行了研究,提出

28、了一种基于鸽群算法的改进的策略梯度强化学习算法(PIOPGRL).保证了航天图 5航天器对地对日精度(PGRL)Figure 5Orientation accuracy of spacecraft to the earth and to the sun(PGRL).图 6角速度和角加速度(PGRL)Figure 6Angular velocity and angular acceleration(PGRL).图 7PIO改进强化学习姿态规划结果(PIOPGRL)Figure 7The attitude planning result of PIO improved reinforcementl

29、earning.表 2PGRL和PIOPGRL结果对比Table 2Comparison of results of PGRL and PIOPGRL算法PGRLPIOPGRL敏感器与禁止指向最小夹角()5.9625.411姿态变化幅值()14.73.4对日定向精度()15222328对地定向精度()0.0010.7613.85.7最大角速度绝对值(/s)0.7380.006最大角加速度绝对值(/s2)0.8810.004计算时间(s)3016华冰等:一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法206器上多个敏感器规避成功多个姿态禁区,同时满足特定方向对日和对地的需求,大大减

30、少了策略梯度强化学习的计算时间.整个姿态机动过程满足最大角速度和最大角加速度约束要求,姿态角变化幅度小,调整过程平滑,非常适合星上计算能力和姿态机动能力有限的微小航天器使用.图 8敏感器指向与禁止指向1(a),2(b),3(c)和4(d)的夹角(PIOPGRL)Figure 8The angles between the sensors pointing and the prohibited pointing 1(a),2(b),3(c)和4(d)(PIOPGRL).图 9航天器对地对日精度(PIOPGRL)Figure 9Orientation accuracy of spacecraft

31、to the earth and to the sun(PIOPGRL).图 10角速度和角加速度(PIOPGRL)Figure 10Angular velocity and angular acceleration(PIOPGRL).中国科学:技术科学2023 年第 53 卷第 2 期207参考文献1Hablani H B.Attitude commands avoiding bright objects and maintaining communication with ground station.J Guid Control Dynam,1999,22:7597672Singh G,

32、Macala G,Wong E,et al.A constraint monitor algorithm for the Cassini spacecraft.Report.AIAA-1997-3526,American Institute ofAeronautics,19973Kim Y,Mesbahi M.Quadratically constrained attitude control via semidefinite programming.IEEE Trans Automat Contr,2004,49:7317354Wu C Q,Xu R,Zhu S Y,et al.Spacec

33、raft attitude maneuver path iterative planning method under nonconvex quadratic constraints(in Chinese).JAstronaut,2016,37:671678 武长青,徐瑞,朱圣英,等.非凸二次约束下航天器姿态机动路径迭代规划方法.宇航学报,2016,37:6716785Xu R,Wang H,Zhu S,et al.Multiobjective planning for spacecraft reorientation under complex pointing constraints.Ae

34、rospace Sci Tech,2020,104:1060026Kjellberg H C,Lightsey E G.Discretized quaternion constrained attitude pathfinding.J Guid Control Dynam,2016,39:7137187Tanygin S.Fast autonomous three-axis constrained attitude pathfinding and visualization for boresight alignment.J Guid Control Dynam,2017,40:3583708

35、Wu C Q,Xu R,Zhu S Y.Deep space explorer attitude planning and control method based on logarithmic potential function(in Chinese).J DeepSpace Explor,2015,2:365370 武长青,徐瑞,朱圣英.基于对数势函数的深空探测器姿态规划与控制方法.深空探测学报,2015,2:3653709Feng Z X,Guo J G,Zhou J.Path maneuver planning for a microsatellite with multiple c

36、onstraints(in Chinese).J Astronaut,2019,40:12051211冯振欣,郭建国,周军.微小卫星多约束姿态机动规划方法.宇航学报,2019,40:1205121110Ma G F,Liu M M,Wang L Y,et al.Spacecraft backstepping attitude control considering multiple forbidden pointing regions(in Chinese).JAstronaut,2020,41:10421048 马广富,柳明旻,王靓玥,等.考虑多禁止指向区域的航天器反步姿态机动控制.宇航学报

37、,2020,41:1042104811Hu Q,Chi B,Akella M R.Anti-unwinding attitude control of spacecraft with forbidden pointing constraints.J Guid Control Dynam,2019,42:82283512Chen T D,Huang Y Y,Zhang Y L.Non-trap dynamic path planning based on collision risk(in Chinese).Syst Eng Electron,2019,41:24962506陈天德,黄炎焱,张永

38、亮.基于碰撞危险度的无陷阱动态航路规划.系统工程与电子技术,2019,41:2496250613Huang X X,Li S,Yang B,et al.Review of spacecraft guidance and control based on artificial intelligence(in Chinese).Acta Aeronaut AstronautSin,2021,42:106121 黄旭星,李爽,杨彬,等.人工智能在航天器制导与控制中的应用综述.航空学报,2021,42:10612114Duan H,Qiao P.Pigeon-inspired optimization

39、:A new swarm intelligence optimizer for air robot path planning.Int J Intelligent ComputingCybernetics,2014,7:243715Liu J W,Gao F,Luo X L.Survey of deep reinforcement learning based on value function and policy gradient(in Chinese).Chin J Comput,2019,42:14061438 刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述.计算机学报,

40、2019,42:14061438华冰等:一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法208A spacecraft attitude maneuvering path planning method based onPIO-improved reinforcement learningHUA Bing,SUN ShengGang,WU YunHua&CHEN ZhiMingCollege of Astronautics,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,ChinaAiming a

41、t the problem of spacecraft attitude maneuver planning under multiple mandatory pointing constraints and prohibitedpointing constraints,based on pigeon-inspired optimization(PIO),we proposed an improved policy gradient reinforcement learning(RL)algorithm(PIOPGRL).First,we establish an angle-based at

42、titude constraint model,and then,we establish the reward function ofRL based on the model.Then,the fitness function is used to replace the policy evaluation function,so PIOPGRL is integrated withRL.The PIOPGRL algorithm uses the PIO algorithm to solve the policy gradient,significantly reduces the am

43、ount of calculation andaccelerating the convergence speed.The simulation results show that the spacecraft attitude maneuvering path planning method basedon PIO-improved RL(PIOPGRL)has better planning results and lower cost of maneuver than the classical PGRL algorithm,whichcan solve the problem of spacecraft attitude maneuver planning under multiple pointing constraints perfectly.attitude maneuver,attitude constraint,path planning,reinforcement learning,PIO algorithm,spacecraftdoi:10.1360/SST-2021-0346中国科学:技术科学2023 年第 53 卷第 2 期209

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种基于 PIO 改进强化学习杂多约束姿态机动规划新方法华冰

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。