一种基于PIO改进强化学习...杂多约束姿态机动规划新方法_华冰.pdf
《一种基于PIO改进强化学习...杂多约束姿态机动规划新方法_华冰.pdf》由会员分享,可在线阅读,更多相关《一种基于PIO改进强化学习...杂多约束姿态机动规划新方法_华冰.pdf(10页珍藏版)》请在咨信网上搜索。
1、一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法华冰*,孙胜刚,吴云华,陈志明南京航空航天大学航天学院,南京 210016*E-mail:收稿日期:2021-08-04;接受日期:2021-10-14;网络版发表日期:2022-07-14中央高校基本科研业务费(编号:NS2021063)资助项目摘要本文针对多个姿态约束条件下的航天器姿态机动规划问题进行了研究,提出了一种基于鸽群算法的改进的策略梯度强化学习算法(PIOPGRL).首先,针对强制指向约束和禁止指向约束,建立了基于角度的姿态约束模型,根据约束模型建立了强化学习的回报函数.然后,使用适应度函数替代策略评价函数,将鸽群算法
2、与强化学习相融合.针对策略梯度强化学习算法计算量大、收敛速度慢的问题,使用鸽群算法求解策略梯度,极大减少了计算量.仿真结果表明,相比于策略梯度强化学习算法,基于自PIO改进强化学习的航天器姿态机动规划算法(PIOPGRL)在极大减少计算量的同时,有更优的规划结果,更小的机动代价,适用于微小航天器解决多个姿态约束条件下的姿态机动规划问题.关键词姿态机动,姿态约束,路径规划,强化学习,鸽群算法,航天器1引言随着航天任务愈发多样,航天器执行任务时要进行大量的姿态机动.在姿态机动过程中,航天器需要满足一定的约束条件.例如,为了获取能量,航天器的光伏电池阵列必须始终保持面对太阳;而对于某些精密器件,在姿
3、态机动过程中却需要避免太阳光直射.除了上述姿态约束,还需要考虑通信天线指向、光学敏感器杂光抑制、机动能力有限等约束.因此,在航天器执行姿态机动任务时,需要在复杂约束条件下进行姿态机动规划,合理的规划是任务执行的重要保障.对于航天器姿态机动规划问题,国内外学者展开了大量研究.传统思路有两种.一种是在线规划法,如半定规划法1、约束检测法2和随机规划法3,但是上述方法普适性差,计算量较大,难以投入工程实用.武长青等人4将约束机动问题归纳为非凸二次约束二次规划问题,利用线性松弛结合评价函数进行迭代,求出姿态优化最优解.Xu等人5提出了一种基于动态迭代的多目标规划(DIMP)方法,但该方法将约束线性化处
4、理,放宽了对路径中间节点高精度的要求.Kjellberg等人6和Tanygin7分别使用A*算法寻找远离姿态禁区的引用格式:华冰,孙胜刚,吴云华,等.一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法.中国科学:技术科学,2023,53:200209Hua B,Sun S G,Wu Y H,et al.A spacecraft attitude maneuvering path planning method based on PIO-improved reinforcement learning(in Chinese).Sci Sin Tech,2023,53:200209,do
5、i:10.1360/SST-2021-0346 2022 中国科学杂志社中国科学:技术科学2023 年第 53 卷第 2 期:200 209SCIENTIA SINICA T群体智能激发汇聚及应用专辑论 文最优路径,但是A*算法在搜索前期效率较差,容易使航天器做无效的姿态机动.另一种思路是确定性解析法,目前该思路的主流方法是势函数法.武长青等人8提出了一种基于对数势函数的多约束姿态机动规划方法.冯振欣等人9在势函数的基础上,引入自适应干扰估计律,增强了控制器的鲁棒性.马广富等人10设计了新型的凸势函数,并设计了基于反步法的控制率.势函数方法存在固有不足:极易陷入局部最小值,且存在目标附近目标不
6、可及问题(goals nonreachable with obstaclesnearby)11.相关研究大多简化了排斥势函数的存在条件,参数设置不当,易造成不必要的姿态机动12.目前,国内外对于姿态机动问题的势函数研究大多停留在虚拟空间内静态的指向约束,约束数量也仅限于23个.将姿态规划和传统路径规划进行相比,在轨的航天器的姿态规划实际上是姿轨耦合问题,而且姿态运动的三自由度耦合性较高,相互影响较大.另外,航天器的姿态机动规划相对于路径规划来说,机动能力较弱但精度要求更高,这对控制机构和规划算法提出了更严格的要求.近年来,以机器学习为代表的人工智能技术在航天领域取得了极大的应用与进展.强化学习
7、是机器学习的范式之一,不需要复杂繁琐的问题建模过程,不需要系统完全可知,便于解决非线性问题13.多约束条件下航天器姿态机动规划问题,属于非线性高维度的最优化问题,适合运用强化学习求解.考虑到星载计算机的计算能力,其中基于策略梯度的强化学习算法计算量较小,适合航天器使用,但是存在策略梯度收敛速度慢的缺点.本文选择群体智能优化算法中的鸽群算法(pigeon-inspired optimization,PIO)来计算策略梯度,进一步减少强化学习算法的计算量,加快收敛.本文研究了多姿态约束条件下的航天器姿态机动规划问题.针对现有姿态机动规划模型复杂、通用性较差和求解精度较差等问题,提出了一种基于PIO
8、改进强化学习的航天器姿态机动规划方法(PIOPGRL).仿真结果表明,在基本策略梯度强化学习算法的基础上,引入鸽群算法计算策略梯度,规划结果成功规避多个动态姿态约束区域,不仅大幅度降低了计算量,同时得到了更好的规划结果.2问题模型构建本文为复杂多约束条件下的航天器保持低可见性制定姿态机动策略,要求航天器在满足太阳能发电的对日定向姿态要求下,通过姿态机动使自身携带的敏感器规避姿态禁区.航天器所面临的姿态约束分为强制指向约束和禁止指向约束.2.1姿态模型航天器本体系Ox y zB B B定义为:O为坐标系原点,位于航天器质心.xB轴,yB轴和zB轴分别与航天器的三个惯性主轴重合.质心轨道坐标系Ox
9、 y zO OO定义为:坐标系原点位于航天器质心,xO轴指向地心,yO轴在轨道平面内,与zO轴垂直并且指向航天器飞行的方向.本文使用姿态角描述航天器姿态,姿态角包括滚转角、俯仰角和偏航角,分别代表航天器绕xB轴,yB轴和zB轴逆时针旋转的角度(图1).2.2姿态约束模型姿态约束包括强制指向约束和禁止指向约束两类.强制指向约束要求包括航天器对日的能量获取约束和对地指向约束.本文中航天器的太阳能帆板朝向与yB轴一致,通信天线朝向与zB轴一致.能量获取约束要求在航天器本体系中,yB轴和太阳位置矢量Rsun的夹角小于1:y RyRRcos,=cos().(1)BBsunsunsun1对地指向约束要求在
10、航天器本体系中,zB轴和地心位置矢量Rearth的夹角小于2:图 1姿态角示意图Figure 1Schematic diagram of attitude angle.中国科学:技术科学2023 年第 53 卷第 2 期201zRzRRcos,=cos().(2)BBearthearthearth2禁止指向约束针对敏感器禁止指向,某些星载敏感器在工作时要求规避强光强热和抑制杂光,因此对于航天器来说存在敏感器姿态禁区.本文假设敏感器中心轴的指向代表敏感器指向,敏感器姿态禁区是圆形区域,航天器质心与该圆形区域圆心的连线定义为敏感器禁止指向.禁止指向约束要求:敏感器中心轴矢量与敏感器禁止指向矢量之间
11、的夹角大于最小约束角.设第i个敏感器的中心轴指向在航天器本体坐标系下的位置矢量为rfiB,敏感器禁止指向j相对于航天器的位置矢量在航天器本体坐标系下表示为rm jB,本文要求rfiB和rm jB的夹角大于最小约束角:rrrrrrcos,=cos.(3)f iBm jBf iBm jBf iBm jB3 基于PIO改进的策略梯度强化学习姿态机动规划方法强化学习可分为三类,包括基于策略、基于价值、基于策略和价值.考虑到星载计算机的计算能力,本文采用的基于有限差分的策略梯度方法(PGRL)属于基于策略的强化学习算法.3.1鸽群算法鸽群算法14是受到鸽群在归巢中的导航过程启发而创造的,算法包括地图指南
12、针算子和地标算子.在地图指南针算子阶段,鸽群中每个个体通过当前种群中的最优解个体与自身的位置和速度进行更新,地图指南针算子公式如下:ttrandtVVXX()=(1)e+(1),(4)iiRtgitttXXV()=(1)+(),(5)iii式中,t是迭代次数,R是地图和指南针因子,是一个0,1的常数.rand是0,1的随机数,Vi(t)和Xi(t)分别是个体i在第t代的速度和位置,Xg是当前种群所有个体的最佳位置.在地标算子阶段,鸽群跟随熟悉地标的精英个体飞行,不熟悉地标的个体将被逐渐舍弃,鸽群的中心位置成为个体速度的参考方向.地标算子的数学表达式如下:N tN t()=(1)2,(6)ppt
13、fitnesstNfitnesstttrandttXXXXXXXX=()()(),()=(1)+()(1),(7)ciNiipiNiiici=1=1pp式中,Np(t)为第t次迭代的个体数目,Xc是剩余鸽群的中心位置,fitness(Xi(t)是个体i在第t次迭代时的适应度函数.3.2基于PIO改进的策略梯度强化学习策略梯度强化学习的基本思想15是基于策略价值函数对的策略进行优化,经过策略的多次迭代逐步逼近并求出最优解.多次迭代评估策略耗时较多,而基于PIO改进的策略梯度强化学习方法使用鸽群算法评估并改进策略,大大加快了收敛速度并且能够探索到更好的策略,提高求解精度.下面阐述使用基于PIO改进
14、的策略梯度强化学习方法进行航天器姿态机动规划的基本步骤.为建立强化学习数据库,首先定义两个辅助坐标系Oxyzearth earthearth和Oxyzsun sunsun,定义分别如式(8)和(9)所示.z=zy=zx,(8)OBearthearthearthy=RRz=xy,(9)Bsunsunsunsunsun式中,Rsun为太阳相对航天器的位置矢量,代表向量叉乘.以不同的对日、对地定向重要性考虑上述两个辅助坐标系,则有:y=y+yy+yz=z+zz+z,(10)ccsunsunearthearthsunsunearthearthsunsunearthearthsunsunearthear
15、th华冰等:一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法202式中,0,1earthsun为权重系数.在式(8)(10)的基础上最终建立强化学习数据库如式(12)所示:EEEy zzzxzxyxx1=arctan,2=arcsin(),3=arctan,(11)cOcOBOBOBOEdnNn EEdnNn EnNEdnNn E1()=11,2()=12,=1,3()=13.(12)因航天器有对日和对地定向需求,本文以航天器不同权重满足对地或对日定向的姿态集组成N组数据的数据库.本文使用姿态角描述航天器姿态,故强化学习的策略u定为航天器的姿态角.设当前强化学习迭代次数为k=1,
16、当前时刻m=1.然后设定鸽群的种群数目为Np,NNk=+1p.根据数据库,种群中第i只鸽子的初始位置为u m()i,则初始化种群分别为u mu mum(),(),()N k12+1.考虑到鸽群算法的特点和强化学习的计算过程,本文改进的关键是使用鸽群算法中的地标算子加速策略梯度的收敛,并将强化学习概念中的策略评价函数选为鸽群算法的适应度函数.适应度函数表达式为fit u mm r u m()=()(),(13)inmi=1f式中,mf是终止时刻,(m)为强化学习概念中的折扣因子.r u m()k是策略的总回报函数,与航天器对地和对日定向精度以及禁止指向姿态约束相关:r u mRmRm()=()+
17、(),(14)id km i j k,RmmmmmRmmmzzyRrr()=1cos(),()1cos(),(),()=cos(),(),(15)d kB kO kB kkm i j kiNNfif i kBm kB,earth2,sun2,sun,=1 j=1-j-2,-j,oJ式中,下标k表示当前迭代次数,Rm()d k,为与对地和对日定向相关的回报函数,No代表航天器敏感器的个数,NJ代表姿态禁区个数.Rm()m i j k,是第i个敏感器中心轴与第j个禁止指向的夹角的回报函数,f j i为回报函数权重系数.借助地标算子更新当前迭代次数的鸽群中心位置,更新种群位置,淘汰远离鸽群中心位置的
18、鸽子后,进入下一次迭代:xxfit xNfit x=,(16)ckiNikikpiNik()=1()()=1()pp()xxrandxx=+,(17)ikikckik(+1)()()()NfixN=2,(18)pkpk+1式中,fix()为取整函数.当N=1p时,鸽群算法停止,计算此时刻的策略梯度:G msign xGm()=().(19)kckk()1更新强化学习的策略,即得到航天器下一时刻的姿态角:u mu mG m(+1)=()+().(20)iik重复式(13)(20),直到所有时刻的姿态角计算完毕,即完成了一次完整的强化学习迭代过程.图2是基于鸽群算法改进的策略梯度强化学习方法进行航
19、天器姿态机动规划的流程图.首先确定航天器所处的轨道和初始姿态,设置多个敏感器在航天器上的位置,同时计算多个姿态禁区在本体系中的坐标.根据时间和轨道信息,可以得到初始的太阳、地心相对于航天器的相对位置矢量,根据对日对地定向需求,就可以计算强化学习所需的数据库.然后,进行基于PIO改进的策略梯度强化学习过程,最终得到多姿态约束条件下的姿态机动轨迹.4仿真实验与分析本文中针对太阳同步轨道上的航天器进行仿真分析.设置了4个动态的敏感器禁止指向,太阳位置矢量中国科学:技术科学2023 年第 53 卷第 2 期203和敏感器禁止指向矢量均为航天器本体系下的单位矢量.仿真时间为600 s,强化学习迭代80次
20、,数据库包含数据数目N取20,鸽群算法地标算子迭代20次.折扣因子m()取0.1,对日定向权重sun取3,对地定向权重earth取0.3,回报函数权重系数f-j-i取20.仿真初始条件如表1所示.航天器初始姿态为xB轴指向航天器速度方向,zB轴指向地心,yB轴由右手规则确定.航天器最大允许角速度的绝对值为0.8/s,最大允许角加速度绝对值为0.02/s.yB轴对日定向精度要求在30以内,zB轴对地定向精度要求在10以内,敏感器指向与禁止指向的夹角要求大于3.航天器携带8个敏感器,所有敏感器指向在航天器本体坐标系中的单位矢量分别为rrrrrCCrCCrCCrCC=0 sin(50deg)cos(
21、50deg),=0 sin(25deg)cos(25deg),=0 sin(25deg)cos(25deg),=0 sin(50deg)cos(50deg),=(37deg)(37deg)1 0 0,=(37deg)(37deg)1 0 0,=(149deg)(138deg)1 0 0,=(149deg)(138deg)1 0 0,(21)fBfBfBfBfBzyfBzyfBzyfBzy-1T-2T-3T-4T-5T-6T-7T-8T式中,C()z和C()y分别代表绕zB轴和yB轴旋转角度,逆时针旋转为正方向.本文选择的仿真起始时刻选在2022年8月,该月份yB轴和太阳位置矢量Rsun的夹角较
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 PIO 改进 强化 学习 杂多 约束 姿态 机动 规划 新方法 华冰
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。