基于生成对抗近端策略优化的机动策略优化算法.pdf
《基于生成对抗近端策略优化的机动策略优化算法.pdf》由会员分享,可在线阅读,更多相关《基于生成对抗近端策略优化的机动策略优化算法.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023年海军 航空大 学学 报海军 航空大 学学 报2023第38卷 第3期Journal of Naval Aviation UniversityVol.38 No.3文章编号:2097-1427(2023)03-0257-05DOI:10.7682/j.issn.2097-1427.2023.03.004基于生成对抗近端策略优化的机动策略优化算法付宇鹏1,邓向阳1,2,朱子强1,高阳1,张立民1(1.海军航空大学,山东 烟台 264001;2.清华大学,北京 100084)摘要:针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优
2、化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于JSBSim开源平台的F-16飞机空气动力学模型。仿真结果表明,本文算法收敛效率高于PPO算法,生成的策略模型具备较好的智能性。关键词:生成对抗模仿学习;近端策略优化;机动决策;强化学习;模仿学习中图分类号:TP181文献标识码:A0 引言自20世纪50年代以来,空战智能博弈一直是军事研究的重点之一。在诸多空战机动策略、姿态控制优化方法研究中,基于人工
3、智能技术的算法取得了长足进步1-5。随着计算机硬件算力的提升和算法的进步,深度强化学习(DRL)技术以其优秀的逼近能力成为近年来的研究热点,其在面对复杂状态空间问题时仍能获得高水平策略模型。传统强化学习算法效率和效果与任务的奖励函数设计密切关联,但空战博弈态势复杂,且六自由度(6-dof)飞机模型具有高阶非线性的特点,因而在训练初期,智能体很难获得正向奖励,致使算法难收敛。模仿学习技术则直接利用专家经验数据生成策略,在自动驾驶、无人机导航控制、机器人等领域被广泛应用6-9,主要分为行为克隆10、逆强化学习11、对抗模仿学习123类算法。但这些算法中,智能体依靠示例数据学习策略,对于空战博弈这类
4、目标不明确的环境表现不佳。因此,将模仿学习和强化学习相结合的算法成为这类环境中生成智能体策略的研究热点5,13-15。本文基于强化学习、模仿学习技术在飞行控制、智能博弈等方面的研究2,4-5,针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,提出了生成对抗式近端策略优化算法(GA-PPO)。在传统PPO算法的策略-价值网络(Ac-tor-Critic)框架基础上,增加判别器(Discriminator)网络,用来判断输入状态-动作是否属于当前策略或专家策略,在策略训练时约束当前策略向专家策略方向更新。1 研究背景1.1 近端策略优化算法强化学习算法包括基于价值、基
5、于策略和二者结合的Actor-Critic方法。本文以Actor-Critic方法为基础。Actor网络即策略网络,记为()st,其中,st表示t时刻状态,表示策略网络参数,策略网络输出动作at(st);Critic网络即价值网络,记为V(st),表示价值网络参数,价值网络用来估计当前策略的回报Rt,表示为:Rt=Ea(|s)t=ttr(st,at)。(1)式(1)中:E()为数学期望;为折扣系数,确保马尔科夫决策过程能够收敛;r为奖励函数,通常在实际环境中根据专家经验设计。强化学习算法目标是使回合回报最大化。在诸多算法中,TRPO16、PPO17等算法稳定性高,收敛效率高,成为了典型的基线算
6、法。以PPO2算法为例,其采用优势函数A来表示策略优劣,以减小方差,提高算法稳定性。A定义为:A(st,at)=E()Rt|st,at-V(st)。(2)实际实现时,定义At来估计A,采用使用较为广泛的广义优势估计(GAE)方法18,定义为:收稿日期:2023-02-24;修回日期:2023-04-13基金项目:国防高层次人才基金项目(202220539、202220540);山东省高等学校“青创团队计划”(2022KJ084)作者简介:付宇鹏(1991),男,讲师,博士。海 军 航 空 大 学 学 报海 军 航 空 大 学 学 报第38卷At=t+()t+1+()T-t+1T-1。(3)其中
7、,t=rt+V(st+1)-V(st),参数用来平衡方差和偏差。此外,算法中利用重要性采样方法(importantsampling)直接剪裁旧策略与新策略的概率幅度,记为ct()=()at|st/,old()at|st。因此,得到PPO2算法的损失函数表示为式(4)(6)。ppo=Etppopolicy()-ppovalue();(4)ppopolicy()=min()ct()At,clip()ct(),1-,1+At;(5)ppovalue()=12Rt-V(st)2。(6)1.2 生成对抗模仿学习算法生成对抗模仿学习(GAIL)算法启发于最大熵逆强化学习(IRL)和生成对抗网络(GAN)。
8、在on-policy算法(如TRPO、PPO等算法)框架基础上,设计判别器D(st,at),用来判断输入的采样数据是生成于专家策略还是当前策略。GAIL算法目标,可理解为匹配当前策略分布与专家策略分布,使判别器无法区分当前策略和专家策略,其损失函数定义为:gaildisc()=E()lnD(s,a)+EE()ln(1-D(s,a);(7)gailpolicy()=E()lnD(s,a)。(8)式(7)(8)表示在GAIL算法中:首先,对当前策略和专家策略E采样,更新判别器参数;而后,以最大化判别器输出更新策略网络参数,此处可将D(s,a)类比于强化学习算法中的状态-动作价值函数Q(s,a)。由
9、于GAIL算法依靠专家数据生成策略,当该数据集包含的策略非最优,或无法达到目标时,生成策略性能将无法保证。因此,本文将强化学习环境探索优势与模仿学习的策略约束优势相结合,提出生成对抗式近端策略优化算法。2 GA-PPO算法GA-PPO算法框图见图1。模型包含价值网络、策略网络和判别器网络,部署时只保留策略网络;经验池包含示例经验池和回合经验池,示例数据池中的轨迹数据三元组(sEt、aEt、sEt+1)由人机对抗和基于规则模型的机机对抗产生。回合经验池中存储当前策略与环境交互所产生的轨迹四元组(st、at、st+1、rt),每回合训练结束后,回合经验池清空。图中包括3类数据流:环境交互数据流,当
10、前策略与环境交互,生成轨迹数据存入回合经验池;DA网络更新数据流,回合结束后,根据式(7),利用梯度下降方法更新判别器网络参数,而后,根据式(8)更新策略网络参数,从而约束当前策略分布向专家策略收敛;AC网络更新数据流,与PPO算法流程相同,根据式(8)更新AC网络。图1 GA-PPO算法框图Fig.1 Framework of GA-PPO algorithm为提高算法收敛速度和稳定性,采用分布式并行计算方式,设置n个分布式rollout worker和1个中心learner。Rollout workers与环境交互,存储回合轨迹数据;回合结束后,计算各自策略梯度并回传learner进行梯度
11、累加,更新网络参数后,广播给各rollout work-er,采集新一轮数据。算法流程如图 2 所示。首先,建立示例经验池DE=1,2,.,n,其中n表示第n条飞行轨迹,即n=(snk,ank,snk+1)。初始化各网络参数和算法超参数。每回合结束后,采样DE和Di,计算策略梯度gaili和ppoi,由learner累加梯度并更新网络参数,最终,输出最优策略网络参数*。输入:示例经验池DE=1,2,.,n,经验数据池Di=初始化网络参数、初始化超参数,n输出:最优策略网络参数*for iteration=1,2,doend for/worker:for worker=1,2,ndoend fo
12、r/learner:,+,gaili,+,ppoiend for策略,old与环境交互,更新Di计算workeri的梯度ppoi,gaili图2 GA-PPO算法流程Fig.2 Flow of GA-PPO algorithm 258第3期付宇鹏,等:基于生成对抗近端策略优化的机动策略优化算法3 实验仿真环境设计实验仿真环境采用OpenAI gym平台框架,飞机空气动力学模型采用JSBSim开源平台的F-16飞机模型,其内部包含基本增稳系统。飞机在高空飞行过程中,机动动作由控制升降舵、副翼、方向舵和油门完成,因此,策略网络输出为舵面偏转角度和油门开度at=el,ai,ru,th。对抗过程中,红
13、方由策略网络控制,蓝方由基于PID控制器的简单规则模型控制。为简化实验复杂度,双方态势全透明,设计状态向量st为:st=,h,V,V,X,ATA,AA。(9)式(9)中:、为飞机自身姿态角;为俯仰角速度;为当前滚转角;h为自身当前高度;V、V、X分别为NED坐标系下的红方和蓝方的速度矢量、速度差矢量和相对位置矢量;ATA为方位角;AA为目标进入角。st均归一化处理。为保证算法收敛,一般设计较为稠密的奖励函数。本文主要考虑角度优势、能量优势和满足发射条件等方面,因此,设计奖励函数rt为:rt=ArAt+RrRt+ErEt;(10)rAt=e-(|1-ATA/|+|1-AA/|)rRt=e-|R-
14、R0|rEt=E/E0。(11)式(10)中,代表权重。此外,还应考虑飞机稳定飞行和保证在指定空域飞行的限制条件,因此,引入边界惩罚项,避免飞机诱导坠地等错误决策出现。4 系统仿真仿真中,红蓝双方初始高度19 km,初始相对水平距离10 km,初始速度150300 m/s,初始任意姿态,仿真步长20 ms,每回合5 min。算法中超参数设计如表1所示。DAC网络结构均采用全连接结构,其中隐藏层激活函数均为ReLu函数,策略网络输出层激活函数为tanh函数,判别器网络输出激活函数为sigmoid函数。损失函数采用Adam方法更新梯度19。表1 GA-PPO算法参数设置Tab.1 Paramete
15、rs of GA-PPO algorithm名称A网络D-C网络值17(256)4417(256)41110-40.20.998名称nbatch sizeDEsize值625611050.95图3给出了回报函数的仿真结果。仿真中,首先利用示例数据对策略模型进行行为克隆预训练,避免智能体在训练初始阶段不收敛。实验中,对比了PPO算法、PPO-SIL20算法和本文的 GA-PPO 算法。GA-PPO-1中为常数,GA-PPO-2表示随仿真回合增加逐渐降低,即训练初期通过模仿学习提高智能体训练效率,训练后期通过强化学习提高其环境的探索能力。结果显示,GA-PPO算法的收敛效率和最终回报要高于PPO算
16、法和PPO-SIL算法。在约200回合前,GA-PPO算法需要训练判别器,因而回报函数略有波动,而后快速升高。GA-PPO-1算法在训练中始终存在示例约束,因而波动较GA-PPO-2更小。图3 回报函数仿真曲线Fig.3 Simulation curve of return function图4给出了价值函数的仿真曲线,即价值网络输出均值仿真,表示约10 s仿真步长的策略价值。为了提高比较的准确性,价值网络输入均为示例数据采样。结果表明,GA-PPO算法较PPO-SIL算法收敛速度更快,原因在于智能体状态空间探索的概率分布更接近示例数据,因而价值网络更新方向更稳定。图4 价值函数仿真曲线Fig
17、.4 Simulation curve of value function图5给出了根据公式(7)得到的判别器目标函数仿真曲线。该函数接近2ln()0.5=-1.38,说明当前策12 00010 0008 0006 0004 0002 0000回报GA-PPO-1GA-PPO-2PPO-SILPPO01 0002 0003 0004 000回合数605040302010价值GA-PPO-1GA-PPO-2PPO-SIL05 00010 00015 000 20 00025 000 30 000仿真步数 259海 军 航 空 大 学 学 报海 军 航 空 大 学 学 报第38卷略接近示例策略,即
18、判别器无法区分当前策略和示例策略。GA-PPO-2中,逐渐减小,因而训练中强化学习算法的更新比重逐渐增加。尽管回报仍逐渐增加,但当前策略与示例策略分布偏差略有增加。结果说明,可以通过调节式(8)和式(5)中的的比例来影响策略分布,选择智能体探索环境或模拟专家策略。图5 判别器目标函数仿真曲线Fig.5 Simulation curve of D-object funtion of discrimination图6给出了红蓝双方均使用GA-PPO生成策略的对抗态势图。红蓝双方初始态势均势,高度5 km,速度200 m/s,相向飞行。a)GA-PPO-1对抗GA-PPO-2模型a)GA-PPO-1
19、 model against GA-PPO-2 modelb)GA-PPO-1模型自博弈b)Self-play of GA-PPO-1 model图6 空战博弈态势图Fig.6 Diagram of air combat play图6 a)中,红方使用GA-PPO-1生成模型,蓝方使用GA-PPO-2生成模型。10 s时,双机对头有进入双环战趋势,而后双方相向飞行处于均势,20 s时红方选择半滚倒转机动迅速调转机头指向蓝方,蓝方处于劣势,爬升急转脱离未果,红方始终保持后半球优势;图6 b)中,红蓝双方均使用GA-PPO-1生成模型自博弈,双机交会后进入剪刀机动,均未能率先脱离,在双方使用相同策
20、略下和初始均势开局情况下,最终收敛于纳什均衡点,与直观态势理解相一致。5 结论本文提出了1种基于GA-PPO的空战机动决策生成算法,能够利用示例数据约束策略优化方向,提高算法收敛效率。同时,结合强化学习环境探索能力,优化当前策略。结果表明,基于GA-PPO算法的策略模型具有较高智能性,较符合专家经验。但算法仍存在一些问题:一方面,利用强化学习技术探索环境能力受限于奖励函数,对空战态势评估函数准确性、引导性、稠密性要求较高;另一方面,示例数据的多峰或非最优性问题未得到根本的解决。此外在模型实际部署模拟器进行人机对抗时,应考虑对手变化带来的迁移问题,在未来工作中需要进一步优化。参考文献:1WANG
21、 ZHUANG,LI HUI,WU HAOLIN,et al.Improv-ing maneuver strategy in air combat by alternate freezegames with a deep reinforcement learning algorithmJ.Mathematical Problems in Engineering,2020,2020:7180639.2付宇鹏,邓向阳,朱子强,等.基于PPO-SIL算法自博弈的近距空战机动决策方法C/首届空中智能博弈论坛.成都:中国指挥与控制学会,2022:138-143.FU YUPENG,DENG XIANGY
22、ANG,ZHU ZIQIANG,et al.A self game decision method for short range aircombat maneuver based on PPO-SIL algorithmC/TheFirst Air Intelligence Game Forum.Chengdu:Chinese In-stitute of Command and Control,2022:138-143.(in Chi-nese)3POPE A P,IDE J S,MIOVI D,et al.Hierarchical rein-forcement learning for a
23、ir-to-air combatC/2021 Interna-tional Conference on Unmanned Aircraft Systems(ICU-AS).Piscataway,NJ,USA:IEEE,2021:275-284.4付宇鹏,邓向阳,何明,等.基于强化学习的固定翼飞机GA-PPO-1GA-PPO-2-0.3-0.4-0.5-0.6-0.7-0.8-0.9D目标函数05 00010 00015 000 20 000 25 000 30 000 x/kmy/kmz/kmredblue仿真步数x/kmy/kmz/kmredblue 260第3期付宇鹏,等:基于生成对抗近端
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 生成 对抗 策略 优化 机动 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。