基于分层强化学习的无人机空战多维决策_张建东.pdf
《基于分层强化学习的无人机空战多维决策_张建东.pdf》由会员分享,可在线阅读,更多相关《基于分层强化学习的无人机空战多维决策_张建东.pdf(17页珍藏版)》请在咨信网上搜索。
1、第 44 卷第 6 期2 0 2 3 年 6 月兵工学报ACTA AMAMENTAIIVol 44 No 6Jun2023DOI:10 12382/bgxb 2022 0711基于分层强化学习的无人机空战多维决策张建东1,王鼎涵1,杨啟明1,史国庆1,陆屹2,张耀中1(1 西北工业大学 电子信息学院,陕西 西安 710072;2 沈阳飞机设计研究所,辽宁 沈阳 110035)摘要:针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实
2、现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合 Soft Actor-Critic 算法和专家经验训练和建立元策略组,并改进传统的 Option-Critic 算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。关键词:无人机空战;多维决策;分层强化学习;Soft Actor-Critic 算法;Option-Critic 算
3、法中图分类号:V279文献标志码:A文章编号:1000-1093(2023)06-1547-17收稿日期:2022-08-13基金项目:陕西省自然科学基础研究计划项目(2022JQ-593);陕西省科技厅重点研发计划项目(2022GY-089)Multi Dimensional Decision Making for UAV Air Combat Based onHierarchical einforcement LearningZHANG Jiandong1,WANG Dinghan1,YANG Qiming1,SHI Guoqing1,LU Yi2,ZHANG Yaozhong1(1 Sc
4、hool of Electronics and Information,Northwestern Polytechnical University,Xian 710072,Shaanxi,China;2 AVIC Shenyang Aircraft Design and esearch Institute,Shenyang 110035,Liaoning,China)Abstract:To solve the intelligent decision-making problem in the process of UAV air combat,a multi-dimensional deci
5、sion-making model for UAV intelligent air combat based on the hierarchical reinforcementlearning architecture is established,allowing the autonomous decision-making of air combat to beextended from a single-dimensional maneuver decision to a multi-dimensional one including radar switch,active jammin
6、g,formation conversion,target detection,target tracking,interference avoidance,weaponselection,etc,so that autonomous decision-making in the main steps of air combat is realized In orderto solve the problems of state-space complexity and low learning efficiency of the decision-making modelafter the
7、dimension expansion,a meta-strategy group is trained and established with the Soft Actor-Criticalgorithm and expert experience,and the traditional Option-Critic algorithm is improved The strategytermination function is designed and optimized to improve the flexibility of strategy switching and reali
8、zeseamless multi-dimensional decision-making switching in air combat The experimental results show thatthe proposed method has good countermeasure effectiveness for the multi-dimensional decision-makingduring the whole process of UAV air combat,which can control the agent to flexibly switch amongint
9、erference,search,strike,and avoidance strategies according to different battlefield situations with thepurpose of improving the performance of traditional algorithms and the efficiency of solving complex兵工学报第 44 卷decision-making processesKeywords:UAV air combat;multi-dimensional decision-making;hier
10、archical reinforcement learning;Soft Actor-Critic algorithm;Option-Critic algorithm0引言现代空战以决策速度快、机动性能高、态势感知能力强、高鲁棒性等特点为核心,然而有人机受人类生理极限限制,无法发挥出战斗机的极限性能。无人机摆脱了人类生理极限,但机动控制由地面指挥,决策速度慢,若大幅延长观察、判断、决策、行动(OODA)环的时间则容易错失战机,因此智能化无人机空战自主决策成为当今的研究热点。随着 OODA 3.0 概念的提出1 以及人工智能技术的不断发展,无人机在机动决策等单一维度的决策方面已经实现了一定程度的
11、自主化,并且在某些方面已经达到或者超越了人类飞行员的水平。然而,空战过程是一个复杂的多维决策过程,要完成空战的自主化决策,必须要实现多个维度的协同自主化决策。因此无人机多维空战决策一直是该领域亟需攻克的难关,其对实现完全无人化空战的终极目标至关重要。当前对无人机自主决策的诸多研究都集中在机动决策方面,通过深度 Q 网络(DQN)2、深度确定性策略梯度(DDPG)3 5、Actor-Critic 等深度强化学习算法来实现对无人机的机动控制。但这些方法有着超参数敏感、策略选择单一、无法解决多维决策问题6 等缺点,无法很好地满足无人机空战对于快速收敛、高鲁棒性及多维决策的要求。事实上,空战决策除了机
12、动决策外,还包括传感器决策、武器决策、干扰决策等各方面多维度的决策。相比而言,分层强化学习凭借着其能够进行空间分解和分层训练的优势,有望使无人机具备充足的策略,从而完成复杂的作战任务。目前,已经有很多学者使用分层强化学习方法对无人机多维决策的相关问题进行了探索性研究。王俊敏等7 在空战编队协同上应用了分层策略,但关键的观测数据并未给出,无法进行有效训练。付跃文等8 应用了分层优化方法解决了无人机之间协作任务规划模块设计,证实了空战决策空间建模的可行性。文永明等9 研究了一种无人机机群对抗多耦合任务智能决策方法,采用分层强化策略训练方法,提出混合式深度强化学习架构,完成了无人机突防侦察任务及目标
13、的协同分配任务,证实了分层架构的有效性。程先峰等10 采用一种基于MAXQ 的 Multi-agent 分层强化学习的无人机协调方法,增强了无人机在混合运行复杂环境下适应环境和自协调的能力。吴宜珈等11 提出基于选项的近端策略分层优化算法,用来解决近端策略优化算法在空战智能决策过程中面临的动作空间过大、难以收敛的问题。通过对相关文献的分析可以看出,目前在无人机多维决策方面的研究还不够完善,所研究问题的规模都比较小,决策维度与现实差距较大,导致其应用环境过于简单。与此同时,以美国为代表的军事强国正在紧锣密鼓地开展将人工智能技术应用于无人机复杂作战任务的相关实验验证。2021 年美国洛克希德马丁公
14、司于美国国防部高级研究计划局(DAPA)举办的 Alpha 狗斗(ADT)比赛中展示了其最新研发的分层强化学习算法适应性新颖策略生成的操作层级结构(PHANG-MAN12),成功地将分层强化学习方法应用到无人机空战决策中,实现了多维空战决策中的追击决策、规避决策、打击决策。该算法在 ADT决赛中斩获第二,并击败了美国空军 F-16 武器教练课的毕业生。该算法充分体现了分层强化学习在解决多维空战决策问题中的策略模块化、智能化、去中心化的特点,这一实验结果表明美军在无人机多维决策方面已经达到了很高水平。此外,其他相关研究13 21 均表明深度强化学习在空战中的理论可行性。因此,进行无人机多维自主决
15、策的应用研究具有一定的理论意义和使用价值。本文以无人机一对一(1v1)、集群四对四(4v4)的红蓝空战对抗任务为场景,基于分层强化学习的架构建立无人机智能空战的多维决策模型,采用Soft Actor-Critic 算法训练底层单元策略,并结合专家经验建立元策略组,扩展了决策的维度。改进传统的 Option-Critic 算法,设计优化了策略终止函数,提高了策略切换的灵活性,实现了空战中多个维度决策的无缝切换。为了较好地完成目标打击任务,设计雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择与目标打击共 7 种元策略。以贪心算法作为顶层元策略选择策略,完成智能多维空战自主决策。
16、仿真实验结果表明,训练完成后的无人机8451第 6 期基于分层强化学习的无人机空战多维决策可以灵活地完成元策略的切换调用,能够以丰富的元策略组合完成更高层次的作战决策,体现了分层强化学习算法在提升无人机自主决策维度上的应用潜力。1空战决策维度分解根据空战 OODA 环的概念,第 1 步需要确定目标方位。本文设定双方雷达探测能力一致,为实现先敌发现,需要构建高效的搜索方法。贯穿整个空战过程的雷达探测至关重要,它有着确定目标精确方位、攻击引导的作用。在打击前,应确保目标不丢失,因此需要我机雷达能够持续照射目标,同时规避目标的电磁干扰。在目标探测过程中,被动雷达能够在电磁静默情况下确定目标方位。然而
17、单架飞机的被动探测仅能确定目标方向,无法精确确定目标的坐标。若要完成精确探测,则需要至少两架飞机协同探测。为降低因雷达开机暴露位置的风险,需要对雷达资源做合理的分配。在编队内,对于距离较近、航向差较小的我机,仅需开启其中一个雷达,因此需要给出合理分配雷达资源的数学模型和规则模型。在打击目标前,需要判断目标的距离以及自身剩余的导弹数量和种类以选择合适的导弹类型。打击目标时,应该确保我机安全,采用合理的干扰策略,避免暴露位置。在多机作战过程中,编队往往能够最大化作战能力,最小化作战损耗。常用的编队模型为长机僚机编队。作战伊始通过合理的编队布局增强战力,作战过程中遇到队形破坏可以采用队形转变策略重组
18、编队,维持整个作战过程中的战力。综上所述,整个空战流程涵盖了雷达开关、主动干扰、队形转换、目标探测、武器选择、目标打击、目标追踪、干扰规避策略,空战中的主要决策环节如图 1 所示。1.1雷达开关策略模型为了降低因雷达开机暴露位置的风险,飞机往往会在非必要时刻关闭雷达,处于电磁静默状态。本文构建了雷达开关模型,分析探测重叠区域,给出了雷达开关判定规则。为避免探测资源浪费,并降低暴露位置风险,分析了雷达探测重叠区域,如图 2 所示。图 2 中,表示雷达的探测半角,1和 2分别表示两架飞机的航向角。设 d 表示两机的间距,则无人机进入判决区域图 1空战全流程分析Fig 1Analysis of th
19、e whole air combat process图 2雷达探测重叠区域分析Fig 2Overlapping area analysis of radar detection的条件如式(1)所示:drsin 1 2(1)式中:r 为雷达探测距离。式(1)表述了两机间距及两机航向角度差值小于阈值时,两机处于判决区域,需要关闭其中一架飞机的雷达。设定判决状态变量 p,如果满足判决公式,则判决变量 p 置为 1,否则置为 0,具体的判定规则如下:1)若 p=1,则关联判决友机编号(id)为 ip,本机 id 为 im,根据全局判定列表(p,ip,im),观察是否存在重复 ip,若存在则不开启 im
20、=ip飞机的雷达,开启 ipim飞机的雷达。否则开启长机雷达。9451兵工学报第 44 卷2)所有不在全局列表中的无人机全部开启雷达。模型输入为我机的坐标、航向、雷达开关状态,输出为雷达的开机频点,0 表示关机,非 0 表示开机相应频点。1.2主动干扰策略模型为了实现瞄准式干扰,本文构建了主动干扰模型,分析了干扰区域,给出了干扰规则。实施干扰前,我机需要确定被干扰目标的雷达频点,记为 rt。若目标处于我机主动雷达的照射范围内且不受目标干扰时,则我机可以获取到目标雷达开机频点的观测信息。此时仅需将我机的干扰频点 rj设置为目标的雷达频点即可完成瞄准式干扰,即满足:rt=rj(2)模型的输入为目标
21、的开机频点,未探测到时奖励记为 0,探测到 n 个目标干扰频点,奖励记为 n。输出为我机的开机频点。1.3队形转换策略模型为了提高协同效能,构建队形转换模型,建立长机僚机编队模型,考虑到作战过程中被破坏的情况给出了编队重组方案。初始时刻我方编队为两两一组,以长机僚机形式编队,长机执行搜索攻击任务,僚机进行探测干扰任务,掩护长机。若长机被击毁,僚机将接替长机位置完成攻击与目标探测等任务。长机 id 记为idl,僚机 id 记为 idf。构建编队列表与全局编队 idl,idf ,若作战过程中因战损导致编队结构被破坏,则可以通过判断编队列表进行编队重组。例如,编队 1 长机被击毁,记 idl,idf
22、。若整队成员全部被击毁,则将该编队列表移出全局编队。编队重组通过遍历所有编队,根据编队列表中是否存在负值筛选不完整编队,不完整编队数量记作 N,重组编队数记作 T,有T=N%2(3)无法重组编队数记为 L,有L=N 2T(4)重组的编队根据遍历顺序赋予长机或僚机职能,无法重组的单机单独完成作战任务。模型的输入为我机编队的位置坐标、航向及我机的存活状态,输出为我机的航向。1.4目标探测策略模型为实现目标的快速定位,本文构建目标探测模型,提出基于人工势场的主动搜索方法,构建搜索圆域模型,设计被动搜索方案。为确保主动搜索时编队的分布式搜索,采用人工势场维持我方无人机之间的距离,主要采用人工势场中的斥
23、力场,我机编队在分布式搜索过程中应避免搜索区域的重复。通过定义势场函数,当友机间距离过近时,势场的斥力趋近无穷;当友机间距离超过指定值时,势场的斥力减少到 0 N。定义(q)为我机到其他友机自定义可调圆形边界 QO 的距离:(q)=minqQOq q(5)式中:q 为我机当前位形;q为边界位形;QO 表示空间障碍区域的边界。定义 0为一个障碍物影响的距离,当我机 q 距离障碍(即友机)距离大于 0时,不会排斥 q。符合上述标准的势函数描述为Urep(q)=12(1(q)1)02,(q)00,(q)0(6)式中:为比例系数。排斥力为 Urep(q)的负梯度,当(q)0时,排斥力为Freq(q)=
24、(1(q)1)012(q)(q)(7)如果 QO 为凸函数,b 是 QO 边界上最接近 q 的点,则(q)=q b(8)其梯度为(q)=q bq b(9)被动探测方面,被动雷达通过吸收敌方电磁波照射获取目标相对于自身的方位。被动探测的优点是能够在不发射电磁波的情况下对目标进行探测,缺点是精度较差,单架飞机仅能测得辐射来源的粗略方向,需要至少两架无人机协同被动探测目标才能实现目标位置的准确计算。多机协同作战可利用被动雷达定位目标位置,当编队内有我机被动接收到目标信号时,友机配合支援,从不同方向进行同步雷达搜索,可以快速定位目标,并进行打击(干扰,打击协同一体化),但前提是目标不丢失。目标丢失分两
25、种情况:1)目标被其他友机摧毁;2)目标雷达照射区域脱离被动探测区域(例如突然改变方向等)。针对第 1 种情况,可以通过设计并检查全局摧毁列表来解决;针对第 2 种情况,放弃被动探测方法,直接开启主动雷达搜寻目标。0551第 6 期基于分层强化学习的无人机空战多维决策具体的搜索方法为:我机 1 被动探测到目标,主动雷达并没有探测到;我机 1 根据自身坐标位置及航向确定假想目标最远位置(被动探测能够确定目标方向,因此可以确定目标在该方位线上最远距离dmax到最近距离 dmin之间),第 1 次记录的点记为 pv(xv,yv),此时调动距离最近的友机前来支援,但是最近的友机也可能受到目标的干扰,此
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分层 强化 学习 无人机 空战 多维 决策 张建东
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。