基于深度强化学习的海上编队防空任务分配.pdf
《基于深度强化学习的海上编队防空任务分配.pdf》由会员分享,可在线阅读,更多相关《基于深度强化学习的海上编队防空任务分配.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:2022-04-13修回日期:2022-06-08基金项目:海军工程大学科研发展基金自主立项资助项目(425317S107)作者简介:卢锐(1999),男,湖北黄冈人,硕士研究生。研究方向:智能算法。*摘要:针对目前海上编队防空任务分配综合效益低,实时性较差等问题,提出了一种基于深度强化学习的海上编队防空任务分配方法。考虑来袭目标威胁度和武器数量等因素,从毁伤效能出发,构建任务分配问题优化模型。在此基础上,将问题转换成马尔可夫决策过程,定义深度强化学习求解所需的状态空间,动作空间与奖励函数。使用了两种结构简单的深度强化学习算法 DQNReg 和 DQNClipped 对模型进行优化求
2、解,实现较优的任务分配。仿真结果表明,相比于传统的智能优化算法,基于深度强化学习的海上编队防空任务分配方法能够实现综合效益值更高的任务分配,且求解时间更短,证实了所提方法的有效性。关键词:防空作战;任务分配;深度强化学习;智能优化中图分类号:TP181文献标识码:ADOI:10.3969/j.issn.1002-0640.2023.06.006引用格式:卢锐,彭鹏菲.基于深度强化学习的海上编队防空任务分配 J.火力与指挥控制,2023,48(6):35-41.基于深度强化学习的海上编队防空任务分配*卢锐,彭鹏菲(海军工程大学电子工程学院,武汉430030)Maritime Formation
3、Air Defense Task Assignment Based onDeep Reinforcement LearningLU Rui,PENG Pengfei(College of Electronic Engineering,Naval University of Engineering,Wuhan 430030,China)Abstract:Aiming at the problems of low comprehensive benefits and poor real-time performanceof task assignment for maritime formatio
4、n air defense,a maritime formation air defense task assignmentmethod based on deep reinforcement learning is proposed.Firstly,considering the threat degree of theraid-goal and the number of weapons,the optimization model of task assignment problem is built fromthe aspects of damage efficiency.On thi
5、s basis,the problem is transformed into a Markov decision-making process,and the state space,action space and reward function required by deep reinforcementlearning are defined.Finally,two simple structured deep reinforcement learning algorithms DQNReg andDQNClipped are used to optimize and solve th
6、e model to achieve better task assignment.The Simulationresults show that compared with the traditional intelligent optimization algorithm,the maritime formationair defense task assignment method based on deep reinforcement learning can achieve highercomprehensive benefit value of task assignment,an
7、d the solving time is shorter,the effectiveness of theproposed method is proven.Key words:air defense combat;task assignment;deep reinforcement learning;intelligent optimizationCitation format:LU R,PENG P F.Maritime formation air defense task assignment based on deepreinforcement learning J.Fire Con
8、trol&Command Control,2023,48(6):35-41.0引言现代空袭目标技战术性能的快速提高给海上编队协同反导带来了巨大挑战,防空作战形势日趋严峻。编队间协同目标分配的快速确定和优化,是提高对空作战能力,保护编队生命力的关键。程明文章编号:1002-0640(2023)06-0035-07Vol.48,No.6Jun,2023火 力 与 指 挥 控 制Fire Control&Command Control第 48 卷第 6 期2023 年 6 月35(总第 48-)火 力 与 指 挥 控 制2023 年第 6 期提出一种目标分配方法,基于受限时段资源对舰艇防空武器进行了
9、合理的调度,得到多目标拦截武器分配方案1。周菁提出的目标分配算法为每个个体安排最佳的攻击目标,使集群的协同攻击效能最大2。白建保等提出了一种基于命中概率模型的反舰导弹目标分配方法,完善了相关数学模型3。曹璐提出了基于决策图贝叶斯优化算法的多无人艇协同目标分配方法,结合约束条件构建了多无人艇协同目标分配数学模型4。孙鹏等研究了基于突发事件的任务分配,将目标函数设为最小完成时间,通过贪婪算法进行可执行任务的动态分配,但此研究忽略了任务截止时间的约束5。上述传统方法虽然快速有效但是理论性不强,且需要大量的专业知识和试错,无法被广泛使用,并且这些启发式算法只是针对某一特定环境求取最优解,面对环境变化时
10、,往往需要重新求解,实时性差。而强化学习算法拥有自决策的特点,可以根据战场状态进行快速响应和调整,但其在解决大规模问题和维度较高时性能较差,深度强化学习的出现可以有效解决此难题。MNIH 等提出了 DQN网络6,其同时具有强化学习和深度学习的特点,其有效性在多个领域得到了证实,并不断被更新优化。朱建文等使用 Q-Learning 算法对导弹的选取和分配方式进行智能决策7。代琪等提出了一种基于强化学习与深度神经网络的算法,在动态多无人机任务分配问题的求解中具有良好的性能8。黄亭飞等采用一种基于深度 Q 网络(DQN)的模型对无人机动态任务分配问题进行了求解9。丁振林等提出一种基于强化学习与深度神
11、经网络的动态目标分配算法,火力拦截成功率得到明显的提升10。龙腾等提出了一种基于神经网络的防空武器目标智能分配方法,能得到相对最优的分配方案11。相关研究虽然在一定程度上弥补了传统算法的不足,但缺乏对实际战场环境下的编队协同防空任务分配数学模型的适应性改进,综合效益值仍有上升空间。本文在现有研究的基础上,建立和完善相关数学优化模型,提出了一种基于深度强化学习的海上编队协同防空任务分配方法,利用两种结构简单的深度强化学习算法对模型求解,进行任务分配的决策,可在时间成本较低的情况下实现较高的任务分配综合效益值。1问题描述和系统模型在任务分配问题中,目标函数的合理选择,是较为重要的一个环节,是算法求
12、解的对象,并且目标函数侧重的方面会根据研究者所关注的问题不同而有所区别,但一般来说都表述为一个极值问题12。如图 1 所示,本文将编队内各火力平台看作一个整体,假设共有 k 艘舰船,共 m 个防空火力单元,空中来袭目标共有 n 批,各个目标对编队的威胁度为 棕j(j=1,2,n)。图 1任务分配示意图Fig.1Schematic diagram of the task assignment假设 Pij为第 蚤 个防空火力单元对第 躁 个空中目标的射击有利度(杀伤概率),每个空中目标被分配给火力单元的最大值为 L。当空中目标被分配的所有火力射击有利度之和大于 时即被移除出分配对象范畴。第 Xi个
13、防空火力单元打击第 j 个空中目标表示为 Xij,且有:则基于毁伤效能指标的综合效益值目标函数可以表示为:(1)约束条件如下:(2)2深度强化学习基本原理强化学习是人工智能领域重要的分支,是无监督学习的代表算法,目前已在众多大规模决策问题中得到应用。强化学习主要包含智能体、环境、行动、奖励 4 个要素,通过智能体采取行动与环境进行交互,获得相应奖励并不断调整策略的方式进行学习。深度强化学习则是深度神经网络与强化学习结合的产物,利用神经网络来解决传统强化学习状态过多无法存储的问题。本章主要介绍深度强化学360990(总第 48-)习算法相关理论知识。2.1马尔可夫决策过程当系统的下一个状态与之前
14、状态无关,只由当前状态决定时,则称该系统具有马尔可夫性,可以根据当前状态和采取的动作来对未来状态和获取的奖励进行预测。马尔可夫决策过程则是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报,可用元组(S,A,P,r,酌)来表示。其中,S 表示有限数量的状态集合,A 为动作集合,P 为状态转移概率,r 为奖励函数,酌 为折扣因子。完整过程如图 2 所示,在时刻 t,智能体从环境中观测状态 st沂S,根据策略 仔(a|s)选择动作 at沂A,执行该动作并以概率转移到下一个状态,同时接收环境反馈的奖励 r。图 2马尔可夫决策过程框图Fig.2The Mark
15、ov decision-making process block diagram2.2DQN强化学习中有一类基于值函数的算法,Q-learning 则是其中具有代表性的一种。它通过表格式存储各状态动作对 Q 值的方式来记录探索过程中每个策略对应的价值,但当应用场景状态空间和动作空间维度较大时,表格式存储变得难以实现。受神经网络强大的拟合非线性函数能力启发,相关研究人员提出用神经网络替代表格式存储 Q 值的方法,通过训练来对 Q 价值函数进行拟合,即深度 Q网络(DQN)。DQN 使用参数化的神经网络来对 Q 函数进行拟合逼近,找到最优的策略。训练的损失函数为:(3)其中,;兹i是神经网络各节点
16、对应的参数。训练过程中,DQN 创新性地提出了经验回放技术,将每一步探索对应的状态、动作、奖励作为训练数据存入经验回放池,并进行随机重复的数据采样。不仅打破了样本之间的相关性,还提高了数据的使用效率。3基于深度强化学习的模型求解3.1问题转换利用深度强化学习方法研究协同防空任务分配问题,需将协同防空任务分配问题转化为马尔可夫决策过程,便于问题的表示和解决,然后定义状态空间、动作空间与奖惩函数如下。3.1.1状态空间本文将来袭目标和舰船的特征视为状态,并用3 个矩阵表示。第 1 个为杀伤概率矩阵,第 2 个为来袭各目标相对威胁度,第 3 个为当前步长分配结果矩阵。例如 3 艘舰船对 3 个来袭目
17、标进行火力打击,则状态矩阵表示如下:,3.1.2动作空间在海上编队协同防空场景下,对于编队火力单元来说,动作空间为在当前状态下各舰船可采取动作的集合,表示为 C=a1,a2,ap。假设可选动作:1)攻击威胁度最大的来袭目标;2)攻击火力单元杀伤概率最大的来袭目标;3)攻击上级指定的目标;4)攻击重点目标;5)攻击射击有利的目标;6)攻击先到达的目标。3.1.3奖励函数奖励函数的选取深度强化学习的最终目的就是使累计奖励最大化,其效果与奖励函数的选取息息相关。累计奖励即每个动作产生的奖励总和,代表所有短期奖励产生的短期影响累积。根据协同防空任务分配问题的数学描述,算法的最终目标是最大化综合效益值
18、Z1:(4)每个动作的奖励设置如下:(5)3.2算法流程本 文 使 用 在 Evolving Reinforcement LearningAlgorithms13一文中提到的两个算法,他们在众多环境测试中均优于传统 DQN,网络结构简单,效率更高。两种表现较好的算法 DQNReg 和 DQNClipped具体如下:设(6)卢锐等:基于深度强化学习的海上编队防空任务分配370991(总第 48-)火 力 与 指 挥 控 制2023 年第 6 期3.2.1DQNClippedDQNClipped 是 DQN 在 3 种训练环境(LunarLander、Mini Grid-Dynamic-Obsta
19、cles-5,5Mini GridLava GapS5)中自举训练出来的。它在训练和未见环境中的表现都优于 DQN 和 Double DQN,DuelingDQN。其损失函数表明,如果 Q 值过大(当 Q(st,at)啄2+Yt),损失将作用于最小化 Q(st,at)而不是传统的 啄2。或者可认为当 啄 足够小时,损失只是为了最小化 Q(st,at)。具体损失函数如下:(7)3.2.2DQNRegDQNReg 是 DQN 在 3 种训练环境(Key CorridorS3R1,Dynamic-Obstacles-6x6,DoorKey-5x5)中通过自举训练出来的。与 DQNClipped 相比
20、,DQNReg 直接用一个始终有效的加权项来规范 Q 值,但两个损失函数都为了将 Q 值正则化为较低的值而修改了原始的 DQN 损失函数。DQNReg 虽然相当简单,但它在众多公开训练和测试环境中,包括从经典控制和 Minigrid 中,都与基线相匹配或超过了基线。在一些测试环境(Simple Crossing S9N1、Door Key-6x6和 Unlock)中表现特别好,并在其他方法无法获得任何奖励时解决了这些任务。因此,它更稳定,种子之间的差异更小,在测试环境(Lava GapS5、Emp-ty-6x6、Empty-Random-5x5)上的采样效率更高。损失函数如下:(8)神经网络的
21、训练是一个最优化问题,最优化一个损失函数 loss function,也就是标签和网络输出的偏差,目标是让损失函数最小化。为此,需要有样本,巨量的有标签数据,而 Q-learning 利用 Reward 和 Q计算出来的目标 Q 值即可作为标签,DQN 网络结构如图 3 所示。第 1 层为状态空间输入层,之后连接 3个卷积层,在进行卷积操作后,将提取的特征通过全连接层输出 Q 值,卷积层激活函数选用 Relu。图 3DQN 网络架构Fig.3DQN network architecture然后通过反向传播使用梯度下降的方法来更新神经网络的参数。在 DQN 中强化学习 Q-Learning算法和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 强化 学习 海上 编队 防空 任务 分配
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。