分销赏收藏举报申诉 / 7

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于深度强化学习的海上编队防空任务分配.pdf

基于深度强化学习的海上编队防空任务分配.pdf

上传人：自信****多点

文档编号：582828

上传时间：2024-01-02

格式：PDF

页数：7

大小：2.02MB

《基于深度强化学习的海上编队防空任务分配.pdf》由会员分享，可在线阅读，更多相关《基于深度强化学习的海上编队防空任务分配.pdf（7页珍藏版）》请在咨信网上搜索。

1、收稿日期：2022-04-13修回日期：2022-06-08基金项目：海军工程大学科研发展基金自主立项资助项目（425317S107）作者简介：卢锐（1999），男，湖北黄冈人，硕士研究生。研究方向：智能算法。*摘要：针对目前海上编队防空任务分配综合效益低，实时性较差等问题，提出了一种基于深度强化学习的海上编队防空任务分配方法。考虑来袭目标威胁度和武器数量等因素，从毁伤效能出发，构建任务分配问题优化模型。在此基础上，将问题转换成马尔可夫决策过程，定义深度强化学习求解所需的状态空间，动作空间与奖励函数。使用了两种结构简单的深度强化学习算法 DQNReg 和 DQNClipped 对模型进行优化求

2、解，实现较优的任务分配。仿真结果表明，相比于传统的智能优化算法，基于深度强化学习的海上编队防空任务分配方法能够实现综合效益值更高的任务分配，且求解时间更短，证实了所提方法的有效性。关键词：防空作战；任务分配；深度强化学习；智能优化中图分类号：TP181文献标识码：ADOI：10.3969/j.issn.1002-0640.2023.06.006引用格式：卢锐，彭鹏菲.基于深度强化学习的海上编队防空任务分配 J.火力与指挥控制，2023，48（6）：35-41.基于深度强化学习的海上编队防空任务分配*卢锐，彭鹏菲（海军工程大学电子工程学院，武汉430030）Maritime Formation

3、Air Defense Task Assignment Based onDeep Reinforcement LearningLU Rui，PENG Pengfei（College of Electronic Engineering，Naval University of Engineering，Wuhan 430030，China）Abstract：Aiming at the problems of low comprehensive benefits and poor real-time performanceof task assignment for maritime formatio

4、n air defense，a maritime formation air defense task assignmentmethod based on deep reinforcement learning is proposed.Firstly，considering the threat degree of theraid-goal and the number of weapons，the optimization model of task assignment problem is built fromthe aspects of damage efficiency.On thi

5、s basis，the problem is transformed into a Markov decision-making process，and the state space，action space and reward function required by deep reinforcementlearning are defined.Finally，two simple structured deep reinforcement learning algorithms DQNReg andDQNClipped are used to optimize and solve th

6、e model to achieve better task assignment.The Simulationresults show that compared with the traditional intelligent optimization algorithm，the maritime formationair defense task assignment method based on deep reinforcement learning can achieve highercomprehensive benefit value of task assignment，an

7、d the solving time is shorter，the effectiveness of theproposed method is proven.Key words：air defense combat；task assignment；deep reinforcement learning；intelligent optimizationCitation format：LU R，PENG P F.Maritime formation air defense task assignment based on deepreinforcement learning J.Fire Con

8、trol&Command Control，2023，48（6）：35-41.0引言现代空袭目标技战术性能的快速提高给海上编队协同反导带来了巨大挑战，防空作战形势日趋严峻。编队间协同目标分配的快速确定和优化，是提高对空作战能力，保护编队生命力的关键。程明文章编号：1002-0640（2023）06-0035-07Vol.48，No.6Jun，2023火力与指挥控制Fire Control&Command Control第 48 卷第 6 期2023 年 6 月35（总第 48-）火力与指挥控制2023 年第 6 期提出一种目标分配方法，基于受限时段资源对舰艇防空武器进行了

9、合理的调度，得到多目标拦截武器分配方案1。周菁提出的目标分配算法为每个个体安排最佳的攻击目标，使集群的协同攻击效能最大2。白建保等提出了一种基于命中概率模型的反舰导弹目标分配方法，完善了相关数学模型3。曹璐提出了基于决策图贝叶斯优化算法的多无人艇协同目标分配方法，结合约束条件构建了多无人艇协同目标分配数学模型4。孙鹏等研究了基于突发事件的任务分配，将目标函数设为最小完成时间，通过贪婪算法进行可执行任务的动态分配，但此研究忽略了任务截止时间的约束5。上述传统方法虽然快速有效但是理论性不强，且需要大量的专业知识和试错，无法被广泛使用，并且这些启发式算法只是针对某一特定环境求取最优解，面对环境变化时

10、，往往需要重新求解，实时性差。而强化学习算法拥有自决策的特点，可以根据战场状态进行快速响应和调整，但其在解决大规模问题和维度较高时性能较差，深度强化学习的出现可以有效解决此难题。MNIH 等提出了 DQN网络6，其同时具有强化学习和深度学习的特点，其有效性在多个领域得到了证实，并不断被更新优化。朱建文等使用 Q-Learning 算法对导弹的选取和分配方式进行智能决策7。代琪等提出了一种基于强化学习与深度神经网络的算法，在动态多无人机任务分配问题的求解中具有良好的性能8。黄亭飞等采用一种基于深度 Q 网络（DQN）的模型对无人机动态任务分配问题进行了求解9。丁振林等提出一种基于强化学习与深度神

11、经网络的动态目标分配算法，火力拦截成功率得到明显的提升10。龙腾等提出了一种基于神经网络的防空武器目标智能分配方法，能得到相对最优的分配方案11。相关研究虽然在一定程度上弥补了传统算法的不足，但缺乏对实际战场环境下的编队协同防空任务分配数学模型的适应性改进，综合效益值仍有上升空间。本文在现有研究的基础上，建立和完善相关数学优化模型，提出了一种基于深度强化学习的海上编队协同防空任务分配方法，利用两种结构简单的深度强化学习算法对模型求解，进行任务分配的决策，可在时间成本较低的情况下实现较高的任务分配综合效益值。1问题描述和系统模型在任务分配问题中，目标函数的合理选择，是较为重要的一个环节，是算法求

12、解的对象，并且目标函数侧重的方面会根据研究者所关注的问题不同而有所区别，但一般来说都表述为一个极值问题12。如图 1 所示，本文将编队内各火力平台看作一个整体，假设共有 k 艘舰船，共 m 个防空火力单元，空中来袭目标共有 n 批，各个目标对编队的威胁度为棕j（j=1，2，n）。图 1任务分配示意图Fig.1Schematic diagram of the task assignment假设 Pij为第蚤个防空火力单元对第躁个空中目标的射击有利度（杀伤概率），每个空中目标被分配给火力单元的最大值为 L。当空中目标被分配的所有火力射击有利度之和大于时即被移除出分配对象范畴。第 Xi个

13、防空火力单元打击第 j 个空中目标表示为 Xij，且有：则基于毁伤效能指标的综合效益值目标函数可以表示为：（1）约束条件如下：（2）2深度强化学习基本原理强化学习是人工智能领域重要的分支，是无监督学习的代表算法，目前已在众多大规模决策问题中得到应用。强化学习主要包含智能体、环境、行动、奖励 4 个要素，通过智能体采取行动与环境进行交互，获得相应奖励并不断调整策略的方式进行学习。深度强化学习则是深度神经网络与强化学习结合的产物，利用神经网络来解决传统强化学习状态过多无法存储的问题。本章主要介绍深度强化学360990（总第 48-）习算法相关理论知识。2.1马尔可夫决策过程当系统的下一个状态与之前

14、状态无关，只由当前状态决定时，则称该系统具有马尔可夫性，可以根据当前状态和采取的动作来对未来状态和获取的奖励进行预测。马尔可夫决策过程则是序贯决策的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报，可用元组（S，A，P，r，酌）来表示。其中，S 表示有限数量的状态集合，A 为动作集合，P 为状态转移概率，r 为奖励函数，酌为折扣因子。完整过程如图 2 所示，在时刻 t，智能体从环境中观测状态 st沂S，根据策略仔（a|s）选择动作 at沂A，执行该动作并以概率转移到下一个状态，同时接收环境反馈的奖励 r。图 2马尔可夫决策过程框图Fig.2The Mark

15、ov decision-making process block diagram2.2DQN强化学习中有一类基于值函数的算法，Q-learning 则是其中具有代表性的一种。它通过表格式存储各状态动作对 Q 值的方式来记录探索过程中每个策略对应的价值，但当应用场景状态空间和动作空间维度较大时，表格式存储变得难以实现。受神经网络强大的拟合非线性函数能力启发，相关研究人员提出用神经网络替代表格式存储 Q 值的方法，通过训练来对 Q 价值函数进行拟合，即深度 Q网络（DQN）。DQN 使用参数化的神经网络来对 Q 函数进行拟合逼近，找到最优的策略。训练的损失函数为：（3）其中，；兹i是神经网络各节点

16、对应的参数。训练过程中，DQN 创新性地提出了经验回放技术，将每一步探索对应的状态、动作、奖励作为训练数据存入经验回放池，并进行随机重复的数据采样。不仅打破了样本之间的相关性，还提高了数据的使用效率。3基于深度强化学习的模型求解3.1问题转换利用深度强化学习方法研究协同防空任务分配问题，需将协同防空任务分配问题转化为马尔可夫决策过程，便于问题的表示和解决，然后定义状态空间、动作空间与奖惩函数如下。3.1.1状态空间本文将来袭目标和舰船的特征视为状态，并用3 个矩阵表示。第 1 个为杀伤概率矩阵，第 2 个为来袭各目标相对威胁度，第 3 个为当前步长分配结果矩阵。例如 3 艘舰船对 3 个来袭目

17、标进行火力打击，则状态矩阵表示如下：，3.1.2动作空间在海上编队协同防空场景下，对于编队火力单元来说，动作空间为在当前状态下各舰船可采取动作的集合，表示为 C=a1，a2，ap。假设可选动作：1）攻击威胁度最大的来袭目标；2）攻击火力单元杀伤概率最大的来袭目标；3）攻击上级指定的目标；4）攻击重点目标；5）攻击射击有利的目标；6）攻击先到达的目标。3.1.3奖励函数奖励函数的选取深度强化学习的最终目的就是使累计奖励最大化，其效果与奖励函数的选取息息相关。累计奖励即每个动作产生的奖励总和，代表所有短期奖励产生的短期影响累积。根据协同防空任务分配问题的数学描述，算法的最终目标是最大化综合效益值

18、Z1：（4）每个动作的奖励设置如下：（5）3.2算法流程本文使用在 Evolving Reinforcement LearningAlgorithms13一文中提到的两个算法，他们在众多环境测试中均优于传统 DQN，网络结构简单，效率更高。两种表现较好的算法 DQNReg 和 DQNClipped具体如下：设（6）卢锐等：基于深度强化学习的海上编队防空任务分配370991（总第 48-）火力与指挥控制2023 年第 6 期3.2.1DQNClippedDQNClipped 是 DQN 在 3 种训练环境（LunarLander、Mini Grid-Dynamic-Obsta

19、cles-5，5Mini GridLava GapS5）中自举训练出来的。它在训练和未见环境中的表现都优于 DQN 和 Double DQN，DuelingDQN。其损失函数表明，如果 Q 值过大（当 Q（st，at）啄2+Yt），损失将作用于最小化 Q（st，at）而不是传统的啄2。或者可认为当啄足够小时，损失只是为了最小化 Q（st，at）。具体损失函数如下：（7）3.2.2DQNRegDQNReg 是 DQN 在 3 种训练环境（Key CorridorS3R1，Dynamic-Obstacles-6x6，DoorKey-5x5）中通过自举训练出来的。与 DQNClipped 相比

20、，DQNReg 直接用一个始终有效的加权项来规范 Q 值，但两个损失函数都为了将 Q 值正则化为较低的值而修改了原始的 DQN 损失函数。DQNReg 虽然相当简单，但它在众多公开训练和测试环境中，包括从经典控制和 Minigrid 中，都与基线相匹配或超过了基线。在一些测试环境（Simple Crossing S9N1、Door Key-6x6和 Unlock）中表现特别好，并在其他方法无法获得任何奖励时解决了这些任务。因此，它更稳定，种子之间的差异更小，在测试环境（Lava GapS5、Emp-ty-6x6、Empty-Random-5x5）上的采样效率更高。损失函数如下：（8）神经网络的

21、训练是一个最优化问题，最优化一个损失函数 loss function，也就是标签和网络输出的偏差，目标是让损失函数最小化。为此，需要有样本，巨量的有标签数据，而 Q-learning 利用 Reward 和 Q计算出来的目标 Q 值即可作为标签，DQN 网络结构如图 3 所示。第 1 层为状态空间输入层，之后连接 3个卷积层，在进行卷积操作后，将提取的特征通过全连接层输出 Q 值，卷积层激活函数选用 Relu。图 3DQN 网络架构Fig.3DQN network architecture然后通过反向传播使用梯度下降的方法来更新神经网络的参数。在 DQN 中强化学习 Q-Learning算法和

22、深度学习的 SGD 训练是同步进行的，通过Q-Learning 获取无限量的训练样本，然后对神经网络进行训练，流程如图 4 所示。图 4算法流程图Fig.4The flow chart of the algorithm综上，基于深度强化学习的海上编队协同防空任务分配算法核心步骤如下：Step 1 初始化经验回放 D，价值函数 Q，折扣因子，Q 网络参数为兹；Step 2 输入舰船的各特征值，来袭目标各特征值Step 3 for i=1，M do；for t=1，T doStep 4 初始化状态 s；Step 5 使用着-贪婪算法进行动作选择，即以着的概率随机选取动作空间内的可执行动作，以

23、 1-着的概率选取当前时间步内 Q 值最大的一个动作 at；Step 6 根据动作 at 计算相应的奖励 rt，并转入下一个状态 st+1；Step 7 将（st，at，rt，st+1）存储于 D 中；Step 8 随机从 D 中选取适量的小批量样本（st，at，rt，st+1）；Step 9 使用随机梯度下降法训练网络结构；Step 10 更新参数兹、兹-、Q（st，a；兹）、Qtarget（st，a；兹-）；Step 11 结束循环，保存 Q 估计值网络结构，算法结束。380992（总第 48-）4实例验证为了验证上述两种新的深度强化学习算法，在海上编队协同防空任务分配场景中同样具有优良

24、的性能，设置了一个仿真环境，假设海上编队共有 4艘舰船，共 20 个防空火力单元，空中来袭目标共有12 批（个），各个目标对编队的威胁度和部分武器对目标杀伤概率设置如表 1 和表 2 所示。表 1来袭目标威胁度（目标数 12）Table 1The threat level of raid-goal（the number of goals is 12）表 2武器杀伤概率（目标数 12）Table 2The weapon kill probabilit（the number of goals is 12）深度强化学习算法的神经网络部分实现是基于 TensorFlow 深度学习框架的，实验使用 CP

25、U 为intel（R）Core（TM）i7-8550U，内存为 16GiB，GPU 为NVIDIA GeForce RTX 2080 的计算机。将算法训练1 000 个周期，其余相关参数设置如表 3 所示。由图 5 累计奖励值可以看出，训练刚开始时，算法处于探索阶段，之后随着训练步数不断增长，累计奖励值也随之快速增加。在训练中期，算法定期更新参数会导致增长速度趋稳但略有变化。训练后期，累计奖励值逐渐趋定，并略微有上升，这说明此时已学习到了任务分配的策略。使用的两个新的算法 DQNReg 和 DQNClipped，在仿真环境中具有良好的性能。算法的 Q-eval，cost，total train

26、ing time 随训练时间步的变化如图 6图 8 所示。目标编号123武器 10.430.370.61武器 200.450.150.3240.600.67120.730.41目标编号123威胁度17517842911124552参数名称参数值迭代次数1 000经验池大小10 000 贪婪算法的最终探索值0.1随机梯度下降采样样本大小256学习率0.000 25目标网络的更新频率500 贪婪算法的初始探索值1表 3模型部分参数设置Table 3The partial parameter settings of model图 5累计奖励值Fig.5The Cumulative reward va

27、lue图 6损失值变化Fig.6The change of loss value图 7Q-eval 变化Fig.7The change of Q-eval图 8总体训练时间Fig.8The overall training time卢锐等：基于深度强化学习的海上编队防空任务分配390993（总第 48-）火力与指挥控制2023 年第 6 期图 6 图 8 展现了训练过程中两种算法的各种性能变化，说明了模型在训练的过程中，目标函数被不断地优化，求解模型的有效性得到证实。本文利用现有的 DQN 算法，遗传算法（GA），贪婪算法以及 DQNReg 和 DQNClipped 算法进行防空任

28、务分配训练。实验设为两组，分别是来袭目标为12 批，20 批情况下综合效益值随训练时间步的对比实验。图 9 表示了来袭目标为 12 批次情况下，各算法的综合效益值随时间步的变化情况。可以看出，训练得到的两种算法能实现较大综合效益值。在训练初期，两种训练得到的算法实现的综合效益值基本相同。在中后期，两种算法交叉获取最高效益值，这是因为两种算法有不同的损失函数和分配策略，但均高于其他算法。基于遗传算法的防空武器任务分配耗时平均约为 5.6 s，贪婪随机选择算法平均为10.3 s，而基于深度强化学习的防空武器任务分配耗时均小于 1 s，具体分配方案如表 4 所示。从结果可以看出，在当前仿真环境下，对

29、于来袭目标威胁度较大的目标，分配了多个对该目标杀伤概率大的武器进行打击，以提高防空综合效益值，说明了任务分配方法的有效性。图 10 表示了来袭目标为 20 批次情况下，各算法的综合效益值随训练时间步的变化情况，各个目标对编队的威胁度和部分杀伤概率设置如表 5、表6 所示。当来袭目标增多时，训练所得的算法实现的综合效益值还是明显高于 DQN,GA 和贪婪算法。与之前交叉上升不同的是，在训练后期 DQNReg 明显超过了 DQNClipped，这是因为当来袭目标增多时，各种时间约束则更多，说明训练所得的 DQNReg 算法更适应这种情况。同时也说明了本文训练的算法在任务量增大时依然能实现最大综合效

30、益值。基于遗传算法的防空任务分配耗时平均约为 6.7 s，贪婪随机选择算法平均为 13.5 s，而基于深度强化学习的防空任务分配耗时均小于 1 s，具体分配方案如表7 所示。从具体分配结果可以看出，在来袭目标数量更多的情况下，对于威胁度高的来袭目标，分配了杀伤概率高的火力单元对其进行攻击，证实了任务分配方法的合理性。图 10来袭目标为 20 时Fig.10When the number of raid-goals is 20表 5来袭目标威胁度（目标数 20）Table 5The threat level of raid-goa（when the number of goals is 20）表

31、 6武器杀伤概率（目标数 20）Table 6The weapon kill probability（when the number of goals is 20）表 7分配结果（目标数 20）Fig.7The assignment result（when the number of goals is 20）综上，由各情况下实验结果可以看出，使用的两个新算法在不同情况下的任务分配效果都要明显好于之前的任务分配算法，能实现最大综合效益图 9来袭目标为 12 批次时Fig.9When the target is 12表 4分配结果（目标数 12）Table 4The assignment resu

32、lts（when the number of goals is 12）目标编号123武器编号112，154，9414，16128，20目标编号123威胁度1649624272017目标编号123武器 10.670.730.09武器 200.060.270.8540.620.0950.530.29200.750.82目标编号123武器编号9720415520418400994（总第 48-）值。其中，对于不同的防空任务，两种算法在不同时期分别具有最好的表现，这说明在训练前期和中期，算法拥有不同的分配策略，但总体而言均高于之前已提出的算法，证实了算法的有效性。5结论本文研究了海上编队协同防空任务分

33、配问题，提出了一种基于深度强化学习的分配方法。创新性地将问题建模成马尔可夫决策过程，并使用两种最新的深度强化学习算法对问题优化求解，进行任务分配的决策，实现综合效益值的最大化。仿真结果表明，相较传统任务分配方法，本文方法在实现防空综合效益最大化方面有一定优势，且计算效率更高，更能满足实时性决策的需要，对相关领域的研究具有一定意义。参考文献：1 程明.基于受限时段资源调度的舰艇防空武器目标分配方法 J.舰船电子工程，2021，41（6）：47-49，74.CHENG M.Target allocation method of ship air defenseweapon based on res

34、ource scheduling in limited time periodJ.Naval Electronic Engineering，2021，41（6）：47-49，74.2 周菁.多无人艇协同海战中的目标分配算法研究 J.现代导航，2021，12（3）：210-212.ZHOU J.Research on target allocation algorithm in cooper-ative naval battle of multi-unmanned craft J.Modern Na-vigation，2021，12（3）：210-212.3 白建保，尹栋，谢海斌，等.基于命中概

35、率模型的反舰导弹目标分配方法研究 J.舰船电子工程，2021，41（7）：34-39.BAI J B，YIN D，XIE H B，et al.Research on target assign-ment method of anti-ship missiles based on hit probabilitymodel J.Ship Electronic Engineering，2021，41（7）：34-39.4 曹璐.多无人艇协同目标分配算法研究 J.数字海洋与水下攻防，2020，3（6）：457-461.CAO L.Research on collaborative target all

36、ocation algorithmof multi-unmanned craft J.Digital Ocean&UnderwaterWarfare，2020，3（6）：457-461.5 孙鹏，陈冠宇，张杰勇，等.基于突发事件的任务计划动态调整模型及算法 J.控制与决策，2020，35（5）：1052-1062.SUN P，CHEN G Y，ZHANG J Y，et al.Dynamic adjustmentmodel and algorithm of task plan based on the emergenciesJ.Control and Decision，2020，35（5）：10

37、52-1062.6MNIH V，KAVUKCUOGLU K，SILVER D，et al.Playingatari with d eep reinforcement learningJ.arXivpreprintarXiv：1312.5602，2013.7 朱建文，赵长见，李小平，等.基于强化学习的集群多目标分配与智能决策方法J/OL.兵工学报，2020：1-102021-10-25.http：/ J W，ZHAO C J，LI X P，et al.Multi-objective distri-bution of cluster based on reinforcement learning

38、and intel-ligent decision-making method J/OL.Acta Armamentarii，2020：1-102021-10-25.http：/ 代琪，何兵，李明，等.基于强化学习的多无人机任务分配方法研究 C/2021 年无人系统高峰论坛（USS 2021）论文集.长沙：国防科技大学，2021.DAI Q，HE B，LI M，et al.Research on task allocationmethod of multiple UAVs based on reinforcement learningC/Proceedings of USS 2021.Nati

39、onal University of De-fense Technology：Editorial Department of Unmanned Sys-tems Technology，2021.9 黄亭飞，程光权，黄魁华，等.基于 DQN 的多类型拦截装备复合式反无人机任务分配方法 J/OL.控制与决策，2020：142-150.2021-11-03.https：/doi.org/10.13195/j.kzyjc.2020.0787.HUANG T F，CHENG G Q，HUANG K H，et al.Taskassignment method of multi-type intercept

40、or equipmentcompound anti-UAV based on DQN J/OL.Control andDecision，2020：142-150.2021-11-03.https：/doi.org/10.13195/j.kzyjc.2020.0787.10 丁振林，刘冠龙，谢艺，等.基于强化学习与神经网络的动态目标分配算法 J.电子设计工程，2020，28（13）：54-60.DING Z L，LIU G L，XIE Y，et al.Dynamic target assign-ment algorithm based on reinforcement learning and

41、neu-ral network J.Electronic Design Engineering，2020，28（13）：54-60.11 龙腾，刘震宇，史人赫，等.基于神经网络的防空武器目标智能分配方法 J.空天防御，2021，4（1）：1-7.LONG T，LIU Z Y，SHI R H，et al.Intelligent targetallocation method of air defense weapon based on neuralnetwork J.Air&Space Defense，2021，4（1）：1-7.12 陈国生，甲子英.舰艇编队协同防空火力分配模型研究J.指挥控制

42、与仿真，2011，33（6）：13-19.CHEN G S，JIA Z Y.Study on the model of ship formationcooperative air defense fire distributionJ.CommandControl and Simulation，2011，33（6）：13-19.13 CO-REYES J D，MIAO Y，PENG D，et al.Evolving rein-forcement learning algorithms J.arXivpreprint arXiv：2101.03958，2021.卢锐等：基于深度强化学习的海上编队防空任务分配410995

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于深度强化学习海上编队防空任务分配

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。