基于深度强化学习的作战实体智能感知与决策研究_刘网定.pdf

上传人：自信****多点

文档编号：290986

上传时间：2023-07-08

格式：PDF

页数：6

大小：1.17MB

《基于深度强化学习的作战实体智能感知与决策研究_刘网定.pdf》由会员分享，可在线阅读，更多相关《基于深度强化学习的作战实体智能感知与决策研究_刘网定.pdf（6页珍藏版）》请在咨信网上搜索。

1、Research on Intelligent Perception and Decision-making of CombatEntities Based on Deep Reinforcement LearningLIU Wangding，ZHANG Guoning*，ZHENG Shiming（Battle Laboratory of Army Command College，Nanjing 210045，China）Abstract：In order to solve the autonomous perception and decision-making problem of co

2、mbatentities in the battlefield，the intelligent perception and decision-making framework based on deepreinforcement learning is constructed，including such four modules as situation data preprocessing，situation awareness，action optimization and knowledge base，its application effects are verified by t

3、heUAV penetration experiment with single agent，a feasible technical approach to solve the problem ofautonomous perception and decision-making of combat entities is provided.Key words：artificial intelligence；intelligent perception；intelligent decision-making；deep reinforce-ment learningCitation forma

4、t：LIU W D，ZHANG G N，ZHENG S M.Research on intelligent perception anddecision-making of combat entities based on deep reinforcement learning J.Fire Control&CommandControl，2023，48（5）：164-169.收稿日期：2022-03-05修回日期：2022-05-10作者简介：刘网定（1981），女，江苏扬州人，硕士，讲师。研究方向：军事运筹，作战模拟。通信作者：张国宁（1978），男，山东泗水人，博士，教授。研究方向：作战指

5、挥，军事运筹。*摘要：为解决战场上作战实体的自主感知与决策问题，构建了一种基于深度强化学习的智能感知与决策框架，主要包括态势数据预处理、态势感知、行动优化和知识库 4 个模块，并通过单智能体无人机突防实验验证其应用效果，为解决作战实体的自主感知与决策问题提供了一种可行的技术途径。关键词：人工智能；智能感知；智能决策；深度强化学习中图分类号：TP18文献标识码：ADOI：10.3969/j.issn.1002-0640.2023.05.024引用格式：刘网定，张国宁，郑世明.基于深度强化学习的作战实体智能感知与决策研究 J.火力与指挥控制，2023，48（5）：164-169.基于深度强化学习的

6、作战实体智能感知与决策研究刘网定，张国宁*，郑世明（陆军指挥学院作战实验室，南京210045）0引言伴随着前沿智能科技的飞速发展，越来越多的无人装备、智能技术应用于战场，智能化战争初露端倪。现有计算机辅助决策通常是基于规则的决策，智能化程度较低，难以适应未来有人/无人作战新形势的需求，这就需要突破传统靠固定规则推理的方法，探求具备自我学习和动态分析预测能力的方法框架，以求自主而准确地判断战场态势并作出行动决策。从 AlphaGo、星际争霸 AI 到 AlphaGo Zero，深度强化学习技术在围棋、游戏、自动驾驶、机器人制造等领域取得不断进展，使得智能感知与决策可以达到甚至超越人类水平，例如

7、AlphaGo 依靠深度学习把握了围棋对弈的“直觉”棋感和棋势，通过强化学习实现了自我学习和优化棋招，击败了围棋世界冠军李世石。深度强化学习的机制与方法1-5，借鉴参考了心理学中的行为主义理论，符合人类的分析决文章编号：1002-0640（2023）05-0164-06火力与指挥控制Fire Control&Command Control第 48 卷第 5 期2023 年 5 月Vol.48，No.5May，2023164（总第 48-）策思维方式，这为解决自主感知与决策问题提供了一种技术框架。本文利用深度学习挖掘态势数据中的隐含特征，全面地抽象到态势感知；再通过强化学习模仿人对事

8、物的认知方式，在无监督的情况下，通过不断地试错，达到对战场态势的累积学习，形成正确的战场认知结论与决策结果。1框架构建原理1.1强化学习基本结构强化学习受到人和动物学习中试错法的启发，智能体如何决策（作出行动）来源于环境的反馈，对于正确的行动，环境会给出奖励，对于错误的行动，环境会给出惩罚，智能体根据环境的反馈来调整自己的决策，通过与环境的不断交互与反馈，最终能够得到最优决策方案。强化学习基本结构如图 1 所示。图 1强化学习基本结构图Fig.1Basic structure of reinforcement learning1.2基于深度强化学习的感知与决策原理深度强化学习本质是将深度神经网

9、络融入强化学习基本结构之中。针对大规模状态/动作空间问题（包括连续状态/动作空间问题），值表形式的值函数所需要的存储空间远远超过了现代计算机的硬件条件，使得经典的强化学习算法不再适用。在此情况下，可使用深度神经网络对复杂环境状态予以分析表示，解决智能体对环境状态的难以理解问题；使用深度神经网络对强化学习的相关函数（例如价值函数、动作价值函数、策略函数等）进行估计，解决强化学习的维度灾难问题。基于深度强化学习的感知与决策原理如图 2 所示。2基于深度强化学习的智能感知与决策框架依据 1.2 中的原理，基于深度强化学习的智能感知与决策框架主要由两部分组成，一是智能体对环境的感知部分，此部分基于深度

10、学习构建，二是智能体的行动优化部分，此部分基于强化学习（包含深度神经网络的强化学习）构建；同时，考虑态势数据的预处理与专家知识的利用。因而，基于深度强化学习的智能感知与决策框架包含态势数据预处理、态势感知、行动优化和知识库 4 个模块。预处理模块用以对态势数据进行清洗、归一等操作；态势感知模块由多个神经网络融合而成，用以表征战场态势；行动优化模块用以“评判”智能体的行为；战场知识库用以“指导”神经网络模型的构建，提高深度学习与强化学习的学习效率。框架示意图如下页图 3 所示。2.1态势数据预处理模块战场态势数据一般需进行预处理，以满足深度强化学习算法要求，预处理方法主要包括检测、清洗、集成、归

11、一化、正则化等，但并非所有的态势数据均要通过所有预处理操作，需视具体态势数据的获取、来源、格式等情形而定。例如对于收集到的传感器数据，由于传感器状态信息的量程并不一致，在将数据信息传入网络模型之前，为了提升模型的收敛速度及精度，防止模型出现梯度爆炸，应对传感器信息数据进行归一化处理，统一量程。2.2知识库模块感知和决策的过程都需要知识库予以支撑，在知识库的驱动下，感知信息更为精准，决策依据更为充分，学习的收敛速度会更快，学习的结果会更可靠。知识库包括战场环境知识库、敌我部署知识库、敌我状态知识库以及敌我行动知识库等。知识库中的知识来源于两方面：1）直接存入库中的军事领域专家知识，2）通过不断学

12、习获得的经验知识。2.3基于深度学习的态势感知模块利用深度神经网络的表征能力，可挖掘出态势数据中包含的特征与关系，包括战场上作战实体的属性、状态、类别、运动趋势，不同作战实体间的关图 2基于深度强化学习的感知与决策原理示意图Fig.2Schematic diagram of perception and decision-makingprinciple based on deep reinforcement learning刘网定等：基于深度强化学习的作战实体智能感知与决策研究1650927（总第 48-）火力与指挥控制2023 年第 5 期系等，形成态势感知表示6-8。由于战场态

13、势的复杂性，往往无法用单个深度神经网络进行表征，因而基于指挥员的思维模式，将感知过程和目标进行分层，构建面向态势感知的复合架构深度学习模型。具体构建方法为：1）通过对战场环境数据的学习，建立环境感知模型；2）通过对战场上各个作战实体的属性、状态、行动趋势数据的学习，建立实体感知模型；3）通过对不同作战实体特定时间段中时序状态信息的学习，构建实体间的关系判定模型；4）以实体感知模型为主体，以实体间的关系判定模型为基本联系，结合环境感知模型，进行模型的融合，生成面向态势感知的复合架构深度学习模型，如图 4 所示。在单个深度学习模型构建过程中，为提高模型的学习效率，可采用条件反射法，将强化学习的行动

14、效果与专家知识、规则融入模型当中。如下式所示：wij（t+1）=wij（t）+yj（t）yi（t）wij（t+1）=wij（t+1）+yj（t+1）yi（t）（1）其中，wij表示神经元 j 到神经元 i 的连接权；yi、yj为神经元的输出；yj 是基于专家知识与规则的输出，、是表示学习速度的常数。1）若 yi与 yj同时被激活，即 yi与 yj同时为正，那么 wij将增大，即此时强化学习的行动得到正的奖励，正确的态势理解结果被予以肯定和保留。2）若 yj 与 yj同时被激活，即 yj 与 yj同时为正，那么 wij将增大，即此时态势理解结论与专家知识、规则相一致，正确的态势理解结果被予以肯定

15、和保留。3）若 yi被激活，而 yj处于抑制状态，即 yi为正yj为负，那么 wij将变小，即此时强化学习的行动得到惩罚，错误的态势理解结果被予以否定。4）若 yi被激活，而 yj 处于抑制状态，即 yi为正yj 为负，那么 wij将变小，即此时态势理解结论与专家知识、规则相悖，错误的态势理解结果被予以否定。图 3基于深度强化学习的智能感知与决策框架示意图Fig.3Schematic diagram of intelligent perception and decision-making framework based on deep reinforcement learning图 4复合架

16、构深度学习感知模型示意图Fig.4Schematic diagram of composite architecture deeplearning perception model1660928（总第 48-）2.4基于强化学习的行动优化模块利用深度神经网络对战场态势表征后，并不知道其表征结果如何、与真实结果有多大偏差，利用强化学习的行动反馈机制，可通过智能体的行动去验证与调整表征结果。在此，从单智能体强化学习出发，借鉴强化学习在自动驾驶领域的成熟技术与经验9-10，构建行动优化 Actor-Critic 模型，如图 5所示。图 5行动优化 A-C 模型示意图Fig.5Schematic di

17、agram of A-C model for action optimizationA-C 模型主要由两部分组成，一是 Actor（执行器）部分，即智能体将要采取的策略，另一个是 Critic（评价器）部分，即智能体得到的行动反馈（值函数），两部分分别通过深度神经网络表示。模型训练时，Actor 与 Critic 交互更新，Actor 选择策略，Critic给出评价，最终可得最优行动策略。在战场环境中，利用深度强化学习进行自主感知与决策的单智能体实体，比如无人机、坦克，均为连续动作行动，可采用适合连续动作决策的强化学习算法，如 DDPG算法、A3C 算法等。在行动优化模块中，可采用启发式回报函

18、数设计方法对知识库进行有效利用11-12。启发式回报函数设计规则为：if sS0，then a=a1，F（s，a，s）=rif 规则发生，then a=a1，F（s，a，s）=r（2）即当 sS0，或某规则发生时，智能体执行动作a1，回报函数 F（s，a，s）赋值为 r，这样便可刺激在某状态集 S0或某规则发生情况下智能体执行动作 a1。例如，如果（if）敌方作战单元行动速度、力量规模、装备类型、行动方向满足一定条件，根据专家知识，则可判定敌方将要采取何种行动，然后（then）智能体采取相应的对策 a=a1，回报函数 F（s，a，s）=r。3案例分析此部分通过仿真实验，结合具体想定，验证深度强

19、化学习在智能感知与决策上的应用效果13。3.1实验想定3.1.1基本情况红方对阵地防御的蓝方实施进攻作战，其中对红方部队威胁最大的是蓝方坦克部队，为尽快消灭蓝方坦克部队，红方指挥员迅速申请空中火力支援。上级派出无人机突击力量，依靠自身能力突破蓝方残余地面防空火力，对蓝方坦克部队实施攻击。3.1.2红蓝双方作战目标红方作战目标：利用无人机空中优势，快速突破敌防空，消灭蓝方坦克。蓝方作战目标：使用防空武器击落红方无人机，保护坦克不受其攻击。3.1.3红蓝双方兵力实验设定红方兵力为固定翼无人机 1 架，蓝方兵力为坦克排 1 个、地空导弹排 4 个，具体如表 1所示。表 1红蓝双方兵力Table 1F

20、orces of red and blue parties3.2框架设定3.2.1态势数据预处理模块本实验将红方无人机设定为智能体。实验的每轮训练中，初始态势数据包括：无人机的位置（经度、纬度、高度）、朝向、速度、毁伤程度、作战任务，地空导弹排的位置（经度、纬度）、朝向、速度、毁伤程度、作战任务，坦克排的位置（经度、纬度）、朝向、速度、毁伤程度、作战任务，以及气象条件数据。训练之前，对战场环境中各作战单元的属性、状态、特征进行了编码，并对距离数据进行了归一化预处理。3.2.2知识库模块实验的模型训练与模拟对抗主要运用合成部队层级知识库，包括红蓝双方作战编成、作战编组、兵力部署、毁伤程度、作战行

21、动、作战任务与规则。3.2.3态势感知模块对于实际战场环境，各作战单元的类型、属性、状态数据不可直接获得，一般需通过传感器获得相关数据。比如，通过传感器采集到作战目标图像，再通过感知模块中用于目标识别的深度神经网络，可初步判别出是何种目标。而本实验是仿真实验，各作战实体的类型、属性等数据系统可直接属性标识类别类型建制单位总数量红方固定翼无人作战飞行器固定翼无人机1蓝方移动车辆陆军分队坦克排1移动车辆地防导弹分队地空导弹排4刘网定等：基于深度强化学习的作战实体智能感知与决策研究1670929（总第 48-）火力与指挥控制2023 年第 5 期完成训练次数03 0005 0007 0

22、00无人机成功突防并完成打击任务的平均概率/%051.288.693.6获得，因而态势感知模块的神经网络仅为简单线性函数。3.2.4行动优化模块1）算法选择此模块采用强化学习的 DDPG 算法。DDPG 算法基于 Actor-Critic 模型结构，并通过复制一个目标网络作为原网络的逼近对象进行缓慢更新，以保证训练过程的稳定性，如图 6 所示。2）动作设定强化学习模型中智能体无人机的动作值设定为“机动”与“开火”。执行动作函数时，首先检查是否进入任务区，进入任务区，则检查是否发现目标，发现目标进行自动开火；没有进入任务区，则设置无人机“机动”。3）奖惩设定智能体无人机的奖惩设定为：a）根据离目

23、标的远近设定回报Rd：Rd=10ed（无人机，坦克），无人机离坦克排越近，获得的奖励值越大。b）根据是否进入目标区域设定回报 Ra：进入目标区域，获得正的奖励，Ra=10；否则，Ra=0。c）根据是否发现打击目标、是否执行了打击任务设定回报 Rs：发现目标，获得正的奖励，Rs=50；击毁目标，获得更高的奖励，Rs=150；否则，Rs=0。d）根据是否被对方击中设定回报 Rf：若被对方击中，得到负的奖励，Rf=-100；否则，Rf=0。3.3实验结论训练前，智能体完成任务的概率基本为 0；3 000次训练后，对 20 次仿真实验进行统计，智能体无人机成功突防并完成打击任务的平均概率提升为51.2

24、%；5 000 次训练后，平均概率提升为 88.6%；7 000 次训练后，平均概率提升为 93.6%。智能体任务完成率对比情况如表 2 所示，每个回合获得的平均奖励值如图 7 所示。训练前，智能体无人机对战场态势没有自主感知能力，不知道打击目标在哪里、如何去寻找，其行动显示无规则。训练后，智能体无人机能够掌握对方地面防空武器威胁情况，能够自主确定最佳进攻路线，使其在飞行航线中威胁最小、生存概率最大，如下页图 8 所示。4结论深度强化学习被认为是推进机器自主化与智能化最具潜力的技术。本文通过无人机突防仿真实验，展现了深度强化学习技术在作战实体智能感知与决策上的应用效果。推广应用于无人装备，可使

25、其拥有自主感知与决策能力，能够自主进行环境侦察、路径规划、任务规划等活动，自主完成导航、制图 6DDPG 算法示意图Fig.6Schematic diagram of DDPG algorithm表 2完成任务对比情况表Table 2Comparison of completed tasks图 7智能体获得的平均奖励值Fig.7Average reward value obtained by the agent1680930（总第 48-）图 8训练后的无人机自主感知与决策效果图Fig.8Effect diagram of autonomous perception and decision-

26、making of UAV after training导、协调、目标识别、捕获、攻击等任务，提升无人装备的智能水平与应用效益。参考文献：1 MNIH V，KAVUKCUOGLU K，SILVER D，et al.Human-level control through deep reinforcement learningJ.Na-ture，2015，518（7540）：529.2 SILVER D，HUANG A，MADDISON J，et al.Mastering thegame of go with deep neural networks and tree search J.Natur

27、e，2016，529（7587）：484-489.3 SILVERD，SCHRITTWIESERJ，SIMONYANK，etal.Mas-tering thegame of go without human knowledge J.Nature，2017，550（7676）：354-359.4 BERNER C，BROCKMAN G，CHAN B，et al.Dota2 withlarge scale deep reinforcement teaming J.arXiv preprint，2019，arXiv：1912-1980.5 SUTTON R S，BARTO A G.Reinforce

28、ment learning：an in-troduction J.IEEE Transactions on Neural Networks，2005，16（1）：285-286.6 李赞，刘钢，老松杨.战场态势及态势估计的新见解 J.火力与指挥控制，2012，37（9）：1-5.LI Z，LIU G，LAO S Y.A new interpretation of battle fieldsituation and battle situation assessment J.Fire Control&Command Control，2012，37（9）：1-5.7 朱丰，朱晓峰，吴琳，等.基于深

29、度学习的战场态势高级理解模拟方法 J.火力与指挥控制，2018，43（8）：25-30.ZHU F，ZHU X F，WU L，et al.Simulation method of bat-tlefieldssituationseniorcomprehensionbasedondeeplearn-ing J.Fire Control&Command Control，2018，43（8）：25-30.8 吴志强，张俊峰.基于深度强化学习的自动态势估计研究 J.军事运筹与系统工程，2018，32（2）：42-46.WU Z Q，ZHANG J F.A study on automatic situa

30、tion as-sessment based on deep reinforcement learning J.MilitaryOperations Research and Systems Engineering，2018，32（2）：42-46.9 张斌，何明，陈希亮，等.改进 DDPG 算法在自动驾驶中的应用 J.计算机工程与应用，2019，55（10）：264-270.ZHANG B，HE M，CHEN X L，et al.Self-driving via im-proved DDPG algorithm J.Computer Engineering and Ap-plications

31、，2019，55（10）：264-270.10 余伶俐，邵玄雅，龙子威，等.智能车辆深度强化学习的模型迁移轨迹规划方法 J.控制理论与应用，2019，39（9）：1409-1422.YU L L，SHAO X Y，LONG Z W，et al.Intelligent landvehicle model transfer trajectory planning method of deepreinforcement learning J.Control Theory and Applica-tion，2019，39（9）：1409-1422.11 魏英姿，赵明扬.强化学习算法中启发式回报函数的设

32、计及其收敛性分析 J.计算机科学，2005，32（3）：190-193.WEI Y Z，ZHAO M Y.Design and convergence analysis ofa heuristic reward function for reinforcement learning al-gorithms J.Computer Science，2005，32（3）：190-193.12 李晨溪，曹雷，张永亮，等.基于知识的深度强化学习研究综述 J.系统工程与电子技术，2017，39（11）：2603-2613.LI C X，CAO L，ZHANG Y L，et al.Knowledge-baseddeep reinforcement learning：a reviewJ.Systems Engi-neering and Electronics，2017，39（11）：2603-2613.13 魏宁.深度强化学习落地指南 M.北京：电子工业出版社，2021.WEI N.Guide to the implementation of deep reinforcementlearning M.Beijing：Electronic Industry Press，2021.刘网定等：基于深度强化学习的作战实体智能感知与决策研究1690931

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 1人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于深度强化学习作战实体智能感知决策研究刘网定

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。