基于深度强化学习的作战实体智能感知与决策研究_刘网定.pdf
《基于深度强化学习的作战实体智能感知与决策研究_刘网定.pdf》由会员分享,可在线阅读,更多相关《基于深度强化学习的作战实体智能感知与决策研究_刘网定.pdf(6页珍藏版)》请在咨信网上搜索。
1、Research on Intelligent Perception and Decision-making of CombatEntities Based on Deep Reinforcement LearningLIU Wangding,ZHANG Guoning*,ZHENG Shiming(Battle Laboratory of Army Command College,Nanjing 210045,China)Abstract:In order to solve the autonomous perception and decision-making problem of co
2、mbatentities in the battlefield,the intelligent perception and decision-making framework based on deepreinforcement learning is constructed,including such four modules as situation data preprocessing,situation awareness,action optimization and knowledge base,its application effects are verified by t
3、heUAV penetration experiment with single agent,a feasible technical approach to solve the problem ofautonomous perception and decision-making of combat entities is provided.Key words:artificial intelligence;intelligent perception;intelligent decision-making;deep reinforce-ment learningCitation forma
4、t:LIU W D,ZHANG G N,ZHENG S M.Research on intelligent perception anddecision-making of combat entities based on deep reinforcement learning J.Fire Control&CommandControl,2023,48(5):164-169.收稿日期:2022-03-05修回日期:2022-05-10作者简介:刘网定(1981),女,江苏扬州人,硕士,讲师。研究方向:军事运筹,作战模拟。通信作者:张国宁(1978),男,山东泗水人,博士,教授。研究方向:作战指
5、挥,军事运筹。*摘要:为解决战场上作战实体的自主感知与决策问题,构建了一种基于深度强化学习的智能感知与决策框架,主要包括态势数据预处理、态势感知、行动优化和知识库 4 个模块,并通过单智能体无人机突防实验验证其应用效果,为解决作战实体的自主感知与决策问题提供了一种可行的技术途径。关键词:人工智能;智能感知;智能决策;深度强化学习中图分类号:TP18文献标识码:ADOI:10.3969/j.issn.1002-0640.2023.05.024引用格式:刘网定,张国宁,郑世明.基于深度强化学习的作战实体智能感知与决策研究 J.火力与指挥控制,2023,48(5):164-169.基于深度强化学习的
6、作战实体智能感知与决策研究刘网定,张国宁*,郑世明(陆军指挥学院作战实验室,南京210045)0引言伴随着前沿智能科技的飞速发展,越来越多的无人装备、智能技术应用于战场,智能化战争初露端倪。现有计算机辅助决策通常是基于规则的决策,智能化程度较低,难以适应未来有人/无人作战新形势的需求,这就需要突破传统靠固定规则推理的方法,探求具备自我学习和动态分析预测能力的方法框架,以求自主而准确地判断战场态势并作出行动决策。从 AlphaGo、星际争霸 AI 到 AlphaGo Zero,深度强化学习技术在围棋、游戏、自动驾驶、机器人制造等领域取得不断进展,使得智能感知与决策可以达到甚至超越人类水平,例如
7、AlphaGo 依靠深度学习把握了围棋对弈的“直觉”棋感和棋势,通过强化学习实现了自我学习和优化棋招,击败了围棋世界冠军李世石。深度强化学习的机制与方法1-5,借鉴参考了心理学中的行为主义理论,符合人类的分析决文章编号:1002-0640(2023)05-0164-06火 力 与 指 挥 控 制Fire Control&Command Control第 48 卷第 5 期2023 年 5 月Vol.48,No.5May,2023164(总第 48-)策思维方式,这为解决自主感知与决策问题提供了一种技术框架。本文利用深度学习挖掘态势数据中的隐含特征,全面地抽象到态势感知;再通过强化学习模仿人对事
8、物的认知方式,在无监督的情况下,通过不断地试错,达到对战场态势的累积学习,形成正确的战场认知结论与决策结果。1框架构建原理1.1强化学习基本结构强化学习受到人和动物学习中试错法的启发,智能体如何决策(作出行动)来源于环境的反馈,对于正确的行动,环境会给出奖励,对于错误的行动,环境会给出惩罚,智能体根据环境的反馈来调整自己的决策,通过与环境的不断交互与反馈,最终能够得到最优决策方案。强化学习基本结构如图 1 所示。图 1强化学习基本结构图Fig.1Basic structure of reinforcement learning1.2基于深度强化学习的感知与决策原理深度强化学习本质是将深度神经网
9、络融入强化学习基本结构之中。针对大规模状态/动作空间问题(包括连续状态/动作空间问题),值表形式的值函数所需要的存储空间远远超过了现代计算机的硬件条件,使得经典的强化学习算法不再适用。在此情况下,可使用深度神经网络对复杂环境状态予以分析表示,解决智能体对环境状态的难以理解问题;使用深度神经网络对强化学习的相关函数(例如价值函数、动作价值函数、策略函数等)进行估计,解决强化学习的维度灾难问题。基于深度强化学习的感知与决策原理如图 2 所示。2基于深度强化学习的智能感知与决策框架依据 1.2 中的原理,基于深度强化学习的智能感知与决策框架主要由两部分组成,一是智能体对环境的感知部分,此部分基于深度
10、学习构建,二是智能体的行动优化部分,此部分基于强化学习(包含深度神经网络的强化学习)构建;同时,考虑态势数据的预处理与专家知识的利用。因而,基于深度强化学习的智能感知与决策框架包含态势数据预处理、态势感知、行动优化和知识库 4 个模块。预处理模块用以对态势数据进行清洗、归一等操作;态势感知模块由多个神经网络融合而成,用以表征战场态势;行动优化模块用以“评判”智能体的行为;战场知识库用以“指导”神经网络模型的构建,提高深度学习与强化学习的学习效率。框架示意图如下页图 3 所示。2.1态势数据预处理模块战场态势数据一般需进行预处理,以满足深度强化学习算法要求,预处理方法主要包括检测、清洗、集成、归
11、一化、正则化等,但并非所有的态势数据均要通过所有预处理操作,需视具体态势数据的获取、来源、格式等情形而定。例如对于收集到的传感器数据,由于传感器状态信息的量程并不一致,在将数据信息传入网络模型之前,为了提升模型的收敛速度及精度,防止模型出现梯度爆炸,应对传感器信息数据进行归一化处理,统一量程。2.2知识库模块感知和决策的过程都需要知识库予以支撑,在知识库的驱动下,感知信息更为精准,决策依据更为充分,学习的收敛速度会更快,学习的结果会更可靠。知识库包括战场环境知识库、敌我部署知识库、敌我状态知识库以及敌我行动知识库等。知识库中的知识来源于两方面:1)直接存入库中的军事领域专家知识,2)通过不断学
12、习获得的经验知识。2.3基于深度学习的态势感知模块利用深度神经网络的表征能力,可挖掘出态势数据中包含的特征与关系,包括战场上作战实体的属性、状态、类别、运动趋势,不同作战实体间的关图 2基于深度强化学习的感知与决策原理示意图Fig.2Schematic diagram of perception and decision-makingprinciple based on deep reinforcement learning刘网定等:基于深度强化学习的作战实体智能感知与决策研究1650927(总第 48-)火 力 与 指 挥 控 制2023 年第 5 期系等,形成态势感知表示6-8。由于战场态
13、势的复杂性,往往无法用单个深度神经网络进行表征,因而基于指挥员的思维模式,将感知过程和目标进行分层,构建面向态势感知的复合架构深度学习模型。具体构建方法为:1)通过对战场环境数据的学习,建立环境感知模型;2)通过对战场上各个作战实体的属性、状态、行动趋势数据的学习,建立实体感知模型;3)通过对不同作战实体特定时间段中时序状态信息的学习,构建实体间的关系判定模型;4)以实体感知模型为主体,以实体间的关系判定模型为基本联系,结合环境感知模型,进行模型的融合,生成面向态势感知的复合架构深度学习模型,如图 4 所示。在单个深度学习模型构建过程中,为提高模型的学习效率,可采用条件反射法,将强化学习的行动
14、效果与专家知识、规则融入模型当中。如下式所示:wij(t+1)=wij(t)+yj(t)yi(t)wij(t+1)=wij(t+1)+yj(t+1)yi(t)(1)其中,wij表示神经元 j 到神经元 i 的连接权;yi、yj为神经元的输出;yj 是基于专家知识与规则的输出,、是表示学习速度的常数。1)若 yi与 yj同时被激活,即 yi与 yj同时为正,那么 wij将增大,即此时强化学习的行动得到正的奖励,正确的态势理解结果被予以肯定和保留。2)若 yj 与 yj同时被激活,即 yj 与 yj同时为正,那么 wij将增大,即此时态势理解结论与专家知识、规则相一致,正确的态势理解结果被予以肯定
15、和保留。3)若 yi被激活,而 yj处于抑制状态,即 yi为正yj为负,那么 wij将变小,即此时强化学习的行动得到惩罚,错误的态势理解结果被予以否定。4)若 yi被激活,而 yj 处于抑制状态,即 yi为正yj 为负,那么 wij将变小,即此时态势理解结论与专家知识、规则相悖,错误的态势理解结果被予以否定。图 3基于深度强化学习的智能感知与决策框架示意图Fig.3Schematic diagram of intelligent perception and decision-making framework based on deep reinforcement learning图 4复合架
16、构深度学习感知模型示意图Fig.4Schematic diagram of composite architecture deeplearning perception model1660928(总第 48-)2.4基于强化学习的行动优化模块利用深度神经网络对战场态势表征后,并不知道其表征结果如何、与真实结果有多大偏差,利用强化学习的行动反馈机制,可通过智能体的行动去验证与调整表征结果。在此,从单智能体强化学习出发,借鉴强化学习在自动驾驶领域的成熟技术与经验9-10,构建行动优化 Actor-Critic 模型,如图 5所示。图 5行动优化 A-C 模型示意图Fig.5Schematic di
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 强化 学习 作战 实体 智能 感知 决策 研究 刘网定
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。