基于HAPPO2的多无人车协同围捕策略.pdf
《基于HAPPO2的多无人车协同围捕策略.pdf》由会员分享,可在线阅读,更多相关《基于HAPPO2的多无人车协同围捕策略.pdf(8页珍藏版)》请在咨信网上搜索。
1、第卷第期年月军事交通学报 鲁基础科学与技术基于的多无人车协同 围捕策略郭宏达,周虹藩侯飞郭永强(陆军 军事交通学院,天津;部队,成都)摘要:针对多无人车协同算法存 在动作输出不连续、训练 收敛困难等问题,提出一种基于深度强化学习的混合 编队围捕动态目标算法,以达到快速搜索、围捕目标,防止目标逃逸的目的。首先,分析无人车、目标的位置,缩小搜索范围,锁定目标;其次,将近端 策略优化 算法 应用于多无人车环境,提出异构多智能体近端 策略优化 算法(,)以规划最优 路径;最后,根据无人车不同的角色,结合算法,制定不同的围捕 策略。通过仿 真实验,验证所提出算法的时效性 和 稳定性。关键词:深度强化学习
2、;多无人车;协同 围捕;路径规划中图分类 号:文献标志码:文章编 号(),(,;,):,(),:;近年来,工业界、学术界等各领域对多无人车技术的研究越来越多,多无人车的应用也越来越广泛,如施行民用抢险搜 救、军事侦察作战、农业联合作业、工业协同生产 等 各种 复 杂任 务。多无人车围捕作为该研究的一个重要分支也逐渐成熟,并应用于实践收稿日期;修回日期基金项目:军队科研项目作者简介:郭宏达(),男,博士研究生军事交通学报第卷第期多无人车围捕是指 多辆无人车根据传感器感知到的环境信息以及通信交互到的无人车信息,通过智能 算法规划出各车的最优路径,达到对动态目标追逐捕获的目的。为执 行这个围捕过程,
3、各无人车之间需做到充分的协同,因此需要对所有无人车做 好全局路径规划和围捕策略,确保各车之间、车与障碍物之间不发生碰撞。路径规划是多无人车技 术中最为关键的模块,直接影响任务能否顺利完成。近年来,在路径规划方面有 非常 多的研究,开发了多种 较为成 熟的算法。其中,有基于生成对抗网络动态预测和深度强化 学习的多无人车搜索目标算法。文献提出一种 用于围捕动态目标的多机器人协同策略,该策略适用于在不包 含障碍物的空间中搜索捕捉动态目标,而对于存在障碍物的环境,文中未曾考虑。文献提出一种基于博弈论和学习的多智能体协同围捕算法。文献提出一种基于模糊的势场分层强化学习方法来提高目标搜索效率和无人艇轨迹的
4、平滑度,用于三维水下环境中的目标 搜索。文献提出一种在城市环境中基于深度强化学习的多无人机围捕目标策略,基于增 强 多智能体深度 确定性策略梯 度算法以及软 更新对围捕路径进行 规划,降低了规划的步 数,但方法对环境要求较为严格,适用性不强。近端策略优 化算法()作为深度强化学习的典型算法,越来越多地应用于多智能体领 域。文献在多智能体深度强化学习环境中,开发了一种集中式训 练分布式 执 行的学习模 式,基于该学习模式,文献提出算法,假设所有智能体的动作空间是同构的,并强制参数 共享。文献提出算法,通过考虑联合函数和更精确的策略对进行强化。虽然以非参数共享的方式应用到实际,但仍缺乏置信域学习的
5、本质理论属性,即单调改进保证。这两种方法是为同构智能体(即共享相同的动作空间和策略参数)设计的,在很大程度上限制了算法的适用性并降低了性能。文献通过考虑智能体之间元博弈级别,基于博弈论方法对近端策略优化算法进行调整,不足之处在于纳什均衡的难处理性,算法只能处理两个智能体。文献尝试通过分布式一致性优化 改进置信域策略优化算法(),但是文献对所有智能体强制执行相同的比率,这与参数共享类似,很大程度上限制了策略的优 化空间,也未考虑智能体数量庞大的情况。在多无人车遂 行围捕任 务的过程中,各无人车必须相互协调配合,在避开环境中障碍物的前提下,尽可能快地捕获目标并防止其逃跑,属于多智能体复杂环境下的路
6、径规划问题。在现有的追踪算法中,自然启发方法可有效地在变化环境中实时追踪具有 随机行为的动态目标。因此,自然启发方法与路径规划算法相结 合,可以快速到达所需的围捕位置而不会与障碍物发生碰撞。本文提出一种基于狼群算法和异 构多智能体近端策略优化算法()的多无人车追踪捕获动态目标的路径规划策略。在该策略中,分布式多无人车通过分享实时信息进行 协同,以快速到达目标位置附近并包围目标。多无人车协同 围捕策 略多无人车围捕首先需确定好各车之间的协同策略,即 明确各无人车之间的内部关系,掌握各车角色。本节基于狼的围捕行为,提出一种 用于围捕动态目标的多无人车协同策略。系统 将无人车分为引导者、跟随者和侦察
7、者类。无人车(数量为根据适 应度函数(匕:切 换角色,其中为无人车的坐标为目标的坐标。无人车离目标越近,函数值就越大。如果无人车具有 最高的值,则其角色便为引导者。侦察者是一个按照自己的方式寻找目标的无人车,一旦获得最大值,其可直接切 换成引导者。在系统中,侦察者的数量是区间(斤)(人),(斤)人的整数,其中,为侦察者比例因子。为减少对目标的搜索范围,通过式()、()计算侦察者 搜索的角度范围。;()()(:),;(,;式中:(,)、(匕)为侦察者、引导者的坐标;为调整系数。基于该角度,侦察者的搜索区域是有限的,而不是漫无目地搜索。侦察者年月郭:宏达:鐘于的參人车协同围前策略通过检查所有可能的
8、临时置(,)丨并根据式(选择下一个位,式尹:炙和仏为搜素因乎,取值见式();调子少为侦察者在搜索目标方向上所分成小搜索暖间的数釐抑为前迸方向 因子。,)()式中整数、限制搜素域,少:侦察者选择具有最翕函数值(,)的临 时位置,然后将翁值夸引寻者的值进行比较,如果符合以下条件,侦察者则切换为引导者:(,)(,),其余无人车为跟随者。跟随者有两种行为楱式,根据身与引导者之间 的收敛矩离进行?切换。()()式中:,为收敛子;(财)为搜索空间的边界?跟随者与引导 者的距离大时,跟随者向引导者方向运动根据式(),跟随者向引导者方向运动的苜标为(“)厂(?(式中備震顧管、为,矣范围内的随机数;为迭代索引;
9、为前进向量跟随者和纽导者之间的距离小 于久时,该无人车便开始包围目标,这种行为称为围捕行为。跟随者位董更新表示为:)()式中:,为包围因子,彡,彡为最高迭代次数;为围捕向量。向量和计算如下:(谷)?!()()!()()()式中:标量为步长因子,。异构多智能体近端策 略优化深度強化学习属于机器学习的一个分支,是人工神滏网络 和强化学习的结含,主要于做出渐进式决策,使智能体在棄且不确定的环撬中选择最隹动作。本文提出的算法是在多智能体环境中的扩展,旨在处理连续的状态一动作空间,基于爆中式 训 练分布式执行学习模式为每个智能体规划出蕞优路径。策略的棊本目标是在铪定环境中无人本应如何 执行撤作以最太化
10、累积奖励(如图所示马尔可夫策过程)是解决深度强化学习问题最适合的数学模遨,并且是直接为实现目标而提出的学习机制。在本文凳法的学习阶段,智能体决策不仅需要获得鐵前回报,还需要获得累积回报。智能体选择每个状态处的动作?构成有限的状态动作对丨(?,。),(,环境无人车图中智 能体与环境交互的 结构回报,是从时刻 开始状态一动作对!(。,),(,),丨的总 折扣奖励:),:式中足为财间的奖励;为折扣因:,矣名?最优策略,是期集奖励最大时所对应的策略:,),(,?根据马尔可夫博弈,整个过程由一个元组,定义其中;汉,为无人车集合;为有限状态空间;为 所有无人车优势酿数在有限动作空间中的乘:积称为军事交通孥
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 HAPPO2 无人 协同 围捕 策略
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。