基于HAPPO2的多无人车协同围捕策略.pdf

上传人：自信****多点

文档编号：636570

上传时间：2024-01-21

格式：PDF

页数：8

大小：1.08MB

《基于HAPPO2的多无人车协同围捕策略.pdf》由会员分享，可在线阅读，更多相关《基于HAPPO2的多无人车协同围捕策略.pdf（8页珍藏版）》请在咨信网上搜索。

1、第卷第期年月军事交通学报鲁基础科学与技术基于的多无人车协同围捕策略郭宏达，周虹藩侯飞郭永强（陆军军事交通学院，天津；部队，成都）摘要：针对多无人车协同算法存在动作输出不连续、训练收敛困难等问题，提出一种基于深度强化学习的混合编队围捕动态目标算法，以达到快速搜索、围捕目标，防止目标逃逸的目的。首先，分析无人车、目标的位置，缩小搜索范围，锁定目标；其次，将近端策略优化算法应用于多无人车环境，提出异构多智能体近端策略优化算法（，）以规划最优路径；最后，根据无人车不同的角色，结合算法，制定不同的围捕策略。通过仿真实验，验证所提出算法的时效性和稳定性。关键词：深度强化学习

2、；多无人车；协同围捕；路径规划中图分类号：文献标志码：文章编号（），（，；，）：，（），：；近年来，工业界、学术界等各领域对多无人车技术的研究越来越多，多无人车的应用也越来越广泛，如施行民用抢险搜救、军事侦察作战、农业联合作业、工业协同生产等各种复杂任务。多无人车围捕作为该研究的一个重要分支也逐渐成熟，并应用于实践收稿日期；修回日期基金项目：军队科研项目作者简介：郭宏达（），男，博士研究生军事交通学报第卷第期多无人车围捕是指多辆无人车根据传感器感知到的环境信息以及通信交互到的无人车信息，通过智能算法规划出各车的最优路径，达到对动态目标追逐捕获的目的。为执行这个围捕过程，

3、各无人车之间需做到充分的协同，因此需要对所有无人车做好全局路径规划和围捕策略，确保各车之间、车与障碍物之间不发生碰撞。路径规划是多无人车技术中最为关键的模块，直接影响任务能否顺利完成。近年来，在路径规划方面有非常多的研究，开发了多种较为成熟的算法。其中，有基于生成对抗网络动态预测和深度强化学习的多无人车搜索目标算法。文献提出一种用于围捕动态目标的多机器人协同策略，该策略适用于在不包含障碍物的空间中搜索捕捉动态目标，而对于存在障碍物的环境，文中未曾考虑。文献提出一种基于博弈论和学习的多智能体协同围捕算法。文献提出一种基于模糊的势场分层强化学习方法来提高目标搜索效率和无人艇轨迹的

4、平滑度，用于三维水下环境中的目标搜索。文献提出一种在城市环境中基于深度强化学习的多无人机围捕目标策略，基于增强多智能体深度确定性策略梯度算法以及软更新对围捕路径进行规划，降低了规划的步数，但方法对环境要求较为严格，适用性不强。近端策略优化算法（）作为深度强化学习的典型算法，越来越多地应用于多智能体领域。文献在多智能体深度强化学习环境中，开发了一种集中式训练分布式执行的学习模式，基于该学习模式，文献提出算法，假设所有智能体的动作空间是同构的，并强制参数共享。文献提出算法，通过考虑联合函数和更精确的策略对进行强化。虽然以非参数共享的方式应用到实际，但仍缺乏置信域学习的

5、本质理论属性，即单调改进保证。这两种方法是为同构智能体（即共享相同的动作空间和策略参数）设计的，在很大程度上限制了算法的适用性并降低了性能。文献通过考虑智能体之间元博弈级别，基于博弈论方法对近端策略优化算法进行调整，不足之处在于纳什均衡的难处理性，算法只能处理两个智能体。文献尝试通过分布式一致性优化改进置信域策略优化算法（），但是文献对所有智能体强制执行相同的比率，这与参数共享类似，很大程度上限制了策略的优化空间，也未考虑智能体数量庞大的情况。在多无人车遂行围捕任务的过程中，各无人车必须相互协调配合，在避开环境中障碍物的前提下，尽可能快地捕获目标并防止其逃跑，属于多智能体复杂环境下的路

6、径规划问题。在现有的追踪算法中，自然启发方法可有效地在变化环境中实时追踪具有随机行为的动态目标。因此，自然启发方法与路径规划算法相结合，可以快速到达所需的围捕位置而不会与障碍物发生碰撞。本文提出一种基于狼群算法和异构多智能体近端策略优化算法（）的多无人车追踪捕获动态目标的路径规划策略。在该策略中，分布式多无人车通过分享实时信息进行协同，以快速到达目标位置附近并包围目标。多无人车协同围捕策略多无人车围捕首先需确定好各车之间的协同策略，即明确各无人车之间的内部关系，掌握各车角色。本节基于狼的围捕行为，提出一种用于围捕动态目标的多无人车协同策略。系统将无人车分为引导者、跟随者和侦察

7、者类。无人车（数量为根据适应度函数（匕：切换角色，其中为无人车的坐标为目标的坐标。无人车离目标越近，函数值就越大。如果无人车具有最高的值，则其角色便为引导者。侦察者是一个按照自己的方式寻找目标的无人车，一旦获得最大值，其可直接切换成引导者。在系统中，侦察者的数量是区间（斤）（人），（斤）人的整数，其中，为侦察者比例因子。为减少对目标的搜索范围，通过式（）、（）计算侦察者搜索的角度范围。；（）（）（：），；（，；式中：（，）、（匕）为侦察者、引导者的坐标；为调整系数。基于该角度，侦察者的搜索区域是有限的，而不是漫无目地搜索。侦察者年月郭：宏达：鐘于的參人车协同围前策略通过检查所有可能的

8、临时置（，）丨并根据式（选择下一个位，式尹：炙和仏为搜素因乎，取值见式（）；调子少为侦察者在搜索目标方向上所分成小搜索暖间的数釐抑为前迸方向因子。，）（）式中整数、限制搜素域，少：侦察者选择具有最翕函数值（，）的临时位置，然后将翁值夸引寻者的值进行比较，如果符合以下条件，侦察者则切换为引导者：（，）（，），其余无人车为跟随者。跟随者有两种行为楱式，根据身与引导者之间的收敛矩离进行？切换。（）（）式中：，为收敛子；（财）为搜索空间的边界？跟随者与引导者的距离大时，跟随者向引导者方向运动根据式（），跟随者向引导者方向运动的苜标为（“）厂（？（式中備震顧管、为，矣范围内的随机数；为迭代索引；

9、为前进向量跟随者和纽导者之间的距离小于久时，该无人车便开始包围目标，这种行为称为围捕行为。跟随者位董更新表示为：）（）式中：，为包围因子，彡，彡为最高迭代次数；为围捕向量。向量和计算如下：（谷）？！（）（）！（）（）（）式中：标量为步长因子，。异构多智能体近端策略优化深度強化学习属于机器学习的一个分支，是人工神滏网络和强化学习的结含，主要于做出渐进式决策，使智能体在棄且不确定的环撬中选择最隹动作。本文提出的算法是在多智能体环境中的扩展，旨在处理连续的状态一动作空间，基于爆中式训练分布式执行学习模式为每个智能体规划出蕞优路径。策略的棊本目标是在铪定环境中无人本应如何执行撤作以最太化

10、累积奖励（如图所示马尔可夫策过程）是解决深度强化学习问题最适合的数学模遨，并且是直接为实现目标而提出的学习机制。在本文凳法的学习阶段，智能体决策不仅需要获得鐵前回报，还需要获得累积回报。智能体选择每个状态处的动作？构成有限的状态动作对丨（？，。），（，环境无人车图中智能体与环境交互的结构回报，是从时刻开始状态一动作对！（。，），（，），丨的总折扣奖励：），：式中足为财间的奖励；为折扣因：，矣名？最优策略，是期集奖励最大时所对应的策略：，），（，？根据马尔可夫博弈，整个过程由一个元组，定义其中；汉，为无人车集合；为有限状态空间；为所有无人车优势酿数在有限动作空间中的乘：积称为军事交通孥

11、报象，窜联含动作鲁间；：，为转移概率函数；为奖励函数；，为折柑因子。无人车根据以下协议与环境交互；在时词步，无人车处于状虐；无人车采取动作；由策略（出，与其他无人车动作一韻给出联會动作（丨，）联食擎略（？）：（？，）；无人车获得联合奖励，為）并以概率）转换到状态。初始状态分布在时间边缘状态分布，记为定义联合状态边緣分布；状态植涵数为蠢，一！化。状态一动作傖函数定义为久仏）玄，说？町：，？，。扩展到多无人车系统，状态动作价偉函数为，），式中“为多无人车的有序子擧，为该子集的补码。优势函：数定义为（，），（）又子不相交的子集九和多无人车联合优势函数为（，：，：），（，：，：）（，）。在务次迭代

12、中，给定无人车的序列，彳，通过最大化约束目标依次优化其策略参数（约束条件为，），！），综上，多无人车标函数为），（），），式中为给（？）定优势画数，）的估计值箅法框架图如图所图算法框架图算法算法流程；输人步长，批量大小，智能体数量？，匣合数欠，每回合步数初揄化：兩络墘，丨，全靖值网絡，成本网络丨丨￥，重邀：缓冲；僉，：通过运行联合策略？二（卜收龜一组轨迹；推遂转换），况，丨到；从随机小批量迸行釆；基子带有全局值网络计算优势函数（，）；对无人车进行随机排列；，），）；无人卒，：用時更新，标涵数为町幕（？叫）（），；）”（，）气（、”，）；计分“（，），）（，？（）；通过以下公式更新值网络；爲办士

13、石（心（）足）；多无人车围捕路径规划为在含有障碍物的空间内搜索、跟踪和包围年月郭：宏达鐘于的參人车协同围前策略一个随机运动的动态目标，需薺有多个无人车协同，共同完诚围補任务。在确定好协同筆略后，各车根据自己的角色，规划行驶路径。每个无人车都装有距离传感器，主要用于坐标位萱不凊晰的情况下感知自身与目标的距离在围捕过程开始时，无人车感知目标并相互通償以交换适皮度涵数值，值最大的无人车为引导者，其他无人车成为跟随者和侦察脅从这一步开始，跟随者朝着引导者前进，面侦察者侧搜索目标，道其中一个侦察者屬接近目标时，就切换成引导者。无人车沿着规划好的路径行驶，同时在前往目标点时避免身其他无

14、人车发生碰璩无人苹的集合表亲为，丨，目标：，个跟随者丨，丨和似个侦察者丛！，。对于，跟随者的两种行为，主：要根据式（）的收敛距离进行切换。每个跟随者的运行流程见算法。算法跟随者路轻规划：（）；：（）；不可到达：修正；基宁进行路径规划（？到）；料；产犯（），其中；在第行和第行中，选择了跟随者的行为，并根据该行为计算所需的位置。计算期望貝标位置时有两种情况，即可以到达期望目标位置和由障碍物无法到达该标位置。在第行中，如果无法到达期望标位置，则校正期望位置以使其可以到达。校正器是一种算法，作用是选择距离障碍物近丑无人车可到达的位置，并使该位董成为新的期望目标（如图所示）。除可到达之外，校正，启

15、的所霄位置有劢于跟随引导者（如图所示）在确定所霈位置后，在不与任何障碍物发生碰撞的前提下，无人车使用箅法快速到达该位置。每个侦察者的运行流程见算法预期位置修正后的位置图无人车修正预期位置预期位置參修正后的位置图无人车用修正位置继续跟随引导者算法侦察者路径规划：）（）；）（）；（？乂、！）？（、）：），不可到达如：；基于进行路径规划（到）；（，）（，）：存储广；本循环停止；：基于进行路径规划（到）；（），其中圮，以；在第行中，未对期望位置进行校芷的目的是减少计算和执行时间在这种情况下，侦察者可根据式（）寻找下一个可到达的位查。在某些危急情况下（如图所示），侦察者被军事交通孥报象，窜图侦

16、察者被障碍物卡住义侦察者目标仿真结果与讨论为验怔提出的方法，本文使用个无人车对围捕过程进行仿真。无人车以自行车模型为棊础，将唇轴作为原建立运动学模型。围捕环境基基于多智能体深度強化学习环境构建的一个大小为的二空间，包括位置植机、大小不同的其他元素（见表）个围捕者和目标的初始位釁是随机生成的，食物、隐蔽点以及障碍的位置在训练过程中不可运动。图显录了围捕者和目标在搜索空间内的分布些无人车的目标是找到并捕捉随机移动的目标。无人车除追捕目标外，还要避免与静态障碍物及其他无人牢（动态障碍物）发生碰撞。图侦察者和目标分别被卡住图侦察者有两条驶向目标的路径卡在狭窄路径中，并：只有两个位？

17、可以通过（和为防止这种情况下：无人车被卡住，侦察者会记住其之前的位置（见算法第行），并在很短的时间延迟内查验其访问这些位量的频率，然后侦察者会驶向频率较低的位置点，也就是说，如果侦察者被卡住了，它会选择不同的路径，即使这条新路径会导致它远离标侦察者被卡住的另一个原因是目标的行为，如果标出于某种原因（狭窄的路径或随机速度）被卡住，那么侦察者也会被卡住（如图所示），此时侦察者处理的方式与自己被卡住时一致。在如所示的情况，无人车可以根据式（）的随机参数计？算出到达有标点的两条路径，很显然，路径似平是距离眞：标最短的路径，但路径对无人车来说未必不是最好的选择，固为还需要考虑目标的下一步位置速度

18、以及其他无人车的状态表仿真环境中包含的元素元素数量备注无人车包含个引导者、个跟随者目标食物嶺人接，獻目的麵細在其？轉内可應身，不龍被无人发瑰障碍不能发生碰撞目标图初始化围捕者和目标位置图围捕过程的目标状态年月郭：宏达鐘于的參人车协同围前策略回合数图种算法奖励值比较在相同环境中，种箕法均进行次训练，其中耗时约，）耗时约耗时约显而易见，基宁；算法的多无人车围捕策略（、结语本文提出一种用于多无人车围捕的路径规划算法，以便在不与坏境中障碍物碰撞的前提卞捕获随机运动的目标围捕策略将无人车赋予不同的角色，各角色策略也有所不同侦察者无人车的存在有助于将无人车重新部署到目标附近的位置，防止其他

19、无人车聚集在其他错误的位置；而跟随者无人车在搜索阶段主要任务是跟随引导者无人车、，大大降低无人车的规划时间本文将算法融人多无人车环境之中，提出异构多智能体近端策略优化算法（），有助于在不与障碍物碰撞的情况下快速乎稳地到达所需貌置仿真结果表明，所提出的围捕策略达到了预期性能此外，本文仅仅考處多无人牟对单自标的補，对￥多标情况则未考虑。亩，被围捕目标的最大速度髙于无人车速度，还需指定特定的搜索围捕策略（如固定空间等），防止在训练过中陷人无）在训练时间上粟粗凰优宁翁算法節围補策略（），主要是因为奪：法：结构由个、个网络纖成，囊子算法个、个网络构成，大爾翼靖齒了对得出动作的评价时间。算法默认每

20、个无人车地位是相同的，各无人车按照既定策略搜索围捕标；而算法增加了侦察者角色，并可切换成引导者，引寻其他无人车进行围捕，缩短了其他无人车规划的时间，目此训练时间要少于训练时间，？由圈可知，算法、雰法分别在陳合、鲁回合趋于平稳可知着法在训练效率上优于算法、弇法祖稳定性上算法稳定后维挣在，且振幅在？之间算法稳定后维持在，但振幅较大；算法稳定爾维持在，但其在回合左右的奖励值有明显的起伏。算？去之所以具有较优的稳定性能，主要是于算法结构的攀机制。祓眞翁傭巔大奖励值，则是由宁算法认为无人车是异构的，也就是说各无人车在同一时刻的策略可以不同，因此每个无人车较为容易达到最优规划，得到较大的奖励值仿真过程利用对比的方法，完成无人车对目标的围捕任务，分别对算法、算法以及本文所提出的算法进行验怔。各算法超参数设置见表。表算法中超参数设置参数学习率触数经验回放大小训练采集大小子蘧过训练，分别获得基于箕法、？算法和箕法在围捕过程中的耗时以及平均奖励值（如图所示）。回合数图算法耗时军事交通学报第卷第期解，永远无法围捕到目标。参考文献：，（）：，（）：，（）：，：，（）：，（）：，（）：，：，：，：，？，（），：，（）：，（），：，（）：，（）：，：，：，（）：（编辑：史海英）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 HAPPO2 无人协同围捕策略

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。