分销赏收藏举报申诉 / 8

立即下载开通VIP

当前位置：首页 > 品牌综合 > 临存文档 > 一类基于概率优先经验回放机...多智能体软行动-评论者算法_张严心.pdf

一类基于概率优先经验回放机...多智能体软行动-评论者算法_张严心.pdf

上传人：自信****多点

文档编号：467734

上传时间：2023-10-12

格式：PDF

页数：8

大小：1.11MB

《一类基于概率优先经验回放机...多智能体软行动-评论者算法_张严心.pdf》由会员分享，可在线阅读，更多相关《一类基于概率优先经验回放机...多智能体软行动-评论者算法_张严心.pdf（8页珍藏版）》请在咨信网上搜索。

1、第 49 卷第 4 期2023 年 4 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.4Apr.2023一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法张严心1,孔摇涵1,殷辰堃1,王子豪1,黄志清2(1.北京交通大学电子信息工程学院,北京摇 100044;2.北京工业大学信息学部,北京摇 100124)摘摇要:针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi鄄agent soft actor

2、鄄critic with probabilistic prioritizedexperience replay based on a distributed paradigm,DPER鄄MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的 2 类合作和竞争关系共存的捕食者-猎物任务场景,将 DPER鄄MASAC 与多智能体软行动-评论者算法(multi鄄agent soft actor

3、鄄critic,MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi鄄agent softactor鄄critic with prioritized experience replay,PER鄄MASAC)2 种基线算法进行对比实验.结果表明,采用 DPER鄄MASAC 训练的捕食者团队其决策水平在最终性能和任务成功率 2 个维度上均有明显提升.关键词:多智能体系统;多智能体深度强化学习;优先经验回放机制;分布式结构;抽样概率;软行动-评论者算法中图分类号:TP83;TP311文献标志码:A文章编号:0254-0037(2023)04-0456-08doi:10.1193

4、6/bjutxb2022110019收稿日期:2022鄄11鄄10;修回日期:2022鄄11鄄22基金项目:国家自然科学基金资助项目(62273082);中央高校基本科研业务费重大项目(2018JBZ006)作者简介:张严心(1976),女,副教授,主要从事复杂大系统的智能控制、无人驾驶中的智能控制、复杂交通网络控制方面的研究,E鄄mail:yxzhang 通信作用:黄志清(1970),男,副教授,主要从事无人驾驶智能决策控制、车联网及区块链方面的研究,E鄄mail:Distributed Multi鄄Agent Soft Actor鄄Critic Algorithm WithProbabil

5、istic Prioritized Experience ReplayZHANG Yanxin1,KONG Han1,YIN Chenkun1,WANG Zihao1,HUANG Zhiqing2(1.School of Electronic and Information Engineering,Beijing Jiaotong University,Beijing 100044,China;2.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)Abstract:Ai

6、ming at a huge demand for interaction data in practical multi鄄agent tasks,based on thedistributed architecture in the single鄄intelligent domain,a multi鄄agent soft actor鄄critic reinforcementlearning algorithm together with probabilistic prioritized experience replay and distributed architecture(DPER鄄

7、MASAC)was proposed.In DPER鄄MASAC,workers collect experience data by interacting withenvironments simultaneously.To break through the limitation of purely recent experience being extractedwith high probability in the case of multi鄄agent system of high throughput,a more universal and improvedmode base

8、d on probability of priority was put forward to sample and utilize experience data,and thenetwork parameters of agents will be updated.To verify the efficiency of DPER鄄MASAC,comparative网络首发时间：2023-03-22 15:39:30网络首发地址：https:/ 第 4 期张严心,等:一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法experiments were conducted in tw

9、o types of predator鄄prey environment in which both cooperation andcompetition exist among multiple agents.Meanwhile multi鄄agent soft actor鄄critic(MASAC)and multi鄄agent soft actor鄄critic with prioritized experience replay(PER鄄MASAC)were regarded as two baselinealgorithms,compared with DPER鄄MASAC in t

10、his environment with gradually incremental鄄difficulty.Interms of the final performance and success rate,results indicate that the policy of predators,which istrained by DPER鄄MASAC,performs optimally.Key words:multi鄄agent systems(MAS);multi鄄agent deep reinforcement learning(DRL);prioritizedexperience

11、 replay;distributed architecture;sampling鄄probability;soft actor鄄critic algorithm摇摇深度强化学习(deep reinforcement learning,DRL)至今已在自动驾驶1、自动靠泊2、机器人控制3等诸多领域得到广泛的应用,极大推动人工智能和自动化技术的发展.面对越来越多的大规模复杂问题,单智能体集成的解决方案将面临各种资源和条件的约束.多智能体系统(multi鄄agent system,MAS)4因具有自主性、分布性和协调性等特点成为实现分布式人工智能的重要解决方案.DRL 已在单智能体领域取得显著成果

12、,这促使研究人员将 DRL 的思想和算法应用于 MAS 的学习和控制中,由此催生了多智能体深度强化学习5鄄7(muti鄄agent deep reinforcement learning,MADRL),以解决多个智能体在复杂任务场景中的智能序贯决策问题.经过数年的发展创新,MADRL 已广泛应用于游戏人工智能8、交通信号灯控制9鄄11、多机协同空战12、多机器人群控制13、滴滴智能派单14和工厂智能调度15等各类现实领域.MADRL 常基于集中式训练分布式执行(centralized training decentralizedexecution,CTDE)的范式16对 DRL 算法的训练和执

13、行阶段做出相应调整.多智能体深度确定性策略梯度算法(muti鄄agent deep deterministic policy gradient,MADDPG)17是目前 MADRL 中基于 CTDE 范式最经典的算法之一.然而,MADDPG 在每个状态下只考虑一个最优动作,易收敛于次优策略且勘探效率较差,难以解决复杂环境下的多智能体决策问题.文献18提出基于软行动-评论者的多智能体深度强化学习算法(multi鄄agent soft actor鄄critic,MASAC),策略网络的输出是由高斯分布表示的随机策略.相比于深度确定性策略梯度算法(deep deterministic p

14、olicygradient,DDPG)19的确定性策略,随机策略在大规模复杂场景和部分可观测任务中具有更强的探索能力和决策性能.实验结果表明,MASAC 的性能优于MADDPG.尽管 MASAC 策略的随机性在一定程度上增加了智能体探索最优动作的可能性,但增加策略的随机性意味着算法需要更长的训练时间来产生更多的交互数据.考虑到复杂多智能体环境中智能体数量的增加、动作空间和状态空间均呈指数级增长使得算法对于交互经验数据量的需求远高于单智能体强化学习,训练效率仍是 MADRL 解决实际问题时一个棘手且永恒的议题.本文的工作是基于 MASAC 进一步探寻具有更高决策效率的 MADRL.在单

15、智能体领域中,DeepMind 团队提出一种分布式优先经验回放池算法(distributed prioritized experience replay,Ape鄄X)20为智能体提供了多样的数据,智能体的性能在雅达利游戏中得到翻倍的提升.为加快收敛速度,文献21对多智能体深度强化学习算法领域中的优先经验回放机制进行研究,提出一种最大化新产生交互经验优先级的带有优先经验回放机制的多智能体软行动-评论者算法(multi鄄agent soft actor鄄critic with prioritized experience replay,PER鄄MASAC算法.考虑到多智能体系统对交互经

16、验的庞大需求,在单智能体领域 Ape鄄X 算法的基础上,本文将优先经验回放机制和分布式强化学习同时引入到多智能体领域,提出一种两者并行的机制,即具有概率优先经验回放机制的分布式多智能体深度强化学习算法(multi鄄agent soft actor鄄critic with probabilisticprioritized experience replay based on a distributedparadigm,DPER鄄MASAC),同时针对多智能体本身引起的高数据需求量,照搬原有的单智能体的优先经验回放机制会引发学习者优先抽取的都是最近产生的经验,而过去有价值的经验将难以被抽取用于模型

17、的训练等问题.本文提出了改进原有优先经验回放机制的优先级定义方式,旨在提高多智能体经验池抽取效率.首先介绍了单智能体领域分布式优先经验回放机制的核心思想,然后介绍了 MASAC 算法的基本架构,进而引出本文提出的高效率的多智能体754北摇京摇工摇业摇大摇学摇学摇报2023 年DPER鄄MASAC 算法.在实验环节,本文从重塑奖励函数的角度设计了 2 种不同难度的捕食者-猎物多智能体任务场景,对本文提出的新算法进行测试,并分析了智能体的实际表现和任务完成情况.1摇单智能体分布式强化学习与多智能体深度强化学习摇摇强化学习将单智能体的序列决策过程用马尔可夫决策过程(Markov

18、decision process,MDP)22描述,而多智能体系统的序列决策过程在强化学习中遵循马尔可夫博弈过程(Markov game process,MGP)23.这是因为多智能体系统中的单个智能体所得的奖励不仅由自身的策略决定,还参与博弈的其他智能体的策略有关,并且系统状态的转移受到所有智能体联合行动的影响.分别介绍单智能领域中一种基于 MDP 的分布式强化学习算法和一种基于 CTDE 范式的多智能体深度强化学习算法.1郾 1摇 Ape鄄X单智能体领域的深度强化学习过程分为采集经验和训练模型 2 个阶段.考虑到经验采集过程中需要大批量交互数据,谷歌 DeepMind 团队

19、提出一种将深度 Q 学习网络(deep Q鄄learning network,DQN)24扩展为分布式版本的算法 Ape鄄X,由多个相互独立的行动者(worker)和一个学习者(learner)组成.图 1 中的行动者负责通过与环境交互收集经验并将经验存储在全局经验回放池中;学习者基于多个行动者收集到的批量经验数据训练其网络参数,从而学习最优的策略;行动者定期同步学习者最新的网络参数.一方面,每个行动者可采用不同的行为策略收集经验数据,通过这种分布式架构使得智能体能够充分探索状态空间和策略空间,从而为训练提供更多有价值的交互数据.另一方面,Ape鄄X20引入了经验优先回放机制,每个行动者都会计

20、算经验的优先级,学习者会根据经验的优先级进行抽取并对被抽取经验的优先级进行更新.经验优先级的定义依据P(x)=p琢x移Mk=1p琢k(1)进行计算.式中:P(x)为某条经验 x 被采样的概率;px为经验 x 的优先级;M 为经验回放池的存储容量;指数琢为控制采样在随机和贪婪之间的权重的超参数当琢=0 时,退化为均匀随机采样;当琢屹0 时,可对经验优先程度的适当调整.相应的采样概率依据图 1摇 Ape鄄X 分布式架构Fig.1摇 Distributed diagram of Ape鄄X摇px=|啄x|+着(2)进行计算.式中:|啄x|为经验 x 当前 Q 值和目标 Q值的差值的绝对值;着

21、为一个很小的正数,可使啄=0的经验也有概率被抽取.1郾 2摇 MASAC考虑到多智能体系统状态的转移受所有智能体的影响,对其中的某个智能体而言,若在训练过程中简单地将其他智能体视作环境的一部分,则会导致训练环境的不稳定,造成环境状态转移和奖励值的不确定性,使得算法难以收敛.CTDE 多智能体范式将强化学习的训练阶段和执行阶段分开:在训练阶段考虑联合观测和联合动作,考虑更多的额外信息帮助值函数对联合策略进行更优的评估,可缓解环境的非平稳性问题;在执行阶段,智能体通过集中式训练习得的决策能力即可根据局部观测做出决策,符合实际场景.MASAC 是一种基于 CTDE 范式的多智能体深度强化学习算法

22、.假设智能体交互学习的环境中有 N个智能体,所有智能体的策略集合为仔=仔1,仔2,仔N,即每个智能体都有一个单独训练的行动者网络(actor)和评论者网络(critic),分别由兹=兹1,兹2,兹N和茁=茁1,茁2,茁N参数化表示.在 MASAC 中,每个智能体 i 的 actor 网络通过最小化损失函数进行更新,actor 网络损失函数的计算式为J仔(兹i)=Eo D,a 仔兹(o)姿log 仔i兹(ai|oi)-Qi茁(o,a)(3)式中:D 为经验回放池,使用四元组掖o,a,o忆,a忆业存储轨迹经验:o=o1,o2,oN为所有智能体的 1次观测集合,a=a1,a2,aN为所有智能体的

23、 1次动作集合,o=o忆1,o忆2,o忆N为环境状态转移后所有智能体的 1 次观测集合,r=r1,r2,rN为所有智能体的奖励值集合;超参数姿为调节熵权重的参数;每个智能体的动作 ai为各自的 actor 网络基854摇第 4 期张严心,等:一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法于部分观测 oi进行决策.每个智能体 i 的 critic 网络通过最小化损失函数进行更新,critic 网络损失函数的计算式为LQ(茁i)=E(o,a,o忆,a忆)D(Qi茁(o,a)-yi)2(4)式中 yi为智能体 i 时序差分的目标值yi=ri+酌Ea忆仔兹(o忆)Qi茁(o忆,

24、a忆)-琢log 仔i兹(a忆i|o忆i)(5)式中:为了稳定智能体的训练过程,兹和茁为MASAC18中增加的目标 actor 网络和目标 critic 网络的参数;目标 critic 网络 Qi茁函数的输入为环境状态转移后所有智能体 1 次的观测集合 o忆和 a忆;a忆为每个智能体 i 的目标 actor 网络根据 o忆i得到的决策动作 a忆i所组成的 1 次动作集合.目标 actor 网络和目标 critic 网络的参数采用如下“软冶更新的方式进一步提升算法的稳定性,“软“更新公式为兹=子兹+(1-子)兹(6)茁=子茁+(1-子)茁(7)图 2摇 DPER鄄MA

25、SAC 架构图Fig.2摇 Diagram of DPER鄄MASAC式中:子为控制更新比重的超参数,子垲1;兹、茁、兹、茁分别为 actor 网络、critic 网络、目标 actor 网络、目标critic 网络的参数.2摇 DPER鄄MASAC针对多智能体深度强化学习处理复杂任务时面临的采样效率不高的问题,基于理论基础,本节介绍了一种改进的高效率的 MADRL 算法 DPER鄄MASAC,并对所提算法原理和设计细节进行阐述.2郾 1摇算法设计在 MASAC 中,每个智能体都有属于自身的actor、critic 和经验回放池,因此将 MASAC 算法扩展为分布式版本,需要将每个智能体

26、与环境交互的过程扩展为并行的形式来增加数据的多样性,即在每个行动者中都存在 MASAC 中所有智能体 actor 和critic 网络的副本.假设在有 3 个智能体的任务场景中,DPER鄄MASAC 包括 1 个学习者和 2 个行动者.算法架构如图 2 所示,对于智能体 1 而言,在 2 个行动者中都有它的 actor 网络,因此可以并行地与各自所属行动者的环境进行交互,将交互经验存储到属于智能体1 的经验回放池中,行动者中的 critic 网络负责计算所属同一行动者的 actor 网络与环境交互产生的经验的优先级.学习者从每个智能体的经验回放池中按照经验的优先级进行抽取,并在 1 次训练完成

27、后,学习者根据最新的网络参数对刚被使用的经验的优先级进行更新.学习者更新 critic 网络的损失函数为LQ(茁i)=1m移mx=1wx(Qi茁(o,a)-yi)2(8)式中:m 为本次抽取的经验数量;采样权重 wx的形式为wx=(M P(x)-渍max1臆k臆m(wk)=(M P(x)-渍max1臆k臆m(M*P(k)-渍)(=P(x)min1臆k臆mP(k)-渍(9)式中渍为超参数,随模型的训练线性递增至 1,表示在训练早期鼓励探索,在训练后期保证更新的无偏性.此处需要特别说明的是,文献21中对于经验优先级的设定要求是:每条最新产生的交互经验在被存入经验回放池时,其优先级都被初始化为最

28、大优先级,在被抽取用于训练之后再根据最新的网络954北摇京摇工摇业摇大摇学摇学摇报2023 年参数计算出该条经验的时序差分误差(temporaldifferential鄄error,TD鄄error)后调整其优先级.这种方法在非分布式的算法结构中流行且实用.但在DPER鄄MASAC 中,由于每个行动者会通过产生交互经验来扩展数据的吞吐量,若这些交互经验均被初始化为最大的优先级,将会导致学习者优先抽取的都是最近产生的经验,而过去有价值的经验将难以被抽取用于模型的训练.因此,在 DPER鄄MASAC中,每个行动者的 critic 网络都会计算最新产生经验的优先级,然后再将带有优先级的

29、经验存入全局经验回放池中,通过这种计算的并行性进一步提高学习者的训练效率.2郾 2摇算法部署由于 DPER鄄MASAC 中存在行动者和学习者,二者各司其职并相互配合,因此在算法流程中分为 2个部分分别介绍.算法流程分述如下.2郾 2郾 1摇算法 1-1:DPER鄄MASAC(行动者)1)初始化 Actor 网络仔=仔1兹,仔2兹,仔N兹,Critic 网络 Q=Q1茁,Q2茁,QN茁.2)初始化目标 actor 网络仔i兹饮仔i兹,目标 critic网络.3)与学习者同步并获取最新的参数,初始化经验缓冲区.4)For 每个训练回合如下.摇收到每个智能体的初始观测 oi摇 For 回合

30、内的每个时间步:摇摇每个智能体的 actor 网络输出采样一个动作摇摇执行联合动作 a=a1,a2,aN,接收奖励值并接收下一时间步观测摇摇将掖o,a,o忆,a忆业存入每个行动者的经验缓存区摇摇 If 当地经验缓存区存储经验数量达到门限值 G Then:摇摇摇批量获取经验数据 B,计算其优先级摇摇摇将批量经验数据及其优先级一起存入全局经验回放池中摇摇摇 End If摇摇摇与学习者保持同步最新的网络参数摇摇 End For摇 End For2郾 2郾 2摇算法 1-2:DPER鄄MASAC(学习者)1)初始化 actor 网络仔=仔1兹,仔2兹,仔N兹,cr

31、itic 网络 Q=Q1茁,Q2茁,QN茁.2)初始化目标 actor 网络仔i兹饮仔i兹,目标 critic 网络 Qi茁饮Qi茁.3)初始化全局经验回放池 D 和学习周期数目.4)For 每个学习周期如下.按照经验优先回放机制,从经验回放池中抽取m 条经验,计算被抽取的概率 P(x)和重要性采样权重 wx基于式(8)更新 critic 网络基于式(3)更新 actor 网络计算被抽取经验的 TD鄄error 值,并对他们的优先级进行更新基于式(6)(7)更新目标网络参数周期性更新全局经验回放池中经验数据End For3摇仿真3郾 1摇实验部署为验证所提算法在多智能体任务场景中的有效性

32、,本文选用图所示多智能体粒子环境(multi鄄agentparticle envs,MPE)中捕食者-猎物(predator鄄prey,PP)任务场景展开仿真实验.与其他实验环境相比,PP 是一个混合型多智能体任务场景,同时包含竞争和合作的多智能体关系,广泛被用作验证 MADRL算法的测试环境,具有代表性和可信性.图 3摇捕食者-猎物任务场景Fig.3摇 Mission scenario of predator鄄prey摇任务场景中存在 3 个红色的捕食者和 1 个绿色的猎物共 4 个智能体,环境中央存在 1 个黑色的障碍物,猎物可借助障碍物来躲避捕食者的追捕.需特别说明的是,周围的黑色边框

33、是为了限制猎物的移动范围,防止其为躲避追击而移动到地图之外.任务目的是捕食者需学会避免相互之间发生碰撞的前提下以一种合作的方式捕捉猎物.该任务场景规定:捕食者只有成功捕捉到猎物才能收获正向奖励,猎物只有在被捕捉时才有负向惩罚,那么在训练前064摇第 4 期张严心,等:一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法期任务场景与智能体之间的交互信息稀少,学习效率缓慢,因此该任务场景存在奖励值稀疏问题.重构奖励函数可从奖励函数的设计角度缓解奖励值稀疏问题,那么 3 个捕食者的合作共享奖励函数为Rpredator=-0郾 1 伊移3i=1D(i,prey)+移3i=1CiCi=10,

34、捕食者 i 捕食成功0,捕食者 i捕食失败(10)式中:D(i,prey)为第 i 个智能体与猎物之间的距离,距离越近,奖励值越大,从而引导捕食者相互配合快速捕捉猎物;第2 项为当任意一个捕食者与猎物发生碰撞即为捕捉成功,捕食者收获正奖励值10.猎物的奖励函数大小等于捕食者奖励函数的相反数,其形式为Rprey=0郾 1 伊移3i=1D(i,prey)-移3i=1Ci(11)进一步,通过重构的奖励函数从捕食者的追捕能力和猎物的逃逸能力2 个方面设计2 种任务场景.表 1摇 2 种不同场景下的捕食者-猎物任务Table 1摇 Mission of predator鄄prey in two diff

35、erentscenarios任务捕食者有无引导奖励猎物有无引导奖励场景 1否否场景 2否是摇摇场景 1 是一个典型的奖励稀疏环境,猎物和捕食者均不具有引导奖励,用于检验 DPER鄄MASAC 在奖励稀疏环境下的性能表现.场景 2 中仅猎物具有引导奖励,逃逸能力更强而捕食者奖励稀疏,任务难度升级,进一步检验 DPER鄄MASAC 在高难度任务场景中的表现.3郾 2摇结果分析实验的软件环境为 ubuntu16郾 04+Tensorflow+gym,硬件为英伟达 GeForce GTX 2080+32G 内存.设置学习率为 0郾 01,强化学习折扣因子为 0郾 95,经验回放池大小为 1 00

36、0 000,每次训练从经验池抽取512 批次大小的数据.对于本文所提的 DPER鄄MASAC 算法,设置 2 个行动者和 1 个学习者.实验中具体的超参数设置如表 2 所示.摇摇对于每个任务场景,均采用 5 个不同的随机种子来提高实验结果的可靠性.设置每个任务场景下的每次训练有 2 500 个回合,每个回合最大步长设置为 200.在每个任务场景中分别采用 MASAC、PER鄄MASAC 和 DPER鄄MASAC 训练捕食者,固定采表 2摇 PER鄄MASAC/DPER鄄MASAC 算法超参数Table 2摇 Hyperparameter of PER鄄MASAC andDPER鄄MASAC

37、PER鄄MASAC/DPER鄄MASAC算法超参数类型取值设置优化器Adam批处理大小 B512激活函数ReLU折扣因子酌0郾 95经验回放池大小 M100 000着0郾 02琢0郾 6渍0郾 4Actor 网络学习率0郾 01Critic 网络学习率0郾 01网络隐藏层神经元个数64目标网络软更新超参数子0郾 01用 MADDPG 算法训练猎物.为了能够更加清晰地分析回合奖励的走势,通过分析相同任务场景下 5次随机试验中捕食者的回合奖励均值和任务完成情况来对比算法的性能.图 4摇场景 1 中捕食者的平均回合奖励Fig.4摇 Mean of episode rewards of pred

38、ators in scenario 1场景 1 和场景 2 下的实验结果分别如图 4、5 所示,深色曲线表示捕食者回合奖励的均值,阴影部分表示方差.这里将相同场景中不同算法实验效果的对比称为“横向对比冶,将同一算法在不同实验任务场景中的对比称为“纵向对比冶.如图 4、5 所示,在2 种任务场景中,PER鄄MASAC 和 MASAC 的纵向对比之间,PER鄄MASAC 达到收敛稳定所需要的training episodes 更少.这说明了采用优先级采样机制的智能体可在相同采样次数和相同采样数量的经验中学得更多的内容.在 2 种任务场景下,DPER鄄MASAC 的最终性能显然均

39、优于 PER鄄MASAC,这说明 DPER鄄MASAC 的分布式结构扩展经验数据吞吐量并增加数据多样性,更容易探索到具有高回报的经验数据,缓解过拟合和过早陷入局部最优的问题.总的来看,DPER鄄MASAC 的方差最小,算法效果更稳定.对于捕食者和猎物均不带有引导奖励的场景164北摇京摇工摇业摇大摇学摇学摇报2023 年1,任务环境的奖励值稀疏,DPER鄄MASAC 多智能体系统的回合奖励均值可从负值收敛到 325,这足以说明捕食者学到了成功捕捉猎物的协同策略.而即使是在仅猎物具有引导奖励的场景 2 中,即捕食者追捕能力低下且猎物逃逸能力更强的任务环境,DPER鄄MASAC 多智能

40、体系统的回合奖励均值也从负值收敛到 260,较 PER鄄MASAC 以及 MASAC 算法的性能优势更加明显,证实了 DPER鄄MASAC 在处理复杂任务的优势.图 5摇场景 2 中捕食者的平均回合奖励Fig.5摇 Mean of episode rewards of predators inscenario 2摇表 3摇某回合中捕食者捕食次数Table 3摇 Success number of predator in an episode任务DPER鄄MASACPER鄄MASACMASAC场景 1292315场景 223199摇摇训练结束后,针对 DPER鄄MASAC 得到的最优策略

41、,在同样设置的场景1 和场景 2 的任务环境中另组织一个回合的测试实验来评估捕食者学到的策略.以测试回合中的捕食者成功捕捉猎物的次数作为评估标准,定义每个回合中的某时间步只要有一个捕食者捕捉到猎物,即记作捕食者团队在该回合内成功捕捉到猎物1 次.无论是在场景1 还是场景2 的任务场景中,经 DPER鄄MASAC 训练后的捕食者捕捉到猎物的次数均高于另外 2 种算法训练所得捕食者的捕捉次数,这说明经 DPER鄄MASAC 训练的捕食者的协作追捕策略是最佳的,具有更强的决策水平.图 6、7 分别对测试阶段捕食者团队在 2 个场景中初次捕获到的猎物的过程以(a)(d)的顺序进行渲染.在每个场景中,(

42、a)描述回合开始时的初始位置,(d)是捕食者团队第 1 次成功碰撞到猎物的追捕情况.可以发现,在不同的初始位置的情况下,3 个捕食者均能以相互协同的追捕策略捕捉到猎物.需要特别说明的是,在场景 2 的渲染图中,左右两侧的捕食者并没有一味地靠近捕食者,而是预判猎物的移动方向从而封堵其逃逸路线,左右两侧的捕食者放弃了短期较高的奖励值来完成整体的追捕任务,说明捕食者学会了相互协作的追捕策略.进一步验证了 DPER鄄MASAC 算法在分布式架构和改进的优先经验回放并行机制下的算法效率.图 6摇场景 1 中捕食过程渲染图Fig.6摇 Rendering picture of predation pro

43、cess in scenario 1摇图 7摇场景 2 中捕食过程渲染图Fig.7摇 Rendering picture of predation process in scenario 2摇4摇结论1)本文提出的 DPER鄄MASAC 算法在训练效率以及最终算法性能优于基线算法,效果最佳.2)通过本文提出的 DPER鄄MASAC 算法,具有合作的捕食者队伍可以学到一种协同追捕策略,相264摇第 4 期张严心,等:一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法互配合完成追捕.优秀的协同追捕策略并不是每个捕食者贪心策略的集合,部分捕食者会放弃短期较高的奖励值来完成整体的追捕

44、任务.参考文献:1 KIRAN B R,SOBH I,TALPAERT V,et al.Deepreinforcement learning for autonomous driving:a surveyC椅 2021 IEEE Transactions on Intelligent TransportationSystems(T鄄ITS).Piscataway:IEEE,2021.2 张皓然.Actor鄄Critic 强化学习方法及在船舶自动靠泊中的应用D.北京:北京交通大学,2021.ZHANG H R.Actor鄄critic reinforcement learning andappl

45、ications to automatic ship berthing D.Beijing:Beijing Jiaotong University,2021.(in Chinese)3 ZHAO W S,QUERALTA J P,WESTERLUND T.Sim鄄to鄄realtransfer in deep reinforcement learning for robotics:a surveyC 椅 2020 IEEE Symposium Series on ComputationalIntelligence(SSCI).Piscataway:IEEE,2020.4 GRONAUERS,D

46、IEPOLDK.Multi鄄agentdeepreinforcement learning:a surveyJ.Artificial IntelligenceReview,2021,55(2):859鄄943.5 YANGY,WANGJ.Anoverviewofmulti鄄agentreinforcement learning from game theoretical perspectiveJ.ArXiv Preprint ArXiv:2011.00583,2020.6 ZHANGK,YANGZ,BASART.Multi鄄agentreinforcement learning:a selec

47、tive overview of theories andalgorithmsJ.Handbook of Reinforcement Learning andControl,2021,325(7):321鄄384.7 OROOJLOOYJADID A,HAJINEZHAD D.A review ofcooperative multi鄄agent deep reinforcement learningJ.ArXiv Preprint ArXiv:1908.03963,2019.8 VINYALS O,BABUSCHKIN I.,et al.Grandmaster levelin StarCraf

48、t II using multi鄄agent reinforcement learningJ.Nature,2019,575(7782):350鄄354.9 JAMIL A R M,GANGULY K K,NOWER N.Adaptivetrafficsignalcontrolsystemusingcompositerewardarchitecture based deep reinforcement learningJ.IETIntelligent Transport Systems,2020,14(14):2030鄄2041.10 CHEN C,WEI H,XU N,et al.Towar

49、d a thousandlights:decentralizeddeepreinforcementlearningforlarge鄄scale traffic signal controlC椅Proceedings of the34th AAAI Conference on Artificial Intelligence.PaloAlto:AAAI Press,2020:3414鄄3421.11 WEI H,XU N,ZHANG H,et al.CoLight:learningnetwork鄄level cooperation for traffic signal controlC椅Proce

50、edings of the 28th ACM International Conference onInformation and Knowledge Management.New York:Association for Computing Machinery,2019:1913鄄1922.12 施伟,冯旸赫,程光权.基于深度强化学习的多机协同空战方法研究J.自动化学报,2021,47(7):1610鄄1623.SHI W,FENG Y H,CHENG G Q,et al.Research onmulti鄄aircraft cooperative air combat method base

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一类基于概率优先经验回放智能行动评论算法张严心

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。