一类基于概率优先经验回放机...多智能体软行动-评论者算法_张严心.pdf
《一类基于概率优先经验回放机...多智能体软行动-评论者算法_张严心.pdf》由会员分享,可在线阅读,更多相关《一类基于概率优先经验回放机...多智能体软行动-评论者算法_张严心.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 49 卷 第 4 期2023 年 4 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.4Apr.2023一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法张严心1,孔摇 涵1,殷辰堃1,王子豪1,黄志清2(1.北京交通大学电子信息工程学院,北京摇 100044;2.北京工业大学信息学部,北京摇 100124)摘摇 要:针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi鄄agent soft actor
2、鄄critic with probabilistic prioritizedexperience replay based on a distributed paradigm,DPER鄄MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的 2 类合作和竞争关系共存的捕食者-猎物任务场景,将 DPER鄄MASAC 与多智能体软行动-评论者算法(multi鄄agent soft actor
3、鄄critic,MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi鄄agent softactor鄄critic with prioritized experience replay,PER鄄MASAC)2 种基线算法进行对比实验.结果表明,采用 DPER鄄MASAC 训练的捕食者团队其决策水平在最终性能和任务成功率 2 个维度上均有明显提升.关键词:多智能体系统;多智能体深度强化学习;优先经验回放机制;分布式结构;抽样概率;软行动-评论者算法中图分类号:TP83;TP311文献标志码:A文章编号:0254-0037(2023)04-0456-08doi:10.1193
4、6/bjutxb2022110019收稿日期:2022鄄11鄄10;修回日期:2022鄄11鄄22基金项目:国家自然科学基金资助项目(62273082);中央高校基本科研业务费重大项目(2018JBZ006)作者简介:张严心(1976),女,副教授,主要从事复杂大系统的智能控制、无人驾驶中的智能控制、复杂交通网络控制方面的研究,E鄄mail:yxzhang 通信作用:黄志清(1970),男,副教授,主要从事无人驾驶智能决策控制、车联网及区块链方面的研究,E鄄mail:Distributed Multi鄄Agent Soft Actor鄄Critic Algorithm WithProbabil
5、istic Prioritized Experience ReplayZHANG Yanxin1,KONG Han1,YIN Chenkun1,WANG Zihao1,HUANG Zhiqing2(1.School of Electronic and Information Engineering,Beijing Jiaotong University,Beijing 100044,China;2.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)Abstract:Ai
6、ming at a huge demand for interaction data in practical multi鄄agent tasks,based on thedistributed architecture in the single鄄intelligent domain,a multi鄄agent soft actor鄄critic reinforcementlearning algorithm together with probabilistic prioritized experience replay and distributed architecture(DPER鄄
7、MASAC)was proposed.In DPER鄄MASAC,workers collect experience data by interacting withenvironments simultaneously.To break through the limitation of purely recent experience being extractedwith high probability in the case of multi鄄agent system of high throughput,a more universal and improvedmode base
8、d on probability of priority was put forward to sample and utilize experience data,and thenetwork parameters of agents will be updated.To verify the efficiency of DPER鄄MASAC,comparative网络首发时间:2023-03-22 15:39:30网络首发地址:https:/ 第 4 期张严心,等:一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法experiments were conducted in tw
9、o types of predator鄄prey environment in which both cooperation andcompetition exist among multiple agents.Meanwhile multi鄄agent soft actor鄄critic(MASAC)and multi鄄agent soft actor鄄critic with prioritized experience replay(PER鄄MASAC)were regarded as two baselinealgorithms,compared with DPER鄄MASAC in t
10、his environment with gradually incremental鄄difficulty.Interms of the final performance and success rate,results indicate that the policy of predators,which istrained by DPER鄄MASAC,performs optimally.Key words:multi鄄agent systems(MAS);multi鄄agent deep reinforcement learning(DRL);prioritizedexperience
11、 replay;distributed architecture;sampling鄄probability;soft actor鄄critic algorithm摇摇深度强化学习(deep reinforcement learning,DRL)至今已在自动驾驶1、自动靠泊2、机器人控制3等诸多领域得到广泛的应用,极大推动人工智能和自动化技术的发展.面对越来越多的大规模复杂问题,单智能体集成的解决方案将面临各种资源和条件的约束.多智能体系统(multi鄄agent system,MAS)4因具有自主性、分布性和协调性等特点成为实现分布式人工智能的重要解决方案.DRL 已在单智能体领域取得显著成果
12、,这促使研究人员将 DRL 的思想和算法应用于 MAS 的学习和控制中,由此催生了多智能体深度强化学习5鄄7(muti鄄agent deep reinforcement learning,MADRL),以解决多个智能体在复杂任务场景中的智能序贯决策问题.经过数年的发展创新,MADRL 已广泛应用于游戏人工智能8、交通信号灯控制9鄄11、多机协同空战12、多机器人群控制13、滴滴智能派单14和工厂智能调度15等各类现实领域.MADRL 常基于集中式训练分布式执行(centralized training decentralizedexecution,CTDE)的范式16对 DRL 算法的训练和执
13、行阶段做出相应调整.多智能体深度确定性策略梯度算法(muti鄄agent deep deterministic policy gradient,MADDPG)17是目前 MADRL 中基于 CTDE 范式最经典的算法之一.然而,MADDPG 在每个状态下只考虑一个最优动作,易收敛于次优策略且勘探效率较差,难以解决复杂环境下的多智能体决策问题.文献18提出基于软行动-评论者的多智能体深度强化学习算法(multi鄄agent soft actor鄄critic,MASAC),策略网络的输出是由高斯分布表示的随机策略.相比于深度确定性 策 略 梯 度 算 法(deep deterministic p
14、olicygradient,DDPG)19的确定性策略,随机策略在大规模复杂场景和部分可观测任务中具有更强的探索能力和决策性能.实验结果表明,MASAC 的性能优于MADDPG.尽管 MASAC 策略的随机性在一定程度上增加了智能体探索最优动作的可能性,但增加策略的随机性意味着算法需要更长的训练时间来产生更多的交互数据.考虑到复杂多智能体环境中智能体数量的增加、动作空间和状态空间均呈指数级增长使得算法对于交互经验数据量的需求远高于单智能体强化学习,训练效率仍是 MADRL 解决实际问题时一个棘手且永恒的议题.本文的工作是基于 MASAC 进一步探寻具有更高决 策 效 率 的 MADRL.在 单
15、 智 能 体 领 域 中,DeepMind 团队提出一种分布式优先经验回放池算法(distributed prioritized experience replay,Ape鄄X)20为智能体提供了多样的数据,智能体的性能在雅达利游戏中得到翻倍的提升.为加快收敛速度,文献21对多智能体深度强化学习算法领域中的优先经验回放机制进行研究,提出一种最大化新产生交互经验优先级的带有优先经验回放机制的多智能体软行动-评论者算法(multi鄄agent soft actor鄄critic with prioritized experience replay,PER鄄MASAC算法.考虑到多智能体系统对交互经
16、验的庞大需求,在单智能体领域 Ape鄄X 算法的基础上,本文将优先经验回放机制和分布式强化学习同时引入到多智能体领域,提出一种两者并行的机制,即具有概率优先经验回放机制的分布式多智能体深度强化学习算法(multi鄄agent soft actor鄄critic with probabilisticprioritized experience replay based on a distributedparadigm,DPER鄄MASAC),同时针对多智能体本身引起的高数据需求量,照搬原有的单智能体的优先经验回放机制会引发学习者优先抽取的都是最近产生的经验,而过去有价值的经验将难以被抽取用于模型
17、的训练等问题.本文提出了改进原有优先经验回放机制的优先级定义方式,旨在提高多智能体经验池抽取效率.首先介绍了单智能体领域分布式优先经验回放机制的核心思想,然后介绍了 MASAC 算法的基本架构,进而引出本文提出的高效率的多智能体754北摇 京摇 工摇 业摇 大摇 学摇 学摇 报2023 年DPER鄄MASAC 算法.在实验环节,本文从重塑奖励函数的角度设计了 2 种不同难度的捕食者-猎物多智能体任务场景,对本文提出的新算法进行测试,并分析了智能体的实际表现和任务完成情况.1摇 单智能体分布式强化学习与多智能体深度强化学习摇 摇 强化学习将单智能体的序列决策过程用马尔可夫决策过程(Markov
18、decision process,MDP)22描述,而多智能体系统的序列决策过程在强化学习中遵循 马 尔 可 夫 博 弈 过 程(Markov game process,MGP)23.这是因为多智能体系统中的单个智能体所得的奖励不仅由自身的策略决定,还参与博弈的其他智能体的策略有关,并且系统状态的转移受到所有智能体联合行动的影响.分别介绍单智能领域中一种基于 MDP 的分布式强化学习算法和一种基于 CTDE 范式的多智能体深度强化学习算法.1郾 1摇 Ape鄄X单智能体领域的深度强化学习过程分为采集经验和训练模型 2 个阶段.考虑到经验采集过程中需要大批量交互数据,谷歌 DeepMind 团队
19、提出一种将深度 Q 学习网络(deep Q鄄learning network,DQN)24扩展为分布式版本的算法 Ape鄄X,由多个相互独立的行动者(worker)和一个学习者(learner)组成.图 1 中的行动者负责通过与环境交互收集经验并将经验存储在全局经验回放池中;学习者基于多个行动者收集到的批量经验数据训练其网络参数,从而学习最优的策略;行动者定期同步学习者最新的网络参数.一方面,每个行动者可采用不同的行为策略收集经验数据,通过这种分布式架构使得智能体能够充分探索状态空间和策略空间,从而为训练提供更多有价值的交互数据.另一方面,Ape鄄X20引入了经验优先回放机制,每个行动者都会计
20、算经验的优先级,学习者会根据经验的优先级进行抽取并对被抽取经验的优先级进行更新.经验优先级的定义依据P(x)=p琢x移Mk=1p琢k(1)进行计算.式中:P(x)为某条经验 x 被采样的概率;px为经验 x 的优先级;M 为经验回放池的存储容量;指数 琢 为控制采样在随机和贪婪之间的权重的超参数 当 琢=0 时,退化为均匀随机采样;当琢屹0 时,可对经验优先程度的适当调整.相应的采样概率依据图 1摇 Ape鄄X 分布式架构Fig.1摇 Distributed diagram of Ape鄄X摇px=|啄x|+着(2)进行计算.式中:|啄x|为经验 x 当前 Q 值和目标 Q值的差值的绝对值;着
21、 为一个很小的正数,可使 啄=0的经验也有概率被抽取.1郾 2摇 MASAC考虑到多智能体系统状态的转移受所有智能体的影响,对其中的某个智能体而言,若在训练过程中简单地将其他智能体视作环境的一部分,则会导致训练环境的不稳定,造成环境状态转移和奖励值的不确定性,使得算法难以收敛.CTDE 多智能体范式将强化学习的训练阶段和执行阶段分开:在训练阶段考虑联合观测和联合动作,考虑更多的额外信息帮助值函数对联合策略进行更优的评估,可缓解环境的非平稳性问题;在执行阶段,智能体通过集中式训练习得的决策能力即可根据局部观测做出决策,符合实际场景.MASAC 是一种基于 CTDE 范式的多智能体深度强化学习算法
22、.假设智能体交互学习的环境中有 N个智能体,所有智能体的策略集合为 仔=仔1,仔2,仔N,即每个智能体都有一个单独训练的行动者网络(actor)和评论者网络(critic),分别由兹=兹1,兹2,兹N和 茁=茁1,茁2,茁N参数化表示.在 MASAC 中,每个智能体 i 的 actor 网络通过最小化损失函数进行更新,actor 网络损失函数的计算式为J仔(兹i)=Eo D,a 仔兹(o)姿log 仔i兹(ai|oi)-Qi茁(o,a)(3)式中:D 为经验回放池,使用四元组掖o,a,o忆,a忆业存储轨迹经验:o=o1,o2,oN为所有智能体的 1次观测集合,a=a1,a2,aN为所有智能体的
23、 1次动作集合,o=o忆1,o忆2,o忆N为环境状态转移后所有智能体的 1 次观测集合,r=r1,r2,rN为所有智能体的奖励值集合;超参数 姿 为调节熵权重的参数;每个智能体的动作 ai为各自的 actor 网络基854摇 第 4 期张严心,等:一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法于部分观测 oi进行决策.每个智能体 i 的 critic 网络通过最小化损失函数进行更新,critic 网络损失函数的计算式为LQ(茁i)=E(o,a,o忆,a忆)D(Qi茁(o,a)-yi)2(4)式中 yi为智能体 i 时序差分的目标值yi=ri+酌Ea忆 仔兹(o忆)Qi茁(o忆,
24、a忆)-琢log 仔i兹(a忆i|o忆i)(5)式中:为 了 稳 定 智 能 体 的 训 练 过 程,兹 和 茁 为MASAC18中增加的目标 actor 网络和目标 critic 网络的参数;目标 critic 网络 Qi茁函数的输入为环境状态转移后所有智能体 1 次的观测集合 o忆和 a忆;a忆为每个智能体 i 的目标 actor 网络根据 o忆i得到的决策动作 a忆i所组成的 1 次动作集合.目标 actor 网络和目标 critic 网络的参数采用如下“软冶更新的方式进一步提升算法的稳定性,“软“更新公式为兹=子兹+(1-子)兹(6)茁=子茁+(1-子)茁(7)图 2摇 DPER鄄MA
25、SAC 架构图Fig.2摇 Diagram of DPER鄄MASAC式中:子 为控制更新比重的超参数,子垲1;兹、茁、兹、茁 分别为 actor 网络、critic 网络、目标 actor 网络、目标critic 网络的参数.2摇 DPER鄄MASAC针对多智能体深度强化学习处理复杂任务时面临的采样效率不高的问题,基于理论基础,本节介绍了一种改进的高效率的 MADRL 算法 DPER鄄MASAC,并对所提算法原理和设计细节进行阐述.2郾 1摇 算法设计在 MASAC 中,每个智能体都有属于自身的actor、critic 和经验回放池,因此将 MASAC 算法扩展为分布式版本,需要将每个智能体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一类 基于 概率 优先 经验 回放 智能 行动 评论 算法 张严心
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。