换一换

咨信网 > 资源分类 > PDF文档下载

预览

自信AI助手

自信AI导航

基于两阶段意图共享的多智能体强化学习方法.pdf

资源ID：639409 资源大小：1.22MB 全文页数：18页
资源格式： PDF 下载积分：10金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

VIP下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

声明 | 会员权益获赠5币写作

1、填表： 下载求助索取发票退款申请

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

基于两阶段意图共享的多智能体强化学习方法.pdf

1、第4 6卷第9期2 0 2 3年9月计算机学报CH I N E S E J OUR NA L O F C OMP UT E R SV o l.4 6 N o.9S e p.2 0 2 3 收稿日期:2 0 2 2-0 4-0 9;在线发布日期:2 0 2 3-0 1-1 6.本课题得到2 0 1 8年度科技创新2 0 3 0“新一代人工智能”重大项目(批准号:2 0 1 8 AAA 0 1 0 2 3 0 2)资助.吴俊锋,硕士研究生,主要研究领域为强化学习、多智能体系统和群体智能.E-m a i l:w j f s m a i l.n j u.e d u.c

2、 n.王文,博士研究生,主要研究领域为强化学习、多智能体系统和群体智能.汪亮(通信作者),博士,副教授,中国计算机学会(C C F)会员,主要研究领域为群体智能、群智软件、人工智能.E-m a i l:w l n j u.e d u.c n.陶先平,博士,教授,中国计算机学会(C C F)会员,主要研究领域为软件方法学、群体智能.胡昊,博士,副教授,中国计算机学会(C C F)会员(1 0 7 4 0 M),主要研究领域为面向无人系统的区块链软件体系、边缘智能、群体博弈等.吴海军,硕士,高级工程师,中国计算机学会(C C F)会员,主要研究领域为多媒体信息处理、体系结构等.基于两阶段意图

3、共享的多智能体强化学习方法吴俊锋1)王文1)汪亮1)陶先平1)胡昊1)吴海军1),2)1)(南京大学计算机软件新技术国家重点实验室南京 2 1 0 0 2 3)2)(南京大学计算机科学技术与软件工程实验教学中心南京 2 1 0 0 2 3)摘要近年来,强化学习技术在连续决策问题上展现出了强大的能力,成为机器学习领域的一个重要分支.通过强化学习技术在多智能体系统下的发展和研究,多智能体强化学习技术有望成为群体智能行为涌现的关键技术手段,但在现阶段仍有诸多科学问题亟待解决.在多智能体强化学习领域,如何提高智能体在协作场景下的合作能力一直是一个热门研究话题.通信被认为是实现多智能体高

4、水平协作的重要元素,因此有不少研究尝试从通信的角度入手,让智能体通过交流来实现更好的协作.现有的大部分与通信有关的多智能体强化学习领域的工作关注于部分可观测问题,在这些工作中智能体通过通信信道共享了部分局部观测.最新的一些研究开始关注如何让智能体通过共享意图来实现更好的协作.然而,在不加限制的意图共享框架下,若智能体的最终行为与原先的意图不符,则可能会对其它智能体产生误导,此时引入通信反而产生了负作用.因此需要一个新的多智能体意图共享框架,在有效利用意图信息的同时避免出现智能体间的意图误导.针对上述问题,本文基于交流意图的思想,提出了一个新的多智能体强化学习意图通信框架2 S I S.在2 S

5、 I S框架下,智能体在决策前需要进行两次通信,第一次通信传播意图信息,第二次通信传播意图依赖关系.两次通信结束后每个智能体各自建立起意图依赖关系图,为了避免出现意图误导,对于意图依赖关系图上被依赖的智能体,2 S I S禁止其基于其它智能体的意图进行重新决策,其最终决策即为其初始意图,仅有不被依赖的智能体被允许基于意图信息重新决策.2 S I S可以与任意基于值函数的强化学习算法结合实现训练.在2 S I S框架下训练的智能体能够学会如何正确地建立意图依赖关系从而实现单向的意图传播,并且不存在意图误导问题.我们选用较具代表性的D o u b l e D QN 算法作为基算法,在两个多智能体场

6、景下验证了所提出方法的有效性.有效性实验结果表明,相比于无通信以及广播式通信意图方式训练的智能体,2 S I S 框架下训练的智能体在收敛速度以及最终累积奖赏上有明显提升.为了验证性能的提升来自于本文提出的方法,我们额外组织了消融实验,对方法的关键部分进行了控制变量,消融实验的结果说明2 S I S框架下训练的智能体能够正确选择依赖对象是性能提升的关键.最后我们组织了参数实验来说明本文引入的超参数会对训练过程产生怎样的影响以及如何为该参数选取一个合适的值.关键词多智能体系统;深度强化学习;深度多智能体强化学习;通信;意图共享;协作中图法分类号T P 3 1 1 D O I号1 0.1 1 8

7、 9 7/S P.J.1 0 1 6.2 0 2 3.0 1 8 2 0M u l t i-A g e n t R e i n f o r c e m e n t L e a r n i n g w i t h T w o S t e p I n t e n t i o n S h a r i n gWU J u n-F e n g1)WANG W e n1)WANG L i a n g1)T AO X i a n-P i n g1)HU H a o1)WU H a i-J u n1),2)1)(S t a t e K e y L a b o r a t o r y f o r N o v e

8、 l S o f t w a r e T e c h n o l o g y,N a n j i n g U n i v e r s i t y,N a n j i n g 2 1 0 0 2 3)2)(N a t i o n a l E x p e r i m e n t a l T e a c h i n g D e m o n s t r a t i o n C e n t e r o f C o m p u t e r S c i e n c e T e c h n o l o g y a n d S o f t w a r e E n g i n e e r i n g,N a n

9、j i n g U n i v e r s i t y,N a n j i n g 2 1 0 0 2 3)A b s t r a c t I n r e c e n t y e a r s,r e i n f o r c e m e n t l e a r n i n g h a s d e m o n s t r a t e d i t s p o w e r i n c o n t i n u o u s d e c i-s i o n-m a k i n g p r o b l e m s a n d h a s b e c o m e a n i m p o r t a n t b

10、r a n c h o f m a c h i n e l e a r n i n g s t u d y.A s t h e d e-v e l o p m e n t o f r e i n f o r c e m e n t l e a r n i n g i n m u l t i-a g e n t s y s t e m s,m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g i s e x p e c t e d t o b e c o m e a k e y t e c h n o l o g y f o

11、r t h e e m e r g e n c e o f s w a r m i n t e l l i g e n t b e h a v i o r,b u t t h e r e a r e s t i l l m a n y s c i e n t i f i c p r o b l e m s t o b e s o l v e d a t t h e p r e s e n t s t a g e.C o o p e r a t i o n p r o b l e m i s a p o p u l a r r e s e a r c h t o p i c i n t h e

12、f i e l d o f m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g.C o mm u n i c a t i o n i s c o n-s i d e r e d a k e y e l e m e n t t o a c h i e v e h i g h-l e v e l c o o p e r a t i o n a m o n g m u l t i-a g e n t s.T h e r e f o r e,s o m e e x-i s t i n g a p p r o a c h e s t

13、 r y t o c o m b i n e c o mm u n i c a t i o n w i t h m u l t i a g e n t r e i n f o r c e m e n t l e a r n i n g,i n o r d e r t o a c h i e v e b e t t e r c o o p e r a t i o n a m o n g a g e n t s.M o s t o f t h e s e a p p r o a c h e s f o c u s o n p a r t i a l o b s e r v a-t i o n p

14、r o b l e m s.I n t h e s e a p p r o a c h e s,a g e n t s s h a r e t h e i r l o c a l o b s e r v a t i o n s w i t h o t h e r s t h r o u g h c o mm u n i c a t i o n c h a n n e l s.I n r e c e n t w o r k,r e s e a r c h e r s a t t e m p t t o l e t a g e n t s s h a r e i n t e n t i o n t

15、 o e n-h a n c e c o o p e r a t i o n a m o n g a g e n t s.H o w e v e r,u n d e r u n r e s t r i c t e d i n t e n t i o n s h a r i n g,i f t h e f i n a l a c-t i o n o f a n a g e n t i s d i f f e r e n t w i t h i t s o r i g i n a l i n t e n t i o n,i t m a y m i s l e a d o t h e r a g e

16、 n t s,w h i c h m a k e i n t e n t i o n s h a r i n g h a r m f u l t o t r a i n.T h e r e f o r e,a n e w m u l t i-a g e n t i n t e n t i o n s h a r i n g s c h e m e i s n e e-d e d t o a v o i d m i s l e a d i n g i n t e n t i o n s b e t w e e n a g e n t s w h i l e e f f e c t i v e l

17、 y u t i l i z i n g i n t e n t i o n i n f o r m a-t i o n.T o s o l v e t h i s p r o b l e m,t h i s p a p e r p r o p o s e s a m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g i n t e n t i o n s h a r i n g s c h e m e2 S I S,b a s e d o n t h e i d e a o f i n t e n t i o n s h

18、a r i n g.U n d e r t h e 2 S I S s c h e m e,a n a g e n t n e e d s t o c o mm u n i c a t e t w i c e b e f o r e m a k i n g a d e c i s i o n.T h e f i r s t c o mm u n i c a t i o n b r o a d c a s t i n t e n-t i o n i n f o r m a t i o n,a n d t h e s e c o n d c o mm u n i c a t i o n b r o

19、 a d c a s t i n t e n t i o n d e p e n d e n c y r e l a t i o n s h i p.A f-t e r t h e t w o c o mm u n i c a t i o n s,e a c h a g e n t e s t a b l i s h e s t h e i n t e n t i o n d e p e n d e n c y g r a p h s e p a r a t e l y.I n o r d e r t o a v o i d i n t e n t i o n m i s l e a d i

20、n g,2 S I S p r o h i b i t s t h e a g e n t t h a t i s d e p e n d e n t o n o t h e r a g e n t s o n t h e i n t e n t i o n d e p e n d e n c y g r a p h f r o m r e-d e c i s i o n,a n d i t s f i n a l d e c i s i o n i s e x a c t l y t h e s a m e a s i t s i n i t i a l i n t e n t i o n.

21、O n l y t h e a g e n t t h a t i s n o t d e p e n d e n t o n a n y a g e n t i s a l l o w e d t o m a k e a n e w d e c i-s i o n b a s e d o n t h e i n t e n t i o n i n f o r m a t i o n f r o m o t h e r s.2 S I S c a n b e c o m b i n e d w i t h a n y v a l u e-b a s e d r e i n f o r c e

22、m e n t l e a r n i n g a l g o r i t h m t o p e r f o r m t r a i n i n g.A g e n t s t r a i n e d b y 2 S I S s c h e m e c a n l e a r n h o w t o c o r r e c t l y e s t a b l i s h i n t e n t i o n d e p e n d e n c i e s t o a c h i e v e o n e-s i d e i n t e n t i o n p r o p a g a t i o

23、n,a v o i-d i n g t h e p r o b l e m o f i n t e n t i o n m i s l e a d i n g.W e s e l e c t t h e r e p r e s e n t a t i v e D o u b l e D QN a l g o r i t h m a s t h e b a s i c a l g o r i t h m t o v e r i f y t h e e f f e c t i v e n e s s o f t h e p r o p o s e d m e t h o d i n t w o m

24、 u l t i-a g e n t s c e n a r i-o s.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e a g e n t t r a i n e d b y 2 S I S s c h e m e p e r f o r m s b e t t e r i n c o n-v e r g e n c e s p e e d a n d f i n a l c u m u l a t i v e r e w a r d t h a n t h e a g e n t t r a i n e d

25、 w i t h o u t c o mm u n i c a t i o n a n d t h e a g e n t t r a i n e d w i t h u n r e s t r i c t e d i n t e n t i o n s h a r i n g.I n o r d e r t o d e m o n s t r a t e t h a t t h e p e r f o r m a n c e i m p r o v e m e n t c o m e s f r o m t h e m e t h o d p r o p o s e d i n t h i

26、s p a p e r,w e o r g a n i z e d a n a d d i t i o n a l a b l a t i o n e x-p e r i m e n t a n d c o n d u c t e d c o n t r o l v a r i a b l e s f o r t h e k e y p a r t s o f t h e m e t h o d.T h e r e s u l t s o f t h e a b l a t i o n e x-p e r i m e n t s h o w t h a t t h e s e l e c t

27、i o n o f d e p e n d e n t t a r g e t s f o r t h e a g e n t s t r a i n e d u n d e r t h e 2 S I S s c h e m e m a k e s k e y c o n t r i b u t i o n s t o t h e p e r f o r m a n c e i m p r o v e m e n t.F i n a l l y,w e o r g a n i z e p a r a m e t e r e x p e r i m e n t s t o i l l u s

28、t r a t e h o w t h e h y p e r p a r a m e t e r i n t r o d u c e d i n t h i s p a p e r a f f e c t t h e t r a i n i n g a n d h o w t o c h o o s e a n a p-p r o p r i a t e v a l u e f o r t h i s h y p e r p a r a m e t e r f o r t r a i n i n g.K e y w o r d s m u l t i-a g e n t s y s t e

29、m;d e e p r e i n f o r c e m e n t l e a r n i n g;d e e p m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g;c o mm u n i c a t i o n;i n t e n t i o n s h a r i n g;c o o p e r a t i o n1 引言强化学习(R e i n f o r c e m e n t L e a r n i n g,R L)是机器学习领域的一个重要分支,强调智能体在不断与环境交互的过程中根据环境给予的反馈来优化

30、自身策略,目标是最大化累计收益1.强化学习在博弈论、控制理论、多智能体系统等多个领域都有发展和研究.深度强化学习2-3是指结合了深度神经网络技术的强化学习方法,是人工智能领域的研究热点之一,目前深度强化学习技术已经在游戏4-5、控制系统6-7、数据库技术8、自动驾驶9、自然语言处理1 0-1 1、集群资源调度1 2等多个领域有所应用.多智能体强化学习(M u l t i-a g e n t R e i n f o r c e-12819 期吴俊锋等:基于两阶段意图共享的多智能体强化学习方法 m e n t L e a r n i n g,MA R L)1 3是强化学习领域的一个重

31、要研究方向,也是强化学习在多智能体系统领域下的发展和研究.现实世界中有许多任务场景都可以使用多智能体系统来建模,比如无人机集群控制、交通信号灯控制等.若采用中心化的单智能体强化学习方法来解决这类问题会面临可扩展性差、各种资源和条件的限制等问题.多智能体强化学习方法则在这些场景上展现出了巨大的潜力1 4-1 6,成为开发具有群体智能的多智能体系统的重要方法.多智能体强化学习逐渐成为人工智能领域的研究热点之一.然而,场景中存在多个智能体导致了系统的复杂程度上升,多智能体强化学习相比于经典的单智能体强化学习要面临着更多困难和挑战1 7.许多现实的多智能体场景需要智能体之间实现高度配合来完成任务目标,

32、而如何让智能体学会协作配合则是多智能体强化学习领域的难点之一1 8.为了解决上述难题,有许多工作尝试利用通信来加强多智能体间的协作.按照通信内容以及通信目标来分类,现有的工作可以分成两类.第一类工作如D I A L 1 9、C o mmN e t2 0、T a r M a r2 1、ATO C2 2等,在这些工作中,各个智能体的价值/策略网络经由通信信道连接起来,智能体在决策时可以互相传输信息.此外,在训练过程中,梯度也可以经由通信信道在各个智能体之间流通,进而实现对群体策略的优化.在这些早期对通信的研究工作中,智能体通过通信主要解决的问题是局部观测问题,智能体经由通信信道共享了一部分自身的观

33、测2 3.第二类工作考虑让智能体互相交流自身的行为意图,进而实现更好的配合.在这一方向上,I S(I n t e n t i o n S h a r i n g)2 3首先给出了一种基于观测预测、动作预测的方法,预测未来一段时间内的观测以及动作意图,并对其编码后进行发送.I S的通信结构是较为直接的广播式通信,即每个智能体都会向其它所有智能体广播自己未来一段时间的意图.在不受限制的意图共享框架下,若某个智能体在接收到其它智能体的通信消息后改变了自身意图,则其原本传播的意图与实际将要执行的动作不一致.这种不一致可能会误导群体中的其它智能体做出错误的动作,产生意图误导问题.例如图1 所示,两辆汽车

34、在一个交叉路口相遇,且假设控制车辆的两个智能体的意图动作都是停车让行.在智能体与彼此共享了自身的意图后,它们都认为对方会停车让行并且改变意图继续向前行驶,进而发生碰撞引发交通事故.此时智能体共享的意图与实际执行的动作不一致,对智能体的决策产生了负面作用.产生意图误导的根本原因是智能体在共享意图后又重新进行了决策,但利用意图进行决策又是意图共享的目的所在.若让智能体按序决策并广播意图,即可在避免出现意图误导的条件下又能利用意图信息进行决策.具体而言,各个智能体按照某个顺序依次决策,智能体在决策后广播自己的意图,供未决策的智能体进行决策,如此一来每个智能体在决策时接收到的意图都是准确的,从而避免出

35、现意图误导问题.L F F(L e a d e r F o l l o w e r F o r e s t)2 4 首先给出了一种可以根据各个智能体的观测信息动态生成通信序关系的方法.但是,L F F 中生成通信序关系需要一个中心化的控制器来完成,该控制器需要实时获得所有智能体的观测来生成通信序关系.这种需要全局控制器的设定在多智能体强化学习中会面临难以扩展等问题.此外,按序广播决策的模式对多智能体系统的同步控制提出了很高的要求.图1 两辆汽车在交叉路口相遇的场景注:灰色/黑色长方形代表汽车,车上的箭头表示汽车行驶方向,空白部分为车道.针对上述问题,本文给出了一种基于两步广播的去中心化多智能

36、体强化学习意图通信框架2 S I S(2 S t e p I n t e n s i o n S h a r i n g).在2 S I S 框架下,智能体仅需通过两次广播即可独立完成意图的共享和依赖关系的建立,并且不存在意图误导问题.具体而言,在每个决策时刻,智能体首先根据自身局部观测生成动作意图并广播,然后根据接收到的其它智能体的意图以及自身的观测来决定要依赖哪些智能体的动作意图,并广播依赖信息.在经过两轮广播后,智能体获取了其它智能体的意图信息以及依赖关系图.为避免出现“误导”现象,若一个智能体被依赖了,那么该智能体将不能改变自己的意图,不被任何智能体依赖的智能体则可以根据意图信息重新决

37、策.此外,2 S I S框架可以与任意基于值函数的强化学习方法相结合,从而吸收它们的优势.本文采用较具代表性的D o u b l e D QN2 5 算法作为基础算2281计算机学报2 0 2 3年法进行了实验.实验结果表明,我们的方法在收敛速度、最终结果上均优于对比算法.此外我们还设置了消融实验,与基于朴素规则建立依赖关系的算法版本进行了比较,消融实验的结果表明我们提出的方法确实让智能体学会了如何构建意图依赖关系.总结上述内容,本文的主要贡献如下:(1)我们给出了一个基于两步广播的去中心化多智能体强化学习意图通信框架,该通信框架不需要任何全局的控制器,智能体在决策时

38、只需要参与两次广播即可建立起多智能体意图通信的顺序结构.(2)我们给出了一种基于学习的意图重要性度量方法,智能体可以通过训练学会正确度量其它智能体意图的重要性并据此构建意图依赖关系.(3)本文提出的意图通信框架是通用的通信框架,可以结合任意基于值函数的强化学习算法实现训练,我们给出了基于D o u b l e D QN算法的实现.(4)我们在两个经典的多智能体协作场景下验证了本文所提出方法的有效性,与基准算法相比,本文提出的方法在收敛速度以及最终累积奖赏上均有明显优势.本文剩余内容组织如下:第2节介绍了通信方面的多智能体强化学习相关工作;第3节简要介绍了强化学习相关的背景知识

39、以及我们采用的基础算法;第4节介绍了我们提出的多智能体强化学习意图通信框架;第5 节进行实验验证;第6节总结全文并讨论未来研究的方向.2 相关工作许多现实世界中的问题都可以采用一个协作多智能体系统进行建模.直接使用单智能体的强化学习算法来解决多智能体场景下的问题,面临着若干挑战.首先,在执行阶段,智能体通常只能获得局部观测,这意味着智能体的策略必须是分布式的.但是强化学习的训练阶段往往都是在模拟器中进行,这意味着我们在训练阶段能轻松地获取全局的状态信息,因此便诞生了集中式训练-分布式执行这种多智能体强化学习训练框架,但是如何最大化利用训练阶段的全局状态信息仍是一个开放问题.其次,在多智能体强化

40、学习领域,奖赏分配也是一个棘手的问题.在多智能体合作场景中,所有智能体在每一步获得的奖赏都是一致的,因而难以衡量每个智能体各自的贡献大小.为了解决上述挑战,F o e r s t e r等人2 6给出了一种集中式训练-分布式执行多智能体强化学习算法C OMA(C o u n t e r f a c t u a l M u l t i-A g e n t).C OMA基于a c t o r-c r i t i c框架,其中c r i t i c网络是集中式的,可以获取环境的全局状态信息;a c t o r网络是分布式的,每个智能体都有一个a c t o r网络.为了衡量单个智能体在某一步动作执行

41、中的贡献,C OMA提出了反事实基线这一概念.反事实基线的计算类似于单智能体强化学习中的值函数,不同之处在于,反事实基线将所有其余智能体的动作当成观测的一部分,在此基础上计算Q值的期望作为基线.智能体在该步的贡献便可以用当前Q值减去反事实基线来衡量.QM I X2 7是另一种基于值函数学习的集中式训练-分布式执行算法.QM I X认为,在多智能体场景下,所有智能体的联合价值函数是难以学习的,即使能学习也难以衡量各个智能体各自的贡献.针对该问题,QM I X中的集中式Q函数不是直接采用一个网络来拟合所有智能体的联合价值函数,而是由各个智能体各自的Q函数经由一个混合网络组合而成,只要组合之后的Qt

42、 o t函数与每个智能体各自的Q函数的单调性保持一致,就可以保证组合前后的最优策略是一致的.不同于QM I X算法需要引入Qt o t函数与每个智能体的Q函数之间的约束,Q值路径分解方法2 8(Q-v a l u e P a t h D e c o m p o s i t i o n,Q P D)使用积分梯度来衡量各个智能体对全局Qt o t函数的贡献.Q P D利用一轮中状态-动作转移轨迹上的积分梯度将全局的Qt o t函数分解为局部Q函数,再对各个智能体的Q网络进行优化.在多智能体强化学习领域,最早的与通信有关的工作在局部观测设置下的表格环境中展开2 9.在深度多智能体强化学习出现后,通信

43、相关的研究呈现出一个增长的趋势.F o e r s t e r等人1 9首先提出了一种端到端的通信强化学习方法D I A L.D I A L中每个智能体维护一个名为C-N e t的网络,用于生成通信消息,同时估计智能体各个动作的Q值.C-N e t输出的信息将直接和其它智能体的C-N e t的输入相连接.因此在训练阶段,梯度可以经由通信信道从消息的接收方流向消息的发送方,这种反馈能力最终使得智能体学会了如何与其它智能体分享自己的观测.与D I A L中的离散通信信道不同,C o mmN e t2 0 使用连续的矢量信道将所有智能体连接起来,每个智能体接收到的消息是所有其它智能体发

44、送的消息之和,并且智能体可以在一轮32819 期吴俊锋等:基于两阶段意图共享的多智能体强化学习方法决策中多次通信.C o mmN e t采用集中式的方法训练场景中所有的智能体,从接收观测作为输入、进行多轮通信到最终的决策环节全部由一个集中式的网络来完成.D I A L和C o mmN e t中的通信都是广播式的通信,通信实现了所有智能体之间信息的共享.当智能体数量很大的时候,在所有智能体之间共享信息将导致智能体很难找出有价值的信息.针对该问题,J i a n g等人2 2提出了一种基于注意力机制的通信模型ATO C.ATO C模型中包含一个注意力单元,借助于注意力单元,智能体可以依次根据编码

45、后的观测判断是否要发起通信,并基于一个确定性的规则选取离自己最近的对象组成通信小组,小组之间的成员可以共享彼此的观测编码,并通过一个L S TM 模型来对信息进行集成.不同于ATO C中基于确定性的规则选取通信目标,T a r MA C2 1使用软注意力机制,智能体可以学会向谁发送信息以及发送什么样的信息.在T a r MA C框架下,每轮每个智能体广播的信息可以拆分为两个部分,签名(s i g n a t u r e)中指出了该信息的接收对象,值(v a l-u e)中则是具体的信息内容.消息的接收方则会根据信息的签名部分来决定值部分的权重.M a o等人3

46、0从认知一致性的角度入手,将邻域认知一致性(N e i g h b o r h o o d C o g n i t i v e C o n s i s t e n c y,N C C)引入多智能体强化学习,提出了离散动作空间下的N C C-Q算法和连续动作空间下的N C C-A C算法.N C C-Q/N C C-A C将多智能体环境建模为图,图中的结点为环境中参与交互的智能体,图中的边代表智能体之间的通信信道.通过该信道,智能体可以与邻居结点互相分享自身编码后的局部观测.为了实现智能体间的邻域认知一致性,N C C-Q/N C C-A C使用图卷积网络从邻居结点的联合观测中提取出高层次认知向

47、量,然后将该认知向量分解为针对智能体自身的认知以及针对邻居的认知两个分支分别进行计算,最后将两个分支计算的结果逐元素相加,得到的和作为价值函数的输入.上述方法关注的都是多智能体强化学习中的部分可观测问题,智能体通过通信信道和其它智能体共享了自身的局部观测(或者是局部观测的编码).在最近的研究中,有部分工作把关注点放在了如何让智能体通过交流意图来加强合作.K i m 等人2 3提出了一种意图共享(I S)的方案,I S允许智能体在共享局部观测的同时还能共享它们的未来一段时间内的意图.在每一步,每个智能体根据自己的局部观测以及在上一步接收到的信息,预测自身未来一段时间内的动作和观测序列,然后通过注

48、意力模块对该序列进行编码,从中提取出重要的部分,编码后的消息将被广播给其它所有智能体.但智能体在共享意图后有可能会改变自身的动作,造成实际动作与意图不符的情况,此时意图信息有可能会误导其它智能体.针对该问题,L i u等人2 4提出了L F F方法,可以动态地生成智能体间的层次关系.在决策时,处于高层次的智能体先进行决策并将决策的动作信息广播给所有低层次的智能体,处于低层次的智能体则可以获取来自所有高层次智能体的意向动作信息.智能体严格按照层次关系逐层进行决策,进而实现了单向的意图共享,避免出现误导现象.L F F将智能体间层次关系的构建问题也建模成了强化学习问题,使用一个集中式的D D P

49、G3 1智能体来估计智能体之间的依赖程度,在训练时需要依赖环境中的全局状态.3 背景知识本节对强化学习以及多智能体强化学习的一些背景知识进行了介绍.3.1 马尔可夫决策过程强化学习问题通常建模为马尔可夫决策过程(M a r k o v D e c i s i o n P r o c e s s,MD P)3 2-3 3.一个MD P可以用一个五元组来形式化地定义.S为状态空间,是环境状态的集合.为动作空间,是智能体所能采取的动作的集合.P:0,1 为状态转移函数,P(s|s,a)表示在环境状态为s时,智能体采取动作a后环境转移到状态s 的概率.R:为奖赏函数,R(s,a,s)表示在环境状态

50、为s、智能体采取动作为a且环境转移到状态s 后智能体所能获得的奖赏.(0,1 为折扣因子,代表着在累计奖赏中后续奖赏的权重,越大意味着智能体的后续奖赏在累积奖赏中的权重越大.在马尔可夫决策过程的基础上定义智能体的策略:,即是从状态空间到动作空间的一个映射.强化学习的目标是通过不断地更新来最大化累积奖赏,使得智能体从初始状态s0开始按照策略来执行动作能够获得尽可能高的累计奖赏,这个过程可以用下面的式子来表示:m a x i m i z e EETt=0tR(st,(st),st+1)(1)但在许多场景下智能体无法直接观察到环境的4281计算机学报2 0 2 3年状态,而是只能获得一个不完

注意事项: 本文（基于两阶段意图共享的多智能体强化学习方法.pdf）为本站上传会员【自信****多点】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】