基于多智能体深度强化学习的无人机动态预部署策略.pdf
《基于多智能体深度强化学习的无人机动态预部署策略.pdf》由会员分享,可在线阅读,更多相关《基于多智能体深度强化学习的无人机动态预部署策略.pdf(9页珍藏版)》请在咨信网上搜索。
1、基于多智能体深度强化学习的无人机动态预部署策略唐 伦 李质萱 蒲 昊*汪智平 陈前斌(重庆邮电大学通信与信息工程学院 重庆 400065)摘 要:针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出
2、一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。关键词:无人机通信;动态部署;部分可观测马尔科夫博弈;多智能体深度强化学习中图分类号:TN929.5文献标识码:A文章编号:1009-5896(2023)06-2007-09DOI:10.11999/JEIT220513A Dynamic Pre-Deployment Strategy of UAVs Based onMulti-Agent
3、 Deep Reinforcement LearningTANG Lun LI Zhixuan PU Hao WANG Zhiping CHEN Qianbin(School of Communication and Information Engineering,Chongqing University of Posts andTelecommunications,Chongqing 400065,China)Abstract:Its challenging to use traditional optimization algorithms to solve the long-term d
4、ynamic deploymentproblem of Unmanned Aerial Vehicles(UAVs)due to their high complexity and difficulty in matching dynamicenvironment.Aiming at solving these shortcomings,a dynamic pre-deployment strategy of UAV based onMulti-Agent Deep Reinforcement Learning(MADRL)is proposed.Firstly,a deep spatio-t
5、emporal networkmodel is used to predict the expected rate demand of users in the coverage area to capture the dynamicenvironment information.The concept of users satisfaction is defined to describe the fairness of users.Anoptimization problem is modeled with the goal of maximizing the long-term over
6、all users satisfaction,minimizing the mobile and radio energy consumption of the UAVs.Secondly,the problem above is transformedinto a Partially Observable Markov Game(POMG)process.An H-MADDPG algorithm based on MADRL isproposed to solve the optimal decision of trajectory design,user association and
7、power allocation.The H-MADDPG algorithm uses a hybrid network structure to extract the features of multi-modal inputs,and adoptsa centralized training-distributed execution mechanism to realize efficient training and decision execution.Finally,the effectiveness of the algorithm is verified by simula
8、tion experiments.Key words:Unmanned Aerial Vehicle(UAV)communication;Dynamic deployment;Partially ObservableMarkov Game(POMG);Multi-Agent Deep Reinforcement Learning(MADRL)收稿日期:2022-04-22;改回日期:2022-06-01;网络出版:2022-06-22*通信作者:蒲昊基金项目:国家自然科学基金(62071078),重庆市教委科学技术研究项目(KJZD-M201800601),川渝联合实施重点研发项目(2021Y
9、FQ0053)Foundation Items:The National Natural Science Foundation of China(62071078),The Science and Technology Research Program ofChongqing Municipal Education Commission(KJZD-M201800601),Sichuan and Chongqing Key R&D Projects(2021YFQ0053)第45卷第6期电 子 与 信 息 学 报Vol.45No.62023年6月Journal of Electronics&In
10、formation TechnologyJun.20231 引言近年来,集成无线通信功能的无人机(Un-manned Aerial Vehicle,UAV)设备作为第6代移动通信(the 6th Generation,6G)中空天地一体化关键技术的重要一环,引起了广泛的关注1,2。得益于UAV较高的可操作性和随着技术迭代而不断提升的承载能力,其能够充当为地面用户和设备提供网络接入服务的空中基站,为用户提供按需的服务,进一步完善无线网络的覆盖。现有一些研究针对UAV系统的联合轨迹设计和功率分配优化,采用块坐标下降、连续凸逼近等基于优化的传统算法求解38。然而问题的非凸性导致上述算法复杂度过高且丧
11、失一定精度。此外,当环境发生变化时,还会要求重新计算优化过程。针对上述缺陷,一些研究采用单智能体深度强化学习(Single-Agent Deep Reinforcement Learning,SADRL)以实现智能的UAV部署决策,在UAV的轨迹设计、无线资源分配和覆盖优化等方面取得不错效果9,10。然而基于SADRL的学习架构需要有集中式的管理器来在每一个决策时刻收集全局状态信息,增加了UAV集群信令开销;另一方面,单智能体网络结构复杂度随着场景中用户设备的增加而显著上升,训练效率较低。此外,先前的研究大多以最大化吞吐量为目标,或是保证用户的某一假定信噪比阈值,无法捕捉用户时变的速率需求,丧
12、失了公平性。针对以上问题,本文提出一种基于多智能体深度强化学习(Multi-Agent DRL,MADRL)的UAV动态预部署策略,通过预测地区内用户的速率需求,使用一种MADRL算法优化UAV的轨迹设计、功率分配和用户关联,以长时间尺度内的最大化用户公平性和最小化能耗。具体来说:(1)利用一种深度时空网络模型A-ConvLSTM(Convolutional Long and Short Term Memorywith Attention mechanism)预测地区内用户的流量与人数的时空分布,进而预测用户的速率需求,以此刻画环境的动态变化特性;基于该预测结果,提出用户满意度的概念,以刻画用
13、户的预测接入速率和既得接入速率之间的差异及公平性,以最大化长期用户满意度并最小化长期移动和发射能耗为目标建立问题模型,综合优化UAV的轨迹设计、功率分配和用户关联;(2)将上述优化问题转化成一个部分可观测马尔科夫博弈过程(Partially Observable MarkovGame,POMG),提出一种混合-多智能体深度确定性策略梯度(Hybrid Multi-Agent Deep DeterministicPolicy Gradient,H-MADDPG)算法求解。该算法针对多模态的输入采用卷积神经网络(ConvolutionalNeural Network,CNN)和全连接神经网络(Fu
14、llyConnected Neural Network,FCNN)混合的结构,更好地实现对输入的特征提取,采用集中式训练-分布式执行的机制以高效地实现网络训练和决策执行。最后,仿真结果证明了所提算法的收敛性和有效性。2 系统模型 2.1 用户预期速率需求预测已有研究证明蜂窝流量与用户的分布具有高度非线性和空间相关性11,12。因此,在部署UAV之前,运营商需要对流量时空分布作出精准的预测,以满足用户时空分布不均的需求,避免网络拥塞,同时减少UAV的能耗等开销,提高经济效益。M=1,2,.,MT=1,2,.,T考虑集合为的UAV集群覆盖于区域A上空,采用频分多址的接入方式并使用波束成形技术为区域
15、A中的用户提供下行接入的服务。由于UAV部署属于序贯决策问题,用表示时隙集合。为实现对用户预期速率的预测,将区域A离散地划分成WL的大小相等的兴趣区域(Area of Interest,AoI),并将时隙内位于同一AoI内的所有基站流量之和作为该AoI的流量值,所有UAV关联用户数之和作为该AoI的用户数。区域A于t时隙的流量矩阵可表示为XTr(t)=XTr1,1(t)XTr1,2(t).XTr1,L(t)XTr2,1(t)XTr2,2(t).XTr2,L(t).XTrW,1(t)XTrW,2(t).XTrW,L(t)(1)XTrw,l(t)XU(t)XUw,l(t)XTr(t)XU(t)其中
16、,表示t时隙位于(w,l)的AoI流量值。类似地,定义用户分布矩阵,用表示t时隙位于(w,l)的AoI用户数。流量与用户分布的预测实质是从过去D个时隙的数据中,找到下一时隙t概率最大的流量与用户数矩阵生成,,可表述为XTr(t)=argmaxXTr(t)p(XTr(t)|XTr(tD),XTr(tD+1),.,XTr(t 1)(2)XU(t)=argmaxXU(t)p(XU(t)|XU(t D),XU(tD+1),.,XU(t 1)(3)在我们先前的研究中13,为了捕捉流量与用户分布的时空相关性,提出了一种融合注意力机制的2008电 子 与 信 息 学 报第 45 卷N=1,2,.,NRn(t
17、)=XTrn(t)/tXUn(t)卷积长短期记忆网络模型A-ConvLSTM。该种深度时空网络模型通过自动分配不同时间步的隐藏层权重,来完成式(2)、式(3)中过去D个时刻到下一时刻t的流量与用户分布矩阵的映射,由此可以得到每个AoI用户预期速率需求。通过真实蜂窝流量数据验证,A-ConvLSTM在流量预测方面具有较好的性能,其网络结构总结于文献13中。设AoI集合为,N=LW,则AoI n内用户预期速率需求为,t为时隙长度。2.2 UAV动态部署问题建模wm(t)=xm(t),ym(t),hxn,yn,0(xm(t)xn)2+(ym(t)yn)2+h2Lmn(t)dB20lg(4fcdmn(
18、t)/c)+mnmnLoSmn N(LoS,2LoS)LoS2LoSNLoSmn N(NLoS,2NLoS)简便起见,设UAV位于固定高度h,用表示时隙t的UAV m的地理位置。UAV m与为地理位置为的AoI n之间的距离dm n(t)为,两 者 之 间 的 路 径 损 耗为。其中fc为载波频率,c为光速,是自由空间传播的额外损失:当UAV m与AoI n之间为视距传播环境(Line of Sight,LoS)时,和是正态分布的均值和方差,下同;当其之间为非视距传播环境(NoneLine of Sight,NLoS)时,。UAV m与AoI n之间存在LoS链路的概率为pLoSmn(t)=(
19、1+aexp(b180mn(t)a)1(4)mn(t)=arcsin(h/dmn(t)其中,a,b是环境常量,为AoI n对UAV m的仰角。UAV m与AoI n的平均下行链路损耗为Lmn(t)=pLoSmn(t)LLoSmn(t)+(1 pLoSmn(t)LNLoSmn(t)(5)Bm(t)=B/nCm(t)XUn(t)Cm(t)设UAV m为其所有关联AoI下的用户平均分配总带宽B,则其每个关联用户分得的带宽为,其中为UAV m关联AoI集合。根据香农公式,UAV m为AoI n提供的下行速率为Rn(t)=Bm(t)log2(1+Pmn(t)G10Lmn(t)/10N0Bm(t)(6)其
20、中,G为收发天线增益,N0为噪声功率谱密度,Pmn(t)为UAV m发射功率。在任意时隙,UAV m通过改变自身悬停位置wm(t)以改善链路质量,选取不同的关联AoI并分配功率,以满足时变的用户预期速率需求。用二进制关联指示变量umn(t)表示UAV与AoI的关联情况:umn(t)=1表示UAV m与AoI n内所有用户关m(t)0,2联;反之,umn(t)=0则不关联。UAV m在时隙t和t+1之间的飞行距离用dm(t)表示,飞行方位用表示。定义AoI n的用户满意度:Vn(t)=XUn(t)(Rn(t)Rn(t)2(7)以刻画用户预期速率与既得速率之间的差别,当用户所得速率越接近预期速率,
21、满意程度越高。若假定UAV为用户提供大于某一固定阈值的速率而追求最大化吞吐量,忽略用户的不同需求,则对于需求较高的用户来说丧失了公平性,而对于需求较低的用户来说造成了资源浪费。因此,本文首先考虑UAV部署目标为最大化总体用户满意度。由于UAV的载荷有限,其移动和发射能耗不能忽略。综上,本文考虑通过优化UAV集群的轨迹、用户关联和功率分配,实现最大化总体用户满意度和最小化移动及发射能耗的加权多目标,该优化问题可以表述为maxPmn(t),umn(t),dm(t),m(t)Tt=1Mm=1Nn=1Vn(t)dm(t)umn(t)XUnPmn(t)(8)s.t.式(2),式(3)umn(t)0,1,
22、m M,n N,t T(8a)Mm=1umn(t)1,n N,t T(8b)0 dm(t)dmax,m M,t T(8c)(xm1(t)xm2(t)2+(ym1(t)ym2(t)2 d2min,m1,m2 M,m1=m2(8d)wm(t)A,m M,t T(8e)Nn=1umn(t)XUn(t)Pmn(t)Pmax,m M,t T(8f)其中,,和 分别总体用户满意度权重系数、UAV单位移动功耗权重系数和发射功耗权重系数。约束条件(8b)表示了任意AoI最多只与一架UAV关联,保证了UAV之间的覆盖区域不重叠;条件式(8c)表示UAV的机动性约束,即时隙间移动距离不得超过最大距离dmax;条件
23、式(8d)考虑了UAV的碰撞问题,为避免碰撞,任意两架UAV之间的距离不得超过最小安全距离dmin;条件式(8e)表示UAV地理位置不得超过区域A;条件(8f)表示UAV为关联AoI内提供的发射功率之和不得超过其最大功率Pmax;通过利用网络A-ConvLSTM去保证条件式(2)和式(3),使UAV能够提前了解环境信息的改变,在流量热点事件发生之前做出最优决策,到达预部署的目的。第6期唐 伦等:基于多智能体深度强化学习的无人机动态预部署策略20093 部分可观测马尔科夫博弈建模由于问题式(8)优化变量涉及连续和整数变量,属于非凸的混合整数非线性规划问题,加之条件式(2)、式(3)是动态改变的,
24、使用传统优化算法难以求解,故将其转化为一个POMG过程,进而利用相关MADRL算法求解。在一个存在多个智能体的POMG环境中,由于智能体之间存在着竞争兼合作的关系,每个智能体的决策都会受到其他智能体的联合动作的影响。由于交互的受限性,每个智能体无法观测到其余智能体的状态,只能观测到部分环境状态,因而在每一个决策时隙,其根据自身观测的状态,学习最优策略以做出最大化长期回报的动作。S,O,A,P,R,SO=om(t)|m Mom(t)A=a1(t)a2(t).aM(t)am(t)a-m(t)P=p(s(t+1)|s(t),am(t),am(t)am(t)am(t)s(t)s(t+1)R=rm(s(
25、t),m)|m Mrm(s(t),m)mm:om(t)am(t)om(t)am(t)一个POMG可用一个与之匹配的多元组来描述。其中集合 代表所有智能体可能所处的状态;代表智能体自身观察的状态组成的集合,表示智能体m的观测态;代表智能体的联合动作集合,表示智能体m的动作,另用表示除m之外的智能体的联合动作;为状态转移概率集合,表示智能体采取联合动作后状态由跳变至的概率;表示智能体奖励集合,为智能体m的即时奖励,表示奖励折扣因子,表示智能体m的随机策略函数,有。在决策时隙t,智能体m基于自身的观测态执行动作,以此最大化自己长期奖励的期望值:RWm(m)=Es(t+1)p(s(t+1)|s(t),
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 智能 深度 强化 学习 无人机 动态 部署 策略
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。