![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于多智能体强化学习的多无人机边缘计算任务卸载.pdf
《基于多智能体强化学习的多无人机边缘计算任务卸载.pdf》由会员分享,可在线阅读,更多相关《基于多智能体强化学习的多无人机边缘计算任务卸载.pdf(10页珍藏版)》请在咨信网上搜索。
1、书 书 书 年 无线电工程 第 卷 第 期:引用格式:李斌基于多智能体强化学习的多无人机边缘计算任务卸载无线电工程,():,():基于多智能体强化学习的多无人机边缘计算任务卸载李斌,(南京信息工程大学 计算机学院,江苏 南京;南京信息工程大学 江苏省大气环境与装备技术协同创新中心,江苏 南京)摘要:研究了一种多无人机辅助移动边缘计算(,)任务卸载方案,通过联合优化任务划分、卸载关联、无人机轨迹和资源分配,实现系统能耗最小化。由于计算任务生成的随机性和用户移动的不可预测性,该问题不仅是一个非凸整数规划问题,更是一个需要实时决策、长期考虑的目标优化问题,传统离线算法难以求解。提出一种基于多智能体强
2、化学习(,)的任务卸载方法,采用集中式训练分布式执行架构,根据网络状态的观测做出实时决策。将问题建模为马尔科夫决策模型,基于多智能体近端策略优化算法进行训练,通过不断学习以优化自身策略。针对网络,使用分布改进其策略分布的采样,以适应有界的混合动作空间,引入注意力机制以提升状态值函数的拟合性能,加速算法收敛。仿真结果表明,相比基准方案,所提方法收敛速度提升了 ,用户与无人机的加权能耗降低了 。关键词:移动边缘计算;无人机通信;任务卸载;多智能体深度强化学习中图分类号:文献标志码:开放科学(资源服务)标识码():文 章 编 号:(),(,;(),):(),(),:;收稿日期:基金项目:国家自然科学
3、基金();江苏省自然科学基金():();()专家视点 引言移动边缘计算(,)技术能有效缓解资源受限设备执行密集型应用的压力,可提高网络的应用体验。在临时部署通信服务的偏远地区或聚集活动热点地区等通信条件较差的场景,地面固定式通信设施难以提供较好的服务。利用无人机()高机动性、易部署和立体式增强覆盖等优势,将与相融合可以提供泛在的接入服务和高质量的计算服务。如今,辅助网络成为了学术界和工业界的研究热点,然而各类参数及用户服务需求时刻 发 生 着 变 化。深 度 强 化 学 习(,)作为人工智能的一种新兴技术,通过与环境不断交互学习、积累经验,从而寻求最优策略。相较于离线求解及迭代算法,采用经过训
4、练的策略能实时地求解系统的能耗与时延等优化问题。为了适应动态变化的网络状态与环境,结合方法能够实时进行决策的优势,研究人员提出了一系列高效的资源管控优化算法。针对两层网络架构,文献结合深度网络(,)与深度确定性策略梯度(,),设计了一种训练框架,以优化轨迹与虚拟机配置,进而有效地降低系统时延。文献利用智能反射面的通信辅助能力,使用与双深度网络(,)协同优化网络资源以提高边缘计算的能效。为提升移动用户群组的服务体验,文 献通过聚类算法设计动态部署,并采用方法优化服务关联,从而降低了系统能耗。文献考虑了多任务调度问题,根据信道状态、任务请求等信息以最小化加权信息年龄,设计了一种基于近端策略优化(,
5、)的算法。然而,、和等单智能体算法不能很好地应对当网络规模较大时所带来的状态空间及动作空间维数过高的问题。在实际场景中,多个移动用户(,)和多个边缘服务器通常部署在不同的位置,易于利用分布式算法进行训练与决策。同时,多智能体强化学习(,)方法能较好地适应的分布式结构。相比于单智能体,能够减小状态空间与动作空间,并可高效地做出决策。鉴于此,文献面向多边缘计算,利用方法较好地解决了负载均衡问题。文献利用多智能体确定性深度策略梯度(,)方法实时优化多轨迹,最大化计算服务的公平性。文献面向多网络中的隐私问题,利用多智能体联邦学习进行分布式训练,达到了与接近的效果。虽然上述工作应用了的分布式结构,但尚未
6、充分利用不同设备的功能,缺乏多类型设备、异构智能体协作优化服务的研究。同时,上述工作存在服务质量不稳定、算法训练速度慢和轨迹曲折难以实现等问题。基于此,本文考虑到任务分布式卸载的特点,采用多智能体近端策略优化(,)方法,并在算法引入了分布以及注意力机制以提升算法的性能,加快算法的收敛速度,从而有效降低服务的开销。本文的主要工作有如下三方面:研究了多架辅助的系统模型,综合考虑的移动性、任务生成的随机性和多之间的安全距离,建立了和的加权能耗最小化问题。该问题具有高动态特征,对优化实时性和规模扩展性提出了更高的要求。设计了一种异构方法,通过构建含有种智能体的系统,基于算法训练和协同完成卸载决策与资源
7、分配。该分布式决策方法能分解较大的环境状态与动作空间,并将决策能力下沉到各类设备,提高算法的可扩展性。在网络输出层使用分布以提高动作的探索效率和采样性能,并向网络中引入注意力机制以提高方法的值函数拟合性能。提出了基于的能耗最小化任务卸载方法(,),该方法具有较快的收敛性,且系统性能优于基准方法。系统模型及问题描述本文考虑一种多辅助的系统模型,如图所示。在该系统中,需要将产生的计算任务卸载到边缘服务器进行计算。此系统模型有个地面控制中心,架搭载边缘服务器的为个提供任务卸载服务。为便于表达和分析,定义的集合为,集合为,。此外,地面控制中心需要借助收集通信链路信道信息、的服务需专家视点 年 无线电工
8、程 第 卷 第 期 求等系统状态,进而对边缘网络进行即时管控。假设的飞行周期为,将其等分为个时隙且时隙长度 足够小,记时隙集合为,。采用时间离散的方法来表示和的三维轨迹坐标,即的位置为,为飞行高度,的位置为,。在每个时隙内位移的变化与飞行的加速度与速度有关,且之间需保持安全距离避免碰撞,因此其位移与位置须满足以下约束:,:,:,:,()式中:为的最大加速度,为最大飞行速度,为之间的最小安全距离。图系统模型 假设初始随机分布,且按照模型随机移动。在时隙内,的速度大小和移动的方向角度可表示为:()槡,()()槡,()式中:和为的平均速度大小和平均方向角度,、为前一时隙的影响程度大小,和分别遵循均值
9、及方差为(,)和(,)的分布。由此,的坐标更新如下:(),()()。()计算模型在时隙开始时,每个产生一个计算任务(,),并且需在内完成计算,其中 为计算任务量,为处理单位比特数据所需的周期数。本文采用部分卸载模式,则数据量大小为()的任务在本地计算,数据量大小为的任务在边缘服务器计算,其中为任务划分系数。记,为的卸载决策因子,若,表示任务在本地计算,表示将任务卸载到进行计算,满足下述约束:,:,。()本地计算:为了充分利用有限的计算资源并最小化能耗开销,本地计算将采用动态电压频率缩放技术以给出计算频率。在最大计算频率限制下,本地计算频率可表示为:(),()式中:为的最大计算频率。进而可以得到
10、本地计算时延为(),而本地计算需满足的时延约束为:,。()边缘计算:可以将自身计算任务卸载至所关联边缘服务器进行处理,具体过程如下:首先,需要分配通信信道的带宽资源以接收来自的任务数据。考虑到大尺度衰落和小尺度衰落,则在时隙内和之间的信道增益可表示为:,槇,()式中:为单位距离的信道功率增益,槇,为瑞利衰落信道系数,服从均值为、方差为的复高斯分布。为避免多个在卸载计算任务过程中相互之间的通信干扰,本文采用频分多址技术。记,为时隙内分配给的带宽比例,则和之间的任务卸载速率可表示为:,(),()式中:为网络总带宽,为的发射功率,为信道的噪声功率。则的任务卸载速率为,。带宽分配变量需满足如下约束:,
11、。()当请求将任务卸载至之后,需分配其计算资源,完成任务的处理。记可用的计算频率为,在时隙内为分配的计算资源为,。由此,其满足约束:专家视点 :,。()因此,到的任务卸载时延为,边缘端的计算时延可以表示为 ,。由于计算出的结果数据量通常较小,且下行链路通常具有较高的传输速率,因此计算结果的回传时延可以忽略。于是,边缘端任务计算时延需要满足的约束为:,。()综上所述,的任务计算时延需满足的约束可以表示为:,。()式中:,为带宽分配系数,为带宽,为噪声功率。能耗模型定义和服务器上的有效电容系数为,则的计算能耗和传输能耗分别为:(),()。()由上述分析可知,在时隙内,的总能耗为:。()根据文献,在
12、时隙内的飞行能耗可表示为:()槡(),()式中:为悬停状态下型阻功率,为悬停状态下的诱导功率,为悬停下的平均旋翼诱导速度,为机身阻力比,为总叶片面积与叶片扫过面积之比,为空气密度,为叶片扫过的面积。的计算能耗为:(,)。()优化问题描述在计算任务卸载过程中,由于能耗相比于总能耗较小,因此考虑和能耗的加权和用以反映和之间的能耗相对重要性。本文的目标是联合优化与的关联因子,任务划分系数,带宽分配变量,计算资源分配,飞行轨迹,并在任务时延的约束下,最小化所有和加权能耗开销。具体优化问题建模如下:,():,:,:,:,:,:,:,:,:,:,:,:,:?,?,()?(),()专家视点 年 无线电工程
13、第 卷 第 期 式中:、为能耗权重因子,?()为指示函数,当条件()为真时值为,否则值为;约束条件 表示的飞行轨迹,约束条件表示卸载关联因子取值,约束条件表示每个至多选择一个卸载,约束条件 表示带宽资源与计算资源分配限制,约束条件为任务的时延约束,约束条件限制了任务划分系数的范围,约束条件 限制了划分给的资源,保证了资源分配的有效性,避免不进行任务卸载的用户空占计算资源。由于的随机移动性、卸载关联的离散性以及非凸约束,上述问题不仅仅是一个多变量耦合的非凸组合优化问题,更是一个需要实时决策的优化问题。作为一种自适应的机器学习方法,可以从环境中不断采样学习,并训练得到能部署在设备上的深度策略模型,
14、从而根据当前状态,做出符合长期效益的实时决策,因此适应于所研究的任务卸载场景。基于的优化问题求解 模型问题()需要联合优化多个以及多个的决策信息,并且以及在服务过程上存在协作关系,在计算和通信资源上存在竞争关系。考虑到该问题具有分布式特征,可将其建模为由多个智能体构成的模型。根据决策变量与目标函数的相关性以及部署位置的差异,将作为一种智能体,将分解为种智能体:资源分配智能体与轨迹优化智能体,因此所提出的模型共有种智能体参与。令智能体集合为,状态空间为,动作空间为。具体而言,在时间步,智能体可以从全局环境状态()(),中获得当前观测(),采取动作(),然后获得奖励(),环境转移到新的状态()。的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 智能 强化 学习 无人机 边缘 计算 任务 卸载
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。