基于深度强化学习的计算卸载与资源分配策略.pdf
《基于深度强化学习的计算卸载与资源分配策略.pdf》由会员分享,可在线阅读,更多相关《基于深度强化学习的计算卸载与资源分配策略.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年 7 月 Journal on Communications July 2023 第 44 卷第 7 期 通 信 学 报 Vol.44 No.7基于深度强化学习的计算卸载与资源分配策略 曾锋,张政,陈志刚(中南大学计算机学院,湖南 长沙 410083)摘 要:为了扩大车载边缘网络的覆盖范围及其计算能力,提出了一种适用于空天地融合车载网的计算卸载架构。考虑计算任务的时延和能耗约束,以及空天地融合车载网的频谱、计算和存储约束,将计算卸载决策和资源分配的联合优化问题建模为一个混合整数非线性规划问题。基于强化学习方法,将原问题转换成一个马尔可夫过程,提出了一种深度强化学习算法以求解该问题,
2、所提算法具有较好的收敛性。仿真结果表明,所提算法在任务时延和成功率方面优于其他算法。关键词:空天地融合车载网;计算卸载;资源分配;深度强化学习 中图分类号:TP301 文献标志码:A DOI:10.11959/j.issn.1000436x.2023139 Computation offloading and resource allocation strategy based on deep reinforcement learning ZENG Feng,ZHANG Zheng,CHEN Zhigang School of Computer Science and Engineering,
3、Central South University,Changsha 410083,China Abstract:In order to expand the coverage and computing power of vehicle edge network,a computation offloading ar-chitecture was proposed for space-air-ground integrated vehicle network(SAGVN).With the consideration of the delay and energy consumption co
4、nstraints of computing tasks,as well as the spectrum,computing and storage constraints in the SAGVN,the joint optimization problem of computation offloading decision and resource allocation was modeled as a mixed integer nonlinear programming problem.Based on the reinforcement learning method,the or
5、iginal problem was transformed into a Markov process,and a deep reinforcement learning algorithm was proposed to solve the problem.The proposed algorithm has the good convergence.The simulation results show that the proposed algorithm outperforms other algorithms in terms of task delay and success r
6、ate.Keywords:space-air-ground integrated vehicle network,computation offloading,resource allocation,deep reinforcement learning 0 引言 随着人工智能技术的快速发展,无人驾驶、智能座舱等车载智能应用日益涌现。这些应用通常需要大量的数据和算力支撑,而且对实时性要求较高。由于车辆自身计算能力有限,难以为这些应用提供高质量的计算服务。因此,可在路侧部署边缘计算服务器,车辆把超量计算卸载到邻近服务器,由服务器完成任务处理并返回结果,从而解决车辆自身计算能力不足的问题。由此,车
7、载边缘计算(VEC,vehicle edge computing)应运而生。车载边缘计算通过在路侧部署服务器,为车辆提供边缘计算服务1。收稿日期:20230506;修回日期:20230703 通信作者:陈志刚, 基金项目:国家自然科学基金资助项目(No.62172450);湖南省重点研发计划基金资助项目(No.2022GK2008)Foundation Items:The National Natural Science Foundation of China(No.62172450),The Key Research and Development Plan of Hunan Provinc
8、e(No.2022GK2008)第 7 期 曾锋等:基于深度强化学习的计算卸载与资源分配策略 125 在车载边缘计算中,车辆可以通过付费的方式获得高质量的计算服务。但是,边缘服务器的数量是有限的。一旦计算卸载请求超过一定数量,计算卸载的服务质量(QoS,quality of service)将受到影响。国内外学者对计算卸载性能的优化进行了广泛的研究2。一些学者致力于优化边缘服务器的资源分配,通常以某一个或多个性能指标为最优化目标,将计算卸载问题建模为最优化模型3-7。由于无线频谱的限制,车辆与路侧单元(RSU,road side unit)之间存在通信瓶颈,影响计算卸载服务质量。此外,一旦过多
9、的车辆请求计算卸载服务,边缘服务器可能会过载,这将导致计算卸载失败或带来较高的服务时延。因此,有学者研究如何拓展车载边缘计算的频谱和计算资源,通过邻近车辆和云服务器等计算资源辅助边缘计算,利用无人机拓展频谱和计算资源,从而构建多方协同的计算卸载机制8-11。然而,在上述研究工作中,车载边缘计算的网络覆盖和计算资源仍然受到较大限制,无法为车辆提供泛在的计算服务,尤其是在灾区、郊外等区域12-13。为了进一步扩大车载边缘网络的覆盖范围并提升车载边缘网络的计算能力,车辆可以将计算卸载到空天地融合网络(SAGIN,space-air-ground integrated network)14-15。作为
10、最有前途的 6G 网络架构之一,SAGIN 是一个以地面网络为基础,以空间和空中网络为补充的异构网络,主要包括服务器、无人机和低地球轨道(LEO,low earth orbit)卫星等计算节点16-21。通过整合 SAGIN 和车载网形成空天地融合车载网(SAGVN,space-air-ground integrated vehicle network),有望为车辆提供全覆盖、高质量的计算服务。然而,车辆和计算节点的移动,以及信道的不确定性,使 SAGVN 成为一个时变网络,如何有效地管理这种时变网络的资源是一个具有很大挑战性的问题22。此外,SAGVN 对资源管理算法的时间复杂性有很高的要求
11、。传统的优化方法解决时变网络中的资源优化问题时,往往需要将原始问题解耦并重复求解过程,导致一些时延敏感的任务中断或失败23。考虑到 SAGVN 中资源管理算法的效率和实时性要求,以及传统优化方法在解决时变网络资源优化问题方面的不足,本文提出一种基于深度强化学习的解决方案。作为一种数据驱动技术,深度强化学习可以在动态和复杂的环境中自主学习并做出实时决策。近年来,深度强化学习在许多领域取得了 良 好 的 成 果24-26,如 车 对 车(V2V,ve-hicle-to-vehicle)通信27-28、空地网络的无线传输策略29-31、无人机辅助车载网的资源管理32-33等领域。然而,这些研究工作缺
12、乏对 SAGVN 中计算卸载决策、频谱分配、计算和存储资源调度的联合优化研究。面对现有研究工作的不足和挑战,本文提出了一种适用于空天地融合车载网的计算卸载架构。为了最大限度地提高 SAGVN 的处理能力,将卸载决策、频谱分配、计算和存储资源调度的联合优化问题建模为一个混合整数非线性规划(MINLP,mixed integer nonlinear programming)问题。为了解决该问题,提出了一种基于深度强化学习的计算卸载与资源分配策略。本文的主要贡献可概括如下。1)提出了一种适用于空天地融合车载网的计算卸载架构,车辆的计算任务可以在本地处理,也可以整体卸载到边缘服务器、无人机或LEO 卫
13、星上执行。此外,深度强化学习赋能的中央控制器可以进行实时的计算卸载决策和网络资源分配。2)为了最大限度地提高 SAGVN 的处理能力,本文将 SAGVN 中卸载决策、频谱分配、计算和存储资源分配的联合优化问题建模为一个 MINLP 问题。为了解决该问题,提出了一种基于深度强化学习的计算卸载与资源分配策略。在该策略中,对卸载决策进行了连续化处理,增强了网络的收敛性。同时,设计了一个非负、连续的奖励函数,以避免因向车辆分配过多资源而导致的高奖励。1 相关工作 在 VEC 的支持下,车辆可以获得高效的计算和数据处理服务。然而,一旦计算卸载请求超过一定数量,计算卸载的 QoS 将受到影响。针对此问题,
14、国内外学者对计算卸载性能优化进行了广泛的研究2。为了提高 VEC 的计算卸载质量,一些学者从经济的角度对 VEC 中的计算卸载问题进行研究。Zeng 等34通过斯塔克尔伯格博弈分析车辆的最优卸载数据量和边缘服务器的单位资源定价,提出了一种志愿者车辆协同边缘服务器的架构。与该研究不同,Zhang 等35则提出了一种云边端协同的计算126 通 信 学 报 第 44 卷 卸载机制和资源定价策略。然而,这些研究主要关注卸载策略的优化,没有考虑如何对频谱、计算和存储资源进行联合优化。为了解决上述问题,Zhou 等4提出了一种多用户移动边缘计算(MEC,mobile edge computing)系统中计
15、算卸载和资源分配的联合优化方案。该方案旨在最大限度地减少能耗,同时考虑时延限制。与使用双深度 Q 网络(DDQN,double deep Q-network)4不同,Chen等5使用了深度确定性策略梯度(DDPG,deep deterministic policy gradient)算法来解决多用户 MEC 系统中计算卸载和资源分配的挑战。与优化单个性能指标不同,Gong 等7提出了一种基于深度强化学习(DRL,deep reinforcement learning)的多个物联网设备的联合优化方案,旨在最大限度地减少系统时延和能耗。这些研究工作以单个边缘服务器作为计算服务的提供者。然而,一旦有
16、较多的服务请求进行计算卸载,边缘服务器就可能过载,导致任务中断或失败。为了扩展车载边缘网络的计算资源,一些学者使用无人机来辅助车载计算卸载。Peng 等32-33提出了一种用于计算卸载的无人机辅助车载网架构,旨在通过联合优化计算卸载决策和资源分配,从而最大化所完成的车载计算任务数量,使用了 DDPG 算法进行求解32,并使用软性演员评论家算法对其进行了改进33。Seid 等6提出了一种无人机辅助的空地网络应急协同计算卸载和资源分配方案,该方案在考虑时延限制的同时,最大限度地减少了任务时延和能耗。尽管上述研究利用相邻的车辆、无人机或云服务器来减轻边缘服务器的负载,但车载边缘网络的覆盖范围仍然有限
17、,无法为车辆提供泛在的计算服务。考虑到现有车载边缘网络的覆盖范围有限,一些学者开始研究如何集成车载网和 SAGIN 来进一步扩大网络的覆盖范围。Liu 等36提出了一种子信道和功率分配方法,最大化 SAGVN 中的总上行链路速率。然而,现有的研究对 SAGVN 中卸载决策、频谱分配、计算和存储资源的联合优化缺乏关注。如表 1 所示,本文对现有研究工作进行了总结。面对现有研究工作的不足和挑战,本文提出了一种适用于空天地融合车载网的计算卸载架构,以扩大车载边缘网络的覆盖范围并提升车载边缘网络的计算能力。为了最大限度地提高 SAGVN 的处理能力,本文将 SAGVN 中卸载决策、频谱分配、计算和存储
18、资源分配的联合优化问题建模为一个MINLP 问题。为了解决该问题,提出了一种基于深度强化学习的计算卸载与资源分配策略。2 系统模型 本文提出一种适用于 SAGVN 的计算卸载架构。在该架构中,车辆的计算任务可以在本地处理,也可以整体卸载到地面节点(GN,ground node)、空中节点(AN,aerial node)或空间节点(SN,space node)上执行。为了实现体系结构中控制流和数据流的分离,本文基于软件定义网络(SDN,soft-ware-defined networking)将 SAGVN 划分为地面层、空中层和空间层,每层由一个控制器进行管理37。此外,不考虑同一层节点之间资
19、源协调的时延,并认为不同层的资源是相互独立的。SAGVN 系统模型如图 1 所示,包括车辆、路侧单元、边缘服务器、无人机和 LEO 卫星。假设有 m 辆车,并且每辆车最多同时发起一个计算任务。车辆 i 的计算任务可抽象为,1,2,iiid c tim,其中,id表示任务数据量,ci表示任务所需的计算量,ti表示任务的时延限制。表 1 现有研究工作比较 文献 卸载决策 资源分配 异构网络 优化目标 方法 文献34 无人机+车辆 最大化各方效用 博弈论 文献35 云边端网络 最大化各方效用 博弈论 文献4 边缘服务器 最小化能耗 深度强化学习 文献5 边缘服务器 最小化成本 深度强化学习 文献6
20、无人机+边缘服务器 最小化时延和能耗 深度强化学习 文献7 边缘服务器 最小化时延和能耗 深度强化学习 文献32-33 无人机+边缘服务器 最大化完成任务数 深度强化学习 文献36 空天地融合车载网 最大化上行链路速率 拉格朗日对偶 第 7 期 曾锋等:基于深度强化学习的计算卸载与资源分配策略 127 图 1 SAGVN 系统模型 2.1 通信模型 上述架构中存在3种无线通信,即车对地(V2G,vehicle-to-ground)、车对空(V2A,vehicle-to-air)和车对空间(V2S,vehicle-to-space)的无线通信,下文分别给出这3种无线通信模型。首先,V2G的传输速
21、率igR可以表示为32 2lb 1iigigwiggiggp h dRW(1)其中,gW表示GN的总频谱资源,wgi表示由GN分配给车辆i的频谱资源的比例,2g表示信道的背景噪声,ip表示传输功率,igh表示信道增益,igd表示距离,表示距离衰减因子。V2A的传输速率iaR和V2S的传输速率isR可分别表示为 2b l1wiiaiaiaaiaap h dRW(2)2lb 1wiisisississp h dRW(3)其中,aW和sW分别表示AN和SN的总频谱资源,wai和wsi分别表示AN和SN分配给车辆i的频谱资源的比例。此外,如果车辆选择在本地执行车载计算任务,则不存在数据传输。在SAGV
22、N中,地面节点和空中节点具有有限的网络覆盖范围。因此,仅当车辆i处于地面节点或者空中节点的网络覆盖范围内时,车辆i才能与之通信;否则0igR或0iaR。与地面节点和空中节点不同,空间节点能够实现对指定区域的全面覆盖。一方面,空间节点能够为那些不处于地面节点和空中节点的网络覆盖范围内的车辆提供卸载服务。另一方面,空间节点能够为那些处于地面节点和空中节点的网络覆盖范围内的车辆提供更多的卸载选择。2.2 计算模型 在上述架构中,车辆的计算任务可以在本地、GN、AN或SN上执行,下文分别介绍这4种计算模型。首先,V2G的计算时延cogT可以表示为32 coigcgigcTC(4)其中,gC表示GN的总
23、计算资源,cgi表示GN分配给车辆i的计算资源的比例。相似地,V2A的计算时延coaT和V2S的计算时延cosT可分别表示为 coiacaiacTC(5)coiscsiscTC(6)其中,aC和sC分别表示AN和SN的总计算资源,cai和csi分别表示AN和SN分配给车辆i的计算资源的比例。此外,本地计算时延colT可以表示为 coilicTf(7)其中,if表示车辆i的计算能力。值得注意的是,当某一车辆选择将其计算卸载到SAGVN时,SAGVN必须为该车辆分配足够的存储空间。否则,即使SAGVN为车辆分配了足够的计算资源,任务依然会中断或失败。在本文中,gG、aG和sG分别表示GN、AN和S
24、N的总存储资源。2.3 时延与能耗模型 在上述架构中,如果一个计算任务在本地执行,则任务时延等于计算时延。如果一个计算任务被卸载到SAGVN执行,则任务时延等于传输时延、计算时延和接收时延三者之和。由于计算结果的数据量通常很小,因此可以忽略接收结果的时延。那么,车辆i的计算任务的任务时延iT可以表示为 cocococo 0 1 2 3liisiisiiaiiaigiigTdTRTdTRdTR,(8)128 通 信 学 报 第 44 卷 其中,i表示车辆i的卸载决策,取值为0、1、2、3,分别对应计算任务在本地执行、卸载到SN执行、卸载至AN执行、卸载到GN执行。当0i时,车辆i的能耗,loci
25、E主要是本地计算产生的,可表示为,lociiiEc,其中i表示车辆i的能耗系数。当0i时,车辆i的能耗,offiE主要是传输数据产生的,可表示为,off,iiiip dEg a sR。为了表述方便,本文用()iiE表示车辆i做出决策i时需要的能耗。2.4 问题描述 本文的目标是最大限度地提高SAGVN的处理能力,这意味着最大限度地增加已完成的车辆计算任务的数量。考虑到卸载决策、通信、计算和频谱资源,SAGVN中的车辆计算卸载问题可以建模为一个多目标联合优化的MINLP问题。其描述如下 ,OP:max s.t.C1:()1,C2:()1,C3:()1,C4:0,1,2,3,C5:,0,1,C6:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 强化 学习 计算 卸载 资源 分配 策略
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。