分销赏收藏举报申诉 / 12

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于深度强化学习的计算卸载与资源分配策略.pdf

基于深度强化学习的计算卸载与资源分配策略.pdf

上传人：自信****多点

文档编号：642696

上传时间：2024-01-22

格式：PDF

页数：12

大小：2.05MB

《基于深度强化学习的计算卸载与资源分配策略.pdf》由会员分享，可在线阅读，更多相关《基于深度强化学习的计算卸载与资源分配策略.pdf（12页珍藏版）》请在咨信网上搜索。

1、2023 年 7 月 Journal on Communications July 2023 第 44 卷第 7 期通信学报 Vol.44 No.7基于深度强化学习的计算卸载与资源分配策略曾锋，张政，陈志刚（中南大学计算机学院，湖南长沙 410083）摘要：为了扩大车载边缘网络的覆盖范围及其计算能力，提出了一种适用于空天地融合车载网的计算卸载架构。考虑计算任务的时延和能耗约束，以及空天地融合车载网的频谱、计算和存储约束，将计算卸载决策和资源分配的联合优化问题建模为一个混合整数非线性规划问题。基于强化学习方法，将原问题转换成一个马尔可夫过程，提出了一种深度强化学习算法以求解该问题，

2、所提算法具有较好的收敛性。仿真结果表明，所提算法在任务时延和成功率方面优于其他算法。关键词：空天地融合车载网；计算卸载；资源分配；深度强化学习中图分类号：TP301 文献标志码：A DOI:10.11959/j.issn.1000436x.2023139 Computation offloading and resource allocation strategy based on deep reinforcement learning ZENG Feng,ZHANG Zheng,CHEN Zhigang School of Computer Science and Engineering,

3、Central South University,Changsha 410083,China Abstract:In order to expand the coverage and computing power of vehicle edge network,a computation offloading ar-chitecture was proposed for space-air-ground integrated vehicle network(SAGVN).With the consideration of the delay and energy consumption co

4、nstraints of computing tasks,as well as the spectrum,computing and storage constraints in the SAGVN,the joint optimization problem of computation offloading decision and resource allocation was modeled as a mixed integer nonlinear programming problem.Based on the reinforcement learning method,the or

5、iginal problem was transformed into a Markov process,and a deep reinforcement learning algorithm was proposed to solve the problem.The proposed algorithm has the good convergence.The simulation results show that the proposed algorithm outperforms other algorithms in terms of task delay and success r

6、ate.Keywords:space-air-ground integrated vehicle network,computation offloading,resource allocation,deep reinforcement learning 0 引言随着人工智能技术的快速发展，无人驾驶、智能座舱等车载智能应用日益涌现。这些应用通常需要大量的数据和算力支撑，而且对实时性要求较高。由于车辆自身计算能力有限，难以为这些应用提供高质量的计算服务。因此，可在路侧部署边缘计算服务器，车辆把超量计算卸载到邻近服务器，由服务器完成任务处理并返回结果，从而解决车辆自身计算能力不足的问题。由此，车

7、载边缘计算（VEC,vehicle edge computing）应运而生。车载边缘计算通过在路侧部署服务器，为车辆提供边缘计算服务1。收稿日期：20230506；修回日期：20230703 通信作者：陈志刚，基金项目：国家自然科学基金资助项目（No.62172450）；湖南省重点研发计划基金资助项目（No.2022GK2008）Foundation Items:The National Natural Science Foundation of China(No.62172450),The Key Research and Development Plan of Hunan Provinc

8、e(No.2022GK2008)第 7 期曾锋等：基于深度强化学习的计算卸载与资源分配策略 125 在车载边缘计算中，车辆可以通过付费的方式获得高质量的计算服务。但是，边缘服务器的数量是有限的。一旦计算卸载请求超过一定数量，计算卸载的服务质量（QoS,quality of service）将受到影响。国内外学者对计算卸载性能的优化进行了广泛的研究2。一些学者致力于优化边缘服务器的资源分配，通常以某一个或多个性能指标为最优化目标，将计算卸载问题建模为最优化模型3-7。由于无线频谱的限制，车辆与路侧单元（RSU,road side unit）之间存在通信瓶颈，影响计算卸载服务质量。此外，一旦过多

9、的车辆请求计算卸载服务，边缘服务器可能会过载，这将导致计算卸载失败或带来较高的服务时延。因此，有学者研究如何拓展车载边缘计算的频谱和计算资源，通过邻近车辆和云服务器等计算资源辅助边缘计算，利用无人机拓展频谱和计算资源，从而构建多方协同的计算卸载机制8-11。然而，在上述研究工作中，车载边缘计算的网络覆盖和计算资源仍然受到较大限制，无法为车辆提供泛在的计算服务，尤其是在灾区、郊外等区域12-13。为了进一步扩大车载边缘网络的覆盖范围并提升车载边缘网络的计算能力，车辆可以将计算卸载到空天地融合网络（SAGIN,space-air-ground integrated network）14-15。作为

10、最有前途的 6G 网络架构之一，SAGIN 是一个以地面网络为基础，以空间和空中网络为补充的异构网络，主要包括服务器、无人机和低地球轨道（LEO,low earth orbit）卫星等计算节点16-21。通过整合 SAGIN 和车载网形成空天地融合车载网（SAGVN,space-air-ground integrated vehicle network），有望为车辆提供全覆盖、高质量的计算服务。然而，车辆和计算节点的移动，以及信道的不确定性，使 SAGVN 成为一个时变网络，如何有效地管理这种时变网络的资源是一个具有很大挑战性的问题22。此外，SAGVN 对资源管理算法的时间复杂性有很高的要求

11、。传统的优化方法解决时变网络中的资源优化问题时，往往需要将原始问题解耦并重复求解过程，导致一些时延敏感的任务中断或失败23。考虑到 SAGVN 中资源管理算法的效率和实时性要求，以及传统优化方法在解决时变网络资源优化问题方面的不足，本文提出一种基于深度强化学习的解决方案。作为一种数据驱动技术，深度强化学习可以在动态和复杂的环境中自主学习并做出实时决策。近年来，深度强化学习在许多领域取得了良好的成果24-26，如车对车（V2V,ve-hicle-to-vehicle）通信27-28、空地网络的无线传输策略29-31、无人机辅助车载网的资源管理32-33等领域。然而，这些研究工作缺

12、乏对 SAGVN 中计算卸载决策、频谱分配、计算和存储资源调度的联合优化研究。面对现有研究工作的不足和挑战，本文提出了一种适用于空天地融合车载网的计算卸载架构。为了最大限度地提高 SAGVN 的处理能力，将卸载决策、频谱分配、计算和存储资源调度的联合优化问题建模为一个混合整数非线性规划（MINLP,mixed integer nonlinear programming）问题。为了解决该问题，提出了一种基于深度强化学习的计算卸载与资源分配策略。本文的主要贡献可概括如下。1)提出了一种适用于空天地融合车载网的计算卸载架构，车辆的计算任务可以在本地处理，也可以整体卸载到边缘服务器、无人机或LEO 卫

13、星上执行。此外，深度强化学习赋能的中央控制器可以进行实时的计算卸载决策和网络资源分配。2)为了最大限度地提高 SAGVN 的处理能力，本文将 SAGVN 中卸载决策、频谱分配、计算和存储资源分配的联合优化问题建模为一个 MINLP 问题。为了解决该问题，提出了一种基于深度强化学习的计算卸载与资源分配策略。在该策略中，对卸载决策进行了连续化处理，增强了网络的收敛性。同时，设计了一个非负、连续的奖励函数，以避免因向车辆分配过多资源而导致的高奖励。1 相关工作在 VEC 的支持下，车辆可以获得高效的计算和数据处理服务。然而，一旦计算卸载请求超过一定数量，计算卸载的 QoS 将受到影响。针对此问题，

14、国内外学者对计算卸载性能优化进行了广泛的研究2。为了提高 VEC 的计算卸载质量，一些学者从经济的角度对 VEC 中的计算卸载问题进行研究。Zeng 等34通过斯塔克尔伯格博弈分析车辆的最优卸载数据量和边缘服务器的单位资源定价，提出了一种志愿者车辆协同边缘服务器的架构。与该研究不同，Zhang 等35则提出了一种云边端协同的计算126 通信学报第 44 卷卸载机制和资源定价策略。然而，这些研究主要关注卸载策略的优化，没有考虑如何对频谱、计算和存储资源进行联合优化。为了解决上述问题，Zhou 等4提出了一种多用户移动边缘计算（MEC,mobile edge computing）系统中计

15、算卸载和资源分配的联合优化方案。该方案旨在最大限度地减少能耗，同时考虑时延限制。与使用双深度 Q 网络（DDQN,double deep Q-network）4不同，Chen等5使用了深度确定性策略梯度（DDPG,deep deterministic policy gradient）算法来解决多用户 MEC 系统中计算卸载和资源分配的挑战。与优化单个性能指标不同，Gong 等7提出了一种基于深度强化学习（DRL,deep reinforcement learning）的多个物联网设备的联合优化方案，旨在最大限度地减少系统时延和能耗。这些研究工作以单个边缘服务器作为计算服务的提供者。然而，一旦有

16、较多的服务请求进行计算卸载，边缘服务器就可能过载，导致任务中断或失败。为了扩展车载边缘网络的计算资源，一些学者使用无人机来辅助车载计算卸载。Peng 等32-33提出了一种用于计算卸载的无人机辅助车载网架构，旨在通过联合优化计算卸载决策和资源分配，从而最大化所完成的车载计算任务数量，使用了 DDPG 算法进行求解32，并使用软性演员评论家算法对其进行了改进33。Seid 等6提出了一种无人机辅助的空地网络应急协同计算卸载和资源分配方案，该方案在考虑时延限制的同时，最大限度地减少了任务时延和能耗。尽管上述研究利用相邻的车辆、无人机或云服务器来减轻边缘服务器的负载，但车载边缘网络的覆盖范围仍然有限

17、，无法为车辆提供泛在的计算服务。考虑到现有车载边缘网络的覆盖范围有限，一些学者开始研究如何集成车载网和 SAGIN 来进一步扩大网络的覆盖范围。Liu 等36提出了一种子信道和功率分配方法，最大化 SAGVN 中的总上行链路速率。然而，现有的研究对 SAGVN 中卸载决策、频谱分配、计算和存储资源的联合优化缺乏关注。如表 1 所示，本文对现有研究工作进行了总结。面对现有研究工作的不足和挑战，本文提出了一种适用于空天地融合车载网的计算卸载架构，以扩大车载边缘网络的覆盖范围并提升车载边缘网络的计算能力。为了最大限度地提高 SAGVN 的处理能力，本文将 SAGVN 中卸载决策、频谱分配、计算和存储

18、资源分配的联合优化问题建模为一个MINLP 问题。为了解决该问题，提出了一种基于深度强化学习的计算卸载与资源分配策略。2 系统模型本文提出一种适用于 SAGVN 的计算卸载架构。在该架构中，车辆的计算任务可以在本地处理，也可以整体卸载到地面节点（GN,ground node）、空中节点（AN,aerial node）或空间节点（SN,space node）上执行。为了实现体系结构中控制流和数据流的分离，本文基于软件定义网络（SDN,soft-ware-defined networking）将 SAGVN 划分为地面层、空中层和空间层，每层由一个控制器进行管理37。此外，不考虑同一层节点之间资

19、源协调的时延，并认为不同层的资源是相互独立的。SAGVN 系统模型如图 1 所示，包括车辆、路侧单元、边缘服务器、无人机和 LEO 卫星。假设有 m 辆车，并且每辆车最多同时发起一个计算任务。车辆 i 的计算任务可抽象为,1,2,iiid c tim，其中，id表示任务数据量，ci表示任务所需的计算量，ti表示任务的时延限制。表 1 现有研究工作比较文献卸载决策资源分配异构网络优化目标方法文献34 无人机+车辆最大化各方效用博弈论文献35 云边端网络最大化各方效用博弈论文献4 边缘服务器最小化能耗深度强化学习文献5 边缘服务器最小化成本深度强化学习文献6

20、无人机+边缘服务器最小化时延和能耗深度强化学习文献7 边缘服务器最小化时延和能耗深度强化学习文献32-33 无人机+边缘服务器最大化完成任务数深度强化学习文献36 空天地融合车载网最大化上行链路速率拉格朗日对偶第 7 期曾锋等：基于深度强化学习的计算卸载与资源分配策略 127 图 1 SAGVN 系统模型 2.1 通信模型上述架构中存在3种无线通信，即车对地（V2G,vehicle-to-ground）、车对空（V2A,vehicle-to-air）和车对空间（V2S,vehicle-to-space）的无线通信，下文分别给出这3种无线通信模型。首先，V2G的传输速

21、率igR可以表示为32 2lb 1iigigwiggiggp h dRW(1)其中，gW表示GN的总频谱资源，wgi表示由GN分配给车辆i的频谱资源的比例，2g表示信道的背景噪声，ip表示传输功率，igh表示信道增益，igd表示距离，表示距离衰减因子。V2A的传输速率iaR和V2S的传输速率isR可分别表示为 2b l1wiiaiaiaaiaap h dRW(2)2lb 1wiisisississp h dRW(3)其中，aW和sW分别表示AN和SN的总频谱资源，wai和wsi分别表示AN和SN分配给车辆i的频谱资源的比例。此外，如果车辆选择在本地执行车载计算任务，则不存在数据传输。在SAGV

22、N中，地面节点和空中节点具有有限的网络覆盖范围。因此，仅当车辆i处于地面节点或者空中节点的网络覆盖范围内时，车辆i才能与之通信；否则0igR或0iaR。与地面节点和空中节点不同，空间节点能够实现对指定区域的全面覆盖。一方面，空间节点能够为那些不处于地面节点和空中节点的网络覆盖范围内的车辆提供卸载服务。另一方面，空间节点能够为那些处于地面节点和空中节点的网络覆盖范围内的车辆提供更多的卸载选择。2.2 计算模型在上述架构中，车辆的计算任务可以在本地、GN、AN或SN上执行，下文分别介绍这4种计算模型。首先，V2G的计算时延cogT可以表示为32 coigcgigcTC(4)其中，gC表示GN的总

23、计算资源，cgi表示GN分配给车辆i的计算资源的比例。相似地，V2A的计算时延coaT和V2S的计算时延cosT可分别表示为 coiacaiacTC(5)coiscsiscTC(6)其中，aC和sC分别表示AN和SN的总计算资源，cai和csi分别表示AN和SN分配给车辆i的计算资源的比例。此外，本地计算时延colT可以表示为 coilicTf(7)其中，if表示车辆i的计算能力。值得注意的是，当某一车辆选择将其计算卸载到SAGVN时，SAGVN必须为该车辆分配足够的存储空间。否则，即使SAGVN为车辆分配了足够的计算资源，任务依然会中断或失败。在本文中，gG、aG和sG分别表示GN、AN和S

24、N的总存储资源。2.3 时延与能耗模型在上述架构中，如果一个计算任务在本地执行，则任务时延等于计算时延。如果一个计算任务被卸载到SAGVN执行，则任务时延等于传输时延、计算时延和接收时延三者之和。由于计算结果的数据量通常很小，因此可以忽略接收结果的时延。那么，车辆i的计算任务的任务时延iT可以表示为 cocococo 0 1 2 3liisiisiiaiiaigiigTdTRTdTRdTR，(8)128 通信学报第 44 卷其中，i表示车辆i的卸载决策，取值为0、1、2、3，分别对应计算任务在本地执行、卸载到SN执行、卸载至AN执行、卸载到GN执行。当0i时，车辆i的能耗,loci

25、E主要是本地计算产生的，可表示为,lociiiEc，其中i表示车辆i的能耗系数。当0i时，车辆i的能耗,offiE主要是传输数据产生的，可表示为,off,iiiip dEg a sR。为了表述方便，本文用()iiE表示车辆i做出决策i时需要的能耗。2.4 问题描述本文的目标是最大限度地提高SAGVN的处理能力，这意味着最大限度地增加已完成的车辆计算任务的数量。考虑到卸载决策、通信、计算和频谱资源，SAGVN中的车辆计算卸载问题可以建模为一个多目标联合优化的MINLP问题。其描述如下 ,OP:max s.t.C1:()1,C2:()1,C3:()1,C4:0,1,2,3,C5:,0,1,C6:

26、,0,1,C7:,wcgiiiiwiiiciiigiiiiwwwgiaisicccgiaisiggitTDdFg a sFg a sFg a siii res,0,1,C8:()0,ggaisiiiiiEEi(9)其中，为成功完成的车载计算任务数，为指示函数，iT为任务处理时延，iD为实际分配给任务的存储资源，resiE为车辆i剩余的能量。目标函数表示在满足车载任务时延限制及存储要求的条件下，实现计算卸载量的最大化。wcg、分别表示车载计算卸载决策、频谱、计算和存储资源分配占比的矢量。当且仅当车辆i的卸载决策与一致时，才有()1F，其中,g a s。此外，约束C1、C2和C3分别表示分配给车辆

27、的频谱、计算及存储资源比例之和为1。约束C4表示车辆的卸载决策是0,1,2,3中的一个整数，分别对应计算任务在本地执行、卸载到SN、卸载到AN和卸载到GN。约束C5、C6和C7表示分配给车辆的频谱、计算和存储资源占比为01。约束C8表示车辆i做出决策i时需要花费的能耗应小于或等于其剩余能量resiE。若不满足约束C8，则强制令0i，即车辆i选择在本地处理计算任务。3 基于深度强化学习的解决方案在上述建立的MINLP问题中，卸载决策与频谱、计算和存储资源分配之间是高度耦合的，难以优化。为了解决这个问题，本文提出了一种基于DRL的计算卸载与资源分配策略，以联合优化卸载决策以及频谱、计算和存储资源

28、分配，其架构如图2所示，网络以任务需求、网络状态和可用资源为输入，以计算卸载决策、频谱、计算和存储资源分配方案为输出。3.1 强化学习为了使用DRL解决本文提出的联合优化问题，需要使用强化学习（RL,reinforcement learning）来重新表述该问题。RL的标准模型是马尔可夫决策过程（MDP,Markov decision process），它可以用(,)表示，其中，表示状态空间，表示动作空间，表示状态转换函数，表示奖励函数。由于RL是一个时间序列模型，需要将一段时间划分为多个大小相等的时隙t。下面分别给出MDP中状态空间、动作空间、状态转换函数和奖励函数的形式化表达式。3.1.

29、1 状态空间中央控制器需要根据当前任务要求、车辆位置、资源状态和其他条件做出最佳动作，则在时隙t，状态可以被抽象为 121212121212,tttttttttttmmmsttttttttssmaaamgggmd ddc cct tt(10)其中，tid和tic分别表示车辆i在时隙t所需的存储、计算资源，tit表示车辆i在时隙t的时延约束，,tis a g表示车辆i在时隙t与SN、AN和GN的距离。3.1.2 动作空间 SAGVN中，中央控制器需要根据当前状态做出最优的车载计算卸载决策和频谱、计算及存储资源的分配方案。因此，在时隙t，动作可以被抽象为 1111111111,tttwtwtwt

30、mssmawtwtwtctctamggmssmctctctctgtaamggmsgtgtgtgtgtsmaamggm(11)第 7 期曾锋等：基于深度强化学习的计算卸载与资源分配策略 129 其中，ti表示车辆i在时隙t的卸载决策，,wtctgtiii、分别表示 SN、AN 和 GN 在时隙t分配给车辆i的频谱、计算和存储资源占比，,s a g。3.1.3 状态转换函数状态转换被定义为以当前时隙t的环境状态t和动作t为输入，返回当前时隙的奖励t和下一时隙的状态1t。因此，状态转换函数可以用1(,|,)tttt 表示。在本文中，状态转换函数包括计算资源变化、数据传输速率等内容。由于完整的状态

31、转换函数十分繁杂，这里仅给出状态转换函数的形式化表达1(,|,)tttt 。3.1.4 奖励函数在联合优化问题中，本文的优化目标是最大化整个系统的计算卸载处理数量。因此，奖励函数的设计应当能够引导智能体进行自主学习，从而做出最大化计算卸载处理数量的动作。本文设计的奖励函数可表示为 min 0,()min 0,()tttttttiiiiiitTDd(12)其中，()ttiiT表示完成任务的实际时间，()ttiiD表示实际分配给车辆的存储资源。当()0tttiiiDd时，意味着分配给车辆的存储资源满足任务需求。当()0tttiiitT时，意味着实际任务时延小于或等于时延约束。此外，本文发现上述奖

32、励函数是非正的、连续的。这种形式化的奖励函数不仅能避免车辆被过度分配资源而获得高额回报，而且更容易促进网络的学习。下面阐述智能体如何进行自主学习并做出决策。假设存在2个带有未知参数的函数，分别为策略函数()和价值函数()Q，其中，和为参数。策略函数是当前状态到当前动作的一个映射，价值函数是当前状态和动作到实数的一个映射，这个实数称为累积奖励。刚开始，策略函数和价值函数并不是最优的，因此智能体做出的决策往往不好。但是，随着大量数据的驱动，策略函数和价值函数会逐渐逼近理想函数。此时，使用策略函数或价值函数均能帮助智能体做出最优决策。一般而言，累积奖励可以表示为 ()0(,)|,tttQs asa(

33、13)其中，是折扣系数，决定了未来奖励在累积奖励中的重要性。3.2 深度强化学习为了解决RL不适合处理大型连续动作空间的问题，DRL使用2个深度学习网络，即Actor和Critic，来近似RL中的策略函数()和价值函数图 2 基于 DRL 的计算卸载与资源分配策略架构 130 通信学报第 44 卷 ()Q30。此外，联合优化问题中的优化变量还包括离散变量，在使用DRL之前需要将其转换为连续变量。3.2.1 动作连续化动作空间包含连续动作和离散动作。为了满足深度强化学习的要求，需要将离散动作转换为连续动作。动作连续化示意如图3所示，车辆的卸载决策ti可以分解为车辆选择本地计算、卸载

34、到SN、卸载到AN或卸载到GN的概率，并通过Softmax函数激活，从而实现概率和为1的约束。图 3 动作连续化示意具体而言，ti可由012tttiiippp、和3tip这4个连续变量代替。那么，连续化后的动作空间可以表示为 011121310123111111111,tttttttmmttwtwtwtmmssmawtwtwtctctamggmssmctctctctgtaamggmsgtgtgtgtgtsmaamggmpppppppp(14)其中，012tttiiippp、和3tip分别表示车辆i选择在本地计算、卸载到SN、卸载到AN和卸载到GN的概率，且1,1,2,3,4,tjijpji。

35、3.2.2 动作标准化在联合优化问题中，确保频谱、计算和存储资源的分配不超过SAGVN的资源上限是至关重要的。因此，本文对动作进行了归一化处理。3.2.3 Actor-Critic网络结构 Actor-Critic网络的数据流如图4所示，本文引入Actor网络()ts和Critic网络(,)ttQs a来逼近策略函数和价值函数。()ts和(,)ttQs a均采用五层全连接网络，不同的是，()ts输出的动作需要进行连续化和归一化处理，而(,)ttQs a的输出是一个实数。在每个时隙中，智能体感知当前环境状态ts，基于()ts做出动作ta。这时，环境根据状态转换函数1(,|,

36、)tttt 给出当前奖励tr和下一时隙状态1ts。此外，本文还引入了策略网络和价值网络的目标网络，分别是()ts和(,)ttQs a。每隔一定时隙，从经验重放区中随机抽取64条记录，形成一个批，即164,Bbb，其中1,tttttbs a r s；然后每个tb的iq可以通过(,)ttQs a网络计算得到。11,()iiiiqrQss (15)Critic网络用于预测当前状态和动作的累积奖励。本文使用Critic网络真实反映当前状态和动作的好坏，从而更好地指导Actor网络进行决策。因此，本文基于时序差分（TD,temporal difference）算法，使用梯度下降策略来更新Critic网络

37、的参数，图 4 Actor-Critic 网络的数据流第 7 期曾锋等：基于深度强化学习的计算卸载与资源分配策略 131 使网络的预测值逼近真实值。Critic网络的损失可表示为 64211(,)64iiiiqQ s a(16)Actor网络根据当前状态做出最优决策，该决策最大化累积回报。在Critic网络的协助下，本文使用梯度上升策略来更新Actor网络参数，从而使累计回报尽可能大。64()11()(,)|64iiiawasiJsQs a(17)上述更新仅涉及Actor和Critic网络，其对应的目标网络尚未更新。因此，目标网络()ts 和(,)ttQs a 会以一定的时隙间隔进行更新，

38、具体更新式为 (1)(18)(1)www(19)其中，是软更新系数，的大小决定了目标网络的同步速率。3.3 网络训练与预测算法基于3.1节和3.2节的分析，本文提出了一种适用于空天地融合车载网的计算卸载和资源分配的优化算法（简称SAGVN算法），如算法1和算法2所示。算法 1 车载计算卸载的训练算法 1)初始化环境、经验重放缓冲区、学习率、车辆数目、Q、Q 2)循环（每局游戏）3)ts观察环境的状态；4)循环（每个时隙）5)()ttas 6)if 在训练模式下 then 7)ta 对ta施加噪声并修剪；8)end if 9)11,(,|,)ttttttsrr ss a;10)保存1,tttt

39、s a r s到经验重放缓冲区；11)1ttss 12)if缓冲区保存的记录数大于100 then 13)B 从缓冲区随机采样64条记录；14)更新网络参数，；15)if,更新了一定次数 then 16)(1)；17)(1)www；18)end if 19)end if 20)结束循环 21)结束循环算法 2 车载计算卸载的预测算法 1)初始化环境、Q等 2)ts 观察环境的状态；3)循环（每个时隙）4)()ttas 5)11,(,|,)ttttttsrr ss a;6)保存1,tttts a r s到经验重放缓冲区；7)1ttss；8)结束循环本文对环境、经验重放缓冲区、QQ、等进行初始

40、化。每局游戏被划分为多个长度相等的时隙，开始循环时，智能体感知环境的初始状态ts。在每个时隙中，智能体基于()ts做出动作ta。训练阶段，需要对动作进行正态随机处理并修剪，在对动作施加随机探索的同时使其满足约束条件。此时，环境根据状态转换函数1(,|,)tttt 给出奖励tr和下一时隙状态1ts。那么，时隙t的样本可表示为1,tttts a r s，并将其存入经验重放缓冲区。训练阶段，从缓冲区中随机抽取64条记录，形成一个批，即1641,tttttBbbbs a r s，其中。在数据B的驱动下，可以对,进行更新。在车辆计算卸载的真实环境中，资源管理算法的执行时间也是任务

41、时延的重要组成部分。因此，有必要对本文算法的时间复杂度进行分析。深度强化学习算法通常由训练算法和预测算法两部分组成。事实上，在实际的运行环境中，智能体在绝大部分时间内仅需要进行预测。因此，本文只讨论算法的预测时间复杂度。引理 1 算法2的时间复杂度是2()O n。证明算法2的第1)行是加载算法1训练好的网络参数，在实际的运行环境中仅需要执行一次。算法2的第2)行是获取初始的环境信息，这部分的时间复杂度是(1)O。算法2的第3)行第8)行表示智能体在每个时隙进行一次决策。算132 通信学报第 44 卷法2的第4)行是智能体通过网络得到当前时隙的决策ta。本文的网络由有1n个神经元的输

42、入层、3个有2n个神经元的隐藏层以及有3n个神经元的输出层组成。那么，单个样本的前向传播时间复杂度为1232(2)O nnn n，即算法的时间复杂度不超过2123()max,O nnn n n，。算法2的第5)行第7)行均是基本的存储和计算操作，算法的时间复杂度为(1)O。综上所述，算法2的时间复杂度为2()O n。证毕。4 仿真实验本文对所提SAGVN算法进行了仿真实验，并对学习率和缓冲区大小对算法性能的影响进行分析，将SAGVN算法与基线算法、DRL算法32和基于卷积神经网络（CNN,convolutional neural net-work）的DRL算法（简称CNN-DRL）38进行了

43、比较，以验证其有效性。基线算法下，车辆卸载决策和网络资源分配是完全随机的。值得注意的是，大量研究表明，使用连续型的深度强化学习来解决连续控制问题更有效6,39。因此，本文仅考虑连续型的深度强化学习方案。本文根据以下2个重要的度量指标来衡量算法的性能：平均任务成功率P和平均任务时延D。假设有K轮，每轮有N个任务1task,task N，那么平均任务成功率和平均任务时延分别为 1KiiPNKS(20)11NKijijTDNK(21)其中，iS表示第i轮完成的任务数，这里iS对应目标函数。ijT表示第i个任务在第j轮的任务时延。4.1 仿真环境仿真场景由车辆、边缘服务器、无人机、LEO卫星和每个方

44、向有3条车道的十字路口组成。车辆的位置、速度iv、方向和计算任务都是随机生成的。某一车辆到达十字路口或道路尽头时会改变方向并继续行驶。仿真参数如表2所示，其中，,s a g，部分参数参考文献32-35。表 2 仿真参数参数值参数值 ip/dBm 60/dBmh 10/MHzW 0.10.5 2/dBm 60 1/(GHz s)gC10 1/(GHz s)aC 8 1/(GHz s)sC6 1/(GHz s)if 0.2/MBgG 10/MBaG 8/MBsG 6 2/MBid 0.10.3/GHzic 1.02.0/sit 0.51.5 0.98 0.005 1/(km h)iv 36

45、 1/(J GHz)i0.2 res/JiE 5 缓冲区大小/条记录1 000 采样数量/条记录 64 Actor 学习率 5107 Critic 学习率 5106 4.2 仿真结果不同算法下的累积奖励如图5所示。与基线算法相比，其他算法的累积奖励显著提高。这是因为在基线算法下，车辆卸载决策和网络资源分配是完全随机的，没有考虑任务需求和网络状态之间的关系。此外，DRL算法的累积奖励随着迭代次数的增加而呈上升趋势，这是因为在数据的驱动下，智能体所做的决策逐渐接近当前状态下的最优决策。当迭代次数超过30次时，本文算法累积奖励趋于稳定，相比其他算法具有最高的累积奖励，说明本文算法是收敛且有效的。图

46、 5 不同算法下的累积奖励不同学习率和缓冲区大小下的累积奖励如图6和图7所示。学习率和缓冲区大小都是算法中的超参数，它们与网络的收敛速度和累积奖励密切相关。然而，它们之间的关系不是线性的，因此第 7 期曾锋等：基于深度强化学习的计算卸载与资源分配策略 133 通过比较实验选择合适的学习率和缓冲区大小有着重要意义。图 6 不同学习率下的累积奖励图 7 不同缓冲区大小下的累积奖励图6展示了本文算法在学习率分别为4107、5107和6107下累积奖励的变化。当学习率为5107时，网络可以更快地收敛到较高的累积奖励。图7展示了本文算法在缓冲区大小分别为1 000条记录、500条记录、200条记

47、录和100条记录下累积奖励的变化。当缓冲区大小为1 000条记录时，累积奖励更高、更稳定。因此，在下文的数值仿真中，设置网络的学习率为5107，缓冲区大小为1 000条记录。不同算法在不同频谱资源下的累积奖励、平均任务成功率和平均任务时延分别如图8、图9、图10所示。累积奖励可以在一定程度上反映算法的性能。从图8可发现，不同算法的累积奖励都随着资源的增加而增加。然而，与基线算法相比，DRL算法的累积奖励更高，本文算法的累积奖励是4种算法中最高的。通信资源为0.3 MHz时，本文算法、DRL算法、CNN-DRL算法、基线算法的累积奖励分别为15.68、41.11、42.87、682.53。图 8

48、不同通信资源下的累积奖励的对比图 9 不同通信资源下的平均任务成功率的对比图 10 不同通信资源下的平均任务时延的对比从图9可发现，不同算法的平均任务成功率都随着资源的增加而提高，且本文算法的平均成功率是4种算法中最高的。通信资源为0.3 MHz时，本134 通信学报第 44 卷文算法、DRL算法、CNN-DRL算法、基线算法的平均任务成功率分别为77.5%、76.8%、67.5%、55.0%。从图10可发现，不同算法的平均任务时延都随着资源的增加而减少，且本文算法的平均任务时延是几种算法中最低的。通信资源为0.3 MHz时，本文算法、DRL算法、CNN-DRL算法、基线算法

49、的平均任务时延分别为0.711 4 s、0.754 5 s、0.883 8 s、2.674 4 s。这是因为本文对卸载决策进行了连续化处理，增强了网络的收敛性。同时，本文设计了一个非负、连续的奖励函数，以避免向车辆分配过多资源而导致的高奖励。5 结束语在车载边缘计算的支持下，车辆可以将计算卸载到边缘服务器，从而获得高质量的计算服务。然而，现有的车载边缘网络的覆盖范围有限，难以为车辆提供泛在的计算服务。为了进一步扩大车载边缘网络的覆盖范围并提升车载边缘网络的计算能力，本文提出了一种适用于空天地融合车载网的计算卸载架构。在该架构中，为了最大限度地提高SAGVN的处理能力，将SAGVN中卸载决策、

50、频谱、计算和存储资源分配的联合优化问题建模为一个MINLP问题。为了解决该问题，本文提出了一种基于深度强化学习的计算卸载策略。在该策略中，对卸载决策进行了连续化处理，增强了网络的收敛性。同时，设计了一个非负、连续的奖励函数，以避免向车辆分配过多资源而导致的高奖励。仿真结果表明，与其他算法相比，本文算法的累积奖励和任务成功率均有明显提高。未来工作将研究空天地融合车载网中移动节点的轨迹优化问题，以及多节点间的资源共享和定价问题。参考文献：1 李智勇,王琦,陈一凡,等.车辆边缘计算环境下计算卸载研究综述J.计算机学报,2021,44(5):963-982.LI Z Y,WANG Q,CHEN Y F

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于深度强化学习计算卸载资源分配策略

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。