分销赏收藏举报申诉 / 8

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于深度强化学习的D2D辅助MEC网络资源分配算法.pdf

基于深度强化学习的D2D辅助MEC网络资源分配算法.pdf

上传人：自信****多点

文档编号：578353

上传时间：2024-01-02

格式：PDF

页数：8

大小：1.77MB

《基于深度强化学习的D2D辅助MEC网络资源分配算法.pdf》由会员分享，可在线阅读，更多相关《基于深度强化学习的D2D辅助MEC网络资源分配算法.pdf（8页珍藏版）》请在咨信网上搜索。

1、第 21 卷第 7 期电力信息与通信技术 Vol.21 No.7 2023 年 7 月 Electric Power Information and Communication Technology Jul.2023 中图分类号：TP301 文献标志码：A 文章编号：2095-641X(2023)07-051-08 DOI：10.16543/j.2095-641x.electric.power.ict.2023.07.07 著录格式：姜华，杨家伟，黄巍，等基于深度强化学习的 D2D 辅助 MEC 网络资源分配算法J电力信息与通信技术，2023，21(7)：51-58 基于深

2、度强化学习的 D2D 辅助 MEC 网络资源分配算法姜华1，杨家伟2，黄巍3，黄成斌1，丛犁1，李思佳2，陈智雄2（1国网吉林省电力有限公司信息通信公司，吉林省长春市 130000；2华北电力大学电子与通信工程系，河北省保定市 071003；3国网长春市供电公司，吉林省长春市 130021）A D2D-assisted MEC Network Resource Allocation Algorithm Based on Deep Reinforcement Learning JIANG Hua1,YANG Jiawei2,HUANG Wei3,HUANG Chengbin1,CO

3、NG Li1,LI Sijia2,CHEN Zhixiong2(1.Information and Communication Company,State Grid Jilin Electric Power Co.,Ltd.,Changchun 130000,Jilin Province,China;2.Department of Electronic and Communication Engineering,North China Electric Power University,Baoding 071003,Hebei Province,China;3.State Grid Chang

4、chun Power Supply Company,Changchun 130021,Jilin Province,China)摘要：利用多接入边缘计算(multi-access edge computing，MEC)和终端直传通信(Device to Device，D2D)技术，可以提升电力智能巡检中传感数据传输和处理的能力，但需要解决频谱复用和干扰条件下的网络资源优化分配问题。针对 D2D 辅助的 MEC 网络，文章提出了一种基于深度强化学习的资源联合优化分配算法。首先在频道复用与干扰、功率和计算等资源约束条件下，分析了 D2D 辅助的 MEC 网络的终端容量、功耗和时延计算方法；然后综合

5、考虑吞吐量、功耗和时延等指标要求，建立了基于综合效益函数最大化的资源优化分配模型；最后采用深度强化学习算法实现任务卸载和资源分配的联合优化。仿真结果表明，该算法可有效提升系统容量和任务卸载的综合性能。关键词：5G 资源分配；D2D 通信；MEC；深度强化学习 ABSTRACT:Multi-access edge computing(MEC)and device to device(D2D)technologies can be used to improve the capability of sensing data transmission and processing in power

6、intelligent inspection.However,the problem of optimal allocation of network resources under spectrum reuse and interference should be solved.For D2D-assisted MEC networks,this paper proposes a joint optimal resource allocation algorithm based on deep reinforcement learning.Firstly,the terminal capac

7、ity,power consumption and delay calculation methods of D2D-assisted MEC networks are analyzed under the constraints of channel multiplexing and interference,power and computation.Secondly,considering the requirements of throughput,power consumption and delay,a resource optimal allocation model based

8、 on comprehensive utility function maximization is established.Deep reinforcement learning is used to realize the joint optimization of task offloading and resource allocation.Simulation results show that the proposed algorithm can effectively improve the comprehensive performance of system capacity

9、 and task offloading.KEY WORDS:5G resource allocation;D2D communication;MEC;deep reinforcement learning 0 引言随着智能电网的发展，利用 5G 和机器学习算法实现变电站智能化、高效巡检具有重要的实际意义。其中，终端直传通信(device to device，D2D)和多接入边缘计算(multi-access edge computing，基金项目：国网吉林省电力有限公司 2022 年科技项目“变电站 5G传输特性与接入能力研究”。MEC)等关键技术1-3可有效提升 5G 服务智能电网的能力

10、，但需要解决 D2D 频谱复用和干扰条件下的通信资源优化分配问题。MEC 可在靠近终端设备的无线接入网内提供计算能力。应用程序和服务在移动网络的边缘运行，减少了服务延迟和移动核心网络其他部分的拥塞。施孟佶等人基于云计算和边缘计算提出了 52 姜华等：基于深度强化学习的 D2D 辅助 MEC 网络资源分配算法 Vol.21 No.7 带电作业机器人智能管控方法4，通过设置变电站带电作业机器人工作的典型场景，实例验证了提出的智能控制方法可以满足变电站任务的计算能力要求。文献5使用无人机作为边缘节点辅助进行物联网设备任务卸载和中继，通过联合优化无人机位置、任务卸载率和卸载用户分配获得最大系统安全容量

11、。文献6基于深度强化学习对智能巡检任务分配机制进行训练，从而降低时延和能耗。以上的MEC 策略卸载只针对卸载位置和计算能力对卸载时延和能耗进行了优化，没有考虑通信资源的分配和优化问题。针对变电站传输环境的复杂性、数据及其卸载方式的多样化问题，需要研究高效的无线资源分配和调度机制，以满足数据卸载时互不干扰、稳定可靠传输的需要。D2D 通信通过频谱资源复用，获得临近增益和信道复用增益，从而提高 5G 通信网络的数据传输效率，满足设备并发接入的需要7。但在网络中进行 D2D 传输会对其他 D2D 链路造成严重干扰，因此，研究一种高效的通信资源匹配算法对 D2D 技术的应用具有重要意义8。分布式资源分

12、配方法可以减少信令开销，降低基站的计算负荷，很好地解决大型复杂通信网络的通信资源优化问题，但 D2D用户之间存在频繁的信息交换，需要复杂的优化算法以确保可靠的 D2D 通信。文献9针对上行链路蜂窝网络中的协作 D2D 通信资源优化问题，在中断概率约束条件下，以总平均可达速率最大化为目标，对频谱和功率资源进行优化分配。Emna Fakhfakh 等人10提出了一种基于新标准的 D2D 模式选择方案，通过引入与资源分配相关的噪声参数，最大限度地提高系统吞吐量和蜂窝流量卸载。文献11和12采用博弈论，研究了认知 D2D 网络能效最大化的资源分配问题，在用户通信干扰门限约束下实现能效和谱效的均衡。文献

13、13采用进化理论研究 D2D 用户接入蜂窝网络的模式和资源分配问题，实现了 D2D 总用户数据速率最大。以上资源优化方法在数据量较小时可以获得最优解，当系统资源数量较多时，算法求解复杂度加大。此外，资源配置问题往往被建模为带有非线性约束的组合优化问题，传统的优化方法难以实现有效优化，针对这类资源优化问题深度强化学习往往更具优势。MEC 为满足巡检机器人爆发式增长的通信和计算需求提供了一种有前景的架构，但考虑到 5G变电站场景中组网环境复杂、频谱资源受限等问题，利用 D2D 通信辅助 MEC 卸载，可通过频谱资源复用提高 MEC 网络数据传输效率。如何解决 MEC 系统网络无线资源优化分配和调度

14、，同时克服 D2D 通信带来的同频干扰问题，是实现巡检设备可靠传输和网络资源高效利用的关键，也是本文研究的重点。针对上述问题，本文提出了一种 D2D 辅助的MEC网络卸载算法，在实现MEC多级卸载的同时，利用 D2D 通信技术实现通信资源的复用和分布式调度。为实现最优的卸载选择和资源分配，建立了联合网络吞吐量、功耗和计算时延等指标的系统效益函数，该函数受链路干扰和功率约束。最后采用基于深度双 Q 网络(double deep Q-network，DDQN)的深度强化学习框架实现 5G 资源块分配和计算卸载的联合优化，实现网络吞吐量最大化，尽可能降低计算时延。1 D2D 辅助 MEC 网络的系统

15、模型 1.1 系统模型 D2D 辅助的 MEC 网络模型如图 1 所示，带有集成 MEC 服务器的基站范围内存在某变电站，变电站内 M 个巡检设备配合完成巡检工作，对应有 M条设备到基站(device to base station，D2B)链路，设备和 D2B 链路集合定义为1,2,mM。巡检设备可通过 D2D 通信方式获取其他巡检设备的位置信息，巡检设备采集传感数据，可以选择在本地设备或卸载至基站(D2B 链路)进行处理。在基站处的干扰更可控，上行链路资源使用更少，因此假设每条消息都有 1 组接收器，D2B 链路的上行链路频谱与 D2D 链路进行复用。D2B链路D2D链路巡检设备带有MEC

16、服务器的基站图 1 D2D 辅助的 MEC 网络模型 Fig.1 D2D-assisted MEC network model 无线资源的分配分为时域和频域 2 个维度。时域维度主要是每个传输时间间隔(transmission time 第 21 卷第 7 期电力信息与通信技术 53 interval，TTI)上的资源分配。在频域维度上，将总带宽划分为若干个等带宽子信道，需要进行子频道的分配。单个 TTI 与单个子信道构成系统资源块(resource block，RB)，是设备数据传输时需要的最小无线资源单元。因此，对 D2B 链路的干扰来自背景噪声和来自共享同一子带的

17、D2D 链路信号。在已知发射功率和噪声功率2的条件下，第 m个D2B链路的信干噪比m与D2D链路的频谱资源分配密切相关，可以表示为：2D,mmmk mkkk KP hP h (1)式中：K=1,2,M(M1)/2，表示所有可能的链路集合；Pm和DkP分别表示第 m 条 D2B 链路和第 k条 D2D 链路的传输功率；hm为对应第 m 个 D2B 信道的功率增益，hk为第 k 条 D2D 链路的干扰功率增益；,k m为信道复用系数，当第 k 个 D2D 链路重复使用第 m 个 D2B 链路的频谱时，,1k m，否则,0k m。根据信干噪比表达式，第 m 个 D2B 链路容量mC为：2log(1)

18、mmCw(2)式中，w 为子信道带宽。同理，对于第 m 个巡检设备的第 i 个接收机，其信干噪比D,m i表示为：D,D,2Dm im im iPg (3)式中：D,m iP为第m个巡检设备的第i个接收机的传输功率；,m ig为第m个巡检设备的第i个接收器的功率增益；2为接收到的噪声功率；为复用同一RB 的 D2B 链路的干扰功率；D为所有 D2D 链路共享相同 RB 的总干扰功率。式(3)中的可表示为：,nm innn MP g (4)式中：,nm i为频谱复用系数，,nm i=1 表示第n个 D2B链路和第m个巡检设备的第i个接收器共享同一频谱，否则,nm i=0；ng为第n个 D2B 链

19、路的干扰功率增益；nP为 D2B 链路传输功率。式(3)中的D可表示为：DDD,j mm ij mj mj M mM mjPg(5)式中：D,j mP是第j个巡检设备到第m个巡检设备的D2D 链路传输功率；D,j mg是第j个巡检设备到第m个巡检设备的 D2D 链路干扰功率增益；,j mm i表示频谱复用系数，,j mm i=1 表示第j个巡检设备的第m个接收机和第m个巡检设备的第i个接收器使用相同的频谱资源，否则,j mm i=0。最终，第m个巡检设备的第i个接收机的容量可表示为：DD,2,log(1)m im iCw(6)根据网络数学模型，D2D 技术通过频谱复用提高了资源的利用率，但也不

20、可避免地带来了链路干扰。因此，在满足 D2B 链路的速率和时延约束条件下，要尽可能提升 D2D 链路的质量。综合考虑 D2D和 D2B 链路，D2D 辅助的 MEC 网络吞吐量C可以表示为：D.11MMmm immiCCC (7)式中：mC为第m个 D2B 链路容量；D.m iC为第m个巡检设备的第i个接收机的容量。1.2 系统能耗和计算模型巡检设备大多是功率受限的，因此需要考虑MEC 任务计算和卸载的功耗。由于集成 MEC 服务器部署在网管中心且是有源的，可忽略 MEC 服务器的功耗限制，本文重点计算巡检设备的功耗。定义 D2D 设备电路功耗为P，D2D 设备的传输功耗为DkP，计算功耗为

21、cmP，则 MEC 系统的总功耗E与 D2D 巡检设备的各种功耗直接相关，可表示为：Dc111MKMmkmmkmMPEPPP (8)处理时延是任务处理的另一个关键指标，与巡检设备或服务器的计算资源密切相关，计算资源越多，处理时延越小。任务卸载主要分为 2 个层次，分别为 D2D 设备本地卸载和集成 MEC 服务器卸载。对比本地卸载，集成服务器端的供能和计算能力较强，本文算法优化时重点考虑本地卸载产生的计算时延和功耗14。定义m为计算时延，则当任务在本地进行计算时，处理时延为：mmmmuf (9)式中：mu为本地计算数据量；m为 D2D 设备的计算复杂度，即处理 1 bit 数据所需中央处理器周

22、期数；mf表示 D2D 巡检设备的 CPU 频率。根据本地计算量和巡检设备的 CPU 参数，可计算设备任务卸载时的功耗cmP为15：c2mmmmmPu f (10)54 姜华等：基于深度强化学习的 D2D 辅助 MEC 网络资源分配算法 Vol.21 No.7 式中：m表示开关电容因子；m为系数因子。1.3 资源优化分配模型考虑到 D2D 巡检设备电池容量的限制，其发射功率不能无限大，因此传输功率满足如下约束：Dmax,1,Mmm mmmmmPPP(11)式中：Pm表示第m条 D2B 链路传输功率；D,m mP为第m个巡检设备的第m个接收机的传输功率；maxmP为第m个 D2D 巡检设备能提

23、供的最大发射功率。此外，由于干扰功率会对 D2D 设备造成影响导致传输中断，影响通信质量，在资源分配的过程中还需要满足干扰功率的约束：DDth,.,j mm ij mj mm ij M mM mjPgI(12)式中，th,m iI表示信道所能容忍的峰值干扰功率，其他变量的含义与式(5)相同。从智能巡检数据传输和任务执行角度考虑，本文的资源优化算法需要在功率和干扰等基本约束条件下，提升 D2D 辅助的 MEC 网络吞吐量，并通过合理的任务卸载和资源分配算法保证传感数据的计算时延最小。因此，综合考虑吞吐量、能耗和时延等指标要求，建立了基于综合效益函数最大化的资源优化分配模型，如下所示：,.D.11

24、1,Dc111Dmax,1,DDth,.,max k mj mm iMMMmm immmimMKMmkmmkmMmm mmmmmj mm ij mj mm ij M mM mjCCHMPPPMPPPPPgI(13)由于容量、功耗和时延等指标的取值范围不同，度量存在差异，在优化求解的过程中需要进行归一化处理。对原始数据x进行归一化后得到结果x)，具体方法为：2maxmid2max2maxmaxmidmidmax2maxmaxmid(),01()()1,1()xxxxxxxxxxxxxxxxxx)(14)式中：maxx为数据最大值；midx为数据最大值的一半。上述优化问题是一个混合整数非线性规划问

25、题，同时多个优化变量互相耦合，即使在所有统计分布下也很难使用传统的凸优化方案进行求解。此外，观测值与最优资源分配解之间的关系往往是隐式的，难以用解析方法建立。因此，本文提出一种基于深度强化学习(deep reinforcement learning，DRL)框架的卸载决策优化和资源分配算法，利用观测值与最优资源分配之间的隐式关系，实现状态和系统进行在线交互。2 基于 Double DQN 的资源优化方案 2.1 DDQN 算法深度强化学习综合强化学习的决策能力和深度神经网络强大的数据分析能力16-18，可以解决Q-Learning 算法中当状态空间较大时带来的维度爆炸问题。其数学表示为：DQ

26、N11max(,)ttttaYRQ sa(15)式中：Rt+1表示奖励；st+1表示下一状态；a为选择的动作；为对R的衰减因子；t为 Q 网络的参数。DQN 算法在更新t时选取最大值，这种 max操作使得值函数被过高估计。因此可以采用双网络来选择动作和评估当前状态价值10，即 DDQN 算法。算法更新过程如下：DoubleDQN111(,argmax(,;);)ttttttaYRQ sQ sa(16)式中：1tR为奖励函数，为衰减因子，t和t分别为 Q 网络和 Target Q 网络的参数。DDQN 从 Q网络以完全贪婪方式选择动作，在 Target Q 网络中评估Q值。2.2 基于 DDQN

27、的优化策略 D2B 链路存在严格的延迟和可靠性要求，在DDQN 中，这些约束直接表示为奖励函数。本文所提出资源管理方案的目标是确保满足 D2B 链路的延迟约束，同时最小化 D2D 链路对 D2B 链路的干扰。由于功耗会对网络吞吐量产生影响，在奖励函数中需要对功耗和吞吐量做出均衡调整。计算时延条件作为一种惩罚来减少对奖励的影响。奖励函数Rt可以表示为：第 21 卷第 7 期电力信息与通信技术 55 D.11Dc1111()(1)()tMMmm iMmmimMKMmmkmmkmRCCPPPMP(17)令Hm表示系统的能效：.11111MMDmm immimMKMDcmkmmk

28、mCCHPPPMP (18)则系统奖励函数可简化为如下形式：11MtmmmRH (19)进行归一化处理之后为：11MtmmmRH)(20)可以看出，奖励函数与效益函数相似但不完全相同，采用一个均衡因子均衡功耗和吞吐量，得到一个加权的效益函数。同样的，数据需要进行归一化处理，处理规则与公式(14)相同。与资源分配相关的观测是信道和干扰信息，定义 DDQN 的状态空间 S=VtCtGtHt1，其中 Vt=v1,v2表示卸载位置，v1表示本地卸载，v2表示集成 MEC 服务器卸载；Ct=c1,c2,cw表示子信道信息，cw=0 表示当前子信道未被占用，cw=x表示子信道在当前时刻被重复占用x次；Gt

29、=g1,g2,gv表示链路功率增益；Ht1为前一时隙中接收到的干扰信号强度，表示在每个子频道本地观察结果，还包括邻居共享的信息，例如上一时隙中邻居选择的信道索引。DDQN 的动作选择包括卸载位置、频谱和功率信息。定义动作 A=a1,A2,a3，其中101a，a1=0表示选择本地卸载，a1=1 表示选择集成 MEC 服务器卸载。A2表示信道选择，是被分配的子信道的集合。a3p1,pi,pl，a3=pi表示分配功率为pi。代理选择动作后与环境交互生成奖励并更新状态。根据设定的奖励函数、状态空间和动作进行DDQN 算法的实践，具体的环境设置和参数在下文进行介绍。2.3 资源优化分配算法本文的方法分

30、为 2 个阶段，分别为培训阶段和测试阶段。通过环境模拟器和代理之间的交互生成训练和测试数据，用于优化 Q-network 和 Target Q-network。开始阶段每个训练样本包括st、st+1、at和rt，生成经验池 Experience Replay，动作选择采用-greedy，以 10%的概率随机选择动作，90%的概率选择 Q 值最大的动作。环境模拟器包括D2D设备和集成MEC服务器及其通道，其中 D2D 设备位置是随机生成的。通过选择 D2D 链路的频谱和功率，模拟器可以向代理提供st+1和Rt。训练阶段的每次迭代中，从Experience Replay 中采样 50 个数据，这样

31、可以抑制生成数据的时间相关性。然后通过 Q-network 选择动作，利用 Target Q-network 进行评估并更新权值，Loss 函数采用均值平方误差函数：1211()(max(,)(,)tttttaL wE rQ saQ s a(21)式中为网络权重。每个 D2D 链路的频谱和功率选择策略的初始化是随机的，效用函数利用 Q-network 进行迭代计算。在测试阶段，根据训练后的网络选择 D2D 链路中的动作，并据此进行评估。资源优化分配的主要步骤包括以下几个部分：1）系统建模：共M个 D2D 设备，巡检目标和一处带有集成 MEC 服务器的基站；2）参数定义：定义信道、衰落和噪声等参

32、数，定义系统资源参数或变量(优化目标)；3）指标计算：根据模型和参数，计算第m个D2B 的信干噪比、D2B 链路容量，计算第m个 D2D设备的第i个接收器的信干噪比、容量以及网络吞吐量和功耗等指标；4）算法描述：利用双网络 DQN 进行信道和功率分配，资源优化分配算法具体流程总结如下：/启动环境模拟器，生成 D2D 设备，巡检目标和基站；初始化 Q-network，随机生成权重t；初始化 Target Q-network，生成权重tt；for 每一个 D2D 设备m=1,2,M，do 根据策略选择卸载位置，确定要传输的功率和频谱；根据-greedy 从 Q-network 选择动作a；根据D

33、ouble DQN算法更新过程DoubleDQN111(,argmax(,;);)ttttttaYRQ sQ sa，利用 Target Q-network 进行评估；更新状态，生成奖励11MtmmmRH)，并保存到 Experience Replay；56 姜华等：基于深度强化学习的 D2D 辅助 MEC 网络资源分配算法 Vol.21 No.7 从 Experience Replay 中取样数据进行训练网络；每隔 100 Steps 更新 Target Q-network 的权重tt；if 1211()(max(,)(,)tttttaL wE rQ sawQ s a w函数收敛 t

34、hen break end for 每一个 D2D 设备m=1,2,M，do 根据通过训练的策略来选择卸载位置，确定功率和频谱；更新评估结果包括功耗E、吞吐量C和时延m；if m=M then break end return E、C和m。3 仿真结果与分析 3.1 仿真配置仿真基于 Python 的 Tensorflow 1.0 框架。考虑500 m500 m 的变电站环境，M个 D2D 巡检设备随机生成，带有集成 MEC 服务器的基站在距离变电站中央 2 km 的位置。信道采用莱斯模型19，仿真参数见表 1 所列。表 1 D2D 辅助 MEC 网络参数 Table 1 D2D-assis

35、ted MEC network parameters 参数值基站天线高度/m 20 BS 天线增益/dB 5 CPU 频率/Hz 2,10109 传输功率/dBm 5,10,16,23 噪声功率 2/dBm 114 子载波带宽 w/kHz 25 数据包/Mbit 30100 计算资源/MHz 0.5,1.5 网络模型采用 BP 神经网络，包括 1 个输入层、3 个隐藏层和 1 个输出层。3 个隐藏层的神经元个数分别为 64、128 和 128，激活函数为 Rule函数。3.2 性能分析将本文提出的 DDQN 算法与 DQN 算法、MEC-U 算法和随机算法 Random 进行比较，其中M

36、EC-U 算法任务均在集成 MEC 服务器进行卸载，其余部分与本文算法保持一致；Random 算法通信资源和卸载位置随机选择；DQN 算法利用深度神经网络算法对优化模型进行求解，与本文的 DDQN不同之处在于 DQN 算法只使用一个深度神经网络估计 Q 值。巡检设备数量对效益函数的影响如图 2所示，本文算法具有良好的性能。效益函数巡检设备数量DDQNDQNMEC-URandom 15202551000.20.40.60.81.01.2 图 2 巡检设备数量对效益函数的影响 Fig.2 The effect of inspection equipment quantity on utility

37、function 在巡检设备数量较小时，系统所提供的资源可以满足通信需求，此时 4 种算法带来的系统效益函数接近。随着巡检设备数量的增加，通信需求增加导致资源数量紧缺，频谱资源复用导致效用函数较小，但相对于 MEC-U 算法和 Random 算法，本文提出的 DDQN 框架通过深度挖掘干扰与分配策略之间的隐性关系，优化资源分配策略来减少信道干扰，同时通过卸载决策来减少计算延迟，使效益函数保持在较高水平。数据仿真结果表明，本文提出的 DDQN 算法具有一定的可靠性和有效性。系统吞吐量和巡检设备数量之间的关系如图 3所示，并与 DQN、MEC-U 和 Random 选择进行比系统吞吐量/(Mbi

38、ts1)巡检设备数量1520255101520253035DDQNDQNMEC-URandom 图 3 巡检设备数量对系统吞吐量的影响 Fig.3 The effect of the number of inspection equipment on the system throughput 第 21 卷第 7 期电力信息与通信技术 57 较。结果显示，系统吞吐量随巡检设备数量的增加先增加后减少，这是由于巡检设备数量较少时，系统资源得不到充分利用，网络中待传输的数据量有限，系统吞吐量在巡检设备数量达到一定数量后减少则是因网络资源有限导致信道干扰增加。DDQN算法得到的卸载

39、和资源分配策略明显优于 MEC-U和 Random 分配，通过合理选择卸载位置和高效的调度策略，可以更好地对抗信道干扰，具有优良的性能。除此之外，本文将 DDQN 与 DQN 算法分别运用到模型中，对比分析了效益函数与系统吞吐量的性能差异。可以发现，当巡检设备数量增多时，使用 DQN 算法的模型性能劣于 DDQN 算法。这是因为传统的 DQN 算法进行 Q 值更新时，DQN 总是在Target-Q 网络中选择输出最大 Q 值。当出现 Q 值被高估的情况时，算法总是选择被高估的 Q 值，长此以往会造成决策偏差。而 DDQN 算法先在estimate-Q 网络选择动作，再通过 Targe

40、t-Q 网络估计 Q 值，可以及时对策略进行修正，使得算法做出的决策更加合理，提高了模型性能。随后本文研究了系统吞吐量随子载波个数的变化，并与 Random 和文献20中的 AFSA 算法进行了比较。子载波数量对系统吞吐量的影响如图 4所示，子载波数量越多，系统吞吐量越大。这是因为当资源充足时信道之间的干扰较少，数据更倾向于在集成 MEC 服务器进行卸载，系统吞吐量增加。而本文提出的 DDQN 算法相对于 AFSA 算法和Random 算法的资源分配策略更优，系统的信道干扰更少、吞吐量更大。系统吞吐量/(Mbits1)子载波数量162028812253035456024321520405055

41、DDQNAFSARandom 图 4 子载波数量对系统吞吐量的影响 Fig.4 The effect of the number of subcarriers on the system throughput 本文研究了巡检设备数量和子载波数量对卸载策略的影响(见图 5)。数据选择在集成 MEC 服务器卸载的概率随子载波数量的增加而增加，随巡检设备数量的增加而减小。这是因为网络资源相对于通信需求较宽松时，选择集成 MEC 服务器卸载可以减少计算时延，当资源相对紧缺时，系统间的干扰增加，任务更多地选择本地卸载来减少干扰，以保证系统的可靠性和有效性。选择MEC服务器卸载的概率d 35d 25d 1

42、5巡检设备数量10152550.20.30.40.60.92000.10.50.70.8 图 5 巡检设备和子载波数量对 MEC 卸载概率的影响 Fig.5 The effect of the number of inspection equipment and subcarriers on MEC offloading probability 奖励函数随 episode 的变化如图 6 所示，可以看出 DDQN 算法可以在训练集中进行动作的选择，从而提高奖励，可以挖掘资源分配和奖励之间的隐性关系，比随机分配具有更高的奖励，展现了良好的性能。DDQNRandom奖励episode4080160

43、0.20.40.61.012000.81.21.41.60200 图 6 奖励函数随 episode 的变化 Fig.6 The change of the reward function with episode 4 结语在电力智能巡检过程中，通过 MEC 将资源下沉可以缓解核心网的压力，从而提供快捷的计算服务。本文针对巡检设备之间互联互通的需求，将 MEC 和 D2D 技术相结合，建立 D2D 辅助的MEC 网络，为了减少不同链路之间的干扰，建立了以吞吐量、功耗和计算时延为指标的 5G 资源优化模型，通过 DDQN 框架进行求解，并仿真验证了算法的有效性。后续会在此基础上对不同巡检设备的

44、数据传输进行博弈计算，并对行驶轨迹进行优化设计。58 姜华等：基于深度强化学习的 D2D 辅助 MEC 网络资源分配算法 Vol.21 No.7 参考文献 1 白杰，李志峰，白巍，等面向智能巡检业务的移动边缘计算定价卸载技术研究J电力信息与通信技术，2021，19(1)：105-110 BAI Jie，LI Zhifeng，BAI Wei，et alResearch on mobile edge computing pricing and offloading technology for intelligent inspection serviceJElectric Power ICT，20

45、21，19(1)：105-110(in Chinese)2 邓芳明，单运，解忠鑫，等基于博弈论和强化学习的无人机电力巡检卸载策略J电网技术，2021，45(9)：3649-3657 DENG Fangming，SHAN Yun，XIE Zhongxin，et al Power inspection and unloading strategy of UAV based on game theory and reinforcement learningJPower System Technology，2021，45(9)：3649-3657(in Chinese)3 苏华权，廖鹏，周昉昉，等基于

46、边缘计算的电网边缘侧设备缺陷智能识别模型研究J 电力信息与通信技术，2021，19(4)：31-37 SU Huaquan，LIAO Peng，ZHOU Fangfang，et alResearch on intelligent recognition model of grid edge-side equipment defects based on edge computingJElectric Power ICT，2021，19(4)：31-37(in Chinese)4 施孟佶，秦开宇，李凯，等高压输电线路多无人机自主协同巡线设计与测试J电力系统自动化，2017，41(10)：117-

47、122 SHI Mengji，QIN Kaiyu，LI Kai，et alDesign and testing on autonomous multi-UAV cooperation for high-voltage transmission line inspectionJAutomation of Electric Power Systems，2017，41(10)：117-122(in Chinese)5 HAN Dongsheng，SHI Tianhao Secrecy capacity maximization for a UAV-assisted MEC systemJ China

48、 Communications，2020，17(10)：64-81 6 徐思雅，邢逸斐，郭少勇，等基于深度强化学习的能源互联网智能巡检任务分配机制J通信学报，2021，42(5)：191-204 XU Siya，XING Yifei，GUO Shaoyong，et alDeep reinforcement learning based task allocation mechanism for intelligent inspection in energy InternetJJournal on Communications，2021，42(5)：191-204(in Chinese)7 W

49、ANG Mingjun，YAN ZhengA survey on security in D2D communicationsJ Mobile Networks and Applications，2017，22(2)：195-208 8 NAQVI S A R，PERVAIZ H，HASSAN S A，et alEnergy-aware radio resource management in D2D-enabled multi-tier HetNetsJIEEE Access，2018，6：16610-16622 9 LEE J，LEE J H，Performance analysis an

50、d resource allocation for cooperative D2D communication in cellular networks with multiple D2D pairsJ IEEE Communications Letters，2019，23(5)：909-912 10 FAKHFAKH E，HAMOUDA S，TABBANE SEnhanced traffic offloading with D2D communications under noise rise constraintC/2016 IEEE Symposium on Computers and

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于深度强化学习 D2D 辅助 MEC 网络资源分配算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。