基于深度强化学习的D2D辅助MEC网络资源分配算法.pdf
《基于深度强化学习的D2D辅助MEC网络资源分配算法.pdf》由会员分享,可在线阅读,更多相关《基于深度强化学习的D2D辅助MEC网络资源分配算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 21 卷 第 7 期 电 力 信 息 与 通 信 技 术 Vol.21 No.7 2023 年 7 月 Electric Power Information and Communication Technology Jul.2023 中图分类号:TP301 文献标志码:A 文章编号:2095-641X(2023)07-051-08 DOI:10.16543/j.2095-641x.electric.power.ict.2023.07.07 著录格式:姜华,杨家伟,黄巍,等基于深度强化学习的 D2D 辅助 MEC 网络资源分配算法J电力信息与通信技术,2023,21(7):51-58 基于深
2、度强化学习的 D2D 辅助 MEC 网络 资源分配算法 姜华1,杨家伟2,黄巍3,黄成斌1,丛犁1,李思佳2,陈智雄2(1国网吉林省电力有限公司 信息通信公司,吉林省 长春市 130000;2华北电力大学 电子与通信工程系,河北省 保定市 071003;3国网长春市供电公司,吉林省 长春市 130021)A D2D-assisted MEC Network Resource Allocation Algorithm Based on Deep Reinforcement Learning JIANG Hua1,YANG Jiawei2,HUANG Wei3,HUANG Chengbin1,CO
3、NG Li1,LI Sijia2,CHEN Zhixiong2(1.Information and Communication Company,State Grid Jilin Electric Power Co.,Ltd.,Changchun 130000,Jilin Province,China;2.Department of Electronic and Communication Engineering,North China Electric Power University,Baoding 071003,Hebei Province,China;3.State Grid Chang
4、chun Power Supply Company,Changchun 130021,Jilin Province,China)摘要:利用多接入边缘计算(multi-access edge computing,MEC)和终端直传通信(Device to Device,D2D)技术,可以提升电力智能巡检中传感数据传输和处理的能力,但需要解决频谱复用和干扰条件下的网络资源优化分配问题。针对 D2D 辅助的 MEC 网络,文章提出了一种基于深度强化学习的资源联合优化分配算法。首先在频道复用与干扰、功率和计算等资源约束条件下,分析了 D2D 辅助的 MEC 网络的终端容量、功耗和时延计算方法;然后综合
5、考虑吞吐量、功耗和时延等指标要求,建立了基于综合效益函数最大化的资源优化分配模型;最后采用深度强化学习算法实现任务卸载和资源分配的联合优化。仿真结果表明,该算法可有效提升系统容量和任务卸载的综合性能。关键词:5G 资源分配;D2D 通信;MEC;深度强化学习 ABSTRACT:Multi-access edge computing(MEC)and device to device(D2D)technologies can be used to improve the capability of sensing data transmission and processing in power
6、intelligent inspection.However,the problem of optimal allocation of network resources under spectrum reuse and interference should be solved.For D2D-assisted MEC networks,this paper proposes a joint optimal resource allocation algorithm based on deep reinforcement learning.Firstly,the terminal capac
7、ity,power consumption and delay calculation methods of D2D-assisted MEC networks are analyzed under the constraints of channel multiplexing and interference,power and computation.Secondly,considering the requirements of throughput,power consumption and delay,a resource optimal allocation model based
8、 on comprehensive utility function maximization is established.Deep reinforcement learning is used to realize the joint optimization of task offloading and resource allocation.Simulation results show that the proposed algorithm can effectively improve the comprehensive performance of system capacity
9、 and task offloading.KEY WORDS:5G resource allocation;D2D communication;MEC;deep reinforcement learning 0 引言 随着智能电网的发展,利用 5G 和机器学习算法实现变电站智能化、高效巡检具有重要的实际意义。其中,终端直传通信(device to device,D2D)和多接入边缘计算(multi-access edge computing,基金项目:国网吉林省电力有限公司 2022 年科技项目“变电站 5G传输特性与接入能力研究”。MEC)等关键技术1-3可有效提升 5G 服务智能电网的能力
10、,但需要解决 D2D 频谱复用和干扰条件下的通信资源优化分配问题。MEC 可在靠近终端设备的无线接入网内提供计算能力。应用程序和服务在移动网络的边缘运行,减少了服务延迟和移动核心网络其他部分的拥塞。施孟佶等人基于云计算和边缘计算提出了 52 姜华等:基于深度强化学习的 D2D 辅助 MEC 网络资源分配算法 Vol.21 No.7 带电作业机器人智能管控方法4,通过设置变电站带电作业机器人工作的典型场景,实例验证了提出的智能控制方法可以满足变电站任务的计算能力要求。文献5使用无人机作为边缘节点辅助进行物联网设备任务卸载和中继,通过联合优化无人机位置、任务卸载率和卸载用户分配获得最大系统安全容量
11、。文献6基于深度强化学习对智能巡检任务分配机制进行训练,从而降低时延和能耗。以上的MEC 策略卸载只针对卸载位置和计算能力对卸载时延和能耗进行了优化,没有考虑通信资源的分配和优化问题。针对变电站传输环境的复杂性、数据及其卸载方式的多样化问题,需要研究高效的无线资源分配和调度机制,以满足数据卸载时互不干扰、稳定可靠传输的需要。D2D 通信通过频谱资源复用,获得临近增益和信道复用增益,从而提高 5G 通信网络的数据传输效率,满足设备并发接入的需要7。但在网络中进行 D2D 传输会对其他 D2D 链路造成严重干扰,因此,研究一种高效的通信资源匹配算法对 D2D 技术的应用具有重要意义8。分布式资源分
12、配方法可以减少信令开销,降低基站的计算负荷,很好地解决大型复杂通信网络的通信资源优化问题,但 D2D用户之间存在频繁的信息交换,需要复杂的优化算法以确保可靠的 D2D 通信。文献9针对上行链路蜂窝网络中的协作 D2D 通信资源优化问题,在中断概率约束条件下,以总平均可达速率最大化为目标,对频谱和功率资源进行优化分配。Emna Fakhfakh 等人10提出了一种基于新标准的 D2D 模式选择方案,通过引入与资源分配相关的噪声参数,最大限度地提高系统吞吐量和蜂窝流量卸载。文献11和12采用博弈论,研究了认知 D2D 网络能效最大化的资源分配问题,在用户通信干扰门限约束下实现能效和谱效的均衡。文献
13、13采用进化理论研究 D2D 用户接入蜂窝网络的模式和资源分配问题,实现了 D2D 总用户数据速率最大。以上资源优化方法在数据量较小时可以获得最优解,当系统资源数量较多时,算法求解复杂度加大。此外,资源配置问题往往被建模为带有非线性约束的组合优化问题,传统的优化方法难以实现有效优化,针对这类资源优化问题深度强化学习往往更具优势。MEC 为满足巡检机器人爆发式增长的通信和计算需求提供了一种有前景的架构,但考虑到 5G变电站场景中组网环境复杂、频谱资源受限等问题,利用 D2D 通信辅助 MEC 卸载,可通过频谱资源复用提高 MEC 网络数据传输效率。如何解决 MEC 系统网络无线资源优化分配和调度
14、,同时克服 D2D 通信带来的同频干扰问题,是实现巡检设备可靠传输和网络资源高效利用的关键,也是本文研究的重点。针对上述问题,本文提出了一种 D2D 辅助的MEC网络卸载算法,在实现MEC多级卸载的同时,利用 D2D 通信技术实现通信资源的复用和分布式调度。为实现最优的卸载选择和资源分配,建立了联合网络吞吐量、功耗和计算时延等指标的系统效益函数,该函数受链路干扰和功率约束。最后采用基于深度双 Q 网络(double deep Q-network,DDQN)的深度强化学习框架实现 5G 资源块分配和计算卸载的联合优化,实现网络吞吐量最大化,尽可能降低计算时延。1 D2D 辅助 MEC 网络的系统
15、模型 1.1 系统模型 D2D 辅助的 MEC 网络模型如图 1 所示,带有集成 MEC 服务器的基站范围内存在某变电站,变电站内 M 个巡检设备配合完成巡检工作,对应有 M条设备到基站(device to base station,D2B)链路,设备和 D2B 链路集合定义为1,2,mM。巡检设备可通过 D2D 通信方式获取其他巡检设备的位置信息,巡检设备采集传感数据,可以选择在本地设备或卸载至基站(D2B 链路)进行处理。在基站处的干扰更可控,上行链路资源使用更少,因此假设每条消息都有 1 组接收器,D2B 链路的上行链路频谱与 D2D 链路进行复用。D2B链路D2D链路巡检设备带有MEC
16、服务器的基站 图 1 D2D 辅助的 MEC 网络模型 Fig.1 D2D-assisted MEC network model 无线资源的分配分为时域和频域 2 个维度。时域维度主要是每个传输时间间隔(transmission time 第 21 卷 第 7 期 电 力 信 息 与 通 信 技 术 53 interval,TTI)上的资源分配。在频域维度上,将总带宽划分为若干个等带宽子信道,需要进行子频道的分配。单个 TTI 与单个子信道构成系统资源块(resource block,RB),是设备数据传输时需要的最小无线资源单元。因此,对 D2B 链路的干扰来自背景噪声和来自共享同一子带的
17、D2D 链路信号。在已知发射功率和噪声功率2的条件下,第 m个D2B链路的信干噪比m与D2D链路的频谱资源分配密切相关,可以表示为:2D,mmmk mkkk KP hP h (1)式中:K=1,2,M(M1)/2,表示所有可能的链路集合;Pm和DkP分别表示第 m 条 D2B 链路和第 k条 D2D 链路的传输功率;hm为对应第 m 个 D2B 信道的功率增益,hk为第 k 条 D2D 链路的干扰功率增益;,k m为信道复用系数,当第 k 个 D2D 链路重复使用第 m 个 D2B 链路的频谱时,,1k m,否则,0k m。根据信干噪比表达式,第 m 个 D2B 链路容量mC为:2log(1)
18、mmCw(2)式中,w 为子信道带宽。同理,对于第 m 个巡检设备的第 i 个接收机,其信干噪比D,m i表示为:D,D,2Dm im im iPg (3)式中:D,m iP为第m个巡检设备的第i个接收机的传输功率;,m ig为第m个巡检设备的第i个接收器的功率增益;2为接收到的噪声功率;为复用同一RB 的 D2B 链路的干扰功率;D为所有 D2D 链路共享相同 RB 的总干扰功率。式(3)中的可表示为:,nm innn MP g (4)式中:,nm i为频谱复用系数,,nm i=1 表示第n个 D2B链路和第m个巡检设备的第i个接收器共享同一频谱,否则,nm i=0;ng为第n个 D2B 链
19、路的干扰功率增益;nP为 D2B 链路传输功率。式(3)中的D可表示为:DDD,j mm ij mj mj M mM mjPg(5)式中:D,j mP是第j个巡检设备到第m个巡检设备的D2D 链路传输功率;D,j mg是第j个巡检设备到第m个巡检设备的 D2D 链路干扰功率增益;,j mm i表示频谱复用系数,,j mm i=1 表示第j个巡检设备的第m个接收机和第m个巡检设备的第i个接收器使用相同的频谱资源,否则,j mm i=0。最终,第m个巡检设备的第i个接收机的容量可表示为:DD,2,log(1)m im iCw(6)根据网络数学模型,D2D 技术通过频谱复用提高了资源的利用率,但也不
20、可避免地带来了链路干扰。因此,在满足 D2B 链路的速率和时延约束条件下,要尽可能提升 D2D 链路的质量。综合考虑 D2D和 D2B 链路,D2D 辅助的 MEC 网络吞吐量C可以表示为:D.11MMmm immiCCC (7)式中:mC为第m个 D2B 链路容量;D.m iC为第m个巡检设备的第i个接收机的容量。1.2 系统能耗和计算模型 巡检设备大多是功率受限的,因此需要考虑MEC 任务计算和卸载的功耗。由于集成 MEC 服务器部署在网管中心且是有源的,可忽略 MEC 服务器的功耗限制,本文重点计算巡检设备的功耗。定义 D2D 设备电路功耗为P,D2D 设备的传输功耗为DkP,计算功耗为
21、cmP,则 MEC 系统的总功耗E与 D2D 巡检设备的各种功耗直接相关,可表示为:Dc111MKMmkmmkmMPEPPP (8)处理时延是任务处理的另一个关键指标,与巡检设备或服务器的计算资源密切相关,计算资源越多,处理时延越小。任务卸载主要分为 2 个层次,分别为 D2D 设备本地卸载和集成 MEC 服务器卸载。对比本地卸载,集成服务器端的供能和计算能力较强,本文算法优化时重点考虑本地卸载产生的计算时延和功耗14。定义m为计算时延,则当任务在本地进行计算时,处理时延为:mmmmuf (9)式中:mu为本地计算数据量;m为 D2D 设备的计算复杂度,即处理 1 bit 数据所需中央处理器周
22、期数;mf表示 D2D 巡检设备的 CPU 频率。根据本地计算量和巡检设备的 CPU 参数,可计算设备任务卸载时的功耗cmP为15:c2mmmmmPu f (10)54 姜华等:基于深度强化学习的 D2D 辅助 MEC 网络资源分配算法 Vol.21 No.7 式中:m表示开关电容因子;m为系数因子。1.3 资源优化分配模型 考虑到 D2D 巡检设备电池容量的限制,其发射功率不能无限大,因此传输功率满足如下约束:Dmax,1,Mmm mmmmmPPP(11)式中:Pm表示第m条 D2B 链路传输功率;D,m mP为第m个巡检设备的第m个接收机的传输功率;maxmP为第m个 D2D 巡检设备能提
23、供的最大发射功率。此外,由于干扰功率会对 D2D 设备造成影响导致传输中断,影响通信质量,在资源分配的过程中还需要满足干扰功率的约束:DDth,.,j mm ij mj mm ij M mM mjPgI(12)式中,th,m iI表示信道所能容忍的峰值干扰功率,其他变量的含义与式(5)相同。从智能巡检数据传输和任务执行角度考虑,本文的资源优化算法需要在功率和干扰等基本约束条件下,提升 D2D 辅助的 MEC 网络吞吐量,并通过合理的任务卸载和资源分配算法保证传感数据的计算时延最小。因此,综合考虑吞吐量、能耗和时延等指标要求,建立了基于综合效益函数最大化的资源优化分配模型,如下所示:,.D.11
24、1,Dc111Dmax,1,DDth,.,max k mj mm iMMMmm immmimMKMmkmmkmMmm mmmmmj mm ij mj mm ij M mM mjCCHMPPPMPPPPPgI(13)由于容量、功耗和时延等指标的取值范围不同,度量存在差异,在优化求解的过程中需要进行归一化处理。对原始数据x进行归一化后得到结果x),具体方法为:2maxmid2max2maxmaxmidmidmax2maxmaxmid(),01()()1,1()xxxxxxxxxxxxxxxxxx)(14)式中:maxx为数据最大值;midx为数据最大值的一半。上述优化问题是一个混合整数非线性规划问
25、题,同时多个优化变量互相耦合,即使在所有统计分布下也很难使用传统的凸优化方案进行求解。此外,观测值与最优资源分配解之间的关系往往是隐式的,难以用解析方法建立。因此,本文提出一种基于深度强化学习(deep reinforcement learning,DRL)框架的卸载决策优化和资源分配算法,利用观测值与最优资源分配之间的隐式关系,实现状态和系统进行在线交互。2 基于 Double DQN 的资源优化方案 2.1 DDQN 算法 深度强化学习综合强化学习的决策能力和深度神经网络强大的数据分析能力16-18,可以解决Q-Learning 算法中当状态空间较大时带来的维度爆炸问题。其数学表示为:DQ
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 强化 学习 D2D 辅助 MEC 网络资源 分配 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。