基于改进深度强化学习的边缘计算服务卸载算法_曹腾飞.pdf
《基于改进深度强化学习的边缘计算服务卸载算法_曹腾飞.pdf》由会员分享,可在线阅读,更多相关《基于改进深度强化学习的边缘计算服务卸载算法_曹腾飞.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1543-1550ISSN 1001-9081CODEN JYIIDUhttp:/基于改进深度强化学习的边缘计算服务卸载算法曹腾飞*,刘延亮,王晓英(青海大学 计算机技术与应用系,西宁 810016)(通信作者电子邮箱)摘要:在边缘计算(EC)网络中,针对边缘节点计算资源和存储空间有限的问题,提出一种基于改进深度强化学习(DRL)的边缘计算服务卸载(ECSO)算法,以降低节点处理时延和提高服务性能。具体来说,将边缘节点服务卸载问题转化为资源受限的马尔可夫决策过程(MDP),利用
2、DRL算法解决边缘节点的请求状态转移概率难以精确预测的问题;考虑到边缘节点执行缓存服务的状态动作空间过大,定义新的动作行为替代原有动作,并依据提出的动作筛选算法得到最优动作集合,以改进计算动作行为奖励值的过程,进而大幅度降低动作空间大小,提高算法训练的效率以及收益。仿真实验结果表明,对比原深度Q网络(DQN)算法、邻近策略优化(PPO)算法以及传统的最流行(MP)算法,ECSO 算法的总奖励值分别提升了 7.0%、12.7%和 65.6%,边缘节点服务卸载时延分别降低了 13.0%、18.8%和66.4%,验证了算法的有效性,说明ECSO能有效提升边缘计算服务的卸载性能。关键词:边缘计算;缓存
3、服务;服务卸载;深度强化学习;动作行为奖励中图分类号:TP393;TP183 文献标志码:AEdge computing and service offloading algorithm based on improved deep reinforcement learningCAO Tengfei*,LIU Yanliang,WANG Xiaoying(Department of Computer Technology and Applications,Qinghai University,Xining Qinghai 810016,China)Abstract:To solve the p
4、roblem of limited computing resources and storage space of edge nodes in the Edge Computing(EC)network,an Edge Computing and Service Offloading(ECSO)algorithm based on improved Deep Reinforcement Learning(DRL)was proposed to reduce node processing latency and improve service performance.Specifically
5、,the problem of edge node service offloading was formulated as a resource-constrained Markov Decision Process(MDP).Due to the difficulty of predicting the request state transfer probability of the edge node accurately,DRL algorithm was used to solve the problem.Considering that the state action spac
6、e of edge node for caching services is too large,by defining new action behaviors to replace the original actions,the optimal action set was obtained according to the proposed action selection algorithm,so that the process of calculating the action behavior reward was improved,thereby reducing the s
7、ize of the action space greatly,and improving the training efficiency and reward of the algorithm.Simulation results show that compared with the original Deep Q-Network(DQN)algorithm,Proximal Policy Optimization(PPO)algorithm and traditional Most Popular(MP)algorithm,the total reward value of the pr
8、oposed ECSO algorithm is increased by 7.0%,12.7%and 65.6%,respectively,and the latency of edge node service offloading is reduced by 13.0%,18.8%and 66.4%,respectively,which verifies the effectiveness of the proposed ECSO algorithm and shows that the ECSO can effectively improve the offloading perfor
9、mance of edge computing services.Key words:Edge Computing(EC);caching service;service offloading;Deep Reinforcement Learning(DRL);action behavior reward0 引言 随着互联网与无线通信技术的发展,现代信息社会逐渐迈入了万物互联的物联网时代1。以超高清视频、虚拟现实(Virtual Reality,VR)、自动驾驶等为代表的各类新兴移动互联网业务大量涌现。根据中国互联网信息中心(China Internet Network Information
10、Center,CNNIC)发布的 第 48 次中国互联网发展状况统计报告,截至2021年6月,我国网民规模达 10.11 亿,较 2020 年 12 月增长 2 175 万,互联网普及率达71.6%,较2020年12月提升1.2个百分点2。随着用户数大幅增长,人们对于网络多媒体资源的需求也迅速增长:我国网络视频用户规模达9.44亿,较2020年12月增长1 707万。这些数字表明人们对于计算型多媒体资源的需求增多,由于云端服务器通常远离用户侧,用户从中获取计算后的数文章编号:1001-9081(2023)05-1543-08DOI:10.11772/j.issn.1001-9081.20220
11、50724收稿日期:2022-05-19;修回日期:2022-06-25;录用日期:2022-06-27。基金项目:国家自然科学基金资助项目(62101299,62162053);青海省自然科学基金资助项目(2020-ZJ-943Q)。作者简介:曹腾飞(1987),男,湖北钟祥人,副教授,博士,CCF高级会员,主要研究方向:B5G网络中的边缘计算;刘延亮(2002),男,湖南衡阳人,硕士研究生,湖南衡阳人,主要研究方向:边缘计算、强化学习;王晓英(1982),女,吉林大安人,教授,博士生导师,博士,主要研究方向:计算机网络体系结构、移动计算。第 43 卷计算机应用据往往会导致较高的时延,仅依靠
12、云服务的计算方式无法有效响应如此庞大的资源需求。因此,也诞生了一种新的计算模型边缘计算(Edge Computing,EC)3。通过将服务资源从云端迁移到边缘节点上,EC 可以有效降低时延,这使EC 成为提升计算型服务质量(Quality of Service,QoS)的一种重要方法。然而,由于当前边缘节点资源有限,通常不能在同一时隙内向区域内的所有用户提供服务,进而不能同时满足用户对于低时延的要求。因此,将云与边缘节点结合进行计算成了当前主要的研究方向。然而,由于边缘节点的资源有限,位于云端的计算型服务不能全部转移到边缘节点上,边缘节点需要自行决定应该从云端卸载哪些服务,而如何提高卸载服务效
13、率来满足低时延的要求成了当前面临的问题。相关研究者针对此类问题进行了分析4-9,但这些工作只考虑了边缘节点有限的计算资源,却未考虑到边缘节点中存储容量有限的问题,因为资源和服务需要占据实际空间,许多计算型服务需要缓存所需服务资源至边缘节点以满足用户的需求。例如,自适应视频流(Dynamic Adaptive Streaming over HTTP,DASH)10中,视频文件以多个视频块的形式存储在云端或边缘节点中,每个块以不同的码率编码,DASH 作为计算型多媒体服务,需要设计算法提升用户的体验质量(Quality of Experience,QoE)。在 DASH 中使用由客户端实现的码率自
14、适应技术(Adaptive Bitrate Streaming,ABR)算法11,将网络吞吐量等信息作为输入,输出下一视频块码率级别,视频服务应根据用户所处的网络环境从边缘节点缓存中获取合适码率的视频块提供给用户。另外,由于边缘节点存储资源有限,当大量用户从边缘节点请求流媒体服务时,将导致边缘节点的计算与存储资源负载过大等问题,因此需要同时考虑以上两者的约束条件,提升EC的服务卸载效率。近几年,深度强化学习(Deep Reinforcement Learning,DRL)12算法被广泛使用。DRL算法具有诸多优势,它能从训练的经验中学习并预测最佳行为,而且能适应不同的网络环境。最具代表性的深度
15、强化学习算法为深度 Q 学习13。尽管已经有将深度 Q 学习应用到 EC 的相关工作14-15,但仍无法解决因动作空间过大以及存在非法动作导致的模型总体收益降低等问题。本文将计算型服务卸载问题建模为马尔可夫决策过程(Markov Decision Process,MDP),在实现深度Q网络(Deep Q-Network,DQN)16算法的基础上降低算法的动作空间大小,并提出了基于改进深度强化学习的边缘计算服务卸载(Edge Computing and Service Offloading,ECSO)算法。本文主要工作如下:1)将边缘计算服务卸载问题建模为存储空间以及计算资源限制的 MDP,同时
16、将算法在边缘计算服务卸载中节省的时间消耗视为奖励。但由于本问题中的概率转移矩阵在实际情况下难以实现,需要进一步在 MDP 基础上实现深度强化学习算法。2)提出了基于改进深度强化学习的 ECSO 算法。相较于原DQN算法,本文提出了一种新的动作行为,规避了非法动作,优化了动作空间的大小,进而提升了算法的训练效率;同时,本文运用动态规划的思想提出了动作筛选算法,针对单一服务的动作进行筛选与组合,以便得到理论收益最大的最优动作集;并通过本文提出的动作筛选算法得到最优动作集,进而通过比例的方式梯度下降更新网络参数,优化算法决策。3)将 ECSO 算法分别与 DQN、邻近策略优化(Proximal Po
17、licy Optimization,PPO)17以 及 最 流 行(Most Popular,MP)18算法进行仿真实验对比。结果表明本文ECSO算法能显著降低边缘计算处理时延,相较于 DQN、PPO 以及 MP 算法,ECSO的算法奖励值分别提升了7.0%、12.7%和65.6%,边缘计算传输时延分别降低了13.0%、18.8%和66.4%。1 相关工作 边缘计算服务卸载作为边缘计算的一个重要领域,近年来被人们广泛关注。部分研究者将这类问题视为 MDP,利用最优化方法进行求解。文献 4 中提出了一个由用户和网络 运 营 商 联 合 通 信 计 算(Joint Communication Co
18、mputing,JCC)资源分配机制组成的综合框架,在提供优质通信的同时最小化资源占用;文献 5 中提出了一种用于分配资源的框架,该框架结合了通信以及计算要素来解决移动边缘云计算服务的按需供应问题;文献 6 中提出了一种基于强化学习 的 状 态/动 作/奖 励/状 态/动 作(State-Action-Reward-State-Action,SARSA)算法,以解决边缘服务器中的资源管理问题,降低系统成本,并作出最佳的卸载决策;文献 7 中探究了 DQN 及 PPO 算法在基于多输入多输出(Multiple-Input Multiple-Output,MIMO)的 移 动 边 缘 计 算(Mo
19、bile Edge Computing,MEC)系统中的计算型服务卸载问题,目标是在随机系统环境下最大限度地降低移动设备的功耗及卸载延迟;文献 8 中提出了一种深度强化学习方法将任务分配到不同的边缘服务器进行处理,以便将包括计算服务延迟和服务故障损失在内的服务成本降至最低;文献 9 中针对车联网中车对外界的信息交换(Vehicle to Everything,V2X)网络的资源分配问题进行研究,并使用 Double DQN 来解决资源分配问题。然而,这些工作都基于一个未定的假设边缘节点能卸载并执行所有类型的计算型任务。事实上,边缘节点的存储空间通常有限,并且各服务缓存策略并不一致,因而在实际中
20、很难有效地应用。而对于这类服务卸载问题来说,云服务器与边缘节点任务的分配效率以及多媒体的QoS是需要考虑的,例如,文献19 中提出了一种名为 BitLat的 ABR 算法以提高用户在线视频的 QoS。而基于资源受限的 MDP建模的服务卸载问题在很多情况下属于NP-hard问题20,常规的搜索方法已经不适用于解决此类问题,因而近年来不断有学者针对边缘节点的服务卸载问题提出优化理论,并取得了不错的效果。文献21 针对移动边缘计算上的在线计算与服务卸载问题,使用适应性遗传算法(Adaptive Genetic Algorithm,AGA)优化深度强化学习的探索过程,相较于对比算法,它所提出的DRGO
21、 算法能更快地收敛并得到更好的卸载策略。文献22 针对5G边缘网络中的计算服务卸载问题,提出了一种高效可靠的多媒体服务优化机制,并利用博弈理论对问题进行求解,有效提升了网络传输性能。文献 23 中通过扩宽服务缓存的作用,实现了一种基于缓存服务和计算卸载的联合优化算法;但该算法假定计算型服务是可分割的,而本文假定每个计算型服务为最小单元,并通过增加服务数量来表示它是可分割的,改进文献 23 的算法以解决本文的问题。因此,不同于以上工作,本文提出了一种基于改进深度强化学习的DRL算法ECSO算法。通过对边缘节点可用存储资源及计算资源加以限制,并基于 MDP 模型实现 DRL算法,以解决状态概率转移
22、难以预测的问题;同时,基于本文给出的动作筛选算法得到最优动作集,降低算法动作空间的大小,进一步优化算法决策过程,进而满足边缘计算服务卸1544第 5 期曹腾飞等:基于改进深度强化学习的边缘计算服务卸载算法载过程中对低时延的要求。2 服务卸载模型 本章将分别介绍系统模型、MDP以及边缘服务卸载的定义和描述。2.1系统模型在本文的模型中,边缘节点有着计算资源F以及存储空间C,计算资源F用于服务计算,存储空间C用于缓存服务数据。本文定义计算型服务集合为=1,2,K,时隙集合为=1,2,T。每个服务都有两个属性(ck,fk),分别表示此服务所需空间以及此服务所需计算资源,假定每个单独的服务都是不可分割
23、的。本文设定单一k服务带来的下载时延为tdownk,边缘节点使单一k服务减少的传输时延为tdtransk;用户发送请求到边缘节点的传输时延定义为tuplinkk,由于边缘节点算力有限,因而会带来额外的执行时延texeck。设定t时隙服务k的请求数量为dtk,dtk为用户对单一服务k的请求提供数量,表明当边缘节点提供单一服务k时,多个用户请求服务k这一类服务。本文定义的环境存在实际应用,例如,当社会热点新闻出现时,会引发大量用户关注,此时多个用户将请求相同的数据内容,当边缘节点缓存这类数据内容时,就可以直接向这些用户提供服务18。边缘节点不会缓存不在本地提供的服务,每一时隙边缘节点采取不同的策略
24、来进行服务卸载,且单一时隙内总能完成回传数据的任务。系统模型如图1所示,本文的目标是解决单个边缘节点的边缘计算服务卸载问题。在该模型中,边缘节点拥有相应的计算资源以及存储资源,并且边缘节点可以记录所有服务。系统模型中存在两类过程:服务卸载过程以及边缘计算过程。在服务卸载过程中,当边缘节点未缓存k服务时,从云端下载相关数据需要的下载时延为tdownk;若边缘节点满足服务k的需求且可以提供服务时,用户无须再上传数据至云端计算,而只需向靠近用户侧的边缘节点发送指定服务的卸载请求数据,这个过程的时延为tuplinkk,整个过程消耗存储空间ck,完成服务卸载过程。而在边缘计算过程中,当边缘节点向用户提供
25、已完成卸载的服务时,消耗计算资源fk,并消耗执行时延texeck完成计算。由于边缘节点靠近用户侧,当边缘节点卸载计算型服务时,边缘节点可降低的传输时延为tdtransk,完成边缘计算过程。此时如果针对单一服务k有多个服务请求时,则需要分别向多个用户提供计算型服务k,因此资源消耗也会增加,同时累计降低的传输时延也会增加。2.2马尔可夫决策过程在此系统模型中,本文将边缘计算服务卸载问题建模为MDP,下面将分别介绍状态空间、动作空间以及奖励方法。2.2.1状态空间状态是对当前系统环境的描述,而状态空间是所有可能状态的集合。在本文定义的问题中,状态是时隙开始时的系统状态,系统状态由缓存状态和请求状态组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 深度 强化 学习 边缘 计算 服务 卸载 算法 腾飞
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。