换一换

咨信网 > 资源分类 > PDF文档下载

预览

自信AI助手

自信AI导航

基于强化学习的异构网络垂直切换方法.pdf

资源ID：639571 资源大小：2.45MB 全文页数：9页
资源格式： PDF 下载积分：10金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

开通VIP

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

声明 | 会员权益获赠5币写作

1、填表： 下载求助索取发票退款申请

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

基于强化学习的异构网络垂直切换方法.pdf

1、第2卷第3期2 0 2 3年5月信息对抗技术I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g yV o l.2 N o.3M a y 2 0 2 3引用格式:丁雨,李晨凯,卢为党,等.基于强化学习的异构网络垂直切换方法J.信息对抗技术,2 0 2 3,2(3):3 5-4 3.D I NG Y u,L I C h e n k a i,L U W e i d a n g,e t a l.V e r t i c a l h a n d o v e r f o r h e t e r o g e n e

2、o u s n e t w o r k s b a s e d o n d e e p r e i n f o r c e m e n t l e a r n i n gJ.I n f o r m a t i o n C o u n t e r-m e a s u r e T e c h n o l o g y,2 0 2 3,2(3):3 5-4 3.(i n C h i n e s e)基于强化学习的异构网络垂直切换方法丁雨1,李晨凯1,卢为党1*,张清清1,任元红2,高原3(1.浙江工业大学信息工程学院,浙江杭州 3 1 0 0 2 3;2.北方自动控制技术研究所,山西太原 0 3

3、0 0 0 6;3.中国人民解放军军事科学院,北京 1 0 0 0 9 1)摘要网络切换技术不仅可以保证用户的网络连接,同时能够以较强的信号传输网络数据。网络切换技术的性能对网络服务质量(q u a l i t y o f s e r v i c e,Q o S)的影响至关重要。然而,现有的切换算法多数存在严重的乒乓效应,这不仅造成网络资源的严重浪费,还会损害用户的Q o S。为此,提出了一种基于强化学习的异构网络垂直切换方案,主要从触发切换、网络选择及判决切换等方面进行优化。在触发切换时将垂直切换考虑成必要切换和择优切换,通过Q-L e a r n i n g(Q L)算法在选择网络时优

4、化垂直切换;然后以Q o S为条件,在判决切换时加入驻留定时器,从多角度减少用户切换次数,降低乒乓效应对异构网络垂直切换的影响。仿真结果表明,基于强化学习的异构网络垂直切换方法可以在保证Q o S的条件下有效减少用户切换网络的次数,短时间内频繁切换的情况也有所改善,降低了乒乓效应的影响。关键词垂直切换;网络选择;判决切换;服务质量;异构网络中图分类号 TN 9 2 5 文章编号 2 0 9 7-1 6 3 X(2 0 2 3)0 3-0 0 3 5-0 9文献标志码 A D O I 1 0.1 2 3 9 9/j.i s s n.2 0 9 7-1 6 3 x.2 0 2 3.0 3.0 0

5、 3V e r t i c a l h a n d o v e r f o r h e t e r oge n e o u s n e t w o r k s b a s e d o n d e ep r e i n f o r c e m e n t l e a r n i ngD I N G Y u1,L I C h e n k a i1,L U W e i d a n g1*,Z HA N G Q i n g q i n g1,R E N Y u a n h o n g2,G A O Y u a n3(1.C o l l e g e o f I n f o r m a t i o n E

6、 n g i n e e r i n g,Z h e j i a n g U n i v e r s i t y o f T e c h n o l o g y,H a n g z h o u 3 1 0 0 2 3,C h i n a;2.N o r t h A u t o m a t i c C o n t r o l T e c h n o l o g y I n s t i t u t e,T a i y u a n 0 3 0 0 0 6,C h i n a;3.A c a d e m y o f M i l i t a r y S c i e n c e s o f t h e P

7、 L A,B e i j i n g 1 0 0 0 9 1,C h i n a)A b s t r a c t N e t w o r k h a n d o v e r t e c h n o l o g y c a n n o t o n l y e n s u r e t h e n e t w o r k c o n n e c t i o n o f u s e r s,b u t a l s o t r a n s m i t n e t w o r k d a t a w i t h s t r o n g s i g n a l s.T h e p e r f o r m a

8、 n c e o f n e t w o r k h a n d o v e r h a s a c r i t i c a l i m p a c t o n t h e q u a l i t y o f s e r v i c e(Q o S).H o w e v e r,m o s t o f t h e e x i s t i n g h a n d o v e r a l g o r i t h m s h a v e s e r i o u s p i n g-p o n g e f f e c t,w h i c h m a y c a u s e a w a s t e o

9、f n e t w o r k r e s o u r c e s a n d d a m a g e t h e Q o S.T h e r e f o r e,a v e r t i c a l h a n d o v e r s c h e m e f o r h e t e r o g e n e o u s n e t w o r k s b a s e d o n r e i n f o r c e m e n t l e a r n i n g w a s p r o p o s e d,w h i c h w a s m a i n l y o p t i m i z e d

10、f r o m t h e a s p e c t s o f t r i g g e-r i n g h a n d o f f,n e t w o r k s e l e c t i o n a n d d e c i s i o n h a n d o v e r.S p e c i f i c a l l y,t h e n e c e s s a r y a n d t h e p r e f e r r e d h a n d o v e r w e r e c o n s i d e r e d f o r t h e v e r t i c a l h a n d o v e

11、r w h e n t h e h a n d o v e r w a s t r i g-g e r e d.T h e n,t h e v e r t i c a l h a n d o v e r w a s o p t i m i z e d w h e n t h e n e t w o r k t h r o u g h Q-L e a r n i n g(Q L)w a s s e l e c t e d.B a s e d o n Q o S,t h e r e s i d e n t t i m e r w a s a l s o a d d e d w h e n d e

12、c i-收稿日期:2 0 2 3-0 3-1 1 修回日期:2 0 2 3-0 4-1 0通信作者:卢为党,E-m a i l:l u w e i d z j u t.e d u.c n基金项目:国家自然科学基金资助项目(6 2 2 7 1 4 4 7,6 1 8 7 1 3 4 8)信息对抗技术2 0 2 3年d i n g t h e h a n d o v e r t o r e d u c e t h e n u m b e r o f u s e r h a n d o v e r f r o m m u l t i p l e a n g l e s a n d r e

13、d u c e d t h e i m p a c t o f p i n g-p o n g e f f e c t o n t h e p r o p o s e d v e r t i c a l h a n d o v e r o f h e t e r o g e n e o u s n e t w o r k s.S i m u l a t i o n r e s u l t s h a v e s h o w n t h a t t h e p r o p o s e d v e r t i c a l h a n d o v e r s c h e m e f o r h e

14、t e r o g e n e o u s n e t w o r k s c o u l d e f f e c t i v e l y r e d u c e t h e n u m b e r o f t i m e s f o r h a n d o v e r,i m p r o v e t h e s i t u a t i o n o f f r e q u e n t h a n d o v e r i n a s h o r t t i m e,a n d r e d u c e t h e i m p a c t o f t h e p i n g-p o n g e f

15、f e c t w h i l e e n s u-r i n g t h e q u a l i t y o f s e r v i c e.K e y w o r d s v e r t i c a l h a n d o v e r;n e t w o r k s e l e c t i o n;d e c i s i o n h a n d o v e r;Q o S;h e t e r o g e n e o u s n e t w o r k 0 引言无线接入为传统无线通信网络带来了蓬勃发展的机会,出现具有不同特性的网络,用来服务于特定的应用场景1。用户对于无线通信网络的服务质量(

16、q u a l i t y o f s e r v i c e,Q o S)有个性化和多样化的需求,这对目前仅提供有限服务的单一无线网络产生了较大挑战2-3。异构网络由多种类型的网络系统组成,在异构网络中,各种通信技术互相融合、补充和促进,因而在提供更多网络连接的同时,有效满足多样化的Q o S4-6。然而在一些特殊场景,例如山区、地震及洪水发生地周围,由于铺设固定基站难度大、成本高,因此需要采取更加灵活、操控简单的方法来提供网络服务。移动式无人机可以作为网络基站载体,具有快速部署的优势,能够在这些特殊场景下提供网络连接7-1 0。文献8 指出无人机具有视距传输效率高以及高度等可控的优势,为无

17、线网络展现新的设计自由度,在其研究中考虑了信道状态信息的过时性,探讨了无人机通信异构网络的切换问题。文献9 指出无人机网络融入异构网络中为未来天地一体化通信提供了重要研究方向。文献1 0 引入平均服务成功概率来衡量无人机通信异构网络传输性能。在异构网络中,多种类型网络并存,用户有较大可能处于同时被多种类型网络覆盖且可使用的情况1 1。用户可能因为移动而需要切换网络,也有可能期望获得更好的Q o S或更低成本等目的而切换网络1 2-1 3。网络切换中不同网络之间的切换为垂直切换1 4-1 8。文献1 5 提出了一种改善用户体验质量的垂直切换算法来解决由异构网络的超高动态性引起掉话率增长的问题。文

18、献1 6 提出了一种考虑负载均衡和用户体验的垂直切换算法来为服务用户选出当前状态满意度最高的目标网络,从而有效缓解网络拥塞。文献1 7 通过提出的基于信道预留以及剩余带宽的切换网络方法实现网络接入概率的目的,提出了一种基于网络剩余带宽和信道预留的切换策略,其仿真结果表明该切换网络的策略无论是对于实时的还是非实时的业务,网络接入概率都可以获得提升。文献1 8 指出用户对网络的偏好和对网络性能的需求日益增长,提出根据用户对网络的偏好和对网络性能需求的异构网络切换方法,其可以为用户在众多不同网络中切换并连接到适合它的网络。在异构网络切换判决中,如果所用切换判决机制对网络环境的微小变化太过敏感,容易导

19、致乒乓效应。乒乓效应是指在网络中,2个或多个通信节点之间的信息传输在较短时间内来回反弹,形成一种来回的“乒乓”现象。这样的过程会占用大量的网络带宽和处理能力,导致网络拥塞和性能下降,同时也会导致网络中出现过多的控制信息、传输延迟增加、带宽利用率低下等问题,从而降低用户的Q o S体验,浪费网络资源。多数研究为减少乒乓效应的影响,在目标网络已确定的情况下判决是否继续切换以及切换时间,从而达到异构网络切换的无缝连接1 9-2 0。文献1 9 使用层次分析法来确定标准权重大小,通过多属性对网络进行决策。文献2 0 根据移动用户状态,动态调整驻留定时器时间长短来避免不必要的切换网络动作。强化学习通过与

20、环境交互学习来实现最大化回报的目标,广泛应用工业控制、无线通信、智慧交通以及智慧医疗等各方面,在网络切换中受到极大关注2 1。文献2 1 在选择网络时采用强化学习方法,基于性价比和博弈论的价格策论,通过神经网络学习和探寻满足纳什均衡条件的策略来确定选择网络。目前的研究大多仅考虑信号接收强度为触63第3期丁雨,等:基于强化学习的异构网络垂直切换方法发切换和判决切换的标准,并只在判决切换方面进行优化,忽略了Q o S对切换网络的作用和影响。此外,乒乓效应也可能导致严重后果。为此,本文提出一种基于强化学习的异构网络垂直切换方案,主要从触发切换、网络选择及判决切换等方面进行优化。1 系统模型考虑一

21、个如图1所示的异构网络切换系统模型,其中包括W i-F i、5 G无人机网络、5 G C P E网络以及多个移动的地面用户。5 G C P E网络由其中一个地面用户携带,而5 G无人机网络和W i-F i同时搭载在无人机身上。在该异构网络切换系统中,M个用户由于N种类型的业务请求需与网络连接通信。图1 异构网络切换系统F i g.1 H e t e r o g e n e o u s n e t w o r k h a n d o v e r s y s t e m在该异构网络切换系统中,用户由于移动,其位置不断变化。用户在初始时随机分布在异构网络切换系统的阴影部分内,随后用户将随机发生移动,

22、他们可能会频繁跨越网络边界,导致触发垂直切换。地面用户由于N种类型业务请求需连接网络。假设用户当前被r(r3)个网络覆盖,当用户需要请求网络服务时,它可以从这r个网络中选择一个进行连接,来享受该网络提供的服务。由于用户处于移动的状态,当用户位置发生变化,使其不再被原来服务的网络所覆盖或是其追求更好的Q o S时,此时用户可以进行异构网络的垂直切换,与当前网络断开连接,与覆盖它的其他网络连接通信。在此异构网络切换系统中,用户同一时间不被允许与多个网络进行连接,只能与某一个网络连接。同时,考虑这3个网络的负载上限TT L1,TT L2,TT L3 ,当某一网络已经接入的用户数量达到负载上限时,表示

23、该网络无法再接受新的连接请求。此时,用户只能尝试连接其他网络。2 异构网络垂直切换算法在基于强化学习的异构网络垂直切换算法中,分别从触发切换、选择网络和判决切换进行优化,从多角度减少用户切换次数,减少乒乓效应对提出异构网络的垂直切换影响。2.1 触发切换用户在移动过程中触发切换大致有以下原因:由于用户移动导致网络覆盖问题;网络在均衡负载时而使得用户切换网络;当用户期望获得更好的Q o S,如期望更低能耗、更低资费等。为了使用户在接受网络服务时减少非必要切换的次数,将切换分成择优切换和必要切换。其中,择优切换表示此时正在连接的网络服务稳定,但用户由于自身原因为了实现更好的Q o S而切换网络,其

24、条件描述为:此时正在连接的网络供应的Q o S不是该用户所有可以接入网络的最佳Q o S。必要切换表示此时正在连接的网络无法继续使用,用户为了保持正常的网络通信与数据传输而切换网络,其条件描述为:此时连接的网络接收信号强度R S S无法达到最小门限值。触发必要切换时,R S S表示为:RR S Sd B =Gr+Gt+Pt-Ls h a d o w-L(1)式中,Gr和Gt分别是基站发射和用户接收的传播增益,Pt是基站发射功率,Ls h a d o w和L分别是阴影衰弱和路径损耗。W i-F i的路径损耗表示为:Ld B =2 0 l g f+2 6 l g d+4

25、2.6(2)式中,f和d分别为传输频率(MH z)和基站与用户的距离(k m)。5 G C P E和5 G无人机网络的路径损耗表示为:Ld B =3 3.9 l g f+4 4.9-6.5 5 l g hB l g d +4 6.3+Cm-1 3.8 2 l g hB-ahR,f (3)73 信息对抗技术2 0 2 3年ahR,f =hR1.1 l g f-0.7 -1.5 6 l g f-0.8 (4)式中,hB和hR分别为基站和移动台的有效天线高度(m),Cm为恒定偏移量:Cm=3 d B,大都市0 d B,郊区及中等城市 (5)为了使得网络可以达到基础的连接

26、要求,用户需要网络R S S达到基本的灵敏度要求。由于不同网络基础连接要求不同,因此用户对各异构网络的灵敏度需求也各不相同,假设用户对W i-F i、5 G C P E和5 G无人机的R S S要求灵敏度分别为-8 0、-9 7和-9 7 d B。触发择优切换时,需衡量各个网络供应的Q o S。将传输速率以及时延纳入网络供应Q o S的衡量因素。因此,网络Q o S表示为:QQ o S=wr a t eUR A T E+wdUD e l a y(6)式中,UR A T E和UD e l a y分别是当前网络的传输速率和时延,wr a t e和wd是Q

27、 o S分别是对传输速率以及网络时延的偏好权重,表示各个Q o S的衡量因素在Q o S中体现的重要程度是不一致的。2.2 网络选择在网络选择中,考虑将用户当前正在连接的网络的信息加入到状态中去,从而分析用户当前正在连接的网络对用户服务的好坏。在不同状态下使用Q-L e a r n i n g(Q L)算法选择其中的异构网络获得即时回报学习,具体如下:状态s:网络选择的算法需要为用户选出合适的网络,优化均衡网络的负载,同时还要避免乒乓效应对异构网络垂直切换的影响。首先考虑当前某网络j的负载为Lj,则其负载占用率为LjTT Lj。为了便于Q L处理,首先将连续的网络负载占用率量化成4个等级6,如

28、表1所列。表1 负载占用率量化区间T a b.1 L o a d o c c u p a n c y r a t e q u a n t i f i c a t i o n i n t e r v a l负载占用率0,0.5)0.5,0.7 5)0.7 5,0.8 7 5)0.8 7 5,1量化等级1234因此,本算法的状态为:s=l1,l2,l3,ap (7)式中,l1、l2、l3分别为5 G C P E、5 G无人机以及W i-F i网络的负载占用率量化等级,ap为用户此时正在连接与通信的网络种类,ap=0,1,2,3 分别代表用户没有连接网络、用户此时正在连接的可

29、用网络是5 G C P E、用户此时正在连接的可用网络是5 G无人机以及用户此时正在连接的可用网络是W i-F i。动作a:用户根据环境给出的状态,通过强化学习选择切换到哪个网络,假设A表示在该算法中的可选动作组合,表示为:A=a,a 1,2,3 (8)式中,a=1,2,3分别代表此时用户切换到5 G C P E、5 G无人机和W i-F i网络。回报r:根据异构网络切换系统给出的环境状态,该算法选择动作应用至环境中获得效用函数和即时回报。效用函数用来奖励Q o S更好同时可以均衡负载的切换网络动作,与传输速率、时延以及负载占用率有关系,表示为:G(s,a)=wr a t eUaR A T E

30、+wdUaD e l a y+wl bUaL B(9)式中,UaR A T E、UaD e l a y以及UaL B分别为动作a可以得出的传输速率、时延以及网络负载占用率方差,wr a t e、wd以及wl b分别代表效用函数对传输速率、时延以及负载均衡的权重,不同的业务对连接网络的性能需求不一样,其权重对应的值也不相同。回报r(s,a)表示为:r(s,a)=G(s,a)la=ap +(1-)G(s,a)laap (1 0)式中,lx 主要起到指示作用,当满足对应条件x时,lx 为1,否则为0;(0.5,)为回报切换因子,其主要为了减少地面用户切换网络的总次数。若用户选择执行a与在这之间连接的

31、网络ap一致,则回报r(s,a)为G(s,a)。若用户选择执行a与在这之间连接的网络ap不一致,回报r(s,a)则为(1-)G(s,a)。由于(0.5,1,因此有1-,这表明当用户没有产生网络切换时,可得到较高的回报值,符合实际。在Q L中,每当学习过程开始之前,M个用户以随机的方式组成初始队列,依次根据异构网络垂直切换系统给出的状态开始选择网络。当用户执行动作后,此时智能体会获得回报,同时环境得到下一时刻的不同状态,智能体也将根据得到的信息去更新Q(s,a)。接下来,从初始队列中将已经实施过动作的用户移除。新队列的83第3期丁雨,等:基于强化学习的异构网络垂直切换方法第一个用户根据系统状

32、态选择网络,并重复此类操作,直至队列中所有用户均被处理。这个过程表明智能体在一次迭代中完成了对所有用户的学习,并准备开始下一轮学习。在下一次学习之前,智能体需要重置网络服务队列的状态,以确保每一次的学习环境都是相同的。在动作的选择中,该算法以概率使用贪婪策略探索更多可能情况来学习。智能体以1-概率进行利用,该算法的“利用”是指在当前环境状态s下选择最大Q(s,a)对应的动作来得到最好收益。该算法网络选择表示为:a=a r g m a xaAQ(s,a),r a n d(0,1)1随机连接网络,0r a n d(0,1)(1 1)完成动作得到回报后,需对当前环境状态和动作组合对应的Q值进行更新,

33、即:Qn e w(s,a)=r+m a xaQ s,a +1-Q(s,a)(1 2)上述算法的具体过程如算法1所示。算法1 基于强化学习的异构网络垂直切换算法I n i t i a l i z e:贪婪策略探索概率、网络初始状态s0、Q值表,初始值为0、学习率、折扣因子、回报切换因子1.f o r a=1:e p i s o d e d o2.系统中的用户以随机的方式组成初始队列,并计算初始状态s03.w h i l e 智能体服务请求队列不为空d o4.智能体i队列中的第一个用户判断自身所处位置的网络覆盖情况,根据贪婪算法选择一个动作执行5.智能体得到回报,计算下一状态s 6.智能体根据式(

34、1 2)更新Q值表7.系统从s转移到s 状态,同时移除所有智能体队列中的第一个用户8.e n d w h i l e9.随机重置队列1 0.e n d f o r1 1.输出:智能体的Q值表2.3 判决切换由于地面用户是移动的,因此,网络状态以及用户的位置在完成切换后也会不同,所选择的网络可能会出现不可用或不是最优的情况。在短时间内出现该情况将会触发切换,增加垂直切换的次数,提高了乒乓效应出现的概率。因此,可以考虑在网络选择完成后进行切换判决,判断是否需要再次进行切换,以减少不必要的切换,降低乒乓效应出现的概率。切换在触发切换进程中可以被分为择优切换和必要切换。择优切换是指用户当前所处的网络无

35、法提供最优服务质量而产生的切换。为了避免频繁的切换,需要将服务质量作为判定的标准,并引入驻留定时器辅助判决。其具体流程为:在网络选择后获得网络决策的结果,启动可变时长的驻留定时器,当其超时后通过计算Q o S和网络决策结果判断该网络是否提供了最优服务。若是,则不再进行网络切换;反之,则继续完成其余切换。必要切换是指在网络接收信号强度抵御设定阈值的情况下产生的切换进程,此时连接的网络会出现不可用的情况,需要尽快选择新的网络进行切换以保证用户与网络之间的连通性。因此,在必要切换时可以直接判定继续进行网络切换。在切换执行中,为实现最大程度上的无缝性,需要在通信从原网络切换至目标网络的过

36、程中尽可能地降低切换时延。这需要根据前一步骤的判决结果进行相应的操作:当判决结果为执行切换时,将通过基于Q L的网络选择算法将网络切换至选择的最优网络上;反之,将不再进行操作。3 仿真分析用户和网络的初始位置分布如图2所示,用户随机分布在3 0 0 m3 0 0 m的指定区域内。5 G 无人机、W i-F i以及5 G C P E网络的覆盖区域各不相同,其中,5 G无人机可以覆盖的区域半径为3 0 0 m,W i-F i和5 G C P E覆盖的区域半径则分别为1 0 0、1 5 0 m。用户在移动中随机选择一个方向,并在该方向及其相反方向上以36 m/s的速度持续做来回运动。假设5 G 无人

37、机、W i-F i以及5 G C P E网络的负载上限TT L1,TT L2,TT L3 分别为2 5,2 5,2 5 。假设这3种异构网络的特性不同,5 G无人机、W i-F i以及5 G C P E网络对传输速率的参数范围分别为1.41.6、1.71.9、1.21.4 G b i t/s,对时延的参数范围分别为1 03 0、4 07 0、2 04 5 m s。Q L中,假设=0.4,=0.1,=0.8,=0.7。用户请求的业务类型包括语音类业务、视频类业务和文本类业务共3种,在计算即时回93 信息对抗技术2 0 2 3年报r时,3种业务类型对效用函数参考属性(负载占

38、用率方差、时延、传输速率)的权重偏好不同,具体的权重偏好如表2所列。图2 用户和网络初始位置分布F i g.2 T h e i n i t i a l p o s i t i o n o f t h e u s e r s a n d h e t e r o g e n e o u s n e t w o r k s表2 3种业务类型对效用函数参考属性的偏好值T a b.2 P r e f e r e n c e v a l u e s o f t h r e e b u s i n e s s t y p e s f o r r e f e r e n c e a t t r i b u t

39、 e s o f u t i l i t y f u n c t i o n负载占用率方差时延/m s 传输速率/(G b i ts-1)语音类业务0.50.80.4视频类业务0.50.50.6文本类业务0.50.30.2图3 用户在无驻留定时器时各时刻连接网络F i g.3 T h e n e t w o r k t h a t t h e u s e r c o n n e c t s a t e a c h t i m e w i t h o u t a d w e l l t i m e r用户在各个时刻不使用驻留定时器和使用时长为3 s驻留定时器的结果如图34所示。网络值等于0表明

40、没有网络连接,1表明连接5 G C P E,2表明连接到5 G无人机,3表明连接W i-F i。可以看到,使用3 s的驻留定时器的网络切换次数相比不使用驻留定时器明显减少。例如,网络1和2间的切换,学习过程中切换次数减少。当不使用驻留定时器时,存在多处短时的、频繁的切换,而用3 s的驻留定时器后这样频繁的切换仅出现了1处。图4 用户在驻留定时器为3 s时各时刻连接网络F i g.4 T h e n e t w o r k c o n n e c t e d t o t h e u s e r s a t e a c h t i m e w i t h a 3 s d w e

41、l l t i m e r图56分别描述了不使用驻留定时器以及驻留定时器为4 s条件下用户在各时刻的Q o S值。从图中可以看出,当没有使用驻留定时器时,用户的Q o S变化不大。但当驻留定时器时长增大到5 s时,Q o S值大幅度下降的次数增多,且原先Q o S较为平稳的时间段内也开始出现Q o S频繁下降的情况。这是因为使用驻留定时器会牺牲一定程度的服务质量,这意味着降低切换次数和保证服务质量Q o S值两者之间的权衡。图7描述了语音、视频和文本3种业务类型中用户连接网络的比例。本文提出的异构网络垂直切换方法不仅减少了切换次数,避免网络选择功能受到影响,而且可以为具有不

42、同业务需求的用户提供合适的网络选择。如图7所示,由于具有低时延的需求,语音类业务用户偏向选择5 G无人机网络,因为其时延最短;而W i-F i由于其传输速率最快,可以满足视频类业务用户的需求;由于对网络的要求较低,文本类用户主要选择5 G无人机网络和W i-F i,这两种方式在该场景下差距不大,而此类用户受负载均衡04第3期丁雨,等:基于强化学习的异构网络垂直切换方法控制的影响较大。异构网络垂直切换方法在考虑负载均衡和垂直切换次数的情况下,仍可以根据不同的通信和连接需求,为不同类型的业务选择合适的网络。图5 无驻留定时器时的用户各时刻Q o SF i g.5 Q o S v a l u e

43、 a t e a c h t i m e w i t h o u t d w e l l t i m e r图6 驻留定时器为4 s时的用户各时刻Q o SF i g.6 Q o S v a l u e a t e a c h t i m e w i t h a 4 s d w e l l t i m e r图8表现了用户平均切换次数和驻留定时器时长之间的关系。其中Q L w i t h a p为在回报函数中考虑网络接入历史的网络选择算法,它考虑了当前接入网络,并基于Q L的方法实现了网络选择。如图8所示,平均切换测试对着驻留定时器时长的增加而降低。相比于Q L算法,在不同定时器时长的条件下,

44、Q L w i t h a p算法均能显著降低用户平均切换次数。这是由于用户在判决阶段,随着驻留定时器的时长增加,其移动的距离越长,导致原本选择的网络无法连接或无法提供最优服务质量的可能性增加,因此提高了取消网络切换的概率。此外,在相同的驻留定时器时长下,Q L w i t h a p相比Q L算法可以更好地降低平均切换次数。图7 3种业务类型用户选择网络比例F i g.7 P r o p o r t i o n o f t h e s e l e c t e d n e t w o r k s f o r 3 b u s i n e s s t y p e s图8 不同驻留定时器时长下的平均

45、切换次数F i g.8 A v e r a g e n u m b e r o f h a n d o v e r s w i t h d i f f e r e n t d w e l l t i m e r s驻留定时器时长为3 s的情况下,用户平均切换次数和用户数目关系如图9所示。用户平均切换次数随着用户数量的增加而递增。这是因为网络负载占用率由于用户数量的增加而增高,用户无法介入满负载的最优网络转而选择其他网络。这导致了垂直切换的再次出发,因此,切换次数会增加。或者说,网络满负载的概率随着用户数量的增多而提高,因此导致了高用户平均切换次数。此外,在使用/不使用驻留定时器的情况下,Q L

46、 w i t h a p算法均优于Q L算法。而在不同用户数目的情况下,有驻留定时器可以显著14 信息对抗技术2 0 2 3年地降低平均切换次数。而基于Q L算法改进的Q L w i t h a p算法可以在Q L算法的基础上进一步提升避免乒乓效应的效果。图9 不同用户数下的用户平均切换次数F i g.9 T h e a v e r a g e n u m b e r o f h a n d o v e r s w i t h d i f f e r e n t n u m b e r s o f u s e r s4 结束语本文对异构网络的切换问题,提出了一种基于强化学习的异构网络

47、垂直切换方法。首先提出一个异构网络垂直切换系统,该系统中用户有较大的概率触发网络切换。接着从触发切换、网络选择和判决切换几个方面优化。在网络选择时提出基于Q L的网络选择算法优化,更改状态和回报函数的设计,在切换判决时以Q o S为条件,加入驻留定时器。仿真结果表明,本文提出的异构网络垂直切换方法在保证服务质量的条件下有效减少用户切换网络的次数,降低乒乓效应的影响。参考文献1 S U R,Z HANG D,V E NKA T E S AN R,e t a l.R e-s o u r c e a l l o c a t i o n f o r n e t w o r k s l i c i

48、 n g i n 5 G t e l e c o mm u-n i c a t i o n n e t w o r k s:a s u r v e y o f p r i n c i p l e s a n d m o d e l sJ.I E E E N e t w o r k,2 0 1 9,9 9:1-8.2 L I P,F ANG Y G.O n t h e t h r o u g h p u t c a p a c i t y o f h e t-e r o g e n e o u s w i r e l e s s n e t w o r k sJ.I E E E T r a n

49、s a c t i o n s o n M o b i l e C o m p u t i n g,2 0 1 2,1 1(1 2):2 0 7 3-2 0 8 6.3 D AMN J ANOV I C A,MON TO J O J,WE I Y,e t a l.A s u r v e y o n 3 G P P h e t e r o g e n e o u s n e t w o r k sJ.I E E E W i r e l e s s C o mm u n i c a t i o n s,2 0 1 1,1 8(3):1 0-2 1.4 B E R E Z D I V I N R,B

50、 R E I N I G R,T O P P R.N e x t-g e n-e r a t i o n w i r e l e s s c o mm u n i c a t i o n s c o n c e p t s a n d t e c h n o l-o g i e sJ.I E E E C o mm u n i c a t i o n s M a g a z i n e,2 0 0 2,4 0(3):1 0 8-1 1 6.5 WANG C X,HA I D E R F,GAO X Q,e t a l.C e l l u l a r a r c h i t e c t u r e

注意事项: 本文（基于强化学习的异构网络垂直切换方法.pdf）为本站上传会员【自信****多点】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】