面向多用户动态频谱接入的改进双深度Q网络方法研究.pdf
《面向多用户动态频谱接入的改进双深度Q网络方法研究.pdf》由会员分享,可在线阅读,更多相关《面向多用户动态频谱接入的改进双深度Q网络方法研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、doi:10.12052/gdutxb.220159面向多用户动态频谱接入的改进双深度Q网络方法研究何一汕,王永华,万频,王磊,伍文韬(广东工业大学自动化学院,广东广州510006)摘要:随着移动通信技术的飞速发展,有限的频谱利用资源与大量频谱通信需求之间的矛盾也日益加剧,需要新的智能方法来提高频谱利用率。本文提出了一种基于分布式优先经验池结合双深度Q网络的多用户动态频谱接入方法。通过该方法,次用户可以在动态变化的认知无线网络环境下根据自己感知信息来不断地学习,选择空闲信道完成频谱接入任务来提高频谱利用率。该方法采用分布式强化学习框架,将每个次用户视为一个智能体,各个智能体采用标准单智能体强化
2、学习方法进行学习以降低底层计算开销。另外,该方法在神经网络训练的基础上加入优先级采样,优化了神经网络的训练效率以帮助次用户选择出最优策略。仿真实验结果表明该方法能提高接入信道时的成功率、降低碰撞率和提升通信速率。关键词:动态频谱接入;分布式强化学习;优先经验池;深度强化学习中图分类号:TN929.5文献标志码:A文章编号:10077162(2023)04008509An Improved Double Deep Q Network for Multi-userDynamic Spectrum AccessHeYi-shan,WangYong-hua,WanPin,WangLei,WuWen-t
3、ao(SchoolofAutomation,GuangdongUniversityofTechnology,Guangzhou510006,China)Abstract:Withtherapiddevelopmentofmobilecommunicationtechnology,thecontradictionbetweenthelimitedspectrumutilizationresourcesandthedemandofalotofspectrumcommunicationisincreasinglyaggravated.Newintelligentmethodsareneededtoi
4、mprovetheutilizationrateofspectrum.Amulti-userdynamicspectrumaccessmethodbasedondistributedpriorityexperiencepoolanddoubledeepQnetworkisproposed.Thismethodcanhelpthesecondaryuserstocontinuouslylearnaccordingtotheirperceivedenvironmentinformationinthedynamicenvironment,andchoosetheidlechanneltocomple
5、tethespectrumaccesstaskforimprovingthespectrumutilizationrate.Inthismethod,adistributedreinforcementlearningframeworkisadopted,andeachsecondaryuserisregardedasanagent.Eachagentlearnsbyusingstandardsingle-agentreinforcementlearningmethodtoreducetheunderlyingcomputingoverhead.Inaddition,themethodaddsp
6、rioritysamplingonthebasisofneuralnetworktraining,andthenoptimizesthetrainingefficiencyofneuralnetworktohelpsub-userschoosetheoptimalstrategy.Thesimulationresultsshowthatthismethodcanimprovethesuccessrate,reducethecollisionrateandimprovethecommunicationrate.Key words:dynamicspectrumaccess;distributed
7、reinforcementlearning;prioritizedexperiencepool;deepreinforcementlearning近年来,随着无线设备和移动应用的不断普及,数据流量呈爆炸式增长,有效利用频谱资源是未来无线通信网络应对这种数据流量高速增长的关键。为了应对频谱通信资源短缺的问题,动态频谱接入第40卷第4期广东工业大学学报Vol.40No.42023年7月Journal of Guangdong University of TechnologyJuly2023收稿日期:2022-10-19基金项目:国家自然科学基金资助项目(61971147)作者简介:何一汕(1998
8、),男,硕士研究生,主要研究方向为认知无线网络和深度强化学习通信作者:王永华(1979),男,副教授,博士,主要研究方向为认知无线网络、机器学习,E-mail:(DynamicSpectrumAccess,DSA)技术可以发挥有效的作用。动态频谱接入模型主要分为3种:动态开放模型、开放共享模型和分层接入模型1。3种模型之中分层接入模型与现有频谱接入方式兼容性较好,其侧重点在于将频谱资源划分给主用户(PrimaryUser,PU)与次用户(SecondaryUser,SU),主用户在进行频谱通信时候拥有优先权。在分层接入模型之中的覆盖式模式即机会式频谱接入,可以帮助次用户在感知频谱空穴之后接入空
9、闲频谱,这样可以有效地降低频谱资源短缺带来的压力。DSA技术作为频谱共享、提高频谱利用率的关键技术之一,近年来备受关注。研究人员已经为提升频谱效率提出了不少解决办法。文献2-4介绍了基于图论和博弈论方法来解决频谱分配问题,但是这类方法需要所有用户提前知道所处环境的频谱信道状态信息,而大多时候次用户是无法获取系统的完整信息的,只能基于部分感知信息选择信道。不过强化学习中基于无模型策略的学习方法,可以在不需要系统环境的先验知识基础上,通过智能体与环境不断交互学习使得智能体找到最优策略,比如文献5-6将Q学习方法运用到物联网通信中,但Q学习方法收敛缓慢且不能处理高维度的状态和动作空间,为此研究人员通
10、过结合了深度学习与Q学习的深度Q学习方法来满足对于认知无线环境的自适应管理7-8。目前深度Q学习在频谱接入技术研究中已经取得了一些进展。例如:文献9提出了一种基于深度Q学习的频谱分配方法,以支持D2D用户无线接入网络的子信道分配和模式选择。文献10也提出了基于深度Q学习的频谱分配方法,帮助次用户在多个微信蜂窝基站中进行关联和资源分配。虽然文献9-10中深度Q学习方法一定程度上克服了Q学习方法所带来的缺点,但是该类方法主要使用了集中式的深度强化学习算法来帮助次用户进行频谱分配,并没有考虑到随着次用户数量增加、动作空间变大的情况带来的“维数灾难”问题11-12。并且这类方法在训练神经网络过程中对于
11、数据的采集方式为传统的均匀采样,没有充分利用数据池中比较“有效”的数据以帮助智能体进行更高效的学习。因此本文提出了一种基于分布式优先经验池结合双深度Q网络(DistributedPriorityExperiencePoolandDoubleDeepQNetwork,DPEP-DDQN)的多用户动态频谱接入方法,用来帮助次用户根据自己的通信需求和所处环境信息来进行信道选择。其贡献如下。(1)为了解决动作空间增大带来的维数灾难问题,采用了分布式强化学习框架,将每个次用户视为一个智能体来对动态频谱接入进行建模分析。(2)为了使神经网络模型可以更充分利用有效数据来进行训练,采用优先经验回放算法对神经网
12、络中的训练样本进行优化,加快收敛速度。1 系统模型M=m1,m2,mJJN=n1,n2,nLLJ如图1所示,假设一个微小区的环境中随机分布若干主用户和次用户。主用户集合为一个主用户由一个主用户发射机和主用户接收机组成,为主用户总数。次用户集合为,其中一个次用户由一个次用户发射机和次用户接收机组成,为次用户总数。假设存在 条信道正交授权可以均匀分配给各个主用户正常数据通信,主用户通信时不需要考虑其余次用户是否存在,只需根据自身传输需求进行传输即可。次用户在进行频谱接入的时候不可以打扰到主用户的正常通信,即主用户在该条信道进行数据通信时次用户不可以接入,只有当主用户不使用该频谱信道的情况下次用户才
13、可以通过机会式接入主用户的授权信道进行通信。此外,若主用户所在信道发生碰撞,主用户会将信道碰撞的相关警告信息广播给次用户以对自身保护。因此次用户需要根据自身感知情况所获得的信息,通过自身学习来选择信道。主用户次用户干扰链路通信链路次用户接收机次用户接收机次用户接收机次用户发射机次用户发射机次用户发射机主用户接收机主用户发射机图1认知网络环境Fig.1Cognitivenetworkenvironment 1.1 信道状态模型次用户要想成功接入信道,需要感知想选择信86广东工业大学学报第40卷j道的状态。每条信道可能处于两种状态:空闲状态(1)或者活跃状态(0)。若信道处于活跃状态,表明有主用户
14、在使用这条信道,次用户在此期间不能接入该条信道,否则该时间段主用户没有使用这条信道,这时候次用户可以采用机会式接入该条信道进行通信。第 条信道的活动状态可被描述为马尔科夫链,如图2所示,其状态转移概率可表示为j=j00j01j10j11(1)jab=Pr下一状态b|当前状态a,(a,b 0,1)式中:。0(活跃)1(空闲)01100011图2信道状态的马尔可夫链Fig.2Markovchainofchannelstates 1.2 传输速率模型涉及到的系统模型参数如表1所示。表1系统模型参数Table1Systemmodelparameters符号含义J主用户总数L次用户总数pjj/mWjj第
15、 条信道上主用户 的传输功率plj/mWjl第 条信道上次用户 的传输功率pkj/mWjk第 条信道上次用户 的传输功率|hll|2ll次用户信号发射机 与信号接收机 之间的信道增益|hjl|2jl主用户信号发射机 与次用户信号接收机 之间的信道增益|hkl|2kl次用户信号发射机 与次用户信号接收机 之间的信道增益B/MHz信道带宽/(mWHz1)噪声频谱密度fc无线信道的载波频率Z参考距离处的路径损耗Z路径损耗AW路径损耗指数BW路径损耗频率相关性视线路径和散射路径的接收机信号功率之间的比率lj/dBlj第 个次用户选择信道 后信干噪比Tl/Mbpsl第 个次用户的理论传输速率JL从图1可
16、知 个主用户和 个次用户在一个微小区的二维的空间中随机分布,且在知道发射机和接收机位置距离的情况下,可以通过统计信息的方法来建立信道模型13,即在已知传播距离的情况下,根据不同场景的概率分布,通过WINNERII模型14来定义其中的路径损耗:Z(d,fc)=Z+AWlgd+BWlg(fc/5)(2)Z(dll,fc)Z(djl,fc)Z(dkl,fc)dlldjldklljlkl因此可以获得期望信号的路径损耗,以及干扰信号的路径损耗和,其中、分别为第 个次用户发射机与接收机之间的通信链路距离,第 个主用户发射机对第 个次用户接收机的干扰链路距离和第 个次用户发射机对第 个次用户接收机的干扰链路
17、距离。假设发射机和接收机之间存在强视线路径(LineofSight,LoS),则可采用Rician信道模型推导信道增益,可表示为h=+1ej+1+1CN(0,2)(3)2=10(Z+Awlgd+Bwlg(fc/5)/10(4)2 U(0,1)CN()式中:取决于路径损耗,为视线路径和散射路径的接收机信号功率之间的比率。为强视线路径上到达信号的相位,取值于0和1之间的均匀分布。表示一个圆对称的复高斯随机变量。lj因此,第 个次用户选择信道 后接收机收到信号的信干噪比(SignaltoInterferenceplusNoiseRatio,SINR)可表示为lj=plj|hll|2pjj|hjl|2
18、+Lk=1,k,lpkj|hkl|2+B(5)l根据香农定理,第 个次用户的理论传输速率为Tl=Blb(1+lj)(6)B式中:为信道的带宽。本文研究目的是最大化所有次用户的总传输速率,故研究问题的优化目标可简化为maxLl=1Tl(7)2 基于强化学习的频谱接入建模sarsar强化学习是一种通过让智能体与环境不断交互进行学习的方法15,深度强化学习是在强化学习的基础上引入深度学习,使得强化学习拥有强大的算力,从而帮助智能体适应动态环境进行自行学习。如图3所示,强化学习主要有5大要素:环境、智能体、状态、动作 和奖励。智能体想要得到的策略是由环境给出的状态 和智能体所做出的动作 以及得到的奖励
19、 所决定的,而强化学习的目的就在于通第4期何一汕,等:面向多用户动态频谱接入的改进双深度Q网络方法研究87(s)(s)过对环境进行有限的交互次数找到最优策略,最大化奖励值,其中可表示为(s)=argmaxaQ(s,a)(8)Q式中:为值函数。奖励 r状态 s动作 a智能体频谱环境图3智能体与环境交互模型Fig.3Agentandenvironmentinteractionmodel本文研究的动态频谱接入过程的本质是一个马尔可夫决策过程,可以利用强化学习来帮助解决。次用户机会式访问决策过程如图4所示,次用户接入策略是由双深度Q网络和当前频谱感知结果共同决定的。次用户根据自身频谱接入策略接入无线信
20、道进行数据传输,然后次用户接收机根据实际无线传输质量得到反馈奖励,反馈奖励由次用户发射机存储,并作为双深度Q网络的训练数据用来更新频谱接入策略。双深度 Q 网络奖励反馈频谱接入频谱感知图4动态频谱接入过程Fig.4Dynamicspectrumaccessprocess 2.1 状态集合t在每个时刻开始时,信道状态感知结果可作为状态值,则在 时刻状态集合可以表示为S(t)=S1(t),Sl(t),SL(t)(9)Sl(t)lJs1l(t),sjl(t),sJl(t)Tsjl(t)0,1sjl(t)=0ljsjl(t)=1ljsjl(t)式中:为 个次用户所感知到的信道状态,是一个维向量,并且,
21、表示第 个次用户感知到第 条信道处于活跃状态;反之表示第 个次用户感知到第 条信道处于空闲状态,次用户可以选择机会式接入该信道。并且考虑到次用户在进行频谱感知的时候可能会存在一定的误差,因此给的感知结果加上一Ejllj定错误的概率,故假设第 个次用户在第 个信道的真实情况为PTjl(t)=sjl(t)=1Ejl(10)2.2 动作集合t在次用户感知完信道状态后,次用户可以基于感知结果进行信道访问,但是每个次用户最多访问一个信道,其中次用户 时刻访问的动作集合表示为A(t)=A1(t),Al(t),AL(t)(11)Al(t)0,j,J,Al(t)=jljAl(t)=0l式中:为 个次用户选择了
22、第 个信道,若,则第 个次用户没有选择任何信道。2.3 奖励函数ltj次用户 在 时刻根据信道状态做出信道 选择后,为了实现传输速率最大化,可以将奖励函数按照如下方法建立,如式(12)所示。Rl(t)=2,与主用户发生碰撞0,不做任何选择Blb(1+lj),否则(12)Blb(1+lj)(1)次用户访问信道时没有主用户正在使用,并且只有一个次用户接入信道,可以用理论传输速率当作奖励,并且记成功接入一次。(2)次用户访问信道时主用户正在使用,与主用户发生碰撞,给予2作为惩罚,并记碰撞一次。Blb(1+lj)(3)次用户访问信道时没有主用户正在使用,但同时有多个次用户访问相同信道,给予作为奖励,记
23、碰撞一次。(4)次用户决定不访问任何信道,不给予奖励,成功次数和碰撞均不记。3 DPEP-DDQN算法描述本文提出的DPEP-DDQN算法,是在进行强化学习建模的基础上结合了分布式独立Q学习、优先经验回放算法和双深度Q网络的方法形成的。3.1 分布式独立Q学习为了减少集中式训练所带来的底层开销,本文在进行强化学习建模的基础上加入分布式独立Q学习方法。在此方法中,每个智能体都是独立学习的主体,它们将其他智能体视为环境的一部分,并认为联合状态可观测,采用标准单智能体强化学习方法进行学习16。如图5所示,在与环境互动的过程中,每个智能体可以只需要考虑自己的状态对环境做出回馈,而不需考虑其余智能体的动
24、作选择,故这种情况88广东工业大学学报第40卷更贴近于认知无线网络环境中次用户不会在选择信道之前进行相互协商的情况。其中分布式独立Q学习方法的主要目标可简化为在满足次用户不对主用=1+2+l+Lll户造成干扰的情况下,提高所有次用户的传输速率。故需要系统找到最优策略,其中为第 个次用户信道选择的最优策略。智能体 1智能体 2智能体 L经验池神经网络0活跃1空闲环境P01P01P00P11Q(s,a)Q(s,a)Q(s,a)奖励感知认知无线网络环境0,1,0,0经验池神经网络奖励感知经验池神经网络奖励感知图5分布式独立Q学习Fig.5DistributedindependentQlearning
25、 3.2 双深度Q网络在准备分布式训练框架之后,神经网络将采用双深度Q网络(DoubleDeepQNetwork,DoubleDQN),该神经网络属于深度Q网络(DeepQNetwork,DQN)的一种变体,相对于DQN其特点就是使用2次Q学习来寻找最优动作,通过解耦目标Q值动作的选择和目标Q值的计算,达到消除过度估计的目的17。神经网络结构图如图6所示。经验池数据采样下一步状态 s当前状态 s损失函数Qtarget(s,a*)a*=argmaxaQ(s,a)Q(s,a)估计网络目标网络图6神经网络结构图Fig.6Neuralnetworkstructurediagram 3.3 优先经验回放
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 多用户 动态 频谱 接入 改进 深度 网络 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。