基于DRL的抗干扰电视频谱资源分配算法_鲍家旺.pdf

上传人：自信****多点

文档编号：244756

上传时间：2023-05-06

格式：PDF

页数：5

大小：2.72MB

《基于DRL的抗干扰电视频谱资源分配算法_鲍家旺.pdf》由会员分享，可在线阅读，更多相关《基于DRL的抗干扰电视频谱资源分配算法_鲍家旺.pdf（5页珍藏版）》请在咨信网上搜索。

1、电视技术第 47 卷第 1 期(总第 566 期)43PARTS&DESIGN器件与设计文献引用格式：鲍家旺，丘航丁，徐浩东，等.基于 DRL 的抗干扰电视频谱资源分配算法 J.电视技术，2023，47（1）：43-47.BAO J W，QIU H D，XU H D，et al.DRL based anti-jamming algorithm for TV spectrum resource allocationJ.Video Engineering，2023，47（1）：43-47.中图分类号：TP311.1 文献标识码：A DOI：10.16280/j.videoe.2023.01.0

2、09基于 DRL 的抗干扰电视频谱资源分配算法鲍家旺，丘航丁，徐浩东，马驰（福州大学电气工程与自动化学院，福建福州 350108）摘要：将认知无线电与能量采集相结合，可以提高电视系统的频谱效率和能量效率。然而，由于无线信道的开放特性，频谱很容易受到恶意用户的干扰攻击，从而导致吞吐量下降。对此，将抗干扰频谱分配问题表述为没有任何先验知识的马尔可夫决策过程，然后提出一种基于深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）的资源分配算法。在多种干扰环境下的仿真实验结果表明，该算法能够有效地减少恶意干扰带来的不利影响。关键词：能量采集；认知无线

3、电；深度强化学习；干扰攻击DRL Based Anti-Jamming Algorithm for TV Spectrum Resource AllocationBAO Jiawang,QIU Hangding,XU Haodong,MA Chi(Institute of Electrical and Automation Engineering,Fuzhou University,Fuzhou 350108,China)Abstract:Combining cognitive radio with energy acquisition can improve the spectrum eff

4、iciency and energy efficiency of TV system.However,due to the open nature of the wireless channel,the spectrum is vulnerable to interference attacks by malicious users,resulting in throughput degradation.In this paper,we first describe the anti-jamming spectrum allocation problem as a Markov decisio

5、n process without any prior knowledge.Then a resource allocation algorithm based on Deep Deterministic Policy Gradient(DDPG)is proposed.The results show that the algorithm can effectively reduce the adverse effects of malicious jammers through simulation in a variety of jamming environments.Keywords

6、:energy harvesting;cognitive radio;deep reinforcement learning;jamming attacks0 引言快速发展的物联网会产生巨量的数据，这增加了对频谱资源的需求，导致频谱资源稀缺的问题1。认知无线电（Cognitive Radio，CR）是解决这一问题的有效工具。电视的空白频段是第一个被考虑的频谱共享案例。大多数物联网设备通过无线通信技术进行互联，由电池供电。电池容量限制所造成的能量问题是制约物联网发展的另一问题。能量采集（Energy Harvesting，EH）技术可以从各种绿色能源（如光、热、风和射频源）中获取能量，延长了能

7、量限制网络的使用寿命2。许多研究考虑将 EH 和 CR技术与物联网结合起来，提出了能量采集认知物联网（EH-CIoT）。CR 网络由于其开放的特点，比其他无线电网络更容易受到安全威胁，受到的攻击包括主用户仿真攻击、学习攻击、窃听和干扰等。其中，干扰攻击被认为是最具有威胁性的攻击，它会导致系统吞吐量下降、网络瘫痪等。文献 3 提出了一种基于批处理的安全感知协议。最近，深度强化学习（Deep Reinforcement Learning，DRL）技术被认为可以帮助物联网在环境和干扰源之间存在连续交互的情况下实现最优的传输策略。文献 4 将双 DQN（Deep Q-Network）算法和跳频策略应用

8、于多用户环境下作者简介：鲍家旺（1997），男，硕士，研究方向为认知无线通信系统44电视技术第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计的干扰攻击。然而，上述现有的工作以及对抗干扰策略的研究都只考虑了短视或离线模型。短视的政策只考虑即时奖励，而忽略了长期回报，这不是连续 CIoT 系统的最优策略。离线策略假设环境动态是已知的，但在发射机或控制器上是非因果关系的。在上述文献的基础上，本文将研究在干扰攻击下基于 DRL 的 EH-CIoT 传输算法，以最大限度地提高系统的长期吞吐量。1 系统模型本文考虑了 CR 的交织模式，即一种保护性的频谱共享方案。EH-CI

9、oT 系统模型如图 1 所示，主要由三部分组成：主用户网络（Primary User Network，PUN），由M个主用户（Primary Users，PUs）和 1 个基站（Base Station，BS）组成；认知物联网络（CIoTN）由 1 个代理基站（Agent Base Station，ABS）和N个 EH-C 节点组成；1 个恶意攻击节点（Malicious Attack Node，MAN）。PUN 覆盖了K个正交电视频谱信道，CIoTN 位于 PUN 的覆盖区域内，所有设备在同步的时隙模式下工作。假设 ABS 能获得完美的频谱感知，Ik(t)=0(busy),1(idl

10、e)表示 ABS 在t时隙感知到的第k个信道的状态，空闲通道数量为()()1KkkIK tIt=（1）BSOccupied channelsIdle channelsEH-CIoT nodesPU network CIoT network PrimaryUsersAttack nodeData transmissionRF Energy harvestingMalicious attackAgentBase station图 1 EH-CIoT 系统模型1.1 EH-C 节点的两种模式选择在 CIoTN 中，每个 EH-C 节点都有相同的配置，节点不能同时执行射频能量采集和信道接入。EH-C

11、节点在每个时隙t的开始将自身的电池水平状态集通过专用的控制信道发送到 ABS。ABS 在当前时隙t根据感知到的信息来确定所有 EH-C 节点的工作模式（采集模式或传输模式），分配所有EH-C 节点的传输功率并广播决策。PiC(t)表示第i个 EH-C 节点在第t个时隙的发射功率，设 EH-C节点最大发射功率为PCmax，即PiC(t)0,PCmax。因此，在第t个时隙，所有 EH-C 节点的功率分配策略集合表示为P(t)=P1C(t),P2C(t),PNC(t)。第i个 EH-C节点在第t个时隙的工作模式Mi(t)可以描述为()()()CCC0(harvesting mode),01 (tra

12、nsmission mode),0iiiPtMPtt=若若（2）因此，可用M(t)=M1C(t),M2C(t),MNC(t)表示t时隙所有 CIoT 的工作模式集合。信道增益集为G(t)=gib,gPi,gsi,gji。选择传输模式的节点数记为IC(t)。EH-C 节点的时隙如图 2 所示。其中T为时隙长度，为信息交换时隙长度。控制信息T-数据传输或能量采集信息交换阶段工作阶段图 2 EH-C 节点时隙1.2 能量采集和更新上述系统均有功率约束。主基站（Primary Base Station，PBS），MAN 和 ABS 由电网供电，EH-C节点由可充电电池供电。1.2.1 能量采集P

13、BS对每个PU的传输功率恒定为Pkp，k=1,2,K，电视技术第 47 卷第 1 期(总第 566 期)45PARTS&DESIGN器件与设计第t个时隙 PBS 的总传输功率为P ptotal(t)=(K-IK(t)Pkp（3）第i个 EH-C 节点在第t个时隙采集的能量Ei(t)为EiC(t)=(1-MiC(t)(T-)(P ptotal(t)gpi(t)+PiCJ(t)（4）()()()()()CJCJ1,Nissikjisj iPtPt gtPt gt=+（5）式中：表示能量转换率，PsC(t)表示与i不同的第s个 EH-C 节点的发射功率，PkJ(t)为干扰功率。第t个时间隙内所有

14、EH-C 节点总的采集能量集合记为E(t)=E1C(t),E2C(t),ENC(t)。1.2.2 电池更新第t个时隙中所有 EH-C 节点的电池状态集为B(t)=B1C(t),B2C(t),BNC(t)。电池容量标记为Bmax。第i个 EH-C 节点的电池状态从第t个时隙到第t+1个时隙的演变可以表示为BiC(t+1)=minBmax,BiC(t)+EiC(t)-(T-)MiC(t)PiC(t)-Fi(t)ef（6）()()()CC0,1,ifiifBteFBtet=若若（7）2 问题定式化本文考虑一种广泛使用的主动干扰攻击，它不知道设备的任何活动，只根据预定义的策略发射干扰脉冲，用策略GIk

15、(t),PkJ(t),PkJ(t)表示，其中Ik(t)，PkJ(t)，PkJ(t)分别为在时隙t与信道k的干扰间隔、干扰概率和干扰功率。本文考虑两种攻击方法：（1）随机干扰器，在每个时隙t以功率PkJ(t)随机选择干扰一个信道；（2）扫描干扰器，在一个时隙t内以概率PkJ(t)从K个信道中顺序干扰KN个信道。干扰器的最大发射功率为PJmax，ABS 接收到的第i个 EH-C 节点的信噪比（Signal to Interference plus Noise Ratio，SINR）可用以下公式计算：()()()()()()()()()()()()()()C,1 0,0C,1JPt gtikkibf

16、tft MtiiJnSINRtMtiiPt gtikkibftft MtiiJn Pt gtkji=+（8）式中：fik(t)fJk(t)表示 EH-C 节点接入的信道是否与攻击节点攻击的信道相同。PiC(t)和PkJ(t)分别表示第i个 EH-C 节点和恶意攻击节点的发射功率。n表示高斯白噪声，nN(0,2)。本文的主要目的是在恶意攻击的环境下最大化长期信道吞吐量。CIoTN 的瞬时和吞吐量为()()()()C1log 1NAtiiirWMtTSINR t=+（9）式中：rtA表示第t个时隙的瞬时和吞吐量，W表示频谱带宽。SINRi(t)表示第i个EH-C节点的信噪比。第t个时间段开始的未来

17、折扣长期吞吐量为()Av tAvv tRtr=（10）式中：01 表示折扣函数。利用干扰模型，将累积吞吐量最大化问题表述如下：()()()()()()()()()()()Cthresh1,()Co dClJmax 1,2,s.t.,AiiAytPtiifikkiiRtiNBtF t eTPtSINR tSINRftftIC tIK t=E（11）式中：E 表示期望的给定值。式（11）所列的条件保证 EH-C 节点用于传输的能量不超过可用的剩余能量，保证接收的信噪比不小于接收阈值SINRthreshold，保证接入信道数不大于可用信道数。3 基于 DRL 的传输优化算法3.1 基于 RL 的 E

18、H-CIoT 网络框架本文构建一个环境模型，用一个 MDP 来描述要解决的问题5，即MDP=(S,A,Psa,R,)，其中S表示状态空间，A表示动作空间，Psa为状态转移概率，R为即时奖励，是折扣因子。Agent 是系统模型中的 ABS。状态空间S：第t个时隙的状态空间定义为St=I(t),G(t),B(t)（12）式中：I(t)=I1(t),IK(t)表示信道状态集。动作空间A：第t个时间段的动作向量定义为：At=P(t)。ABS 以连续功率分配作为动作值。即时奖励R：在采取行动后，ABS 将获得即时奖励：R(St,At)=rtA（13）式中：rtA表示第t个时隙的瞬时和吞吐量。46电视技术

19、第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计3.2 基于 DDPG 的资源分配算法深度确定性策略梯度（DDPG）算法由策略网络、价值网络和经验回放池三部分组成。网络由 4个深度神经网络组成，即在线批评网络Q，在线策略网络，目标批评网络Q和目标策略网络。更新网络参数时，从容量为C的经验回放池D中抽取NB份数据，第i份表示为(sx,ax,rx,sx+1)。让它们通过梯度上升/下降算法来训练网络参数。在线批评网络的损失函数为差值的均方误差：()()()2,QQxxxLyQ s a=E（14）目标值yx的计算方法如下：()()11,QxxxxyrQ ss+=+（15）

20、在线策略网络的损失函数为：()()(),QxxLQ ss=E（16）对于两个目标网络的更新，采用软更新方法：()()1soft update:1QQQ +（17）式中：(0,1 表示更新速率，具体步骤如算法 1所示。每一步动作都从期望为(St|)方差2的随机过程中选择，即AtN(St|),2)，其中是一个参数，用于减弱训练中动作的随机性。算法 1 干扰攻击下基于 DDPG 的资源分配算法初始化：初始化参数Q和；清空D；动作随机参数；EH-C 节点的电池水平。输入：CIoT 网络仿真参数，恶意攻击节点参数。步骤 1 for 迭代次数 episode=1，2，.，F do步骤 2 初始化环境状态s

21、0步骤 3 for 训练步数t=1，2，.，G do步骤 4 选择动作AtN(St|),2)步骤 5 获得R(St,At)和下一个状态St+1。步骤 6 将数据(St,At,Rt,St+1)保存至D步骤 7 if D已满，do步骤 8 采样NB个数据(sx,ax,rx,sx+1)步骤 9 最小化L(Q)更新在线批评网络步骤 10 最大化L()更新在线策略网络步骤 11 按式（17）软更新目标网络步骤 12 衰减动作的随机性：22步骤 13 end for步骤 14 end for输出：每个时隙的最佳动作At。4 实验仿真及结果分析4.1 模拟设置本文模拟了恶意攻击的多用户认知物联网模型。在 1

22、 km1 km 区域内，PBS 位于 500，500，ABS 位于 250，250。N=10，K=10，M=3，T=1 s，=0.2 s，PkP=0.2 W，PCmax=0.1 W，交换所消耗的能量ef=0.01 J，最大干扰功率PJmax=0.2 W，能量转换率=0.8。每个结果都在 Pytorch 1.7.1 工具上实现。本文与以下算法进行了比较：（1）随机算法，随机选择传输信道，并随机分配节点的功率；（2）贪婪算法，感知空闲信道，以允许的最大功率传输数据；（3）SAC 算法，连续控制的非策略 DRL 算法。DDPG 和 SAC 算法的在线和目标网络分别包含L1=256 和L2=256。激

23、活函数设置为 ReLU，并将优化器都设置为 Adam，学习率为 0.004 和 0.002。软更新速率为 0.005。迭代次数为 300，每次迭代的步数为 10 100。4.2 统计结果及分析首先比较了无干扰下的算法性能，结果如图 3（a）所示。DDPG 算法在 150 次迭代后趋于收敛。SAC 算法的收敛速度优于 DDPG 算法。当迭代数为 80 时，它趋于收敛。但 DDPG 比 SAC 获得了更高的平均吞吐量（30%）。这表明，与基于 SAC的算法相比，DDPG 算法更适合在 CIoT 环境中使用。图 3（b）和图 3（c）比较了四种算法在随机和扫描干扰两种主动干扰策略下的性能。与无干扰的

24、情况相比，DDPG 算法在随机干扰和扫描干扰下的性能仅降低了约 5%，而收敛后的 SAC 的性能降低了约 15%。这两种 RL 算法都明显优于传统的随机算法和贪婪算法。DDPG 算法的性能是随机算法的2.5 倍，是贪婪算法的 2 倍。这表明，该算法能够有效地学习主动干扰的固定策略，预测干扰，合理分配功率，从而减少干扰，提高吞吐量。图 4 显示了这些算法在三种干扰情况下的能量效率。每焦耳能量可以通过系统发送的比特量称为能量效率（bJ-1）。显然，在三种干扰条件下，DDPG 算法的能量效率最高，保证在 6 bJ-1左右。SAC 在干扰条件下的性能与随机算法相当，均在电视技术第 47 卷第 1

25、期(总第 566 期)47PARTS&DESIGN器件与设计3 bJ-1左右。贪心算法的性能最差，保持在 1 bJ-1。这说明了该 DDPG 算法对每个 EH-C 节点的功率分配的合理性。5 结语本文研究了恶意攻击环境下 CIoTN 的资源分配问题，目标是在抗干扰的同时使 EH-CIoTN 的长期吞吐量最大化。本文提出了一种基于 DDPG 的DRL 算法，它的目标是在与动态环境交互、不断学习攻击策略、智能调整传输策略的过程中获得最大的奖励。仿真结果表明，无论是随机干扰还是扫描干扰，DDPG算法都能更好地学习恶意节点的策略，系统性能明显优于其他算法。参考文献：1 HAYTHEM A，BANY

26、S，MUATH B，et al.Energy-efficient cross-layer spectrum sharing in CR green IoT networksJ.IEEE Transactions on Green Communications and Networking，2021，5（3）：1091-1100.2 MA D，LAN G，MAHBUB H，et al.Sensing，Computing，and communications for energy harvesting IoTs：a surveyJ.IEEE Communications Surveys&Tutor

27、ials，2020，22（2）：1222-1250.3 ATHAR A，MUBASHIR H，ABDERREZAK R.Cognitive radio based Internet of things：applications，architectures，spectrum related functionalities，and future research directionsJ.IEEE Wireless Communications，2017，24（3）：17-25.4 SHU Z，QIAN Y，CI S.On physical layer security for cognitive radio networksJ.IEEE Network，2013，27（3）：28-33.5 KAI A，MARC P D，MILES B，et al.Deep reinforcement learning：a brief surveyJ.IEEE Signal Processing Magazine，2017，34（6）：26-38.编辑：张玉聪（a）无攻击（b）随机攻击（c）扫描攻击图 3 三种攻击下的平均吞吐量（a）无攻击（b）随机攻击（c）扫描攻击图 4 三种攻击下的能量效率

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 DRL 抗干扰电视频谱资源分配算法鲍家旺

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。