基于深度强化学习的软件定义...全中台Qo_S实时优化算法_李元诚.pdf
《基于深度强化学习的软件定义...全中台Qo_S实时优化算法_李元诚.pdf》由会员分享,可在线阅读,更多相关《基于深度强化学习的软件定义...全中台Qo_S实时优化算法_李元诚.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年 5 月 Journal on Communications May 2023 第 44 卷第 5 期 通 信 学 报 Vol.44 No.5基于深度强化学习的软件定义安全中台 QoS 实时优化算法 李元诚,秦永泰(华北电力大学控制与计算机工程学院,北京 102206)摘 要:针对软件定义安全场景中的服务质量(QoS)实时优化方案因安全防护手段与业务场景不匹配而导致的适用困难和性能下降的问题,提出了基于深度强化学习的软件定义安全中台 QoS 实时优化算法。首先,将碎片化的安全需求与安全基础设施统一到软件定义安全中台云模型中;然后,通过深度强化学习结合云计算技术提高安全中台的实时匹配
2、和动态适应能力;最后,生成满足 QoS 目标的安全中台资源实时调度策略。实验结果表明,与现有实时算法相比,所提算法不但保证负载均衡,还提高了 18.7%的作业调度成功率以提高服务质量,降低了34.2%的平均响应时间,具有很好的稳健性,更适用于实时环境。关键词:软件定义安全;深度强化学习;安全中台;服务质量 中图分类号:TP393 文献标志码:A DOI:10.11959/j.issn.1000436x.2023090 Deep reinforcement learning based algorithm for real-time QoS optimization of software-de
3、fined security middle platform LI Yuancheng,QIN Yongtai School of Control and Computer Engineering,North China Electric Power University,Beijing 102206,China Abstract:To overcome the problem that the real-time optimization of the quality of service(QoS)in software-defined security scenarios was hind
4、ered by the mismatch between security protection measures and business scenarios,which led to difficulties in application and performance degradation.,a novel algorithm based on deep reinforcement learning for optimizing QoS in software defined security middle platforms(SDSmp)in real-time was propos
5、ed.Firstly,the frag-mented security requirements and infrastructure were integrated into the SDSmp cloud model.Then by leveraging the power of deep reinforcement learning and cloud computing technology,the real-time matching and dynamic adaptation capabilities of the security middle platform were en
6、hanced.Finally,a real-time scheduling strategy for security middle platform resources that meet QoS goals was generated.Experimental results demonstrate that compared to existing real-time methods,the proposed algorithm not only ensures load balancing but also improves job success rate by 18.7%for h
7、igh QoS and reduces the average response time by 34.2%,and it is highly robust and better suited for real-time en-vironments than existing methods.Keywords:software defined security,deep reinforcement learning,security middle platform,quality of service 0 引言 近年来,信息接入终端设备种类不断丰富。物联网、边缘计算、机器学习技术飞速发展,互联
8、网与人类生活日益密切,数据面临的风险更加复杂多元,安全业务的碎片化越来越严重。碎片化的安全需求与安全场景是网络安全所面临的巨大挑战之一1,碎片化难题也使安全防护手段与业务场景不匹配的矛盾日益凸显2,安全产品的服务质量(QoS,quality of service)和实时响应能力越收稿日期:20221101;修回日期:20230204 基金项目:国网江西信息通信公司基金资助项目(No.52183520007V)Foundation Item:The State Grid Jiangxi Information&Telecommunication Company Project(No.521835
9、20007V)182 通 信 学 报 第 44 卷 来越受到重视。关键信息基础设施安全保护条例指出了关键信息基础设施所面临的安全挑战及重点防护要求,传统城墙式防守不足以应对安全挑战,需要构建以安全中台为核心的,积极、主动、弹性、快速响应的安全防御体系,实现从安全监测、全局态势、能力调度到编排响应的防护理念。受到软件定义安全、安全中台的启发,文献3构建了面向全场景的软件定义安全中台(SDSmp,software defined security middle platform)架构,如图 1 所示,目的是解决安全资源利用率低、复用难,安全需求与安全场景高度碎片化等问题。SDSmp为解决安全防护手
10、段与业务场景不匹配问题提供了有效着力点。图 1 软件定义安全中台架构 软件定义安全中台架构通过网络功能虚拟化(NFV,network functions virtualization)技术和云计算技术实现基础设施平面的虚拟化3。安全中台1-2平面兼具数据中台和业务中台的优点,能够消灭数据孤岛、提高资源复用率、降低开发难度和成本等。解决安全防护手段与业务场景不匹配问题,关键在于控制平面的资源调度模块。控制平面资源调度模块根据安全应用平面传来的安全业务的特点,分析所需的计算能力,由南向应用程序接口(API,application programming inter-face)通过中台资源池将其分配
11、给可用的安全中台资源执行,物理上最终在基础设施平面执行。安全中台平面为了平衡资源复用率、负载均衡和用户的 QoS,需要采用恰当的调度策略,高效地利用中台资源池来提高 QoS。目前,安全中台资源调度的研究很少,特别是对于实时情况,考虑到人们对于 QoS 的要求越来越高,提高 QoS 对于拥有大量服务器、每天收到大量用户请求的产品来说至关重要4。为了解决上述问题,本文提出了一种基于深度强化学习(DRL,deep reinforcement learning)的软件定义安全中台 QoS 实时优化算法,提供了算法的详细设计和实现过程,并对不同类型作业负载场景的大量模拟实验进行了广泛的性能评估。本文主要
12、贡献如下。1)架构层面,提出面向碎片化安全需求和安全场景的 SDSmp 自动控制框架,实现对安全中台资源的在线实时调度和自动化控制。2)建模层面,通过建立软件定义安全中台 QoS 优化模型,结合云计算技术和深度强化学习算法,使控制平面的调度器能够根据经验在线学习如何合理地选择安全中台资源,从而提高服务质量,缩短响应时间,实现负载均衡。3)实现层面,搭建了软件定义安全中台实验环境,将所提基于深度强化学习的软件定义安全中台QoS 实时优化算法,在不同的工作负载模式下与现有实时作业调度算法进行比较。实验结果表明,所提算法在平均响应时间和作业调度成功率方面普遍优于现有实时算法。1 相关工作 软件定义领
13、域的资源调度主流研究集中在软件定义安全(SDSec,software defined security)和软件定义网络(SDN,software defined network)。文献5提出了一种 SDSec 架构开放安全设备的方法,提出使用前向传播(BP)神经网络来预测安全任务的执行时间的安全资源调度算法。文献6提出了一种基于软件定义安全的资源调度机制,设计了南向 API,提出了安全资源抽象和负载均衡调度算法。文献7研究了云计算中软件定义网络的资源分配机制。文献8提出一种动态调度算法,以最大限度地提高每次切换过程中的安全性,同时考虑切换成本和时延。文献9提出了在云中基于软件定义安全架构的安全
14、解决方案,设计实现了虚拟安全设备管理器来管理资源池中多种虚拟安全设备。文献10在 SDN场景中针对参数与场景不匹配的问题,提出了基于第 5 期 李元诚等:基于深度强化学习的软件定义安全中台 QoS 实时优化算法 183 DRL 的 QoS 优化算法。文献11针对 SDN 中转发验证机制,优化通信与计算开销的问题。上述文献都对 SDSec 和 SDN 进行了不同层面的资源调度算法研究,但是并没有针对碎片化的安全需求与安全场景,解决安全防护手段与业务场景不匹配问题。深度强化学习具有较高的准确性,已经解决了很多困难的决策问题12-14,例如,用于云计算中的价格优化15。DRL 具有深度神经网络(DN
15、N)的优势,适用于具有高维状态空间和低维行动空间的复杂控制问题16。该技术已经证明了它在决策方面的强大能力,仅需要提前很短时间训练模型,就可以解决各种优化问题17。文献4提出对于变化的负载和复杂的决策情况,基于 DRL 的算法能在云端作业调度中表现出良好的性能,此外,DRL 已被部分用于解决云计算的资源调度问题。上述研究都取得了良好的效果,但它们并不是专为软件定义安全设计的。此外,安全虚拟化技术仍处于初级阶段,该领域目前主流的资源调度算法是在保持最后期限约束的情况下,对批量作业进行调度,而所提算法融合 DRL、SDSmp、云计算、安全中台等技术,在解决安全防护手段与业务场景不匹配问题的基础上,
16、实现软件定义安全场景中的实时 QoS 优化。2 软件定义安全中台 QoS 优化架构 为了解决安全防护手段与业务场景不匹配问题,本文从图 1 所示的 SDSmp 出发,设计了基于深度强化学习的软件定义安全中台 QoS 优化架构。如图 2 所示,优化架构由用户、安全应用平面、控制平面、安全中台平面、基础设施平面组成。控制平面的北向为安全应用平面,南向为安全中台平面。控制平面中对于调度起关键作用的是资源调度模块的 DRL 调度器,其他关键部分如应用管理模块、信息收集器包括资源监视器和作业监视器,用于收集中台资源池中的安全中台资源和前台作业信息。图 2 基于深度强化学习的软件定义安全中台 QoS 优化
17、架构 软件定义控制平面与基础设施平面分离的关键在于控制平面对虚拟化的中台资源池中的资源统一调度,以及安全中台、大中台小前台的宗旨18。碎片化的安全需求与安全场景都对资源调度提出了更高的要求,不同的调度算法对软件定义安全中台性能影响巨大。软件定义安全场景中,安全中台的主旨是资源可复用、能力服务化。以一次网络安全防御为例,安全中台将能力抽象为逐条服务,服务由相应能力的安全中台资源提供,安全应用的请求先转化为对应的逐类安全业务;然后,不同的安全业务用作业请求的形式向中台资源池请求所有需要的服务。日常使用中,用户在安全应用平面通过使用终端安全产品,以连续作业请求的方式提交用户需求。控制平面通过对用户的
18、请求解析,分析作业请求,如资源利用率、计算能力、内存、所需的响应时间、QoS等。安全中台资源按中台结构封装成虚拟机(VM,virtual machine),是逻辑上的执行单位,物理上的实际执行单位是具体的基础设施层安全设备,基础设施平面通过 NFV 技术和云计算技术,按功能映射到不同的虚拟机集群,实现逻辑设备无关。当一个作业到达时,控制平面的 DRL 调度器会在中台资源池中寻找合适的封装好的安全中台资源虚拟机来分配作业,并执行请求的作业。因此,184 通 信 学 报 第 44 卷 作业调度器是核心模块,它在特定的时间间隔内根据用户提交的 QoS 要求做出决策。对应 DRL 的运作机制中,作业调
19、度器采取将前台作业分配给特定的安全中台资源池中某一具体虚拟机的行动,根据这一行动,由环境提供奖励并更新状态,迭代实现调度器的智能学习。在这个过程中,资源和作业监视器负责管理作业队列的工作量和性能,以及作业的执行和分配。为了对优化问题进行建模,本文给出了负载和安全中台资源定义,以及作业调度机制,参数含义如表 1 所示。表 1 参数含义 参数 含义 idJ 安全业务前台作业的 ID atJ 安全业务前台作业到达时间 tJ 安全业务前台作业类型(计算或 I/O 密集型)lJ 安全业务前台作业长度(所需的指令、服务)qJ 安全业务前台作业 QoS 要求 rtJ 安全业务前台作业响应时间 etJ 安全业
20、务前台作业执行时间 wtJ 安全业务前台作业等待时间 idV安全中台资源(VM)的 ID tV安全中台资源(VM)类型(计算或 I/O 密集型)pV处理速度(每秒处理的指令、服务)pcomV 安全中台资源(VM)的计算处理速度 pioV 安全中台资源(VM)的读写处理速度 itV安全中台资源(VM)的空闲时间 R 奖励(体现 QoS、作业调度成功率、响应时间等)Suc 作业调度成功率(作业是否调度成功满足 QoS)2.1 负载定义 不同的安全应用请求首先在安全应用平面完成了并行分类和细化,转化为安全业务,安全业务提交的请求是高度解耦、低相关性、细粒度的简单作业,在调度过程中被分配给同样细粒度的
21、安全中台资源,它们以提供服务的形式完成每个作业的执行,最后统一组装,提高了并行性,很大程度上避免了因为传统作业间逻辑依赖、前驱后继关系和资源抢占带来的问题。假设在实时场景中的作业是独立的,在执行过程中没有其他作业相互干扰。为了解决该场景中状态空间维度过大导致的 DRL 调度器待选择动作太多的问题,引入一个面向事件的决策机制,在前台作业到达控制平面后立即对作业进行实时分析。这些作业信息被用来训练作业调度机制。对于提出的模型,本文考虑了 2 种典型的作业类型,即计算密集型作业和 I/O密集型作业。前台安全业务传来的作业 i 建模为 idattlq,iiiiiiJJJJJJ(1)2.2 安全中台资源
22、定义 在作业的调度运行中,由于前台用户提交的作业可能属于不同的类型,它们在不同类型的安全中台虚拟机上有不同的响应时间。与作业负载类似,考虑 2 种安全中台资源,即 I/O密集型虚拟机1VMt连接基础设施层的最终执行资源(如监控器),计算密集型虚拟机2VMt连接基础设施层的最终执行资源(如数据加密解密模块)。每个安全中台资源定义为 idtppcomio,jjjjjVV VVV(2)2.3 作业调度机制 调度决策后,当一个作业被分配给一个特定的安全中台VM实例时,该作业首先进入一个等待队列ijL。在不失一般性的前提下,假设每个虚拟机实例在任何时候都只能独占式执行其等待队列中的一个作业。作业调度器是
23、核心组件,负责根据最终用户的要求将作业分配给合适的中台资源池中的资源。如果等待队列为空,被分配的作业会顺利通过队列到达虚拟机,并被立即执行;否则先进入等待状态。根据上述假设,作业的响应时间将由作业执行时间etiJ和作业等待时间wtiJ两部分组成,响应时间可以表示为 rtetwtiiiJJJ(3)作业执行时间会因为调度到不同的安全中台资源而不同,对于某个固定类型的前台作业,由于每个安全中台资源在实际运行中作业的各部分都是并行的,影响作业在中台资源上执行时间的主要因素是该作业类型对应的长度,其他类型的长度相较之下很短,并在运行过程中不会产生实际的影响。因此,作业执行时间定义为 llcomioetp
24、pcomio,maxiijjiJJJVV(4)其中,lcomiJ是作业所需计算长度,lioiJ是作业所需第 5 期 李元诚等:基于深度强化学习的软件定义安全中台 QoS 实时优化算法 185 I/O长度,pcomjV是安全中台资源计算处理速度,piojV是安全中台资源读写处理速度。可以看到,对应长度的作业类型是主要影响因素,但是作业有可能会被调度到合适或者不同类型的中台资源,类似于木桶效应。如果作业类型与资源类型匹配,安全中台资源对应类型的性能好,则作业执行时间短;如果不匹配,由于中台资源对应类型性能差,作业执行时间会长得多。另外,作业等待时间会影响资源调度,等待时间定义如下 wtet00,=
25、0,iinijnLJJ其他(5)如果等待队列为空,作业立即执行,否则需要先等待,等待时间是所有已到达的作业执行时间的累加。当前台作业iJ被调度到资源jV,并完成处理后,安全中台资源的空闲时间更新如下 itwtatetjiiiVJJJ(6)其中,atiJ是作业到达时间 2.4 QoS 感知的调度成功条件 安全中台资源以服务的形式为软件定义安全中台赋能,满足 QoS 要求意味着安全中台资源成功给请求服务的安全业务提供安全防护能力。软件定义安全中台允许终端用户在提交前台作业请求时指定 QoS 的需求,安全业务往往有着严格的最晚响应时间的要求,实时环境中更是如此。实时响应要求高的云计算领域广泛采用作业
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 强化 学习 软件 定义 全中台 Qo_S 实时 优化 算法 李元诚
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。