分销赏收藏举报申诉 / 9

立即下载开通VIP

当前位置：首页 > 品牌综合 > 临存文档 > 云原生下基于深度强化学习的移动目标防御策略优化方案_张帅.pdf

云原生下基于深度强化学习的移动目标防御策略优化方案_张帅.pdf

上传人：自信****多点

文档编号：471501

上传时间：2023-10-13

格式：PDF

页数：9

大小：1.52MB

《云原生下基于深度强化学习的移动目标防御策略优化方案_张帅.pdf》由会员分享，可在线阅读，更多相关《云原生下基于深度强化学习的移动目标防御策略优化方案_张帅.pdf（9页珍藏版）》请在咨信网上搜索。

1、云原生下基于深度强化学习的移动目标防御策略优化方案张帅*郭云飞孙鹏浩程国振扈红超(战略支援部队信息工程大学信息技术研究所郑州 450002)(军事科学院北京 100000)摘要：针对云原生环境下攻击场景的复杂性导致移动目标防御策略配置困难的问题，该文提出一种基于深度强化学习的移动目标防御策略优化方案(SmartSCR)。首先，针对云原生环境容器化、微服务化等特点，对其安全威胁及攻击者攻击路径进行分析；然后，为了定量分析云原生复杂攻击场景下移动目标防御策略的防御效率，提出微服务攻击图模型并对防御效率进行刻画。最后，将移动目标防御策略的优化问题建模为马尔可夫决策过程，并使用深度强化学

2、习解决云原生应用规模较大时带来的状态空间爆炸问题，对最优移动目标防御配置进行求解。实验结果表明，SmartSCR能够在云原生应用规模较大时快速收敛，并实现逼近最优的防御效率。关键词：云原生；移动目标防御；强化学习；微服务中图分类号：TN915.08;TP302文献标识码：A文章编号：1009-5896(2023)02-0608-09DOI:10.11999/JEIT211589Moving Target Defense Strategy Optimization Scheme for Cloud NativeEnvironment Based on Deep Reinforcement Lea

3、rningZHANG Shuai GUO Yunfei SUN Penghao CHENG Guozhen HU Hongchao(Institute of Information Technology,Strategic Support Force Information Engineering University,Zhengzhou 450002,China)(PLA Academy of Military Sciences,Beijing 100000,China)Abstract:To deal with the difficulty of configuring Moving Ta

4、rget Defense(MTD)strategy under complexityattack scenarios in the cloud native environment,a deep reinforcement learning based moving target defensestrategy optimization scheme(SmartSCR)is proposed.First,the security threats together with the attackpaths are analyzed considering the characteristics

5、of containerization and microservice.Then,in order toevaluate the defense efficiency of moving target defense under complexity attack scenarios in the cloud nativeenvironment,the microservice attack graph model is proposed to defense quantify efficiency.Finally,theoptimization of moving target defen

6、se strategy is modeled as a Markov decision process.A deep reinforcementlearning based strategy is proposed to handle the state space explosion under large scale cloud nativeapplications,thus to solve out the optimal configuration for moving target defense strategy.The experimentresults show that Sm

7、artSCR can quickly converge under large scale cloud native applications,and achieve nearoptimal defense efficiency.Key words:Cloud native;Moving Target Defense(MTD);Reinforcement learning;Microservice 1 引言随着云计算技术的持续发展，已经由“面向云迁移应用”的阶段演进到“面向云构建应用”的阶段，即由“以资源为中心”演进到“以应用为中心”的云原生阶段1。在云原生环境下，传统单体式应用按照功能逻辑被

8、拆分为多个微服务，容器技术则为微服务提供了轻量级运行环境 2。云原生环境下应用可以充分利用云计算弹性、敏捷和资源池等特性，加速应用的开发与迭代过程，提高应用的可扩展性。由于云原生的突出优势，云原生技术生态不断演进，云原生思想也逐渐深入人心3,4。收稿日期：2021-12-29；改回日期：2022-05-19；网络出版：2022-06-13*通信作者：张帅基金项目：国家重点研发计划(2021YFB1006200,2021YFB1006201)，国家自然科学基金(62072467)Foundation Items:The National Key Research and DevelopmentP

9、lan(2021YFB1006200,2021YFB1006201),The National NaturalScience Foundation of China(62072467)第45卷第2期电子与信息学报Vol.45No.22023年2月Journal of Electronics&Information TechnologyFeb.2023云原生彻底改变了云端应用的设计、开发、部署和运行模式，同时也带来了新的安全威胁。微服务化拆分使得服务间的交互接口爆炸式增长，导致微服务攻击面难以管控。基于容器的轻量级虚拟化技术使得同一宿主机上的多个容器共享操作系统内核，给攻击者在集群中

10、横向移动提供了便利5。在传统网络安全策略中，主要使用基于边界部署的防护方案，如防火墙、入侵检测等6。然而，云原生环境下传统应用软件的边界逐渐模糊化，防火墙、入侵检测等防护设备的部署位置难以确定。因此，传统基于边界的防护模型无法完全应对云原生环境下的安全威胁7。作为一种典型的主动防御技术，移动目标防御(Moving Target Defense,MTD)通过持续改变防御目标的攻击面，以起到阻断攻击链的作用。常见的MTD技术包括执行环境动态化8、软件实现动态化9、网络拓扑动态化10等等。针对云原生环境下的MTD策略的优化设计，文献11提出基于动态安全评估与配置优化的MTD策略。该策略通过动态评估容

11、器云环境中的关键节点，实现对MTD策略防护对象的动态调整。由于上述策略仅对关键节点进行防护，难以防范攻击者“绕过”关键节点的攻击场景。针对以上问题，本文提出一种基于深度强化学习的MTD策略优化方案(SmartSCR)。与文献11不同的是，本文考虑采用动态清洗策略对目标应用下所有的微服务进行防护，以应对云原生环境下复杂的攻击场景。同时，使用深度强化学习技术求解最优的动态清洗周期，以实现防御效率的最大化。首先，对云原生环境下微服务化、容器化引入的复杂攻击场景进行分析，建立了微服务攻击图(Mi-croservice Attack Graph,MAG)模型，并基于MAG模型对MTD策略下的防御效率进行

12、刻画；然后，提出基于深度Q网络(Deep Q Network,DQN)的MTD安全配置优化算法，以应对云原生应用规模较大时带来的状态空间爆炸问题。实验结果表明，即使面对较大规模的云原生应用，SmartSCR仍然能够快速实现收敛，并实现逼近最优的防御效率。2 问题分析及挑战本节以实际场景为例，阐明了云原生环境下存在的主要安全威胁，分析了MTD技术解决上述安全威胁的独特优势。并梳理出云原生场景下应用MTD技术的主要挑战。2.1 安全威胁云原生环境下，单体式应用被拆分为多个微服务，运行在云计算集群中。多个微服务间协调配合，通过调用链的方式实现特定功能。对于每个微服务，其运行环境使用容器这种轻量级虚拟

13、化技术，实现了微服务运行环境的隔离需求。同时，每个微服务将调整其副本数量，已应对自身动态变化的并发请求。然而，将单体式应用拆分为微服务模式，同样导致攻击面爆炸式增长。以图1为例，本文从攻击目标、攻击过程和攻击者能力假设3方面描述安全威胁。iASi=Ai,CiAiCi(1)攻击目标。在云原生环境下，云计算集群中运行的所有微服务都可能成为攻击者的目标。对于第个微服务，其攻击面可由应用层攻击面和容器层攻击面组成，可表示为。其中，应用层攻击面包含应用自身代码以及代码所依赖的代码库、框架等。容器层攻击面指的是微服务应用所使用的容器运行环境。(2)攻击过程。本文采用网络杀伤链(Cyber KillCha

14、in,CKC)模型来分析攻击者的攻击过程7。在该模型中，攻击者首先需要对攻击目标进行侦察探测，获取发起网络攻击所需的信息。然后，攻击者基于收集到的信息(如目标存在的漏洞信息)，并对目标展开攻击。(3)攻击者能力假设。假设攻击者处于云计算集群外部，通过互联网对微服务应用展开攻击。攻击者首先只能攻击对外开放的微服务的应用层攻击面，如服务A。当攻击者通过应用层漏洞成功挟持服务A时，攻击者有以下两种攻击模式，以实现在云环境的横向移动。(a)面向应用层的攻击。攻击者从应用层逃逸后，继续寻找网络可达的微服务，对其应用层攻击面展开攻击。假设云原生环境下网络配置服从最小权限原则11，即只有当微服务间有调用关系

15、时，两者网络才是可达的。如图1所示，攻击者在挟持服务A后，可继续对服务B和服务C展开攻击。图 1 云原生环境下微服务攻击面示意图第2期张帅等：云原生下基于深度强化学习的移动目标防御策略优化方案609(b)面向虚拟化层的攻击。攻击者从应用层逃逸后，进入到该微服务的容器层攻击面，寻找容器的漏洞以实现容器逃逸(例如容器配置漏洞CVE-2016-5195)。若能成功实现容器逃逸，则攻击者可获得该容器所在计算节点的权限，移动至该计算节点上的其他容器，直接对容器环境中运行的服务进行挟持。如图1所示，攻击者在挟持服务A之后，可直接进入到容器A。若攻击者成功从容器A逃逸，则可进入同驻的容器D，并挟持容器D所

16、运行的服务D。基于上述分析可知，云原生环境下微服务化、容器化导致攻击面陡增，攻击路径爆炸增长，安全管控十分困难。2.2 移动目标防御策略设计基于MTD的思想，本文考虑通过动态清洗微服务的方式，增加攻击者的攻击逃逸以及横向移动的难度，实现云原生环境下的安全管控。例如，定时删除微服务A的副本，并基于镜像创建新的副本。假设攻击者正在尝试攻击该微服务副本，该清洗策略会使得副本的IP地址发生变化，并清除掉所有攻击者已设法注入的文件，使得攻击者前功尽弃。同样地，假设攻击者已经完成了对被清洗微服务副本的劫持，并设法横向移动，该清洗策略会使得攻击者丧失对该副本的控制。在文献11中，防御者仅考虑对应用中的关键目

17、标使用移动目标防御策略。然而，该文献主要关注应用状态变化后对关键目标的实时调整，仍存在以下问题有待于优化：(1)未能给防御者提供关键目标数量选取的理论依据；(2)未考虑移动目标防御策略的参数设定问题。因此，防御者只能盲目地选取上述参数，难以实现安全和开销的折中。与文献11思路不同的是，本文考虑对所有的微服务都使用主动防御策略，通过调整的防御策略参数的方式优化防御效率，无需防御者设定参数即可实现安全与开销的折中。2.3 主要挑战T尽管动态清洗策略能够显著提高攻击者完成攻击与在内网横向移动的难度，但是，该策略也会对服务质量造成影响。为了平衡微服务的安全与性能，最大化防御策略的效率，需要对不同微服务

18、的清洗周期进行优化设计。该问题主要面临的挑战如下：(1)基于云原生环境下的安全威胁分析可知，攻击者在云环境中攻击路径多样。而为了实现高效的防御，则需要以较高的强度，动态清洗攻击路径上的关键微服务，实现“要地”的重点防御。然而，目前缺乏相应的安全模型，对云原生环境下攻T击者的多样化攻击路径进行刻画，并衡量在不同清洗周期下的防御效果。(2)在云原生环境下，一个复杂的应用中可能包含大量的微服务。例如，Uber中包含了大约2200个微服务12。同时，每个微服务还可能包含多个副本。为了给海量的微服务副本合理配置清洗周期，MTD策略优化算法需要有着较强的可扩展性，以应对云原生应用规模较大的场景。3 问

19、题建模针对云原生环境下MTD策略所面临的挑战，本节首先根据攻击者内网渗透的特点，提出MAG模型，刻画攻击者多样化的攻击路径以及MTD效果；然后，基于MAG模型，详细归纳了动态清洗策略所面临的清洗周期配置问题。最后，将MTD配置优化问题转化为马尔可夫决策过程(MarkovDecision Process,MDP)。3.1 微服务攻击图模型基于对云原生环境下攻击者攻击路径的分析，本文对MAG做如下定义。G=(N,E)NIMN=I,A1,A2,.,AM,C1,C2,.,CMA1,A2,.,AMC1,C2,.,CME N N定义1使用有向图来表示MAG，其中，是图中节点的集合，包括攻击者与微服务所有

20、的攻击面。假设云环境中应用由个微服务副本组成，则。其中，代表应用层攻击面，代表虚拟化层攻击面。是图中所有边的集合，每条边代表着攻击者的攻击路径。Na,Nb N,a=be=(Na,Nb)NaNbNbNbTbeNbNbTb基于上述定义，对于节点，边表示攻击者基于已挟持的节点，利用节点的漏洞横向移动至。本文考虑采用MTD策略下成功抵御攻击的概率来表示图中边的权重。假设节点的动态清洗周期为，则边的权重与两方向因素相关：(1)节点上存在的漏洞利用的难易程度；(2)节点的动态清洗周期为。EMEM针对节点上漏洞利用的难易程度，考虑基于通用漏洞评分系统(Common Vulnerability Scorin

21、gSystem,CVSS)进行刻画13。在最新发布的CVSS3.1规范中，包含了漏洞的以下指标：基础得分度量、临时得分度量和环境得分度量。为了刻画漏洞利用的难易程度，使用漏洞利用困难度进行评估。基于基础得分度量中的可利用性指标，具体可表示为EM=(8.22 AV AC PR UI)1(1)AV AC PRUI其中，,和均为漏洞可利用性指标中的参数，分别代表攻击向量、攻击复杂度、特权需求度和用户交互度。对于每个节点所代表的攻击610电子与信息学报第 45 卷WND面，可能存在多个可利用的漏洞。然而，无法预估攻击者的行为，判断其攻击时会选择的漏洞。针对该问题，本文使用临时得分度量衡量漏

22、洞被攻击者选择的权重。通过对节点上所有漏洞利用的困难程度进行加权平均，节点漏洞利用的困难程度可表示为ND=vV(W EM)vVW(2)V其中，表示该节点代表的攻击面存在的所有漏洞的集合。patt(0,1)为了衡量不同清洗周期下攻击者攻击成功的概率，考虑采用S型函数建模攻击成功概率随攻击时间的变化，该模型也被广泛应用于对CKC模型下攻击成功概率的衡量14。在该模型下，攻击成功概率随着攻击时间的增加而增加，可分为两个阶段：(1)在第1阶段，攻击成功概率的增长率逐渐增加，代表着攻击者获取到的漏洞利用信息逐渐增加；(2)在第2阶段，攻击成功概率的增长率逐渐减少，代表着攻击者关于攻击目标可获取的漏洞利用

23、信息逐渐饱和。攻击成功概率具体可表示为patt(t)=p0+p1 p01+e(t)(3)p0p1=f(ND)f()ND其中，表示攻击成功概率的下限，表示攻击成功概率上限，表示攻击成功概率的增长率，代表攻击者攻击能力的强弱，表示攻击者达到最大攻击成功概率的增长率所需时间，代表漏洞利用的难易程度。函数为漏洞利用难易程度至参数的映射。e=(Na,Nb)，Na=NbD(e)NaNbNaNbNaNbD(e)基于上述模型，对于边，采用防御成功概率表示该边的权重。当与同属于同一个微服务副本时，即与分别属于同一副本的应用层攻击面和虚拟化层攻击面时，攻击者可直接进行横向移动，无需进行漏洞利用，因此此时防御成功

24、概率为0。当与网络不可达时，攻击者无法进行横向移动，因此防御成功概率为1。当网络可达且需要通过漏洞利用才能实现横向移动时，假设攻击者充分利用微服务副本静态的时间开展攻击，则防御成功概率可基于式(3)进行求解。综上，边的权重具体可表示为D(e)=0，Na与Nb属于同一个微服务副本1，Na与Nb网络不可达1 patt(Tb)，Na通过漏洞利用移动至Nb(4)TbNb其中，表示节点的清洗周期。3.2 问题描述MS=s1,s2,.,sMH=T1,T2,.,TMG=(N,E)PN=n1,n2,.,nW，PN NGG对于包含个微服务的应用，假设每个微服务有自身的清洗周期，应用整体的安全配置可表示为。当微服

25、务副本数量及每个副本所运行的节点确定后，便可基于MAG模型生成图。假设是云环境下需要保护的节点集合，攻击者会选择最容易的攻击路径对目标进行攻击。因此，攻击者达成攻击目标的难易程度可以采用图中攻击者到攻击目标的最短距离进行衡量。相应地，系统的安全性能也能够由攻击者实现攻击目标的难易程度表示。然而，由于防御方无法感知攻击者的攻击目标，因此考虑采用图中攻击者到所有目标最短距离的平均值刻画系统的安全性指标，具体可表示为=1WnPNG(I,n)(5)G(I,n)GIn其中，表示图中从攻击者到攻击目标的最短路径。cost为了提高系统的安全性，显然动态清洗策略的周期越小，攻击者越难以完成攻击，系统的安全

26、性也就越高。然而，动态清洗策略也会给系统的性能带来影响，频繁的动态清洗会影响应用的服务质量(Quality of Service,QoS)。因此，考虑采用单位时间动态清洗次数作为防御策略的开销指标，具体可表示为cost=ik=11Tk(6)H为了最优化系统的防御配置，定义防御效率DE为系统安全性与防御开销的比值。同时，以最优化DE为目标，最优化防御配置，可实现对云环境下关键攻击面的重点防御，防御资源精准配置。该优化问题可表示为maxcosts.t.Ti H,Tmin Ti Tmax(7)GM|N|EMO(|N|2)FGO(FM|N|2)相比于文献11，本文的优化问题计算复杂度大幅提高。当图下

27、微服务数量为，节点数量为时，给定一个固定的防御配置时，使用最短路径算法如Dijkstra算法求解的计算复杂度为。假设对于每个微服务，防御策略的配置有种选择。因此，对于图，遍历求出最优的计算复杂度为。3.3 马尔可夫决策过程MDP是序贯决策的数学模型，可由5元组第2期张帅等：云原生下基于深度强化学习的移动目标防御策略优化方案611M=S,A,P,R,SAP(St+1|St,a)Sta ASt+1R(St,a)Sta 0,1Sta(a|St)表示15。其中，表示有限的状态集合，表示有限的动作集合，表示在状态下，执行体动作使得状态变化为的概率。表示在状态下执行动作的收益值。是折扣因子，用于控制未来

28、收益与当前收益的折中。强化学习的目的是求解出由状态映射至动作的策略函数，使得累计回报值最大。其中，累计回报值由贝尔曼方程给出15。ttRStHtSt=RSt,HtTTM(2M+1)HtDE本文的安全配置优化问题可转化为MDP问题。将连续时间以固定时间间隔进行抽样，在时刻，智能体需要获取目前应用状态以及安全配置，作为当前的状态输入，即。对于状态输出，可以对安全配置中的清洗周期以间隔进行离散化抽样。每次执行动作时，先选取一个微服务，然后将其清洗周期增加或减少，或是维持配置不变。因此，对于个微服务，动作集合中共有种可选动作。每次执行完动作后，需要对当前安全配置进行更新。对于当前的收益，可使用优化问

29、题中的防御效率进行衡量。4 SmartSCR设计本节主要论述SmartSCR的设计，包括其总体架构设计以及基于DQN的安全配置优化算法。4.1 SmartSCR总体架构SmartSCR基于容器云编排框架Kubernetes实现，其架构如图2所示。SmartSCR包括微服务状态监控模块、安全策略优化模块和微服务安全控制模块。微服务状态监控模块负责获取应用在集群中的运行状态信息。应用的运行状态指的是每个微服务的副本数量以及每个副本所运行的宿主机信息。微服务状态监控模块会将最新的状态发送给安全策略优化模块。安全策略优化模块负责根据应用的运行状态，生成最优的应用安全配置，其处理过程如下：安全策略优化模

30、块将应用的运行状态和当前安全配置进行预处理后，作为DQN算法的输入数据传输到其神经网络的输入层。经过DQN算法对安全配置进行迭代优化并实现收敛后，将优化后的安全配置发送至微服务安全控制模块。微服务安全控制模块通过与Kubernetes进行交互，按照当前的安全配置对微服务进行管理。在微服务副本运行时间达到清洗时间后，对微服务副本执行清洗操作。在对副本进行清洗时，微服务安全控制模块会将每个微服务中副本的清洗事件放入一个独立的队列中。并且，只有当清洗事件执行完成后，才会从队列中取出并执行下一个清洗事件。通过该机制，保证了动态清洗策略不会影响服务的可用性。SmartSCR的核心在于基于DQN的安全策略

31、优化模块能够根据输入的应用状态，迅速对安全配置进行优化。后续将对该基于DQN的自适应安全配置算法进行详细介绍。4.2 基于DQN的安全配置优化算法为了解决上述MDP问题，传统研究中均采用基于值函数迭代的方式进行求解，具体包括基于蒙特卡罗的强化学习和基于时间差分的强化学习等方法15。在这些方法中，需要记录所有状态和动作对应的值函数，作为学习到的“经验”。当状态空间较大时，状态-动作值函数的记录、查询与迭代更新都会产生较大开销。为了实现在大规模状态空间进行强化学习，DQN算法将强化学习与深度学习结合，将状态作为神经网络的输入，将动作作为神经网络的输出，将在该状态下对应动作的输出值作为状态-动作值函

32、数。通过不断与环境交互产生训练数据，训练神经网络，使其不断逼近当前环境的状态-动作值函数。tStatrtSt+1St,at,rt,St+1j在DQN中，存在两个相互独立的神经网络：评估网络与目标网络，参数分别用与表示。在时刻，智能体在状态下执行了动作，观察到收益为且下一个状态为。4元组便是DQN从环境中学习到的“经验”。评估网络的参数会基于学习到的“经验”不断迭代更新，在第次迭代时，其损失函数可表示为Lj(j)=Eyj Q(Sj,a;j)2(8)Q(Sj,a;j)jSjayj其中，表示神经网络参数为时，输入下动作对应是输出值；是评估网络的学习目标，由当前收益与评估网络计算可得，具体可表

33、示为yj=rj+maxaQ(Sj+1,a;)(9)为了提高DQN的稳定性与收敛速度，经验回放机制与定期更新机制被应用于DQN的训练。在经验回放机制中，会将DQN所学到的“经验”存到某图 2 SmartSCR总体架构图612电子与信息学报第 45 卷D个存储空间中。假设经验复用池容量为，当经验池中存储满时，才会开始对神经网络进行训练。每次训练迭代中，随机从存储中选取特定数量的“经验”用于神经网络的训练，以减少训练数据之间的相关性。在定期更新机制中，每经过固定的迭代步数，目标网络会拷贝评估网络的参数作为自身参数。最优MTD策略求解过程如算法1所示。在Smart-SCR中，DQN中神

34、经网络采用前馈神经网络，使用应用的状态作为神经网络的输入，离散化后的MTD策略参数作为神经网络的输出。算法中主要涉及DQN与环境交互的接口，状态、动作和收益值。具体设计如下：MiURiiRMSi=ind1,ind2,.,indURiind 1,UNRS=RMS1,RMS2,.,RMSMSt=RSt,Ht(1)状态。状态数据由应用的运行状态与安全防护配置组成。为了便于神经网络处理，假设集群中有UN个计算节点，共有个微服务，第个微服务的副本数为，则第个微服务的运行状态。其中且为整数，指的是该副本所在的计算节点的编号。应用的运行状态可由所有微服务的运行状态组成，即。组合当前应用的运行状态和安全

35、配置，便可得到输入的状态数据，即。为了产生大量训练数据，可随机生成每个微服务的副本数量，并按照容器云平台调度策略模拟每个副本所调度到的计算节点，由此作为当前迭代的应用状态。同时，安全防护策略也可通过随机的方式生成。(2)动作。DQN算法的动作取决于输出层取T值。在每次迭代中，可以选择以为基本单位，增加或是减小某个微服务的跳变周期，或是保持安全配置不变。(3)收益值。在计算当前收益时，可以基于输入的运行状态，生成MAG模型，并结合安全防护配置，计算出防御效率DE作为收益。5 实验与评估 5.1 实验环境与参数设置本文在实际容器云环境中验证SmartSCR的有效性。本文采用容器云编排平台Kuber

36、netes搭建容器云集群。集群共包括11台服务器，配置均为40核，64 GB内存，2 TB 磁盘。其中，10台服务器作为集群计算节点，1台服务器作为集群管理节点。同时，SmartSCR也运行在集群管理节点上。在该容器云集群上，部署了一个Web应用，该应用由4个微服务组成，相互间调用关系与图1相同。该应用的具体信息以及存在漏洞情况如表1所示。基于微服务攻击困难度，可以求解出不同清洗周期下的攻击成功概率，该映射需要对攻击者能力进行合理假设。本文参照文献14中对攻击者能力的假设，在不同清洗周期下，求出不同微服务的成功攻击概率。同时，假设每个微服务最大副本数为50，并以此设计DQN算法的输入；当微服务

37、副本数量不足50个时，DQN算法输入未使用到的部分则置为0。在实际环境中，微服务会按照请求强度调整自身副本数量。为了在实验中模拟实际生产环境，考虑微服务规模较大的场景，假设所有微服务都具有50个副本，并通过Kubernetes调度器将这些副本调度到计算节点上运行。假设攻击者的目标为修改该应用中Mysql的数据。在MAG模型生成时，Tomcat,Memcached和ImageMagick的每个副本，都在MAG模型中有着相对应的应用层节点和虚拟化层节点。而对于Mysql，由于其是有状态的微服务，多个Mysql副本并不会独立提供服务，而是会通过Mysql集群的方式提供服务。在该模式下，任意一个Mys

38、ql副本的数据被改动，都等价于攻击者实现了攻击目标。因此，本文考虑将多个Mysql副本调度到在同一个计算节点上，以最小化攻击面。同时，在MAG模型中，多个Mysql副本组成的Mysql集群仅等价于1个应用层节点以及1个虚拟化层节点。5 104=0.9对于DQN，神经网络的隐藏层采用2层全连接结构，隐藏层神经元数量分别设置为64和32。神经网络的学习率为，折扣因子，每次算法1基于DQN的安全配置优化算法训练输入：微服务间调用关系j输出：DQN神经网络参数DLW(1)初始化经验复用池的容量，最小批量经验数量，网络更新步长(2)for episode in range(STEPS):H(3)随机生

39、成微服务防御配置(4)随机生成每个微服务副本数量，并模拟调度器对副本进行调度；St(5)基于防御配置与应用状态，生成输入atat=maxaQ(St,a;)(6)以的概率随机选择一个动作，否则选择 atSt+1rt(7)基于动作修改防御配置，得出下一个状态，并基于 MAG模型计算对应的奖励St,at,rt,St+1(8)在经验复用池中存储样本L(9)从经验复用池中随机抽个样本(10)使用式(10)和式(11)执行梯度下降W(11)每步更新目标网络参数(12)End(13)获取最优微服务防御配置第2期张帅等：云原生下基于深度强化学习的移动目标防御策略优化方案613L=32训练抽取的最小批次

40、数据，目标网络的更新步长为500。5.2 对比策略在实验中，将本文所提出的SmartSCR分别与统一配置策略7、DSEOM11和最优策略进行对比，突出SmartSCR的优势。对比策略的详细信息如下：(1)统一配置策略对微服务动态周期的配置的问题进行了简化，假设所有微服务的动态周期相同，从而大大减小了问题求解的计算量，并可通过遍历的方式对动态周期进行求解；文献7中在实现动态清洗策略时便采用该策略对问题进行简化；(2)最优策略通过暴力搜索的方式，求出最优的防御策略配置，为各算法提供参考。(3)DSEOM同样通过攻击图模型刻画不同微服务的攻击难度；然而，该策略重点是计算攻击图中的关键节点，并仅对关键

41、节点进行防护。5.3 结果分析为了验证SmartSCR的性能和有效性，本文首先随机生成了各个微服务的副本数量，并在实验环境中创建了该应用。基于微服务副本数量和Kuber-netes调度结果，在不同的经验复用池容量下对DQN进行训练。DDDD=10000D=30000DD=10000图3展示了神经网络误差和防御效率随训练次数的变化。其中，对于每个训练步长，DQN会与环境进行1000次交互。如图3(a)所示，在不同的经验复用池容量下，神经网络都能够迅速实现收敛。当取值较大时，可以存储较多探索阶段所收集的环境信息，使得后续对神经网络的训练更容易收敛，且使其不陷入局部最优。同时，由于DQN会首先填充满

42、经验复用池后，才会从中随机选取经验数据进行训练，因此较大的对DQN来说可能需要更长时间才能收敛，例如，当时，在DQN运行60步后实现了收敛；当时，在DQN运行90步后实现了收敛。同时，取值同样不宜过小，因为较小的经验复用池容量可能导致DQN丢弃某些重要的“经验”，造成DQN收敛的不稳定。例如当时，在训练至90步时模型收敛发生了波动。图3(b)展示了所取得的防御效果随着训练步数的变化，其中，纵坐标为当前步数防御效率的平均值与最优防御效率的比值。在经表 1 应用漏洞信息表微服务名称漏洞编号漏洞利用困难度漏洞权重微服务攻击困难度ATomcatCVE-2021-423400.25646.80.351

43、8CVE-2021-306400.45456.0CVE-2019-02210.357167.1BMemcachedCVE-2016-87040.25648.30.314CVE-2016-87050.25648.3CVE-2016-87060.45456.8CImageMagickCVE-2017-146500.45456.80.4010CVE-2017-142240.35718.3DMysqlCVE-2020-119740.25647.30.4179CVE-2016-66631.00004.3CVE-2016-66620.25648.2ContainerCVE-2021-4378470.625

44、07.60.4483CVE-2020-351970.25647.0 图 3 DQN学习过程示意图614电子与信息学报第 45 卷1 验复用池未填充满时，DQN会采用随机的策略对防御配置进行修改，因此防御效率也一直进行波动。当基于积累的“经验”开始对DQN进行训练后，防御效率会迅速提升，最终收敛至最优防御效率附近。DQN网络在收敛后防御效率仍会有小幅度的波动，这是因为在DQN中为了实现探索-利用的平衡，会采用-贪婪策略，即会以概率随机选择动作，以概率按照神经网络的输出选择最优动作。D=30000图4将SmartSCR与不同算法进行对比。其中，图4(a)展示了SmartSCR将与统一

45、配置策略、DSEOM和最优防御策略所取得的防御效率的对比。其中，SmartSCR的防御效率选取时训练收敛后所得的防御效率。如图4所示，DSEOM所取得的平均防御效率最低，且其防御效率方差最大。其主要原因在于DSEOM仅对云环境下的关键目标进行防护，而一旦攻击者找到路径绕过该关键目标，便可以轻松地实现攻击目标，云原生环境下爆炸增长的攻击面也为攻击者绕过重点布防的节点提供了遍历；同时，DSEOM在确定关键目标之后，MTD策略的参数配置需要由防御者自主选择，参数配置的盲目性使得该策略的防御效果不稳定。统一配置策略通过简化配置，使得能够通过遍历选取简化后最优的配置，相对于DSEOM，能够有效提升防御效

46、率，并具有稳定性。本文所提SmartSCR在训练收敛后，取得的平均防御效率已经十分接近最优值，且方差较小，能够实现稳定的安全防御效果。图4(b)展示了SmartSCR与统一配置策略和DSEOM在不同应用规模下时间消耗的对比，用于衡量策略的可扩展性。其中，横坐标表示该应用中所有容器副本的数量，纵坐标表示求解出MTD配置的时间消耗。在该实验中，通过改变前文Web应用微服务副本的数量，从而改变整个应用的规模。同时，假设每个微服务副本的上限为200，对SmartSCR进行训练。由图可知，DSEOM所消耗的时间最短，且随着应用规模的增长时间消耗也未呈现指数级增长，其原因在于DSEOM需求解的计算量较小，

47、且对最短路径的求解进行了优化。对于SmartSCR，由于其可在线下提前对DQN模型进行训练，因此在线上对MTD策略进行配置的时间消耗也较短，并且能够应对较大规模应用的场景。而对于统一配置策略，由于应用规模的增长大幅增加了求解最短路径的时间消耗，时间消耗随着应用规模的增大也大幅增长，适合应用于小规模应用的场景。6 结束语本文针对云原生环境下移动目标防御策略的最优配置展开研究。首先，针对云原生环境下复杂的攻击场景进行建模，并对MTD策略下的防御策略进行定量衡量。然后，以最优化防御效率为目标，提出了MTD策略的最优配置问题。由于云原生应用的规模以及较大的安全配置空间，直接求解最优配置十分困难。针对该

48、问题，本文将其转化为MDP问题，并提出SmartSCR方案对该问题进行求解。SmartSCR方案中，基于MAG模型对防御效率进行求解，并使用DQN算法应对状态空间爆炸的问题，求解最优防御配置。实验表明，SmartSCR能够有效应对云原生场景下的安全配置优化问题。参考文献中国信息通信研究院.云计算白皮书R.中国信息通信研究院,2021.China Academy of Information and CommunicationsTechnology.Cloud computing white paperR.ChinaAcademy of Information and Communicat

49、ions Technology,2021.1ZHOU Xiang,PENG Xin,XIE Tao,et al.Fault analysisand debugging of microservice systems:Industrial survey,2 图 4 不同算法下的对比第2期张帅等：云原生下基于深度强化学习的移动目标防御策略优化方案615benchmark system,and empirical studyJ.IEEETransactions on Software Engineering,2021,47(2):243260.doi:10.1109/TSE.2018.288738

50、4.KHAN M G,TAHERI J,Al-DULAIMY A,et al.PerfSim:A performance simulator for cloud native microservicechainsJ.IEEE Transactions on Cloud Computing,To bepublished.doi:10.1109/TCC.2021.3135757.3AROUK O and NIKAEIN N.Kube5G:A cloud-native 5Gservice platformC.2020 IEEE Global CommunicationsConference,Taip

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 原生基于深度强化学习移动目标防御策略优化方案

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。