分销赏收藏举报申诉 / 13

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 对抗逃避攻击的过滤式对抗特征选择研究.pdf

对抗逃避攻击的过滤式对抗特征选择研究.pdf

上传人：自信****多点

文档编号：569144

上传时间：2023-12-28

格式：PDF

页数：13

大小：1.31MB

《对抗逃避攻击的过滤式对抗特征选择研究.pdf》由会员分享，可在线阅读，更多相关《对抗逃避攻击的过滤式对抗特征选择研究.pdf（13页珍藏版）》请在咨信网上搜索。

1、研究与开发对抗逃避攻击的过滤式对抗特征选择研究黄启萌1,2，吴苗苗1,2，李云1,2（1.南京邮电大学，江苏南京 210023；2.江苏省大数据安全与智能处理重点实验室，江苏南京 210023）摘要：随着机器学习技术的高速发展和大规模应用，其安全性越来越受关注，对抗性机器学习成为研究热点。在对抗性环境中，机器学习技术面临着被攻击的威胁，如垃圾邮件检测、交通信号识别、网络入侵检测等，攻击者通过篡改少量样本诱使分类器做出错误的分类决策，从而产生严重后果。基于最大相关最小冗余（mRMR），并考虑对抗逃避攻击的安全度量，设计了过滤式对抗特征选择的评价准则。此外，还基于分解策略的多目标演化子

2、集选择（DPOSS）算法，提出一种鲁棒性对抗特征选择算法 SDPOSS，其不依赖后续模型，且能有效处理大规模高维特征。实验结果表明，随着分解个数的增加，SDPOSS 的运行时间会线性下降，且获得很好的分类性能。同时，SDPOSS 算法在逃避攻击下的鲁棒性较好，为对抗性机器学习提供了新的思路。关键词：对抗特征选择；逃避攻击；mRMR；安全性评估准则；帕累托占优中图分类号：TP393 文献标志码：A doi:10.11959/j.issn.10000801.2023140 Research on filter-based adversarial feature selection against

3、 evasion attacks HUANG Qimeng1,2,WU Miaomiao1,2,LI Yun1,2 1.Nanjing University of Posts and Telecommunications,Nanjing 210023,China 2.Jiangsu Key Laboratory for Big Data Security and Intelligent Processing,Nanjing 210023,China Abstract:With the rapid development and widespread application of machine

4、 learning technology,its security has attracted increasing attention,leading to a growing interest in adversarial machine learning.In adversarial scenarios,machine learning techniques are threatened by attacks that manipulate a small number of samples to induce misclas-sification,resulting in seriou

5、s consequences in various domains such as spam detection,traffic signal recognition,and network intrusion detection.An evaluation criterion for filter-based adversarial feature selection was proposed,based on the minimum redundancy and maximum relevance(mRMR)method,while considering security metrics

6、 against evasion attacks.Additionally,a robust adversarial feature selection algorithm was introduced,named SDPOSS,which was based on the decomposition-based Pareto optimization for subset selection(DPOSS)algorithm.SDPOSS didnt depend on subsequent models and effectively handles large-scale high-dim

7、ensional feature spaces.Experimental re-收稿日期：20230216；修回日期：20230702 通信作者：李云，基金项目：国家自然科学基金资助项目（No.61772284）Foundation Item:The National Natural Science Foundation of China(No.61772284)47 电信科学 2023 年第 7 期 sults demonstrate that as the number of decompositions increases,the runtime of SDPOSS decreases

8、 linearly,while achieving excellent classification performance.Moreover,SDPOSS exhibits strong robustness against evasion attacks,providing new insights for adversarial machine learning.Key words:adversarial feature selection,evasion attack,mRMR,security assessment criteria,Pareto dominate 0 引言目前，信

9、息系统的安全性受到社会各界的广泛关注，在通信、医疗、交通以及经济等具有隐私性和敏感性信息的领域中，常常发生信息被泄露、被窃取以及被恶意篡改等事件。传统的信息安全技术往往难以有效处理这些恶意事件，由于机器学习技术能够有效用于已知攻击的防御1和未知攻击的识别2，被广泛应用于信息安全领域，如垃圾邮件检测、交通信号识别、恶意软件检测以及网络入侵检测等3-4。但是，机器学习算法本身存在脆弱性，攻击者利用该脆弱性对样本进行修改，从而逃避分类器的检测。例如，在垃圾邮件过滤系统中，攻击者通过注入“好词”（经常出现在正常邮件中而很少出现在垃圾邮件中的单词）和使用近义词等方式逃避系统的检测。在对抗性环境中，攻击者

10、对样本进行恶意操作，从而违反数据的独立同分布假设5，使得传统机器学习的性能显著下降。因此，对抗性机器学习的研究主要集中在如何有效防御攻击、提高分类器在攻击下的安全性以及构建抗攻击能力较强的分类器。在与信息安全相关的应用中，如垃圾邮件过滤系统、网络入侵检测等，含有大量的特征，需要通过特征选择来构建具有较高泛化能力、较低复杂度以及更容易理解的学习模型。逃避攻击（evasion attack）6是对抗性环境中常见的攻击类型。已有研究7表明，在遭受逃避攻击时，分类器的性能在特征选择后会显著下降，特征选择对分类器的抗攻击能力具有重要影响，因此研究对抗性特征选择具有重要的意义。在逃避攻击中，攻击者通常会将

11、测试集中的恶意样本修改为与训练集中的正常样本类似的样本，从而逃避已构建好的分类器。为了进一步描述逃避攻击，现给出如下符号：1,niiiDx y是 n 个互相独立的样本所组成的训练集，yi y=1,+1代表样本 xi的类标签，y 表示类标签空间，1、+1 分别表示正常、恶意样本。在训练集上训练的分类器使用连续判别函数 h(x)将特征空间映射到类标签空间 y。若 h(x)0，则样本 x 为正常（恶意）样本；若 h(x)0，则样本 x 为恶意样本。如 Zhang 等7所述，攻击者所采取的逃避攻击策略概括为如下优化问题：对于任意的初始恶意样本 x，攻击者通过最小化 h(x,x)找到 x 的最佳攻击样本

12、 x*，样本 x*与 x 的距离约束为：argmin(,)xxh x x（1）maxs.t.(,)d x xd（2）其中，最大修改量 dmax代表攻击者对初始恶意样本 x 的攻击力度，表示攻击者的攻击能力。为了简单起见，用 d(x,x)表示修改过的样本 x与初始样本 x 的距离。特征选择从包含 n 个特征的集合中选择大小不超过w的特征子集以优化给定的目标函数，其中，w1,n，基于不同的评价准则，特征选择算法可以分为过滤器、封装器和混合模式。过滤器模式依据数据特性设计评价准则，独立于后续的学习算法，通常时间开支较小；封装器模式依据后续学习算法性能评价特征选择的结果，通常时间开支较大；混合模式除了

13、具备封装器模式的功能，还考虑了特征选择与分类阶段的关联度，因而比封装器模式更强大，同时训练分类器与特征选择同步进行，因而混合模式的时间复杂度较低。研究与开发 48 近年来，Qian 等8提出了一种基于多目标演化算法的子集选择（subset selection by Pareto optimization，POSS）算法，用于解决贪婪算法和凸松弛方法存在的问题，其首先将子集选择问题以双目标优化的形式表示出来，然后运用多目标演化算法求解该双目标问题，最后从得出的解集中挑选一个满足子集大小约束的最优解。为了降低大规模问题下 POSS 算法的时间复杂度，钱超等9提出了基于分解策略的多目标演化子集选择（

14、decomposition-based Pareto optimization for sub-set selection，DPOSS）算法，其将整个子集空间分解成多个子空间，并依次调用 POSS 来求解。DPOSS 在获得和 POSS 相同近似性能下界的同时，运行时间随着分解个数的增加超线性下降。尽管 Qian 等10在后续研究中又提出了基于重组的多目标演化子集选择（subset selection by Pareto optimization with recombination，PORSS）算法，但其核心是提升 POSS 的性能，而本文的对抗性机器学习环境通常都是大规模问题求解，显然PR

15、OSS 的运行时间难以令人满意。因此 DPOSS是与本文最相关的前序研究。目前，针对逃避攻击的对抗性特征选择，Zhang等7提出了一种对分类算法进行系统性安全评估的框架，利用特征子集解释特征选择如何影响分类器在逃避攻击下的安全性，并进一步提出了基于包络器的对抗特征选择（wrapper-based adversarial feature selection，WAFS）算法。然而在特征选择时，该算法每选择一个特征都需要模拟针对分类器的逃避攻击，导致该算法的时间复杂度很高。为解决上述问题，Wu 等11提出了基于最大相关最小冗余（minimum redundancy and maximum relev

16、ance，mRMR）的对抗特征选择算法FAFS（adversary-aware feature selection algorithm under filter model）。该算法采用前向选择搜索策略获得特征子集。不过，该策略属于贪婪算法，往往会陷入局部收敛，难以找到最优特征子集。因此在 DPOSS 的基础上，本文提出一种基于 DPOSS 的鲁棒性对抗性特征选择算法SDPOSS。为了验证 SDPOSS 算法的性能，本文在两个公开的数据集（垃圾邮件数据集和PDF 恶意软件检测数据集）上对比不同特征选择算法在逃避攻击场景下的性能。本文的主要贡献包括：设计了一种针对逃避攻击的对抗特征选择评价准则，

17、属于过滤器模式，其选择特征时不依赖后续分类器，时间开支小，并通过距离度量来实现安全性衡量；结合基于分解策略的多目标演化子集选择算法，提出了一种针对逃避攻击的鲁棒性对抗特征选择算法，其能有效处理高维特征，在逃避攻击下的抗攻击能力优于现有的对抗特征选择算法，同时不会显著影响分类器在无攻击时的准确性，具有很高的泛化性和可行性。1 过滤式对抗特征选择的评价准则对抗性环境下特征选择模型的基本思想是从n 维特征空间中选择含有 w 个特征的最优特征子集，在挑选特征时，既要考虑后续分类器的泛化能力，又要考虑分类器的抗攻击能力。其评价准则通常可以形式化为：argmax()()S*（3）s.t.|w（4）向量=

18、(l,.,j,.,n)T0,1n表示特征子集，其中 j=1 表示第 j 个特征被选中，j=0 表示第 j 个特征未被选中。|表示特征子集的大小。*表示最优特征子集。()和 S()分别代表分类器的泛化能力和在逃避攻击下的安全性。通过设置参数和为当前()和 S()的最大值的倒数，从而将()和 S()都归一化到0,1。当=1、=0 时，对抗特征选择模型就变成传统的特征选择算法。1.1 泛化能力()由于mRMR12在选择特征时不依赖后续分类器，并且能快速有效地处理高维数据，与本文过49 电信科学 2023 年第 7 期滤式的对抗特征选择方法相契合，因此采用mRMR 度量所选特征子集的泛化能力。为

19、了方便起见，后文中除非特别标明，特征以下标形式出现。mRMR 旨在计算特征与标签之间的相关性I(a;y)，以及特征之间的冗余性 I(a;b)。其中 a、b分别表示第 a 个、第 b 个特征，y 是类标签，并基于互信息 I(X;Y)计算相关性和冗余性。互信息表达式如下：(,)(;)(,)log()()x X y Yp x yI X Yp x yp xp y（5）其中，X和Y是两个随机变量，p(x,y)是(X,Y)的联合概率分布，p(x)和p(y)分别是X和Y的边际分布。在本文中，T()=j|j=1,j=1,n表示已选的特征组成的集合。可通过式（6）和式（7）计算T()的相关性C(T(),y)和冗

20、余度R(T()。()1(),)(;)|a TC TyI a y（6）2,()1()(;)|a b TR TI a b（7）对相关性与冗余度进行组合（即相减的形式），从而形成基于mRMR的泛化性能评价指标：()(),)()C TyR T（8）1.2 安全性 S()除了所选特征子集的泛化能力，对抗性环境中的特征子集安全性也同等重要。现有的度量方法复杂且可操作性很低。下面将介绍本文所设计的以距离度量为基础的安全性方法（以二分类为例）。在逃避攻击中，攻击者倾向于通过修改恶意样本来逃避分类器的检测，因此在度量安全性时只需考虑恶意样本。为提升安全性，在选择特征子集时，使正常样本和恶意样本在选择的子集空间上

21、距离尽量远，从而增大攻击者修改恶意样本的难度。对于每个恶意样本xt而言，首先计算该样本与正常样本的最近距离，然后对距离求和并平均化，最后使用该均值度量安全性S()，通过最大化S()来选择特征子集：,1min,()tqtqxM xLSd x xz（9）其中，M、L分别表示恶意、正常样本集，z表示恶意样本数，xt、xq分别表示任意的恶意、正常样本。距离函数d(,)的定义跟逃避攻击中距离（式（2）的定义一样。若样本集中的特征值是离散型，则采用L-1范数；若样本集中的特征值是连续型，则采用L-2范数。2 基于 DPOSS 的对抗特征选择算法为最优化上述对抗特征选择评价准则，本文基于DPOSS搜索最优

22、对抗特征子集，并提出基于安全分解策略的多目标演化子集选择（subset selec-tion by Pareto optimization based on decomposition strategy with security，SDPOSS）算法。用帕累托占优的搜索策略（即定义1）进行特征选择，可以保证获得较好的对抗特征选择结果。定义 1 帕累托占优。若存在一个双目标函数F=(f1(),f2()，求目标函数的最小解，P表示所有解向量的集合。若存在两个不同的解向量p、pP，那么：（1）当满足f1(p)f1(p)且f2(p)f2(p)时，则p弱占优于p；（2）当满足p弱占优于p且同时满足f1(

23、p)f1(p)或者f2(p)f2(p)，则p占优于p。根据分解策略，DPOSS算法旨在将特征空间U=1,2,n分解成m个特征子空间，即11,mkkkww，其中wk表示特征子集的大小。其搜索策略简述如下。首先将POSS算法的求解式（式（10）转化为式（11），即将P分解成m个子集，但必须满足w0=0、wm=w。*120,1,|argmin(),()nwPff （10）1*120,1,|argmin(),(),1,2,nkkkkwwPffkm（11）研究与开发 50 其中，f1()表示基于所选特征子集构建分类器的泛化能力，即f1()=()，旨在最大化传统特征选择评价准则()；f2()

24、为所选特征子集的大小，即f2()=|；P表示POSS算法求出的最优特征子集的集合；Pk表示DPOSS算法中第k个特征子空间的最优特征子集的集合；|P|表示P所包含的最优特征子集个数；|Pk|表示Pk所包含的最优特征子集个数。由于DPOSS算法的时间复杂度与|Pk|有关，为使得m个特征子空间的总时间复杂度尽可能低，应使|Pk|尽可能相近。为此，wk按如下方式进行设置：11:,1kkkwkwm wmwwwPmm（12）1:,1kkkwwmkm wmwwwPmm（13）任意相邻的 Pk和 Pk1含有一个共同的最优特征子集*1k，且|*1k|=wk1。假设 Pu和 Pv分别为第 u 个特征子空间和第

25、v 个特征子空间的最优特征子集的集合，则|Pu|和|Pv|至多相差 1。DPOSS算法逐步调用 POSS 获得 P1,P2,Pm。为了获得第 k 个特征子空间的最优特征子集的集合 Pk，首先将第 k1 个特征子空间所获得的最优特征子集*1k 作为初始特征子集；然后调用 POSS 方法，直到循环次数达到Tk；最后输出最优特征子集*k。但在获得第 k 个特征子空间的最优特征子集的集合 Pk时，需对 f1()做相应的转换：1111,|2(),|2kkkkkwwfwww（14）若第 k 个特征子空间的初始特征子集*1k 满足|*1k|wk1，POSS 算法会丢弃该特征子集。因此，第 k 个特征子空间调

26、用 POSS 算法所得出的最优特征子集应满足 wk1|*1k|2wkwk1。同时，对于任意的|，Pk中最多包含一个相应的特征子集，即|Pk|2wkwk1，比在整个特征空间调用 POSS 所获得的 P 的大小（2w）小很多。若第 k 个特征子空间的初始特征子集*1k 满足|*1k|wk1，则违反特征个数的约束条件而被丢弃。为了解决这种情况，扩充*1k，即从*1k 中随机选择 wk1|*1k|个 0 转换为 1 以满足|*1k|=wk1，进而将扩充后的特征子集作为第 k 个特征子空间的初始特征子集。当 m=1 时，DPOSS 变为 POSS算法，即不采用分解策略。在每一次占优、弱占优的比较中，都会

27、将 f1()与 f2()做对比。假设和都是第 k 个特征子空间产生的特征子集，若 f1()f1()且 f2()f2()，则弱占优于，进而将加入 Pk；弱占优于且满足 f1()f1()或者 f2()f2()，则占优于，进而将加入 Pk；若 f1()f2()，则、不满足占优与弱占优条件，进而将、都加入 Pk。若在某次迭代中存在其他特征子集占优于或，则从 Pk中删除或而将其他特征子集放入 Pk。若不存在其他特征子集占优于、，则按照给定的标准挑选最优特征子集。该标准旨在选择第一个目标函数 f1()取值较低的特征子集。SDPOSS 算法的第一个目标函数 f1()=()+S()，旨在最大化前述对

28、抗性特征选择评价准则()+S()，而与 SDPOSS 相对应的非对抗特征选择算法 DPOSS 的第一个目标函数仅为()，不考虑特征选择结果的抗攻击能力。SDPOSS算法的第二个目标函数f2()与DPOSS算法相同，都为|，即最小化所选特征子集的大小。则 SDPOSS 的目标函数可以表示成：1*0,1,|argmin()(),|)nkkkkwwPS（15）算法 1 SDPOSS 算法输入整个特征空间 U=1,2,n，第一个目标函数()+S()，第二个目标函数|以及正整数 w1,n，分解个数 m1,w，各个特征51 电信科学 2023 年第 7 期子空间中的 POSS 算法运行轮数 T1,T

29、2,Tm 输出最优特征子集*m for k=1 to m do if k=1，then 使用 POSS 算法获得解集 P1，其中初始解为0n，运行轮数为 T1 POSS 算法终止运行后，输出解*1=argminP,|w1()S()else 使用 POSS 算法获得解集 Pk，其中初始解为*1k，运行轮数为 Tk POSS 算法终止运行后，输出解*k=argminP,|wk()S()end if end for return*m 3 实验与分析为了验证 SDPOSS 算法的有效性，本文选择了两个公开的 UCI 数据集（垃圾邮件数据集和PDF 恶意软件检测数据集）进行实验。在垃圾邮件过滤系统中

30、，所有邮件均来自 TREC 2007 邮件语料库13，以词频的方式表示特征值并采用线性支持向量机（support vector machine，SVM）分类器7进行训练。对于 PDF 恶意软件检测而言，所有 PDF 文件均来源于 Battista14，该数据集由离散特征空间组成，其取值范围是0,100，并采用径向基函数（radial basis function，RBF）核函数的非线性 SVM7分类器进行训练。由于攻击者通常会修改恶意样本，因此在模拟攻击时，一般考虑用分类器的误报率（false positive rate，FPR）（分类器把正常样本判别为恶意样本的比例）和命中率（true po

31、sitive rate，TPR）（分类器成功判别恶意样本的比例）来评价。由文献 15 可知，一个分类器的TPRFPR=1%（表示 at，即 FPR=1%时 TPR 的值）取值越大（其取值在 0 到 1 之间），分类器的性能越好，越有利于验证分类器的抗攻击能力。分类器的安全性能评估将在测试集上进行，并且采用式（1）式（2）所提出的攻击策略对每一个恶意样本进行修改。为了解分类器在遭受逃避攻击后的性能下限，本文主要考虑完全知识（perfect knowledge，PK）攻击。在 PK 攻击中，攻击者了解特征空间、分类器的类型以及训练模型。该假设有助于了解分类器在对抗性环境下最糟糕的情

32、况。因此在不同的攻击力度 dmax下，用 TPRFPR=1%表示分类器在 PK 攻击下的抗攻击能力。实验使用 Windows 10 系统，Python 3.6 版本，内存容量为 8 GB。对比实验主要包括 3 个部分：首先，将传统特征选择算法（mRMR、传统的封装器特征选择（TWFS）7、DPOSS）与对抗特征选择算法（FAFS、WAFS、SDPOSS）在有/无逃避攻击下的性能进行比较，从而有效反映逃避攻击对分类器的泛化能力以及安全性的影响；其次，从时间复杂度的角度对以上 6 种方法的运行时间进行比较；最后，比较 mRMR、FAFS、DPOSS以及 SDPOSS 算法的安全性 S()，进而验证

33、本文所提算法的有效性。3.1 垃圾邮件过滤系统在垃圾邮件过滤系统中，通过分析邮件的内容，用 TF-IDF 对特征进行表示，进而评估一个单词对一个语料库中的某一份邮件的重要性。根据这些信息，可通过训练线性核函数 SVM 分类器来区分垃圾邮件和正常邮件。然而，垃圾邮件发送者往往通过坏词模糊或者注入好词等方式攻击该系统，即攻击者会修改某些特征的词频来实施逃避攻击。（1）实验说明垃圾邮件数据集由 5 000 封垃圾邮件和5 000 封正常邮件组成。每一封邮件可用一个向量表示，特征值对应着词频。由于垃圾邮件数据集包含大量的特征，为减少计算量，将上述邮件语料库研究与开发 52 的前 5 000 封电

34、子邮件作为训练，采用信息增益的方法获得 500 个不同的单词作为特征集。每次运行中，由 1 000 个样本组成的数据集被随机分成样本数都为500 的训练集和测试集。重复上述过程10 次，然后对这 10 次所获得的结果平均化并将其作为分类器的最终结果。在进行特征选择时，mRMR、FAFS、DPOSS 以及 SDPOSS 算法都需要在训练集上进行五折交叉验证，挑选的特征个数都是 1500。对于本节所采用的线性分类器 SVM 中的惩罚因子 C，通过对训练集的五折交叉，最终确定CmRMR=0.5、CFAFS=1、CDPOSS=1.5、CSDPOSS=3.25。在实验中，dmax表示攻击者对数据的操作能

35、力。对于垃圾邮件而言，设置攻击者的最大攻击长度为3.0，即 dmax0,3.0。（2）实验结果没有攻击时，垃圾邮件过滤应用中 4 种算法的准确度如图1 所示。图1（a）描述了在没有攻击的情况下，mRMR、TWFS、WAFS 以及 FAFS 算法随着特征数 k 增加的准确度变化。在大多数情况下，与 WAFS 相比，FAFS 具有更好的分类准确度。同时，mRMR 和 FAFS 可以快速收敛，进一步验证了mRMR 和 FAFS 能够快速删除大量冗余特征并选择最相关的特征。由图 1（a）可以看出，特征数w=365 时，分类器的准确度相对而言变化幅度很小。图 1（b）描述了当特征数 w=365 时，D

36、POSS（当 m=1 时，该算法为 POSS 算法）、SDPOSS、WAFS以及 FAFS 4 种算法随着分解个数 m 增加的准确度变化。对于贪婪算法（WAFS 和 FAFS）而言，因为它求解的方式只与特征个数有关，而与分解个数无关，因此 WAFS 与 FAFS 是两条平行的直线（值分别对应w=365 时的准确度）。从图1（b）可以看出，DPOSS 与 SDPOSS 的准确度随着分解个数的增加会有所下降，但始终比 WAFS 与 FAFS 算法好。根据图1（b）得出的结论，分别探讨m 为 1、4、10 时，DPOSS（当 m=1 时，该算法为 POSS 算法）、SDPOSS、WAFS 以及 FA

37、FS 4 种算法在没有攻击的情况下，随着特征数 k 增加的准确度变化，如图2 所示。当分解个数为 1、4、10 时，横坐标的范围分别为1,500、4,500和10,500。图 2 表明在大多数情况下，与 WAFS 和 FAFS 相比，SDPOSS具有更好的分类准确度。DPOSS 的分类性能最好，SDPOSS 次之。实验结果还表明，DPOSS、SDPOSS和 FAFS 可以快速收敛，验证了 3 种算法能够快速丢弃大量的冗余特征并选择最相关的特征。同时还能看出，随着分解个数的增加，DPOSS 与 SDPOSS的分类性能有所下降，在一定程度上佐证了图1（b）的结论。图 1 没有攻击时，垃圾邮件过滤应

38、用中 4 种算法的准确度在垃圾邮件过滤应用中6种算法的时间对比如图 3 所示。图 3（a）描述了 mRMR、TWFS、WAFS以及 FAFS 算法随着所选特征数 k 增加的运行时间曲线。从图 3（a）可以发现，属于封装器模式的特征选择算法具有很高的时间复杂度，特别是WAFS。53 电信科学 2023 年第 7 期图 2 无攻击时，垃圾邮件过滤中 4 种算法随着特征数 k 增加的准确度变化钱超等9对于DPOSS算法在运行时间方面的验证都采用算法的加速比进行度量，因此本文采用加速比对 DPOSS 算法和 SDPOSS 算法进行度量。加速比的表达式如下：POSSDPOSS(SDPOSS)算法

39、的运行时间加速比算法的运行时间（16）图 3 在垃圾邮件过滤应用中 6 种算法的时间对比从图3（b）可以发现，DPOSS与SDPOSS算法在运行时间上的加速比高于线性加速比，说明DPOSS算法和SDPOSS算法在一定程度上能有效减少POSS的时间复杂度，其所需运行时间随着分解个数m的增加线性下降。但总体而言，贪婪算法的时间复杂度比POSS、DPOSS以及SDPOSS低，这是因为贪婪算法在局部进行求解，而DPOSS和SDPOSS在每一个子空间里从头开始求解。这在一定程度上可以直观地看出贪婪算法比帕累托占优算法的时间复杂度要低很多，为此只比较DPOSS以及SDPOSS算法。由图1（b）与图3（b

40、）可知，当m=4时，准确度与加速比都比较适中，因而接下来分析在研究与开发 54 垃圾邮件过滤应用中6种算法在PK攻击场景下，m=4时，其特征数k分别为100、200、300和400时，TPRFPR=1%的变化，如图4所示。图4表明，6种算法在没有攻击的情况下表现出相似的性能（即dmax=0）。但在逃避攻击（dmax0）时，SDPOSS、FAFS和WAFS总是优于mRMR、TWFS和DPOSS，可以得出对抗特征选择算法能够提高分类器的抗攻击能力。相比FAFS算法，SDPOSS的抗攻击能力较好。此外，还可以观察到，随着dmax的增加，传统特征选择算法的性能会显著降低。在这种情况下，考虑垃圾邮件的

41、最大攻击长度为3.0时，邮件分别以逃避率0.95和0.92逃避FAFS、SDPOSS所构建的分类器。为了验证FAFS与SDPOSS的鲁棒性，接下来将讨论mRMR、FAFS、DPOSS和SDPOSS算法在PK攻击场景下，m=4的安全性S()，如图5所示。图5表明，对于所考虑的特征数k，在没有显著影响()的情况下，相比FAFS，SDPOSS算法要求攻击者对恶意样本实施更多修改才可逃避检测。同时也表明在特征选择期间，最大化安全性S()有助于提高逃避攻击下的抗攻击能力。图 5 在 PK 攻击场景下，在垃圾邮件过滤系统中 4 种算法所对应的安全性 S()3.2 PDF 恶意软件检测在PDF恶意软件检测

42、中，这些PDF文件有着特别的层次结构（允许文件包含各种不同的内容，如JavaScript、Flash和一些二进制代码等），该特图 4 垃圾邮件过滤应用中 6 种算法在 PK 攻击场景下，TPRFPR=1%的变化 55 电信科学 2023 年第 7 期性为攻击者实施逃避攻击提供了一个契机。分析PDF文件的内容，将PDF文件以向量的形式表示，每个特征值代表某个特征在所有PDF文件中出现的次数。与垃圾邮件过滤相反，在不破坏PDF文件层次结构的情况下，无法从PDF文件中删除特征，但可以很轻易地通过PDF版本控制机制添加特征，所以往往将附加约束xx添加到上述所涉及的优化问题中，以找到最优攻击样本。（1

43、）实验说明 PDF恶意软件数据集由5 591个合法文件和5 993个恶意文件组成。前1 000个PDF文件用于生成114个不同的特征作为特征集。此外，为了减少异常值的干扰，设定每个特征值不大于100，并将所有特征值除以100从而归一化到0,1。根据这些信息，使用RBF核函数作为分类器的SVM来评估特征选择算法的性能。本节采用L-1范数作为距离函数。在每次运行中，由1 000个样本组成的数据集被随机分成500个样本的训练集和测试集。重复上述过程10次以平均分类器的最终结果。对于本节所采用的RBF核函数分类器SVM中的惩罚因子C以及最优核参数，通过对训练集的五折交叉验证确定CmRMR=0.5、CF

44、AFS=256、CDPOSS=10、CSDPOSS=128、mRMR=0.1、FAFS=0.5、DPOSS=128、SDPOSS=1.25。攻击者往往会模拟恶意软件样本中合法PDF的结构，从而实施逃避攻击。在PDF恶意软件检测中，设置攻击者的最大攻击长度dmax0,0.3，即每一个恶意PDF文件至多插入30个特征。（2）实验结果没有攻击时，PDF恶意软件检测中4种算法的准确度变化如图6所示。在图6（a）中，FAFS算法的分类准确度比WAFS好，同时验证了mRMR和FAFS能够快速收敛。由图6（a）可知，特征数k=52时，分类器的准确度相对而言变化幅度很小，因此分析当特征数为52时，DPOSS

45、、SDPOSS、WAFS以及FAFS算法随着分解个数m增加的准确度变化，如图6（b）所示。可以看出，DPOSS与SDPOSS的准确度随着分解个数的增加会有所下降，但始终比WAFS与FAFS好，当分解个数为6时，准确度下降幅度较大。图 6 没有攻击时，PDF 恶意软件检测中 4 种算法的准确度变化根据图6（b）得出的结论，探讨m为1、6、10时，4种算法在没有攻击的情况下随着特征数k增加的准确度变化，如图7所示。图7的横坐标分别对应着1,114、6,114和10,114。与WAFS和FAFS相比，SDPOSS具有更好的分类准确度。实验结果还表明，除了WAFS算法，其他3种算法能够快速收敛，从而

46、验证了mRMR的有效性。PDF恶意软件检测应用中6种算法的时间对比如图8所示。由图8（a）可知，属于封装器模式的特征选择算法的时间复杂度很高，特别是WAFS。由图8（b）可知，DPOSS与SDPOSS算法在运行时间上的加速比高于线性加速比，表明这两种算法研究与开发 56 在一定程度上能够减少POSS的时间复杂度，其所需运行时间随着m的增加线性下降。图 7 无攻击时 PDF 恶意软件检测中 4 种算法随着特征数 k 增加的准确度变化图 8 PDF 恶意软件检测应用中 6 种算法的时间对比由图6（b）与图8（b）可知，当m=6时，准确度与加速比都比较适中，接下来分析PDF恶意软件检测中6种算

47、法在PK攻击场景下，m=6时，TPRFPR=1%的变化，如图9所示。图9表明，SDPOSS、FAFS和WAFS总是优于mRMR、TWFS和DPOSS，由此可以得出，对抗特征选择算法能够提高分类器的抗攻击能力。此外，可以观察到，随着dmax的增加，传统特征选择算法的性能显著降低。在这种情况下，考虑PDF文件的最大攻击长度为0.3时，PDF文件分别以逃避率0.99和0.95逃避FAFS、SDPOSS所构建的分类器。与垃圾邮件过滤系统不同，分类器的安全性S()采用L-1范数作为PDF数据集的距离函数dmax。为了验证FAFS与SDPOSS的鲁棒性，接下来讨论57 电信科学 2023 年第 7 期 m

48、RMR、FAFS、DPOSS和SDPOSS算法在PK攻击场景下，m=6时的安全性S()。在PK攻击场景下，PDF恶意软件检测系统中4种算法所对应的安全性S()如图10所示。图10表明，对于所考虑的特征数k，在没有显著影响()的情况下，与FAFS相比，SDPOSS算法要求攻击者对恶意样本实施更多修改才可逃避检测。同时也表明，在特征选择期间最大化安全性S()有助于提高逃避攻击下的抗攻击能力。图 10 在 PK 攻击场景下，PDF 恶意软件检测系统中 4 种算法所对应的安全性 S()4 结束语逃避攻击是对抗性环境中常用的攻击类型，旨在修改恶意样本的分布，使修改后的样本类似于正常样本，从而逃避分类器

49、的检测。本文提出了一种针对逃避攻击的过滤式对抗特征选择算法SDPOSS。该对抗特征选择算法不仅考虑后续分类器的泛化能力，而且还考虑其安全性。本文采用独立于分类器的mRMR测量所选特征子集的泛化能力，基于最近邻间隔距离来度量特征子集的安全性。利用DPOSS算法寻找最优特征子集。实验表明，SDPOSS算法在逃避攻击下的抗攻击能力比已有的对抗性特征选择算法好，能有效处理高维特征，同时不会显著影响分类器在没有攻击时的准确性。因此，该算法可以提升网络入侵检测、垃圾邮件检测等信息安全系统的鲁棒性，并在一定程度上提升通信、医疗、交通等领域的安全性。同时，该算法为对抗性机器学习领域提供了新的思路，有助于提升机

50、器学习模型的鲁棒性，但特征选择算法的效率是后续研究值得图 9 PDF 恶意软件检测应用中的 6 种算法在 PK 攻击场景下，m=6 时，TPRFPR=1%的变化研究与开发 58 关注的问题，尤其在大规模实际问题中，超高维的特征将会是影响算法整体性能的主要难点。参考文献：1 PUGH K.Attacks on linking revisited:a new look at Bions classic workJ.The International Journal of Psychoanalysis,2020,101(2):402-406.2 SHEN M,YU H,ZHU L H,et al.

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 对抗逃避攻击过滤特征选择研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。