对抗逃避攻击的过滤式对抗特征选择研究.pdf
《对抗逃避攻击的过滤式对抗特征选择研究.pdf》由会员分享,可在线阅读,更多相关《对抗逃避攻击的过滤式对抗特征选择研究.pdf(13页珍藏版)》请在咨信网上搜索。
1、 研究与开发 对抗逃避攻击的过滤式对抗特征选择研究 黄启萌1,2,吴苗苗1,2,李云1,2(1.南京邮电大学,江苏 南京 210023;2.江苏省大数据安全与智能处理重点实验室,江苏 南京 210023)摘 要:随着机器学习技术的高速发展和大规模应用,其安全性越来越受关注,对抗性机器学习成为研究热点。在对抗性环境中,机器学习技术面临着被攻击的威胁,如垃圾邮件检测、交通信号识别、网络入侵检测等,攻击者通过篡改少量样本诱使分类器做出错误的分类决策,从而产生严重后果。基于最大相关最小冗余(mRMR),并考虑对抗逃避攻击的安全度量,设计了过滤式对抗特征选择的评价准则。此外,还基于分解策略的多目标演化子
2、集选择(DPOSS)算法,提出一种鲁棒性对抗特征选择算法 SDPOSS,其不依赖后续模型,且能有效处理大规模高维特征。实验结果表明,随着分解个数的增加,SDPOSS 的运行时间会线性下降,且获得很好的分类性能。同时,SDPOSS 算法在逃避攻击下的鲁棒性较好,为对抗性机器学习提供了新的思路。关键词:对抗特征选择;逃避攻击;mRMR;安全性评估准则;帕累托占优 中图分类号:TP393 文献标志码:A doi:10.11959/j.issn.10000801.2023140 Research on filter-based adversarial feature selection against
3、 evasion attacks HUANG Qimeng1,2,WU Miaomiao1,2,LI Yun1,2 1.Nanjing University of Posts and Telecommunications,Nanjing 210023,China 2.Jiangsu Key Laboratory for Big Data Security and Intelligent Processing,Nanjing 210023,China Abstract:With the rapid development and widespread application of machine
4、 learning technology,its security has attracted increasing attention,leading to a growing interest in adversarial machine learning.In adversarial scenarios,machine learning techniques are threatened by attacks that manipulate a small number of samples to induce misclas-sification,resulting in seriou
5、s consequences in various domains such as spam detection,traffic signal recognition,and network intrusion detection.An evaluation criterion for filter-based adversarial feature selection was proposed,based on the minimum redundancy and maximum relevance(mRMR)method,while considering security metrics
6、 against evasion attacks.Additionally,a robust adversarial feature selection algorithm was introduced,named SDPOSS,which was based on the decomposition-based Pareto optimization for subset selection(DPOSS)algorithm.SDPOSS didnt depend on subsequent models and effectively handles large-scale high-dim
7、ensional feature spaces.Experimental re-收稿日期:20230216;修回日期:20230702 通信作者:李云, 基金项目:国家自然科学基金资助项目(No.61772284)Foundation Item:The National Natural Science Foundation of China(No.61772284)47 电信科学 2023 年第 7 期 sults demonstrate that as the number of decompositions increases,the runtime of SDPOSS decreases
8、 linearly,while achieving excellent classification performance.Moreover,SDPOSS exhibits strong robustness against evasion attacks,providing new insights for adversarial machine learning.Key words:adversarial feature selection,evasion attack,mRMR,security assessment criteria,Pareto dominate 0 引言 目前,信
9、息系统的安全性受到社会各界的广泛关注,在通信、医疗、交通以及经济等具有隐私性和敏感性信息的领域中,常常发生信息被泄露、被窃取以及被恶意篡改等事件。传统的信息安全技术往往难以有效处理这些恶意事件,由于机器学习技术能够有效用于已知攻击的防御1和未知攻击的识别2,被广泛应用于信息安全领域,如垃圾邮件检测、交通信号识别、恶意软件检测以及网络入侵检测等3-4。但是,机器学习算法本身存在脆弱性,攻击者利用该脆弱性对样本进行修改,从而逃避分类器的检测。例如,在垃圾邮件过滤系统中,攻击者通过注入“好词”(经常出现在正常邮件中而很少出现在垃圾邮件中的单词)和使用近义词等方式逃避系统的检测。在对抗性环境中,攻击者
10、对样本进行恶意操作,从而违反数据的独立同分布假设5,使得传统机器学习的性能显著下降。因此,对抗性机器学习的研究主要集中在如何有效防御攻击、提高分类器在攻击下的安全性以及构建抗攻击能力较强的分类器。在与信息安全相关的应用中,如垃圾邮件过滤系统、网络入侵检测等,含有大量的特征,需要通过特征选择来构建具有较高泛化能力、较低复杂度以及更容易理解的学习模型。逃避攻击(evasion attack)6是对抗性环境中常见的攻击类型。已有研究7表明,在遭受逃避攻击时,分类器的性能在特征选择后会显著下降,特征选择对分类器的抗攻击能力具有重要影响,因此研究对抗性特征选择具有重要的意义。在逃避攻击中,攻击者通常会将
11、测试集中的恶意样本修改为与训练集中的正常样本类似的样本,从而逃避已构建好的分类器。为了进一步描述逃避攻击,现给出如下符号:1,niiiDx y是 n 个互相独立的样本所组成的训练集,yi y=1,+1代表样本 xi的类标签,y 表示类标签空间,1、+1 分别表示正常、恶意样本。在训练集上训练的分类器使用连续判别函数 h(x)将特征空间映射到类标签空间 y。若 h(x)0,则样本 x 为正常(恶意)样本;若 h(x)0,则样本 x 为恶意样本。如 Zhang 等7所述,攻击者所采取的逃避攻击策略概括为如下优化问题:对于任意的初始恶意样本 x,攻击者通过最小化 h(x,x)找到 x 的最佳攻击样本
12、 x*,样本 x*与 x 的距离约束为:argmin(,)xxh x x(1)maxs.t.(,)d x xd(2)其中,最大修改量 dmax代表攻击者对初始恶意样本 x 的攻击力度,表示攻击者的攻击能力。为了简单起见,用 d(x,x)表示修改过的样本 x与初始样本 x 的距离。特征选择从包含 n 个特征的集合中选择大小不超过w的特征子集以优化给定的目标函数,其中,w1,n,基于不同的评价准则,特征选择算法可以分为过滤器、封装器和混合模式。过滤器模式依据数据特性设计评价准则,独立于后续的学习算法,通常时间开支较小;封装器模式依据后续学习算法性能评价特征选择的结果,通常时间开支较大;混合模式除了
13、具备封装器模式的功能,还考虑了特征选择与分类阶段的关联度,因而比封装器模式更强大,同时训练分类器与特征选择同步进行,因而混合模式的时间复杂度较低。研究与开发 48 近年来,Qian 等8提出了一种基于多目标演化算法的子集选择(subset selection by Pareto optimization,POSS)算法,用于解决贪婪算法和凸松弛方法存在的问题,其首先将子集选择问题以双目标优化的形式表示出来,然后运用多目标演化算法求解该双目标问题,最后从得出的解集中挑选一个满足子集大小约束的最优解。为了降低大规模问题下 POSS 算法的时间复杂度,钱超等9提出了基于分解策略的多目标演化子集选择(
14、decomposition-based Pareto optimization for sub-set selection,DPOSS)算法,其将整个子集空间分解成多个子空间,并依次调用 POSS 来求解。DPOSS 在获得和 POSS 相同近似性能下界的同时,运行时间随着分解个数的增加超线性下降。尽管 Qian 等10在后续研究中又提出了基于重组的多目标演化子集选择(subset selection by Pareto optimization with recombination,PORSS)算法,但其核心是提升 POSS 的性能,而本文的对抗性机器学习环境通常都是大规模问题求解,显然PR
15、OSS 的运行时间难以令人满意。因此 DPOSS是与本文最相关的前序研究。目前,针对逃避攻击的对抗性特征选择,Zhang等7提出了一种对分类算法进行系统性安全评估的框架,利用特征子集解释特征选择如何影响分类器在逃避攻击下的安全性,并进一步提出了基于包络器的对抗特征选择(wrapper-based adversarial feature selection,WAFS)算法。然而在特征选择时,该算法每选择一个特征都需要模拟针对分类器的逃避攻击,导致该算法的时间复杂度很高。为解决上述问题,Wu 等11提出了基于最大相关最小冗余(minimum redundancy and maximum relev
16、ance,mRMR)的对抗特征选择算法FAFS(adversary-aware feature selection algorithm under filter model)。该算法采用前向选择搜索策略获得特征子集。不过,该策略属于贪婪算法,往往会陷入局部收敛,难以找到最优特征子集。因此在 DPOSS 的基础上,本文提出一种基于 DPOSS 的鲁棒性对抗性特征选择算法SDPOSS。为了验证 SDPOSS 算法的性能,本文在两个公开的数据集(垃圾邮件数据集和PDF 恶意软件检测数据集)上对比不同特征选择算法在逃避攻击场景下的性能。本文的主要贡献包括:设计了一种针对逃避攻击的对抗特征选择评价准则,
17、属于过滤器模式,其选择特征时不依赖后续分类器,时间开支小,并通过距离度量来实现安全性衡量;结合基于分解策略的多目标演化子集选择算法,提出了一种针对逃避攻击的鲁棒性对抗特征选择算法,其能有效处理高维特征,在逃避攻击下的抗攻击能力优于现有的对抗特征选择算法,同时不会显著影响分类器在无攻击时的准确性,具有很高的泛化性和可行性。1 过滤式对抗特征选择的评价准则 对抗性环境下特征选择模型的基本思想是从n 维特征空间中选择含有 w 个特征的最优特征子集,在挑选特征时,既要考虑后续分类器的泛化能力,又要考虑分类器的抗攻击能力。其评价准则通常可以形式化为:argmax()()S*(3)s.t.|w(4)向量=
18、(l,.,j,.,n)T0,1n表示特征子集,其中 j=1 表示第 j 个特征被选中,j=0 表示第 j 个特征未被选中。|表示特征子集的大小。*表示最优特征子集。()和 S()分别代表分类器的泛化能力和在逃避攻击下的安全性。通过设置参数 和 为当前()和 S()的最大值的倒数,从而将()和 S()都归一化到0,1。当=1、=0 时,对抗特征选择模型就变成传统的特征选择算法。1.1 泛化能力()由于mRMR12在选择特征时不依赖后续分类器,并且能快速有效地处理高维数据,与本文过49 电信科学 2023 年第 7 期 滤式的对抗特征选择方法相契合,因此采用mRMR 度量所选特征子集的泛化能力。为
19、了方便起见,后文中除非特别标明,特征以下标形式出现。mRMR 旨在计算特征与标签之间的相关性I(a;y),以及特征之间的冗余性 I(a;b)。其中 a、b分别表示第 a 个、第 b 个特征,y 是类标签,并基于互信息 I(X;Y)计算相关性和冗余性。互信息表达式如下:(,)(;)(,)log()()x X y Yp x yI X Yp x yp xp y(5)其中,X和Y是两个随机变量,p(x,y)是(X,Y)的联合概率分布,p(x)和p(y)分别是X和Y的边际分布。在本文中,T()=j|j=1,j=1,n表示已选的特征组成的集合。可通过式(6)和式(7)计算T()的相关性C(T(),y)和冗
20、余度R(T()。()1(),)(;)|a TC TyI a y(6)2,()1()(;)|a b TR TI a b(7)对相关性与冗余度进行组合(即相减的形式),从而形成基于mRMR的泛化性能评价指标:()(),)()C TyR T(8)1.2 安全性 S()除了所选特征子集的泛化能力,对抗性环境中的特征子集安全性也同等重要。现有的度量方法复杂且可操作性很低。下面将介绍本文所设计的以距离度量为基础的安全性方法(以二分类为例)。在逃避攻击中,攻击者倾向于通过修改恶意样本来逃避分类器的检测,因此在度量安全性时只需考虑恶意样本。为提升安全性,在选择特征子集时,使正常样本和恶意样本在选择的子集空间上
21、距离尽量远,从而增大攻击者修改恶意样本的难度。对于每个恶意样本xt而言,首先计算该样本与正常样本的最近距离,然后对距离求和并平均化,最后使用该均值度量安全性S(),通过最大化S()来选择特征子集:,1min,()tqtqxM xLSd x xz(9)其中,M、L分别表示恶意、正常样本集,z表示恶意样本数,xt、xq分别表示任意的恶意、正常样本。距离函数d(,)的定义跟逃避攻击中距离(式(2)的定义一样。若样本集中的特征值是离散型,则采用L-1范数;若样本集中的特征值是连续型,则采用L-2范数。2 基于 DPOSS 的对抗特征选择算法 为最优化上述对抗特征选择评价准则,本文基于DPOSS搜索最优
22、对抗特征子集,并提出基于安全分解策略的多目标演化子集选择(subset selec-tion by Pareto optimization based on decomposition strategy with security,SDPOSS)算法。用帕累托占优的搜索策略(即定义1)进行特征选择,可以保证获得较好的对抗特征选择结果。定义 1 帕累托占优。若存在一个双目标函数F=(f1(),f2(),求目标函数的最小解,P表示所有解向量的集合。若存在两个不同的解向量p、pP,那么:(1)当满足f1(p)f1(p)且f2(p)f2(p)时,则p弱占优于p;(2)当满足p弱占优于p且同时满足f1(
23、p)f1(p)或者f2(p)f2(p),则p占优于p。根据分解策略,DPOSS算法旨在将特征空间U=1,2,n分 解 成m个 特 征 子 空 间,即11,mkkkww,其中wk表示特征子集的大小。其搜索策略简述如下。首先将POSS算法的求解式(式(10)转化为式(11),即将P分解成m个子集,但必须满足w0=0、wm=w。*120,1,|argmin(),()nwPff (10)1*120,1,|argmin(),(),1,2,nkkkkwwPffkm(11)研究与开发 50 其中,f1()表示基于所选特征子集构建分类器的泛化能力,即f1()=(),旨在最大化传统特征选择评价准则();f2()
24、为所选特征子集的大小,即f2()=|;P表示POSS算法求出的最优特征子集的集合;Pk表示DPOSS算法中第k个特征子空间的最优特征子集的集合;|P|表示P所包含的最优特征子集个数;|Pk|表示Pk所包含的最优特征子集个数。由于DPOSS算法的时间复杂度与|Pk|有关,为使得m个特征子空间的总时间复杂度尽可能低,应使|Pk|尽可能相近。为此,wk按如下方式进行设置:11:,1kkkwkwm wmwwwPmm(12)1:,1kkkwwmkm wmwwwPmm(13)任意相邻的 Pk和 Pk1含有一个共同的最优特征子集*1k,且|*1k|=wk1。假设 Pu和 Pv分别为第 u 个特征子空间和第
25、v 个特征子空间的最优特征子集的集合,则|Pu|和|Pv|至多相差 1。DPOSS算法逐步调用 POSS 获得 P1,P2,Pm。为了获得第 k 个特征子空间的最优特征子集的集合 Pk,首先将第 k1 个特征子空间所获得的最优特征子集*1k 作为初始特征子集;然后调用 POSS 方法,直到循环次数达到Tk;最后输出最优特征子集*k。但在获得第 k 个特征子空间的最优特征子集的集合 Pk时,需对 f1()做相应的转换:1111,|2(),|2kkkkkwwfwww(14)若第 k 个特征子空间的初始特征子集*1k 满足|*1k|wk1,POSS 算法会丢弃该特征子集。因此,第 k 个特征子空间调
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 对抗 逃避 攻击 过滤 特征 选择 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。