基于高斯分布的对抗扰动后门攻击方法研究.pdf
《基于高斯分布的对抗扰动后门攻击方法研究.pdf》由会员分享,可在线阅读,更多相关《基于高斯分布的对抗扰动后门攻击方法研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、第36卷第4期2023年8月Vol.36 No.4Aug.2023四川轻化工大学学报(自然科学版)Journal of Sichuan University of Science&Engineering(Natural Science Edition)收稿日期:2022-09-12基金项目:四川省科技计划项目(2020YFG0151);四川轻化工大学人才引进项目(2021RC15);四川轻化工大学研究生创新基金项目(Y2022185);桥梁无损检测与工程计算四川省高校重点实验室开放基金项目(2022QYJ06)通信作者:黄 洪(1976-),男,副教授,博士,研究方向为信息安全、网络安全,(E
2、-mail)文章编号:20967543(2023)04005209DOI:10.11863/j.suse.2023.04.07基于高斯分布的对抗扰动后门攻击方法研究袁国桃1,黄 洪1,2,李 心1,杜 瑞1,王兆莲1(1.四川轻化工大学计算机科学与工程学院,四川 宜宾 644000;2.桥梁无损检测与工程计算四川省高校重点实验室,四川 宜宾 644000)摘 要:在图像分类模型的攻防研究中,大部分后门攻击都是基于白盒模式的场景下发生的,攻击者需要控制训练数据和训练过程才可以实现后门攻击。这一条件导致了后门攻击难以在现实场景下发生。为了提高后门攻击的可行性,本文采用一种基于“灰盒”模式下的攻击场
3、景,攻击者只需要控制训练数据,不必参与训练过程也可以实现后门攻击。现有的后门攻击方式通常是在干净样本中添加补丁作为后门触发器,这样的攻击方式很容易被人工发现或者被防御模型检测出来,而使用对抗攻击可以减少扰动量的异常分布,从而提高有毒样本的隐蔽性。基于这一思想,提出一种满足高斯分布的对抗扰动算法来生成后门触发器,与现有的对抗扰动不同,通过往每轮的对抗迭代中添加一次满足高斯分布的噪声,最后迭代完成后生成的后门触发器更加稳定和隐蔽,在逃避防御检测方面也有更好的效果。实验结果表明,只有平均不到10%的有毒样本会被防御检测到异常,相比于传统的方法被检测率降低了13%左右。关键词:图像分类模型;后门攻击;
4、高斯分布;对抗扰动中图分类号:TP301.6文献标识码:A引 言近年来,深度学习的兴起使得深度神经网络(Deep Neural Network,DNN)模型在分类任务中表现出色,主要涉及到交通信号识别1-2、病情分析3-4、人脸验证5-6等应用场景。然而,这些场景面临着后门攻击的威胁7-8。后门攻击通过数据投毒的方式,在训练模型时将带有后门触发器的有毒样本嵌入模型中。当攻击者输入带有触发器的样本时,模型将错误地分类到预先确定的目标类,但在干净样本上仍然可以保持较高的准确性。目前,后门攻击技术难以应用在现实场景中9-10,主要原因是攻击者需要在模型训练过程中完全控制模型内部结构和参数,这种完全控
5、制模型训练周期的方式称为白盒模式11。相反,黑盒模式12不需要控制训练数据和训练过程,只需要依靠模型输出结果构造对抗样本来使模型错误分类。基于白盒模式,Yao等13和任时萱等14提出了一种Patch第36卷第4期袁国桃,等:基于高斯分布的对抗扰动后门攻击方法研究方式作为后门触发器来实现后门攻击。然而,该方式选择后门触发器时没有考虑数据分布情况和适用场景,很容易被防御模型检测出来。Nguyen等15和Shokri16尝试用后门嵌入和感知动态触发器的方式绕过防御验证,但这对攻击者的能力要求比较高,因为需要完全操控模型的训练过程。基于黑盒模式,Zhong等17提出了一种对抗性扰动来设计触发器,采 用
6、 通 用 对 抗 性 扰 动(Universal Adversarial Perturbation,UAP)方法产生通用触发器。虽然该方法在训练数据上实现了普适性,但在黑盒模式测试中攻击效果不理想。Zhang等18提出了一种有目标的通用对抗性扰动(Targeted Universal Adversarial Perturbation,TUAP)来实现有目标后门攻击,尽管该方法更难被防御模型检测到,但触发器生成方面表现不稳定,导致有毒样本与干净样本之间的差别过于明显。借鉴上述文献的思想及优缺点,本文提出了一种基于灰盒模式下的威胁模型场景来模拟后门攻击。该场景考虑了攻击者和开发者在现实场景下的能力
7、范围,攻击者可以通过对公开数据集进行投毒来实现攻击目的,但是无法访问训练过程,且投毒数据集需要逃避后门防御检测。此外,为了尽可能减少攻击样本被防御模型检测出的数量,本文提出 了 一 种 基 于 高 斯 分 布 的 对 抗 性 扰 动 算 法(Gaussian Noise-Targeted Universal Adversarial Perturbation,GN-TUAP),主要目的是为了更加稳定和隐蔽地生成后门触发器,有效逃避防御算法的检测,达到模型污染的效果。1 威胁模型在攻击者环境、开发者环境和部署环境中的威胁模型如图1所示。在最终部署环境中,攻击者将添加了后门触发器的样本输入到被毒害的
8、模型中,导致Dog被分类为Cat,虽然在这样的场景下没有体现实质性意义,但是如果在自动驾驶领域,当模型将“禁止前进”标识识别为“快速通过”,那么将会带来灾难性的后果。因此,在本节中将从威胁模型中攻击者、攻击场景及攻击目标3个角度来讨论本文提出的攻击方案。图1 不同环境中的威胁模型1.1 攻击者在威胁模型中,假设攻击者可以操控训练数据,但不能操控训练过程。例如,攻击者可以是那些能够访问训练数据存储的人,也可以是训练数据的提供者。由于学习模型在训练阶段使用的训练数据很大,这对于开发者来说,手动检查数据集的安全性是不切实际的,特别是当数据集从多个不可信的来源收集时。因此,数据集很可能在使用之前已经被
9、污染了,但开发者并不会发现。1.2 攻击场景攻击者利用训练数据和通用扰动生成算法来生成通用扰动作为后门触发器并嵌入训练样本中,532023年8月四川轻化工大学学报(自然科学版)以此来破坏数据集。在生成过程中,攻击者可能知道,也可能不知道目标模型的内部结构。如果内部结构是已知的,攻击者可以使用它作为参考模型来生成更有效的GN-TUAP。否则,必须进行跨模型攻击。换句话说,他们可以利用其他可用的模型作为参考模型来生成GN-TUAP,并使用它来进行攻击。在现有技术中,由于受限于数据集的构造成本,大部分开发者在训练模型时会采用互联网上公开的数据集进行训练,故本文只讨论开发者从互联网上获取公开数据集的情
10、况。当开发者需要从互联网上获取公开数据集时,攻击者可以利用文件上传漏洞将有毒数据集替换原来的干净数据集19,有毒数据集通过检测后,开发者会毫不知情地将有毒数据用于模型训练。在DNN模型的训练过程中,后门会潜伏在该模型中,训练好的模型在经过验证后,将会部署到生产环境中。当带有触发器的样本输入该模型时,模型会被异常激活,从而导致输出结果异常。1.3 攻击目标对抗扰动后门攻击的第一个目标是通过数据投毒的方式将后门注入到分类模型中,一旦开发者在生产环境部署了带有后门的分类模型,攻击者就可以利用攻击样本来操控模型的预测结果,最终实现攻击目的。此外,当干净样本输入模型时,预测准确性要与初始模型一致。否则,
11、开发者会在后期验证过程中拒绝部署该模型,因为其精度低于预期。对抗扰动后门攻击的另一个目标是要逃避后门检测工具的检测。有毒样本在训练样本中占比越高,攻击效果越好,但是也越容易被发现。当攻击者对数据集进行投毒污染后,希望通过检测后保留尽可能多的有毒样本来参与模型训练,以此来提高后门攻击的有效性。2 攻击方法GN-TUAP后门攻击主要是基于数据投毒的方式进行,攻击方案由两个阶段组成:1)在扰动生成阶段,采用对抗攻击算法来生成扰动,在每一轮迭代中,添加一种高斯噪声来优化生成的扰动,通过N轮迭代后生成 GN-TUAP;2)在数据投毒阶段,将GN-TUAP嵌入干净样本,并更改对应标签,即可构造成有毒样本,
12、一旦有毒样本被用于模型训练,那么就会导致后门攻击的发生。2.1 GN-TUAP算法2.1.1 基于高斯分布的对抗扰动在 Moosavi-Dezfooli20的研究工作中可以了解到,扰动可以有任意的方向,如果不加以控制,就会造成扰动的不稳定性现象。例如存在扰动点(x0,y0)与决策边界H(x),对抗算法的目的是为了让(x0,y0)朝着H(x)的方向前进,并且最终跨越H(x),即视为攻击成功,而扰动点(x0,y0)与决策边界H(x)之间的距离为扰动大小。在数学领域中,此问题可以视为一个点到直线的距离问题,目的是为了找到最短距离。而对抗算法没有考虑到方向的随机性,因此每一轮的扰动中,该点都是以随机的
13、方向朝着决策边界移动,导致每一轮生成的扰动都存在极大的差异性。为了解决这一问题,本算法采用了一种满足高斯分布的噪声来干扰扰动方向21,使得每一轮生成的扰动幅值更加稳定。此外,该噪声还满足均匀分布20-21,使其扰动点在一定范围内不受周围的影响,这样的好处是可以减少样本异常分布的情况,使得生成的触发器更加隐蔽,如式(1)所示:vi=P(xi,FG,lt)+GN(xi,FG(xi)(1)其 中,xi为 输 入 的 干 净 样 本,lt为 攻 击 目 标,P(xi,FG,lt)是利用FG对抗攻击算法来生成第i个样本的对抗扰动,GN(xi,FG(xi)是在第i个样本处计算FG(xi)的高斯噪声。2.1
14、.2 基于高斯分布的对抗扰动生成算法GN-TUAP算法的目标是找到一个通用扰动V。首先选择第i个样本进入循环,然后选定一个攻击目标lt,利用本文提出的方法结合对抗攻击算法进行迭代,将第i个样本的扰动和第(i+1)个样本的扰动进行叠加,最终生成最后的扰动V,算法详见表1。在外层循环中k和p是为了保证循环能够正常退出,内层的while循环中的P是对抗攻击算法,本算法采54第36卷第4期袁国桃,等:基于高斯分布的对抗扰动后门攻击方法研究用的是DeepFool攻击,在第8行中,P可以根据不同情况选取为任意对抗攻击,对抗攻击的输入通常包括干净样本、对抗攻击算法和攻击目标,GN是高斯噪声,利用均值和方差的
15、大小(均值为 0,方差为0.01)来生成一个很小的扰动量来干扰扰动方向的函数,输入为样本和对抗扰动;在第9行中,叠加每次迭代后的vi,vi是指计算第i个样本的扰动,然后每一个样本的扰动会通过算法叠加到一起,最后生成一个V;第1013行,通过一种限制总体扰动的方式来优化整体扰动的大小;第1415行是统计样本个数,为了保证循环能正常退出;最后在第16行中会返回一个包含所有vi并且经过隐蔽处理的扰动V,返回的扰动V像素大小与输入样本x的像素大小是一样的。表1 GN-TUAP算法输入:Xs表示原目标类别,lt表示攻击目标类别,表示愚弄率的阈值,I表示最大迭代次数,FG表示产生扰动的DNN模型,r表示被
16、投影的球面半径,P表示对抗生成算法输出:V表示生成的GN-TUAP1k=02p=x XsFG(x)=lt3V=04while k I and p (1-)|Xs do5i=06while i n do7if FG(xi)lt then8vi=P(xi,FG,lt)+GN(xi,FG(xi)9V=V+vi10Vsgn=sgnV11Vmin=minnum(|V,r)12V=Vsgn Vmin13i=i+114k=k+115p=x XsFG(x+V)=lt16Return V2.2 数据投毒在数据投毒阶段,首先创建一部分带有后门触发器的有毒样本,该部分样本会让深度神经网络模型难以学习样本特征,从而导
17、致模型对触发器有非常强的依赖性,攻击者便能操控模型输出得到想要的结果;然后将这部分有毒数据集加入到正常数据集中一起训练;最终模型会学习到有毒样本中的后门特征。本文利用 2.1 节所提方法生成的 GN-TUAP对模型后门投毒攻击。首先,从干净数据集中随机抽取部分样本,在该部分样本中添加 GN-TUAP,添加触发器后的样本被称为有毒样本;其次,将这些有毒样本的标签更改为攻击目标的标签,并将更改标签后的有毒样本混合到干净数据集中构建出有毒数据集;最后使用这些有毒数据集训练后的模型被称为中毒模型。3 实验及结果分析3.1 数据集及实验环境本文采用公开的 CIFAR-10、MNIST、Fashion-M
18、NIST数据集进行实验。实验环境是在Anaconda3中使用 Python3.6 的开发环境并基于 Tensorflow-GPU版本的框架与Keras库进行实验;操作系统环境为默认的 Ubuntu 20.04.3 LTS;硬件配置为 Intel Core i5-6300H,显卡为NVIDIA GeForce GTX950;实验采用的干净模型结构共有20层,详细数据见表2。结构包含输入层、卷积层、池化层、Drop层、Flatten层、全连接层、输出层。训练参数见表3,其中包含优化器、学习率、损失函数、激活函数、训练数量和次数。表2 模型结构InputConv2D_1Conv2D_2MaxPool
19、ing2D_3batchsize,32,32,3batchsize,32,32,64batchsize,32,32,64batchsize,16,16,6433,ReLU,padding33,ReLU,paddingPooling size=2Structure LayerOutput ShapeSpecification552023年8月四川轻化工大学学报(自然科学版)Dropout_4Conv2D_5Conv2D_6MaxPooling2D_7Dropout_8Conv2D_9Conv2D_10Conv2D_11Conv2D_12MaxPooling2D_13Dropout_14Flatt
20、en_15Dense_16Dropout_17Dense_18Activationbatchsize,16,16,64batchsize,16,16,128batchsize,16,16,128batchsize,8,8,128batchsize,8,8,128batchsize,8,8,128batchsize,8,8,128batchsize,8,8,128batchsize,8,8,128batchsize,4,4,128batchsize,4,4,128batchsize,2048batchsize,1024batchsize,1024batchsize,10batchsize,10D
21、roput size=0.2533,ReLU,padding33,ReLU,paddingPooling size=2Droput size=0.2533,ReLU,padding33,ReLU,padding33,ReLU,padding33,ReLU,paddingPooling size=2Droput size=0.25ReLUDroput size=0.2510 nodes,softmax续表Structure LayerOutput ShapeSpecification表3 模型参数参数OptimizerLearning RateLoss Function值Adadelta0.00
22、1Categorical_CrossEntropy参数EpochBatch SizeActivation Function值120100ReLU3.2 有效性评估及分析为了评估GN-TUAP的有效性,本文从CIFAR-10数据集中选取了 10对类别进行攻击成功率展示。其中,图2所示为在已知模型结构情况下攻击的有效性。利用已知的干净模型与CIFAR-10数据集构造的有毒样本来毒害模型,并且在该模型上测试了有毒样本与干净样本输入模型时的准确率。在此之前,我们还收集了干净模型中对这10类样本分类的准确率。可以看出,在白盒模式下,后门攻击的成功率非常高,并且将干净样本输入有毒模型时,准确率也并未受到较
23、大影响。此外,本文还采取了灰盒模式下跨模型测试的实验,其攻击成功率见表4。本文选取了VGGNet与ResNet两种模型来模拟未知模型,每个模型以 30%的比例进行投毒训练,并且随机挑选CIFAR-10数据集中500组干净样本嵌入 GN-TUAP进行攻击实验。结果表明,即使攻击者不知道模型结构的情况下,利用 GN-TUAP投毒的方式也可以实现跨模型攻击。75.00%80.00%85.00%90.00%95.00%100.00%105.00%AirplaneDeerBirdDogCatAirplaneCatFrogDeerBirdDogDeerHorseVehicleHorseTruckShipA
24、irplaneShipFrog干净样本输入模型准确率攻击成功率有毒样本输入模型准确率图2 后门攻击的有效性指标表4 跨模型攻击成功率模型Begin Model VGGNetBegin Model ResNet攻击成功率/%91.8289.703.3 隐蔽性评估及分析在隐蔽性评估中,本文与 Zhang 等18提出的TUAP方法在触发器生成的稳定性和有毒样本差异性上进行了比较,结果如图3与图4所示。图3(a)至图3(c)所示为TUAP生成的触发器,可以明显地看到触发器的噪声点不均匀,噪声显得十分不自然,而且在不同样本类别下的触发器差异较大,图3(d)至图3(f)所示为添加TUAP后的有毒样本,可以
25、看出,有毒样本存在明显的数据异常分布,即使是人眼也十分容易辨别出来。图 4(a)至图 4(c)所示为 GN-TUAP方法生成的触发器,可以看出在噪声分布点上十分均匀,更符合自然噪声,而且在不同样本类别下生成的触发器也比较稳定;图4(d)至图4(f)所示为添加GN-TUAP后的有毒样本,可以看出,很难用人眼去识别出有异常分布的形状。56第36卷第4期袁国桃,等:基于高斯分布的对抗扰动后门攻击方法研究(a)触发器一 (b)触发器二 (c)触发器三(a)有毒样本一 (b)有毒样本二 (c)有毒样本三图3 使用TUAP生成的触发器与有毒样本(a)触发器一 (b)触发器二 (c)触发器三(a)有毒样本一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分布 对抗 扰动 后门 攻击 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。