自适应差分隐私的高效深度学习方案.pdf
《自适应差分隐私的高效深度学习方案.pdf》由会员分享,可在线阅读,更多相关《自适应差分隐私的高效深度学习方案.pdf(11页珍藏版)》请在咨信网上搜索。
1、收稿日期:网络出版时间:基金项目:国家自然科学基金();北京市自然科学基金(M )作者简介:王玉画(),女,中央财经大学大学硕士研究生,E m a i l:w y h c o m高胜(),男,教授,博士,E m a i l:s g a o c u f e e d u c n黄晨(),男,中央财经大学大学硕士研究生,E m a i l:i c h u a n g c o m通信作者:朱建明(),男,教授,博士,E m a i l:z j mc u f e e d u c n网络出版地址:h t t p s:/k n s c n k i n e t/k c m s/d e t a i l/T N
2、h t m ld o i 敭 j 敭i s s n 敭 敭 敭 自适应差分隐私的高效深度学习方案王 玉 画,高胜,朱 建 明,黄晨(中央财经大学 信息学院,北京 )摘要:深度学习在诸多领域取得成功的同时,也逐渐暴露出严重的隐私安全问题.作为一种轻量级隐私保护技术,差分隐私通过对模型添加噪声使得输出结果对数据集中的任意一条数据都不敏感,更适合现实中个人用户隐私保护的场景.针对现有大多差分隐私深度学习方案中迭代次数对隐私预算的依赖、数据可用性较低和模型收敛速度较慢等问题,提出了一种自适应差分隐私的高效深度学习方案.首先,基于沙普利加性解释模型设计了一种自适应差分隐私机制,通过对样本特征加噪使得迭代
3、次数独立于隐私预算,再利用函数机制扰动损失函数,从而实现对原始样本和标签的双重保护,同时增强数据可用性.其次,利用自适应矩估计算法调整学习率来加快模型收敛速度.并且,引入零集中差分隐私作为隐私损失统计机制,降低因隐私损失超过隐私预算带来的隐私泄露风险.最后,对方案的隐私性进行理论分析,并在MN I S T和F a s h i o n MN I S T数据集上通过对比实验,验证了所提方案的有效性.关键词:深度学习;差分隐私;自适应;隐私损失;模型收敛中图分类号:T P 文献标识码:A文章编号:()E f f i c i e n td e e p l e a r n i n gs c h e m
4、ew i t ha d a p t i v ed i f f e r e n t i a lp r i v a c yWANGY u h u a G A OS h e n g ZHUJ i a n m i n g HU ANGC h e n S c h o o l o f I n f o r m a t i o n C e n t r a lU n i v e r s i t yo fF i n a n c ea n dE c o n o m i c s B e i j i n g C h i n a A b s t r a c t Wh i l ed e e pl e a r n i n g
5、h a sa c h i e v e dag r e a ts u c c e s s i nm a n yf i e l d s i th a sa l s og r a d u a l l ye x p o s e das e r i e so f s e r i o u sp r i v a c ys e c u r i t y i s s u e s 敭 A sa l i g h t w e i g h tp r i v a c yp r o t e c t i o nt e c h n o l o g y d i f f e r e n t i a lp r i v a c ym a
6、 k e s t h eo u t p u t i n s e n s i t i v e t oa n yd a t a i nt h ed a t a s e tb ya d d i n gn o i s e t ot h em o d e l w h i c h i sm o r es u i t a b l ef o rt h ep r i v a c yp r o t e c t i o no fi n d i v i d u a lu s e r si nr e a l i t y 敭 A i m i n ga tt h ep r o b l e m so ft h ed e p
7、e n d e n c eo fi t e r a t i o n so nt h ep r i v a c y b u d g e t l o w d a t aa v a i l a b i l i t ya n ds l o w m o d e lc o n v e r g e n c ei n m o s te x i s t i n gd i f f e r e n t i a lp r i v a t ed e e pl e a r n i n gs c h e m e s a ne f f i c i e n td e e pl e a r n i n gs c h e m eb
8、 a s e do na d a p t i v ed i f f e r e n t i a lp r i v a c y i sp r o p o s e d 敭 F i r s t a na d a p t i v ed i f f e r e n t i a lp r i v a c y m e c h a n i s mi sd e s i g n e db a s e do nt h eS h a p l e ya d d i t i v ee x p l a n a t i o nm o d e l 敭 B ya d d i n gn o i s e t o t h e s a
9、m p l e f e a t u r e s t h en u m b e r o f i t e r a t i o n s i s i n d e p e n d e n t o ft h ep r i v a c yb u d g e t a n dt h e nt h el o s sf u n c t i o ni sp e r t u r b e db yt h ef u n c t i o nm e c h a n i s m t h u sa c h i e v i n gt h ed u a lp r o t e c t i o no fo r i g i n a ls a
10、 m p l e sa n dl a b e l s w h i l ee n h a n c i n gt h eu t i l i t yo fd a t a 敭 S e c o n d t h ea d a p t i v em o m e n te s t i m a t i o na l g o r i t h mi su s e dt oa d j u s tt h el e a r n i n gr a t et oa c c e l e r a t et h e m o d e lc o n v e r g e n c e 敭A d d i t i o n a l l y z
11、e r o c e n t r a l i z e dd i f f e r e n c ep r i v a c yi si n t r o d u c e da sas t a t i s t i c a lm e c h a n i s m o fp r i v a c yl o s s w h i c hr e d u c e s t h er i s ko fp r i v a c y l e a k a g ec a u s e db yt h ep r i v a c y l o s se x c e e d i n gt h ep r i v a c yb u d g e t
12、敭 F i n a l l y at h e o r e t i c a l a n a l y s i so fp r i v a c y i sm a d e w i t ht h e e f f e c t i v e n e s so f t h ep r o p o s e ds c h e m ev e r i f i e db yc o m p a r a t i v e 年月第 卷第期西安电子科技大学学报J OURNA LO FX I D I ANUN I V ER S I TYA u g V o l N o h t t p:/j o u r n a l x i d i a n
13、 e d u c n/x d x be x p e r i m e n t so nt h eMN I S Ta n dF a s h i o n MN I S Td a t a s e t s 敭K e yW o r d s d e e p l e a r n i n g d i f f e r e n t i a l p r i v a c y s e l f a d a p t a t i o n p r i v a c y l o s s m o d e l c o n v e r g e n c e 引言近年来,深度学习技术作为机器学习研究的前沿领域,凭借对文本、声音、图像等数据的强
14、大处理和理解能力,在社会网络分析、物联网和无线通信等诸多领域任务中表现出优越的性能.其巨大成功主要依赖于高性能的计算、大规模的数据以及各种深度学习框架的开源.深度学习技术主要分为两个阶段:首先是模型训练阶段,用收集到的海量数据对深度神经网络模型进行迭代训练,直到模型收敛,获得目标模型;其次是模型推理阶段,利用训练好的目标模型对目标数据集执行分类和预测等任务.然而,由于攻击手段的不断演进,深度学习模型存在的隐私泄露风险也随之增加.常见的攻击方式有模型反演攻击和成员推理攻击.模型反演攻击在模型训练和推理阶段都可能发生,敌手通过截取模型参数和测试模型输出来重建训练数据集.S ONG等根据模型参数重构
15、原始的训练数据,窃取特定个体数据的敏感信息.成员推理攻击主要发生在模型推理阶段,敌手通过目标模型的输出差异来推断给定样本是否属于模型的训练集.S A L EM等证明了敌手可以在没有任何背景信息的情况下,根据目标模型的输出规律判断出样本是否参与过训练.本质上,这些隐私问题的产生归因于深度神经网络独特的学习和训练方法,通过大量的隐藏层不断提取高维数据特征,模型将记住某些数据细节,甚至整个数据集.针对深度学习潜在的隐私威胁,现有的方案通过结合一些经典的隐私保护机制来增强隐私,主要分为加密机制和扰动机制.加密机制目的在于保护数据交换的过程,常用同态加密和安全多方计算实现.其中,同态加密允许第三方无需解
16、密就可以直接在加密域上执行计算,保证了模型参数的精度 ;安全多方计算允许当不可信多方参与到模型的训练和推理过程时,通过秘密共享或不经意传输等来实现数据的安全性 .相比于同态加密方法,基于安全多方计算的方案虽然不需要大量计算开销,但却增加了通信成本.扰动机制目的在于保护数据内容本身,通过差分隐私(D i f f e r e n t i a lP r i v a c y,D P)技术在模型训练过程中添加噪声来扰动,使得某条数据是否参与训练对最终的输出结果影响微乎其微.这是一种轻量级隐私保护技术,计算效率高,通信开销低,且具有后处理性.基于差分隐私的方案关键在于模型效用和隐私保护之间的权衡 .A B
17、 A D I等 设计了一种差分隐私随机梯度下降(D i f f e r e n t i a lP r i v a t eS t o c h a s t i cG r a d i e n tD e s c e n t,D P S G D)算法,将多个数据批分为一组,对每组的累积梯度添加噪声,还引入矩会计(M o m e n tA c c o u n t a n t,MA)来追踪隐私损失,从而获得更紧致的整体隐私损失估计.然而,该算法以等量的隐私预算加噪会导致原始梯度出现较大失真,数据可用性显著降低.Z HANG等 提出了一种自适应衰减噪声的隐私保护算法,每次迭代中向梯度加入通过线性衰减率调整的噪
18、声,以减少负噪声的添加,但此方案对于线性衰减率并没有很好的计算方法,只能通过实验调试,实用性较差.所提两种方案都是对梯度进行二范数裁剪来控制梯度的敏感度,可实际应用中对高维梯度的裁剪范围较难把握,且每轮训练中每个批次的迭代都需要加噪,使得隐私损失严重依赖于迭代次数,当需要较多次迭代来保证模型准确性时,其训练效果会受到影响.P HAN等 提出了一种自适应拉普拉斯机制,通过逐层相关传播(L a y e r w i s eR e l e v a n c eP r o p a g a t i o n,L R P)算法衡量深度神经网络中输入与输出的相关性,再根据相关性对第一个隐藏层加入拉普拉斯噪声,真正
19、实现了从样本特征的角度来自适应确定噪声大小.可是,在使用L R P算法时可能会泄露隐私.作为改进,Z HANG等 设计了一种自适应动态隐私预算分配的差分隐私方案(A d a p t i v ea l l o c a t i o nD y n a m i cp r i v a c yb u d g e tD i f f e r e n t i a lP r i v a c y,A D D P),对L R P算法输出的相关性进行了加噪处理.L I U等 引入随机化隐私保护调整技术,直接对相关性超过设定阈值的输入特征进行扰动,未超过阈值的特征由随机因子决定是否被扰动.然而,不同预定阈值和随机因子的选
20、取会对模型效用造成不同的影响.以上三种方案都采用拉普拉斯机制加噪太过严格,且没有很好地考虑相关性衡量算法与数据可用性之间的关系,较精确的相关性衡量才能获得较好的数据可用性.更多地,这三种方案都没有在设计时兼顾到模型的收敛速度,而在实际应用中这也是非常重要的.第期王玉画等:自适应差分隐私的高效深度学习方案h t t p:/j o u r n a l x i d i a n e d u c n/x d x b为解决现有深度学习差分隐私保护方案中所存在的迭代与隐私预算之间依赖、数据可用性较低和收敛速度较慢等问题,笔者提出了一种自适应差分隐私的高效深度学习(A d a p t i v eD i f f
21、 e r e n t i a lP r i v a c y b a s e dE f f i c i e n td e e pl e a r n i n g,A D P E)方案.主要贡献如下.()设计一种自适应差分隐私机制,通过S h a p l e y加性解释模型在特征维度对原始样本进行自适应扰动,使得迭代次数独立于隐私预算,并结合函数机制来保护样本的真实标签,从而实现对原始样本及其标签提供隐私保护的同时,保证数据的可用性.()将自适应矩估计算法与指数衰减函数相结合,利用先验知识优化梯度,针对不同的参数调整学习率,加快模型收敛速度,并增强后期模型训练的稳定性.()引入零集中差分隐私中的组合
22、机制对整个方案的隐私损失进行更清晰更紧凑的统计,从而降低因隐私损失超过隐私预算带来的隐私泄露风险,更好地平衡隐私和效用之间的关系.()给出了详细的隐私分析,并在MN I S T和F a s h i o n MN I S T数据集上通过衡量模型的分类准确率进行了对比实验.与其他方案相比,文中所提方案效果更优.预备知识 差分隐私差分隐私的提出是为了解决查询数据库中的隐私信息泄露问题,其主要基于扰动的思想,让敌手无法根据查询结果来判断出单条数据记录的更改或增删,即输出结果对于数据集中的任何一条特定记录都不敏感.差分隐私的形式化定义如下.定义(,)D P.设有隐私机制M,其定义域为D o m(M),值
23、域为R a n(M).若隐私机制M对于任意两个仅相差一条记录的相邻数据集D和D D o m(M),O R a n(M),满足:P rM(D)OeP rM(D)O,()则称隐私机制M满足(,)D P.其中,P rx 表示数据x泄露的概率;为隐私预算,用来衡量隐私保护的程度,越小,隐私保护程度越高;为违反隐私机制M的概率,时隐私机制M满足严格差分隐私,即 D P.定义全局敏感度.给定数据集D上的一个查询函数f:DRd,f的全局敏感度是指删除数据集中任何一条记录所引起查询结果的最大变化,定义为Sf(D)m a xD,D f(D)f(D)l,()其中,D和D 是任意两个相邻数据集,l表示度量距离的向量
24、范数,通常为或范数距离.定理高斯机制.设(,),(,),f(D)是l敏感度为Sf的查询函数,当Sf(l n(/)/时,隐私机制M(D)f(D)N(,Sf),满足(,)D P.零集中差分隐私在训练 深度神经网 络模型时,由于迭 代次数较多,对隐 私损失的估 计至关重要.零 集 中 差 分 隐私(z e r o C o n c e n t r a t e dD i f f e r e n t i a lP r i v a c y,z C D P)是一种新的差分隐私松弛形式,与(,)D P相比,对多次迭代计算的隐私损失提供了更清晰和更严格的分析.z C D P的定义如下.定义 z C D P.对于任
25、意,若隐私机制M对于任意两个仅相差一条记录的相邻数据集D和D 满足:D(M(D)M(D)l o gEe x p()L(O),()则称该隐私机制满足z C D P.其中,D(M(D)M(D)表示M(D)和M(D)间的 R e n y i距离,L(O)表示输出结果为O时,算法在两个数据集之间产生的隐私损失,即L(O)(M(D)M(D)l nP rM(D)OP rM(D)O.()文中使用到z C D P的一些性质和定理如下.西安电子科技大学学报第 卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x b性质 高斯机制返回f(D)N(,Sf)时满足(/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自适应 隐私 高效 深度 学习 方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。