分销赏收藏举报申诉 / 11

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 隐私保护的拜占庭鲁棒联邦学习算法.pdf

隐私保护的拜占庭鲁棒联邦学习算法.pdf

上传人：自信****多点

文档编号：751487

上传时间：2024-03-04

格式：PDF

页数：11

大小：2.08MB

《隐私保护的拜占庭鲁棒联邦学习算法.pdf》由会员分享，可在线阅读，更多相关《隐私保护的拜占庭鲁棒联邦学习算法.pdf（11页珍藏版）》请在咨信网上搜索。

1、收稿日期:网络出版时间:基金项目:陕西省自然科学基础研究计划(J Q );国家自然科学基金(,);中央高校基本科研业务费专项资金(Z Y T S );中央高校基本科研业务费专项资金();广东省网络与信息安全漏洞研究重点实验室项目(B );广州市科技计划项目()作者简介:李海洋(),男,西安电子科技大学硕士研究生,E m a i l:o c e a n c o m刘玖樽(),男,西安电子科技大学硕士研究生,E m a i l:j z l i u s t u x i d i a n e d u c n刘志全(),男,副研究员,E

2、m a i l:z q l i u j n u e d u c n通信作者:郭晶晶(),女,副教授,E m a i l:j j g u o x i d i a n e d u c n网络出版地址:h t t p s:/k n s c n k i n e t/k c m s/d e t a i l/T N h t m ld o i 敭 j 敭i s s n 敭敭敭隐私保护的拜占庭鲁棒联邦学习算法李海洋,郭晶晶,刘玖樽,刘志全,(西安电子科技大学网络与信息安全学院,陕西西安 ;暨南大学信息科学技术学院,广东广州 ;数力聚(北京)科技有限公司,北京 )摘要:联邦学习是一

3、种分布式机器学习范式,其中节点的原始训练集不出本地,它们通过共享模型更新来协作训练机器学习模型.当前联邦学习领域中的隐私保护和拜占庭攻击检测研究大都独立展开,现有的拜占庭攻击检测方法不可直接应用于隐私保护环境,不符合联邦学习的实际应用需求.针对上述问题,提出一种可在数据非独立同分布和隐私保护环境下拜占庭鲁棒的联邦学习算法.首先,以差分隐私技术为模型更新(本地模型梯度信息)提供隐私保护;然后,基于节点上传的历史模型更新对节点当前状态进行可信度评估;最后,根据评估结果进行全局模型聚合.仿真实验结果表明,在节点训练集非独立同分布、隐私保护和拜占庭节点比例为的联邦学习环境中,所提算法进行拜占庭节点检

4、测的漏检率和误检率均为.同时,随着节点数量的增加,拜占庭节点检测的时间开销呈线性增长的趋势.与现有的拜占庭节点检测算法相比,所提算法在节点数据非独立同分布及模型隐私保护情况下可得到更高精度的全局模型.关键词:联邦学习;拜占庭攻击;异常检测;隐私保护技术;差分隐私中图分类号:T P 文献标识码:A文章编号:()P r i v a c yp r e s e r v i n gb y z a n t i n e r o b u s t f e d e r a t e d l e a r n i n ga l g o r i t h mL IH a i y a n g G U OJ i n g j i

5、 n g L I UJ i u z u n L I UZ h i q u a n 敭 S c h o o l o fC y b e rE n g i n e e r i n g X i d i a nU n i v e r s i t y X i a n C h i n a 敭 C o l l e g eo f I n f o r m a t i o nS c i e n c ea n dT e c h n o l o g y J i n a nU n i v e r s i t y G u a n g z h o u C h i n a 敭 C y b e r d a t a f o r c

6、 e B e i j i n g T e c h n o l o g yL t d 敭 B e i j i n g C h i n a A b s t r a c t F e d e r a t e dl e a r n i n g i sad i s t r i b u t e dm a c h i n e l e a r n i n gp a r a d i g m i nw h i c ht h eo r i g i n a l t r a i n i n gs e t so f t h en o d e sd on o th a v et ol e a v et h el o c a

7、la r e aa n dt h e yc o l l a b o r a t et ot r a i nm a c h i n el e a r n i n gm o d e l sb ys h a r i n gm o d e l u p d a t e s 敭 M o s to f t h ec u r r e n tp r i v a c y p r e s e r v i n ga n dB y z a n t i n ea t t a c kd e t e c t i o nr e s e a r c h e s i nt h e f i e l do ff e d e r a t

8、 e dl e a r n i n ga r ec a r r i e do u ti n d e p e n d e n t l y a n dt h ee x i s t i n gB y z a n t i n ea t t a c kd e t e c t i o nm e t h o d sc a n n o tb ed i r e c t l ya p p l i e dt ot h ep r i v a c y p r e s e r v i n ge n v i r o n m e n t w h i c hd o e sn o tm e e t t h ep r a c t

9、i c a la p p l i c a t i o nr e q u i r e m e n t so f f e d e r a t e dl e a r n i n g 敭 T oa d d r e s st h e s ep r o b l e m s t h i sp a p e rp r o p o s e saf e d e r a t e dl e a r n i n ga l g o r i t h mf o rB y z a n t i n er o b u s t n e s s i nap r i v a c y p r e s e r v i n ge n v i r

10、 o n m e n tw i t hd a t an o n i n d e p e n d e n t 年月第卷第期西安电子科技大学学报J OURNA LO FX I D I ANUN I V ER S I TYA u g V o l N o h t t p:/j o u r n a l x i d i a n e d u c n/x d x ba n d i d e n t i c a l l yd i s t r i b u t e d 敭 F i r s t p r i v a c yp r o t e c t i o ni sp r o v i d e df o rm o d e

11、 lu p d a t e s l o c a lm o d e lg r a d i e n ti n f o r m a t i o n b yd i f f e r e n t i a lp r i v a c yt e c h n i q u e s t h e nt h ec r e d i b i l i t yi se v a l u a t e df o rt h ec u r r e n ts t a t eo fn o d e sb a s e do nh i s t o r i c a l m o d e lu p d a t e su p l o a d e d b y

12、n o d e s a n df i n a l l y g l o b a l m o d e la g g r e g a t i o ni sp e r f o r m e db a s e do nt h ee v a l u a t i o nr e s u l t s 敭 S i m u l a t i o nr e s u l t ss h o wt h a t i naf e d e r a t e dl e a r n i n ge n v i r o n m e n tw i t hd a t an o n i n d e p e n d e n ta n di d e n

13、 t i c a l l yd i s t r i b u t e d a n dw i t ht h ep r i v a c yp r o t e c t i o na n dB y z a n t i n en o d er a t i oo f t h ep r o p o s e da l g o r i t h mp e r f o r m sB y z a n t i n en o d ed e t e c t i o nw i t hb o t ht h em i s sd e t e c t i o nr a t ea n dt h e f a l s ed e t e c

14、t i o nr a t ea t敭 M e a n w h i l e t h et i m eo v e r h e a do fB y z a n t i n en o d ed e t e c t i o nt e n d st ol i n e a r l y i n c r e a s ew i t ht h e i n c r e a s e i nt h en u m b e ro ft h en o d e s 敭 C o m p a r e dw i t ht h ee x i s t i n gB y z a n t i n en o d ed e t e c t i o

15、 na l g o r i t h m s t h ep r o p o s e da l g o r i t h mc a no b t a i nag l o b a lm o d e lw i t hah i g h e r a c c u r a c y i nt h ec a s eo fd a t ab e i n gn o n i n d e p e n d e n t a n d i d e n t i c a l l yd i s t r i b u t e da n dm o d e l p r i v a c yp r o t e c t i o n 敭K e yW o

16、r d s f e d e r a t e dl e a r n i n g B y z a n t i n ea t t a c k a n o m a l yd e t e c t i o n p r i v a c y p r e s e r v i n gt e c h n i q u e s d i f f e r e n t i a l p r i v a c y 引言随着社会的发展,人工智能有着越来越多的实际应用.为应对人工智能面临的数据孤岛问题,联邦学习(F e d e r a t e dL e a r n i n g,F L)应运而生.不同于传统的数据集中式机器学习,联邦学习

17、是一种分布式机器学习架构,联邦学习系统中节点的本地训练集不出本地,节点间通过共享模型训练的中间参数进行多方协作训练得到共享的全局模型.根据节点的本地训练集特征,联邦学习可分为种类型,分别是数据样本I D空间重叠较少而数据特征空间重叠较多的横向联邦学习(H o r i z o n t a lF e d e r a t e dL e a r n i n g,H F L),数据样本I D空间重叠较多而数据特征空间重叠较少的纵向联邦学习(V e r t i c a lF e d e r a t e dL e a r n i n g,V F L)以及数据样本I D空间和数据特征空间均重叠较少的联邦迁移学

18、习(F e d e r a t e dT r a n s f e rL e a r n i n g,F T L).横向联邦学习进行一轮训练的流程如下:节点在本地进行模型训练,获得本地模型并将模型更新(梯度)上传至聚合服务器;聚合服务器首先接收各节点上传的本地模型梯度信息,然后进行聚合生成全局模型梯度,并将模型梯度信息下发至各节点;节点接收全局模型梯度并以此更新本地模型.上述步骤一直循环执行,直至全局模型收敛或者达到预定义的模型迭代训练轮数.尽管流程中节点的本地训练集未出本地,但节点上传的中间训练参数同样会泄露隐私 .针对这一问题,国内外学者提出了许多联邦学习的隐私保护方案,这些方案通过对中间训

19、练参数进行隐私保护来避免节点的隐私泄露.当前的隐私保护方法主要分为以同态加密(H o m o m o r p h i cE n c r y p t i o n,HE)、安全多方计算(S e c u r eM u l t i p a r t yC o m p u t a t i o n,S MC)为代表的加密方法和以差分隐私(D i f f e r e n t i a lP r i v a c y,D P)为代表的扰动方法 .同态加密是一种无需访问数据本身便可处理数据的技术,即聚合服务器可对密文状态的模型梯度信息进行计算.然而,同态加密计算复杂,要求节点有较高计算能力,因此在当前计算力条件下,同

20、态加密在联邦学习中的实用性不高.安全多方计算可在不泄露原始数据条件下实现全局模型的无损聚合.然而,安全多方计算通常需要复杂的流程设计,有较高的额外计算成本,因此效率不高.差分隐私通过添加噪声来扰动原本极易识别的数据,避免数据的敏感信息泄露,且所添加的噪声不会破坏数据原本的特征.在每一轮联邦学习训练中,首先将节点的本地模型梯度信息进行差分隐私处理,然后再将其发往聚合服务器,从而防止节点隐私泄露.基于差分隐私的横向联邦学习算法主要目标是在精度损失可接受范围内实现隐私预算最小.WE I等提出C R D(C o mm u n i c a t i o nR r o u n d sD i s c a u

21、n t i n g)算法,证明在给定隐私预算时存在一个最优的训练轮数,可在满足差分隐私的同时提升模型性能.差分隐私通过牺牲部分模型精度来实现隐私保护,实现简便,计算开销低,是一种实用的隐私保护技术.由于联邦学习的本质是一种分布式机器学习,因此易受拜占庭节点攻击.拜占庭节点攻击的常用手段是发起投毒攻击破坏模型的完整性与可用性,致使联邦学习系统的鲁棒性极低.S HE J WA L KA R等提出一种模型投毒攻击,在生成恶意梯度时,使其方向同正常模型梯度方向相反,然后将模型梯度的长度设置为系统防御机制可检测的门限范围内的边缘值,以使恶意梯度的攻击能力最大化.针对拜占庭节点的防御问题,文献中总结了

22、以K r u m、M u l t i K r u m、B u y l a n等为代表的统计学分析方法,其核心思路为:首先基于模型更新的某种数学指标进行安全聚合,例如中位值、均值等;文献这类基于变分自编码器(A u t o 西安电子科技大学学报第卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x bE n c o d e r,A E)识别恶意模型参数的机器学习方法,其核心思路为:首先聚合服务器预先在本地预训练一个自编码器模型,然后正式训练过程中基于自编码器计算各节点模型更新的重构误差,以此重构误差判断模型更新的可靠性;文献这类基于生成对抗

23、网络(G e n e r a t i v eA d v e r s a r i a lN e t w o r k,GAN)的防御方法,其核心思路为:首先基于生成对抗网络补足异常检测模型训练集,然后基于异常检测模型进行拜占庭检测;文献 ,这类通过验证模型参数精度来检测恶意模型参数的方法,其核心思路为:首先聚合服务器利用根数据集在本地训练一个同联邦学习任务一致的本地模型,然后基于节点提供的模型,更新和聚合服务器本地训练得到的模型,以更新的余弦相似度计算节点的信任值.无论是哪一类防御方法,其基本策略皆为对节点中间训练参数的某项数据指标进行相互比较,从而找出离群值.而这样的策略存在两个问题:数据非独立

24、同分布.真实的横向联邦学习场景中节点间的数据是参差不齐的,如果节点训练数据差别过大,那么节点的中间训练参数的区别也会较大,则此类节点的中间训练参数容易被系统检测机制误判为恶意数据.因此,现有的拜占庭鲁棒算法一般不能直接用于数据非独立同分布的联邦学习环境.隐私保护环境.不论是加密还是扰动的隐私保护方法,其基本目的都是隐藏节点中间训练参数的数据特征从而破坏其可分析性.以同态加密为代表的加密方法使得节点中间训练参数的数据特征完全隐藏,致使检测机制无法对密文进行分析;以差分稳私为代表的扰动方法使得节点中间训练参数的数据特征部分隐藏,这使检测机制执行难度增加.因此,现有的拜占庭鲁棒算法一般不能直接用于隐

25、私保护的联邦学习环境.针对上述问题,文中提出一种可在数据非独立同分布和隐私保护环境下拜占庭鲁棒的联邦学习算法.首先,节点对本地梯度进行隐私保护处理;然后,聚合服务器将节点的历史模型更新依次输入自编码器和长短期记忆(L o n gS h o r t T e r m M e m o r y,L S TM)模型,比较长短期记忆模型输出的预测值和实际值的差距以检测拜占庭攻击;最后,聚合服务器根据评估结果进行全局梯度聚合.针对隐私保护需求,所提算法采用差分隐私技术为节点的本地梯度进行隐私保护处理.针对数据非独立同分布环境下的拜占庭鲁棒需求,所提算法仅对节点上传的历史梯度进行纵向比较,以此对节点的可信度进

26、行评估,不涉及节点间的横向比较,因此不受数据非独立同分布环境的影响.支持隐私保护的拜占庭鲁棒联邦学习算法系统模型与假设系统模型如图所示,分为节点端和服务端个部分.服务端由预处理模块、数据检测模块和全局聚合模块组成.预处理模块负责注册节点的基本信息,以及在联邦学习正式开始前进行模型预训练.数据检测模块负责更新和维护历史模型更新信息(即节点上传的本地梯度),并进行拜占庭检测.全局聚合模块则根据数据检测模块的检测结果,选择可信本地模型进行聚合生成全局梯度.图系统模型节点端由正常节点和拜占庭节点共同组成,这两类节点都持有本地训练集.在联邦学习训练中,正常节第期李海洋等:隐私保护的拜占庭鲁棒联邦学习算

27、法h t t p:/j o u r n a l x i d i a n e d u c n/x d x b点遵从联邦学习协议参与训练,而拜占庭节点则伺机发起投毒攻击破坏联邦学习训练过程.根据恶意梯度的生成方式不同,文中将拜占庭节点的攻击方法分为两类:随机生成与全局梯度同维度的恶意梯度;在本地梯度的基础上添加一个反方向的干扰向量.此外,本方案中的拜占庭节点可选择从第轮或第轮(此设置仅为观察精度降低的攻击效果)开始发起攻击.为进一步描述所提方案,作如下系统假设:()横向联邦学习系统中共有N个节点,用集合P,P,PN表示;()聚合服务器诚实且好奇,且持有根数据集,其

28、与节点的本地训练集类别一致,即均为MN I S T/C I F A R 数据集;()拜占庭节点不在第轮训练就发起攻击.图所示的联邦学习系统进行一轮协作训练的步骤的说明如下:阶段注册阶段.节点向聚合服务器发起注册请求并提交必要信息,例如本地训练集的数据量.聚合服务器响应节点请求,协助节点商定模型结构、相关参数设置等.阶段预处理阶段.预处理模块开始预训练得到自编码器和长短期记忆模型并将其发送给数据检测模块.阶段正式训练阶段.首先节点开始本地训练得到本地梯度,然后将本地梯度用差分隐私处理后上传聚合服务器,其中差分隐私使用的是(,)差分隐私,采用高斯机制(即添加高斯噪声)

29、实现.首先聚合服务器接收节点的本地梯度,然后数据检测模块进行拜占庭检测,生成可信节点列表并将其发送给全局聚合模块.首先全局聚合模块选择可信节点所对应的本地梯度,并根据其本地训练集的数据量进行加权聚合得到全局梯度,然后将其下发可信节点.首先节点接收全局梯度并更新本地模型,然后返回步骤,开始新一轮训练.上述预处理阶段步骤中提到的自编码器是一种无监督机器学习,其输入层神经网络数量等于输出层神经网络数量,可用于特征提取和异常检测.长短期记忆模型是一种时间循环网络,可解决一般的循环神经网络存在的长期依赖问题,用于处理序列数据.自编码器和长短期记忆模型在多种场景下都得到了广泛的应用.所提算法所提方案的

30、具体流程分为个阶段:注册阶段、预处理阶段和正式训练阶段.下面对各个阶段进行详细阐述.算法Pi第t轮的历史记录hit更新算法.输入:Pi新上传的本地梯度dit;Pi的历史记录hit 输出:更新后的历史记录hiti ftt h e n hitdite l s e i f l e n(hit)t h e n 历史记录条数小于 hit,dit,dit直接入队 e l s e 上一轮状态hit dit,dit hitdit,dit,dit,dit,dit e n d i fe n d i fr e t u r nhit西安电子科技大学学报第卷h t t p:/j o u r n a l x i d i

31、 a n e d u c n/x d x b 注册阶段此阶段主要任务是节点在横向联邦学习系统内完成注册,聚合服务器同节点协商网络模型结构等训练细节.预处理阶段在预处理阶段,聚合服务器首先收集差分时间序列数据集(D i f f e r e n t i a lT i m eS e r i e sD a t a,D T S D),然后利用差分时间序列数据集先训练自编码器模型,再训练长短期记忆模型,最后确定门限参考列表,为正式训练阶段提供准备.算法Pi第t轮信任度评估算法.输入:Pi的历史记录hithitdit,dit,dit,dit,ditt h r e s h o l d 一级门限,对梯度每一层进

32、行判断t o l e r a n c e_t n 可信节点异常的模型层数的最大值t o l e r a n c e_h t n 半可信节点异常的模型层数的最大值输出:Pi的信任度.分为:可信节点T N,半可信节点HT N,不可信节点AN历史记录hit处理f o rkd o hkhitkhitk h l i s tith,h,h h e l i s tit A Ee n c o d e r(h l i s tit)o r i g i n A Ee n c o d e r(h)p r e d i c tL S TM(h e l i s tit)g r a d i e n t_e u l e r o

33、 r i g i n p r e d i c t 计算L距离Pi的信任度划分a y e r_s t a t e 表示梯度中异常的层数f o rg r a d i e n t_e u l e r i ng r a d i e n t_e u l e rd o i f l a y e r_e u l e rt h r e s h o l dt h e n l a y e r_s t a t el a y e r_s t a t e此层异常 e n d i fe n df o ri f l a y e r_s t a t et o l e r a n c e_t nt h e n r e t u r

34、 nPi T Ne l s e i f l a y e r_s t a t et o l e r a n c e_h t nt h e n r e t u r nPi HT Ne l s e r e t u r nPi ANe n d i f收集差分时间序列数据集:()聚合服务器创建初始模型(注册阶段所协商的模型),用根数据集进行n轮模型训练,期间收集训练过程中产生的模型梯度,得到时序梯度数据集G,其中Ggt,t,n,gt为第t轮训练的模型梯度;()针对G中的每一个梯度,聚合服务器计算其L范数,选取其中值最大的m个L范数,将其均值作为梯度裁剪的阈值c并向各节点广播;()聚合服务器根据ctgt/

35、m a x(,gt/c)对G中的梯度进行裁剪,得到数据集C,其中Cct;()聚合服务器根据dtct ct计算C中相邻梯度的差值,得到差分时间序列数据集D T S D,其中D T S Ddi,i,n.获取自编码器模型:聚合服务器首先创建自编码器模型,用差分时间序列数据集作为训练集来训练自编码器模型,然后保存第期李海洋等:隐私保护的拜占庭鲁棒联邦学习算法h t t p:/j o u r n a l x i d i a n e d u c n/x d x b模型.获取长短期记忆模型:()聚合服务器用自编码器模型的编码器模块将差分时间序列数据集进行编码处理,得到数据集D T S D_E.()聚合服务器

36、用长度为、步长为的滑动窗口(此处滑动窗口的参数是经验值,在实际情况中也可取其他的值)在D T S D_E上进行采样,生成数据集D T S D_E_L,选取其中前的数据作为训练集D a t a_T r a i n,剩余的数据作为测试集D a t a_T e s t.()聚合服务器首先创建长短期记忆模型,用D a t a_T r a i n训练长短期记忆模型,然后保存模型.确定门限参考列表:将D a t a_T e s t输入长短期记忆模型,计算每条预测数据和实际数据的距离(欧式距离),得到门限参考列表e u l e r_d i s.在正式训练阶段选取e

37、u l e r_d i s中最大的tm(虚门限)个值,计算其均值作为实际门限值.正式训练阶段正式训练阶段节点端与服务端的工作流程如下所示:节点Pi:()Pi设置相关模型参数;()Pi开始第t轮训练,收集本轮训练的模型梯度gt;()Pi对gt进行裁剪,得到ct,其中ctgt/m a x(,gt/c);()Pi对ct进行差分隐私处理,得到dt,其中dtctN(,);()Pi将dt上传聚合服务器;()若t,返回步骤(),开始新的一轮训练;否则,进入下一步;()接收全局梯度g r a d i e n t_g l o b a lt并更新本地模型;()返回步骤(),开始新的一轮训练.服务端:()聚合服务器

38、接收节点第t轮上传的dt;()聚合服务器更新节点的历史记录ht(详见算法),其记录的是节点上传的本地梯度信息;()若t,则返回步骤(),开始新的一轮训练;否则,进入下一步;()聚合服务器根据ht、自编码器模型以及长短期记忆模型评估节点的可信度(详见算法);()聚合服务器选取可信节点上传的dt计算全局梯度g r a d i e n t_g l o b a lt(详见算法);()聚合服务器向不可信节点发送假数据,向其余节点发送g r a d i e n t_g l o b a lt;()返回步骤(),开始新的一轮训练.在上述正式训练阶段,服务端使用了个算法.算法是节点历史模型记录(节点历史模型记录

39、以双端队列形式存储)更新算法,其中步骤表示历史记录条数小于时新的记录直接进入队尾,步骤和表示历史记录条数大于等于时新的记录进入队尾的同时最早进入的记录需要弹出队头,然后输出节点的新历史模型记录.算法给出了节点信任度评估方法,其中步骤处理节点的历史记录,首先计算历史记录中相邻梯度的差值,得到一个长度为的差值列表,再用自编码器模型将此列表中的每条数据进行编码处理,然后将此列表的前条数据作为长短期记忆的输入得到预测值,最后计算此预测值和列表中第条数据的欧氏距离g r a d i e n t_e u r l e r;步骤行将g r a d i e n t_e u r l e r中每层的值同各自的门限进

40、行比较以得出每一层的异常状态,然后根据总的异常层数判断节点此时的可信度.算法给出了全局模型聚合方案,以节点的本地训练集的数据量为权重,对所有可信节点的本地梯度进行加权聚合得到全局模型梯度.算法全局梯度聚合算法.输入:聚合服务器判断为可信的Pi上传的梯度dit和Pi数据量d a t a_l e n g t hi;经算法筛选后有m个节点可信,im输出:第t轮的全局梯度g r a d i e n t_g l o b a lt西安电子科技大学学报第卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x b d a t a_l e n g t hmid

41、a t a_l e n g t hi g r a d i e n t_g l o b a ltmid a t a_l e n g t hid a t a_l e n g t hditr e t u r ng r a d i e n t_g l o b a lt 实验分析为验证所提方案的有效性,文中开展了一系列的仿真实验,下面首先介绍总体的实验设置,然后给出实验结果并对其进行分析.实验设置本实验所采用的平台如表所示,实验所涉及符号的说明如表所示.联邦学习系统中节点的本地训练集采用MN I S T/C I F A R 数据集,数据分布分为独立同分布(I n d e p e n d e n ta n

42、 dI d e n t i c a l l yD i s t r i b u t e d,I I D)和非独立同分布(N o n I n d e p e n d e n ta n dI d e n t i c a l l yD i s t r i b u t e d,N o n I I D)两类.其中,通过在MN I S T/C I F A R 数据集中随机、均匀地选取一定数量(文中选取、条数据)的数据实现节点数据独立同分布的联邦学习环境,而节点数据非独立同分布的联邦学习环境则采用文献所提方法实现.具体方法如表所示.节点的本地训练模型采用多层感知机(M u

43、l t i L a y e rP e r c e p t r o n,ML P)和卷积神经网络(C o n v o l u t i o n a lN e u r a lN e t w o r k,C NN)这两类模型,其中多层感知机模型结构为 ,卷积神经网络自定义模型包含个卷积层、个池化层.表实验平台表设备参数工作站D E L LT 系统U b u n t u L T S处理器 I n t e l(R)R主频 GH z内存G B G B显卡G T X 显存G B表对工艺库的迁移性评估符号含义u联邦学习系统节点数量e p s i l o n隐私预算tm虚门限mn联邦学习系统中拜占庭节

44、点占比a d部署了异常检测机制n a d未部署异常检测机制ML P自定义的多层感知机模型C NN自定义的卷积神经网络模型I I D独立同分布的数据划分方式表非独立同分布数据划分分类特征方法N数据量层面非独立同分布,数据标签类别层面独立同分布假设数据集有n条数据,平均分为p个分片,则每个分片有n/p条数据;给每个节点随机分配rp,rp,p 个分片的数据N数据量层面独立同分布,数据标签类别层面非独立同分布假设数据集的标签有c类,每一类标签都分配cm条数据;给每个节点随机分配rc,rc,c 类的数据N数据量和数据标签类别层面都非独立同分布假设数据集的标签有c类,每一类标签设置cm条数据,

45、再将每一类数据分为cp个分片,则每一类数据的分片有cm/cp条数据,首先给每个节点随机分rc,rc,c 类数据,然后针对每类数据随机分rp,rp,cp 个分片的数据仿真实验的基础设置为:节点数量u,训练轮数e p o c h,隐私预算e p s i l o n,拜占庭节点比例mn.实验结果的主要衡量指标为聚合服务器进行数据检测的时间开销、全局模型精度(由聚合服务器用完整的MN I S T/C I F A R 测试集测试得出)以及数据检测模块的性能(误检率).结果分析首先进行可行性分析.图给出了节点数据独立同分布且训练模型为卷积神经网络模型的条件下,分第期李海洋等:隐私保护的拜占庭鲁棒联邦学习算

46、法h t t p:/j o u r n a l x i d i a n e d u c n/x d x b别选择MN I S T和C I F A R 作为训练集的全局模型精度随训练轮次的变化过程,其中a d表示聚合服务器端部署了所提方案,n a d则表示无异常检测.从图可以看出,在第轮和第轮全局模型的精度出现大幅度降低,这是因为拜占庭节点分为两批发起攻击,其中一批从第轮开始发起攻击,另一批从第轮发起攻击.可以看出,如果服务器部署了文中所提方案,则在第轮与第轮迭代后全局模型精度并未出现波动,在整个训练过程中全局模型的精度均高于未部署所提方案时全局模型的精度.此外,实验日志显示,数据检测模块

47、及时准确地检测出了联邦学习系统中所有拜占庭节点.因此,所提拜占庭节点检测算法在节点数据独立同分布条件下,可以准确地检测出系统中的拜占庭节点.图中训练集为C I F A R 时所得全局模型的精度低于训练集为MN I S T时所得全局模型的精度,这是由C I F A R 数据集特性以及本实验所采用的简单卷积神经网络模型模型结构所致.在相同条件下,未部署所提方案的C I F A R 训练集训练得到的全局模型精度更低.图数据独立同分布条件下卷积神经网络模型的精度图数据非独立同分布条件下卷积神经网络模型的精度图给出了MN I S T数据集作为训练集,训练模型为卷积神经网络模型,节点数据非独立同分布条件下

48、全局模型精度随训练轮次的变化过程.从图可以看出,不同非独立同分布条件下全局模型的最终精度存在一定的差异.然而,相同非独立同分布条件下,未部署所提异常检测机制时在第轮和第轮训练结束后全局模型均出现了精度突然降低的现象.因此,所提方案可在隐私保护且节点数据非独立同分布条件下准确地检测出系统中的拜占庭节点.图中节点数据分布为N和N两种情况时得到的全局模型精度低于节点数据分布为N时得到的全局模型精度,这是因为N划分主要体现了节点的本地训练样本数量的不同,而单个节点所拥有的数据较为完备,因而其精度远高于另外两种划分时得到的全局模型精度.接下来进行所提方案的计算开销分析.图给出了MN I S T数据集作

49、为训练集,训练模型为卷积神经网络模型,节点数据独立同分布条件下数据检测模块进行异常检测的时间开销随节点数量变化的过程.从图可以看出,不论是以多层感知机还是卷积神经网络模型作为训练模型,异常检测的时间开销随着节点数量增加大体呈线性增长的态势,多层感知机作为训练模型时单个节点的检测耗时在s之间,卷积神经网络模型作为训练模型时单个节点的检测耗时在s以内.图异常检测的计算开销图隐私预算对异常检测的影响为了分析隐私预算对数据检测模块的性能影响,图给出了节点数据独立同分布,节点总数u,拜占庭节点比例mn 条件下数据检测模块在不同隐私预算下的误检节点个数.从图可以看出,当隐私西安电子科技大学学报第卷h t

50、 t p:/j o u r n a l x i d i a n e d u c n/x d x b预算为时,误检节点总数为,即全部正常节点均被误判为恶意节点,数据检测模块完全失效.随着隐私预算逐渐增大,数据检测模型误检的节点个数也逐渐减小.这是因为隐私预算越小,隐私保护越强,但数据可用性越弱,因此误检率高.采用虚门限tm替代实际门限值以给出更具体的门限设置参考.为了分析虚门限对数据检测模块的性能影响,图和图给出了节点数据独立同分布条件下,分别以多层感知机和卷积神经网络模型作为训练模型时,数据检测模块在不同虚门限下的误检节点个数.从图和图可以看出,随着虚门限的增加,数据检测模块误检节点数量随之

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 隐私保护拜占庭联邦学习算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。