一种基于区块链的联邦学习贡献评价方案.pdf
《一种基于区块链的联邦学习贡献评价方案.pdf》由会员分享,可在线阅读,更多相关《一种基于区块链的联邦学习贡献评价方案.pdf(8页珍藏版)》请在咨信网上搜索。
1、收稿日期:;修回日期:基金项目:国家自然科学基金资助项目();内蒙古自治区自然科学基金资助项目();内蒙古高校科学研究项目()作者简介:徐浩?(),男,河南信阳人,硕士研究生,主要研究方向为联邦学习、区块链;刘立新(),女(通信作者),内蒙古通辽人,讲师,硕导,博士研究生,主要研究方向为隐私保护、区块链();王静宇(),男,河南开封人,教授,硕导,博士,主要研究方向为隐私保护、区块链;张晓琳(),女,内蒙古包头人,教授,硕导,博士,主要研究方向为大数据、隐私保护;王永平(),女,内蒙古赤峰人,讲师,硕士,主要研究方向为计算机视觉、机器学习一种基于区块链的联邦学习贡献评价方案徐浩?,刘立新,王静
2、宇,张晓琳,王永平(内蒙古科技大学 信息工程学院,内蒙古 包头 ;中国人民大学 信息学院,北京 )摘要:为了实现联邦学习中公平的收益分配,需要有一个指标来量化每个数据提供者对联合模型的贡献。针对现有的贡献评价方案存在的隐私泄露、不透明和依赖中心服务器等问题,提出一种基于区块链的透明的联邦学习贡献评价方案。首先,提出基于改进的 安全聚合算法,通过联合解密避免了在模型聚合阶段对用户本地数据的推断。其次,提出一种基于用户累计提交的梯度来近似计算其贡献的方法,解决了现有贡献评估方案存在的隐私泄露问题。此外,将贡献的评估融入到区块链的共识过程中,使其评估结果具备了可审计性。最后,基于 数据集进行的实验表
3、明,所提出的方法可以有效地评估贡献。关键词:区块链;联邦学习;公平;贡献评估;透明;隐私中图分类号:文献标志码:文章编号:():,(,;,):,:;引言联邦学习支持用户数据在不出本地的前提下协作训练共享的全局模型,成为破除数据孤岛化、整合碎片化、推动人工智能发展的新范式。联邦学习使用了来自不同实体的数据集且实体之间在数据质量方面存在不平衡性,这导致用户在联邦学习中处于不公平的地位,甚至直接拒绝参与联邦学习。而目前大部分研究主要集中在改善联邦学习性能上,忽视了用户加入联邦学习的激励机制。因此,如何使用户持续参与到联邦学习中,在最大化联邦学习可持续经营的同时最小化用户之间的不公平性,是保证联邦学习
4、被广泛推广与应用的关键 。为了激励用户的参与,根据他们对学习过程的贡献公平地评估来自不同用户的数据是至关重要的。沙普利值 (,)是合作博弈论 中的一个解决方案,用于分配一组参与者联盟所产生的总收益,具有一系列理想的属性。采用 的重要原因是它确保了合作产生的所有收益都分布在参与者之间并且分配给参与者的价值符合他们在合作过程中的实际贡献。最近一些研究在训练机器学习模型时使用 来评估数据集中不同数据点的贡献。等人 提出了数据沙普利值这一概念,它的形式与 相同,他们提出了两种启发式的方法来有效地计算每个数据点的 。等人 基于 的概念,正式定义了联邦学习任务中不同数据提供者的贡献指数(,),同时提出了两
5、种有效的方法来近似计算 。等人 提出了联邦 的概念,他们所提出的方法在保留 一系列理想属性的同时还能够捕捉到参与者参与顺序对数据价值的影响。上述关于联邦学习中贡献评估的研究通常假设一个半可信的中心服务器来训练模型和评估用户的模型贡献。在实际场景中,各组织(例如银行)之间是互不信任的,并且可能相互竞争。因此,假设这样一个半可信的服务器通常具有较大的挑战性。此外,贡献评估的不透明可能会阻止数据所有者的合作,并阻碍联邦学习在现实中的应用与推广。近年来,区块链技术以其独有的去中心化、不易窜改和可追溯等特性为解决上述依赖中心服务器以及透明性的问题提供了思路:通过定制相应的区块链共识机制将模型训练和贡献评
6、估的中间结果上链,实现该过程的透明性、可审性。然而,这第 卷第 期 年 月计 算 机 应 用 研 究 种解决方案引入了两个新的挑战:)训练中间结果的公开将带来用户隐私泄露的风险,等人 的研究已经证明利用联邦学习的中间梯参数(例如梯度更新)可以获得私人训练数据,为了解决上述的隐私问题,本文设计了一种基于改进的 安全聚合算法保护用户梯度,通过联合解密的方式来安全计算联邦学习的全局模型;)基于 的贡献评价方案需要所有用户子集(后文称为联盟)各自聚合他们的更新以生成联盟模型来计算边际贡献。如果此时继续使用上述的安全聚合算法,则当联邦学习用户数量为 时,系统需要为用户生成 套不同的安全聚合密钥,密钥管理
7、成为用户负担,为此,本文提出一种基于用户累计产生的梯度来恢复联盟模型的方法。本文提出了一种基于区块链的去中心化联邦学习贡献评价框架,该框架不仅保护训练期间用户的隐私,还使联邦学习及其贡献评估具备了透明性和可审计性;提出了一种基于累计梯度来近似计算 的方法 ,本文方法只利用联邦学习的中间结果,且不会带来用户隐私泄露的风险。相关工作 联邦学习中的激励机制现有的联邦学习相关研究有一个假设,即所有数据供给方都无条件地贡献其资源 ,由于模型训练产生的资源成本,这在现实世界中是不实际的 。如果没有精心设计的经济补偿,自利的数据供给方是不愿意参与模型训练的 ,。因此,有必要设计一个有效的激励机制来刺激数据供
8、给方参与联邦学习任务 ,。根据驱动方式的不同,现有的联邦学习激励机制可被分为信誉值驱动、贡献驱动与资源分配驱动三大类 ,如表 所示。表 现有的激励方案对比 文献驱动方式公平隐私保护不依赖半诚实服务器透明(可审计)文献 贡献文献 信誉文献 信誉文献 贡献文献 贡献文献 贡献文献 资源分配在基于信誉值驱动的相关方案中,等人 通过将信誉评估机制与契约理论融合对参与联邦学习的节点进行约束,其信誉指标用于衡量联邦学习参与者的可靠性,引入多重主观逻辑模型与区块链进行参与者的遴选与信誉值的分布式管理,实现了个人理性与激励相容。等人 引入了一个信誉机制来调节参与者在各轮交互中的奖励,参与者接收到的模型质量与其
9、信誉度成正比,最终每个参与者都能得到一个效用大小能反映其信誉程度的差异化全局模型。在基于贡献驱动的相关方案中,等人 提出一种基于沙普利值的评价指标,利用模型迭代过程中产生的梯度近似重构模型,避免了对来自不同参与者的数据集组合进行额外的模型训练。为了解决 评价过程中的隐私泄露以及不透明的问题,等人 提出了一种基于组的 计算方法,通过组内安全聚合实现一定程度上的隐私保护,另外,区块链的引入也为增强 评价过程的透明性提供了强有力的支撑。陈乔松等人 提出一种双区块链激励驱动的数据分享联邦学习框架(),其基于修正 值的侧链共识算法并综合考虑了联邦学习参与方的历史诚信度,使激励结果更加公平实际。等人 提出
10、的 将注意力机制融入到参与方贡献的评估以及全局模型的计算中,综合考虑了当前迭代轮次和上一轮中参与方的表现,根据注意力值计算其贡献率。在基于资源分配驱动的相关方案中,等人 通过斯塔克伯格博弈模型对设备与 边缘服务器之间基于激励的交互进行建模,以激励设备参与联邦学习的过程,在这个博弈中,参与者可以策略性地设置本地迭代次数,以使他们的效用最大化。总体而言,已有工作虽能保证用户奖励合理分配 ,但未能有效权衡模型性能和计算成本 ,这在一定程度上降低了其方案的实用性;其次,激励机制方案设计缺乏隐私安全保证 ,而文献 ,虽能更好地保证用户隐私安全,但其模型复杂度高,也给模型部署带来了一定的局限性。此外,文献
11、 ,都假设半可信的服务器会诚实地评估每个参与者的贡献,对于自利的参与者而言,这样的假设是难以接受的。文献 通过将用户分组的方法以较低的计算成本及模型复杂度,同时实现了贡献评估的隐私保护与透明性,然而,他们假设了每个用户的边际贡献与其所在组的边际贡献近似,这显然在一定程度上模糊了真实的个人边际贡献。另外,他们在实验中指出,组数越大,隐私性就越差;组数越小,算法效用就越低(越偏离真实值),即隐私保护的强度与贡献评估结果的准确度受分组大小的影响,难以兼顾两者。因此,如何设计一种公平有效、透明可审计且保障参与者隐私的激励机制仍需要进一步深入研究。联邦学习中的隐私保护理想情况下,联邦学习在模型训练和推理
12、的阶段,各参与方只能获得其计算的必要过程数据和结果数据(如模型参数、梯度),也就是基于交互的有限数据无法推导出原始隐私数据。然而事实上攻击者可以利用这些数据对用户训练集中样本的标签进行推断以及重构训练所用数据 。目前有以下三种主流隐私保护技术以应对上述隐私攻击:)同态密码系统(,)。文献 采用同态加密实现多方联合计算的梯度提升树,将参与方间交互的信息经过同态加密进行计算,可保障隐私信息传输过程的安全性。等人 将同态加密应用于联邦的逻辑回归算法,各参与方将本地模型更新的参数进行同态加密,交互的中间结果皆属于加密后的聚合信息,各方皆无法反推任何隐私信息。对用户间以及用户与中心服务器间通信传输的参数
13、信息进行加密以达到较高的隐私保护度且不牺牲模型可用性,然而其计算代价较高,不适于参与方计算能力较差的场景。)差分隐私(,)。等人 提出了一种将 机制与 算法相结合的隐私保护深度学习方法,该方法主要是通过在小批量步骤后利用噪声干扰本地梯度实现隐私保护。然而,隐私保护预算和联邦学习效率之间的平衡是很难抉择的,这是由于较高的隐私保护预算可能对一些大规模攻击活动(如基于 的攻击)并没有很大作用 ,然而较低的隐私保护预算又会阻碍本地模型的收敛、损害模型效用甚至导致参与者的贡献或信誉降低。)安全多方计算(,)。通过 进行隐私保护学习,其中参与者需要在初始设置阶段在两个非共谋服务器之间处理、秘密共享他们的数
14、据。等人 提出了一种实用的安全聚合协议,该协议允许非可信服务器计算各方参与者的高维数据矢量求和的结果,这种方法适用于联邦学习参数设置时聚合多个用户的私有梯度向量的过程。基于 的联邦学习隐私保护的方法能提供较高的隐私保护度且不需要可信聚合服务器即可完成学习任务。然而该方法会导致联邦学习计算代价变大、通信轮数骤增 ,参与方之间的信息交互造成的通信代价可能成第 期徐浩?,等:一种基于区块链的联邦学习贡献评价方案为整个训练过程的瓶颈。总体而言,将 、方法与联邦学习相结合,可以保证用户训练数据的安全性和私密性。然而,必须考虑安全机制在联邦学习过程产生的负面影响,例如 的隐私预算、加密系统的计算复杂度、多
15、方计算的通信开销等因素。预备知识 区块链技术区块链作为一种去中心化、抗窜改、公开透明的数字账本,能够在非可信环境下以安全可验证的方式构建分类账,保障互不信任双方交易过程的可信性。区块链的出现解决了传统交易过程内生性地受制于可信第三方信用背书的问题 ,目前已经在物联网、大数据、云计算、边缘计算等领域被广泛应用。在区块链网络中,通过共识算法维护全网一致的分类账本。常用的共识算法有工作量证明(,)、权益证明(,)、委托权益证明()、拜占庭容错(,)等。针对上述共识算法存在的共识效率低、扩展性弱等问题,协议 通过融合密码抽签技术和改进的拜占庭共识协议,能够在兼顾去中心化的同时快速处理大量交易,并且用户
16、数量可无限扩展,被宣称能解决区块链中“可扩展性、安全性和去中心化”的三角难题。其中:)可扩展性,采用可验证随机函数(,)随机选择若干个验证者,无论网络中有多少用户,每生成一个新区块只需要在少数验证者上进行验证,极大地提高了吞吐量(,)和共识效率;)安全性,只有当区块提议者和验证者确定自己被选中并广播相应的证明信息时才会被披露,因此攻击者无法提前预测,即使发起攻击也无法阻止新区块在网络中传播;)去中心化,在每一轮中都重新随机选取区块提议者和验证者,具有较好的去中心化性。由于区块链天然的去中心分布式可信机制,为构建更加安全的联邦学习及其贡献评估框架提供了新的思路,可以有效解决用户协作时面临的缺乏透
17、明性和不可审计等问题。联邦学习框架在经典的联邦学习框架下 ,每个用户终端基于其本地数据集训练机器学习模型,然后将模型参数发送给中央服务器。服务器聚合所有上传的参数后得到全局模型,下发给各个终端,用于更新它们的本地模型。假设有 个联邦学习用户,每个用户都有数据集,。在每个迭代 ,有以下步骤:)服务器向所有用户(客户端)发送一个全局模型()。)每个用户,以用户 为例,根据自己的数据 训练(),并将更新的子模型()返回给服务器。)服务器整合子模型(),得到一个新的全局模型()用于下一次迭代。本文将上述步骤变形为一种等价形式以适配安全聚合算法。在步骤 )中,每个用户通过式()计算其梯度:()()()(
18、)其中:是训练数据 的大小。然后,聚合者将来自不同用户的梯度聚合:()()()最后,聚合者通过梯度下降公式计算出新的全局模型:()()()()沙普利值沙普利值是为了纪念 而命名的,于 年首次提出,是合作博弈理论中的一个解决方案概念。它为所有参与者合作产生的总利润分配了一个独特的分布,并具有一系列理想的属性。下面定义了联邦学习中用于衡量用户贡献的沙普利值。定义 沙普利值()。给定 个联邦学习用户及其数据集,机器学习算法?和标准测试集。本文使用多重集 表示,其中 ,。一个通过算法?在 上训练的模型用(?)表示,在没有歧义的情况下可被缩写为。在标准测试集 上评估模型 的性能用 (,)表示,在没有歧义
19、的情况下可被缩写为 ()。用(?,)表示 在、?、背景下的沙普利值(),在没有歧义的情况下 (?,)可被缩写为。联邦学习用户的 被定义为 ()()()另外,具有以下性质:)如果一个数据集 对机器学习算法?在测试集 上的表现没有影响,的 应该为零。形式上,如果对于任何子集 ,有 ()(),那么 。)如果两个数据集 和 对机器算法?在测试集 上的表现有相同的影响,它们应该有相同的 。形式上,如果对于任何子集 ,有 ()(),那么 。)关于测试集应当是线性的。形式上,对于任何两个不相交的测试集、和任何 ,有 (?,)(?,)(?,)。方案设计 系统架构本文将区块链技术与联邦学习及其贡献评估相结合,在
20、保证用户隐私的前提下,透明地计算联邦学习全局模型和用户的沙普利贡献值。如图 所示,本文提出的系统架构包括任务发布方、用户、共识委员会和区块链等。)任务发布方。任务发布方将联邦学习任务发布到区块链上,其中包括数据类型、联邦学习初始化模型、超参数、时间范围和计算资源等。之后,满足要求的数据拥有者可以成为本次联邦学习任务的参与方,并向任务发布方上报其所拥有的本地资源信息。任务发布方获得最终全局模型后,将联邦学习所获收益按照贡献度以及事先制定的奖励规则分别支付给联邦学习参与方以及参与共识过程的节点。)用户,即联邦学习参与者。为了发挥本地数据资源的价值并获得联邦学习所产生的收益,用户从区块链上下载模型训
21、练所需要的初始化参数,并基于其所拥有的本地数据集独立进行模型训练。本文假设用户是诚实但好奇的,即用户之间虽然会诚实地进行交互(不会发起投毒攻击),但是对彼此的敏感信息感到好奇。)共识委员会。为了加快区块链节点的共识效率进而提高联邦学习的迭代训练效率,本文采用一组通过一定规则选举得到的共识委员会替代所有节点参与共识过程,其中共识委员会包括领导者与验证委员会。具体规则是利用加密抽签算法 的节点选举策略,所有节点都可以进行加密抽签的方法来决定谁将在本次联邦学习任务中进行区块的提议(领导者)以及验证(验证委员会),节点的账户余额将决定被选中的概率(拥有越多数量的代币将拥有更高的概率被选中),并且给予每
22、一个被选中的节点一个优先级别()以及拥有此优先级的证明。选择优先级高且愿意参与共识的前若干个代理节点组成共识委员会。更多关于共识过程的细节,将在 计 算 机 应 用 研 究第 卷节中详细阐述。每轮联邦学习将产生一个对应的新的区块,其区块体用于存储该轮联邦学习所产生的交易数据,主要包括模型参数、隐私保护本地更新和贡献评估结果。区块头用于存储上一区块的哈希值形成链式结构,以及 根哈希以确保交易数据的完整性。任何一方可访问并审计区块链上的交易数据。图 系统架构 设计目标本文提出基于区块链的联邦学习贡献评价方案在设计实现时需要满足用户本地训练数据的隐私保护、模型聚合以及贡献评估结果的可靠性、贡献评估的
23、公平性以及高效性四个设计目标。下面分别对这四个设计目标进行详细介绍。)用户本地训练数据的隐私保护。虽然联邦学习本身可保证用户数据不出本地即可完成协同模型训练,然而用户之间是相互独立且互相不信任的,他们可通过联邦学习及其贡献评价过程中交互的参数发起隐私攻击 ,获得用户的私人数据,因此隐私保护应当贯穿整个联邦学习及其贡献评估过程。)模型聚合以及贡献评估结果的可靠性。为避免领导者对模型的错误计算或由于私心而故意提高(降低)某用户的贡献值,参与共识的节点需要对领导者计算的每个结果进行校验,只有当大多数(超过一半的)共识节点同意时,该结果才能以新区块的形式追加到区块链上。如果计算结果被校验有误,则应当选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 区块 联邦 学习 贡献 评价 方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。