分销赏收藏举报申诉 / 8

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 一种基于区块链的联邦学习贡献评价方案.pdf

一种基于区块链的联邦学习贡献评价方案.pdf

上传人：自信****多点

文档编号：757264

上传时间：2024-03-05

格式：PDF

页数：8

大小：1.21MB

《一种基于区块链的联邦学习贡献评价方案.pdf》由会员分享，可在线阅读，更多相关《一种基于区块链的联邦学习贡献评价方案.pdf（8页珍藏版）》请在咨信网上搜索。

1、收稿日期：；修回日期：基金项目：国家自然科学基金资助项目（）；内蒙古自治区自然科学基金资助项目（）；内蒙古高校科学研究项目（）作者简介：徐浩?（），男，河南信阳人，硕士研究生，主要研究方向为联邦学习、区块链；刘立新（），女（通信作者），内蒙古通辽人，讲师，硕导，博士研究生，主要研究方向为隐私保护、区块链（）；王静宇（），男，河南开封人，教授，硕导，博士，主要研究方向为隐私保护、区块链；张晓琳（），女，内蒙古包头人，教授，硕导，博士，主要研究方向为大数据、隐私保护；王永平（），女，内蒙古赤峰人，讲师，硕士，主要研究方向为计算机视觉、机器学习一种基于区块链的联邦学习贡献评价方案徐浩?，刘立新，王静

2、宇，张晓琳，王永平（内蒙古科技大学信息工程学院，内蒙古包头；中国人民大学信息学院，北京）摘要：为了实现联邦学习中公平的收益分配，需要有一个指标来量化每个数据提供者对联合模型的贡献。针对现有的贡献评价方案存在的隐私泄露、不透明和依赖中心服务器等问题，提出一种基于区块链的透明的联邦学习贡献评价方案。首先，提出基于改进的安全聚合算法，通过联合解密避免了在模型聚合阶段对用户本地数据的推断。其次，提出一种基于用户累计提交的梯度来近似计算其贡献的方法，解决了现有贡献评估方案存在的隐私泄露问题。此外，将贡献的评估融入到区块链的共识过程中，使其评估结果具备了可审计性。最后，基于数据集进行的实验表

3、明，所提出的方法可以有效地评估贡献。关键词：区块链；联邦学习；公平；贡献评估；透明；隐私中图分类号：文献标志码：文章编号：（）：，（，；，）：，：；引言联邦学习支持用户数据在不出本地的前提下协作训练共享的全局模型，成为破除数据孤岛化、整合碎片化、推动人工智能发展的新范式。联邦学习使用了来自不同实体的数据集且实体之间在数据质量方面存在不平衡性，这导致用户在联邦学习中处于不公平的地位，甚至直接拒绝参与联邦学习。而目前大部分研究主要集中在改善联邦学习性能上，忽视了用户加入联邦学习的激励机制。因此，如何使用户持续参与到联邦学习中，在最大化联邦学习可持续经营的同时最小化用户之间的不公平性，是保证联邦学习

4、被广泛推广与应用的关键。为了激励用户的参与，根据他们对学习过程的贡献公平地评估来自不同用户的数据是至关重要的。沙普利值（，）是合作博弈论中的一个解决方案，用于分配一组参与者联盟所产生的总收益，具有一系列理想的属性。采用的重要原因是它确保了合作产生的所有收益都分布在参与者之间并且分配给参与者的价值符合他们在合作过程中的实际贡献。最近一些研究在训练机器学习模型时使用来评估数据集中不同数据点的贡献。等人提出了数据沙普利值这一概念，它的形式与相同，他们提出了两种启发式的方法来有效地计算每个数据点的。等人基于的概念，正式定义了联邦学习任务中不同数据提供者的贡献指数（，），同时提出了两

5、种有效的方法来近似计算。等人提出了联邦的概念，他们所提出的方法在保留一系列理想属性的同时还能够捕捉到参与者参与顺序对数据价值的影响。上述关于联邦学习中贡献评估的研究通常假设一个半可信的中心服务器来训练模型和评估用户的模型贡献。在实际场景中，各组织（例如银行）之间是互不信任的，并且可能相互竞争。因此，假设这样一个半可信的服务器通常具有较大的挑战性。此外，贡献评估的不透明可能会阻止数据所有者的合作，并阻碍联邦学习在现实中的应用与推广。近年来，区块链技术以其独有的去中心化、不易窜改和可追溯等特性为解决上述依赖中心服务器以及透明性的问题提供了思路：通过定制相应的区块链共识机制将模型训练和贡献评

6、估的中间结果上链，实现该过程的透明性、可审性。然而，这第卷第期年月计算机应用研究种解决方案引入了两个新的挑战：）训练中间结果的公开将带来用户隐私泄露的风险，等人的研究已经证明利用联邦学习的中间梯参数（例如梯度更新）可以获得私人训练数据，为了解决上述的隐私问题，本文设计了一种基于改进的安全聚合算法保护用户梯度，通过联合解密的方式来安全计算联邦学习的全局模型；）基于的贡献评价方案需要所有用户子集（后文称为联盟）各自聚合他们的更新以生成联盟模型来计算边际贡献。如果此时继续使用上述的安全聚合算法，则当联邦学习用户数量为时，系统需要为用户生成套不同的安全聚合密钥，密钥管理

7、成为用户负担，为此，本文提出一种基于用户累计产生的梯度来恢复联盟模型的方法。本文提出了一种基于区块链的去中心化联邦学习贡献评价框架，该框架不仅保护训练期间用户的隐私，还使联邦学习及其贡献评估具备了透明性和可审计性；提出了一种基于累计梯度来近似计算的方法，本文方法只利用联邦学习的中间结果，且不会带来用户隐私泄露的风险。相关工作联邦学习中的激励机制现有的联邦学习相关研究有一个假设，即所有数据供给方都无条件地贡献其资源，由于模型训练产生的资源成本，这在现实世界中是不实际的。如果没有精心设计的经济补偿，自利的数据供给方是不愿意参与模型训练的，。因此，有必要设计一个有效的激励机制来刺激数据供

8、给方参与联邦学习任务，。根据驱动方式的不同，现有的联邦学习激励机制可被分为信誉值驱动、贡献驱动与资源分配驱动三大类，如表所示。表现有的激励方案对比文献驱动方式公平隐私保护不依赖半诚实服务器透明（可审计）文献贡献文献信誉文献信誉文献贡献文献贡献文献贡献文献资源分配在基于信誉值驱动的相关方案中，等人通过将信誉评估机制与契约理论融合对参与联邦学习的节点进行约束，其信誉指标用于衡量联邦学习参与者的可靠性，引入多重主观逻辑模型与区块链进行参与者的遴选与信誉值的分布式管理，实现了个人理性与激励相容。等人引入了一个信誉机制来调节参与者在各轮交互中的奖励，参与者接收到的模型质量与其

9、信誉度成正比，最终每个参与者都能得到一个效用大小能反映其信誉程度的差异化全局模型。在基于贡献驱动的相关方案中，等人提出一种基于沙普利值的评价指标，利用模型迭代过程中产生的梯度近似重构模型，避免了对来自不同参与者的数据集组合进行额外的模型训练。为了解决评价过程中的隐私泄露以及不透明的问题，等人提出了一种基于组的计算方法，通过组内安全聚合实现一定程度上的隐私保护，另外，区块链的引入也为增强评价过程的透明性提供了强有力的支撑。陈乔松等人提出一种双区块链激励驱动的数据分享联邦学习框架（），其基于修正值的侧链共识算法并综合考虑了联邦学习参与方的历史诚信度，使激励结果更加公平实际。等人提出

10、的将注意力机制融入到参与方贡献的评估以及全局模型的计算中，综合考虑了当前迭代轮次和上一轮中参与方的表现，根据注意力值计算其贡献率。在基于资源分配驱动的相关方案中，等人通过斯塔克伯格博弈模型对设备与边缘服务器之间基于激励的交互进行建模，以激励设备参与联邦学习的过程，在这个博弈中，参与者可以策略性地设置本地迭代次数，以使他们的效用最大化。总体而言，已有工作虽能保证用户奖励合理分配，但未能有效权衡模型性能和计算成本，这在一定程度上降低了其方案的实用性；其次，激励机制方案设计缺乏隐私安全保证，而文献，虽能更好地保证用户隐私安全，但其模型复杂度高，也给模型部署带来了一定的局限性。此外，文献

11、，都假设半可信的服务器会诚实地评估每个参与者的贡献，对于自利的参与者而言，这样的假设是难以接受的。文献通过将用户分组的方法以较低的计算成本及模型复杂度，同时实现了贡献评估的隐私保护与透明性，然而，他们假设了每个用户的边际贡献与其所在组的边际贡献近似，这显然在一定程度上模糊了真实的个人边际贡献。另外，他们在实验中指出，组数越大，隐私性就越差；组数越小，算法效用就越低（越偏离真实值），即隐私保护的强度与贡献评估结果的准确度受分组大小的影响，难以兼顾两者。因此，如何设计一种公平有效、透明可审计且保障参与者隐私的激励机制仍需要进一步深入研究。联邦学习中的隐私保护理想情况下，联邦学习在模型训练和推理

12、的阶段，各参与方只能获得其计算的必要过程数据和结果数据（如模型参数、梯度），也就是基于交互的有限数据无法推导出原始隐私数据。然而事实上攻击者可以利用这些数据对用户训练集中样本的标签进行推断以及重构训练所用数据。目前有以下三种主流隐私保护技术以应对上述隐私攻击：）同态密码系统（，）。文献采用同态加密实现多方联合计算的梯度提升树，将参与方间交互的信息经过同态加密进行计算，可保障隐私信息传输过程的安全性。等人将同态加密应用于联邦的逻辑回归算法，各参与方将本地模型更新的参数进行同态加密，交互的中间结果皆属于加密后的聚合信息，各方皆无法反推任何隐私信息。对用户间以及用户与中心服务器间通信传输的参数

13、信息进行加密以达到较高的隐私保护度且不牺牲模型可用性，然而其计算代价较高，不适于参与方计算能力较差的场景。）差分隐私（，）。等人提出了一种将机制与算法相结合的隐私保护深度学习方法，该方法主要是通过在小批量步骤后利用噪声干扰本地梯度实现隐私保护。然而，隐私保护预算和联邦学习效率之间的平衡是很难抉择的，这是由于较高的隐私保护预算可能对一些大规模攻击活动（如基于的攻击）并没有很大作用，然而较低的隐私保护预算又会阻碍本地模型的收敛、损害模型效用甚至导致参与者的贡献或信誉降低。）安全多方计算（，）。通过进行隐私保护学习，其中参与者需要在初始设置阶段在两个非共谋服务器之间处理、秘密共享他们的数

14、据。等人提出了一种实用的安全聚合协议，该协议允许非可信服务器计算各方参与者的高维数据矢量求和的结果，这种方法适用于联邦学习参数设置时聚合多个用户的私有梯度向量的过程。基于的联邦学习隐私保护的方法能提供较高的隐私保护度且不需要可信聚合服务器即可完成学习任务。然而该方法会导致联邦学习计算代价变大、通信轮数骤增，参与方之间的信息交互造成的通信代价可能成第期徐浩?，等：一种基于区块链的联邦学习贡献评价方案为整个训练过程的瓶颈。总体而言，将、方法与联邦学习相结合，可以保证用户训练数据的安全性和私密性。然而，必须考虑安全机制在联邦学习过程产生的负面影响，例如的隐私预算、加密系统的计算复杂度、多

15、方计算的通信开销等因素。预备知识区块链技术区块链作为一种去中心化、抗窜改、公开透明的数字账本，能够在非可信环境下以安全可验证的方式构建分类账，保障互不信任双方交易过程的可信性。区块链的出现解决了传统交易过程内生性地受制于可信第三方信用背书的问题，目前已经在物联网、大数据、云计算、边缘计算等领域被广泛应用。在区块链网络中，通过共识算法维护全网一致的分类账本。常用的共识算法有工作量证明（，）、权益证明（，）、委托权益证明（）、拜占庭容错（，）等。针对上述共识算法存在的共识效率低、扩展性弱等问题，协议通过融合密码抽签技术和改进的拜占庭共识协议，能够在兼顾去中心化的同时快速处理大量交易，并且用户

16、数量可无限扩展，被宣称能解决区块链中“可扩展性、安全性和去中心化”的三角难题。其中：）可扩展性，采用可验证随机函数（，）随机选择若干个验证者，无论网络中有多少用户，每生成一个新区块只需要在少数验证者上进行验证，极大地提高了吞吐量（，）和共识效率；）安全性，只有当区块提议者和验证者确定自己被选中并广播相应的证明信息时才会被披露，因此攻击者无法提前预测，即使发起攻击也无法阻止新区块在网络中传播；）去中心化，在每一轮中都重新随机选取区块提议者和验证者，具有较好的去中心化性。由于区块链天然的去中心分布式可信机制，为构建更加安全的联邦学习及其贡献评估框架提供了新的思路，可以有效解决用户协作时面临的缺乏透

17、明性和不可审计等问题。联邦学习框架在经典的联邦学习框架下，每个用户终端基于其本地数据集训练机器学习模型，然后将模型参数发送给中央服务器。服务器聚合所有上传的参数后得到全局模型，下发给各个终端，用于更新它们的本地模型。假设有个联邦学习用户，每个用户都有数据集，。在每个迭代，有以下步骤：）服务器向所有用户（客户端）发送一个全局模型（）。）每个用户，以用户为例，根据自己的数据训练（），并将更新的子模型（）返回给服务器。）服务器整合子模型（），得到一个新的全局模型（）用于下一次迭代。本文将上述步骤变形为一种等价形式以适配安全聚合算法。在步骤）中，每个用户通过式（）计算其梯度：（）（）（）（

18、）其中：是训练数据的大小。然后，聚合者将来自不同用户的梯度聚合：（）（）（）最后，聚合者通过梯度下降公式计算出新的全局模型：（）（）（）（）沙普利值沙普利值是为了纪念而命名的，于年首次提出，是合作博弈理论中的一个解决方案概念。它为所有参与者合作产生的总利润分配了一个独特的分布，并具有一系列理想的属性。下面定义了联邦学习中用于衡量用户贡献的沙普利值。定义沙普利值（）。给定个联邦学习用户及其数据集，机器学习算法?和标准测试集。本文使用多重集表示，其中，。一个通过算法?在上训练的模型用（?）表示，在没有歧义的情况下可被缩写为。在标准测试集上评估模型的性能用（，）表示，在没有歧义

19、的情况下可被缩写为（）。用（?，）表示在、?、背景下的沙普利值（），在没有歧义的情况下（?，）可被缩写为。联邦学习用户的被定义为（）（）（）另外，具有以下性质：）如果一个数据集对机器学习算法?在测试集上的表现没有影响，的应该为零。形式上，如果对于任何子集，有（）（），那么。）如果两个数据集和对机器算法?在测试集上的表现有相同的影响，它们应该有相同的。形式上，如果对于任何子集，有（）（），那么。）关于测试集应当是线性的。形式上，对于任何两个不相交的测试集、和任何，有（?，）（?，）（?，）。方案设计系统架构本文将区块链技术与联邦学习及其贡献评估相结合，在

20、保证用户隐私的前提下，透明地计算联邦学习全局模型和用户的沙普利贡献值。如图所示，本文提出的系统架构包括任务发布方、用户、共识委员会和区块链等。）任务发布方。任务发布方将联邦学习任务发布到区块链上，其中包括数据类型、联邦学习初始化模型、超参数、时间范围和计算资源等。之后，满足要求的数据拥有者可以成为本次联邦学习任务的参与方，并向任务发布方上报其所拥有的本地资源信息。任务发布方获得最终全局模型后，将联邦学习所获收益按照贡献度以及事先制定的奖励规则分别支付给联邦学习参与方以及参与共识过程的节点。）用户，即联邦学习参与者。为了发挥本地数据资源的价值并获得联邦学习所产生的收益，用户从区块链上下载模型训

21、练所需要的初始化参数，并基于其所拥有的本地数据集独立进行模型训练。本文假设用户是诚实但好奇的，即用户之间虽然会诚实地进行交互（不会发起投毒攻击），但是对彼此的敏感信息感到好奇。）共识委员会。为了加快区块链节点的共识效率进而提高联邦学习的迭代训练效率，本文采用一组通过一定规则选举得到的共识委员会替代所有节点参与共识过程，其中共识委员会包括领导者与验证委员会。具体规则是利用加密抽签算法的节点选举策略，所有节点都可以进行加密抽签的方法来决定谁将在本次联邦学习任务中进行区块的提议（领导者）以及验证（验证委员会），节点的账户余额将决定被选中的概率（拥有越多数量的代币将拥有更高的概率被选中），并且给予每

22、一个被选中的节点一个优先级别（）以及拥有此优先级的证明。选择优先级高且愿意参与共识的前若干个代理节点组成共识委员会。更多关于共识过程的细节，将在计算机应用研究第卷节中详细阐述。每轮联邦学习将产生一个对应的新的区块，其区块体用于存储该轮联邦学习所产生的交易数据，主要包括模型参数、隐私保护本地更新和贡献评估结果。区块头用于存储上一区块的哈希值形成链式结构，以及根哈希以确保交易数据的完整性。任何一方可访问并审计区块链上的交易数据。图系统架构设计目标本文提出基于区块链的联邦学习贡献评价方案在设计实现时需要满足用户本地训练数据的隐私保护、模型聚合以及贡献评估结果的可靠性、贡献评估的

23、公平性以及高效性四个设计目标。下面分别对这四个设计目标进行详细介绍。）用户本地训练数据的隐私保护。虽然联邦学习本身可保证用户数据不出本地即可完成协同模型训练，然而用户之间是相互独立且互相不信任的，他们可通过联邦学习及其贡献评价过程中交互的参数发起隐私攻击，获得用户的私人数据，因此隐私保护应当贯穿整个联邦学习及其贡献评估过程。）模型聚合以及贡献评估结果的可靠性。为避免领导者对模型的错误计算或由于私心而故意提高（降低）某用户的贡献值，参与共识的节点需要对领导者计算的每个结果进行校验，只有当大多数（超过一半的）共识节点同意时，该结果才能以新区块的形式追加到区块链上。如果计算结果被校验有误，则应当选

24、举新的领导者节点并重新进行本轮联邦学习。另外，用户发布的个人更新应当无法被窜改或伪造，用户需要对其发布的数据负责。当区块链上的数据发生争议时，可以执行审计和溯源问责，保证聚合和评估结果的可靠性。）贡献评估的公平性。实现联邦学习收益公平分配的一个重要前提是公平地评估每一个用户对联邦学习所作出的贡献。用户本地训练所使用的数据规模以及数据质量与联邦学习全局模型的效用成正比，因此对于使用大规模、高质量数据的用户，本文方案应当赋予其更高的贡献值，反之亦然。）贡献评估的高效性。用户的贡献评估不应该成为联邦学习的累赘。由于沙普利值法需要计算每个用户的边际贡献，所以其在应用于联邦学习贡献评估时会带来额外的模型

25、训练，使整个联邦学习过程的时间复杂度骤增。所以，本文方案所考虑的基于沙普利的贡献评价方案应当在保证贡献评估结果可靠性的基础上，提高贡献评估过程的效率。方案组件本文方案主要由三个关键部分实现基于区块链的联邦学习贡献评价，即安全聚合、共识协议。下面分别对其进行详细介绍。安全聚合在联邦学习中，各个用户通过共享在本地数据集上训练得到梯度更新生成全局模型。虽然共享梯度可以防止直接暴露本地数据，但可能会间接泄露本地数据信息。传统的同态加密算法（例如）可以避免单个梯度的直接暴露，然而解密密钥持有方可以通过做差的方式间接得到单个明文梯度。例如将解密得到的全体个用户的联合明文（明文梯度之和）与前个用户的联

26、合明文做差便可以得到第个用户的明文梯度。为此，本文提出了一种基于改进的的安全聚合算法，通过加密用户的梯度更新，使得解密方只能解密全体用户的联合密文（加密梯度之和），进而生成新的联邦学习全局模型。该算法有以下四个功能：）生成密钥：（）（，）。给定一个安全参数，任务发布方执行（）来生成加密系统的参数，即、。注意，在系统中的阶数是的倍数，即（），其中是一个大整数。然后任务发布者选择一个随机的大整数（需同时满足和（，），然后计算。最后任务发布者发布公共参数，。为了生成用户的密钥，任务发布者首先将随机分为份，其中是联邦学习用户的数量。然后任务发布者选择一个随机数并

27、计算每个用户的私钥。最后，任务发布者生成解密联合密文的公钥，。）数据加密：（），）?（）?。给定的隐私数据（），其可以被加密为?（）?（）（）其中，是满足的随机数。）数据聚合：（?（）?，?（）?）?。给定来自个用户的个密文，聚合生成的联合密文为?（）?（）联合解密：（?，）。将个用户的密文聚合后，可以用公钥对联合密文进行解密：（）（?）（）其中：（）（）。算法描述了用户计算加密本地梯度的过程。用户首先从最后一个区块中获得最新的全局模型，经过若干轮本地迭代得到本地模型（第行）。本文将用户的本地梯度更新定义为（）（）其中：为用户所拥有的本地训练数据量，全局训练样本总量（第

28、、行）。随后用户对其进行加密操作得到?（算法第、行）。值得注意的是，当本次联邦学习已处于最终的迭代轮次第期徐浩?，等：一种基于区块链的联邦学习贡献评价方案时，用户在提交该轮的本地梯度时还需附带其在本次联邦学习任务中提交的梯度累计之和（算法第行）。在模型聚合阶段，当且仅当领导者节点收集齐来自个用户的个密文后才能用公钥对这个密文的联合密文进行解密得到（算法的第行）。算法输入：（，），（，），。输出：?，。；（）（，），）（，）（；）（，），）（；）（）?（，）?沙普利值反映的是联盟中的成员对于联盟边际贡献的平均值，因此，联邦学习用户的边际贡献是计算其不可或缺的先验知

29、识。现有的基于沙普利值的贡献评估方案大多是通过用户本地迭代过程中产生的中间梯度近似重构联盟模型并以此计算用户的边际贡献，然而梯度的明文交换随即带来了隐私泄露的问题。使用安全聚合算法可以解决中间梯度在聚合期间产生的该问题，然而当存在个联邦学习用户时，联盟的数量达到了个，这意味着系统需要为此生成等量的安全聚合密钥，显然面临着严重的密钥生成效率问题，因此安全聚合算法并不适用于的计算。为此，本文提出一种基于累计梯度计算的方法，在避免隐私泄露的前提下，利用用户累计提交的个人梯度，近似重构所有联盟模型，。例如，如果想重构联盟模型，（即只在数据集和上训练的模型），只需要根据用户、的数据

30、规模对其累计梯度进行加权其平均。最后，评估重构模型的效用以计算不同用户的。算法描述了基于区块链的联邦学习贡献评价方案中模型聚合及贡献评估的过程。算法输入：?，（）。输出：，。?（）?（?，?）?（?，）槇槇（珟）（珟）在每一轮训练中，领导者节点先收集区块链上合法的用户梯度?，后进行数据聚合得到联合密文，然后使用公钥解密联合密文后计算并公示新的全局模型（算法的第行）。如果训练已经处于最大迭代轮次，领导者还将收集用户提交的累计梯度后近似地重构每个联盟模型（算法的第行）：槇槇（）其中：为全体用户集合的任意非空真子集，所有初始联盟模型槇皆为与初始全局模型相同的随机初始模

31、型。算法第行计算了不同用户的。具体来说，对于每个用户，领导者在公开的数据集上评估第行近似重构的联盟模型的效用以计算。最后，领导者将公布用户的和最终的全局模型。文献，已经证明，通过用户在联邦学习中提交的梯度可以恢复其私有数据，他们所提出的恢复机制都是对一种梯度匹配项的优化。他们所设计的恢复机制的共同特点是将模型参数以及本地训练数据基于该模型计算的梯度作为输入，然后优化梯度匹配项以求解作为输出的训练数据。式（）是文献所使用的优化函数。，（，），）（）其中：、是被随机初始化的输入，其作为虚拟数据输入已知的模型并获得虚拟梯度。优化目标是最小化欧几里德匹配项以求解（，）。基于（，）和已

32、知的全局模型计算的虚拟梯度应当尽可能地接近用户公开的梯度。其实验证明这种方式使图像的恢复达到了像素级别，文本的匹配达到了令牌级别。然而，中用户提交的是整个训练过程累计提交的梯度而并非单轮提交的，累计梯度是用户在每轮联邦学习中根据当前全局模型计算得到的梯度之和。本文通过这种方式隐藏了一轮联邦学习中用户产生的梯度。尽管公开了每轮训练产生的全局模型，但是对于攻击者来说用户根据该全局模型计算的梯度是未知的。另外，每个被累加的单轮梯度都是根据中间全局模型计算的。换句话来说，即累计梯度并非来自某个全局模型。因此，攻击者无法利用累计梯度通过优化梯度匹配项来揭露用户隐私。共识协议协议基于随机选择验证者

33、以及区块生产者，极大地提高了共识效率，且可以通过引入可验证随机函数（）、种子参数等抵抗女巫攻击、攻击等，具有较高的安全性。受此启发，本文利用来遴选代理节点组建高可靠的共识委员会，并将全局模型和用户贡献值的验证集成到了共识协议中，确保模型聚合以及贡献评估的可靠性。协议主要计算机应用研究第卷包含以下六个步骤：）初始化。在用户成为本次联邦学习任务的参与方后，任务发布方通过安全链路将用于全局模型安全聚合的加密私钥分发给对应的用户设备。另外，任务发布方将发布一个用于初始化本次联邦学习任务的创世区块，其主要包含初始化的全局模型、总训练轮数、本地迭代轮数、安全聚合联合解密的公钥、设备

34、注册的本地数据集大小、代币抵押和奖励函数。）共识委员会选举。利用协议中的加密抽签算法从矿工中随机选举出共识委员会（领导者、验证委员会），主要包含以下两个函数：（，），（）（，）（）其中：和分别是矿工的私钥和公钥；参数用于区分共识过程中的角色；随机种子为当前最新区块的哈希值；为矿工自身所拥有的代币数量；为所有矿工的代币数量总和。为了能够使矿工被选中的概率和其所持有的代币数量成正比，将每个代币看成是矿工的一个子用户，为系统期望选中的子用户数，则任意一个子用户被选中的概率为。这样一来，对于持有个代币的矿工，选中他所拥有的个子用户的概率遵循二项分布（；，）（），其中（；，）。为了确定

35、矿工的个子用户中被选中的子用户的个数，将区间，）划分为连续的子区间（；，），（；，），其中，。如果落在区间上，那么该矿工共有个子用户被选中，这也代表该矿工的优先级，其中是的长度。通过上述过程，优先级最高的前位被选举为共识委员。其中拥有最高优先级的一名矿工将作为本次联邦学习任务的领导者，另外位作为验证委员会成员。其余矿工可以通过证明对其优先级进行验证。）本地模型训练。用户设备基于本地数据集，对当前最新的全局模型进行迭代训练。在经过次迭代后对得到的梯度进行加密并进行数字签名，然后将其以区块链事务的形式上传到区块链。）打包区块。领导者将收集本轮全局模型训练过程中用户产

36、生的梯度更新?，并通过安全聚合算法中的联合解密计算全局梯度，进而得到全局模型。然后领导者将包含在本区块中的内容作为哈希函数的输入以此得到该区块的哈希值，最终打包生成这一轮训练对应的完整区块，如图（）所示。区块中除了包含用于链接前一个区块的哈希值以外，还包含该轮的全局梯度、新的全局模型以及所有合法更新及其签名等。当本次联邦学习任务处于最大迭代轮次时，领导者还将收集用户提交的累计梯度，并根据其重构所有联盟模型槇，。领导者节点将基于公开的数据集评估各模型的效用，并计算各用户的边际贡献，进而得到，。然后领导者生成本次联邦学习任务的最后一个区块，如图（）所示。其中包括用户提交的累计梯度、

37、领导者节点计算的模型以及用户最终的等。图第轮训练生成的区块）区块验证。验证委员会利用加法同态性对生成的新区块进行验证，主要检查其中包含的梯度更新签名是否合法，以及全局梯度、模型和的计算是否正确等。只有当超过一半的委员验证通过时，该区块才被认定为有效，相应的领导者和验证者从区块链中获取一定数量的代币作为挖矿奖励；否则，生成一个空区块并重新选举领导者节点。）邻居广播。验证委员会中的每个验证者执行协议向邻居广播新区块，同步全网账本。用户设备下载新区块，从中获取全局模型，并从步骤）开始下一轮训练，直至模型达到最大训练轮数。实验评估数据集本文方案在数据集上进行测试，它包含多张训练

38、图像和多张测试图像，每张图像显示的某一手写数字。在进行实验之前，执行以下预处理。将训练数据集随机拆分为个子集以模拟个联邦学习用户，。为了模拟每个用户的不同数据质量，本文添加了高斯噪声，其不断增加，?（，）。因此，的数据质量最好，的数据质量较差，依此类推。当时，所有用户都有类似的数据质量；越高，数据质量的差异就越大。实验设置与环境本文将多层感知机（，）作为目标训练模型，通过执行算法以完成局部模型训练及获取本地梯度更新。由输入层、隐藏层和输出层组成，每层的神经元个数分别设置为、和，采用函数作为激活函数。联邦学习用户本地训练的学习率固定为，批次大小为，通过使用模块，将梯度参

39、数转换为字节流进行传输，默认采用的精度。实验在系统下进行，硬件配置为，。代码是在上使用实现的。全局模型聚合与贡献评估阶段发生在虚拟区块链中。对比方案本文方案将与以下方案进行对比。）。该方法根据定义计算出联邦学习用户的。具体来说，它根据数据集的不同组合来训练联合模型，并在标准测试集上对这些模型进行评估。值得强调的是，在区块链上不能隐私保护地计算原生。）。该方法将用户分成个组，并仅在组内使用安全聚合为每个组联合训练一个组模型，再以这些组为单位通过普通聚合构建联盟模型。随后在链上根据式（）计算每个组的，并将其平均分配给组成员（式（）。（）（）（）（）其中：表示第组的；表示所有

40、小组组成的集合；为其任意非空真子集；表示第轮训练用户被其所在组平均分配的。最后，用户的总为。评估指标本文使用以下指标来比较不同的方案：）时间（）。比较模型训练和贡献指数计算的总时间。注意本文没有将区块链共识阶段所花费的时间计算在内。）余弦距离（）。让不同用户的归一化向量根据定义和计算，并分别用，第期徐浩?，等：一种基于区块链的联邦学习贡献评价方案和，表示。余弦距离定义为（，）槡槡（）欧几里德距离（）。欧几里德距离定义为（）槡（）最大差异（）。最大差异定义为（）该指标用于衡量按定义和计算的的最大百分比差异。实验结果首先，对来自不同用户的数据集的组合进行模型训

41、练并获得个模型（），然后使用原生方法（定义）建立标准。图显示了用户在不同高斯噪声下的。当没有添加噪声时（），所有用户的都接近零。随机均匀地分割数据集，因此子集具有相似的分布，对最终模型的边际贡献可以忽略不计。因此，它们对最终模型的边际贡献几乎相等。当时，质量好（噪声较小）的数据集比质量差的数据集具有更高的。正如所期望的那样，可以根据数据集的质量来区分不同用户的贡献。随着的增加，用户之间数据分布的差异逐渐变大，的表现始终良好并且稳定。根据图可知，与表现最优的设置（，）相比，在余弦距离度量上的性能比好倍，在欧几里德距离度量上的性能比好倍（图）。在需要兼顾隐私的

42、设置下（），在余弦距离度量上的性能至少比好倍，在欧几里德距离度量上的性能至少比好倍。在图中，的性能也占优势地位，可以观察到的最大差异始终低于。另外笔者发现，随着分布差异的不断增大，的性能有变优的趋势。笔者认为这是因为中个人的是由小组的通过求均值近似得到的，所以当分布差异变大时，用户的个人边际贡献将更加凸显，的表现会得到提升。图在不同的情况下，用户的标准分布情况图在不同的情况下，两种贡献评估算法在余弦距离度量上的性能对比图展示了本文的、以及方案的时间性能。与相比，由于联盟模型是直接通过用户的本地累计梯度聚合而成的，所以计算所需要训练的模型数量从减少

43、到。与相比，当设置为时，的时间成本是的倍。这是由于需要在每一轮训练中穿插联盟模型的计算及其效用评估，而只需要在联邦学习最后一轮利用累计梯度一次性重构联盟模型。当设置为时，两者的时间成本相当，该设置下考虑了隐私问题，但是的准确度却有所降低。图在不同的情况下，两种贡献评估算法在欧几里德距离度量上的性能对比图在不同的情况下，两种贡献评估算法在最大差异度量上的性能对比抵御共谋的最小验证委员会规模在本文方案中，新区块的验证阶段涉及到使用多数投票方案来达成共识的验证委员会。通过使验证委员会的规模足够大，可以防止控制一定比例股权的对手采取恶意行为。拥有多

44、数票的对手可以通过接受领导者打包的错误区块使其合法化并成功上链。本节对所需的最小委员会规模进行了分析，使敌手拥有验证委员会多数席位的概率低于阈值。使用一致性散列协议，一个区块链节点被选中的概率与他们的权益成正比。因此，在验证委员会规模为的情况下，敌手控制其中多数节点的概率可以通过以下方式计算出来：()（）（）其中：是敌手控制的权益占比。通过假设服从二项分布，得到了敌手在系统中控制多数节点的非紧上界。二项分布假定以有放回抽样的方式抽样，并且允许同一个节点在验证委员会中被选举多次。由于本文框架限制同一个节点在委员会中只有一票，所以对手控制多数选票的实际概率小于。由于是一个上界，可以安全地

45、使用它来计算将限制在阈值（）以下的最小验证委员会规模。为了获得的最小委员会规模，本文使用蛮力方法，尝试不同的委员会规模，并挑选导致低于阈值的最小规模。图显示了在概率阈值为、和的情况下，所需的最小验证委员会规模与敌手所占有权益的关系。最小委员会规模与节点数无关，并随着系统中敌手所占有权益的增加而呈指数级增长。由于本文的实验评估仅限于轮的训练，敌手控制多数席位的概率阈值需要小于。对于这个阈值，验证委员会的规模为，可以抵御一个控制系统中权益的敌手。图三种贡献评估算法的运行时间对比，图使敌手共谋成功的概率低于阈值所需要的验证委员会规模结束语如何在有效保障数据隐私安全的前

46、提下建立公平、透明的贡献评估方案是联邦学习激励机制的一个关键性问题。基于计算机应用研究第卷此，本文提出了一种基于区块链的透明的贡献评价方案，在不牺牲隐私的情况下能够衡量用户的沙普利贡献值。本文基于改进的算法实现了全局模型的安全聚合，利用用户在本地迭代阶段累计的梯度近似重构联盟模型以评估用户贡献，引入区块链实现训练过程与贡献评估的去中心化和可审计性。在数据集上的实验表明，本文方法可以有效地评估贡献并且逼近由定义计算的准确。在未来的工作中，笔者将研究恶意用户对计算的影响，因为所提出的安全聚合与基于梯度的方法有可能受到用户的恶意行为影响。另外，笔者将调查本文方法对现有区块链平台（如或）的适用性，将用区块链实现安全联邦学习的潜在瓶颈（如交易吞吐量）。参考文献：，（）：，：，：，：，：，：，：，：，：，（）：，：，（）：，（）：，：，（）：，：，：，：，：？，：，：，：，（）：，：，（）：，（）：，：，：，：，：陈乔松，许文杰，何小阳，等：一种双区块链激励驱动的数据分享联邦学习框架计算机应用研究，（）：（，：，（）：），：，：，：，：，（）：，（）：，：，（）：，：，：，：，（）：，：，：，：，：，：，：，：，（）：，：，：，（）：，：，：，：，？，：，：（）：，：，：，：，：，（）：第期徐浩?，等：一种基于区块链的联邦学习贡献评价方案

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种基于区块联邦学习贡献评价方案

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。