分销赏收藏举报申诉 / 132

立即下载 VIP下载

当前位置：首页 > 研究报告 > 其他 > 2023年金融业隐私计算联合建模技术与应用研究.pdf

2023年金融业隐私计算联合建模技术与应用研究.pdf

上传人：Stan****Shan

文档编号：1274247

上传时间：2024-04-19

格式：PDF

页数：132

大小：2.69MB

《2023年金融业隐私计算联合建模技术与应用研究.pdf》由会员分享，可在线阅读，更多相关《2023年金融业隐私计算联合建模技术与应用研究.pdf（132页珍藏版）》请在咨信网上搜索。

1、金融业隐私计算联合建模技术与应用研究北京金融科技产业联盟 2023 年 11 月 3 目录一、发展综述一、发展综述.1（一）联合建模概念探讨.1（二）技术发展历程及驱动力.6 二、国内外实践情况二、国内外实践情况.13（一）国外应用情况.13（二）国内应用情况.21 三、支撑联合建模应用的隐私计算技术体系三、支撑联合建模应用的隐私计算技术体系.42（一）隐私计算技术体系简述.43（二）隐私安全技术当前面临的主要问题及参考解决方案.56（三）主要建模技术对比分析.61 四、联合建模通用技术平台参考框架四、联合建模通用技术平台参考框架.65（一）联合建模通用技术平台建设的目的与意义.65（

2、二）联合建模通用技术平台的技术架构参考.66（三）联合建模通用技术平台非功能指标与设计参考.79（四）联合建模通用技术平台关键机制.91 五、联合建模应用分析五、联合建模应用分析.100（一）联合建模应用场景分类与特征细分.100（二）联合建模的应用场景的其他分类方式.119 六、发展与建议六、发展与建议.122（一）当前技术与平台挑战.122（二）未来技术与平台的发展趋势.125（三）未来应用场景展望与建议.127 参参考考文文献献.129 1 一、发展综述（一）联合建模概念探讨（一）联合建模概念探讨 1 1.联合建模的含义联合建模的含义近年来，“联合建模”伴随“数据要素化”“隐私安

3、全”、多方计算等热点领域的研究与应用，不断涌现在各类媒体和大众面前，然而，“联合建模”作为一个专业词汇至今尚无一致的、明确的标准定义。从字面观其内涵，“联合建模”由“联合”和“建模”两个关键词有机组合而成。“联合”意指多方共同参与，是完成“建模”的环境和条件“联合”意指多方共同参与，是完成“建模”的环境和条件。“多方参与”既表示“多方数据”的参与，又表示“建模”过程有不同角色的多个构建方（包括：数据供给方、数据加工方、数据消费方和收益方、数据联邦运营方及管理部门等）。其中，“多方数据”的参与是“联合建模”的前提约束，是“联合建模”的核心要素。如果没有“多方数据”的参与，即使存在多个构建实施方，

4、也多是为了解决资源缺口、专业能力缺口、效率不足与合作伙伴契约关系等项目实施与管理过程问题而采取的分工协作方式。这里的“多方数据”是指“建模”过程的数据集必须由属“多方数据”是指“建模”过程的数据集必须由属于多个不同“数据所有权”的数据集组成。于多个不同“数据所有权”的数据集组成。同一数据所有权范围内的不同领域数据的集成与加工，应纳入常规“大数据应用”或“机器学习建模”范畴讨论，非本报告主要的研究和论述对象。2 （注：文中如不特别指出，“多方数据”均指多方不同数据所有注：文中如不特别指出，“多方数据”均指多方不同数据所有权的数据权的数据）“建模”意指构建“模型”的行为，是数据“联合”的目的“建模

5、”意指构建“模型”的行为，是数据“联合”的目的和价值体现。和价值体现。其中，模型泛指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。这种形式化的“抽象”表达主要包括“数学模型”“程序模型”“数据模型”和“系统模型”等。通常构建上述“模型”的行为都属于“建模”过程。综上，本报告将“联合建模”概念明确定义为：基于多方数基于多方数据所有权的数据集合，由一家或多家数据模型构建方联合构建模据所有权的数据集合，由一家或多家数据模型构建方联合构建模型的过程。同时强调：型的过程。同时强调：（1）强调“建模”所需数据必须由多方提供的所有权数据多方提供的所有权数据组成组成，而不强调“建模”过程是否

6、一定存在多家构建方。例如，多家数据供给方将所有权数据（加密或未加密）交付给某个数据加工方，由该数据加工方独立完成全部建模工作，此类集中建模的过程同样属于联合建模。（2）强调“模型”的广义范畴广义范畴，而非特指机器学习或深度学习的“模型”，也非特指某一种“隐私安全计算”技术。例如，简单的统计分析算法（可以选择使用某种多方计算技术）与较为复杂的“机器学习”“神经网络”（可以选择使用联邦学习技术）都可以算作“联合建模”的模型对象。（3）强调数据和加工的联合，联合，而未限制必须符合“隐私安全要求”或必须采用某项隐私计算技术。从不加限定的基本概念 3 上讲，即没有“隐私安全与合规性”要求的前提下，只要能

7、达成业务目标，所有实现“联合建模”的技术手段均可选择。但是，当前联合建模的应用市场一方面要求数据要素加快实现“共享”与“流通”，而另一方面又面临“数据无限复制”“数据无限供给”“侵犯隐私”“数据确权难”等“数据滥用”、“难以监管”等难题，因此，在明确多方数据“责权利”的基础上，专注研究面向“隐私安全”的联合建模的关键技术、基础设施平台及应用场景，以“可用而不可见”的方式实现多方数据“共享”和多方价值“流通”，更有价值和意义。本报告的研究范围将主要聚焦于面向“隐私安全”的联合建模场景。在展开相关论述之前，下面先就基于“多方数据隐私安全”下的联合建模与“传统”的联合建模作简要对比分析。2 2.隐私

8、安全联合建模与传统联合建模的对比分析隐私安全联合建模与传统联合建模的对比分析传统的联合建模方式是将所有数据汇聚到一处进行建模，并未特别考虑数据所有权因素，因此，从技术上看，这种基于数据汇聚式的联合建模和传统的单方集中数据建模，在技术上并没有本质上的区别。目前主流的联合建模是通过隐私计算技术，在保证各方数据隐私安全的基础上进行模型训练。也就是说，基于隐私计算技术的联合建模与传统方式的本质区别在于强调了各方数据的隐私安全，具体通过多方协同计算来实现，在数据对齐、特征工程、模型训练等过程中需要多方之间交互必要的、受隐私保护的数据。4 从技术复杂性上看，为保证隐私安全，这种交互可能涉及一种或多种隐私

9、计算技术，如同态加密、多方安全计算、差分隐私等。建模过程一般分为数据对齐、特征工程、模型训练和模型推理四个部分，以下分别从这四个建模流程来对传统联合建模和隐私保护方式下的联合建模进行对比分析。（1 1）数据对齐：）数据对齐：在传统的联合建模模式下，模型需求方和数据提供方约定好共同的 ID 加密方式后将双方加密后的 ID 汇集到一起进行样本匹配，从而得到双方可用于建模的共有样本集。在这种模式下，由于目前已经有“彩虹表”密码破解器的存在，常用的加密方式如 md5、sha256 等加密方式可以被暴力破解，因此在样本 ID 传输过程中存在着合法合规、隐私泄露的风险。在隐私保护的方式下，针对样本 ID

10、对齐场景，可基于密码学、多方安全计算等技术，通过隐私集合求交(Private Set Intersection-PSI)技术得到双方的样本交集，双方样本 ID 的原始数据不出各自私域，且各建模参与方无法获取对方除交集以外的样本 ID。针对特征对齐的场景，各个参与方只需要把特征名称进行匹配对齐，无需汇聚具体的 ID 和特征数据。（2 2）特征工程：）特征工程：在传统的联合建模模式下，确定双方共有样本后，模型需求方提供共有样本的 Y 标签，数据提供方提供共有样本的特征数据，双方将所有的建模数据归集到一起进行特征预处理、特征筛选、特征衍生等工作。在隐私保护的联合建模模式下

11、，各参与方的原始数据在各自私域，部分特征处理的工作如 5 特征相关性分析、特征 IV 值计算等需要多方数据交互计算的步骤，通过利用同态加密、多方安全计算等技术进行计算，计算过程中各参与方的原始数据始终不出私域。（3 3）模型训练：）模型训练：在传统的联合建模模式下，所有的建模数据全部归集到一起进行模型训练，训练速度更快。在隐私保护的联合建模模式下，利用联邦学习、多方安全计算等技术进行模型训练，训练过程中各参与方的原始数据在各自私域内进行计算，参与方之间只交互密态信息或中间计算结果（如梯度，Loss等），而这些密态信息或中间计算结果需要通过加密或隐私保护方法如同态加密、差分隐私等方式进行交互与传

12、输。（4 4）模型推理：）模型推理：在传统的联合建模模式下，训练完成的模型是一个整体，进行模型推理时直接调用模型即可得到推理结果。在隐私保护的方式下，模型一般分布在各参与方，各参与方部署的是局部模型，进行模型推理时需要多个参与方共同参与计算、进行交互，但在整个模型应用过程中，各参与方原始数据均不出库。另外，传统联合建模和隐私保护的联合建模比，在建模效率，数据安全保护，建模参与方上也有区别，如表 1 所示。表 1：传统联合建模与隐私保护联合建模对比建模效率数据安全建模参与方数量 6 传统联合建模建模数据全部归集到一起，建模速度更快。建模过程中，一方数据出私域，存在隐私泄露的风险。更容易支

13、持多方联合建模。隐私保护联合建模建模过程需要进行加密传输、加密计算汇总中间结果，因此建模速度相对传统建模方式较慢。建模过程中，各参与方原始数据不出私域，保证数据安全。建模过程需要参与方之间的多次交互，由于性能等方面的约束，参与方数量通常有限，两方或三方之间的联合建模情况较多。（二）（二）技术发展历程及驱动力技术发展历程及驱动力 1 1.主流技术的演进历史主流技术的演进历史联合建模主流技术的发展历程是以现代密码学为核心，协同计算机体系结构、计算复杂性理论、信息论、统计学、抽象代数及数论等理论发展的渐进过程。大致可分为四个阶段，即萌芽期、探索期、成长期和发展期，由最初的理论研究为主逐渐发展为理

14、论指导实践的实验室应用初创，直至近几年的规模化发展。第一阶段为 1976 至 1985 年的萌芽期，密码学诞生以后，同态加密、秘密分享、不经意传输、多方安全计算等计算理论思想在该阶段先后提出。香农于 1948 年发表的通信的数学理论一文确立了现代信息论的研究开端，内容涉及信息量化、存储和通信，是密码学发展的基石。Diffie 和 Hellman 于 1976 年创立公钥密码学，拓宽了密码学的研究范围。Rivest、Shamir 和 Adleman 于 1977 年提出 RSA 算法，RSA 7 公开密钥密码体制使用不同的加密密钥与解密密钥，由已知加密密钥推导出解密密钥在计算上不可行。紧接着，R

15、ivest 本人于1978 年提出同态加密思想，从抽象代数角度保持了同态性，即对密文直接处理和对明文处理后加密得到的结果相同。Shamir 和 Blakley 于 1979 年提出秘密分享思想。该思想基于 Lagrange 插值和矢量方法，分发者通过秘密多项式将秘密 s分解为 n 个秘密并分发给持有者，其中任意不少于 k 个秘密均能恢复密文，而任意少于 k 个秘密均无法得到密文的任何信息。Michael O.Rabin 于 1981 年提出不经意传输理论。在不经意传输中，发送者 Alice 发送一条消息给接收者 Bob，Bob 以 1/2的概率接收到信息，在结束后 Alice 并不知道 Bob

16、是否接收到了信息，而 Bob 能确信地知道自己是否收到了信息。图灵奖得主姚期智于 1982 年提出多方安全计算协议。该协议主要研究针对无可信第三方情况下安全计算约定函数的问题。该协议最早应用于匿名竞拍和电子投票，近年来在密钥管理解决方案，以及基于隐私保护的数据检索、数据挖掘和机器学习等分布式协同计算领域有实践应用。第二阶段为 1986 至 2003 年的探索期，混淆电路、零知识证明、隐私检索、半同态加密等协议和算法在该阶段相继提出。继MPC 之后，姚期智于 1986 年提出混淆电路概念，混淆电路通过布尔电路的观点构造安全函数计算，参与者可以针对某个数值来计算答案，而无需知道计算式中输入的具体

17、数字。8 Goldreich 于 1987 年提出基于秘密分享的 MPC，即可以计算任意函数的计算意义下安全的多方安全计算协议。Goldwasser、Micali 和 Rackoff 于 1989 年提出零知识证明，即证明者能够在不向验证者提供任何有用信息的情况下，使验证者相信某个论断是正确的。Chor 于 1995 年提出隐私信息检索，即保证查询用户在向服务器上的数据库提交查询请求时，可以在用户查询隐私信息不被泄漏的条件下完成查询。Paillier 于 1999 年提出半同态加密，这是一种满足加法同态的公钥加密算法，即密文相乘等于明文相加。第三阶段为 2004 至 2012 年的成长期，可信

18、执行环境、差分隐私、全同态加密等概念在该阶段纷纷提出。可信执行环境是软硬件结合的信息安全技术，支持对隐私数据的安全存储隔离、传输、计算和删除。ARM 于 2006 年提出硬件虚拟化技术 TrustZone及硬件实现方案；2011 年，智能卡国际标准化组织 Global Platform 开始起草 TEE 规范标准，并联合相关公司开发基于 GP TEE 标准的可信操作系统。Dwork 于 2006 年提出差分隐私，该技术针对统计数据库隐私泄露问题，通过对原始数据进行转换或对统计结果添加噪声来实现隐私保护。谷歌和苹果在 Chrome 和 iOS 系统中使用该技术进行数据脱敏和匿名化。Gentry

19、于 2009 年提出全同态加密，即能够同时满足加法和乘法同态的公钥加密算法。9 第四阶段为 2013 年至今的发展期，随着人工智能技术的发展，机器学习技术和密码学技术进入了深度融合，此时也相继出现了联邦学习和隐私保护机器学习的概念。2013 年，各类面向通用计算的零知识证明系统开始涌现，主要应用于安全认证、身份管理、金融数据保护、供应链体系等场景。同年，Intel 推出 SGX指令集扩展，通过新的访问控制机制，实现不同程序的隔离运行，保障用户关键代码和数据的机密性和完整性不受恶意软件破坏。同时，已经有学者开始探索基于隐私保护技术的应用，王爽教授团队提出了分布式隐私保护在线机器学习的概念，并将技

20、术应用于医疗领域。McMahan 于 2016 年提出联邦学习的概念，用于解决安卓手机终端用户的模型更新问题。Mohassel 于 2017 年提出 SecureML，是一种可扩展的隐私保护机器学习系统，首次将秘密分享引入到该问题中。2018 年，杨强教授拓展了联邦学习的计算范畴，提出了纵向联邦学习和联邦迁移学习。2 2.驱动力分析驱动力分析（1 1）技术驱动）技术驱动隐私保护的联合建模作为新兴的人工智能基础技术，主要是大数据广泛应用、算力提升，以及算法技术发展等多方面因素的联合技术驱动的结果。首先，大数据近年来的快速发展与应用大数据近年来的快速发展与应用，使得模型训练需要依托海量的、高质

21、量的数据驱动，随着人工智能行业的蓬勃发展，10 各机构自有数据的利用和挖掘几近饱和，为了扩大模型应用场景，提升模型效果，必须打破数据瓶颈，将分散在不同机构的数据组合起来加以利用。这就促使了必须寻找新的技术手段来实现跨机构间的联合建模，同时需要满足隐私保护的需求。其次，算力在近些年得到大幅提升算力在近些年得到大幅提升。同态加密，多方安全计算等技术的提出已经有几十年的历史，在学术领域也已经较为成熟，但由于这些安全计算技术依赖于密码学算法以及多方的交互，计算性能是制约这些技术实际落地应用的重要因素，而近十年来得益于算力的提升，这些安全计算技术真正开始成为“现象级”话题，开始在实际场景中落地应用。而与

22、这些安全计算技术紧密融合的隐私保护的联合建模技术，同样由于算力的提升得到技术的驱动而实现在短短几年时间内的快速发展。最后，算法技术的发展算法技术的发展也是基于隐私保护的联合建模技术的发展的一个重要的技术驱动力。大数据与人工智能发展的一个重要产物，是分布式机器学习（Distributed Machine Learning），也是目前机器学习最热门的研究领域之一。很多机器学习的模型，包括传统的回归算法，树类算法，神经网络、深度学习、图模型，矩阵分解等模型，他们的训练算法都可以被抽象成一个迭代收敛过程。而分布式机器学习，将模型计算分布式地部署在多台、多类型机器上，同时进行计算，成为面向大数据量和高复

23、杂度的机器学习的重要解决方法。而隐私保护的联合建模技术在本质上也是一种分布式的机器学习算法，借鉴于分布式机器学习技术的发 11 展，并通过与安全计算技术融合实现隐私保护的目的，也必然成为联合建模的一个重要技术。（2 2）业务价值驱动）业务价值驱动在数据要素化的数字经济时代，随着产业数字化、政务数字化和社会数字化逐步发展，各行业数据逐步完善的同时，迫切要求克服数据孤岛壁垒、挖掘和拓展数据应用场景、保护数据隐私与安全。数据融合价值：数据融合价值：受政策、观念、技术等方面的影响，“不愿、不敢、不能”分享数据的现象普遍，导致不同系统、不同组织之间的数据共享开放程度较低，数据流转不畅，加重了“数据孤岛

24、”问题，智能化服务难以获取可融合运用的数据，导致“智能”受限。解决数据流转障碍，促进各行业内和行业间数据融合运用，是行业数字化面临的核心问题和价值所在。数据应用价值：数据应用价值：当下，各行业机构随着在获客导流、精准营销、信用管理和风险管控等业务领域的深入变革，在完成自身数据标准化、企业级数据整合以及完善内部数据应用的基础上，进一步以点带面挖掘跨机构跨行业的要素资源（特别是数据要素）价值，实现网络化共享、集约化整合、协作化发展，不断激发新的业务发展动能。数据隐私保护价值：数据隐私保护价值：在运用数据过程中，潜在风险也在不断加剧，包括“数据寡头”引发的信息集中泄露风险、数据过度挖掘、侵犯客户数据

25、隐私、越权数据共享等带来的信息滥用风险和 12 数据质量引发的决策风险等。围绕数据的黑客攻击、违规交易等风险事件有所加剧，全球范围内重大信息泄露事件时有发生，因此，在实现数据融合和数据应用价值的同时，必须积极应对数据融合运用过程中的安全可信挑战，满足国家及监管的政策要求，实现数据主体合法的数据所有权保护价值。（3 3）宏观政策驱动）宏观政策驱动随着数字经济时代的到来，数据要素将成为经济发展的新引擎。习近平总书记指出，要“发挥数据的基础资源作用和创新引擎作用”，“要构建以数据为关键要素的数字经济”。党的十九届四中全会首次明确数据可作为生产要素按贡献参与分配，提出“健全劳动、资本、土地、知识、技

26、术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”。2020 年初，中共中央、国务院发布了中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见，强调完善要素市场化配置是建设统一开放、竞争有序市场体系的内在要求，是坚持和完善社会主义基本经济制度、加快完善社会主义市场经济体制的重要内容。意见还明确提出“加快培育数据要素市场”，并在“推进政府数据开放共享”“提升社会数据资源价值”“加强数据资源整合和安全保护”等方面作出了部署。不同于传统生产要素，数据要素本身作为生产要素既有生产要素的一般性特征，又具有独特的生产成本结构，即初始生产的固定成本高、此后以复制和优化为主要技术手段的再生

27、产成本非常低，且数据质量不易损耗。这些特性 13 直接决定了只有解决数据安全和隐私保护问题，才能充分挖掘数据要素价值，规范建立数据要素市场。同时，法律法规对数据开发利用提出了新要求。我国正在不断完善数据安全相关制度和规则，保障个人数据和重要数据安全的同时充分发挥数据的经济价值，并不断推动数据安全协同治理机制的形成。2015 年，国务院发布关于促进大数据发展行动纲要，提出了对涉及国家利益、公共安全、商业秘密、个人隐私、军工科研生产等数据保护。之后，各地也陆续出台了大数据或政务数据安全方面的条例、办法和细则等文件。2016 年网络安全法首次提出了重要数据的概念，并在第三十七条规定了关键信息基础设

28、施运营者掌握的重要数据境内存储及出境应进行安全评估。二、国内外实践情况（一）国外应用情况（一）国外应用情况 1 1.国外相关产品和产业国外相关产品和产业基于隐私保护的联合建模技术在欧洲，美国，澳大利亚等国家和地区也发展非常迅速，涌现了一批相关的技术和应用的公司。欧洲方面，欧盟牵头了一个名为“机器学习分类帐编排的药物发现”（Machine Learning Ledger Orchestration for Drug Discovery，以下简称 MELLODDYMELLODDY）的项目。该项目是欧盟创新药物计划的一部分，预算大概 1840 万欧元，并获得了地平线 2020 14 计划和欧洲制药

29、工业协会联合会的支持。该项目的主要内容是由10 家顶级药企在内的共 17 家合作伙伴构建了一个建模平台，在该平台上可以利用多家制药企业的数据，创建更准确的模型，以确定药物开发最有效的化合物。该项目发起于2019年6月1日，计划运行 3 年。2020 年 7 月 28 日，MELLODDY 跨过了一个关键的里程碑：在第一个保护隐私的联邦学习中启动来自 10 家制药企业的海量数据集，证明了技术的可行性。除了欧盟牵头的大型项目外，欧洲也出现不少专注于联邦学习的初创公司。例如：参与了 MELLODDY 计划的 OwkinOwkin 公司，其总部位于巴黎，致力于利用联邦学习推进药物的研究。目前其融资已超

30、过了 8000 万美元。EdgifyEdgify 是一家位于伦敦的初创公司。该公司提供基于联邦学习的边缘 AI 训练框架，其框架可以在任何配备 CPU、GPU 或 NPU（神经处理单元）的设备，包括 MRI 机器、联网汽车、结账通道和移动设备上运行。Edgify 允许任何行业的公司直接在自己的边缘设备上训练完整的深度学习和机器学习模型，减少了将任何数据传输到云的需求。SherpaSherpa 是一家西班牙毕尔巴鄂的初创公司，Sherpa 构建面向企业客户的基于联邦学习的 AI 平台，目前该平台已经帮助西班牙公共卫生服务在COVID-19 疫情期间预测全国急诊室的需求和容量。此外 Sherpa还

31、试图将联邦学习与其原有的智能助理服务相结合，构建隐私保护的提供预测服务的智能助理。目前 Sherpa 已经为其业务转型募集了 850 万美元的资金。Sherpa 的转型之路也可以看出，联 15 邦学习产业在未来具备的市场潜力。SharemindSharemind 是爱沙尼亚cybernetica 旗下用于安全处理机密数据信息的数据分析系统，产品使用多方安全计算技术，可以比标准数据库更好地保护数据，允许企业与合作伙伴共享记录，而不会失去控制权，Sharemind入选欧盟地平线 2020 研究和创新计划。Partisia 是一家丹麦公司，成立于 2008 年，由丹麦战略研究委员会资助的创新性科研项

32、目孵化产生，同样基于多方安全计算技术，实现多方联合安全计算，实现数据可用不可见。在美国方面，谷歌谷歌早在 2017 年就将联邦学习运用于自家的输入法中，通过横向联邦学习改进输入法的下一词预测。此外，谷歌还运用联邦学习在自家手机上推出了闻曲知音功能，使得手机可以随时随地自动识别附近正在播放的歌曲。该功能是通过设备本地的歌曲指纹数据库来实现的，而提高设备的本地数据库质量则是通过联邦学习来实现的，在这个过程中收集收听到的歌曲信息并不会离开本机。类似的，苹果苹果也将联邦学习运用在自家虚拟助理 Siri 中，其通过联邦学习提高了 Siri 在识别用户唤醒时的准确率而不会暴露用户的声音信息。而英伟达英伟达

33、除了作为著名的人工智能硬件公司，还于 2018 年发布了 NVIDIA Clara 人工智能（AI）平台。目前，该平台已经包含 13 个最先进的分类和分割AI，以及为放射科医生构建的软件工具。而在 2019 年的北美放射学会年会（RSNA）上，NVIDIANVIDIA 又推出了 NVIDIA Clara 联邦学习，能够将患者数据保存在医疗服务机构内部。NVIDIA 与 20 家 16 医院合作构建了 AI 模型，可以预测患者的氧气需求，以更好地对 COVID-19 患者进行分类。美国放射学会、麻省总医院、布莱根妇女医院的临床数据科学中心、加州大学洛杉矶分校健康中心和伦敦国王学院都在使用 Cla

34、ra 联邦学习技术。而英伟达除了推出自己的联邦学习产品外还在自己的初创加速计划(NVIDIA Inception Program)中扶持了多家涉及联邦学习业务的公司。例如：Rhino Health 是一家位于麻省剑桥的初创公司，其使用 Clara 构建了自己的联邦学习平台，为跨医院数据使用提供了解决方案。Doc.ai 是一家位于硅谷的创业公司，其目前产品已经有利用联邦学习构建的对重症肌无力的预测模型，帮助癫痫患者寻找最佳药物的模型以及血液检测新冠病毒的模型。除此之外也有越来越多的初创公司在美国涌现，例如：ConsilientConsilient 是一家成立于 2020 年的初创公司，由 Gia

35、nt Oak 公司和 K2 Integrity 公司合作成立，该公司已经发布了利用联邦学习创建的反洗钱及打击恐怖主义融资（AML/CFT）系统 Dozer。该公司与英特尔进行合作，并已经于 2021 年 2 月 10 日宣布在银行实验中成功验证了其系统的可行性。SECURE AI LABSSECURE AI LABS（SAILSAIL）是来自 MIT 团队的初创公司。其目前主要产品是为医院提供患者数据的管理平台，一方面通过安全技术保证医院数据安全，另一方面通过联邦学习在本地训练模型协助医护人员研究患者的相关数据。最近，SAIL 和美国肾癌协会合作(KCA)达成了合作，为KCA 的数据联盟提供联

36、邦学习和数据安全技术。KCA 将利用 SAIL 17 的平台利用来自全国各地医院的关键医疗数据，同时保护患者隐私。大量数据的使用可能使得该研究在肾癌治疗和护理方面取得突破。而在世界其他地方也相继涌现出基于联邦学习的初创公司，比如：澳大利亚的 PresagenPresagen 公司，其致力于连接全球的医疗数据，目前该公司已推出第一款产品 Life Whispere。该产品通过AI 算法来帮助筛选试管婴儿的胚胎。以色列的初创公司 Lynx.MD则试图构建一个不会泄露隐私的临床数据共享平台。行研机构 Gartner 预测，到 2024 年，隐私驱动的数据保护和法规遵从性技术支出将在全球突破 150

37、亿美元，这还将是一个很大的市场。2 2.国外相关政策国外相关政策欧盟：欧盟：于 2016 年发布了通用数据保护条例（GDPR），该条例于 2018 年 5 月 25 日正式生效。这也是世界范围内目前最广泛最全面的数据隐私保护条例，从此开启了隐私保护方面立法的浪潮。在 GDPR 之后，越来越多的国家开始推出本国的数据安全法，这也意味着能够让科技公司躲避 GDPR 的避风港将越来越少。在 GDPR 的跨境数据传输中有一项很重要的“充分性决议”。其中提到个人数据只能从欧盟/欧洲经济区输出至被认为能够提供充分数据保护的国家-即通过了“充分性决议”的国家。而欧盟委员会有权通过签发充分性决议，认定任何欧

38、盟/欧洲经 18 济区以外的指定国家，或该第三国的某一区域或一个或多个特定行业，或某国际组织，能够确保充分的数据保护。目前通过了充分性决议的共有十二家，分别是：安道尔、阿根廷、加拿大（商业组织）、法罗群岛、根西岛、以色列、马恩岛、日本、泽西岛、新西兰、瑞士和乌拉圭。而目前还有许多国家为获取该“充分性决议”而修订该国的数据保护法。英国：英国：在 2016 年公投脱欧后便于 2018 年推出了该国最新的数据保护法 2018 年数据保护法（Data Protection Act 2018）以取代其原有的1998 年数据保护法。该最新法案在相应法规和保护措施上都与 GDPR 类似。2021 年 6 月

39、 28 日，欧盟委员会已经通过了两项关于将个人数据传输到英国的充分性决议，英国目前已经很接近获得 GDPR 的“充分性决议”。美国：美国：尽管目前还没有联邦层面的数据隐私法，但各州都有自己的数据隐私法，其中影响力最大，最严格的是加利福尼亚州的加州消费者隐私法(CCPA)，其中有不少条款与 GDPR 重叠。而在 CCPA 通过以来，其他州以及联邦层面都有提出过类似的法案和提案。其中，弗吉尼亚州于 2021 年 3 月 2 日通过了消费者数据隐私保护法（CDPA），科罗拉多州于 2021 年 7 月 7 日通过了科罗拉多州隐私法（CPA）。就目前形势来看，在美国，更多隐私保护法律的出现将丝毫不令

40、人意外。日本：日本：个人信息保护法于 2005 年 4 月 1 日开始实施，其后为了适应信息技术的快速发展，该法案于 2015 年进行了大 19 幅度的修订，并于 2017 年 5 月 30 日开始实施。此外，日本还和欧盟于 2019 年 1 月通过了一项数据共享协议，该协议是欧盟与日本经济伙伴关系协定的补充协议。欧盟执委会认为日本法律能够对个人数据提供严格的保护，并对日本数据保护相关法规得出“充分性决议”认证。该协议的通过，使约 6 亿人口的数据实现互通，形成了“全球最大安全数据流动区域”。韩国：韩国：在 2011 年 9 月就生效了类似 GDPR 的隐私保护法个人信息保护法（PIPA）。到

41、了 2020 年，韩国一年内对该法案进行了三次修订。早在 2017 年韩国就试图获得欧盟认证，但是欧盟认为韩国的监督机构不够充分独立，个人信息保护法也不够完善，曾两次中断了审查程序。而韩国的一系列努力也确实也收到了成效，2021 年 3 月 30 日，欧盟认可了韩国最新的个人信息保护法以及韩国个人信息保护委员会权力的加强。按照标准流程，韩国目前已经十分接近获得该“充分性决议”认证。其他国家：印度其他国家：印度以 GDPR 为蓝本提出了个人数据保护法案（PDPB），该法案于 2019 年 12 月提交给了议会，有可能于今年通过。相较于 GDPR，印度中央政府将有更多自由裁量权来决定如何执行及何时

42、可以例外。加拿大加拿大于 2020 年 11 月 17 日提出了2020 年数字宪章实施法案来修改其之前的数据隐私政策，其目的与 GDPR 类似，而对于严重违规行为，公司可能面临高达全球收入 5%的罚款，该比例高于 GDPR 的 4%。瑞士瑞士于 2020 年 9 月对其已有法律瑞士联邦数据保护法（DSG）提出了修订，修正 20 案将于 2022 年生效。本次修订的重点在于如何保护个人数据处理过程中的隐私权，相关规定较之前将变得更为严格。泰国泰国于2019 年 2 月通过了个人数据保护法（PDPA），因新冠疫情的影响，将于 2022 年 6 月 1 日起正式生效。虽然目前 PDPA 并未完全

43、执行，但是相关公司仍需按照泰国数字经济与社会部（MDES）规定的标准来制定个人数据安全措施。PDPA 相较于 GDPR，处罚更为复杂，包括有行政罚款和惩罚性赔偿，此外还有可能受到最长一年监禁的刑事处罚。南非：南非：于 2020 年 7 月 1 日生效了个人信息保护法（POPIA），宽限期为一年。与 GDPR 相比，POPIA在某些情况下更为严格，例如：不同于 GDPR 对中小企业进行的某些豁免，POPIA 适用于所有规模的公司；而在有些方面 POPIA则更为宽松，例如 GDPR 对管理数据可移植性有相关要求，但POPIA 则没有，此外 POPIA 还包括了刑事指控。智利：智利：于 2018 年

44、对其宪法进行修订，将数据隐私列为人权中的一项，此后又对其数据隐私法（即 19628 号法律）提出了多个修正案。新西兰：新西兰：于2020 年 6 月通过了其 1993 年隐私法的新修正案。尽管新西兰通过了欧盟的“充分性决议”，与 GDPR 相比该修正案要宽松不少，比如：罚款数目要明显低于 GDPR；未对数据的可移植性做出相关要求；关于离岸数据的限制对于云服务器不适用，这也使得该限制实际作用有限，因为大多数云服务器都位于新西兰境外。21 （二二）国内应用情况国内应用情况 1.1.政策环境政策环境联合建模主要用于解决数据孤岛，以及数据流通中的数据安全保护两大难题。联合建模的产业环境不可避免地受到

45、国家宏观政策、金融管理，以及行业协会相关政策、规范的约束和影响。在国家政策方面在国家政策方面，随着信息技术和人类生产生活场景的深度融合，数字化与促进数据流通成为国民经济中重要的一环，国家也为此多次发文指导。2019 年 10 月底，在中国共产党十九届四中全会上，中央提出“健全劳动、资本、土地、知识、技术、管理和数据等生产要素按贡献参与分配的机制”，数据作为生产要素这一论述拉开了数字资产新时代序幕。2020 年 4 月 9 日，中共中央、国务院发布了中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见，数据要素将在推动数字经济发展的过程中扮演重要角色，培育数据流通市场，提出要加强数据信息

46、安全，制定数据隐私保护制度和安全审查制度，加快了重视数据隐私安全的进程。2020 年底，中央经济工作会议指出，“要大力发展数字经济”，加强科技创新。党的十九届五中全会进一步提出推进数据要素市场化改革、加快数字化发展，建立完善网络综合治理体系。同时数据安全问题日益严峻，同样受到高度重视，多项法律法规出台，聚焦数据信息安全，规范市场加强监管。2021 年 6 月 10 日，第十三届全国人民代表大会常务委员会第二十九次会议通过中华人民共和国数据安全法，为了规范数据 22 处理活动，保障数据安全，促进数据开发利用，保护个人、组织的合法权益，维护数据安全，建立健全数据安全治理体系，提高数据安全保障能力，

47、促进数字经济高质量发展。2021 年 8 月 20日，十三届全国人大常委会第三十次会议表决通过中华人民共和国个人信息保护法，规范个人信息的使用和处理，保障个人信息在数据的有序流通中得到有效保护。在金融在金融管理管理方面方面，中国人民银行多次发文论述数据流通及数据保护的技术。2019 年 8 月，中国人民银行印发了金融科技（FinTech）发展规划（2019-2021 年），文中提到“在切实保障个人隐私、商业秘密与敏感数据前提下，强化金融与社保、工商、税务、海关、电力、电信等行业的数据资源融合应用”“构建适应互联网时代的移动终端可信环境，充分利用可信计算、多方安全计算、密码算法、生物识别等信息技

48、术，建立健全兼顾安全与便捷的多元化身份认证体系，不断丰富金融交易验证手段，保障移动互联环境下金融交易安全，提升金融服务的可得性、满意度与安全水平”“探索人脸识别线下支付安全应用，借助密码识别、隐私计算、数据标签、模式识别等技术，利用专用口令、无感活体检测等实现交易验证”，率先提出金融行业中对金融业和其他行业的数据融合使用，以及通过多方安全计算，隐私计算等技术来保障数据安全。2020 年，中国人民银行在多次实行金融科技创新试点项目，发布的试点项目中就有不少是隐+私计算技术应用的金融科技项目。2020 年 11 月，中国人民银行发布多 23 方安全计算金融应用规范，作为金融行业第一个隐私计算相关

49、技术的标准，引起了行业巨大反响。2021 年 9 月，中国人民银行科技司副司长李兴峰在北京国际服贸会期间举办的 2021 中国国际金融科技论坛上，提出“在技术上，为严防数据泄露、篡改和不当使用，既要利用加密存储、去标识化、身份认证等“老办法”，更要应用多方安全计算、联邦学习、联盟链等“新方法”实现数据可用不可见、数据不动价值动”。中国人民银行有关领导曾在2021 中国(北京)数据金融论坛上，谈到“在数据共享方面，坚持最小必要、专事专用原则，探索应用多方安全计算、联邦学习等技术，在保障原始数据不出域前提下规范开展数据共享”。与此同时，金融行业组织金融行业组织也在积极开展相关研究。2020 年11

50、月，中国互联网金融协会发布金融业数据要素融合应用研究，报告提出“运用多方计算（业界亦称多方安全计算或多方安全计算）、联邦学习等技术，推动金融业数据要素在确保安全合规前提下实现融合应用创新，在促进金融业数字化转型、提升数字普惠金融水平、落实金融消费者保护要求、提升金融穿透式监管效能等方面具有重要意义”。近几年，北京金融科技产业联盟也在为数据安全保护与隐私计算技术相关的标准孵化，研究报告上做了大量研究探索工作。2021 年，已经开展了联邦学习标准的研制工作，并开展了多个场次的企业关于隐私计算技术的企业分享会。24 2.2.行业应用概况行业应用概况（1 1）技术产品市场）技术产品市场据毕马威隐

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2023 年金隐私计算联合建模技术应用研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。