2023年金融业隐私计算联合建模技术与应用研究.pdf
《2023年金融业隐私计算联合建模技术与应用研究.pdf》由会员分享,可在线阅读,更多相关《2023年金融业隐私计算联合建模技术与应用研究.pdf(132页珍藏版)》请在咨信网上搜索。
1、金融业隐私计算联合建模技术 与应用研究 北京金融科技产业联盟 2023 年 11 月 3 目 录 一、发展综述一、发展综述.1(一)联合建模概念探讨.1(二)技术发展历程及驱动力.6 二、国内外实践情况二、国内外实践情况.13(一)国外应用情况.13(二)国内应用情况.21 三、支撑联合建模应用的隐私计算技术体系三、支撑联合建模应用的隐私计算技术体系.42(一)隐私计算技术体系简述.43(二)隐私安全技术当前面临的主要问题及参考解决方案.56(三)主要建模技术对比分析.61 四、联合建模通用技术平台参考框架四、联合建模通用技术平台参考框架.65(一)联合建模通用技术平台建设的目的与意义.65(
2、二)联合建模通用技术平台的技术架构参考.66(三)联合建模通用技术平台非功能指标与设计参考.79(四)联合建模通用技术平台关键机制.91 五、联合建模应用分析五、联合建模应用分析.100(一)联合建模应用场景分类与特征细分.100(二)联合建模的应用场景的其他分类方式.119 六、发展与建议六、发展与建议.122(一)当前技术与平台挑战.122(二)未来技术与平台的发展趋势.125(三)未来应用场景展望与建议.127 参参 考考 文文 献献.129 1 一、发展综述(一)联合建模概念探讨(一)联合建模概念探讨 1 1.联合建模的含义联合建模的含义 近年来,“联合建模”伴随“数据要素化”“隐私安
3、全”、多方计算等热点领域的研究与应用,不断涌现在各类媒体和大众面前,然而,“联合建模”作为一个专业词汇至今尚无一致的、明确的标准定义。从字面观其内涵,“联合建模”由“联合”和“建模”两个关键词有机组合而成。“联合”意指多方共同参与,是完成“建模”的环境和条件“联合”意指多方共同参与,是完成“建模”的环境和条件。“多方参与”既表示“多方数据”的参与,又表示“建模”过程有不同角色的多个构建方(包括:数据供给方、数据加工方、数据消费方和收益方、数据联邦运营方及管理部门等)。其中,“多方数据”的参与是“联合建模”的前提约束,是“联合建模”的核心要素。如果没有“多方数据”的参与,即使存在多个构建实施方,
4、也多是为了解决资源缺口、专业能力缺口、效率不足与合作伙伴契约关系等项目实施与管理过程问题而采取的分工协作方式。这里的“多方数据”是指“建模”过程的数据集必须由属“多方数据”是指“建模”过程的数据集必须由属于多个不同“数据所有权”的数据集组成。于多个不同“数据所有权”的数据集组成。同一数据所有权范围内的不同领域数据的集成与加工,应纳入常规“大数据应用”或“机器学习建模”范畴讨论,非本报告主要的研究和论述对象。2 (注:文中如不特别指出,“多方数据”均指多方不同数据所有注:文中如不特别指出,“多方数据”均指多方不同数据所有权的数据权的数据)“建模”意指构建“模型”的行为,是数据“联合”的目的“建模
5、”意指构建“模型”的行为,是数据“联合”的目的和价值体现。和价值体现。其中,模型泛指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。这种形式化的“抽象”表达主要包括“数学模型”“程序模型”“数据模型”和“系统模型”等。通常构建上述“模型”的行为都属于“建模”过程。综上,本报告将“联合建模”概念明确定义为:基于多方数基于多方数据所有权的数据集合,由一家或多家数据模型构建方联合构建模据所有权的数据集合,由一家或多家数据模型构建方联合构建模型的过程。同时强调:型的过程。同时强调:(1)强调“建模”所需数据必须由多方提供的所有权数据多方提供的所有权数据组成组成,而不强调“建模”过程是否
6、一定存在多家构建方。例如,多家数据供给方将所有权数据(加密或未加密)交付给某个数据加工方,由该数据加工方独立完成全部建模工作,此类集中建模的过程同样属于联合建模。(2)强调“模型”的广义范畴广义范畴,而非特指机器学习或深度学习的“模型”,也非特指某一种“隐私安全计算”技术。例如,简单的统计分析算法(可以选择使用某种多方计算技术)与较为复杂的“机器学习”“神经网络”(可以选择使用联邦学习技术)都可以算作“联合建模”的模型对象。(3)强调数据和加工的联合,联合,而未限制必须符合“隐私安全要求”或必须采用某项隐私计算技术。从不加限定的基本概念 3 上讲,即没有“隐私安全与合规性”要求的前提下,只要能
7、达成业务目标,所有实现“联合建模”的技术手段均可选择。但是,当前联合建模的应用市场一方面要求数据要素加快实现“共享”与“流通”,而另一方面又面临“数据无限复制”“数据无限供给”“侵犯隐私”“数据确权难”等“数据滥用”、“难以监管”等难题,因此,在明确多方数据“责权利”的基础上,专注研究面向“隐私安全”的联合建模的关键技术、基础设施平台及应用场景,以“可用而不可见”的方式实现多方数据“共享”和多方价值“流通”,更有价值和意义。本报告的研究范围将主要聚焦于面向“隐私安全”的联合建模场景。在展开相关论述之前,下面先就基于“多方数据隐私安全”下的联合建模与“传统”的联合建模作简要对比分析。2 2.隐私
8、安全联合建模与传统联合建模的对比分析隐私安全联合建模与传统联合建模的对比分析 传统的联合建模方式是将所有数据汇聚到一处进行建模,并未特别考虑数据所有权因素,因此,从技术上看,这种基于数据汇聚式的联合建模和传统的单方集中数据建模,在技术上并没有本质上的区别。目前主流的联合建模是通过隐私计算技术,在保证各方数据隐私安全的基础上进行模型训练。也就是说,基于隐私计算技术的联合建模与传统方式的本质区别在于强调了各方数据的隐私安全,具体通过多方协同计算来实现,在数据对齐、特征工程、模型训练等过程中需要多方之间交互必要的、受隐私保护的数据。4 从技术复杂性上看,为保证隐私安全,这种交互可能涉及一种或多种隐私
9、计算技术,如同态加密、多方安全计算、差分隐私等。建模过程一般分为数据对齐、特征工程、模型训练和模型推理四个部分,以下分别从这四个建模流程来对传统联合建模和隐私保护方式下的联合建模进行对比分析。(1 1)数据对齐:)数据对齐:在传统的联合建模模式下,模型需求方和数据提供方约定好共同的 ID 加密方式后将双方加密后的 ID 汇集到一起进行样本匹配,从而得到双方可用于建模的共有样本集。在这种模式下,由于目前已经有“彩虹表”密码破解器的存在,常用的加密方式如 md5、sha256 等加密方式可以被暴力破解,因此在样本 ID 传输过程中存在着合法合规、隐私泄露的风险。在隐私保护的方式下,针对样本 ID
10、对齐场景,可基于密码学、多方 安 全 计 算 等 技 术,通 过 隐 私 集 合 求 交(Private Set Intersection-PSI)技术得到双方的样本交集,双方样本 ID 的原始数据不出各自私域,且各建模参与方无法获取对方除交集以外的样本 ID。针对特征对齐的场景,各个参与方只需要把特征名称进行匹配对齐,无需汇聚具体的 ID 和特征数据。(2 2)特征工程:)特征工程:在传统的联合建模模式下,确定双方共有样本后,模型需求方提供共有样本的 Y 标签,数据提供方提供共有样本的特征数据,双方将所有的建模数据归集到一起进行特征预处理、特征筛选、特征衍生等工作。在隐私保护的联合建模模式下
11、,各参与方的原始数据在各自私域,部分特征处理的工作如 5 特征相关性分析、特征 IV 值计算等需要多方数据交互计算的步骤,通过利用同态加密、多方安全计算等技术进行计算,计算过程中各参与方的原始数据始终不出私域。(3 3)模型训练:)模型训练:在传统的联合建模模式下,所有的建模数据全部归集到一起进行模型训练,训练速度更快。在隐私保护的联合建模模式下,利用联邦学习、多方安全计算等技术进行模型训练,训练过程中各参与方的原始数据在各自私域内进行计算,参与方之间只交互密态信息或中间计算结果(如梯度,Loss等),而这些密态信息或中间计算结果需要通过加密或隐私保护方法如同态加密、差分隐私等方式进行交互与传
12、输。(4 4)模型推理:)模型推理:在传统的联合建模模式下,训练完成的模型是一个整体,进行模型推理时直接调用模型即可得到推理结果。在隐私保护的方式下,模型一般分布在各参与方,各参与方部署的是局部模型,进行模型推理时需要多个参与方共同参与计算、进行交互,但在整个模型应用过程中,各参与方原始数据均不出库。另外,传统联合建模和隐私保护的联合建模比,在建模效率,数据安全保护,建模参与方上也有区别,如表 1 所示。表 1:传统联合建模与隐私保护联合建模对比 建模效率 数据安全 建模参与方数量 6 传统联合建模 建模数据全部归集到一起,建模速度更快。建模过程中,一方数据出私域,存在隐私泄露的风险。更容易支
13、持多方联合建模。隐私保护联合建模 建模过程需要进行加密传输、加密计算汇总中间结果,因此建模速度相对传统建模方式较慢。建模过程中,各参与方原始数据不出私域,保证数据安全。建模过程需要参与方之间的多次交互,由于性能等方面的约束,参与方数量通常有限,两方或三方之间的联合建模情况较多。(二)(二)技术发展历程及驱动力技术发展历程及驱动力 1 1.主流技术的演进历史主流技术的演进历史 联合建模主流技术的发展历程是以现代密码学为核心,协同计算机体系结构、计算复杂性理论、信息论、统计学、抽象代数及数论等理论发展的渐进过程。大致可分为四个阶段,即萌芽期、探索期、成长期和发展期,由最初的理论研究为主逐渐发展为理
14、论指导实践的实验室应用初创,直至近几年的规模化发展。第一阶段为 1976 至 1985 年的萌芽期,密码学诞生以后,同态加密、秘密分享、不经意传输、多方安全计算等计算理论思想在该阶段先后提出。香农于 1948 年发表的通信的数学理论一文确立了现代信息论的研究开端,内容涉及信息量化、存储和通信,是密码学发展的基石。Diffie 和 Hellman 于 1976 年创立公钥密码学,拓宽了密码学的研究范围。Rivest、Shamir 和 Adleman 于 1977 年提出 RSA 算法,RSA 7 公开密钥密码体制使用不同的加密密钥与解密密钥,由已知加密密钥推导出解密密钥在计算上不可行。紧接着,R
15、ivest 本人于1978 年提出同态加密思想,从抽象代数角度保持了同态性,即对密文直接处理和对明文处理后加密得到的结果相同。Shamir 和 Blakley 于 1979 年提出秘密分享思想。该思想基于 Lagrange 插值和矢量方法,分发者通过秘密多项式将秘密 s分解为 n 个秘密并分发给持有者,其中任意不少于 k 个秘密均能恢复密文,而任意少于 k 个秘密均无法得到密文的任何信息。Michael O.Rabin 于 1981 年提出不经意传输理论。在不经意传输中,发送者 Alice 发送一条消息给接收者 Bob,Bob 以 1/2的概率接收到信息,在结束后 Alice 并不知道 Bob
16、 是否接收到了信息,而 Bob 能确信地知道自己是否收到了信息。图灵奖得主姚期智于 1982 年提出多方安全计算协议。该协议主要研究针对无可信第三方情况下安全计算约定函数的问题。该协议最早应用于匿名竞拍和电子投票,近年来在密钥管理解决方案,以及基于隐私保护的数据检索、数据挖掘和机器学习等分布式协同计算领域有实践应用。第二阶段为 1986 至 2003 年的探索期,混淆电路、零知识证明、隐私检索、半同态加密等协议和算法在该阶段相继提出。继MPC 之后,姚期智于 1986 年提出混淆电路概念,混淆电路通过布尔电路的观点构造安全函数计算,参与者可以针对某个数值来计算答案,而无需知道计算式中输入的具体
17、数字。8 Goldreich 于 1987 年提出基于秘密分享的 MPC,即可以计算任意函数的计算意义下安全的多方安全计算协议。Goldwasser、Micali 和 Rackoff 于 1989 年提出零知识证明,即证明者能够在不向验证者提供任何有用信息的情况下,使验证者相信某个论断是正确的。Chor 于 1995 年提出隐私信息检索,即保证查询用户在向服务器上的数据库提交查询请求时,可以在用户查询隐私信息不被泄漏的条件下完成查询。Paillier 于 1999 年提出半同态加密,这是一种满足加法同态的公钥加密算法,即密文相乘等于明文相加。第三阶段为 2004 至 2012 年的成长期,可信
18、执行环境、差分隐私、全同态加密等概念在该阶段纷纷提出。可信执行环境是软硬件结合的信息安全技术,支持对隐私数据的安全存储隔离、传输、计算和删除。ARM 于 2006 年提出硬件虚拟化技术 TrustZone及硬件实现方案;2011 年,智能卡国际标准化组织 Global Platform 开始起草 TEE 规范标准,并联合相关公司开发基于 GP TEE 标准的可信操作系统。Dwork 于 2006 年提出差分隐私,该技术针对统计数据库隐私泄露问题,通过对原始数据进行转换或对统计结果添加噪声来实现隐私保护。谷歌和苹果在 Chrome 和 iOS 系统中使用该技术进行数据脱敏和匿名化。Gentry
19、于 2009 年提出全同态加密,即能够同时满足加法和乘法同态的公钥加密算法。9 第四阶段为 2013 年至今的发展期,随着人工智能技术的发展,机器学习技术和密码学技术进入了深度融合,此时也相继出现了联邦学习和隐私保护机器学习的概念。2013 年,各类面向通用计算的零知识证明系统开始涌现,主要应用于安全认证、身份管理、金融数据保护、供应链体系等场景。同年,Intel 推出 SGX指令集扩展,通过新的访问控制机制,实现不同程序的隔离运行,保障用户关键代码和数据的机密性和完整性不受恶意软件破坏。同时,已经有学者开始探索基于隐私保护技术的应用,王爽教授团队提出了分布式隐私保护在线机器学习的概念,并将技
20、术应用于医疗领域。McMahan 于 2016 年提出联邦学习的概念,用于解决安卓手机终端用户的模型更新问题。Mohassel 于 2017 年提出 SecureML,是一种可扩展的隐私保护机器学习系统,首次将秘密分享引入到该问题中。2018 年,杨强教授拓展了联邦学习的计算范畴,提出了纵向联邦学习和联邦迁移学习。2 2.驱动力分析驱动力分析 (1 1)技术驱动)技术驱动 隐私保护的联合建模作为新兴的人工智能基础技术,主要是大数据广泛应用、算力提升,以及算法技术发展等多方面因素的联合技术驱动的结果。首先,大数据近年来的快速发展与应用大数据近年来的快速发展与应用,使得模型训练需要依托海量的、高质
21、量的数据驱动,随着人工智能行业的蓬勃发展,10 各机构自有数据的利用和挖掘几近饱和,为了扩大模型应用场景,提升模型效果,必须打破数据瓶颈,将分散在不同机构的数据组合起来加以利用。这就促使了必须寻找新的技术手段来实现跨机构间的联合建模,同时需要满足隐私保护的需求。其次,算力在近些年得到大幅提升算力在近些年得到大幅提升。同态加密,多方安全计算等技术的提出已经有几十年的历史,在学术领域也已经较为成熟,但由于这些安全计算技术依赖于密码学算法以及多方的交互,计算性能是制约这些技术实际落地应用的重要因素,而近十年来得益于算力的提升,这些安全计算技术真正开始成为“现象级”话题,开始在实际场景中落地应用。而与
22、这些安全计算技术紧密融合的隐私保护的联合建模技术,同样由于算力的提升得到技术的驱动而实现在短短几年时间内的快速发展。最后,算法技术的发展算法技术的发展也是基于隐私保护的联合建模技术的发展的一个重要的技术驱动力。大数据与人工智能发展的一个重要产物,是分布式机器学习(Distributed Machine Learning),也是目前机器学习最热门的研究领域之一。很多机器学习的模型,包括传统的回归算法,树类算法,神经网络、深度学习、图模型,矩阵分解等模型,他们的训练算法都可以被抽象成一个迭代收敛过程。而分布式机器学习,将模型计算分布式地部署在多台、多类型机器上,同时进行计算,成为面向大数据量和高复
23、杂度的机器学习的重要解决方法。而隐私保护的联合建模技术在本质上也是一种分布式的机器学习算法,借鉴于分布式机器学习技术的发 11 展,并通过与安全计算技术融合实现隐私保护的目的,也必然成为联合建模的一个重要技术。(2 2)业务价值驱动)业务价值驱动 在数据要素化的数字经济时代,随着产业数字化、政务数字化和社会数字化逐步发展,各行业数据逐步完善的同时,迫切要求克服数据孤岛壁垒、挖掘和拓展数据应用场景、保护数据隐私与安全。数据融合价值:数据融合价值:受政策、观念、技术等方面的影响,“不愿、不敢、不能”分享数据的现象普遍,导致不同系统、不同组织之间的数据共享开放程度较低,数据流转不畅,加重了“数据孤岛
24、”问题,智能化服务难以获取可融合运用的数据,导致“智能”受限。解决数据流转障碍,促进各行业内和行业间数据融合运用,是行业数字化面临的核心问题和价值所在。数据应用价值:数据应用价值:当下,各行业机构随着在获客导流、精准营销、信用管理和风险管控等业务领域的深入变革,在完成自身数据标准化、企业级数据整合以及完善内部数据应用的基础上,进一步以点带面挖掘跨机构跨行业的要素资源(特别是数据要素)价值,实现网络化共享、集约化整合、协作化发展,不断激发新的业务发展动能。数据隐私保护价值:数据隐私保护价值:在运用数据过程中,潜在风险也在不断加剧,包括“数据寡头”引发的信息集中泄露风险、数据过度挖掘、侵犯客户数据
25、隐私、越权数据共享等带来的信息滥用风险和 12 数据质量引发的决策风险等。围绕数据的黑客攻击、违规交易等风险事件有所加剧,全球范围内重大信息泄露事件时有发生,因此,在实现数据融合和数据应用价值的同时,必须积极应对数据融合运用过程中的安全可信挑战,满足国家及监管的政策要求,实现数据主体合法的数据所有权保护价值。(3 3)宏观政策驱动)宏观政策驱动 随着数字经济时代的到来,数据要素将成为经济发展的新引擎。习近平总书记指出,要“发挥数据的基础资源作用和创新引擎作用”,“要构建以数据为关键要素的数字经济”。党的十九届四中全会首次明确数据可作为生产要素按贡献参与分配,提出“健全劳动、资本、土地、知识、技
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 年金 隐私 计算 联合 建模 技术 应用 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。