大数据时代下隐私计算的应用融合.pdf
《大数据时代下隐私计算的应用融合.pdf》由会员分享,可在线阅读,更多相关《大数据时代下隐私计算的应用融合.pdf(4页珍藏版)》请在咨信网上搜索。
1、 2023 年第 7 期161计算机应用信息技术与信息化大数据时代下隐私计算的应用融合赵 茜1 何欢欢2 陈 刚1 张丽娟1ZHAO Qian HE Huanhuan CHEN Gang ZHANG Lijuan 摘要 隐私计算作为一个实现数据“可用不可见”的工具盒,可以在融合多方数据时,不共享数据,但是共享数据的价值,保障数据安全,为数据的流通融合提供新的解决途径。该文从隐私计算的技术原理入手,对比联邦学习、多方安全计算和可信执行环境的技术实现路径,接着探讨其与金融、医疗和政务领域融合的应用场景,阐述隐私计算成为打通行业壁垒、促进数据广域流通的关键,最后探究隐私计算在产业、应用和技术角度存在
2、的问题,并对其未来发展趋势提出展望。关键词 隐私计算;联邦学习;多方安全计算;可信执行环境;数据安全;应用场景doi:10.3969/j.issn.1672-9528.2023.07.0411.广州华商学院 广东广州 5113992.国家知识产权局专利局专利审查协作广东中心 广东广州 511399 基金项目 广东省哲学社会科学“十三五”规划学科共建项目:基于大数据的高校学生精准扶贫政策与策略研究(GD17XGL19);校级青年学术科研项目(2021HSQX52):基于大数据技术的电商扶贫研究以农业为例0 引言数据正颠覆世界的发展模式,成为继能源、资源和信息之后的第四大资源。但是近年来从隐私数据
3、泄露,到手机被应用软件监听;从用户被画像“杀熟”,到涉密信息被捕获,数据安全问题频出,数据泄露带来的隐私问题和财产风险正逐步消减公众与市场行业之间的信任,如何既应用数据、挖掘价值,又保障数据安全,兼顾效益与风险,是当前面临的重要课题。2021 年工信部面向行业内外征求对工业和信息化领域数据安全管理办法(试行)的意见,进一步体现了国家从政策法律和实践试点两个方面进行数据安全布局。“十四五”规划中也多次提及数字化、数据经济、数据安全,隐私保障等,数据安全已成为国家重点部署的关键领域。隐私计算作为一个实现数据“可用不可见”的工具盒,在联邦机器学习、可信执行环境、和多方安全计算技术的支持下,可以在融合
4、多方数据时,不共享数据,但是共享数据的价值,保障数据安全,为数据的流通融合提供新的解决途径1。当前,隐私计算已经在金融、医疗与政务等应用场景上融合,并取得一定成果,未来,其应用场景仍十分广阔,涉及数据合规分享或多方使用数据的领域都需要隐私计算,如何将其变成全域泛在应用是我们值得探讨的问题。本文将从隐私计算的技术原理、与金融、医疗和政务融合的应用场景、探究隐私计算存在的问题,并对其未来发展趋势提出展望。1 隐私计算相关技术隐私计算融合了数据科学、人工智能和密码学等众多技术体系,在保证数据安全的基础上,联合各方进行训练学习。隐私计算的技术实现路径比较多:如数据加密与再处理-多方安全计算;通过可信环
5、境进行大数据分析与管理-可信执行环境;数据不动而模型动-联邦学习。从宏观上讲,底层原始数据输入进隐私计算抽象模型后,计算结果为上层业务应用服务;从微观上讲,原始数据会以隐私保护的方式输入、计算和输出,不共享数据,但共享数据的价值2。1.1 多方安全计算 多方安全计算的概念,是在提出百万富翁的问题后被引入的,即解决两个百万富翁在不泄露自己的财产信息的情况下来比较谁更富有的问题。多方安全计算是基于密码学,以交互不可逆的密文数据方式,在无可信第三方时,让每个参与者在不能得到其他参与者的输入信息下,依托特殊的加密算法和协议直接进行计算,得到计算结果。由于密码学的复杂度高、多方安全计算的技术可用性和性能
6、在近几年才得以迅速提升,引起产业的高度关注。如今多方安全计算衍生出同态加密(homomorphic encryption)、密钥共享(secret sharing)、不经意传输(oblivious transfer)和混淆电路(garbled circuit)等多个技术分支。1.2 联邦机器学习联邦学习是一种分布式机器学习框架,基于隐私保护的基础之上,多方在中心服务器的协调下共同训练模型,提升模型效果。在 2012 年即有学者发表了相关的研究成果,后来谷歌在 2016 年首次提到联邦学习,旨在不聚合参与方原始数据的前提下,实现保护终端数据隐私的联合建模3。联邦学2023 年第 7 期162计算
7、机应用信息技术与信息化习多适用于政务或者金融的场景,可关联相关合作方的数据进行多方共识可信赖的风控模型的构建,用来保护数据隐私的主流方法是差分隐私和加密算法4。联邦学习示意图如图1 所示。图 1 联邦学习示意图1.3 可信执行环境可信执行环境的核心思想是利用软硬件在计算中构建多个安全运行环境如表 1 所示,并让数据在可信和隔离的安全空间内运。它的概念源于 open mobile terminal platform(OMTP)提出的一种保护移动设备上敏感信息安全的双系统解决方案5,在传统系统运行环境之外,提供一个隔离且安全系统用于处理敏感数据,任何外部攻击者甚至权限更高的管理员都无法窃取数据。当
8、隐私计算中,除了涉及到的算法模型比较复杂,对参与计算的大数据量有要求时,可以使用可信执行环境对算法模型进行编译发布。表 1 隐私计算相关技术对比技术多方安全计算可信执行环境联邦学习安全机制密码学原理引入可信硬件 数据不动,模型动性能低中高高通用性高中低高效性中中低准确性高高中高可控性高中高保密性高中高中可信方不需要需要不需要2 应用场景隐私计算的技术实现路径较多,不同技术实现方式针对的业务场景和侧重点略有不同,未来隐私安全计算结合实际场景的过程中,多种技术融合已成为趋势随着越来越多的行业进入隐私计算范畴,隐私计算的应用将成为打通行业壁垒、促进数据广域流通的关键,跨行业的数据流通成为一项基础能力
9、。应用场景融合如图 2 所示。2.1 医疗+隐私计算在包含患者大量隐私的医疗数据中,原来采用的多是脱敏技术,在原始数据中去除可能识别出个人,或者其亲属、雇主、家庭成员的信息。但数据脱敏只是一种约束和保护,它并不是完全没有风险的,只是把风险控制在一个很低的范围。如果脱敏的是基因数据,每个人的基因数据大约有 30 亿个位点,其中 99%的基因数据是相同无差异的,另外 1%的基因数据决定了人类的疾病和生理特征等,如果将这些特殊的基因位点去掉,基因数据的功能性也会大打折扣。在这种情况下,单纯通过脱敏很难保证基因数据的隐私安全,脱敏后的数据还是有可能定位出个人信息的。为了解决脱敏所存在的不足和风险,有些
10、研究人员也提出了“沙箱”的隐私计算方式,即在数据使用方在数据提供方指定的环境内完成计算并获得数据结果而非原始数据。但这种方法也存在很多问题,例如在大多数医学科研研究中,都是需要用到多源的数据合作分析,而通过“沙箱”模式,很难找到一个独立的沙箱,将数据源放在一起。所以经常会有每个数据源或者医院采用独立的模式进行计算,获得独立的模型之后将模型结果进行汇总。其缺点是得到的模型的精度并不等价于将数据汇总以后的精度,影响多中心研究的效率。为了解决“沙箱”带来的问题,衍生出了隐私计算技术,它通过融合联邦学习、可信执行环境等一系列的技术,可以实现数据的虚拟融合,在合规的前提下平衡了数据共享与隐私保护。现在我
11、国首套跨省多中心基因分析系统就是通过隐私计算技术,将计算节点部署到各个医院的防火墙后面,就可以实现在病人数据不可见的前提下,完成联合的分析和计算,并且通过隐私计算获得的模型精度与明文下将数据汇总后的模型精度相当,也能够通过隐私计算触达到更多的数据,使模型的效果进一步提高6。2.2 金融+隐私计算利用隐私计算,可以使金融机构对运营商、政务、征信等数据实现应用场景所需的价值进行融合,从而在开放金融生态下,为用户提供可信且安全的聚合金融服务。联邦学习是现阶段金融行业应用比较多的一项隐私计算技术。它的性能相对TEE(可信执行环境)略低,但比MPC(多方安全计算)略强。它的通用性相对中等,一些主流通用模
12、型都可以完成。图 2 应用场景融合 2023 年第 7 期163计算机应用信息技术与信息化市场上很多隐私计算的厂商,基于 FATE 框架进行了大量的封装和提升,通过 MPC 和同态加密等技术的融合进一步提升联邦学习的安全性。原来金融机构是以机构内部的客户数据为中心,但现在客户在各个银行或者机构都会有一些相应数据,比如代发工资后,客户可能会把资金放在股市、基金、理财等地方。当需要资产证明的时候,可以使用跨机构的用户资产等级视图的话,就不用将资金挪到一个地方,可以基于多方安全计算去实现跨机构的数据资产计算,同时底层是结合区块链,做计算结果的存证,包括各方之间的参与,各方之间的调度,然后去确保整个隐
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 隐私 计算 应用 融合
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。