联邦学习算力加速方案.pdf
《联邦学习算力加速方案.pdf》由会员分享,可在线阅读,更多相关《联邦学习算力加速方案.pdf(38页珍藏版)》请在咨信网上搜索。
1、 联邦学习算力加速方案联邦学习算力加速方案演讲人:赵荣 星云Clustar 产品总监 01 背景介绍 联邦学习的工作流程参与方 B数据对齐(隐私安全求交)模型训练参数聚合参数聚合模型更新模型更新子模型 B子模型 A模型训练加密加密同态加密同态加密全局模型参与方A 联邦学习算力性能挑战联邦学习联邦学习联邦学习是一种在保护数据隐私安全的前提下,联合多方进行共同建模的分布式机器学习框架。在训练过程中,通过对模型参数进行加密、传递、运算、解密,实现整体模型表现的提升。计算挑战计算挑战在联邦学习过程中,为了支持参数和数据可以在密态下进行无损的计算,需使用同态加密技术(加密后的数据为2048bit大整数)
2、,而同态加密技术会带来计算量和传输量的剧增。解决方案解决方案 -异构异构硬件加速硬件加速重点考虑异构硬件特性 定制:定制:根据场景和算法定制架构和计算引擎,计算效率高。并行并行:可在算法、多引擎、pipeline处理等多个层面优化并行度。延迟:延迟:高带宽传输,纯硬件电路,无指令执行概念。部署:部署:可在云或本地切换部署解决方案并根据应用需求扩展。异构算力芯片比较CPULowHighHighHighVery highGPUHighHighHighHighHighFPGAHighLowLowHighVery HighASICVery highLowVery lowLowLowThroughput
3、LatencyPowerPrice at scaleFlexibilityGPU和FPGA各有优势,综合考虑GPU&FPGA哪个方案更有性价比?异构算力方案比较重点考虑:将复杂运算转移至硬件设备执行,大幅提升并行处理效率,支持高并发、低延迟将复杂运算转移至硬件设备执行,大幅提升并行处理效率,支持高并发、低延迟FPGAGPUGPU特性特性资源丰富,算力强大,可以有效完成复杂度较高的运算。基于SIMT(单指令多线程)架构,其主体由多个相同的流式多处理器组成。因此具有高并发度的特点。内存分级机制,可以大幅提高数据读写和处理速率。具有很强的可编程性,可以根据不同需求快速实现算法的硬件实现,GPU在通用
4、计算领域的作用比较重要。结构固定,存在内存墙高性能的Cache存在“数据局部性”大数据量批处理时增加额外Latency全定制的缓存结构和数据位宽X5 倍的片内缓存容量最大吞吐,最小延迟,高度PipelineGPU FPGAFPGA特性特性可编程逻辑电路,FPGA内部资源游离分配,可以根据设计人员的需要进行编程并行性,可编程定制不同功能的程逻辑电路,数百万个LUT进行大规模并行计算高速性能,快速的时钟速度和响应时间,因此可以处理高速数据流和实时信号低功耗&可重构VS 02 算力方案 结合算力产品结合算力产品-全栈产品介绍全栈产品介绍星云安全数据网络(SDN)星云隐私计算平台星云隐私计算算力方案数
5、据市场数据网络离线/在线服务价值运营RDMAFPGAGPU可信执行环境联邦学习多方安全计算同态加密联合查询/统计联合建模匿踪查询联合推理效果安全效率星云数融天鉴系统实时审计事后审计数据收集密钥管理金融行业数据源企业一般企业星云隐私计算加速方案星云隐私计算平台星云隐私计算一体机星云隐私计算一体机 效率产品效率产品-异构加速产品简介异构加速产品简介底层特性简介底层特性简介业界首个业界首个FPGAFPGA隐私计算隐私计算高性能算力高性能算力加速卡加速卡 模幂/模乘算子、同态加密算子、密态加法(包含3种不同类型加法)、密态乘法(3种不同类型乘法)、密态矩阵运算算子、RSA交集(3种不同类型RSA交集)
6、、密钥交换算子 支持宽泛的数据位宽计算支持宽泛的数据位宽计算 256bit、512bit、768bit、1024bit、2048bit、3072bit、4096bit具有全量的算子底层实现具有全量的算子底层实现支持多种同态计算算子支持多种同态计算算子 支持宽泛的数据位宽计算支持宽泛的数据位宽计算 支持单批200w以上的算子:同态加密算子、RSA交集(3种不同类型算子)、模幂算子 支持单批100w以上的算子:密态加法(3种不同类型算子)、密态乘法(3种不同类型算子)、密态矩阵运算算子、RSA交集(3种不同类型算子)、模乘算子 软件特性简介软件特性简介 对单个算子有7到30倍的性能提升(对比20核
7、心CPU)端到端性能可提升高达10倍 显著的性能比提升显著的性能比提升功耗比提升功耗比提升 所有算子模块化并集成API 实现,支持云端和本地部署 底层驱动高度集成,可实现即插即用 支持Python、Java直接调用友好易用的应用层开发支持友好易用的应用层开发支持联邦学习计算任务(训练/预测)及其他涉及密态运算任务场景,包括:横向联邦学习场景 纵向联邦学习场景 同态加密场景 密态计算场景广泛的广泛的应用应用场景场景支持支持 效率产品-异构算力整体方案实现数据对齐模型训练模型推理1000100 x100 x端到端时间端到端时间非加密机器学习联邦学习Cryptographic OperationsC
8、ryptographic Operations1Paillier Encryption w/Obfuscation2Ciphertext Addition3Ciphertext Multiplication4Ciphertext Matrix Multiplication基于FATE,在联邦学习全生命周期,我们总结了16种常用的密态运算操作抽取了公共算子,作为高性能引擎在 FPGA 上实现:模幂&模乘软硬结合,动态拼装成10余种密态运算操作对单个算子有7到30倍的性能提升(对比20核心CPU)加密运算导致性能大幅下降GPU FPGA ASIC 从软件(GPU)到电路设计(FPGA),再到全定制
9、化芯片7.3268.38.5051015202530Homomophic EncryptionCiphertext additionCiphertext MultiplicationMatrix Multiplication单任务3-5倍的端到端性能提升Logistic Regression:4.5XLogistic Regression:5.3X多任务5-7倍的端到端性能提升Logistic Regression:6.1X双任务4-6倍的端到端性能提升 效率产品 异构加速硬件架构实现在服务器中挂载一块或多块FPGA或GPU加速卡在硬件电路中实现复杂的联邦学习运算,进行高定制架构实现通过硬件接
10、口,如PCIe、Nvlink,实现上位机和硬件加速卡的数据交换充分利用加速卡内部计算和存储资源,实现计算高吞吐、高并发架构实现架构实现-异构异构硬件加速硬件加速硬件硬件结构结构 效率产品效率产品 异构加速整体架构实现异构加速整体架构实现对联邦学习中最常用的复杂算子进行定性分析和硬件优化。近似Numpy的异构加速算子接口,便于用户对机器学习任务的加速。用户可指定使用GPU或FPGA执行计算。高效的存储、计算、数据传输系统,对异构系统的高效运转起到了协同优化的作用。自主研发的软硬交互系统,基于硬件驱动设计,可以实现对硬件的高性能稳定调用。应用除了应用除了PythonPython算子,同步支持算子,
11、同步支持JAVAJAVA算子调用。算子调用。架构层除了FATE以外还可支持其他开源框架。实现说明实现说明 效率产品效率产品异构加速算子层异构加速算子层APIAPIcfg:任务配置信息para:计算参数在CPU中的地址data1:计算源数据1在CPU中的地址data2:计算源数据2在CPU中的地址data3:计算源数据3在CPU中的地址result:计算结果在CPU中的地址CM D(16KB)PARAM(Para_Dat a_Si ze)DATA(Space_Si ze-16KB-Para_Dat a_Si ze)Task15Task14Task0Task1Task2Space_Size (eg
12、:1024MB)Src_DDRaddr=0 x00000000Addr=Space_Size(eg:addr=0 x03FFFFFFF)-API-API调用简单、高效!调用简单、高效!-FPGA-FPGA算子层独立,算子层独立,支持不同的联邦学习平台!支持不同的联邦学习平台!效率产品效率产品算子层算子模式及数据格式算子层算子模式及数据格式NEdat a set a4 pai l l er加密12 密态加法1Ndat a set a6 密态加法2N7 密态乘法2hpdat a set a10 pai l l i er解密hqRow/number9 矩阵乘法Nq?p2q2pqn1 模幂NEdat
13、a set a 软件定义的算子模式软件定义的算子模式2 模乘Ndat a set bdat a set adat a set edat a set bdat a set b15 非混淆加密dat a set adat a set bdat a set adat a set bNEdat a set bNdat a set adat a set b dat a set bl ock1,data set block2,?,dat a set bl ockm16 密文求和N bl ock1_si ze,bl ock2_si ze,?,bl ockm_si ze ab mod Nae mod N(1+
14、be)*ae mod Ne*a+b(1+be)mod Na+ba?b?amatrix?bmatrixa算子编号算子名称算子公式数据格式参考pai l l i er解密公式数据a由多个bl ock组成 struct fpga_configuint8_t operate_mode;/指定本次任务的操作模式size_t batch_size;/指定本次任务中每批数据个数size_t para_data_size;/指定本次任务参数数据量大小 size_t data1_size;/指定本次任务data1数据量大小 size_t data2_size;/指定本次任务data2数据量大小 size_t d
15、ata3_size;/指定本次任务data3数据量大小 uint8_t para_bitlen;/指定本次任务中参数的数据位宽 uint8_t data1_bitlen;/指定本次任务中data1的数据位宽 uint8_t data2_bitlen;/指定本次任务中data2的数据位宽 uint8_t data3_bitlen;/指定本次任务中data3的数据位宽 uint32_t task_space_size_req;/指定本次任务请求的task spacesize uint32_t pisum_block_num;/pisum模式数据拆分成多少个block uint32_t pisum_
16、cfg;/pisum模式数据拆分后每块数据size固定否;数据数据类型说明类型说明 效率产品效率产品底层算子功能支持说明底层算子功能支持说明ID算子功能操作数最小位宽(bit)操作数最大位宽(bit)单批任务最大数据量(组)1模幂计算2564096200W2模乘计算2564096100W3RSA数据求交5124096200W4Paillier同态加密5124096200W5RSA加密计算2564096200W6密态计算_乘累加256409669W7密态计算_乘加2564096100W8密态计算_点乘2564096100W9密态计算_矩阵乘2564096100W10Paillier同态解密256
17、4096200W11DH密钥协商7682048200W12密态计算_加法10244096100W13RSA哈希模幂2564096200W14密态计算_乘法2564096200W15非混淆加密5124096200W16密态求和10244096200W联邦学习16种常用算子支持不同算子混合运算单批大数据量到百万级支持16个任务进程并行内部320个并行计算引擎算子说明算子说明 效率产品效率产品异构算力使用方法异构算力使用方法Clustar中间层SDK加速卡硬件安装加速卡驱动安装联邦框架适配部署上层业务启动调用算子加速加速卡返回算力结果PCIE接口通讯交互加速卡并行计算加速卡使用特点:1.硬件安装部署
18、简单2.提供配套驱动SDK3.上层应用调用方便4.高效的通讯交互业务层硬件加速卡(搭载FPGA芯片/GPU芯片)联邦算法SBTLRFederated Learning算子服务引擎(FPGA/GPU)系统硬件驱动联邦学习系统软硬件框图算子调用APIPHEDenseNetResNetVGG 产品展示(一):专注隐私计算“算力+”探索隐私计算加速卡隐私计算加速卡隐私计算硬件加速一体机隐私计算硬件加速一体机超强计算力超强计算力 高性能服务器 隐私计算专用极大缩短交付周期极大缩短交付周期 软硬兼容 一站式采购降低整体降低整体CTOCTO 成本降低最高40%4年超长维保加速卡主动散热款加速卡主动散热款(带
19、风扇带风扇)加速卡被动散热款加速卡被动散热款(无风扇无风扇)算子性能:算子性能:对比单核提升70-10070-100倍倍功耗:功耗:节省3.53.5倍倍模型训练:模型训练:多核端到端性能提升可达7倍业界首个FPGA隐私计算加速卡高性能算力强劲接入 产品展示产品展示1-11-1:自研自研FPGAFPGA硬件加速卡硬件加速卡-外观外观加速卡外观设计 侧视图加速卡外观设计 正视图加速卡PCBA电路板加速卡外观设计 正视图 产品展示产品展示1-21-2:自研自研FPGAFPGA硬件加速卡硬件加速卡-参数规格参数规格ClustarClustar-P300(-P300(数据中心款数据中心款)计算力计算力I
20、NT8 TOPs(峰值)33.3尺寸尺寸(PCIEPCIE插卡插卡)高度 Full (120mm)长度 长 (240mm)宽度双插槽 (40mm)存储器存储器片外内存类型DDR4,支持2400MT/s,支持ECC纠错片外内存容量64 GB片外总带宽 77 GB/s内部 SRAM 容量54 MB内部 SRAM 总带宽38 TB/s接口接口PCI ExpressGen 3 x16PCI 传输带宽理论峰值32GB/s网络接口2x QSFP28(100GbE)逻辑资源逻辑资源查找表(LUT)1,341,000功耗和散热功耗和散热功耗120W散热被动散热(无源)供电PCIE 12V+AUX 12VClu
21、starClustar-P300-P300工作站款工作站款)计算力计算力INT8 TOPs(峰值)33.3尺寸尺寸(PCIEPCIE插卡插卡)高度 Full (120mm)长度 全长 (300mm)宽度双插槽 (40mm)存储器存储器片外内存类型DDR4,支持2400MT/s,支持ECC纠错片外内存容量64 GB片外总带宽 77 GB/s内部 SRAM 容量54 MB内部 SRAM 总带宽38 TB/s接口接口PCI ExpressGen 3 x16PCI 传输带宽理论峰值32GB/s网络接口2x QSFP28(100GbE)逻辑资源逻辑资源查找表(LUT)1,341,000功耗和散热功耗和散
22、热功耗120W散热主动散热(有源)供电PCIE 12V+AUX 12V 产品展示产品展示1-31-3:隐私计算一体机:隐私计算一体机隐私计算集群方案隐私计算集群方案隐私计算一体机隐私计算一体机CPICPI系列系列-2U/4U-2U/4U塔式服务器塔式服务器CHXCHX系列系列-信创系列信创系列海量数据交易海量数据交易 支持亿级用户数据集、PB级数据的横纵联邦训练、匿踪查询和联合统计任务,支撑上层海量数据交易。安全可靠安全可靠 可支持全内存加密,抵抗物理攻击,保护数据安全;可支持可信链技术,逐级认证管理,保证系统安全;平台多层级认证,全流程管理、存证;访问控制,提高管理安全性。基于主流服务器深度
23、优化,融合高性能网络加速、隐私计算算力加速卡、高可靠性隐私计算平台。可扩展架构,为数据中心、数据交易所等客户在数据要素流通场景提供一站式、集群化的基础设施解决方案。支持亿级用户数据集、PB 级数据在线交易。高效网络高效网络 可支持RDMA网络加速技术,延迟减少到原来的25%;分布式集群通信效率10倍以上性能提升;支持卡间和服务器间组网优化技术。超低超低TCOTCO 基于独有的隐私计算加速能力,同等密态算力条件下,功耗仅为通用CPU运算的1/6,大幅降低运营成本;基于软硬一体的平台和硬件优化能力,实现双卡、四卡、八卡加速组合,实现服务器采购成本的大幅降低。产品展示产品展示1-3-a1-3-a:隐
24、私计算一体机:隐私计算一体机-CPI-CPI系列系列可靠安全、灵活配置、软硬结合、开箱即用的一站式软硬件结合产品高性能CPI系列隐私计算一体机隐私计算一体机超强计算性能超强计算性能加速卡大幅提升 10 余种密态算子能力,算子性能比 CPU 平均提升 70-100 倍隐私计算场景端到端 9-10 倍性能提升,支持亿级数据场景建设异构算力灵活配置,单台服务器可支持多达 8 张隐私算力加速卡一体机集成产品成本减少最高 40%硬件服务器数量仅为通用 CPU 服务器的 25%-50%核心部件标准超长维保支撑,维保时间延长 30%+异构算力搭载优化,单台服务器可灵活搭载隐私加速卡,大幅降低采购费用动态负载
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联邦 学习 加速 方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。