AI模型时代的多模态数据存储、管理和应用.pdf
《AI模型时代的多模态数据存储、管理和应用.pdf》由会员分享,可在线阅读,更多相关《AI模型时代的多模态数据存储、管理和应用.pdf(31页珍藏版)》请在咨信网上搜索。
1、AI 模型时代的多模态数据存储、管理和应用Alex Chen阿里云智能集团-研究员2026 中国 AI支出占亚太的 58%智能客户服务,业务创新和自动化,销售流程,IT 优化,欺诈分析2026 年亚太地区 AI 支出5 年复合增长 24.5%*Source:IDC Worldwide Artificial Intelligence Spending Guide,2023495 TFLOPS2x200G RDMA 32 Core144 TB Mem 1EFLOPSGPUDPUAI 服务器万卡集群XX分布式训练容错多租户隔离和调度规模复杂度软件复杂度架构复杂度原始数据集训练数据集数据预处理模型训练
2、模型验证反复训练优化不断训练优化数据收集场景化精调模型验证模型部署推理内容安全模型部署服务推理结果输出输入内存墙:模型参数量增长 10 倍算力:模型计算量增长 68 倍多模态:从单一的文本(2 KB)变成文本、图片(200 KB)、音视频(MB)混合单个样本的数据量(Token)大幅增加 模型、参数量模型参数计算量GPT-3(175B)350GB314 ZFLOPSGPT-4(1800B)3.6TB21500 ZFLOPSGPT-3GPT-3.5GPT-4-8kGPT-4-32k单个样本的Token 量20494096819232768GPT-3 模型训练内存需求=参数+梯度+优化器+其他 2
3、.8TB 80GB(A100 显存大小)GPU 显存几乎没有变化,GPU 单卡的算力只增长了 3 倍CPU 卡显存大小计算量A100/A80080GB156 TFLOPSH100/H80080GB459 TFLOPS训练框架利用数据并行、模型并行、流水线并行等技术将数据、模型切片到 GPU 卡上分布式计算每个 iteration 结束时利用高速网络在所有 GPU 上 all reduce 同步模型参数GPU 卡规模越大,对高速网络、可靠存储要求更高算法工程师要经常检查模型质量,如果学习率不够就要利用 checkpoint 回溯、参数调优后再继续训练Initialize trainingList
4、 files in dataset and shuffle/随机打散数据Prepare MP&PP/规划模型并发,流水线并发Repeat(for each batch):/迭代多轮 iterationRead file for the batch/读取一批数据用于训练TrainingAll reduce/所有 GPU 同步模型参数Checkpoint if necessary/周期性 checkpointCPU1b 模型切片,加载到 GPUGPT-3(175B)GPT-4(1800B)模型分片FwdBack数据分片4)all-reduce,更新模型参数3)SGDCPUCPUCPUall-red
5、uce模型并行数据并行5)周期性生成checkpoint1)数据shuffle、切片2)读取数据集分片iterations文件类型文件类型样本数据集:海量小文件,比如 Laion-5B 数据量 250TB,涉及文件数约 100 亿IO Pattern每个 GPU 32 路并发读集群并发读 6百万 QPSIO Pattern大块写模型文件,16 个 GPU 节点 30 秒写完模型文件,单节点写吞吐 1GB/s每张 GPU 卡单路大块写优化器状态文件,2048 卡并发写总带宽 48GB/s文件类型文件类型(以以 200B 参数参数、2064 卡为例卡为例)模型文件:16x8 GPU 节点,128
6、个 3GB 文件,约 384GB优化器状态文件:2048 GPU 的 zero 优化器状态,2048 个 1.2GB 文件,约2.4TBIO Pattern每张 GPU 卡单路大块读模型文件、优化器状态文件,并发读总带宽 60GB/sCPUsdatapartdatapartdatapartdatapartdatasetCPUsoptimstatemodeloptimstateoptimstatecheckpointCPUsoptimstatemodeloptimstateoptimstatecheckpoint视频文件小文件(特征帧)读取文件写小文件小文件读取小文件小文件删除小文件某客户的视频
7、推理存储性能需求视频第1帧第2帧第 T 帧图像分类模型帧特征 x1图像分类模型帧特征 x2图像分类模型帧特征 xT平均汇合视频特征 z全连接层类别预测分布式元数据分布式元数据:小文件规模最大 100 亿,具备百万 QPS 元数据处理能力,比如 lookup,getattr,open 等高性能存储介质和高性能存储介质和高性能高性能网络网络:NVMe SSD 和 2*100G RDMA,checkpoint 大块顺序读写,低延时和高吞吐P2P P2P 分布式读缓存分布式读缓存:每张 GPU 读取同一份模型 checkpoint,集群并发读,需要具备最高百 GB/s 吞吐能力数据并行数据并行写写:每
8、张 GPU 读写各自的优化器状态,集群并发写,需要具备超过 50GB/s 吞吐能力CPFS CPFS 数据服务全分布式架构目录树服务数据服务目录树服务数据服务目录树服务数据服务目录树服务400 Gbps Lossy RDMA文件锁服务文件锁服务文件锁服务文件锁服务CPFS ClientCPFS ClientElastic File ClientElastic File ClientElastic File Client分布式I/O计算节点并行与所有存储服务器同时读取数据目录树结构切分到多台服务节点支撑百亿文件百亿文件下仍可提供超高元数据性能实现目录树动态的负载均衡避免目录热点单个文件的读写均匀
9、分布至多个存储节点单集群最大支持单集群最大支持 2TB/s 2TB/s 吞吐,吞吐,3000 3000 万万 IOPSIOPS客户端支持链接层高可用,链路问题秒级别切换客户端元数据缓存,查询操作无需跨越网络操作速度提升10 倍,与本地 EXT4 性能相媲美客户端提供端到端 I/O 指标,便捷调查访问热点和 I/O 瓶颈客户端分布式读缓存,有效加速重复访问的热数据读速度,带宽和缓存池随计算规模增大而提升万卡GPU集群应用应用文件客户端文件客户端CPFSCPFS存储节点存储节点Elastic File ClientElastic File Client元数据缓存GPUGPU 服务器服务器GPUGP
10、U 服务器服务器AI 应用/PAI-DLC、TensorFlow、PyTorch.存储节点存储节点多链接多链接元数据缓存.分布式数据读缓存计算服务高性能文件存储RDMA海量数据的存储成本优化海量数据的存储成本优化OSS 提供低成本海量数据存储最低 0.75分/GB/月事件驱动的高效元数据同步OSS 数据变动在 CPFS 中分钟级可见数据块粒度流动,多并发技术可实现百 Gbps 流动性能支持配合任务调度预加载或随 I/O 读取 LazyloadPAI-DLC、Porch、TensorFlowAIAI 训练训练CPFSCPFS 文件系统文件系统OSSOSS 数据湖存储数据湖存储对象接口POSIX
11、接口OSS 数据湖存储OSS OSS 冷归档和深度冷归档冷归档和深度冷归档如何找到高质量数据呢?如何找到高质量数据呢?高质量的数据是高质量的数据是模型迭代的核心模型迭代的核心生成 Bucket 维度的元数据管理库支持 9 大类元数据索引条件筛选提供 5 种聚合输出方式数十亿文件秒级完成数据索引支持 Object 粒度的搜索与聚合数据更新后 10 秒内更新至索引池数据管理数据审计数据监管元数据组合条件索引自定义聚合输出秒级返回结果元数据管理库元数据管理库存储类型、读写权限、文件名、上传类型、最后修改时间、文件大小、对象 tag、对象 Etag、对象版本对象存储对象存储 OSSOSS通过对存储类型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI 模型 时代 多模态 数据 存储 管理 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。