AI模型时代的多模态数据存储、管理和应用.pdf

上传人：Stan****Shan

文档编号：1297449

上传时间：2024-04-22

格式：PDF

页数：31

大小：19.45MB

《AI模型时代的多模态数据存储、管理和应用.pdf》由会员分享，可在线阅读，更多相关《AI模型时代的多模态数据存储、管理和应用.pdf（31页珍藏版）》请在咨信网上搜索。

1、AI 模型时代的多模态数据存储、管理和应用Alex Chen阿里云智能集团-研究员2026 中国 AI支出占亚太的 58%智能客户服务，业务创新和自动化，销售流程，IT 优化，欺诈分析2026 年亚太地区 AI 支出5 年复合增长 24.5%*Source:IDC Worldwide Artificial Intelligence Spending Guide,2023495 TFLOPS2x200G RDMA 32 Core144 TB Mem 1EFLOPSGPUDPUAI 服务器万卡集群XX分布式训练容错多租户隔离和调度规模复杂度软件复杂度架构复杂度原始数据集训练数据集数据预处理模型训练

2、模型验证反复训练优化不断训练优化数据收集场景化精调模型验证模型部署推理内容安全模型部署服务推理结果输出输入内存墙：模型参数量增长 10 倍算力：模型计算量增长 68 倍多模态：从单一的文本（2 KB）变成文本、图片（200 KB）、音视频（MB）混合单个样本的数据量（Token）大幅增加模型、参数量模型参数计算量GPT-3（175B）350GB314 ZFLOPSGPT-4（1800B）3.6TB21500 ZFLOPSGPT-3GPT-3.5GPT-4-8kGPT-4-32k单个样本的Token 量20494096819232768GPT-3 模型训练内存需求=参数+梯度+优化器+其他 2

3、.8TB 80GB(A100 显存大小)GPU 显存几乎没有变化,GPU 单卡的算力只增长了 3 倍CPU 卡显存大小计算量A100/A80080GB156 TFLOPSH100/H80080GB459 TFLOPS训练框架利用数据并行、模型并行、流水线并行等技术将数据、模型切片到 GPU 卡上分布式计算每个 iteration 结束时利用高速网络在所有 GPU 上 all reduce 同步模型参数GPU 卡规模越大，对高速网络、可靠存储要求更高算法工程师要经常检查模型质量，如果学习率不够就要利用 checkpoint 回溯、参数调优后再继续训练Initialize trainingList

4、 files in dataset and shuffle/随机打散数据Prepare MP&PP/规划模型并发，流水线并发Repeat(for each batch):/迭代多轮 iterationRead file for the batch/读取一批数据用于训练TrainingAll reduce/所有 GPU 同步模型参数Checkpoint if necessary/周期性 checkpointCPU1b 模型切片，加载到 GPUGPT-3（175B）GPT-4（1800B）模型分片FwdBack数据分片4）all-reduce，更新模型参数3）SGDCPUCPUCPUall-red

5、uce模型并行数据并行5）周期性生成checkpoint1）数据shuffle、切片2）读取数据集分片iterations文件类型文件类型样本数据集：海量小文件，比如 Laion-5B 数据量 250TB，涉及文件数约 100 亿IO Pattern每个 GPU 32 路并发读集群并发读 6百万 QPSIO Pattern大块写模型文件，16 个 GPU 节点 30 秒写完模型文件，单节点写吞吐 1GB/s每张 GPU 卡单路大块写优化器状态文件，2048 卡并发写总带宽 48GB/s文件类型文件类型（以以 200B 参数参数、2064 卡为例卡为例）模型文件：16x8 GPU 节点，128

6、个 3GB 文件,约 384GB优化器状态文件：2048 GPU 的 zero 优化器状态，2048 个 1.2GB 文件，约2.4TBIO Pattern每张 GPU 卡单路大块读模型文件、优化器状态文件，并发读总带宽 60GB/sCPUsdatapartdatapartdatapartdatapartdatasetCPUsoptimstatemodeloptimstateoptimstatecheckpointCPUsoptimstatemodeloptimstateoptimstatecheckpoint视频文件小文件（特征帧）读取文件写小文件小文件读取小文件小文件删除小文件某客户的视频

7、推理存储性能需求视频第1帧第2帧第 T 帧图像分类模型帧特征 x1图像分类模型帧特征 x2图像分类模型帧特征 xT平均汇合视频特征 z全连接层类别预测分布式元数据分布式元数据：小文件规模最大 100 亿，具备百万 QPS 元数据处理能力，比如 lookup,getattr,open 等高性能存储介质和高性能存储介质和高性能高性能网络网络：NVMe SSD 和 2*100G RDMA，checkpoint 大块顺序读写，低延时和高吞吐P2P P2P 分布式读缓存分布式读缓存：每张 GPU 读取同一份模型 checkpoint，集群并发读，需要具备最高百 GB/s 吞吐能力数据并行数据并行写写：每

8、张 GPU 读写各自的优化器状态，集群并发写，需要具备超过 50GB/s 吞吐能力CPFS CPFS 数据服务全分布式架构目录树服务数据服务目录树服务数据服务目录树服务数据服务目录树服务400 Gbps Lossy RDMA文件锁服务文件锁服务文件锁服务文件锁服务CPFS ClientCPFS ClientElastic File ClientElastic File ClientElastic File Client分布式I/O计算节点并行与所有存储服务器同时读取数据目录树结构切分到多台服务节点支撑百亿文件百亿文件下仍可提供超高元数据性能实现目录树动态的负载均衡避免目录热点单个文件的读写均匀

9、分布至多个存储节点单集群最大支持单集群最大支持 2TB/s 2TB/s 吞吐，吞吐，3000 3000 万万 IOPSIOPS客户端支持链接层高可用，链路问题秒级别切换客户端元数据缓存，查询操作无需跨越网络操作速度提升10 倍，与本地 EXT4 性能相媲美客户端提供端到端 I/O 指标，便捷调查访问热点和 I/O 瓶颈客户端分布式读缓存，有效加速重复访问的热数据读速度，带宽和缓存池随计算规模增大而提升万卡GPU集群应用应用文件客户端文件客户端CPFSCPFS存储节点存储节点Elastic File ClientElastic File Client元数据缓存GPUGPU 服务器服务器GPUGP

10、U 服务器服务器AI 应用/PAI-DLC、TensorFlow、PyTorch.存储节点存储节点多链接多链接元数据缓存.分布式数据读缓存计算服务高性能文件存储RDMA海量数据的存储成本优化海量数据的存储成本优化OSS 提供低成本海量数据存储最低 0.75分/GB/月事件驱动的高效元数据同步OSS 数据变动在 CPFS 中分钟级可见数据块粒度流动，多并发技术可实现百 Gbps 流动性能支持配合任务调度预加载或随 I/O 读取 LazyloadPAI-DLC、Porch、TensorFlowAIAI 训练训练CPFSCPFS 文件系统文件系统OSSOSS 数据湖存储数据湖存储对象接口POSIX

11、接口OSS 数据湖存储OSS OSS 冷归档和深度冷归档冷归档和深度冷归档如何找到高质量数据呢？如何找到高质量数据呢？高质量的数据是高质量的数据是模型迭代的核心模型迭代的核心生成 Bucket 维度的元数据管理库支持 9 大类元数据索引条件筛选提供 5 种聚合输出方式数十亿文件秒级完成数据索引支持 Object 粒度的搜索与聚合数据更新后 10 秒内更新至索引池数据管理数据审计数据监管元数据组合条件索引自定义聚合输出秒级返回结果元数据管理库元数据管理库存储类型、读写权限、文件名、上传类型、最后修改时间、文件大小、对象 tag、对象 Etag、对象版本对象存储对象存储 OSSOSS通过对存储类型

12、、Object 标签及最后修改时间等条件设定，快速完成 Bucket 的文件扫描实现秒级文件名模糊搜索、数据聚合、按 Object 标签进行文件筛选等能力提高数据扫描与管理效率-业务案例：“汽车”“街道”“都市”标签-但没有“自驾游”这种对内容具有概括能力的语义标签-业务案例：“服装”“综艺”“美女”标签 -但没有“明星走秀”这周对视频具有内容语义描述能力的标签原子标签对视频描述能力不足堆叠标签数量无法满足业务需求需要使用“原子标签+语义标签”的方式提高视频理解深度苹果小孩苹果小孩小孩吃苹果以文搜图/视频，图搜图/视频以及“文字+图片”组合搜索精确过滤等多种模态搜索模式非结构化数据标量索引向量

13、索引全文索引图片文本Embedding多模态图像描述模型信息提取文本提取时空信息提取分层共享存储（Auto-tiered Storage）宽表引擎索引引擎存储引擎（Data Storage&Index）通道引擎（CDC）数据订阅数据投递多模型接口（Multi-Model&APIs）统一查询接口（SQL）向量引擎(Proxima)AI EmbeddingAI Embedding+向量 API+向量 UDF以文搜图、视频、以文搜图、视频、文本、语音文本、语音文本分割、问题分析（聊天历史）、答案推理文本分割、问题分析（聊天历史）、答案推理智能媒体管理智能媒体管理分布式水平扩展全托管支持自定义 Sc

14、hema 信息向量+条件过滤组合查询大规模向量索引流式构建向量状态变更即时生效快速实现增删改查功能大规模数据低延迟查询自研高效查询算法ProxiamProxiam SE SEProxiamProxiam DE DEProxiamProxiam CE CEDashVectorDashVector实现了对大数据的高性能相似性搜索云原生分布式大规模向量的高性能、高可靠、高可用相似性搜索支持百万量级 TopK 向量召回支持多类目召回基于 Proxima 内核面对非结构化数据提供高效的向量管理和相似向量查询功能与存储原生集成无需移动，自动处理文本、图片、视频支持多模态内容审核场景化构建元数据管理快速实现

15、应用FPGA 硬件实现多种格式编码，热点计算和压缩对象存储 OSS文件存储 NAS多媒体处理引擎文档预览与编辑文档转换AI 内容审核图片 AI语音识别数据管理与索引索引聚类故事生成数据处理工作流网盘云相册AI 应用社交图库家庭监控文件解压缩让不可能变为可能让不可能变为可能应用层的创新应用层的创新生产效率的提升生产效率的提升体验是竞争力：1 秒的延迟导致 7%的用户流失业务迭代快：55%应用每周或每天发布更新基础设施与架构革新：混合云、云原生容器化微服务 DevOps运维数据多样化：数据容量、种类、可变性增加DevOps 为了调查问题，需花费数小时查找、对比、分析SecOps 为了调查 Case

16、，需在百 TB 数据中抽丝剥茧数据联合：融合分析、全链路可观测更易使用：无需维护多套系统、易扩展、免运维降低噪声：有效通知、便于正确响应减少故障时间：自动检测异常、快速根因诊断交互式根因分析NL2SQL 智能问答时序/链路异常检测日志自动标注Trace 基础模型时序基础模型日志基础模型logmetrictrace通义模型知识智能运维模型智能运维模型指标异常检测、日志文本智能分词Trace 链路高延时诊断智能问答智能问答分析运维场景多模态数据基于通义千问 NL2Query 技术人工辅助微调人工辅助微调人工标注、结果打标修正模型根据人工反馈自动微调基础模型开箱即用快速扩容和服务迁移通用模型灵活扩展

17、通用模型灵活扩展游戏服务系统调用、依赖关系复杂，任何阶段出问题都可能导致游戏操作失败或卡顿，影响玩家用户体验根据服务中的 Trace 数据自动生成拓扑图围绕高延时分析、高错误率分析、系统热点和瓶颈进行分析和诊断缩短问题处理时间，优化系统延时在海量 Trace 中快速定位异常根因和性能瓶颈无需人工干预，提高大规模分布式系统异常定位效率数千请求秒级定位根因，在生产中准确率达 95%探测导致 Trace 高延时或错误的服务关联 Log/Trace/Metric，自动检测根因预测微服务系统的性能瓶颈将 Trace 聚合，找到 Trace 的 Pattern快速找到相同错误类型的报错15:23 共有 1

18、个入口服务产生 2880 条慢 Trace 其中入口服务 Front-end 的 POST/jordrg 发现次数最多共出现共出现 28802880 次占次占100.0%100.0%在根因分析结果中，主机 pay-ment-5b7dBd684b-zjtzv 出现比例最高，其中共出现共出现 28922892 次占次占 34.0%34.0%在根因分析结果中，服务 payment 出现比例最高，其中共出现共出现 28922892 次占次占 99.0%99.0%在根因分析结果中，方法 POST/payment-tAuth 出现比例最高，其中共出现共出现 28922892 次占次占 99.0%99.0

19、%SLS Mall 共有 12 个服务，45 个入口接口，在选择的时间段中，共产生了 1641195条Trace，其中请求平均延迟 21288.11ms21288.11ms 全栈数据关联分析异常检测故障检测智能化诊断AIAI 基础设施基础设施ITIT 优化优化GPU495 TFLOPSDPU2x200G RDMA 32 CoreAI 服务器144TB Mem,1EFLOPS大规模高性能网络高性能低成本存储灵骏AIOps AIOps 业务流程业务流程收集：收集：构建 AI 基础设施的可观测数据资源池，简化数据访问组织：组织：优化数据治理，改善数据质量，提高访问效率分析：分析：“数据”+“

20、建模”，高效分析关联数据洞察：洞察：智能化诊断，实现高效的问题定位AI 应用融合分析训练效率与准确率数据效率与安全性统一的数据视图以数据为基础以数据为基础AIOps 通过收集、组织、分析和融合数据，实现对 AI 基础设施的监控管理和智能异常分析数据准备模型训练与部署应用与内容生成内容分发与协作数据准备/分析/标注模型持久化内容安全管理内容分发协作模型训练与推理Hadoop 应用HTTP 应用HDFS 协议/OSS 对象协议HDFS 元数据（目录分层空间）对象元数据（扁平命名空间）AI 训练与推理文件存储 CPFSPOSIX/MPI-IO/NFS文本违规检测图片违规检测视频违规检测图片水印版权

22、EAS 机器学习 PAI|BladeFineTune机器学习 PAI|DSW 机器学习 PAI|EPL/TorchAcc 机器学习 PAI|灵骏智算服务1000+开源模型，模型下载次数 6000+万，覆盖 NLP、CV、语音、多模态等各个领域，尤其是 AIGC、LLM 等大模型云原生的 AI 工程化平台支撑模型开发、训练、推理、部署全链路强大算力强大算力ITIT 基础设施优化基础设施优化可靠存储、高效网络、强大算力全链路 AI 工程平台支持大规模分布式训练和推理高质量数据高质量数据AIAI 的关键生产力的关键生产力用 AI 的方法找数据向量索引聚合图像/视频/多模态数据搜索应用创新应用创新提升生产效率提升生产效率以数据为基础AIOps 实现对 AI 基础设施监控管理和智能异常分析

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: AI 模型时代多模态数据存储管理应用

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。