人工智能研发运营体系(MLOps)实践指南.pdf
《人工智能研发运营体系(MLOps)实践指南.pdf》由会员分享,可在线阅读,更多相关《人工智能研发运营体系(MLOps)实践指南.pdf(69页珍藏版)》请在咨信网上搜索。
1、I 中国信息通信研究院云计算与大数据研究所 人工智能关键技术和应用评测工业和信息化部重点实验室 2023年3月 人工智能研发运营体系人工智能研发运营体系(MLOpsMLOps)实践指南)实践指南 (20232023 年)年)前前 言言 随着国家新型基础设施建设发展战略(2020)、国家“十四五规划和 2035 年远景目标纲要”等系列政策的出台,人工智能(AI)发展迎来新一轮红利,科技革命和产业升级处于进行时。近年来,AI 工程化的研究热度持续提升,其目的是帮助组织在数智化转型过程中,更高效、大规模地利用 AI 创造业务价值。人工智能研发运营体系(MLOps)作为 AI 工程化重要组成部分,其核
2、心思想是解决 AI 生产过程中团队协作难、管理乱、交付周期长等问题,最终实现高质量、高效率、可持续的 AI 生产过程。MLOps 的发展呈现出逐渐成熟的态势,近几年国内外 MLOps 落地应用正持续快速推进,特别是在 IT、银行、电信等行业取得明显效果。与此同时,MLOps 行业应用成熟度不足,使得组织在制度规范的建立、流程的打通、工具链的建设等诸多环节面临困难。因此本指南旨在成为组织落地 MLOps 并赋能业务的“口袋书”,围绕机器学习全生命周期,为模型的持续构建、持续交付、持续运营等过程提供参考,推进组织的 MLOps 落地进程,提高组织 AI 生产质效。本指南由中国信通院云计算与大数据研
3、究所、人工智能关键技术和应用评测工业和信息化部重点实验室联合发布。本指南站在组织如何布局和落地 MLOps 的视角,以模型的高质量、可持续交付作为核心逻辑,系统性梳理 MLOps 概念内涵、发展过程、落地挑战等现状,并基于 MLOps 的理论研究和实践案例分析组织如何构建 MLOps 框架体系和关键能力,最后总结和展望其发展趋势。由于 AI 产业的快速变革,MLOps 落地应用持续深入,工具市场不断迭代,我们对 MLOps 的认识还有待继续深化,本指南可能仍存在不足之处,欢迎大家批评指正。目目 录录 一、MLOps 概述.1(一)AI 生产过程管理问题凸显.1(二)MLOps 概念与意义.2(
4、三)MLOps 实施原则.3 二、MLOps 发展现状与挑战.6(一)MLOps 发展过程.6(二)MLOps 落地挑战.11 三、MLOps 框架体系.13(一)机器学习项目生命周期.13(二)MLOps 流程架构.14(三)MLOps 相关角色.19 四、MLOps 关键能力与技术实践.22(一)数据处理.22(二)模型训练.25(三)构建集成.27(四)模型服务.30(五)运营监控.35(六)模型重训.38(七)实验管理.40(八)流水线管理.43(九)特征管理.45(十)模型管理.47(十一)仓库管理.50(十二)模型安全.53 五、MLOps 总结与展望.57(一)总结.57(二)展
5、望.58 图图 目目 录录 图 1 MLOps 示意图.2 图 2 MLOps 实施原则.4 图 3 机器学习技术债示意图.6 图 4 Gartner 数据科学和机器学习技术成熟曲线.8 图 5 MLOps 工具分类一览.9 图 6 机器学习项目生命周期示意图.13 图 7 基于 MLOps 框架的机器学习项目生命周期示意图.14 图 8 MLOps 流程架构示意图.14 图 9 MLOps 相关角色分工示意图.19 图 10 MLOps 关键能力示意图.22 图 11 广东移动的数据处理能力示意图.23 图 12 格物钛的数据处理能力示意图.24 图 13 云测数据的数据处理能力架构图.25
6、 图 14 百度的模型训练架构图.27 图 15 马上消费的构建集成流程图.29 图 16 腾讯的 MLOps 平台示意图.30 图 17 浦发银行模型服务示意图.32 图 18 建行模型服务架构图.33 图 19 中移在线中心 Polaris MLOps 平台模型部署流程.34 图 20 星环科技 MLOps 流程图.35 图 21 联通软件研究院模型成效闭环运营分析示意图.37 图 22 蚂蚁的持续训练能力示意图.39 图 23 蚂蚁的持续训练流程图.40 图 24 百度的实验管理流程图.41 图 25 华为终端云的实验管理界面.42 图 26 农行的流水线管理示意图.44 图 27 华为
7、终端云的流水线编排可视化能力示意图.44 图 28 华为终端云的特征实验流程图.46 图 29 浦发银行的特征工程流程图.47 图 30 河南移动的模型管理示意图.48 图 31 百度的模型管理流程图.49 图 32 九章云极 DataCanvas 模型管理功能示意图.50 图 33 中信证券的机器学习生命周期示意图.52 图 34 绿盟的模型安全防御策略示意图.54 图 35 蚂蚁的 AntSecMLOps 架构图.55 图 36 蚂蚁的蚁鉴-AI 安全检测平台.56 表表 目目 录录 表 1 MLOps 相关角色职责要求.20 附表 1 MLOps 工具链清单.63人工智能研发运营体系(M
8、LOps)实践指南(2023 年)1 一、MLOps 概述 MLOps 是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高 AI 模型生产质效,推动 AI 从满足基本需求的“能用”变为满足高效率、高性能的“好用”。本章首先阐述组织在 AI 大规模生产过程中凸显的管理问题,然后梳理 MLOps 概念和意义,并分析落地MLOps 所遵循的原则。(一)(一)AI 生产过程管理问题凸显生产过程管理问题凸显 Gartner 调查发现,只有 53%的项目能够从 AI 原型转化为生产1。AI 生产转化率低的主要原因在于模型
9、全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。第一,跨团队协作难度大。机器学习项目生命周期中涉及业务、数据、算法、研发、运维等多团队,团队间缺乏相同的技术和业务背景知识作为协作基础,从而带来沟通屏障。同时每个团队的协作工具不尽相同,从数据和算法转化为推理服务的整个过程漫长而复杂,从而增大协作难度。第二,过程和资产管理欠缺。模型生产过程无标准化管理,导致AI 资产的价值无法有效发挥。原因在于以下几方面:一是生产过程冗长难管理,AI 模型生产过程涉及的环境、流程复杂,各部门习惯于小作坊的生产模式,重复造轮子现象普遍;二是 AI 资产无集中共享机制,组织内
10、数据、特征、模型等碎片化 AI 资产无法共享使用,优秀实践经验难以沉淀。1 Gartner,Top Strategic Technology Trends for 2021.人工智能研发运营体系(MLOps)实践指南(2023 年)2 第三,生产和交付周期长。机器学习模型生产和交付是一个漫长、复杂又易出错的过程,且耗费的时间成本较高。据 Algorithmia 报告显示,38的企业花费超过 50的时间在模型部署上2。这一现象的主要原因有三:一是模型文件的生产需要经过不断重复的实验和评估;二是模型服务需要通过编写服务代码和配置参数,并达到业务需求后,方可部署上线;三是业务效果的保证需通过在线模型
11、开展服务验证和结果对比。(二)(二)MLOps 概念与意义概念与意义 MLOps 通过连接模型构建团队、业务团队及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织规模化、高质量、高效率、可持续地生产机器学习模型。MLOps 能有效缓解 AI 生产过程的各种管理问题,提升 AI 生产的转化效率。来源:中国信息通信研究院 图 1 MLOps 示意图 MLOps 理念源于面向软件工程的管理方法论 DevOps,起初希望可以参考传统软件生产过程的管理方法,以应对提质增效的挑战。然而 DevOps 并不完全适用,因为机器学习项目是以数据、算法、代码、2 Gartne
12、r,Gartner Top 10 Data and Analytics Trends for 2021.人工智能研发运营体系(MLOps)实践指南(2023 年)3 模型为核心的动态模式,整个过程充满探索性、实验性和不确定性。若要迎合动态模式的需求,需要一种融合了机器学习特性的 DevOps方法或体系,MLOps 应运而生。MLOps 意义和价值主要体现在以下几方面。第一,建立团队协作机制。通过在组织级明确各流程中各角色(例如业务人员、数据工程师、数据科学家、运维工程师等)和职责,并以流水线的方式连接各团队成员的工作,使团队协作机制得以建立,打破沟通屏障,让不同角色各司其职(例如,使数据科学家
13、不用再沦陷于处理繁琐的模型更新和维护等工作),降低团队间整体合作成本。第二,实现敏捷交付过程。通过自动化流水线等方式实现敏捷交付,从而提高模型交付效率,加快模型迭代速度,提高模型效果,提供更丰富、更优质的产品体验。第三,构建全链路反馈闭环。通过贯通需求、开发、交付、部署、运营多环节的全链路,嵌入合规、监管、道德、安全等要求,形成完整的全链路流水线。同时,持续改进和简化原有运营和治理流程,高效率、低风险地实现持续集成、部署、训练和监控,形成有效的反馈闭环。第四,统一管理 AI 资产。机器学习项目中数据、算法、特征和模型等资产是一个有机整体,通过对 AI 资产的高效统一管理,并加以风险防控和安全管
14、理等手段,实现有效治理。(三)(三)MLOps 实施原则实施原则 作为 AI 基础设施之一,MLOps 促进各团队高效协作,提升业务价值产出。一般来说,实施 MLOps 需要遵循的原则包括自动化、持续性、版本化、可监控、可测试、可追溯、可复现、可协作等。人工智能研发运营体系(MLOps)实践指南(2023 年)4 来源:中国信息通信研究院 图 2 MLOps 实施原则 自动化包括模型自动化构建、自动化集成、自动化测试、自动化部署等,减少人工操作,提高操作准确性,是 MLOps 的核心。持续性包括持续集成(CI)、持续部署(CD)、持续训练(CT)、持续监控(CM),是 MLOps 实现全流程闭
15、环的基础。版本化包括数据、模型和代码等 AI 资产的版本控制能力,是达到可复现、可追溯的基础,是保证资产可在组织各层面共享使用的基本能力之一。可监控包括模型、模型服务及模型生产过程等维度的健康状态监控能力,以发现数据漂移和概念漂移,识别问题和改进方向,是维护高质量模型服务的基础。可测试从模型评估、集成测试、系统测试、业务测试、生产验证等过程维度,保障模型的功能、性能和可信能力(安全性、保密性、可解释性、公平性等)满足需求,是保证模型交付质量的重要手段。可追溯通过“效果模型实验数据”全流程追溯过程的实现,提供模型实验及数据的血缘回溯能力,是根因分析的基础,是事后审计的手段,也是过程可信的体现。人
16、工智能研发运营体系(MLOps)实践指南(2023 年)5 可复现通过端到端记录模型构建过程相关数据、算法、参数等元数据信息,支持重现实验过程并获得高度相似的结果,是数据科学家开展模型工程的重要支撑。可协作确保不同团队角色在数据、代码和模型上进行协作,是全流程可持续闭环实施的协作基础,是提高团队整体效率的保障。人工智能研发运营体系(MLOps)实践指南(2023 年)6 二、MLOps 发展现状与挑战 MLOps 在国内外得到了广泛应用,并在多个行业取得了实质性效果。本章首先阶段性梳理 MLOps 发展历程,然后从落地应用和工具市场等角度分析当前发展现状,最后总结了 MLOps 落地面临的挑战
17、。(一)(一)MLOps 发展过程发展过程 1.发展历程 2015 年至今,从业界意识到机器学习项目技术债给 AI 生产上线带来的潜在巨大影响伊始,MLOps 前后经历了斟酌发酵、概念明确、落地应用三大阶段。斟酌发酵阶段(2015 年至 2017 年前后)。2015 年 Google 在Conference and Workshop on Neural Information Processing Systems(NIPS)上发布的论文Hidden Technical Debt in Machine Learning Systems 首次提出机器学习项目技术债问题,一方面,机器学习项目具有传统
18、软件工程的代码运维问题,这部分问题占比较小;另一方面,机器学习项目本身存在数据依赖关系不稳定、配置易出错、实验不可重现等问题,为模型的持续运维和迭代带来大量隐患。这篇论文标志着机器学习高效落地问题被明确提出和正视,也催生了产业界形成系统化的方法论和规范化的管理流程,解决技术债问题的强烈需求。来源:Hidden Technical Debt in Machine Learning Systems 图 3 机器学习技术债示意图 人工智能研发运营体系(MLOps)实践指南(2023 年)7 概念明确阶段(2018 年至 2019 年前后)。2018 年业内人士逐渐开始密集讨论大规模生产中机器学习生命
19、周期集成化管理的重要性,MLOps 这一概念被提出并逐步接受。2019 年 Continuous Delivery for Machine Learning3提出的 CD4ML 理念,阐述了机器学习项目如何开展持续交付(CD),并提出端到端的交付流程。CD4ML 将传统软件工程中的持续交付方法论扩展到机器学习中,使跨团队成员可基于数据、代码和模型,实现机器学习项目小步快跑、安全持续的增量式迭代。落地应用阶段(2020 年至今)。2020 年以来,产业焦点集中于 AI大规模快速落地,布局 MLOps 平台或工具的需求日益迫切,推动组织数智化转型成为产业界追逐的目标。2021年,Gartner将包
20、括MLOps在内的 XOps 列为 2021 年十大数据和分析技术趋势之一4。此外,从2019 年到 2022 年,Gartner 连续 4 年将 MLOps 纳入数据科学与机器学习技术成熟度曲线5。2021 年,中国信息通信研究院牵头开展MLOps 系列标准编制,以引导产业有序发展,形成行业自律规范。来源:Gartner 3 Continuous Delivery for Machine Learning,https:/ Gartner,Gartner Top 10 Data andAnalytics Trends,2021.5 Gartner,Hype Cycle for Data Sci
21、ence and Machine Learning(2019,2020,2021,2022).人工智能研发运营体系(MLOps)实践指南(2023 年)8 图 4 Gartner 数据科学和机器学习技术成熟曲线 2.发展现状 MLOps 产品提供方和应用方不同程度地受益于 MLOps 体系的蓬勃发展。随着工具市场和行业应用的发展不断推进,新工具不断涌现,在 IT、金融、电信等行业得到了广泛应用和落地。根据情报和市场研究平台 MarketsandMarkets 2022 年研究报告显示,MLOps 市场规模将从 2022 年的 11 亿美元增长到 2027 年的 59 亿美元6。(1)资本市场持
22、续火爆,MLOps 工具不断创新 近年来,MLOps 相关工具链已成为 AI 投融资领域的明星赛道,涌现了诸多以 MLOps 工具为主打产品的初创公司。例如,聚焦于深度学习可视化工具的 Weights&Biases 获得 2 亿美元融资,且平台估值达 10 亿美元;聚焦于提供机器学习平台的 Tecton 获得 1.6 亿美元融资;聚焦于机器学习模型多硬件适配部署的 OctoML 获得 1.33 亿美元融资,且平台估值达 8.5 亿美元。在资本市场的驱动下,MLOps 工具持续创新。据不完全统计,目前全球约有 300 多款工具,大致可分为两类:一类是 MLOps 端到端工具平台,为机器学习项目全
23、生命周期提供支持。端到端工具平台包括国外的 Amazon SageMaker、Microsoft Azure、Google Cloud Platform、DataRobot、Algorithmia、Kubeflow、MLflow 等,国内的百度智能云企业 AI 开发平台、阿里云机器学习平台 PAI、华为终端云 MLOps 平台、腾讯太极机器学习平台、九章云极 DataCanvas APS 机器学习平台等;另一类是 MLOps 专项工具,对特定步骤提供更为集中的支持,主要包括数据处理、模型构建、运营监控三大类。专项工具包括国外 6https:/ 年)9 Cloudera 提供的数据共享工具,DV
24、C 和 DAGsHub 提供的数据和模型版本管理工具,Neptune.ai 提供的元数据管理工具等,国内的星环科技提供的运营监控工具,第四范式提供的特征实时处理工具,云测数据提供的标注工具等。来源:中国信息通信研究院 图 5 MLOps 工具分类一览(2)MLOps 行业应用稳步推进,落地实践成果颇丰 第一,国外 MLOps 落地广泛、效果显著。其主要应用于组织内部的服务运营、产品或服务开发、营销、风险预测及供应链管理等场景,应用行业涉及 IT、金融、电子商务、制造、化工和医疗行业等。IT 行业:应用 MLOps 后,美国某 IT 公司将开发和部署新 AI 服务的时间缩短到原来的 1/12 到
25、 1/6,运营成本降低 50%;德国某 IT公司,通过自动化编排和实验跟踪,以相同的工作量运行 10 倍的实验数量;以色列某 IT 公司实验复现时间减少 50%;某美国出行科技公司三年内机器学习产品数量从零扩展到数百个。金融行业:应用 MLOps 后,新加坡某保险公司推理结果的生成时间从几天缩短至不到 1 小时;欧洲某大型保险公司节省了大量维护人工智能研发运营体系(MLOps)实践指南(2023 年)10 和调查时间,可实时跟踪和比较模型性能,并自动检测以前需要数月才能检测到的漂移;美国某支付公司可实时部署和运行其反欺诈预测模型,并实时分析新数据以适应新威胁。电子商务:应用 MLOps 后,荷
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 研发 运营 体系 MLOps 实践 指南
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。