企业级AIOps智能运维实施建议白皮书.pdf
《企业级AIOps智能运维实施建议白皮书.pdf》由会员分享,可在线阅读,更多相关《企业级AIOps智能运维实施建议白皮书.pdf(41页珍藏版)》请在咨信网上搜索。
1、企业级 AIOps 实施建议白皮书 企业级 AIOps 实施建议白皮书 企业级 AIOps 实施建议白皮书 2 copyrightGREATOPS 高效运维社区 目录 背景介绍 4 组织单位 4 编写成员 5 发起人 5 顾问 5 编审成员 5 本版本核心编写成员 6 1、整体介绍 8 2、AIOps 目标 10 3、AIOps 能力框架 11 4、AIOps 平台能力体系 14 5、AIOps 团队角色 17 5.1 运维工程师 17 5.2 运维开发工程师 17 5.3 运维 AI 工程师 17 6、AIOps 常见应用场景 19 6.1 效率提升方向 21 6.1.1 智能变更 22 6
2、.1.2 智能问答 22 6.1.3 智能决策 23 6.1.4 容量预测 23 6.2 质量保障方向 24 6.2.1 异常检测 24 6.2.2 故障诊断 25 6.2.3 故障预测 25 6.2.4 故障自愈 26 6.3 成本管理方向 26 6.3.1 成本优化 26 企业级 AIOps 实施建议白皮书 3 copyrightGREATOPS 高效运维社区 6.3.2 资源优化 27 6.3.3 容量规划 28 6.3.4 性能优化 28 7、AIOps 实施及关键技术 29 7.1 数据采集 29 7.2 数据处理 30 7.3 数据存储 30 7.4 离线和在线计算 30 7.5
3、面向 AIOps 的算法技术 30 说明:31 附录:案例 33 案例 1:海量时间序列异常检测的技术方案 33 1、案例陈述 33 2、海量时间序列异常检测的常见问题与解决方案 33 3、总结 34 案例 2:金融场景下的根源告警分析 35 1、案例概述 35 2、根源告警分析处理流程 35 3、根源告警分析处理方法 37 4、总结 39 案例 3:单机房故障自愈压缩 40 1、案例概述 40 2、单机房故障止损流程 40 3、单机房故障自愈的常见问题和解决方案 41 4、单机房故障自愈的架构 43 5、总结 44 企业级 AIOps 实施建议白皮书 4copyrightGREATOPS 高
4、效运维社区 背景介绍 背景介绍 AIOps 即智能运维,其目标是,基于已有的运维数据(日志、监控信息、应用信息等),通 过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低 IT 成本,并提高企业的产品竞争力。Gartner 在 2016 年时便提出了 AIOps 的概念,并预测到 2020 年,AIOps 的采用率将会 达到 50%。AIOps 目前在国内外领先的互联网企业开始被逐渐应用,也是近年来国内外被普遍看 好的新技术。为了让国内众多互联网中小企业、特别是传统企业可以共享、复用国内外顶尖互联网的 AIOps 技术和能力,并能够更快捷的进行 AIOps
5、 相关产品选型,因此开展国内外第一个 AIOps 白皮书及相关标准制定工作。AIOps 标准将分成两大类,分别适用于企业内部的 AIOps 能力建设与评估、及企业购置相关 AIOps 产品的认证评估,使得 AI 真正落地应用于运维,造福于企业。此白皮书由高效运维社区牵头,为 AIOps 标准工作组成员及所属企业的相关经验汇总。企业级 AIOps 实施建议白皮书 8copyrightGREATOPS 高效运维社区 1、整体介绍 1、整体介绍 AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(
6、日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。这种落后的生产方式,在互联网业务快速扩张、人力成本高企的时代,难以维系。自动化运维因此应运而生。其基于用可被自动触发的、预定义规则的脚本,来执行常见的、重复性的运维工作,从而减少人力成本,提高运维效率。总的来说,自动化运维可以认为是一种基于行业领域知识和运维场景领域知识的专家系统。随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”的专家系统逐渐变得力不从心。自动化运维的不足,日益凸显。DevOps 的出现,部分解决
7、了上述问题。其强调从价值交付的全局视角,端到端打通软件生命周期,建立基于微服务的单件流式的流水线。但 DevOps 更强调横向融合及打通,较低阶段的 DevOps 无力改变“基于认为指定规则”的既定事实。AIOps 是 DevOps 在运维(技术运营)侧的高阶实现,两者并不冲突。此部分可具体参考研发运营一体化能力成熟度模型。AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。AIOps 在自动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自
8、动化脚本去执行大脑的决策,从而达到运维系统的整体目标。AIOps 基于自动化运维,将 AI 和运维很好的结合起来,其需要三方面的知识:1)行业领域知识:应用的行业,如互联网、金融、电信、物流、能源电力、工业制造和智慧城市等,并熟悉生产实践中的难题;2)运维场景领域知识:如指标监控、异常检测、故障发现、故障止损、成本优化、容量规划和性能优化等;3)机器学习:把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。企业级 AIOps 实施建议白皮书 9 copyrightGREATOPS 高效运维社区 AIOps 和 DevOps 两者并不冲突,企业级 DevOps 涵括包括运维在内
9、的整个软件生命周期,AIOps 是 企业级 DevOps 在运维(技术运营)侧的高阶实现。AIOps 是运维的发展必然,是自动化运维的下一个发展阶段。Gartner 相关报告预测 AIOps 的全球部署率将从 2017 年的 10%增加到 2020 年的 50%。其应用行业,除了互联网以外,还包括高性能计算、电信、金融、电力网络、物联网、医疗网络和设备、航空航天、军用设备及网络等领域。本白皮书综合国内领先的互联网公司、金融企业及 AIOps 解决方案提供方的相关经验,给出了一种企业级 AIOps 的 AIOps 理论方法和生产实践,希望能帮助贵司快速、成功实施 AIOps。本白皮书聚焦 AI
10、应用到 Ops 领域,不涉及自动化运维相关内容。企业级 AIOps 实施建议白皮书 10 copyrightGREATOPS 高效运维社区 2、AIOps 目标 2、AIOps 目标 AIOps,通俗的讲,是对规则的 AI 化,即将人工总结运维规则的过程变为自动学习的过程。具体而言,是对我们平时运维工作中长时间积累形成的自动化运维和监控等能力,将其规则配置部分,进行自学习的“去规则化”改造,最终达到终极目标:“有 AI 调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。AIOps 的目标是,利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分
11、析,直接和间接增强 IT 业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。企业级 AIOps 实施建议白皮书 11 copyrightGREATOPS 高效运维社区 3、AIOps 能力框架 3、AIOps 能力框架 AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维 AI“学件”,再由多个具有 AI 能力的单运维能力点组合成一个智能运维流程。AIOps 能力框架基于如下 AIOps 能力分级。AIOps 能力分级可具体可描述为 5 级(图-2):1)开始尝试应用 AI 能力,还无较成熟单点应用 2)具备单场景的 AI 运维能力,可以
12、初步形成供内部使用的学件 3)有由多个单场景 AI 运维模块串联起来的流程化 AI 运维能力,可以对外提供可靠的运维 AI 学件 4)主要运维场景均已实现流程化免干预AI运维能力,可以对外提供可靠的AIOps服务。5)有核心中枢 AI,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,可实现多目标下的最优或按需最优。图 3-1 AIOps 能力分级 学件,亦称 AI 运维组件,类似程序中的 API 或公共库,但 API 及公共库不含具体业务数据,只是某种算法,而 AI 运维组件(或称学件),则是在类似 API 的基础上,兼具对某个运维场景智能化解决的“记忆”能力,
13、将处理这个场景的智能规则保存在了这个组件中。这个智能规则是在一定量的数据下学习而来的,且具有“可重用”,“可演进”,“可了解”的特性,既可共享由专家利用数据训练的算法,又可保护数据和隐私。企业级 AIOps 实施建议白皮书 12 copyrightGREATOPS 高效运维社区“学件”(Learnware)一词由南京大学周志华老师原创,学件(Learnware)=模型(model)+规 约(specification),具 有 可 重 用、可 演 进、可 了 解 的 特 性。很多人可能在自己的应用中已经建立了类似的模型,他们也很愿意找到一个地方把这些模型分享出去。这样一来,一个新用户想要应用,
14、也许不用自己去建立一个,而是先到“学件”市场上找一找有没有合适的,拿来直接或修改后使用。学件基于专家基础上建立,所以比较容易得到专家级的结果,又因为共享出来的是模型,所以避免了数据泄露和隐私泄露的问题。基于上述 AIOps 能力分级,对应的 AIOps 能力框架如下。图 3-2 AIOps 能力框架 相关关键运维场景的 AIOps 演进如下。企业级 AIOps 实施建议白皮书 13 copyrightGREATOPS 高效运维社区 2 图 3-3 关键运维场景的 AIOps 演讲 2 “可重用”的特性使得能够获取大量不同的样本;“可演进”的特性使得可以适应环境的变化;“可了解”的特性使得能有效
15、地了解模型的能力。企业级 AIOps 实施建议白皮书 14 copyrightGREATOPS 高效运维社区 4、AIOps 平台能力体系 4、AIOps 平台能力体系 AIOps 工作平台能力体系主要功能是为 AIOps 的实际场景建设落地而提供功能的工具或者产品平台,其主要目的是降低 AIOps 的开发人员成本,提升开发效率,规范工作交付质量。AIOps平台功能与一般的机器学习(或者数据挖掘)平台极为类似,此类产品国外的比如Google 的 AutoML(https:/ 4-1 AIOps 平台功能模块 企业级 AIOps 实施建议白皮书 15 copyrightGREATOPS 高效运维
16、社区 图 4-2 AI 建模服务能力 如上图 4-1、图 4-2,具体的工具或者产品应具备以下功能或模块:1)交互式建模功能:该功能支持用户在平台上交互式的进行模型的开发调试,通过简单的方法配置完成模型的构建。2)算法库:用户可以在算法库中找到常见常用的算法直接使用,算法按照用途分类,以供用户方便的使用。3)样本库:样本库用于管理用户的样本数据,供用户建模时使用,支持样本的增删改查等基本操作。4)数据准备:该功能支持用户对数据进行相关的预处理操作,包括关联、合并、分支路由、过滤等。5)灵活的计算逻辑表达:在基本常用的节点功能之外,用户还需要自由的表达一些计算逻辑,该需求主要是通过让用户写代码或
17、表达式来支持。6)可扩展的底层框架支持:平台本身要能够灵活的支持和兼容多种算法框架引擎,如Spark、TensorFlow 等,以满足不同的场景以及用户的需求。7)数据分析探索:该功能是让用户能够方便快捷地了解认识自己的数据,用户只有基于对数据充分的认识与理解,才能很好的完成模型的构建。企业级 AIOps 实施建议白皮书 16 copyrightGREATOPS 高效运维社区 8)模型评估:对模型的效果进行评估的功能,用户需要依据评估的结论对模型进行调整。9)参数以及算法搜索:该功能能够自动快速的帮助用户搜索算法的参数,对比不同的算法,帮助用户选择合适的算法以及参数,辅助用户建模。10)场景模
18、型:平台针对特定场景沉淀的解决方案,这些场景都是通用常见的,用户可以借鉴参考相关的解决方案以快速的解决实际问题 11)实验报告:模型除了部署运行,相关挖掘出来的结论也要能够形成报告,以供用户导出或动态发布使用。12)模型的版本管理:模型可能有对个不同的版本,线上运行的模型实例可能分属各个不同的版本,版本管理支持模型不同版本构建发布以及模型实例版本切换升级等。13)模型部署应用:模型构建完成后需要发布应用,模型部署应用功能支持模型的实例化,以及相关计算任务的运行调度管理。14)数据质量保障:全链路的数据监控,能够完整的掌控数据的整个生命周期,具备对丢失的数据执行回传补录的能力,保障数据的可用性。
19、企业级 AIOps 实施建议白皮书 17 copyrightGREATOPS 高效运维社区 5、AIOps 团队角色 5、AIOps 团队角色 图 5-1 AIOps 团队角色及和外部的协同关系 AIOps团队内部人员根据职能可分为三类团队,分别为运维工程师团队、运维开发工程师团队和运维 AI 工程师团队,他们在 AIOps 相关工作中分别扮演不同的角色,三者缺一不可。5.1 运维工程师 5.1 运维工程师 能从业务的技术运营中,提炼出智能化的需求点。在开发实施前能够考虑好需求方案,规范数据格式。前期可以通过仿真手法探索和验证方案可行性,起草合适的算法方案。5.2 运维开发工程师 5.2 运维
20、开发工程师 负责进行平台相关功能和模块的开发,以降低用户使用门槛,提升用户使用效率,并且将运维数据工程师交付的数据通过友好的方式展现给用户。根据企业 AIOps 程度和能力的不同,运维开发工程师中的运维自动化平台开发和运维数据平台开发的权重不同。5.3 运维 AI 工程师 5.3 运维 AI 工程师 企业级 AIOps 实施建议白皮书 18 copyrightGREATOPS 高效运维社区 针对来自于运维工程师和算法方案进行理解和梳理,完成最终落地方案的输出工作;在工程落地上能够考虑好健壮性、鲁棒性、敏捷性等,合理拆分任务,保障成果落地,以提升最终业务运营质量。企业级 AIOps 实施建议白皮
21、书 19 copyrightGREATOPS 高效运维社区 6、AIOps 常见应用场景 6、AIOps 常见应用场景 AIOps 围绕质量保障、成本管理和效率提升的基本运维场景,逐步构建智能化运维场景。在质量保障方面,保障现网稳定运行细分为异常检测、故障诊断、故障预测、故障自愈等基本场景;在成本管理方面,细分为指标监控,异常检测,资源优化,容量规划,性能优化等基本场景;在效率方面,分为智能预测,智能变更、智能问答,智能决策等基本场景(注:三者之间不是完全独立的,是相互影响的,场景的划分侧重于主影响维度)。无论是效率提升,质量监控,还是成本优化,都离不开最基础的数据采集,它是整个 AIOp 的
22、基石。AIOps 提高运维生产力的一种方式就是把质量处理流程中的人力部分尽可能的都替换成机器来做。在机器的分析过程中,系统运行过程中的每一个部件都需要数据支持。无论是海量数据采集、还是数据提取方面都离不开大数据技术。从数据采集的层面来看,运维数据的采集往往是实时的,数据采集端需要具备一定分析能力,综合考虑用户流量、隐私,服务器压力等多个因素,尽可能的降低无效数据的采集,增加有价值信息的上报。从数据提取的层面来看,运维的数据是多样化的,历史数据,流数据,日志数据、网络数据、算法数据、文本和 NLP 文档数据,以及 APP 数据、浏览器数据、业务系统运营指标数据等,从这些海量的数据中提取出正真有价
23、值的指标化数据并可视化是进一步分析决策的前提条件。而成本优化和效率的提升同样离不开数据的支撑。例如,开始实施成本优化的 AIOPS前,需要尽可能多的收集目前的服务器,网络设备,应用服务,数据库等的性能信息,应用日志信息,tracing 信息,以便对成本优化的效果进行评估。例如,在搭建智能客服机器人的时候,就需要提供充足的问题库和相应的答案才能够建立好一个较优的模型。图 6-1 AIOps 常见应用场景枚举 以下为各个方向应用场景的能力描述。企业级 AIOps 实施建议白皮书 20 copyrightGREATOPS 高效运维社区 效率提升方向 质量保障方向 成本管理方向 第一阶段(尝试应用)在
24、这个阶段,尝试在变更,问答,决策,预测领域使用人工智能的能力,但是并没有形成有效的单点应用,这个阶段可以聚焦于数据采集和可视化 在这个阶段,没有成熟的单点应用,主要是手动运维、自动化运维和智能运维的尝试阶段,这个阶段可以聚焦于数据采集和可视化 在这个阶段,运维的成本管理方向还在尝试引入人工智能,但是并没有成熟的单点应用,这个阶段可以聚焦于数据采集和可视化 第二阶段(单点应用)在这个阶段,在一些小的场景下,人工智能已经可以逐步发挥自己的能力,包括智能变更,智能问答,智能决策,智能预测 在这个阶段,在一些单点应用的场景下,人工智能已经开始逐步发挥自己的能力,包括指标监控,磁盘,网络异常检测等 在这
25、个阶段,在一些小的场景下,人工智能已经开始逐步发挥自己的能力,包括成本报表方向,资源优化,容量规划,性能优化等方向 第三阶段(串联应用)在这个阶段,人工智能已经将单点应用中的一些模块串联起来,可以结合多个情况进行下一步的分析和操作 在这个阶段,人工智能已经将第二阶段(单点应用)中的一些模块串联在一起,可以综合多个情况进行下一步的分析和操作,包括多维下钻分析寻找故障根因等方向 在这个阶段,人工智能已经将单点应用中的一些模块串联在一起,可以根据成本、资源、容量、性能的实际状况进行下一步的分析和操作 第四阶段(能力完备)在这个阶段,人工智能能力完备,已经可以基于实际场景实现性能优化,然后进行预测,变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业级 AIOps 智能 实施 建议 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。