可观测性成熟度模型白皮书.pdf
《可观测性成熟度模型白皮书.pdf》由会员分享,可在线阅读,更多相关《可观测性成熟度模型白皮书.pdf(27页珍藏版)》请在咨信网上搜索。
1、 可观测性成熟度模型 1 可观测性成熟度模型 3 可观测性成熟度模型 4 一 引言 21 世纪,以数字技术为代表的第四次工业革命正在加速改变世界,数字化浪潮对各行各业成席卷之势,网络化、信息化和智能化的深度融合引领着生产模式和组织方式的变革。数字化已经不是个企业、个行业的使命,而是全行业、全社会的共同发展趋势。如何用数据为企业赋能,如何利用数字技术实现企业业务的转型、创新和增长,已经成为当下全球企业所面临的重要课题。数字化正在重新定义企业的未来导向,这与企业的业务模式、业务体系及客户体验息息相关,也为持续提升企业竞争力提供了核心动力。而云计算已经逐渐成为企业数字化转型的最佳选择,尤其是在 20
2、20 年疫 情爆发的背景之下,企业上云这进程被按下了加速键。云计算时代下,企业的应用交付链路越来越复杂,云原生、微服务、大型分布式等新技术给企业带来竞争力的同时,也带来了全新的挑战,“云深不可见”难题突显。这些高度动态化、分布式的云原生技术与以往截然不同,这导致复杂性变得一发不可收拾。这些复杂性已经超出了现代 IT 团队的管理能力极限,并且还在不断扩大。若想解决这些复杂的挑战、并随时了解瞬息万变的环境中所发生的一切,需要全新的技术出现,“可观测性(Observability)”应运而生。可观测性是当今 IT 领域最热门的话题之一,Gartner 将其列为“2023 年度企业十大重要战略技术趋势
3、”之一,并指出可观测性可以帮助企业实现数据价值最大化、加速企业数字化转型。尤其是近年来云计算的广泛普及,“可观测性”逐渐取代“监控”成为了企业 IT 建设与运营的不可或缺的核心能力。可观测性作为一种技术或方法,具有广阔的发展空间,除了在 IT 运维领域,还可以在许多其他领域发挥作用并取得突破,为社会发展带来积极影响。一 引言 莫听监控繁杂声 何妨观测且徐行 智能诊断快胜马 一键运维定乾坤 引用龙蜥社区品文(毛文安)的诗 可观测性成熟度模型 5 二 为什么需要可观测性成熟度模型 自 2018 年,云原生计算基金会(Cloud Native Computing Foundation,CNCF)正式
4、将可观测性引入 IT 领域以来,可观测性市场迅猛发展,涌现出一大批可观测性解决方案,企业也在寻求不同的方式打造可观测性能力。然而比较棘手的是,传统的监控厂商与新生的可观测性厂商,均使用了相同的术语与概念,这导致客户对于可观测性的定义变得模糊,甚至很难区分出哪些是真正的可观测性方案。可观测性能力的成长,并不是简单的工具堆砌可观测性能力的成长,并不是简单的工具堆砌 随着软件系统的复杂性不断增加,以及对数字化体验的高质量需求日益增强,可观测性工具的增多成为了必然趋势。根据 Enterprise Strategy Group(ESG)的一项调查,超过 63%的企业组织拥有超过 10 种以上的工具,但即
5、使拥有这么多工具、故障排查依然面临着困难。图 1:Enterprise Strategy Group.echTarget,(ESG)-Observability from Code to Cloud,2022 年 2 月 各不相同的点式工具或方案组合在一起,反而会放大孤岛效应,这些负面影响会蔓延到每一个环节,使得团队被迫忙于处理各种局部问题或孤岛噪音。由于缺乏联系纽带,团队只能将截然不同的数据模型强行整合在一起,这不仅费时费力,还容易出错。在测试环境或生产环境采用孤岛式的可观测,会影响到 DevOps 或 SRE 团队“测试前移”工作的速度和质量。对基础设施和平台运营者而言,在多重云或混合云平
6、台上使用多种工具会导致可观测能力存在盲区。一旦团队接收到未覆盖区域的警报和征兆,其他团队就可能会面临“翻墙而过”的问题和指责。因此可二 为什么需要可观测性 成熟度模型 可观测性成熟度模型 6 观测性能力的成长,并不能简单的依赖工具堆砌。建立成熟度模型,帮助企业明确发展目标建立成熟度模型,帮助企业明确发展目标 随着动态云、容器、微服务和无服务器架构的趋势发展,以及需要维护企业原有的遗留系统的需求,对可观测性更高级能力的需求日益增强。在这样的背景下,设计一套可观测性成熟度模型变得非常必要。基于对生产环境实际问题的丰富处理经验、与不同行业客户的深入交流、对最新技术的持续研究,以及与 Gartner
7、等领先机构的对话,我们共同创建了可观测性成熟度模型。我们希望通过制作这个可观测性成熟度模型,帮助企业确定在可观测性道路上的位置,并为前进方向提供指引。可观测性成熟度模型能够为企业提供一种系统性的方法来评估、改进和提升其可观测性体系建设。它可以帮助组织更有针对性地发展可观测能力、优化资源分配并持续改进。通过合理应用该模型,企业可以更好地应对现代软件系统复杂性带来的挑战,实现更出色的用户体验,提高系统可靠性,并在竞争激烈的市场中取得优势。可观测性成熟度模型 7 三 可观测性成熟度模型介绍 图 2:可观测性成熟度模型图 本次设计的可观测性成熟度模型,是一种用于衡量和评估企业软件系统内部可观测性的框架
8、或方法,同时也是一种用于反馈企业可观测性体系建设成熟度水平的框架或方法。该模型该模型设计了五设计了五个个级别级别,分别是:分别是:Level 1 监控(Monitoring)Level 2 基础可观测性(Basic Observability)Level 3 因果可观测性(Causal Observability)Level 4 主动可观测性(Proactive Observability)Level 5 业务可观测性(Business Observability)三 可观测性成熟度模型 介绍 可观测性成熟度模型 8 可观测性成熟度模型的每个级别,都必须建立在前一级别已经建立的基础之上,不能凭
9、空构建,每个级别新增的能力,都应该有助于实现更深度的可观测性能力。级别的提升不是渐进式的,而是明显的跨越式提升(类似量子跃迁)。尽管我们可以通过改进流程、修修补补,在一个级别之内稍微改善结果,但若想实现级别的实质性提升,需要实质性地增强多项里程碑式能力,企业为了级别的提升甚至有可能要求重构现有的可观测架构。下面下面对对可观测性可观测性成熟度模型各级别的目标与功能成熟度模型各级别的目标与功能做做简要概括:简要概括:表 1:可观测性成熟度模型表 可观测性成熟度模型 9 Level 1:监控(Monitoring)目标:确目标:确定系统定系统组件组件是否是否按预期按预期正常工作正常工作 监控(Mon
10、itoring),是指对系统、进程、活动或环境的持续观察、度量和记录,以便获取实时或定期的信息和数据。通常跟踪某个系统组件的特定参数,以确保系统组件的状态保持在可接受的范围内,一旦超出预设范围,监控器会触发告警。传统监控大多是专门的单向工具、聚焦在某一个性能领域,通常包括应用性能监控(APM)、基础设施监控(ITIM)、网络性能监控(NPM)、API 监控等。在可观测性成熟度模型中,监控是其中一个关键的层级,通常被认为是成熟度模型中的第一个阶段。在这个阶段,企业开始建立基本的监控能力,监控级的目标之一是设置实时警报,以便在系统出现问题或达到预定阈值时能够及时通知运维人员,这有助于迅速采取行动以
11、防止问题扩大。企业组织收集各种关键性能指标,将收集到的指标数据可视化也是一个重要目标。通过仪表板和图表,运维人员可以更容易地理解系统的状态和性能趋势。在 Level1 阶段,被监控的各组件之间几乎没有任何的相关性,此级别的主要目标是了解系统组件是否正常工作。尽管在监控级不会进行深入的性能分析,但会开始对基本的性能问题进行分析,以确保系统在某些情况下不会受到显著影响。总之,监控级的主要目标是建立起最基本的监控能力,以确保系统的基本稳定性和可用性。汇总:汇总:下表概述了 Level 1 阶段的关键功能:表 2:Level 1 总结 可观测性成熟度模型 10 Level1 阶段的监控,通常为企业提供
12、各个组件的健康状况,关注事先定义好的指标或数据,根据经验定义告警策略。这种监控方式往往是被动的,只有在特定事件或条件达到时才会触发警报。然而,这种被动性可能会导致忽略系统内部的复杂交互或潜在问题。它只告诉我们某些东西出错了,但没有解释问题的根本原因,也没有告诉我们问题最初发生的时间或背景。当问题出现时,监控可能只提供有关问题的表面信息,无法提供更多的上下文信息和相关数据。在 Level1 阶段,由于可分析的数据有限,想要找到根因或影响面非常困难。调查问题的根源一般需要较长的周期,一个问题的出现经常可能导致整个监控体系处于“红盘”状态,各层的监控信息彼此孤立,相互割裂,难以建立起数据之间的关联。
13、因此,需要从 Level1 升级到 Level2 来获得更深入的信息,从而提供更全面的洞察力。可观测性成熟度模型 11 Level 2:基础可观测性(Basic Observability)目标:确定系统目标:确定系统为什么不工作为什么不工作 IBM 对可观测性的定义:通常是指基于对复杂系统外部输出的了解,能够了解其内部状态或状况的程度。系统越可观测,定位问题根本原因的过程就越快速越准确,而无需进行额外的测试或编码。为保证复杂动态的系统可靠运行,我们不仅需要知道系统组件是否正常运行,还需要了解它为什么不运行。当出现问题时,我们希望遵循“5W1H”的原则了解问题详情:WWhoho 谁 WhenW
14、hen 在什么时间 WhereWhere 在什么地方 WhWhatat 发生了什么事情 WhyWhy 因为什么原因 HowHow 我该怎么办 在监控方案中,通常会预置仪表板或阈值规则,旨在提醒我们未来可能会遇到的性能问题。但是,这些仪表板或阈值规则依赖于一个关键性的假设,即我们能够在问题发生之前预测将会遇到的问题类型。然而,这种方法并不能提供足够的信息,无法回答 5W1H 的问题。在云原生环境中,这种类型的监控并不适用,因为云原生环境是动态的、复杂的、多变的。这意味着我们无法事先预知可能会出现什么样的问题。在可观测性方案中,我们可以根据更完整、更深入的可观测性数据,灵活地探索正在发生的事情,并
15、快速找出可能无法预料的问题的根本原因。可观测性能够为这些问题提供答案。可观测性三大支柱可观测性三大支柱 在 Level 2 阶段,可观测性通过关注三种关键类型的遥测数据来提供系统洞察力:“链路”、“指标”、“日志”,可观测性可以从这三类数据了解系统内部发生的情况。Traces 链路数据是常规的监控工具不能采集的数据要素,在可观测性体系中占据着重要作用。图 3:可观测性三大支柱(来源:CNCF 可观测性技术白皮书)可观测性成熟度模型 12 可观测性三大支柱的具体定义如下:指标 帮助我们了解服务性能或状态的度量值 例如,著名的四大黄金信号:延迟、流量、错误率、饱和度 日志 系统中发生的相关事件,帮
16、助我们了解系统在给定时间点的行为 例如,事务、警告、错误、带时间戳的记录 链路 详细的全链路快照显示数据如何端到端的流经应用程序,有助于排查性能问题 可以在代码级了解性能问题 Level 2 相较于 Level 1 的数据具有更大的广度和深度。然而,将这三类数据采集汇聚,汇总到一个平台是可观测性的核心。可观测性的这三大支柱来自于微服务、应用程序、数据库等 IT 组件,旨在提供对系统行为的整体视角。每个支柱都提供不同类型的信息,如上表所示。可观测性统一平台可观测性统一平台 区别于传统监控的一大特点,可观测性强调数据的统一性,旨在通过构建一个统一的平台来实现三大支柱数据的集中汇聚与数据处理,从而打
17、破单点工具的限制。统一平台的目标是将各种可观测性工具整合在一个集中的界面,从而使组织能够更高效地管理和维护其应用程序和系统。通过可观测性统一平台,团队可以更快地识别问题、优化性能,并提供更稳定、可靠的服务。这种集成方法有助于提高团队的协作效率,减少信息孤立,并为整个组织带来更好的业务结果。汇总汇总:下表概述了 Level 2 阶段的关键功能:可观测性成熟度模型 13 表 3:Level 2 总结 在 Level 2 阶段,我们仍然需要通过手工关联这些数据来推断事件的可疑原因,这种方法通常需要复杂的跨系统手动查询。在 Level 2 中,尚未开发出一套自动化方法来统一和关联来自各种工具汇聚的孤立
18、数据,因此,要准确定位问题的根本原因仍然需要大量的人力和时间。因此,我们需要理解可观测性数据之间的关系,为 IT 环境中的数据孤岛提供上下文。当出现问题时,我们可以将上下文数据与自动化相结合,以帮助快速确定问题的根因,而无需手动遍历不相关的数据孤岛。这将引导我们进入 Level 3,即“因果可观测性”。在这个阶段,我们能够更加深入地理解事件之间的因果关系,实现根因分析的自动化,从而更高效地解决问题。可观测性成熟度模型 14 Level 3:因果可观测性(Causal Observability)目标:目标:找到问题找到问题的的根本性根本性原因原因,并确定并确定它它的影响的影响面、避免再次发生面
19、、避免再次发生 在实际的 IT 运维工作中,可观测性的核心价值在于辅助问题的排查和诊断。通过分析数据,它可以帮助我们定位到问题的原因,甚至是找到问题地根本性原因(RootCause)。因此,从“因果关系”的理念出发设计一套可观测性体系,可以更深入、更全面的理解系统的运行和行为,能够理解系统中事件和变化之间的前因后果。通过分析这种因果关系,可以最终找出问题的根本性原因。我们将这套可观测性体系形象的称之为“因果可观测性(Causal Observability)”,这个体系能够提供更高级别的洞察力,帮助我们更快地发现问题,更准确地解决问题,从而提升整个系统的稳定性和可靠性。因果可观测性,强调寻找因
20、果关系因果可观测性,强调寻找因果关系 因果可观测性(Causal Observability),是指通过收集、分析和解析数据,以理解系统内部事件和变化之间的因果关系,从而更深入地洞察系统的运行和行为。这一概念强调了在数据分析中寻找因果关系,并将这些关系转化为对系统的洞察,从而支持决策、问题排查和系统优化。因此我们不难发现,Level2 强调数据,Level3 强调关系。因果可观测性与基础观测性有所不同,基础可观测性关注的是收集、分析数据以理解系统的状态和行为,而因果可观测性更加强调数据与数据、实体与实体、事件与事件或者它们相互之间的联系。在构建因果可观测性时,常常涉及数据收集、关系收集、数据处
21、理、关系处理、因果推断等步骤,以揭示事件发生的前因后果。这种理解有助于更好地预测、解释、优化和管理系统,特别是在面对复杂性、不确定性和变化性时。根据大量项目经验积累统计,系统故障的根源主要来自三个方面:新版本部署 配置变更 基础设施可用性 因此,在调查故障根因时,我们需要搞清楚问题出现的时间环境、空间环境,是什么变化导致了问题出现、以及问题如何在整个堆栈空间中传播,这些堆栈之间的关系如何随着时间的推移而变化。可观测性成熟度模型 15 综上所述,为了解决这些问题,需要引入新的能力:网络数据、拓扑数据、时间、空间地图、自动化关联等。这些能力可以帮助我们更全面地理解系统的运行,并迅速而准确地定位问题
22、的根本原因。可观测五大支柱可观测五大支柱(观测五件套)(观测五件套)为了建立因果可观测性,需要补充更多类型的数据要素:网络、拓扑 网络网络 网络空间中实体之间相互的通信性能(例如容器之间的 TCP 连接数)拓扑拓扑 系统中各实体对象相互之间的连接关系(例如根据链路相关数据绘制的服务拓扑)在可观测性领域,网络数据(Flows)具有重要的价值。网络数据是指云网络空间中实体相互通信的信息,包括数据包、连接、协议、源/目标地址等内容。网络实体包括但不限于主机、进程、容器、Pod、服务等。通过收集和分析网络流量的元数据,可以提供有关系统内部运行和通信的深入见解,从而支持问题排查、性能优化和安全分析等方面
23、的工作。目前,基于 eBPF 技术采集云原生网络通信数据已经成为一种流行,业界部分领先厂商已经实现了规模商业化落地。拓扑信息(Topology)指的是系统中各个组件、容器、服务、节点之间的关系和连接方式。拓扑的价值在于它能够提供系统的高级视图,帮助我们理解不同组件之间的依赖关系、通信路径和层次结构。通过拓扑信息,我们能够更好地把握整个系统的结构,从而更准确地分析和解决问题。至此,我们建立了链路、指标、日志、拓扑、网络 五大关键可观测性数据要素(俗称“观测五件套”),我们将会以拓扑为中心,驱动流转多维度遥测数据、并自动集成到统一数据结构中。数据质量决定模型分析的上限,高质量的原生数据与原生关系,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 观测 性成熟 模型 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。