基于系统融合的统一监控平台设计.docx
《基于系统融合的统一监控平台设计.docx》由会员分享,可在线阅读,更多相关《基于系统融合的统一监控平台设计.docx(15页珍藏版)》请在咨信网上搜索。
1、 基于系统融合的统一监控平台设计 【导读】目前做监控厂商的产品基本上都是大杂烩,各种概念和名词很多,强调集成或加 agent 等加层的方式去实现,和软件工程、系统化的思想其实是相矛盾的。为了厘清统一监控平台方案的设计思路,简化设计实施的难度和复杂度,减少重复建设,本文将详细讨论统一监控平台的设计。最近听了业务流程重构 (BusinessProcess Reengineering) ,感觉和我一直以来的一些体会和思路不谋而合。道理都是相通的,殊途同归。fundamental rethinking( 彻底的重新思考 ) 、 radical redesign (根本的重新设计)、 dramatic
2、improvement (显著的提升)。系统融合思路就是基于彻底的思考,重新的设计,以期获得显著的提升。在容器云平台建设的时候,我们就考虑并提出过围绕容器云平台的监控方案。监控、日志等不应该是容器云平台的组件而应该独立于容器云平台并同时支撑容器云平台的独立组件或独立平台。每个系统都会涉及监控、日志等功能,所以这些功能就可以提取出来,实现复用,构建独立的统一监控中心、集中日志中心等,再基于这些统一监控、集中日志等平台构建可复用的监控、日志等服务,建设企业级技术中台(技术中台服务)。围绕容器云、 DevOps 、微服务等的云原生讨论也很多,通常都是只重一个或几个点,很少有全局的和顶层的考虑,所以监
3、控等也基本上没有全局的方案。监控能力散落于各个单体系统,从而导致了人为的部门墙。容器云、 DevOps 、微服务等技术相辅相成,非常适合从整体上来考虑,构建企业级的平台和中台,从而支撑企业敏捷变化的业务需求,支撑企业业务实践和转型。而监控是其中必不可少的部分。所以我们一直也在考虑如何和容器云平台、 DevOps 融合等来通过分布式微服务架构建设统一监控平台。目前做监控厂商的产品基本上都是大杂烩,各种概念和名词很多,强调集成或加 agent 等加层的方式去实现,和软件工程、系统化的思想其实是相矛盾的。拔冗去繁,拨云见日,监控无非就是监控数据采集和监控数据接入、监控数据处理(包括监控实时数据处理和
4、监控历史数据处理)、数据存储和查询显示。其他的功能都是基于监控的数据的进一步扩展,比如链路跟踪与拓扑展示、指标管理、探针管理、故障检测、异常处理、工单流程管理、知识库等(如 图 1 统一监控方案思路 )。图 1 统一监控方案设计思路为了厘清统一监控平台方案的设计思路,简化设计实施的难度和复杂度,减少重复建设,我们今天详细讨论下统一监控平台的设计。整体思路可以考虑纵向分层、横向分段、侧向管控的方法来设计实现。把应用涉及的整个软硬件环境当作一个整体、一个系统、一个体系来看待, 从而形成一个全局立体体系。一、 纵向分层目前实际的业务应用系统,至少是 C/S 、 B/S 两层架构,而分布式架构往往层次
5、更多,从前端、中间服务层、数据库或数据存储层以及中间件组件、操作系统、基础设施资源服务器、网络设备等,任何一个节点出现异常都有可能影响到业务应用的运行。比如说服务器磁盘损坏,可能导致数据库或文件不可用,从而导致应用异常等等。既然每一层都有可能出现故障,那么每一层都需要进行监控,并且需要把各层之间的关系串接起来,形成链路。通过链路实时展示就可以知道哪一层有异常,快速的定位和处理问题。这就是监控分层的价值。监控分层分布式系统带来了运维的复杂性,特别容器化之后,灵活性更高,但层次更多,运维复杂化。如果有没良好的监控平台和工具,一旦容器达到一定量之后,就会超出人的管控能力,遇到异常问题就需要花费大量的
6、时间排查问题。监控纵向分层的思想就是把应用监控数据采集的问题简单化,也使应用调用处理过程的链路更清晰,更好的实现链路跟踪、链路拓扑展示,更好更快的定位问题,处理异常。当然这需要提前做整体规划、全局的设计。比如说日志为监控提供了很重要的支撑,日志的链路 ID 就需要全局定义。从打开前端页面到中台服务到后台资源等,这个链路能够通过全局 ID 关联起来。监控分层可根据实际的业务链路进行划分,比如说前端渠道、前端应用( Client )、中台可复用服务、中间件、后端服务、服务部署运行平台、数据平台 / 数据库、软件基础设施、硬件基础设施等。分层目的是为了简化监控数据采集,便于实现链路跟踪、问题下钻定位
7、等能力。链路跟踪、拓扑展示通过分层,才能更好的实现链路跟踪能力。其实我们需要考虑的不止是应用服务之间的调用关系,也需要考虑支撑这些应用服务的组件、工具、操作系统、基础设施资源等。这样才能形成多个相互关联的闭环。这也我们思考规划建设统一监控平台的原因。当然业务应用的链路跟踪是核心。应用部署于支撑平台,支撑平台运行在容器、虚拟机、物理服务器等中,又涉及不同的操作系统、系统配置、CPU、内存、网络、磁盘、存储等众多的资源,在出现故障的时候需要抽丝剥茧,往往需要花费大量的时间和精力来定位故障,找到root cause。比如说节点磁盘空间满了导致某个中间件服务停掉,无法启动,但异常往往是从应用曝出,从应
8、用、日志、中间件、节点、磁盘等过程定位,虽然最终可能会解决问题,但其代价却是很高昂的。因此,监控从端到端实现分层,这样可以明确每个层次所采集的指标和内容。通过统一的链路来快速定位故障,在系统融合阶段将变得越来越重要。链路跟踪需要采集各个层次对象的指标,采集的指标根据监控对象的不同和监控指标的需求分别定义,每个应用从前端到后端往往经过若干个调用层次,可能涉及不同的对象和系统、平台、工具等,往往比较难用统一的标准去套这些对象,这也是统一监控落地比较难的地方,但这也是非常关键的。如果这些指标都能抽象并映射到不同的对象,那么统一监控平台的建设将非常容易。有了标准化的指标,从前端到后端实现端到端的数据采
9、集则可以实现链路跟踪,以拓扑形式展示服务 / 系统之间调用关系。在出现异常的情况下,可以快速下钻到根故障点,从而快速定位故障并解决故障。二、 横向分段监控数据采集监控首先是监控数据的采集。要采集数据,需要知道从哪里采集,采集什么样的数据,怎么采集数据。这就是监控对象、监控指标、和监控数据采集方法。1. 监控对象监控对象就是我们监控采集数据的源端,包括众多的应用、系统、组件、平台、数据库、服务器、网络设备等等。由于这些应用和系统众多,需要监控的点(指标)也可能各不相同,这就可能导致我们在实施统一监控项目时有点无从下手。而厂商的监控产品是这些年的积累,五花八门,积累的时间越长,可能包含的东西就越多
10、、越杂乱。国内大部分软件厂商的一个重要特点是基本上都是从做项目开始的,缺乏产品的顶层规划和设计,所以一个产品可能无所不包,什么都有但什么都不够精深,所以更像是大杂烩。这么说可能得罪很多厂商,但我们还是希望国内的软件厂商能真正静下心好好思考,真正的争口气,真正的强大起来,真正的把产品做好做强。由于目前各种应用系统架构、开发语言、接口方式等很多都不相同,这无疑增加了统一监控平台的实施难度。所以很多人直接去部署一个agent来采集数据。这也导致了可能很多agent在运行,使运维工作复杂化。所以在考虑统一监控平台的时候需要梳理监控对象,分层、分类进行梳理。硬件服务器的监控和软件应用的监控差别一定是很大
11、的,所以首先要明确监控对象、监控目标才能确定监控指标和监控数据采集方式。2. 监控指标和监控指标目标每个存量应用或每套存量系统或多或少都会有相应的监控能力。首先需要梳理下这些监控对象的监控能力,确定监控采集的指标,比如请求到来时间、请求处理等待时间、 CPU 时间、响应时间计算、平均响应时间计算、最大响应时间记录、线程数、进程数、 CPU 、内存使用等等,这就是监控对象的监控采集指标的定义。每个监控层次监控指标有一些通用性的指标,但每个监控对象都有自身的一些特定指标。通用指标和特定指标的集合反映了监控对象的运行状况。对于新的应用和系统,要考虑通过标准化的监控采集方式采集标准化的监控指标,这在建
12、设统一监控平台的时候需要明确定义。这样才能更好的基于监控数据首先更多的功能,比如链路跟踪、异常定位、智能运维等。GoogleSRE 提出了在定义监控指标的同时要关注监控指标目标。所谓监控指标目标也就是服务质量目标,是指标的目标值或者目标范围。通过目标值可以确定采集到的指标值是否在合理范围内。通常确定一个合理的目标值并不容易,往往需要大量实践总结。3. 监控采集方式监控对象不一样,监控需求、监控指标和监控数据采集方式也可能会不一样的。数据采集,首要考虑是通过应用或系统本身来提供数据,通过接口对外提供监控数据,是publish分发方式,而不是pull拉取方式。通过publish方法,所有需要这些数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 系统 融合 统一 监控 平台 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。