金融业分布式信息系统运维技术研究报告.pdf
《金融业分布式信息系统运维技术研究报告.pdf》由会员分享,可在线阅读,更多相关《金融业分布式信息系统运维技术研究报告.pdf(68页珍藏版)》请在咨信网上搜索。
1、金融业分布式信息系统运维技术研究报告2023 年 7 月IV摘要摘要金融业正处于向数字化转型发展的关键时期,而信息系统作为数字化转型的基础支撑正加速向全面分布式架构转型。分布式信息系统规模庞大,技术栈复杂,对传统运维模式提出了严峻的挑战,迫切需要构建新的运维模式。本报告在充分调研业界广泛实践探索的基础上提炼总结,研究金融业分布式信息系统运维架构规划和落地建设的体系化方法,以期更好地指导分布式信息系统运维体系的建设。本报告建立了金融业分布式信息系统运维能力框架,强化以“服务业务”为核心的运维理念,基于业务视角定义生产运维的各项能力水平,给出了运维管理保障方面的优化方法,并详述了运维技术能力建设的
2、体系化方案。一是围绕监控、应急、容灾、变更、性能容量等主要运维场景,构建运维数据驱动的自动化服务和风险管控框架。二是夯实运维服务和运维数据“两个基础平台”,形成运维互联互通能力和面向场景的服务支撑能力,全面提升运维自动化水平。三是阐述了IT架构向多地多中心及单元化演进的运维配套能力建设路线。报告最后分析了运维技术的发展趋势。关键词:关键词:金融业分布式信息系统、运维架构、运维管理保障、运维技术能力、IT基础架构V目录目录一、研究背景.1(一)金融业信息系统加速向分布式架构演进.1(二)金融业分布式信息系统运维能力不足.1(三)政策引导高质量建设分布式信息系统运维保障能力.2(四)金融业分布式信
3、息系统运维技术研究目标.4二、金融业分布式信息系统运维能力框架.4(一)运维目标.4(二)运维架构规划.5(三)运维管理保障.7三、金融业分布式信息系统运维技术能力建设.10(一)监控发现.10(二)应急管理.18(三)变更管理.26(四)性能容量管理.37(五)运维技术平台.48(六)单元化架构及运维配套能力建设.55四、金融业分布式信息系统运维发展趋势展望.62参考文献.651一、研究背景(一)金融业信息系统加速向分布式架构演进(一)金融业信息系统加速向分布式架构演进金融业信息系统过去主要采用以IOE为代表的集中式架构,建立了较为规范的运维模式。随着移动互联网及大数据时代的到来,面对业务需
4、求的快速增长以及多样化的计算场景,集中式的处理模式越来越显得捉襟见肘。另一方面,分布式计算的理论和实践逐渐走向成熟,分布式系统能快速地进行系统容量的扩缩以及系统性能的扩展,同时又因其多节点架构提升了系统的可用性以及容错性,不同节点之间可根据各自功能划分进行相互协作,整体上统一对外提供服务。分布式架构在其经济性、自主性、灵活性、扩展性层面较集中式架构有较为突出的优势。金融业正处于向数字化转型发展的关键时期,信息系统作为数字化转型的基础支撑正加速向全面分布式架构演进。以工商银行为例,从2015年开始持续推进分布式架构转型,目前已构建了金融业规模最大的分布式信息系统,承载银行核心业务。(二)金融业分
5、布式信息系统运维能力不(二)金融业分布式信息系统运维能力不足足为支持各类不同的应用场景并提供不同级别的高可用性、高性能、可扩展性、一致性等,分布式信息系统通常具有极高的复杂度。在复杂的生产环境中运行时,分布式系统往往伴随着各种无法预料的突发故障,导致系统服务响应延时、数据计算出错、不一致或丢失,甚至服务崩溃等问题,从而带来无法估量的损失和灾难。另外,随着微服务化、云原生、敏捷开发的快速普及,2快速支持迭代业务需求、高效提供全流程的模块交付变更、保证资源的合理使用,也成为了业务发展的核心诉求。因此,探索如何提高分布式系统在异常情况下的稳定性,避免因为各种故障带来的风险,建设全流程的服务交付体系,
6、完善整体业务的资源管理方案,进而为用户提供高稳定、高品质服务,成为金融业分布式信息系统运维至关重要的内容。当前金融行业的运维架构与分布式技术架构协同不足。一是既有的运维平台缺乏统一规划,新技术在运维工具中的沉淀不足。二是配置管理不适应分布式架构调用关系复杂的特性。三是监控与应急手段较难支撑分布式架构下的故障快速定位及处置。四是变更灰度及性能容量管控能力不足等。为应对上述挑战,迫切需要构建新的运维模式,具备信息系统高可靠运行保障以及赋能业务创新的高度自动化运维能力。(三)政策引导高质量建设分布式信息系统运维保障能力(三)政策引导高质量建设分布式信息系统运维保障能力为加强企业IT系统风险管理,提高
7、业务连续性管理能力,保障国家安全和人民生命、财产安全,国家对各行业的软件质量及系统稳定性提出了更高的标准和更严的要求,如国务院公布的关键信息基础设施安全保护条例指出“建立健全监测预警制度、明确网络安全事件应急处置要求”,中国人民银行印发的 金融科技发展规划(20222025年)强调高质量推进金融数字化转型,原中国银行保险监督管理委员会印发的关于银行业保险业数字化转型的指导意见 提出建立能够快速响应需求的敏捷研3发运维体系,证监会科技监管局组织编写的证券期货业科技发展“十四五”规划强调遵循的第一项原则即为“稳字当头、稳中求进”等,相关政策法规列于表1。由此观之,政策要求各行业的运维团队培养良好的
8、系统稳定性保障观念,做好风险管控,提升运维效能。表 1 国内推动信息系统运维保障的相关政策时间机构政策名称相关政策2021 年 4 月国务院关键信息基础设施安全保护条例建立信息共享机制、建立健全监测预警制度、明确网络安全事件应急处置要求。2022 年 1 月中国人民银行金融科技发展规划(20222025年)强调高质量推进金融数字化转型。2022 年 1 月原中国银行保险监督管理委员会关于银行业保险业数字化转型的指导意见提出“建立能够快速响应需求的敏捷研发运维体系”。2021 年11 月原中国银行保险监督管理委员会关于银行业保险业支持高水平科技自立自强的指导意见坚持风险可控。统筹发展与安全,完善
9、风险控制机制,提升科技金融风险管理能力。2021 年10 月中国证监会科技监管局证券期货业科技发展“十四五”规划强调遵循四项原则,其中第一项为“稳字当头、稳中求进”。2011 年12 月原中国银行保险监督管理委员会商业银行业务连续性监管指引商业银行应当将业务连续性管理纳入全面风险管理体系。4(四)金融业分布式信息系统运维技术研究目标(四)金融业分布式信息系统运维技术研究目标以大型银行为代表的金融机构在推进其信息系统向分布式架构转型的过程中,在运维方面积累了大量的经验教训,进行了广泛的探索实践,取得了一定的成效,但是缺乏统一的认知和框架指导,成效参差不齐。本报告的研究目标是提炼总结业界成功实践,
10、为金融业分布式信息系统运维架构规划和落地建设提供指导,推进金融业运维架构转型,为分布式信息系统高可靠稳定运行及赋能业务创新提供运维保障。二、金融业分布式信息系统运维能力框架(一)运维目标(一)运维目标金融业信息系统运维的本质是服务金融业务,总体目标为“生产安全稳定”以及“服务重质高效”(如图1所示),即在保障业务连续性的同时支持业务快速创新,并提升运维效能。在生产安全稳定方面,持续将风险规避在架构设计、系统分析、开发、测试、变更等活动前,需要技术能力、架构成熟度、风险意识、组织建设等稳步提升。运维目标包括及时发现定位故障、快速解决故障、降低变更差错、防范容量突发风险等。在服务重质高效方面,支持
11、应用快速交付、基础环境供应效能和运维效能提升,以及运维服务互联互通。通过运维架构目标的梳理及运维业务场景的分解,进而明确运维架构规划的主题。5图 1 运维目标梳理(二)运维架构规划(二)运维架构规划运维架构规划遵循如下重点原则。一是强化以“服务业务”为核心的运维理念,基于业务视角定义生产运维的各项能力水平。二是加强运维体系的整体设计,夯实运维服务和运维数据“两个基础”,形成运维互联互通能力和面向场景的服务支撑能力,全面提升运维自动化水平,同时重点围绕主要运维场景,构建运维数据驱动的自动化服务和风险管控框架。三是明确运维规范标准和评价体系,实现研发与运维、业务与技术、运维架构与技术架构之间的协同
12、发展。重视分布式技术架构和云原生技术栈的运维能力建设,如流量调度、资源弹性、运行状态监测、故障自愈,以及分层分级灰度等。6基于上述原则,并提炼金融业分布式信息系统运维实践,形成如图2所示的运维架构规划。图 2 运维架构规划在运维业务场景层面,提炼并规划八大主题场景,基于场景进行管控流程内聚和能力组合,形成各自独立、相互支撑的运维产品。本报告规划重点为监控、应急、演练、变更、性能容量等主题。安全管控、运营分析、资源/资产不在本报告研究范围内。在运维技术平台建设层面,以“平台化、服务化”为核心理念,提供“运维服务”“运维数据”两大平台,融汇PaaS、IaaS及其他专业技术工具和数据,形成一站式运维
13、基础支撑。实践中,也可以合并成一个平台提供服务和数据两类功能。7(三)运维管理保障1.优化运维组织管理(1)基本组织结构(三)运维管理保障1.优化运维组织管理(1)基本组织结构金融业分布式信息系统的运维组织架构是在传统信息系统运维组织结构的基础上演变形成,按照基础设施、技术支撑、业务单元三层人员体系分别对系统设备网络、通用技术支撑平台、各领域业务系统开展运维工作,建立如图3所示的具备“横、纵、专”特性的矩阵制运维组织结构,并适配一体化向研发、质量等科技体系上下游延伸。图 3 运维组织建设横向上,在层次内部,集成应用实体、平台实体的单元化运维团队,一个领域由一个团队负责。纵向上,以业务场景为边界
14、,围绕监控、应急等运维核心工8作开展链路化运维管理,强化信息系统对业务发展的价值贡献。专项上,针对信息系统运维的关键领域建设技术团队,实现新技术的迭代和系统的持续发展。(2)业务运维单元组织管理(2)业务运维单元组织管理随着业务运营监测感知需求的提高,分布式系统架构下,以单体应用为运维管理粒度的运维模式无法满足高效排查处置问题和风险管控的生产运维要求,需按照业务运维单元优化组织管理,强化端到端的面向业务视角的运维价值输出。业务运维单元是结合金融主体业务领域划分及生产运维实际,围绕端到端的一组业务场景定义的用于承接版本研发、应用部署、运维分工、风险管控、应急处置等运维工作的单元。分布式系统在运维
15、架构、制度规范、平台支撑、组织体系等方面,需基于业务运维单元构建运维能力。在金融业分布式业务单元组织构成下,通常会根据最小业务单元的维度配置相应的技术角色,每个角色通常至少配备2人进行主备。(3)运维专业领域组织管理(3)运维专业领域组织管理SRE(Site Reliability Engineer,站点可靠性工程师)是金融业务中非常特殊且有代表性的角色,根据运维对象的区别分为业务SRE、平台SRE、基础SRE,分别承担业务单元、技术支撑平台、基础设施领域的运维工作。SRE角色不仅仅负责信息系统线上的基本运维工作,同时负责利用运维专业领域的技术与平台,9从性能容量、变更管控、应急定位、监控发现
16、、资金核对、演练管理等专业领域,系统化、体系化保障信息系统在线上的系统稳定性及业务可用性,通过技术化、平台化手段不断提升信息系统线上运行时的保障水平,同时通过演练等方式,确保运维工具与流程等持续有效。面向SRE使用的运维专业领域技术与平台,需要配备专业的关键角色(通常有运维架构、运维研发、运维数据、运维算法四类角色),分别负责技术与平台的架构工作、运维技术与平台的研发工作、运维数据的开发与ETL(Extract Transform and Load,抽取转换与加载)工作、运维算法领域的算法能力训练与建模工作。2.完善运维制度规范,建立运维质效评价管控机制2.完善运维制度规范,建立运维质效评价管
17、控机制一是建立面向业务运营的“故障管理标准”。从业务运营和客户服务的视角出发,梳理并制定业务健康度和故障等级定义,基于该标准和对应的故障管理体系对运维能力、应用质量等进行标准化度量,便于指导运维核心能力建设,真实地体现业务连续性保障水平。二是加强规范标准的硬控制措施,随着运维工具体系建设,完善监控、变更、应急、容灾、性能容量等相关领域的标准化,以及相应的规范标准检查自动化。三是完善业务线/应用条线的运维成熟度评估体系,通过监控发现、业务可用率、故障恢复时效等核心指标责任共担的方式,10持续提高源头治理和共同保障效果。应用质量评估结果与生产运维管控措施挂钩,通过变更频度和审批控制、加大健康巡检频
18、度、强化变更验证等措施,控制成熟度较低的应用系统投产风险。研发团队的应用负责人工作评价可酌情参考应用质量评估结果和运维KPI指标。三、金融业分布式信息系统运维技术能力建设基于上述运维目标梳理及运维架构规划,本章的运维技术能力建设分为三部分,一是运维业务场景,聚焦监控、应急、容灾、变更、性能容量等五个主题场景,其中应急与容灾合并体现,分四个小节展开。二是运维技术平台,涵盖运维数据及运维服务两个平台内容,在第五小节详述。三是IT基础架构向多地多中心及单元化架构演进所需运维配套能力建设相关内容,在第六节详述。(一)监控发现1.分布式架构下监控面临的挑战(一)监控发现1.分布式架构下监控面临的挑战一是
19、运维关注点由原来的软硬件状态及可用性,更多地向用户体验、资源扩缩弹性、负载均衡、数据一致性及准确性等方面转变,传统“面向资源”的监控理念逐渐不能满足新发展趋势的要求。二是各专业监控系统处于独立运行状态,数据缺乏横向打通,竖井效应突出,联动机制不足,难以快速精准定位故障。三是业务系统间存在复杂的逻辑及调用关系,交易链路较以往更加多变,内部运转呈现黑盒化现象,原有监控分析手段难以11继续发挥作用。四是分布式架构下基础设施规模和复杂度急剧增加,信息节点数量翻倍、监控数据量激增,异常感知检测难度大,需引入智能算法模型加以收敛,实现精准预警。五是金融业传统监控体系构建于集中式信息系统架构之上,与当时的运
20、维模式相匹配。但当核心信息系统演进到分布式架构时,监控体系自身也需要转型变革,以满足新阶段运维需求。六是受到技术状态限制,以往监控数据采集/刷新频度一般处于分钟级水平,对象颗粒度较粗,对异常的探测捕捉能力弱、响应慢,需要引入新技术栈等手段加以解决。2.分布式架构监控体系设计2.分布式架构监控体系设计分布式架构下监控体系应以建立统一监控平台为目标,整体思路是自底向上实现对网络、存储、服务器、操作系统等基础资源,以及应用软件、业务服务的统一管理,构建以资源数据为纽带的大资源管理框架体系,打破以往分专业竖井式建设模式,制定统一标准化的数据采集规范,建立全域指标体系,从业务逻辑、用户体验两个维度重新设
21、计分析、评估、展示、告警、治理的流程与操作,使得监控系统在业务逻辑呈现上更清晰,用户使用起来更容易上手。在监控体系设计上应遵循以下原则:一是平台功能支持传统架构与分布式架构下的全业务监控模式,应涵盖运维业务的各个领域,包括监、管、控、服、安全、12大数据及人工智能等多方面,如图4所示。二是以面向业务的视角规划架构,满足不同发展阶段、不同业务的运维场景需求;以数据中台为核心,既能满足金融企业全域资源的统一管理,又能保障各技术域的数据关联;提供统一门户、统一告警、统一资源、统一监控、统一采集的集中管理能力。三是架构具有灵活的可扩展性与开放性,提供二次开发能力,能快速实现与第三方系统对接;具有“热插
22、拔”能力,以便在维护某一业务模块时不会影响其他业务模块的正常运行。图 4 一站式监控功能架构133.分布式监控体系监控范围3.分布式监控体系监控范围分布式监控体系的监控范围涵盖从业务到基础设施的各层级监控内容,通过构建多视角监控大盘形成一站式可观测的平台能力。从业务视角包含重点业务线监控、批量业务监控、账务一致性监控,大屏聚合监控等。从专业视角,包含应用/交易监控,云监控、网络监控、系统监控、设备监控、动环监控等。从运维数据类型上看,至少包含日志、指标、链路、配置、事件等五类数据源。4.分布式监控体系重点能力建设4.分布式监控体系重点能力建设由于分布式架构信息节点数量众多、运行数据信息量极大、
23、复杂性较高,因此需要重点开展如下几方面能力建设。(1)运维数据采集能力(1)运维数据采集能力运用可观测性(Observability)理念,通过对各类系统、应用、平台、业务以及用户体验的度量,以了解系统内部运行情况,进而为优化性能指引方向。可观测对象包括:日志、指标、事件等系统运行过程中产生的信息、状态以及用户使用过程中的操作表征。通过遍布各处的探针与接口,实时采集基础运行指标及日志信息。在获取CPU负载、内存使用量等技术指标的同时,还应在交易流中嵌入标签,记录交易在不同应用和系统中执行、调用、跳转等操作的时空信息,用于完整描绘程序运行路径。此外,在应用侧增加切片时点交易额、交易成功率等业务度
24、量指标14的记录,为进一步评估业务服务水平提供依据。在指标采集方式上,应尽量多样化,支持代理与无代理混合纳管方式,根据采集对象加以选择,结合主动推送与被动轮询机制,实现监控数据灵活采集、高效上送。为了扩展采集能力,还可考虑引入旁路监控、扩展伯克利包过滤器(eBPF)、移动应用锚点、巡检机器人等新技术,在采集信息的同时,尽量减小对被采集对象的影响。为了便于后续汇聚整合监控指标,应建立统一的监控指标规范,明确指标类型、格式、编码、采集周期、传输方式等。(2)业务拓扑绘制能力(2)业务拓扑绘制能力分布式系统及微服务架构带来好处的同时,也增加了系统的规模和复杂性。随着应用服务粒度越来越小,应用服务数量
25、越来越多,为了获取应用服务之间的相互依赖关系、全方位感知分布式架构业务的运行状态,需要借助业务标签信息,自动构建全链路拓扑和业务系统画像,在交易全链路拓扑关系基础上套叠基础设施拓扑信息,形成资源、状态、性能、关系等多维度全局架构和端到端交易链路体系。由于分布式架构更多地从提供高水平业务服务角度出发,业务拓扑与交易链路往往处于动态变化中,因此应综合利用嗅探扫描、网络抓包以及调取配置信息、查询知识库等手段,自动化地动态探测与描绘“业务资源”关系图,不断刷新业务服务水平与资源节点之间的关联对应关系,从而为提升业务健康状况分析15与监控能力奠定基础。在业务服务水平下降时,能够根据业务拓扑和专业告警信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 金融业 分布式 信息系统 技术研究 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。