1、 I ICS 35.020 CCS L 04 DB63 青海省地方标准青海省地方标准 DB63/T 22262023 绿色算力基础设施智能运维规范 2023-12-27 发布 2024-01-28 实施 青海省市场监督管理局 发 布 DB63/T 22262023 I 目 次 前言.II 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 缩略语.2 5 绿色算力基础设施智能运维基本要求.2 5.1 总体原则.2 5.2 建立智能运维目标.2 5.3 赋能平台.2 5.4 内外部环境.3 5.5 组织.3 6 分级要求.3 6.1 分级模型.3 6.2 绿色算力基础设施智能运维水平等
2、级划分.4 6.3 智能运维场景实现及智能特征分级.4 DB63/T 22262023 II 前 言 本文件按照 GB/T 1.1-2020标准化工作导则 第 1 部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由青海省发展和改革委员会提出并归口。本文件起草单位:青海省发展和改革委员会、中国电子技术标准化研究院、青海省工业和信息化厅、青海省通信管理局、青海省能源局、青海省节能中心、国网青海省电力公司、青海省工程咨询中心有限责任公司、中国移动青海公司、中国电信青海分公司、中国联通青海分公司。本文件主要起草人:张纳军、
3、杨国庆、刘海山、肖天理、史魁、张函、金驰、樊朝阳、杨守文、孙胜民、王国宁、王怀成、宋继红、文森、张国瑜、李伟民、汪澜、郝天新 本文件由青海省发展和改革委员会监督实施。DB63/T 22262023 1 绿色算力基础设施智能运维规范 1 范围 本文件规定了绿色算力基础设施智能运维管理的基本要求和分级要求。本文件适用于绿色算力基础设施规划设计、建造、运营管理、运行维护时采用执行,也可供第三方评价机构制定评价标准、开展评价活动。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包
4、括所有的修改单)适用于本文件。GB/T 51314 数据中心基础设施运行维护标准 3 术语和定义 下列术语和定义适用于本文件。3.1 算力基础设施 为承载算存运功能的电子信息设备集中放置,由计算机场地(机房),其他基础设施、信息资源(数据)和人员以及相应的规章制度组成的实体。来源:GB/T 32910.1-2017,2.1,有修改 3.2 智能运维 具备能感知、会描述、自学习、会诊断、可决策、自执行、自适应等若干人工智能特征的运维服务。来源:GB/T 43208.1-2023,3.1 3.3 运维场景 由事件触发的一系列流程过程。3.4 虚拟与物理资源 采用虚拟化技术提供的服务器以及实际物理硬
5、件等资源。DB63/T 22262023 2 3.5 电能使用效率 一定时间周期内算力基础设施总电能消耗量与信息设备电能消耗量之比。4 缩略语 下列缩略语适用于本文件。SLR:服务级别要求(service level requirement)SLA:服务级别协议(service level agreement)5 绿色算力基础设施智能运维基本要求 5.1 总体原则 绿色算力基础设施智能运维的范围和技术内容应满足GB/T 51314的要求、算力基础设施方的要求、监管方要求、客户SLR及签订SLA中的要求。智能运维不能覆盖的部分,应保留非智能运维的方式。5.2 建立智能运维目标 绿色算力基础设施智
6、能运维应设定具体的、可测量的、可达成的且有明确截止期限的目标,并应与数据中心的管理目标协调一致。运维目标应分阶段设置,满足最大化资源利用和最小化环境影响的需要。绿色算力基础设施智能运维管理目标应至少包括在绿色算力基础设施安全运行、业务连续性的要求下,将基础设施运维工作由现场人工运维转向“智能平台”运维。通过平台化运营算力基础设施,提高基础设施运维工作效率与质量,提升业务保障能力,降低运维成本,减少绿色算力基础设施对各类资源的消耗,持续优化电能使用效率,实现绿色、低碳可持续发展的目标。绿色算力基础设施绿色智能运维能力由感知力、分析力、决策力、执行力组成,应能够有效支撑智能运维目标的实现。注1:感
7、知力是指对运维对象及其相关内部及外部环境变化采集的数字化信息以及含义进行认知的水平,应根据运维目标制定策略以明确对变化的敏感程度和风险偏好,进而决定绿色算力基础设施对变化实现自觉的感知力水平。注2:执行力是指为实现预定运维目标通过自动化的手段对运维对象及内外部环境施加影响的行为和过程的能力。执行过程应有明确的目标、条件、方法、效果的定义,执行力应与感知力衔接,对运维对象及其内外部环境变化做出反馈和调节。注3:决策力是指为了实现确定的运维目标而对未来一定时期内的运维活动及方式进行智能化选择或调整的过程,由开放的提炼能力、准确的预测能力和准确的决断能力构成。决策过程应有数据、算法、模型、流程的支撑
8、,并在设定的运维场景替代人工的判断和决策。决策力体现绿色算力基础设施运维智能化程度和水平。5.3 赋能平台 绿色算力基础设施智能运维应构建赋能平台,并满足以下要求:a)绿色算力基础设施运营组织应构建、维护、持续优化算力基础设施统一的赋能平台以实现绿色化、智能化运维。b)赋能平台应有效支撑绿色算力基础设施的智能管控,并完整涵盖智能运维的规划设计、部署实施、例行管理、风险管控、服务支持、服务交付、监督改进全生命周期。DB63/T 22262023 3 c)赋能平台应通过数字化、自动化、智能化等功能模块有效支撑绿色算力基础设施智能运维的感知力、控制力、决策力。d)应通过数据采集、数据管理提升赋能平台
9、的感知力,实现运维管理数字化。e)应通过自动化、可视化能力的构建提升赋能平台的控制力,实现运维自动化。f)应通过能感知、会描述、会预测、会学习、会诊断、会决策的能力构建实现运维智能化。g)应实现基础设施和虚拟与物理资源智能运维全场景融合的一体化智能运维,宜实现跨算力基础设施的统一调度。5.4 内外部环境 对内外部环境有以下要求:a)绿色算力基础设施运营组织应持续识别对绿色智能运维目标的优化和内外部环境变化的影响,内外部的环境变化包括来自主管机构、监管组织提出的新的管理要求、来自风险管控组织或部门提出的管理要求、来自客户或业务部门提出的风险管理要求等。b)组织应建立支持绿色算力基础设施绿色化智能
10、化转型的治理结构和管理组织,明确绿色智能运维组织的职责及要求,落实绿色智能运维相关的策划、实施、运行、改进工作,有效支撑绿色化智能化运维工作的持续优化。c)组织应明确绿色算力基础设施智能运维能力建设的整体策略,并落实到对应的治理结构、管理组织、人员要求、技术实现、资源要求、管理机制等方面。d)针对绿色算力基础设施智能运维能力要素之间的结构关系和运行方式,组织应建立并运行评价、指导、监控以及沟通机制,以保证智能运维能力的管理、治理有效满足需求。e)组织应建立、培育、维护促进绿色算力基础设施智能运维的精神文化。提升人员对绿色智能运维和管理的认知、认可和认同度,建设开放、共享、创新、持续改进的文化氛
11、围。5.5 组织 绿色算力基础设施运营应设立能够支持绿色算力基础设施智能运维的运维组织,要求包括:a)应设立专业的运维团队。b)应配置平台支撑管理的团队,负责管理智能运维平台运营,保证平台可用性。c)宜设立专业技术团队,负责研究设施、系统绿色化智能化技术,以及绿色智能运维平台及相关系统的升级与优化。d)应设立信息安全管理岗,或者将算力基础设施智能运维平台及其相关系统纳入上级组织信息安全管理团队的管理范围,以确保智能运维工作的信息安全,避免发生安全事件。e)应设置绿色运维管理岗位,持续识别绿色节能低碳需求,优化绿色运维目标。6 分级要求 6.1 分级模型 根据节能低碳绿色等级不同和智能化程度不同
12、,将绿色算力基础设施智能运维分为三个等级,自低向高依次为数字化级、自动化级和智能化级,并用一、二、三表示。每个等级表明绿色算力基础设施智能运维的能力水平,如下:a)数字化级(一级):绿色算力基础设施运营组织拥有开展绿色化智能运维活动所需的基本平台,可以及时感知算力基础设施各组件的运行状态,可以实现对用电、用油、用水等能源及耗能工DB63/T 22262023 4 质的使用依据来源、性质与用途的不同进行分项计量,具备实现部分关键组件的远程控制,量化碳排放功能。b)自动化级(二级):绿色算力基础设施运营组织拥有开展绿色化智能运维活动所需的自动化平台,可以通过及时感知算力基础设施各组件的运行状态、周
13、边环境数据并依据预设的规则,通过对运行模式和关键组件的自动控制和资源能源使用的自动调度,实现系统最优运行。c)智能化级(三级):绿色算力基础设施运营组织拥有开展绿色化智能运维活动所需的智能化平台及平台迭代优化的能力,可以通过及时感知绿色算力基础设施各组件的运行状态和周边环境数据,并依据现有规则和历史数据自主学习,基于数据进行预测,实现对运行模式和关键组件的自主控制和资源能源使用的自主调度,能够基于规则和预测,实现算力和资源在本算力基础设施内部和跨设施的自主调度,实现多算力基础设施整体最优运行。6.2 绿色算力基础设施智能运维水平等级划分 绿色算力基础设施智能运维水平等级应按照实现智能运维场景中
14、智能特征分级要求进行划分,划分方式见表 1。表 1 绿色算力基础设施智能运维等级划分 等级 分级要求 一级 至少在 7 项智能运维场景中达到数字化级 二级 至少在 6 项智能运维场景中达到自动化级 三级 至少在 5 项智能运维场景中达到智能化级 6.3 智能运维场景实现及智能特征分级 智能运维场景实现是围绕质量可靠、安全可控、效率提升、成本降低、绿色低碳的运维目标,通过场景分析、场景构建、场景交付、效果评估四个关键过程,建设智能运维场景的一组活动。通过迭代调优,持续提高运维智能化程度,过程包括:a)场景分析是指通过前期调研和评估,确定场景构建方案和计划的过程;b)场景构建是指按既定方案和计划开
15、展场景相关能力建设的过程;c)场景交付是指场景构建完成后进行实施交付及配套活动的过程;d)效果评估是指场景交付后检查是否达到预期效果,并设定下阶段迭代目标的过程。e)智能运维场景及分级要求见表 2。5 表2 智能运维场景及智能特征分级 智能特征分级要求 场景名称 场景描述 关键指标 数字化级(一级)自动化级(二级)智能化级(三级)机房能耗智能优化 通过智能运维对机房能耗进行优化,综合监控、日志、环境等数据建立模型,实时数据进行迭代,通过人工智能算法对能耗进行分析,对电能使用效率进行预测并智能生成优化方案,降低非计算方面的能耗,从而降低绿色算力基础设施整体运行电能使用效率 电能使用效率下降百分比
16、 能够获得丰富的运行数据,辅助人工分析,可以人工远程控制系统运行模式和系统组件运行状态 可以根据人工预定义的规则,自动调整系统运行模式和系统组件运行状态,实现全系统最尤运行 通过自主学习数据挖掘,丰富运行规则,自主控制系统运行 全生命周期管理 通过设备全生命周期的智能化管理,实现从设备采购、运行、维护、维修、升级和报废等全生命周期的智能化管理、避免人为错误和遗漏造成的停机和性能下降或损坏 管理覆盖率=实现全生命周期管理设备量/总设备量 通过对设备的运行监控和效率分析,实现对设备的日常维护保养、报修、报废等进行数字化管理 支持硬件远程运维,实现对设备全生命周期的全面监控和自动化管理。能够根据历史
17、数据,通过自主学习和数据挖掘,实现设备故障趋势预测、设备退化趋势预测、设备寿命预测,自主完成处理策略推送 应用智能混合部署 不同应用服务资源消耗偏好不同(包括计算密集型、内存密集型、IO 密集型等等),同一应用服务在不同时间资源消耗也不同,不加区分的同比例资源分配会造成部分资源的闲置浪费。通过智能计算和预测将不同资源类型的服务自动在同一主机上混合部署可以有效提高主机各方面资源的综合利用率 应用混合部署自动化率=自动化混合部署次数/总混合部署次数 无要求 按照人工预定规则实现自动混合部署 基于自学习成果和预测,自主混合部署 资源弹性伸缩 在云环境下,对一组或多组资源指标进行有效监控,根据资源使用
18、情况进行动态伸缩,当资源不足时,利用资源分配算法动态调度部署节点,并加入到当前的运行环境,当资源利用率很低时,可以回收资源,避免资源的浪费,如数据库扩容、私有云的动态伸缩、文件系统、内存、CPU 等动态扩容或收缩等 资源调整自动化率=自动化调整资源次数/总调整资源次数 能够动态监测资源利用情况,需要时按照预定规则分配资源,辅助运维人员调度资源 能够动态监测资源利用情况按照预定的规则,调度资源(分配和回收)能够根据历史数据,自主学习,挖掘数据,根据数据与预测,自主动态调度资源 6 表2 常见智能运维场景及分级要求(续)智能特征分级要求 场景名称 场景描述 关键指标 数字化级(一级)自动化级(二级
19、)智能化级(三级)告警聚合 该场景通过算法或规则,将无效和重复等相同原因触发的告警合并为一个告警 告警聚合率=1-聚合后告警数/总告警数 部分单系统实现告警聚合 跨系统实现告警聚合 基于自学习成果,实现智能化诊断,对无效、重复告警实现智能化筛选 故障自愈 该场景通过实时海量数据处理、非结构化数据识别、数据关系挖掘等方式,对故障场景特征精准识别,并自动调用预设的应急动作,实现业务的快速恢复 故障自愈率=自愈故障数/总故障数 系统辅助人工排障 按照人工预定义的规则识别可自愈的故障,实现故障自愈 通过自主学习和数据挖掘完善自愈故障特征,识别可自愈故障,实现故障自愈 健康检查 该场景通过自动收集运维对
20、象信息,如性能数据、状态数据、技术数据和日志数据等,利用同类运维对象的横向比较、历史数据分布比较、最佳实践基线比较等方式,实现精准、快速、全方位的评估运维对象健康度 健康检查覆盖率=自动健康检查运维对象数/总运维对象 系统可以提供丰富完善的数据(能感知)、并且可以以丰富的形式展现数据(会描述),辅助运维人员开展健康检查 可以基于人工定义的检查规则,实现自动健康检查 通过自主学习和数据挖掘不断完善检查规则,实现自主健康检查 运维工单流程自动化 该场景利用软件机器人,根据运维工单流程,以更快的速度、更高的准确率实现运维工单自动化填写等操作,有效代替人工并降低成本 工单自动化率=自动化工单流程的数量
21、/运维工单流程的总数 辅助填写工单,人工完善 自动填写工单,自动流转,部分环节按照人工预定规则实现自执行。自动填写工单并基于自学习成果给出处理建议,部分实现自执行 日常巡检自动化 通过自动化巡检可以将硬件状态、设备负载、系统时间、磁盘空间、线路流量、数据库表空间使用率、网络设备端口状态、流量等进行自动巡检,并形成符合要求的巡检报告 日常巡检自动化率=自动巡检任务数/总巡检任务数 机器人巡检准确率=正确巡检隐患数量/实际隐患数量;实现巡检自动调度,巡检数据归集,软件轮询与人工现场巡检为主要巡检方式 借助巡检机器人及现场监控设施实施巡检,以自动巡检为主,辅以人工巡检。利用数字孪生等先进技术实现设备设施全数字化、全可视化自动巡检,并与运维工单、全生命周期等联动管理。