基于态势感知的硬件故障预测研究.pdf
《基于态势感知的硬件故障预测研究.pdf》由会员分享,可在线阅读,更多相关《基于态势感知的硬件故障预测研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年第 7 期12计算机应用信息技术与信息化基于态势感知的硬件故障预测研究况天宝1 李 珂1 王大帅1 李 超1 于沈课1 靳登科1KUANG Tianbao LI Ke WANG Dashuai LI Chao YU Shenke JIN Dengke 摘要 磁盘及内存故障已成为数据中心停机的主因,分布式存储系统本身的磁盘故障预测功能不成熟,且对不同品牌磁盘兼容性不足,在初始测试中预测成功率接近于 0,操作系统硬件报错机制还不够完善。在随机森林预测算法基础上研究了全新的磁盘故障预测模块,针对不同的磁盘型号选择不同的预测模型,大大提高了对磁盘故障的预测成功率。在基于服务器功能及操作系统
2、的特性研究了可行的内存态势感知工具,捕获并处理所有来自内核追踪架构的出错事件并记录,结合自研采集工具实时采集报告的硬件错误信息,产生监控指标最终生成告警,及时发现节点内存产生的读/写错误,有效减少了被动宕机及服务器重启问题。磁盘和内存故障预测生成的告警运用根因分析技术进行智能分析,及时有效的发现硬件故障,避免了被动宕机和重启问题的发生。经统计,磁盘预测模块精确率提升至 70%,召回率提升至70%;内存故障预测精准率提升至 90%以上。关键词 态势感知;故障预测;根因分析;磁盘故障;内存故障 doi:10.3969/j.issn.1672-9528.2023.07.0031.浪潮云信息技术股份公
3、司 山东济南 2501011 云计算环境下的硬件故障问题随着云计算、大数据的迅速发展,数据的存储和内存的使用需求不断攀升,因此要求以磁盘为主要存储介质的存储系统和使用内存进行高并发计算的服务器拥有更高的可靠性。硬盘由于其精密性较高,因此可靠性无法达到理想的状态,据统计磁盘的损坏已经成为数据中心停机的主因之一。大规模生产环境业务错综复杂、数据噪声大以及不确定因素多,因此能否提前准确预测内存故障已经成为大规模数据中心和云计算时代工业界需要研究和解决的重要问题之一。数据中心的运维工作在初期大部分由运维人员手工完成,但随着数据中心规模的扩大和人力成本的上升,这种落后的运维方式已经无法满足数据中心的需求
4、。智能运维是未来数据中心运维的发展方向。智能运维是将人工智能应用于数据中心的运维领域,利用数据中心的监控、日志、应用数据等,通过机器学习的算法解决数据中心运维中的问题。对于磁盘故障,分布式存储系统自身磁盘预测模块以使用磁盘最近几天的 SMART 数据预测磁盘未来健康状况。该模型由 ProphetStor 和 AIOps 公司训练和贡献,使用 Python通用机器学习框架 scikit-learn 的 SVM(支持向量机)分类器训练预测。但这个模型并没有对不同型号磁盘进行区分,不同厂商 SMART 数据含义有所差别,而分布式存储系统磁盘预测模块没有对不同型号的磁盘分别训练模型,导致实际预测精确率
5、非常低(接近于 0)。对于内存故障,Linux 的硬件报错机制还不完善,多数是由各种工具(mcelog 和 EDAC)造成,这些工具从不同源采用不同方法以及不同工具(比如:mcelog,edac-utils 和syslog)收集出错信息,报告出错事件。对于不同的服务器和操作系统,没有统一的故障收集和管理工具,导致实际应用困难。2 云计算系统磁盘故障分析对于磁盘故障,预测分析数据源采用的数据来自Backblaze 的 公 开 数 据,Backblaze 是 一 个 云 存 储 厂 商,每个季度都会公布自己使用硬盘的 SMART 数据。具体采 用 了 2021 年 Q1 到 Q3 的 165 51
6、3 块 磁 盘 数 据,其 中ST12000NM0007 型号运行正常且数据有效的磁盘 8435 块,出现故障磁盘 46 块。Backblaze 的磁盘预测数据包括磁盘的ID、每日的 SMART 记录、是否失败标签。磁盘预测目标是预测磁盘 n 天内是否会失效,结合实践情况和现场需求,将n 设为 30,构建训练数据集。每个 SMART 属性都有 raw 和 normalized 两个值,raw 2023 年第 7 期13计算机应用信息技术与信息化是原始值,normalized 是磁盘厂商对 raw 归一化后的值,归一方法未知。为了更好地描述磁盘的劣化情况,还需要构建磁盘的差分特征,将每个磁盘每天
7、的属性与该磁盘 1、3、7天前的属性分别做差,作为新的特征。由于特征过多,需要对数据中的特征进行选择,来减少机器学习算法的输入维度,降低模型的复杂度,建立更高效的预测模型,提高模型预测的准确性。有三种方法筛选特征,分别是移除低方差特征、单变量特征选择、随机森林特征选择。第一种用于对数据的预处理,过滤掉对结果影响较小的特征。第二种计算每个特征与目标值之间的关系是否存在统计显著性,选择对目标值影响较大的特征。第三种可以使用交叉验证对特征选择的结果进行检查,对训练集随机选择子集,使用随机森林算法选择特征,检查选择出来的特征是否相似。综合以上方法本文选择了如表 1 所示的特征。表 1 磁盘故障特征列表
8、SMART IDrawnormal-izedraw 1 天差值normal-ized 1 天差值raw 3 天差值normal-ized 3 天差值raw 7 天差值normal-ized 7天差值34579187192193197198240241242这些 SMART 属性的含义如下:3:主轴起旋时间4:启停计数5:重映射扇区计数7:寻道错误率9:通电时间累计187:无法校正的错误192:断电返回计数193:磁头加载/卸载计数197:当前待映射扇区计数198:脱机无法校正的扇区计数240:磁头飞行时间241:写入寿命剩余242:读取剩余寿命为了更好地描述磁盘失效前一个月的时间特性,根据磁盘
9、距离失效的时间长短对磁盘打不同的标签,经过不断调整与测试,最终找到了最佳的标签打法,即距离失效时间每三天作为一个标签值,并依次增加。随后,通过随机搜索的方法对数据集进行分析,最终选择出最优的随机森林预测的学习参数,此算法拥有准确性高、鲁棒性好等优点,广泛应用于机器学习领域。随机森林分为两种,一种是随机森林分类,可以将样本分类,另一种是随机森林回归,可以计算样本目标值,在磁盘预测领域,回归往往比分类拥有更好的效果,因为磁盘失效并不是突然发生的,磁盘失效前一天与其他时间的特征可能没有明显区别,如果强行将磁盘失效前一天的数据与其他时间数据分为不同类,可能导致机器学习算法无法学习到磁盘失效的特征,导致
10、无法正确预测;而根据距离磁盘失效时间长短对数据打标签后,再使用回归方式训练,预测结果是连续的,只要设置合理的阈值,就可以将好盘与坏盘分辨出来,另外,在实际生产场景中,使用随机森林回归预测比随机森林分类还有更高的灵活性,需要高精确率时可以选择较低的阈值,降低虚警率,需要高召回率时可以选择较高的阈值,预测出更多的坏盘。随机森林回归学习器训练时影响预测结果的参数有 13个,每个参数都有多种可选取值,可选的参数组合与参数个数呈指数关系,如果使用人工调整参数,工作量大且效率低下,现在业界有两种主流的自动参数调优方法中,网格搜索方法遍历所有可能的参数组合,从中选择一个最好的参数组合,由于参数组合太多,遍历
11、参数组合会消耗大量计算资源,随机网格搜索随机挑选参数组合,可以在相同的尝试次数下比网格搜索方法覆盖更多的参数组合范围,增加寻找到最优参数组合的概率。对于随机森林回归学习器,描述其好坏的指标是回归方差,表示预测值与实际值的差异程度,回归方差越低,表示学习器预测的越准确。通过随机搜索方法,对数据集进行了分析,最终选择的参数如表 2 所示。经过上述流程,使用 2021 年 5 月和 6 月数据验证用2021 年 1 月和 2 月数据训练出来的模型,效果如表 3 所示。为了验证该模型的泛化性,本文使用模型对 Backblaze最新的数据(2021 年 6 月到 9 月)进行了预测,得到的效果如表 4、
12、表 5、表 6 所示。2023 年第 7 期14计算机应用信息技术与信息化表 2 最优参数列表参数名称参数意义最优参数值n_estimators决策树数量100criterion衡量分裂质量的函数squared_errormax_depth决策树最大深度Nonemin_samples_split分裂一个节点需要的最小样本数2min_samples_leaf叶子节点最小样本数1min_weight_fraction_leaf叶子节点所需要的最小权值0max_features允许单个决策树使用特征的最大数量automax_leaf_nodes最多叶子节点数量Nonemin_impurity_de-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 态势 感知 硬件 故障 预测 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。