一种国产麒麟私有云故障分析处理方法.pdf
《一种国产麒麟私有云故障分析处理方法.pdf》由会员分享,可在线阅读,更多相关《一种国产麒麟私有云故障分析处理方法.pdf(4页珍藏版)》请在咨信网上搜索。
1、价值工程0 引言私有云平台系统由麒麟云计算平台和一套 ceph 分布式存储组成,整个云平台部署架构如图 员 所示。分布式存储为云计算平台提供存储服务,物理服务器通过存储交换机形成独立的存储网以 3 副本机制为麒麟云计算平台提供存储空间。存储节点服务器的每块硬盘被设计为 ceph 分布式存储的 osd(即对象存储设备,ceph 管理的存储单元,在操作系统中表现为 1 个进程)。ceph 分布式存储运行时的主要进程包括 monitor 进程和 osd 进程。osd 在集群中有 up 和 down 两种状态,up 表示正常工作,down 表示离开集群1。在软硬件例行检查中发现国产麒麟云平台分布式存储
2、集群中多个 osd 出现 down,云平台上部分虚拟服务器无法远程桌面访问,部分不能 ping 通,能 ping 通的虚拟服务器也无法通过 ssh 协议登录。分布式存储健康状态显示为HEALTH_ERR,虚拟机无法正常使用,业务软件不能运行2。1 故障排查过程1.1 docker 容器检查登录 controller(控制)节点查看 docker 服务进程,状态显示均正常,确定麒麟云计算平台 docker 容器运行正常,问题初步定位为分布式存储服务异常。1.2 存储节点检查淤查看分布式存储集群健康状态,显示为 health_err,进一步查看有 7 个 osd down,分布在 5 个 ceph
3、 节点上。各osd down 初始时间如表 1 所示。查看 osd down 的日志如图 2 所示,显示心跳检测没有收到回复。于手动启动状态为 down 的 osd(先操作 compute1 上的 osd1),osd 未能成功启动,新增日志如图 2 所示,重启未能解决问题。盂检查分布式存储进程,并手动“杀掉”状态为 down的 osd 进程。再次启动 osd 未有反应,日志依旧提示错误,如图3所示。“杀掉”的 osd进程处于“僵尸”状态,尝试“杀掉”僵尸进程,操作系统卡死。僵尸进程的父进程号为 1,无法被“杀掉”。尝试重建其它 ceph 节点的 osd,重建 osd 后仍然是 down。检查
4、dmesg 报错信息,显示错误信息如图 4所示。要要要要要要要要要要要要要要要要要要要要要要要作者简介院刘潇(1994-),男,土家族,湖北恩施人,工程师,本科,研究方向为云计算。一种国产麒麟私有云故障分析处理方法A Fault Analysis and Processing Method of Domestic and Private KylinCloud刘潇 LIU Xiao曰张斌 ZHANG Bin曰姜励锋 JIANG Li-feng曰张娟 ZHANG Juan曰袁媛 YUAN Yuan(中国卫星海上测控部,江阴214431)(China Satellite Maritime Track
5、ing and Control Department,Jiangyin 214431,China)摘要院国产麒麟私有云在海上测控中发挥了重要作用。针对国产麒麟私有云平台运行时异常情况,基于私有云平台工作原理,采用分析日志与检查组件、服务状态的方式,定位问题来源,解决对应故障。通过对私有云各组件状态日志和操作输出日志进行深入分析,提出了基于国产麒麟私有云平台的故障分析及异常监测处理方法。Abstract:The domestic and private KylinCloud has played an important role in maritime measurement and cont
6、rol.In view of theabnormal running conditions of the domestic and private KylinCloud,based on the working principle of cloud platform,the method ofanalyzing logs and checking components and service status is used to locate the source of the problem and solve the corresponding failure.Trough in-depth
7、 analysis of the status logs and operation output logs of the private KylinCloud components,a fault analysis and exceptionmonitoring processing method based on the domestic and private KylinCloud is proposed.关键词院云平台;分布式存储;osd;心跳检测Key words:cloud platform;distributed storage;osd;heartbeat detection中图
8、分类号院TP393.0文献标识码院A文章编号院1006-4311(2023)23-146-04doi:10.3969/j.issn.1006-4311.2023.23.045表1 osd down初始时间osd名称osd down的初始时间osd14osd15osd8osd10osd9osd4osd1D0+15:43:21.874865D0+15:55:42.469241D0+16:45:00.666051D0+22:16:36.738949D0+22:32:47.502894D0+23:54:47.211400D1+00:08:02.873203图2 osd down日志记录图3重启osd日
9、志记录图1国产麒麟私有云平台部署逻辑图业务软件 1业务软件 2业务软件 3业务软件 4业务软件 5业务软件 6虚拟服务器伊2虚拟服务器伊4 虚拟服务器伊3 虚拟服务器伊4 虚拟服务器伊1 虚拟服务器伊11国产麒麟私有云平台麒麟云计算平台软件台软件麒麟云计算平分布式存储软件件分布式存储软麒麟操作系统麒麟操作系统物理服务器 1物理服务器 2存储交换机物理服务器 n件麒麟操作系统分布式存储软台软件麒麟云计算平Value Engineering榆设置存储集群数据不迁移,然后依次硬重启 osddown 节点的服务器,重启后 osd 自动挂载上,且都恢复up,ceph 提示 HEALTH_OK。1.3 虚
10、拟机状态检查淤ceph 集群健康状态正常后,虚拟机仍无法正常启动。于检查 ceph 集群各节点之间存储网互通情况,结果显示 ceph 集群间各节点网络互通。检查 monitor 状态,重启 3 个控制节点的 monitor 服务,重启后提示告警,如图 5所示。盂检查集群 monmap 信息,未发现任何问题。新建测试卷进行测试,新建卷卡住。经排查未发现有大延迟的osd,执行 fio 命令未有性能输出,查看 vms/test1 卷如图 6所示。榆登录 compute2 节点(192.168.200.112),查看 osd 端口监听情况,发现 osd 未监听 6804 端口。设置数据不迁移,并依次重
11、启 compute2 节点上 2 个 osd,重启 compute2osd 后,ceph-osd 已监听 6804 端口。取消数据不迁移,并新建 test3 卷测试 ceph,新建 test3 卷仍卡住,提示信息如图 7所示。虞登录 compute1 节点(192.168.200.111),检查发现osd 重启后已正常监听 6804 端口;新建 test4 卷成功,未出现卡住和告警情况;ceph 恢复后重启虚拟机,KVM 与 LXC虚机都正常启动,网络正常,新建的虚拟机成功运行2,3。2 故障原因分析2.1 ceph 异常原因此次 ceph 集群 HEALTH_ERR 是因为故障 osd 的数
12、量超过阈值,部分数据的存活副本数据小于 2 副本导致。通过日志分析发现此次 osd down 异常现象有三种原因。一是 osd 对自身工作线程 osd_tp_op 进行心跳检测出现超时,最后 osd 进程“自杀”。在 15:41 分,compute6 上的osd.14 对自身线程心跳检测出现超时。当检测一定次数后没有心跳回应,osd.14 进程“自杀”。在 osd.14 心跳检测失败后,其他 osd 向 osd.14 发起的心跳检测也不会有回应,如图 8 所示。osd4、osd8、osd9、osd10 down 都是由这个原因引起。二是 osd 向其他 osd 发送心跳检测消息,长时间未得到回
13、应。osd.15 向其他 osd 发送心跳检测消息,长时间未得到回应,集群将该 osd 标记成 down,如图 9 所示。三是自身向其它 osd 或 monitor 服务发送消息失败,monitor 或者自身将其标记为 down。00:08:02 分,compute1上的 osd.1 因自身发送不出消息被 monitor 标记为 down,如图 10 所示。2.2 虚拟机异常原因ceph 集群健康状态正常后,虚拟机仍无法正常启动是因为虚拟机所在服务器 6804 端口丢失,osd 无法监听到6804 端口。默认情况下,ceph osd 守护程序绑定到 ceph 节点上从端口 6800 开始的第一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 国产 麒麟 私有 故障 分析 处理 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。