跳转至

流程-资源池故障等级

职责分工

序号 职责职责 具体事项 负责人 备注
1 对接COC及用户 1.COC过来的问题,优先处理2.用户监控3.负责用户机器内部操作系统层面的操作4.用户机器的开关机、显示、vnc等5.硬件的故障报修对接COC
2 底层硬件 1.硬件监控2.硬件的告警处理3.硬件的故障报修配合
3 网络设备 1.网络设备的监控2.网络设备的告警及报修
4 OS服务 1.OpenStack的服务监控2.资源池的os服务告警及处理3.租户的网络连通性4.配合硬件报修,恢复os服务
5 数据库 1.os、zabbix数据库的监控及稳定性2.数据库的备份3.数据库的问题及恢复
6 zabbix 1.zabbix的正常告警及使用
7 ceph 1.ceph集群的稳定及可用
8 ESXI 1.ESXI集群的可用及稳定2.ESXI上的os基础机器的稳定及可用

故障等级

故障等级以是否影响用户,影响客户数以及影响时间来分级。

故障等级 影响范围 第一处理人员 归档 是否故障总结会议 备注
一级故障 1.影响用户众多2.中断业务时间长3.核心业务不可用 发现第一时间报告李智慧OS组、底层硬件团队、对接COC及用户团队第一时间响应 根据出的问题,对照职责表,相应组出故障报告
二级故障 1.影响少数用户2.中断业务 发现第一时间报告李智慧OS组、底层硬件团队、对接COC及用户团队第一时间响应 根据出的问题,对照职责表,相应组出故障报告
三级故障 核心业务不可用 发现第一时间报告李智慧,OS组、底层硬件团队、对接COC及用户团队第一时间响应 根据出的问题,对照职责表,相应组出故障报告
四级故障 核心业务受影响 OS组、前端配合解决 根据出的问题,对照职责表,相应组出故障报告
五级故障 非核心业务无法使用 OS组、前端配合解决 根据出的问题,对照职责表,相应组出故障报告
六级故障 用户不感知,但是波及OS大 OS组、底层团队 根据出的问题,对照职责表,相应组出故障报告
七级故障 用户不感知,基本不影响OS OS组 试情况而定

故障处理完成后,由职责组写回溯报告。

故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。