流程-资源池故障等级¶
职责分工¶
序号 | 职责职责 | 具体事项 | 负责人 | 备注 |
---|---|---|---|---|
1 | 对接COC及用户 | 1.COC过来的问题,优先处理2.用户监控3.负责用户机器内部操作系统层面的操作4.用户机器的开关机、显示、vnc等5.硬件的故障报修对接COC | ||
2 | 底层硬件 | 1.硬件监控2.硬件的告警处理3.硬件的故障报修配合 | ||
3 | 网络设备 | 1.网络设备的监控2.网络设备的告警及报修 | ||
4 | OS服务 | 1.OpenStack的服务监控2.资源池的os服务告警及处理3.租户的网络连通性4.配合硬件报修,恢复os服务 | ||
5 | 数据库 | 1.os、zabbix数据库的监控及稳定性2.数据库的备份3.数据库的问题及恢复 | ||
6 | zabbix | 1.zabbix的正常告警及使用 | ||
7 | ceph | 1.ceph集群的稳定及可用 | ||
8 | ESXI | 1.ESXI集群的可用及稳定2.ESXI上的os基础机器的稳定及可用 |
故障等级¶
故障等级以是否影响用户,影响客户数以及影响时间来分级。
故障等级 | 影响范围 | 第一处理人员 | 归档 | 是否故障总结会议 | 备注 |
---|---|---|---|---|---|
一级故障 | 1.影响用户众多2.中断业务时间长3.核心业务不可用 | 发现第一时间报告李智慧OS组、底层硬件团队、对接COC及用户团队第一时间响应 | 根据出的问题,对照职责表,相应组出故障报告 | 是 | |
二级故障 | 1.影响少数用户2.中断业务 | 发现第一时间报告李智慧OS组、底层硬件团队、对接COC及用户团队第一时间响应 | 根据出的问题,对照职责表,相应组出故障报告 | 是 | |
三级故障 | 核心业务不可用 | 发现第一时间报告李智慧,OS组、底层硬件团队、对接COC及用户团队第一时间响应 | 根据出的问题,对照职责表,相应组出故障报告 | 是 | |
四级故障 | 核心业务受影响 | OS组、前端配合解决 | 根据出的问题,对照职责表,相应组出故障报告 | 是 | |
五级故障 | 非核心业务无法使用 | OS组、前端配合解决 | 根据出的问题,对照职责表,相应组出故障报告 | 否 | |
六级故障 | 用户不感知,但是波及OS大 | OS组、底层团队 | 根据出的问题,对照职责表,相应组出故障报告 | 是 | |
七级故障 | 用户不感知,基本不影响OS | OS组 | 试情况而定 | 否 |
故障处理完成后,由职责组写回溯报告。
故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。