1.一种系统故障管理方法,其特征在于,所述方法包括如下步骤:
根据接收到的故障提示信息识别系统故障并触发相应维度的故障工单;
根据故障工单生成相应维度内并行的故障排查任务并分别推送至相应的故障处理人员,根据接收到的与各个故障排查任务对应的故障排查结果定位故障点;
在预设的恢复预案匹配关系中查找与所述故障点相匹配的恢复预案,并将恢复预案按照优先级排序后推送至故障处理人员;
接收并执行故障处理人员选择的恢复预案以对系统故障进行修复。
2.根据权利要求1所述的方法,其特征在于,所述根据接收到的故障提示信息识别系统故障并触发相应维度的故障工单,包括如下子步骤:
接收多维度监控告警信息或人工告警信息中的至少一种故障提示信息;
将所述故障提示信息推送至相应维度的故障受理人员;
根据接收到的故障受理人员的受理指令,触发相应维度的故障工单。
3.根据权利要求2所述的方法,其特征在于,
当所述故障提示信息为人工告警信息时,所述将所述故障提示信息推送至相应维度的故障受理人员之前,还包括:
提取人工告警信息中的故障类型关键词,根据所述故障类型关键词判断在预设的故障分类表中是否有匹配的故障所属维度;
若有,则将所述故障提示信息推送至相应维度的故障受理人员;
若无,则将所述故障提示信息推送至通用维度的故障受理人员。
4.根据权利要求1所述的方法,其特征在于,所述根据故障工单生成相应维度内并行的故障排查任务并分别推送至相应的故障处理人员,根据接收到的与各个故障排查任务对应的故障排查结果定位故障点,包括如下子步骤:
根据故障工单的故障信息在预设的干系人表中匹配出相应故障处理人员;
根据所述故障信息在预设的故障排查模型中匹配相应的故障排查任务;
根据所述故障信息将故障排查任务与故障处理人员建立排查任务关联关系;
基于所述排查任务关联关系生成并行的故障排查任务并推送至相应的故障处理人员;
接收每一故障处理人员执行相应故障排查任务获得的故障排查结果;
筛选结果为异常的故障排查结果并分析获得故障点。
5.根据权利要求4所述的方法,其特征在于,将故障排查任务推送至相应的故障处理人员,具体采用同时触发拨号通知、创建故障管理沟通群并推送预设时间段内的生产变更信息、邮件通知的方式将故障排查任务推送至故障处理人员。
6.根据权利要求4所述的方法,其特征在于,所述在预设的恢复预案匹配关系中查找与所述故障点相匹配的恢复预案,并将恢复预案按照优先级排序后推送至故障处理人员,包括如下子步骤:
在预设的恢复预案匹配关系中查找是否有与所述故障点相匹配的恢复预案,若有,则将恢复预案按照优先级排序后推送至故障处理人员;
若无,则调用无预案恢复操作作为恢复预案推送至故障处理人员。
7.根据权利要求1~6任一项所述的方法,其特征在于,所述接收并执行故障处理人员选择的恢复预案对系统故障进行修复之后还包括:验证系统故障是否完成修复,具体包括如下子步骤:
将恢复预案执行结果推送至故障处理人员;
接收故障处理人员验证故障是否恢复后输入的验证指令,当验证指令为未恢复,则继续执行下一优先级恢复预案;
至接收到的验证指令为已恢复,结束故障工单。
8.根据权利要求7所述的方法,其特征在于,所述根据接收到的故障提示信息识别系统故障并触发故障工单之后,还包括:向访问用户推送与所述故障工单对应的替代预案,具体包括如下子步骤:
在预设的故障替代预案关系中查找与故障工单的故障信息匹配的若干替代预案;
当用户访问所述故障工单相关链路时将替代预案信息推送至用户端。
9.一种系统故障管理装置,其特征在于,所述装置至少包括:
故障工单触发模块,用于根据接收到的故障提示信息识别系统故障并触发相应维度的故障工单;
故障点定位模块,用于根据故障工单生成相应维度内并行的故障排查任务并分别推送至相应的故障处理人员,根据接收到的与各个故障排查任务对应的故障排查结果定位故障点;
应急预案模块,用于在预设的恢复预案匹配关系中查找与所述故障点相匹配的恢复预案,并将恢复预案按照优先级排序后推送至故障处理人员;
故障修复模块,用于接收并执行故障处理人员选择的恢复预案以对系统故障进行修复。
10.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
根据接收到的故障提示信息识别系统故障并触发相应维度的故障工单;
根据故障工单生成相应维度内并行的故障排查任务并分别推送至相应的故障处理人员,根据接收到的与各个故障排查任务对应的故障排查结果定位故障点;
在预设的恢复预案匹配关系中查找与所述故障点相匹配的恢复预案,并将恢复预案按照优先级排序后推送至故障处理人员;
接收并执行故障处理人员选择的恢复预案以对系统故障进行修复。