一种基于故障知识库的自动化故障处理系统及方法

文档序号:9508437阅读:486来源:国知局
一种基于故障知识库的自动化故障处理系统及方法
【技术领域】
[0001]本发明公开一种基于故障知识库的自动化故障处理系统及方法,属于故障处理技术领域。
【背景技术】
[0002]随着数据中心的飞速发展,数据中心的规模越来越大,所涉及的运维和故障处理工作也越来越多、越来越复杂,更何况目前的发展趋势下数据中心的规模在不断扩大、数据中心中的资源类型也越来越多、越复杂。例如,一个包括了 200种资源类型、10000个资源的数据中心,用传统的故障处理方式已经无法满足,传统的故障处理方式只能散乱地、相对独立地处理监控报告出来的问题,并且是各类管理员各自处理其领域内的故障,各类管理员所面对的故障问题不能很好的关联协调,也无法一步到位地定位到故障发生的根本原因,并且在故障处理时只能凭借管理员自身的经验水平完成故障处理,往往造成数据库管理员浪费很多时间去定位问题,导致大规模数据中心故障处理的不够及时和效率不高。为此,本发明提供一种基于故障知识库的自动化故障处理系统及方法,采用故障知识库与故障处理策略库的相结合的方式,自动化故障处理模块完成故障原因分析、匹配故障处理策略并根据处理方式驱动完成故障处理,并在检测确认后将故障处理的经验积累到故障知识库中;故障处理策略管理模块分析故障知识库中的故障原因,生成处理策略,定义故障处理方式,使得故障处理能够自动化,从而大大提高了故障处理的及时性和有效性。

【发明内容】

[0003]本发明针对目前大规模数据中心故障问题处理的不够及时和效率不高的问题,提供一种基于故障知识库的自动化故障处理系统及方法,使得故障处理能够自动化,从而大大提高了故障处理的及时性和有效性。
[0004]本发明提出的具体方案是:
一种基于故障知识库的自动化故障处理系统,包括故障监测模块、故障处理策略管理模块、故障原因分析模块、故障知识库、自动化故障处理模块;
故障监测模块负责监控系统,发现故障问题后,根据故障知识库将故障进行归类处理并交由自动化故障处理模块进行处理;
故障处理策略管理模块基于故障知识库的积累,调用故障原因分析模块逐条分析故障原因,并根据具体的故障原因定义对应的处理策略,形成故障处理策略库;
故障知识库为每类故障定义参数,以便查找故障信息,并不断完善故障信息;
自动化故障处理模块利用故障处理策略库中的数据信息,在接收到故障监测模块监测到的故障后先进行故障定位,再调用故障原因分析模块进行故障分析,在故障处理策略库中进行选择匹配,进行故障处理,同时,当故障处理完成并检测确认为故障恢复时,还将此次故障处理中所积累的知识提交到故障知识库中,循环往复,不断积累。
[0005]所述故障处理策略库由故障处理策略管理模块负责维护,在对故障知识库中的故障原因逐个分析后,分别生成对应的处理策略,并形成具体的处理方式反馈并储存到故障处理策略库中。
[0006]所述故障处理策略库内建立处理策略信息表,对应故障类型、处理策略、处理方式。
[0007]所述处理策略包括执行系统命令、服务器重启、进程重启、切断电源供电、重新进行网络连接、用户自定义处理脚本。还包括其他处理策略,比如硬盘上线,空调调温等,根据具体情况,具体制定。
[0008]所述故障知识库内建立故障知识信息表,对应故障编号、知识分类。
[0009]—种基于故障知识库的自动化故障处理方法,利用所述的系统进行故障自动化处理,利用故障监测模块监控系统,发现故障问题,根据故障知识库将故障进行归类处理并交由自动化故障处理模块进行处理;
利用故障处理策略管理模块基于故障知识库的积累,调用故障原因分析模块逐条分析故障原因,并根据具体的故障原因定义对应的处理策略,形成故障处理策略库;
在故障知识库中为每类故障定义参数,以便查找故障信息,并不断完善故障信息;再利用自动化故障处理模块通过故障处理策略库中的数据信息,在接收到故障监测模块监测到的故障后先进行故障定位,再调用故障原因分析模块进行故障分析,在故障处理策略库中进行选择匹配,进行故障处理,同时,当故障处理完成并检测确认为故障恢复时,还将此次故障处理中所积累的知识提交到故障知识库中,循环往复,不断积累。
[0010]所述故障处理策略库内建立处理策略信息表,对应故障类型、处理策略、处理方式。
[0011]所述故障知识库内建立故障知识信息表,对应故障编号、故障原因、知识分类。
[0012]利用故障处理策略库中的数据信息,在接收到故障监测模块监测到的故障后进行故障类型定位,根据故障的具体故障类型进行故障原因分析,利用故障知识库中故障知识信息表查找具体详细的故障原因后,将其在故障处理策略库中进行选择匹配,启动故障处理进程完成故障处理。
[0013]本发明的有益之处是:利用本发明方法发现故障问题后,根据故障知识库将故障进行归类并处理,完成故障原因分析、进行故障处理策略匹配并根据策略自动运行故障处理命令或脚本,处理完成后收集处理结果并进行相应的检测确认,再将故障处理的经验积累到故障知识库中,形成循环;通过自动化故障处理与故障处理策略的关联,结合故障处理策略与故障知识,使得故障处理能够自动化,并且能够进行故障知识的积累、故障处理策略的积累,从而大大提高了故障处理的及时性和效率性,有效避免了因各类管理员不熟悉彼此领域导致的故障处理资源浪费和时间浪费,同时又加入了自动化的方式,使数据中心的故障处理更准确到位。
【附图说明】
[0014]图1传统故障处理方法原理示意图;
图2本发明自动化故障处理模块工作示意图;
图3本发明故障处理策略管理模块工作示意图;
图4本发明系统工作示意图。
【具体实施方式】
[0015]一种基于故障知识库的自动化故障处理系统,包括故障监测模块、故障处理策略管理模块、故障原因分析模块、故障知识库、自动化故障处理模块;
故障监测模块负责监控系统,发现故障问题后,根据故障知识库将故障进行归类处理并交由自动化故障处理模块进行处理;
故障处理策略管理模块基于故障知识库的积累,调用故障原因分析模块逐条分析故障原因,并根据具体的故障原因定义对应的处理策略,形成故障处理策略库;
故障知识库为每类故障定义参数,以便查找故障信息,并不断完善故障信息;
自动化故障处理模块利用故障处理策略库中的数据信息,在接收到故障监测模块监测到的故障后先进行故障定位,再调用故障原因分析模块进行故障分析,在故障处理策略库中进行选择匹配,进行故障处理,同时,当故障处理完成并检测确认为故障恢复时,还将此次故障处理中所积累的知识提交到故障知识库中,循环往复,不断积累。
[0016]在上述方法基础上,结合附图,对本发明具体的实施作进一步阐述。
[0
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1