用于服务器集群故障诊断的处理方法与流程

文档序号:25543580发布日期:2021-06-18 20:40阅读:来源:国知局

技术特征:

1.一种用于服务器集群故障诊断的处理方法,包括:

响应于所述服务器集群中出现发生灾难性故障的服务器,在所述服务器中执行自动诊断;

在所述自动诊断失败的情况下,在所述服务器输出的实时操作信息中添加诊断失败信息,其中,所述诊断失败信息包括与所述自动诊断失败对应的诊断失败关键字,并且所述诊断失败关键字用于指示所述灾难性故障;

在处理装置中,基于所述诊断失败信息中的所述诊断失败关键字,从所述实时操作信息中筛选出所述诊断失败信息,并对所述诊断失败信息进行分析;以及

基于分析结果,确定对所述服务器的所述故障的处理方式。

2.如权利要求1所述的处理方法,其中,基于所述诊断失败信息中的所述诊断失败关键字,从所述实时操作信息中筛选出所述诊断失败信息包括:

在所述实时操作信息中监控所述诊断失败信息,其中所述监控包括在所述实时操作信息中匹配所述诊断失败关键字;以及

在成功匹配到所述诊断失败关键字后,获取与所述诊断失败关键字对应的诊断失败信息;

其中,包括所述诊断失败信息的所述实时操作信息还用于指示执行故障分析任务的目标对象,其中,对所述诊断失败信息进行分析包括:

基于所述诊断失败信息中的所述诊断失败关键字,创建对所述诊断失败信息所对应的故障的故障分析任务;

基于包括所述诊断失败信息的所述实时操作信息,确定执行故障分析任务的目标对象;

将所述故障分析任务提供至所述执行故障分析任务的目标对象;以及

从所述执行故障分析任务的目标对象获取对所述故障分析任务的所述分析结果。

3.如权利要求2所述的处理方法,其中,基于分析结果,确定对所述服务器的所述故障的处理方式包括:

在所述分析结果指示确定所述服务器中存在要替换的部件的情况下,创建指示所述要替换的部件的部件替换任务。

4.如权利要求1所述的处理方法,其中,所述自动诊断包括:

对所述服务器的与所述故障相关的多个寄存器进行信息采集,其中,在存在所述多个寄存器中的至少一个寄存器无法完成信息采集的情况下,确定所述自动诊断失败;以及

在对所述多个寄存器完成信息采集后,对所采集的寄存器信息进行分析,以得到第一故障分析结果,其中,在所述第一故障分析结果指示无法确定所述服务器的故障部件或指示所述服务器中存在多个故障部件的情况下,确定所述自动诊断失败。

5.如权利要求4所述的处理方法,其中,所述多个寄存器包括用于指示所述服务器的故障部件的错误指向寄存器,其中,对所采集的寄存器信息进行分析包括:

对所采集的寄存器中的所述错误指向寄存器进行分析,以确定所述服务器中先发生异常的处理器;

在基于所述错误指向寄存器无法确定所述先发生异常的处理器的情况下,对所采集的寄存器中的时间戳寄存器进行比较,以确定所述服务器中先发生异常的处理器;

在确定了所述先发生异常的处理器的情况下,基于该处理器的所述错误指向寄存器的值确定该处理器中的具体报错寄存器,其中所述具体报错寄存器用于指示所述服务器的故障部件;以及

在基于所述错误指向寄存器和所述时间戳寄存器均无法确定所述先发生异常的处理器的情况下,或者在基于该处理器的所述错误指向寄存器的值无法确定具体报错寄存器的情况下,对所采集的寄存器进行寄存器遍历,以确定所述先发生异常的处理器中的所述具体报错寄存器;

其中,对所采集的寄存器进行寄存器遍历包括按照预定的优先级对所采集的寄存器进行遍历分析,以确定其中的所述具体报错寄存器。

6.一种用于服务器故障诊断的方法,包括:

响应于所述服务器发生灾难性故障,在所述服务器中执行自动诊断;以及

在所述自动诊断失败的情况下,在所述服务器输出的实时操作信息中添加诊断失败信息,其中,所述诊断失败信息包括与所述自动诊断失败对应的诊断失败关键字,并且所述诊断失败关键字用于指示所述灾难性故障。

7.如权利要求6所述的方法,其中,所述灾难性故障是服务器内部故障或总线故障,并且所述错误指向寄存器包括由intel定义的mca_err_src_log、ierrloggingreg、mcerrloggingreg寄存器中的至少一个,并且所述自动诊断包括:

对所述服务器的与所述故障相关的多个寄存器进行信息采集,其中,在存在所述多个寄存器中的至少一个寄存器无法完成信息采集的情况下,确定所述自动诊断失败;以及

在对所述多个寄存器完成信息采集后,对所采集的寄存器信息进行分析,以得到第一故障分析结果,其中,在所述第一故障分析结果指示无法确定所述服务器的故障部件或指示所述服务器中存在多个故障部件的情况下,确定所述自动诊断失败。

8.如权利要求7所述的方法,其中,所述多个寄存器包括错误指向寄存器,所述错误指向寄存器包括指示所述服务器的故障部件的信息,其中,对所采集的寄存器信息进行分析包括:

对所采集的寄存器中的所述错误指向寄存器进行分析,以确定所述服务器中先发生异常的处理器;

在基于所述错误指向寄存器无法确定所述先发生异常的处理器的情况下,对所采集的寄存器中的时间戳寄存器进行比较,以确定所述服务器中先发生异常的处理器;

在确定了所述先发生异常的处理器的情况下,基于该处理器的所述错误指向寄存器的值确定该处理器中的具体报错寄存器,其中所述具体报错寄存器用于指示所述服务器的故障部件;以及

在基于所述错误指向寄存器和所述时间戳寄存器均无法确定所述先发生异常的处理器的情况下,或者在基于该处理器的所述错误指向寄存器的值无法确定具体报错寄存器的情况下,对所采集的寄存器进行寄存器遍历,以确定所述先发生异常的处理器中的所述具体报错寄存器;

其中,对所采集的寄存器进行寄存器遍历包括按照预定的优先级对所采集的寄存器进行遍历分析,以确定其中的所述具体报错寄存器。

9.一种用于服务器集群故障诊断的处理方法,包括:

从所述服务器集群中所包括的至少一个发生灾难性故障的服务器接收实时操作信息,其中,所述实时操作信息中包括诊断失败信息,所述诊断失败信息包括与所述自动诊断失败对应的诊断失败关键字,并且所述诊断失败关键字用于指示所述灾难性故障;

基于所述诊断失败信息中的所述诊断失败关键字,从所述实时操作信息中筛选出所述诊断失败信息,并对所述诊断失败信息进行分析;以及

基于分析结果,确定对所述服务器的所述故障的处理方式。

10.如权利要求9所述的处理方法,其中,基于所述诊断失败信息中的所述诊断失败关键字,从所述实时操作信息中筛选出所述诊断失败信息包括:

在所述实时操作信息中监控所述诊断失败信息,其中所述监控包括在所述实时操作信息中匹配所述诊断失败关键字;以及

在成功匹配到所述诊断失败关键字后,获取与所述诊断失败关键字对应的诊断失败信息;

其中,包括所述诊断失败信息的所述实时操作信息还用于指示执行所述处理器的故障分析任务的目标对象,其中,对所述诊断失败信息进行分析包括:

基于所述诊断失败信息中的所述诊断失败关键字,创建对所述诊断失败信息所对应的故障的故障分析任务;

基于包括所述诊断失败信息的所述实时操作信息,确定执行故障分析任务的目标对象;

将所述故障分析任务提供至所述执行故障分析任务的目标对象;以及

从所述执行故障分析任务的目标对象获取对所述故障分析任务的所述分析结果。

11.如权利要求9所述的处理方法,还包括:

累积所述实时操作信息作为历史操作信息;

通过在所述历史操作信息中进行与所述诊断失败关键字的关键字匹配,来筛选所述自动诊断失败的案例;以及

基于筛选出的所述自动诊断失败的案例,计算与所述故障对应的所述自动诊断失败的概率,

其中,所述自动诊断失败的案例及所述概率被用于指导对所述服务器的优化。

12.一种用于服务器集群故障诊断的处理装置,包括:

信息接收模块,被配置为从所述服务器集群中所包括的至少一个发生灾难性故障的服务器接收实时操作信息,其中,所述实时操作信息中包括诊断失败信息,所述诊断失败信息包括与所述自动诊断失败对应的诊断失败关键字,并且所述诊断失败关键字用于指示所述灾难性故障;

故障筛选模块,被配置为基于所述诊断失败信息中的所述诊断失败关键字,从所述实时操作信息中筛选出所述诊断失败信息;以及

线上分析模块,被配置为对所述诊断失败信息进行分析,以及基于分析结果,确定对所述服务器的所述故障的处理方式。

13.如权利要求12所述的处理装置,其中,所述故障筛选模块基于所述诊断失败信息中的所述诊断失败关键字,从所述实时操作信息中筛选出所述诊断失败信息包括:

在所述实时操作信息中监控所述诊断失败信息,其中所述监控包括在所述实时操作信息中匹配所述诊断失败关键字;以及

在成功匹配到所述诊断失败关键字后,获取与所述诊断失败关键字对应的诊断失败信息;

其中,包括所述诊断失败信息的所述实时操作信息还用于指示执行所述处理器的故障分析任务的目标对象,其中,所述线上分析模块对所述诊断失败信息进行分析包括:

基于所述诊断失败信息中的所述诊断失败关键字,创建对所述诊断失败信息所对应的故障的故障分析任务;

基于包括所述诊断失败信息的所述实时操作信息,确定执行故障分析任务的目标对象;

将所述故障分析任务提供至所述执行故障分析任务的目标对象;以及

从所述执行故障分析任务的目标对象获取对所述故障分析任务的所述分析结果;

其中,所述线上分析模块基于分析结果确定对所述服务器的所述故障的处理方式包括:

在所述分析结果指示确定所述服务器中存在要替换的部件的情况下,创建指示所述要替换的部件的部件替换任务。

14.一种用于服务器集群故障诊断的处理设备,包括:

一个或多个处理器;和

一个或多个存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-11中任一项所述的方法。

15.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-11中的任一项所述的方法。


技术总结
公开了一种用于服务器集群故障诊断的处理方法、处理装置、处理设备、和计算机可读存储介质。本公开的实施例通过对造成自动诊断失败的故障类型进行梳理,将由于信息不全或多部件报错导致无法自动诊断的故障通过诊断失败信息进行实时上报并进入自动化处理流程,从而使得自动诊断失败故障处理更加快速且高效。此外,该处理方法通过在历史操作信息中基于诊断失败信息所包含的关键字来实现对自动诊断结果的区分与统计,提高了数据统计的可行性,并且通过线上系统对接服务器供应商以进行数据的实时反馈与记录,有利于服务器后续版本的自动诊断能力的提升和优化。

技术研发人员:曾令新;林哲伟;严勇;李小龙
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2021.03.25
技术公布日:2021.06.18
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1