多节点服务器故障预警方法、装置、设备及介质与流程

文档序号:33178899发布日期:2023-02-04 04:24阅读:23来源:国知局
多节点服务器故障预警方法、装置、设备及介质与流程

1.本发明涉及计算机技术领域,特别涉及多节点服务器故障预警方法、装置、设备及介质。


背景技术:

2.多节点服务器通常由一个机箱和多个节点服务器组成。在节点服务器上,有bmc(baseboard management controller,即基板管理控制器)模块,负责对单个节点服务器进行管理控制;在机箱上还会有一个cmc(chassis management controller,即机箱管理控制器)模块,负责集中管理整个机箱的电源、风扇及各节点服务器的bmc模块。
3.同一机箱内通常会搭配相同配置的节点服务器,当一个节点服务器发生故障时,同一机箱内的其它节点服务器通常也会有同样的故障风险。
4.综上可见,当机箱内的一个节点服务器发生故障时,就需要向其它节点服务器进行预警,其它节点服务器针对该类型故障检测,检测是否有相同故障或轻微的故障,避免更严重问题发生。因此如何实现多节点服务器故障预警是本领域有待解决的问题。


技术实现要素:

5.有鉴于此,本发明的目的在于提供一种多节点服务器故障预警方法、装置、设备及介质,能够实现多节点服务器故障预警。其具体方案如下:
6.第一方面,本技术公开了一种多节点服务器故障预警方法,应用于多节点服务器机箱,包括:
7.从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器;
8.获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型;
9.基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件;
10.若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息;若不满足则基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数。
11.可选的,所述获取所述故障节点服务器返回的故障信息之前,还包括:
12.通过所述故障节点服务器的基板管理控制器对所述故障节点服务器进行检测,以得到第一故障信息。
13.可选的,所述获取所述故障节点服务器返回的第一故障信息,包括:
14.通过预设两线式串行总线接口或预设网络接口获取所述故障节点服务器返回的第一故障信息。
15.可选的,所述确定所述第一故障信息的预设故障类型,包括:
16.记录所述第一故障信息,并利用所述待预警节点服务器中基板管理控制器对所述第一故障信息进行处理,以便确定所述第一故障信息的预设故障类型。
17.可选的,所述基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,包括:
18.若所述预设故障类型为预设电压故障类型、预设电流故障类型以及预设温度故障类型中的任意一种或几种故障类型,则对所述待预警节点服务器中相应的位置进行检测,以得到检测结果。
19.可选的,所述基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,包括:
20.若所述预设故障类型为预设cpu故障类型、预设内存故障类型、预设pcie故障类型以及预设硬盘故障类型中的任意一种或几种故障类型,则对所述待预警节点服务器中相应的模块进行检测,以得到检测结果。
21.可选的,所述基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数,包括:
22.基于所述预设故障类型将所述待预警节点服务器中对应的故障预警阈值、故障检测频率、告警等级中任意一种或几种故障预警参数进行更新。
23.第二方面,本技术公开了一种多节点服务器故障预警装置,应用于多节点服务器机箱,包括:
24.节点服务器确定模块,用于从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器;
25.类型确定模块,用于获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型;
26.判断模块,用于基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件;
27.预警模块,用于若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息;若不满足则基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数。
28.第三方面,本技术公开了一种电子设备,包括:
29.存储器,用于保存计算机程序;
30.处理器,用于执行所述计算机程序,以实现前述公开的多节点服务器故障预警方法的步骤。
31.第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的多节点服务器故障预警方法的步骤。
32.可见,本技术从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器;获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型;基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件;若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息;若不满足则基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数。由此
可见,当确定出多节点服务器机箱的故障节点服务器和待预警节点服务器后,利用故障节点服务器的第一故障信息确定预设故障类型,然后基于预设故障类型进行相应的故障预警处理,因此当多节点服务器机箱中存在故障节点服务器时,就对待预警服务器进行相关检测,若检测结果满足预设故障条件,即待预警服务器存在相应的故障,则生成对应的警告信息,若不满足预设故障条件,即待预警服务器当前不存在相应的故障,则可以更新故障预警参数,也即提高与第一故障信息相对应的故障警惕性,实现了多节点服务器故障预警。
附图说明
33.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
34.图1为本技术公开的一种多节点服务器故障预警方法流程图;
35.图2为本技术公开的一种具体的多节点服务器故障预警方法流程图;
36.图3为本技术公开的一种多节点服务器故障预警装置结构示意图;
37.图4为本技术公开的一种电子设备结构图。
具体实施方式
38.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
39.多节点服务器通常由一个机箱和多个节点服务器组成。在节点服务器上,有bmc模块,负责对单个节点服务器进行管理控制;在机箱上还会有一个cmc模块,负责集中管理整个机箱的电源、风扇及各节点服务器的bmc模块。
40.同一机箱内通常会搭配相同配置的节点服务器,当一个节点服务器发生故障时,同一机箱内的其它节点服务器通常也会有同样的故障风险。
41.为此本技术相应的提供了一种多节点服务器故障预警方案,能够实现多节点服务器故障预警。
42.参见图1所示,本技术实施例公开了一种多节点服务器故障预警方法,应用于多节点服务器机箱,包括:
43.步骤s11:从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器。
44.本实施例中,所述获取所述故障节点服务器返回的故障信息之前,还包括:通过所述故障节点服务器的基板管理控制器对所述故障节点服务器进行检测,以得到第一故障信息。可以理解的是,例如多节点服务器机箱中存在两个节点服务器,即节点服务器a和节点服务器b,其中节点服务器a的基板管理控制器当前检测到节点服务器a发生故障,并生成了第一故障信息,也因此节点服务器a被确定为故障节点服务器,当前节点服务器b被确定为待预警节点服务器。
45.本实施例中,所述获取所述故障节点服务器返回的第一故障信息,具体包括:通过预设两线式串行总线接口或预设网络接口获取所述故障节点服务器返回的第一故障信息。节点服务器a通过预设两线式串行总线接口(i2c)将第一故障信息发送至节点服务器b的基板管理控制器,节点服务器a也可以通过预设网络接口将第一故障信息发送至节点服务器b的基板管理控制器。
46.步骤s12:获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型。
47.本实施例中,所述确定所述第一故障信息的预设故障类型,包括:记录所述第一故障信息,并利用所述待预警节点服务器中基板管理控制器对所述第一故障信息进行处理,以便确定所述第一故障信息的预设故障类型。节点服务器b的基板管理控制器获取节点服务器a的第一故障信息后,将第一故障信息记录下来,然后节点服务器b的基板管理控制器对第一故障信息进行处理,以便确定第一故障信息的预设故障类型。可以理解的是,可以通过节点服务器b的预设对外接口获取第一故障信息,例如预设对外接口为web(world wide web,即全球广域网)接口、ipmi接口(intelligent platform management interface,即智能平台管理接口),其中预设对外接口与预设两线式串行总线接口或预设网络接口相对应。
48.步骤s13:基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件。
49.可以理解的是,需要判断检测结果是否满足预设故障条件,即判断检测结果是否表征节点服务器b发生了与第一故障信息对应的故障。
50.步骤s14:若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息;若不满足则基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数。
51.本实施例中,若满足则说明节点服务器b发生了与第一故障信息相应的故障,若不满足则说明节点服务器b当前未发生与第一故障信息相应的故障。若节点服务器b发生了与第一故障信息相应的故障,则记录对应的第二故障信息,并生成与第二故障信息对应的告警信息,然后显示至预设平台中,以告知用户需要进行相应的故障处理,避免产生更大的故障。若节点服务器b当前未发生与第一故障信息相应的故障,但是节点服务器b发生与第一故障信息相对应的故障的概率较高,所以可以更新节点服务器b中对应的故障预警参数,例如提高故障检测频率、提高故障阈值,也即提高与第一故障信息相对应的故障警惕性,进而起到预警作用。
52.可见,本技术从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器;获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型;基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件;若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息;若不满足则基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数。由此可见,当确定出多节点服务器机箱的故障节点服务器和待预警节点服务器后,利用故障节点服务器的第一故障信息确定预设故障类型,然后基于预设故障类型进行相应的故障预警处理,因此当多节点服务器机箱中存在故障节点服务器时,就对待预警服务器进行相关检
测,若检测结果满足预设故障条件,即待预警服务器存在相应的故障,则生成对应的警告信息,若不满足预设故障条件,即待预警服务器当前不存在相应的故障,则可以更新故障预警参数,也即提高与第一故障信息相对应的故障警惕性,实现了多节点服务器故障预警。
53.参见图2所示,本技术实施例公开了一种具体的多节点服务器故障预警方法,应用于多节点服务器机箱,包括:
54.步骤s21:从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器。
55.其中,关于上述步骤s21更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
56.步骤s22:获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型。
57.其中,关于上述步骤s22更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
58.步骤s23:基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件。
59.在一种具体实施例中,所述基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,具体包括:若所述预设故障类型为预设电压故障类型、预设电流故障类型以及预设温度故障类型中的任意一种或几种故障类型,则对所述待预警节点服务器中相应的位置进行检测,以得到检测结果。
60.在另一种具体实施例中,所述基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,具体包括:若所述预设故障类型为预设cpu故障类型、预设内存故障类型、预设pcie故障类型以及预设硬盘故障类型中的任意一种或几种故障类型,则对所述待预警节点服务器中相应的模块进行检测,以得到检测结果。
61.步骤s24:若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息。
62.本实施例中,针对电压、电流及温度的故障,节点服务器b的基板管理控制器对与第一故障信息相同位置的故障进行检测,若检测有同样的故障,节点服务器b的基板管理控制器对该故障进行记录。针对cpu(central processing unit,即中央处理器)、内存、pcie(peripheral component interconnect express)、硬盘等故障,节点服务器b上的bmc需要通知bios(basic input output system,即基本输入输出系统)针对相关模块进行检测,同时节点服务器b的基板管理控制器收集寄存器进行分析可能的故障,若检测有同样的故障,节点服务器b的基板管理控制器对其进行记录。
63.步骤s25:若不满足则基于所述预设故障类型将所述待预警节点服务器中对应的故障预警阈值、故障检测频率、告警等级中任意一种或几种故障预警参数进行更新。
64.本实施例中,针对第一故障信息的预设故障类型为电压、电流及温度中的任意一种故障类型,若节点服务器b没有检测到故障,提高节点服务器b上的相同位置的故障预警阈值,增加节点服务器b上的相同位置的故障检测频率。针对第一故障信息的预设故障类型为cpu、内存、pcie、硬盘中的任意一种故障类型,若节点服务器b没有检测到故障,对节点服务器b上相同位置及类型的告警等级进行提升,增加节点服务器b上的相同位置的故障检测
频率。
65.由此可见,本技术当存在故障节点服务器时,故障节点服务器向多节点服务器机箱中其他节点服务器的基板管理控制器进行预警,使得其他节点服务器的基板管理控制器接收第一故障信息后,基于故障类型进行自检,以检测是否存在相对应的故障,进而提高了多节点服务器的故障检测能力,能够对可能存在的故障进行预警,减少严重故障的发生。
66.参见图3所示,本技术实施例公开了一种多节点服务器故障预警装置,应用于多节点服务器机箱,包括:
67.节点服务器确定模块11,用于从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器;
68.类型确定模块12,用于获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型;
69.判断模块13,用于基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件;
70.预警模块14,用于若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息;若不满足则基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数。
71.可见,本技术从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器;获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型;基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件;若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息;若不满足则基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数。由此可见,当确定出多节点服务器机箱的故障节点服务器和待预警节点服务器后,利用故障节点服务器的第一故障信息确定预设故障类型,然后基于预设故障类型进行相应的故障预警处理,因此当多节点服务器机箱中存在故障节点服务器时,就对待预警服务器进行相关检测,若检测结果满足预设故障条件,即待预警服务器存在相应的故障,则生成对应的警告信息,若不满足预设故障条件,即待预警服务器当前不存在相应的故障,则可以更新故障预警参数,也即提高与第一故障信息相对应的故障警惕性,实现了多节点服务器故障预警。
72.在一些具体实施例中,所述多节点服务器故障预警装置,包括:
73.第一故障信息生成单元,用于通过所述故障节点服务器的基板管理控制器对所述故障节点服务器进行检测,以得到第一故障信息。
74.在一些具体实施例中,所述类型确定模块12,包括:
75.第一故障信息获取单元,用于通过预设两线式串行总线接口或预设网络接口获取所述故障节点服务器返回的第一故障信息。
76.在一些具体实施例中,所述类型确定模块12,包括:
77.故障类型确定单元,用于记录所述第一故障信息,并利用所述待预警节点服务器中基板管理控制器对所述第一故障信息进行处理,以便确定所述第一故障信息的预设故障类型。
78.在一些具体实施例中,所述判断模块13,包括:
79.第一检测结果获取单元,用于若所述预设故障类型为预设电压故障类型、预设电流故障类型以及预设温度故障类型中的任意一种或几种故障类型,则对所述待预警节点服务器中相应的位置进行检测,以得到检测结果。
80.在一些具体实施例中,所述判断模块13,包括:
81.第二检测结果获取单元,用于若所述预设故障类型为预设cpu故障类型、预设内存故障类型、预设pcie故障类型以及预设硬盘故障类型中的任意一种或几种故障类型,则对所述待预警节点服务器中相应的模块进行检测,以得到检测结果。
82.在一些具体实施例中,所述预警模块14,包括:
83.预警参数更新单元,用于基于所述预设故障类型将所述待预警节点服务器中对应的故障预警阈值、故障检测频率、告警等级中任意一种或几种故障预警参数进行更新。
84.进一步的,本技术实施例还提供了一种电子设备。图4是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
85.图4为本技术实施例提供的一种电子设备的结构示意图。具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现以下步骤:
86.从所述多节点服务器机箱的所有节点服务器中确定故障节点服务器和待预警节点服务器;
87.获取所述故障节点服务器返回的第一故障信息,并确定所述第一故障信息的预设故障类型;
88.基于所述预设故障类型对所述待预警节点服务器进行相应的检测,以得到检测结果,并判断所述检测结果是否满足预设故障条件;
89.若满足则记录所述待预警节点服务器中对应的第二故障信息,并基于所述第二故障信息生成对应的警告信息;若不满足则基于所述预设故障类型更新所述待预警节点服务器中对应的故障预警参数。
90.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
91.通过所述故障节点服务器的基板管理控制器对所述故障节点服务器进行检测,以得到第一故障信息。
92.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
93.通过预设两线式串行总线接口或预设网络接口获取所述故障节点服务器返回的第一故障信息。
94.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
95.记录所述第一故障信息,并利用所述待预警节点服务器中基板管理控制器对所述第一故障信息进行处理,以便确定所述第一故障信息的预设故障类型。
96.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
97.若所述预设故障类型为预设电压故障类型、预设电流故障类型以及预设温度故障类型中的任意一种或几种故障类型,则对所述待预警节点服务器中相应的位置进行检测,以得到检测结果。
98.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
99.若所述预设故障类型为预设cpu故障类型、预设内存故障类型、预设pcie故障类型以及预设硬盘故障类型中的任意一种或几种故障类型,则对所述待预警节点服务器中相应的模块进行检测,以得到检测结果。
100.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,还可以进一步包括以下步骤:
101.基于所述预设故障类型将所述待预警节点服务器中对应的故障预警阈值、故障检测频率、告警等级中任意一种或几种故障预警参数进行更新。
102.本实施例中,电源23用于为电子设备上的各硬件设备提供工作电压;通信接口24能够为电子设备创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
103.其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
104.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
105.其中,操作系统221用于管理与控制电子设备上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是windows、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备执行的多节点服务器故障预警方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
106.进一步的,本技术实施例还公开了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的由多节点服务器故障预警过程中执行的方法步骤。
107.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
108.以上对本发明所提供的一种多节点服务器故障预警方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1