一种服务器硬件故障预警方法和装置与流程

文档序号:12665301阅读:265来源:国知局
一种服务器硬件故障预警方法和装置与流程

本发明涉及计算机技术领域,具体涉及一种服务器硬件故障预警方法和装置。



背景技术:

随着服务器集群上业务需求的递增,服务器硬件的数量也会不断的增多。在众多的服务器中,一旦出现服务器硬件出现故障的情况,例如超过保修期(简称过保),会造成服务器硬件的性能下降,甚至出现突然宕机的情况,会给整个服务器硬件系统的运行造成影响。在众多的服务器硬件的维护工作中,现有技术中通常是在服务器硬件出现故障后才可以被发现,然后才进行解决,服务器硬件故障不能被及时发现,而且也不能及时发现问题所在,解决问题的周期较长,进而影响整个服务器硬件系统的稳定性。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的服务器硬件故障预警方法和装置。

依据本发明的一个方面,提供了一种服务器硬件故障预警方法,包括:

预先创建硬件故障预警列表,该列表中对应保存了不同的硬件故障预警信息和相应的服务器日志内容;

获取服务器系统运行日志,将所获取的服务器系统运行日志与所述建硬件故障预警列表进行匹配;

如果存在匹配项,则确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障。

可选地,所述获取服务器系统运行日志,将所获取的服务器系统运行日志与所述硬件故障预警列表进行匹配包括:

获取服务器运行日志中的与硬件相关的日志;

将所获取的与硬件相关的日志与所述硬件故障预警列表进行匹配。

可选地,所述获取服务器运行日志中的与硬件相关的日志包括:

根据服务器的系统配置,确定保存与硬件相关的日志的日志文件名称;

根据所确定的日志文件名称,从相应的日志文件获取与硬件相关的日志。

可选地,在所述确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,该方法进一步包括:

如果存在与该服务器存储相同数据且提供相同服务的其他服务器,则将该服务器上的服务迁移到所述其他服务器上。

可选地,在所述确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,该方法进一步包括:

如果不存在与该服务器存储相同数据且提供相同服务的其他服务器,则将该服务器上的数据和服务都迁移到指定的备用服务器上。

可选地,在所述确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,该方法进一步包括:

通过指定渠道向指定位置发送包含该服务器标识和所述应用故障预警信息的报警消息。

可选地,该方法进一步包括:

接收关于该服务器的预警误报通知;

将该服务器重新投入使用。

可选地,该方法进一步包括:

当有服务器实际发生硬件故障时,获取该服务器发生硬件故障对应的时间范围内的服务器系统运行日志中与硬件相关的日志;

根据所获取的与硬件相关的日志中查出至少一条与该服务器实际发生的硬件故障相关的日志;

将查找出的日志内容和该服务器实际发生的硬件故障的预警信息对应保存到所述硬件故障预警列表中。

根据本发明的另一方面,提供了一种服务器硬件故障预警装置,包括:

列表维护单元,适于预先创建硬件故障预警列表,该列表中对应保存了不同的硬件故障预警信息和相应的服务器日志内容;

日志匹配单元,适于获取服务器系统运行日志,将所获取的服务器系统运行日志与所述建硬件故障预警列表进行匹配,如果存在匹配项,通知故障预警单元;

故障预警单元,适于在收到日志匹配单元的通知后,确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障。

可选地,所述日志匹配单元,适于获取服务器运行日志中的与硬件相关的日志;将所获取的与硬件相关的日志与所述硬件故障预警列表进行匹配。

可选地,所述日志匹配单元,适于根据服务器的系统配置,确定保存与硬件相关的日志的日志文件名称;根据所确定的日志文件名称,从相应的日志文件获取与硬件相关的日志。

可选地,该装置进一步包括:

预警处理单元,适于当所述故障预警单元确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障时,判断是否存在与该服务器存储相同数据且提供相同服务的其他服务器,如果存在则将该服务器上的服务迁移到所述其他服务器上。

可选地,所述预警处理单元,进一步适于当判断出不存在与该服务器存储相同数据且提供相同服务的其他服务器时,将该服务器上的数据和服务都迁移到指定的备用服务器上。

可选地,所述故障预警单元,进一步适于通过指定渠道向指定位置发送包含该服务器标识和所述应用故障预警信息的报警消息。

可选地,所述故障预警单元,进一步适于接收关于该服务器的预警误报通知;将该服务器重新投入使用。

可选地,其中,

所述列表维护单元,进一步适于当有服务器实际发生硬件故障时,获取该服务器发生硬件故障对应的时间范围内的服务器系统运行日志中与硬件相关的日志;根据所获取的与硬件相关的日志中查出至少一条与该服务器实际发生的硬件故障相关的日志;将查找出的日志内容和该服务器实际发生的硬件故障的预警信息对应保存到所述硬件故障预警列表中。

综上所述,根据本发明的技术方案,预先创建一个保存有对应不同的硬件故障预警信息和相应的服务器日志内容的硬件故障预警列表;实时获取服务器系统运行日志,并与预先创建的建硬件故障预警列表进行匹配;如果没有匹配项,说明该服务器不会出现硬件故障;如果有匹配项,那么就确定该服务器硬件将要发生匹配项对应的硬件故障预警信息所描述的硬件故障,是服务器硬件维护人员及时得到预警信息,根据预警信息就可以及时的发现即将出现故障的服务器硬件和问题所在,并可以进行及时处理。可见,本发明在服务器硬件出现故障之前可以及时的预警,以便根据预警信息获知问题所在并及时处理,消耗的时间短,保证整个服务器硬件系统的稳定性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的一种服务器硬件故障预警方法的流程示意图;

图2示出了根据本发明一个实施例的一种服务器硬件故障预警装置的结构示意图;

图3示出了根据本发明另一个实施例的一种服务器硬件故障预警装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种服务器硬件故障预警方法的流程示意图。如图1所示,该方法,包括:

步骤S110,预先创建硬件故障预警列表,该列表中对应保存了不同的硬件故障预警信息和相应的服务器日志内容。

服务器中的系统运行日志会保存有服务器运行状态,包括服务器运行过程中的异常信息等。那么,根据已知的故障的预警信息以及其所对应的日志信息,创建一个硬件故障预警列表。该故障预警列表里会包含有不同的硬件故障预警信息和对应的服务器日志内容。例如,故障预警列表里包含有服务器宕机的预警信息和其所对应的服务器日志内容。

步骤S120,获取服务器系统运行日志,将所获取的服务器系统运行日志与硬件故障预警列表进行匹配。

故障预警列表里已经包含有不同的硬件故障预警信息和相应的服务器日志内容,只要服务器系统运行日志中有故障预警列表里的服务器日志内容,该服务器就可能会发生相应的硬件故障。所以,为了检测服务器是否会出现硬件故障,需要获取服务器系统运行日志,然后将所获取的服务器系统运行日志与硬件故障预警列表进行匹配,若没有匹配项,则说明该服务器没有发生硬件故障的风险。

步骤S130,如果存在匹配项,则确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障。

只要监控各个服务器中的系统运行日志内容中是否有符合该故障预警列表中的服务器日志内容的,那么就认为该服务器硬件将要发生匹配项对应的硬件故障预警信息所描述的硬件故障。例如,故障预警列表里包含有服务器宕机的预警信息和其所对应的服务器日志内容。当获取到服务器A中的系统日志内容中存在和故障预警列表里服务器宕机所对应的服务器日志内容匹配的日志内容,那么就认为该服务器A可能会发生过保预警信息中所描述的宕机的硬件故障。

当存在匹配项后,将对应的预警信息进行输出,以供维护人员进行问题的确定,并及时进行处理。因为这些预警信息是相应的服务器可能会出现的硬件故障,维护人员可以根据该预警信息及时查找问题,判断该服务器是否可以继续使用,并进行相应的处理,防止服务器出现问题后,影响系统的稳定性。例如,出现了服务器B的磁盘故障的预警信息,那么就可以先将服务器B的磁盘中的业务挪走,然后维护人员进行查看,确定问题点,及时进行解决,如果服务器B可以继续使用,那么就可将业务挪回,如果服务器B不在可用,那么就在加入新的服务器进行更换。

可见,本发明在服务器硬件出现故障之前可以及时的预警,以便根据预警信息获知问题所在并及时处理,消耗的时间短,保证整个服务器硬件系统的稳定性。

虽然服务器中的系统运行日志会保存有服务器运行状态,包括服务器运行过程中的异常信息等。但是服务器中的系统运行日志数量巨大,为了保证效率,不可能遍历服务器中的所有的系统运行日志。在本发明的一个实施例中,步骤S120中的获取服务器系统运行日志,将所获取的服务器系统运行日志与硬件故障预警列表进行匹配包括:获取服务器运行日志中的与硬件相关的日志;将所获取的与硬件相关的日志与硬件故障预警列表进行匹配。因为需要进行硬件故障的预警,所以只需要获取服务器运行日志中的与硬件相关的日志即可。例如,和服务器内存有关的日志;以及和服务器的磁盘、CPU、主板、电源等硬件的日志。

因为硬件相关的日志是不断更新的,那么实时获取硬件相关的日志,以便实现对服务器的实时监控。或者预设时间长度,例如1分钟,每经过1分钟,就获取一次硬件相关的日志。

具体地,上述的获取服务器运行日志中的与硬件相关的日志包括:根据服务器的系统配置,确定保存与硬件相关的日志的日志文件名称;根据所确定的日志文件名称,从相应的日志文件获取与硬件相关的日志。

例如,通过服务器的系统配置中的内存的相关信息,确定服务器中内存相关的日志文件名称,然后根据所确定的内存相关的日志文件名称,从相应的日志文件获取与内存相关的日志。

在本发明的一个实施例中,步骤S130中的在确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,图1所示的方法进一步包括:如果存在与该服务器存储相同数据且提供相同服务的其他服务器,则将该服务器上的服务迁移到其他服务器上。

已经确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障,为了防止该服务器真正发生相应的硬件故障,保证该服务器承担的服务的稳定性,在确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,先将该服务器上的服务迁移到其他服务器上。且,这里说的其它服务器是与该服务器存储相同数据且提供相同服务的其他服务器,保证业务的正常运行。

将该服务器上的服务迁移到其他服务器上线查找是否存在与该服务器存储相同数据且提供相同服务的其他服务器。如果不存在的话,进一步地,步骤S130中的在确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,图1所示的方法进一步包括:如果不存在与该服务器存储相同数据且提供相同服务的其他服务器,则将该服务器上的数据和服务都迁移到指定的备用服务器上。

在本发明的一个实施例中,步骤S130中的在确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,图1所示的方法进一步包括:通过指定渠道向指定位置发送包含该服务器标识和应用故障预警信息的报警消息。

当确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,为了保证相关人员即使获取到该预警信息,那么需要将相关的报警信息以及对应的服务器的信息到指定的位置进行输出,例如,通过邮件的方式发送给维护人员的邮箱中。

但是,不排除报警信息存在错误的可能,即误报的情况,如果存在误报的情况,但是相应的服务器中的数据和服务已经被挪走或者该服务器已经停止使用,为了保证该服务器重新投入使用,具体地,上述方法进一步包括:接收关于该服务器的预警误报通知;将该服务器重新投入使用,或者将挪走的数据和服务重新挪回。例如,电源电压不稳发出的服务器可能断电的报警信息后,该服务器可能会被停止使用,但是,排查后发现该报警信息属于正常的电压波动,那么就需要将该服务器重新投入使用,这时,相关人员就会发送一个该服务器的预警误报通知。所以,当接收到该服务器的预警误报通知后,将该服务器重新投入使用。

因为创建的硬件故障预警列表中的包含的故障预警信息和相应的服务器日志内容不能涵盖所有的情况,也需要不断的更新硬件故障预警列表。在本发明的一个实施例中,图1所示的方法进一步包括:

当有服务器实际发生硬件故障时,既然服务器已经发生硬件故障,那么就说明硬件故障预警列表没有保存关于该硬件故障的预警信息和相应的日志内容。那么就需要获取该服务器发生硬件故障对应的时间范围内的服务器系统运行日志中与硬件相关的日志;根据所获取的与硬件相关的日志中查出至少一条与该服务器实际发生的硬件故障相关的日志;将查找出的日志内容和该服务器实际发生的硬件故障的预警信息对应保存到硬件故障预警列表中,以实现对硬件故障预警列表的更新。

图2示出了根据本发明一个实施例的一种服务器硬件故障预警装置的结构示意图。如图2所示,该服务器硬件故障预警装置200包括:

列表维护单元210,适于预先创建硬件故障预警列表,该列表中对应保存了不同的硬件故障预警信息和相应的服务器日志内容。

服务器中的系统运行日志会保存有服务器运行状态,包括服务器运行过程中的异常信息等。那么,根据已知的故障的预警信息以及其所对应的日志信息,创建一个硬件故障预警列表。该故障预警列表里会包含有不同的硬件故障预警信息和对应的服务器日志内容。例如,故障预警列表里包含有服务器宕机的预警信息和其所对应的服务器日志内容。

日志匹配单元220,适于获取服务器系统运行日志,将所获取的服务器系统运行日志与建硬件故障预警列表进行匹配,如果存在匹配项,通知故障预警单元。

故障预警列表里已经包含有不同的硬件故障预警信息和相应的服务器日志内容,只要服务器系统运行日志中有故障预警列表里的服务器日志内容,该服务器就可能会发生相应的硬件故障。所以,为了检测服务器是否会出现硬件故障,需要获取服务器系统运行日志,然后将所获取的服务器系统运行日志与硬件故障预警列表进行匹配,若没有匹配项,则说明该服务器没有发生硬件故障的风险。

故障预警单元230,适于在收到日志匹配单元的通知后,确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障。

只要监控各个服务器中的系统运行日志内容中是否有符合该故障预警列表中的服务器日志内容的,那么就认为该服务器硬件将要发生匹配项对应的硬件故障预警信息所描述的硬件故障。例如,故障预警列表里包含有服务器宕机的预警信息和其所对应的服务器日志内容。当获取到服务器A中的系统日志内容中存在和故障预警列表里服务器宕机所对应的服务器日志内容匹配的日志内容,那么就认为该服务器A可能会发生过保预警信息中所描述的宕机的硬件故障。

当存在匹配项后,将对应的预警信息进行输出,以供维护人员进行问题的确定,并及时进行处理。因为这些预警信息是相应的服务器可能会出现的硬件故障,维护人员可以根据该预警信息及时查找问题,判断该服务器是否可以继续使用,并进行相应的处理,防止服务器出现问题后,影响系统的稳定性。例如,出现了服务器B的磁盘故障的预警信息,那么就可以先将服务器B的磁盘中的业务挪走,然后维护人员进行查看,确定问题点,及时进行解决,如果服务器B可以继续使用,那么就可将业务挪回,如果服务器B不在可用,那么就在加入新的服务器进行更换。

可见,本发明在服务器硬件出现故障之前可以及时的预警,以便根据预警信息获知问题所在并及时处理,消耗的时间短,保证整个服务器硬件系统的稳定性。

虽然服务器中的系统运行日志会保存有服务器运行状态,包括服务器运行过程中的异常信息等。但是服务器中的系统运行日志数量巨大,为了保证效率,不可能遍历服务器中的所有的系统运行日志。在本发明的一个实施例中,日志匹配单元220,适于获取服务器运行日志中的与硬件相关的日志;将所获取的与硬件相关的日志与硬件故障预警列表进行匹配。因为需要进行硬件故障的预警,所以只需要获取服务器运行日志中的与硬件相关的日志即可。例如,和服务器内存有关的日志;以及和服务器的磁盘、CPU、主板、电源等硬件的日志。

因为硬件相关的日志是不断更新的,那么实时获取硬件相关的日志,以便实现对服务器的实时监控。或者预设时间长度,例如1分钟,每经过1分钟,就获取一次硬件相关的日志。

具体地,日志匹配单元220,适于根据服务器的系统配置,确定保存与硬件相关的日志的日志文件名称;根据所确定的日志文件名称,从相应的日志文件获取与硬件相关的日志。

例如,通过服务器的系统配置中的内存的相关信息,确定服务器中内存相关的日志文件名称,然后根据所确定的内存相关的日志文件名称,从相应的日志文件获取与内存相关的日志。

图3示出了根据本发明另一个实施例的一种服务器硬件故障预警装置的结构示意图。如图3所示,该服务器硬件故障预警装置300包括:列表维护单元310、日志匹配单元320、故障预警单元330和预警处理单元340。其中,列表维护单元310、日志匹配单元320、故障预警单元330和图2所示的列表维护单元210、日志匹配单元220、故障预警单元230具有对应相同的功能,相同的部分在此不再赘述。

预警处理单元340,适于当故障预警单元确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障时,判断是否存在与该服务器存储相同数据且提供相同服务的其他服务器,如果存在则将该服务器上的服务迁移到其他服务器上。

已经确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障,为了防止该服务器真正发生相应的硬件故障,保证该服务器承担的服务的稳定性,在确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,先将该服务器上的服务迁移到其他服务器上。且,这里说的其它服务器是与该服务器存储相同数据且提供相同服务的其他服务器,保证业务的正常运行。

将该服务器上的服务迁移到其他服务器上线查找是否存在与该服务器存储相同数据且提供相同服务的其他服务器。如果不存在的话,在本发明的一个实施例中,预警处理单元340,进一步适于当判断出不存在与该服务器存储相同数据且提供相同服务的其他服务器时,将该服务器上的数据和服务都迁移到指定的备用服务器上。

在本发明的一个实施例中,故障预警单元330,进一步适于通过指定渠道向指定位置发送包含该服务器标识和应用故障预警信息的报警消息。

当确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,为了保证相关人员即使获取到该预警信息,那么需要将相关的报警信息以及对应的服务器的信息到指定的位置进行输出,例如,通过邮件的方式发送给维护人员的邮箱中。

但是,不排除报警信息存在错误的可能,即误报的情况,如果存在误报的情况,但是相应的服务器中的数据和服务已经被挪走或者该服务器已经停止使用,为了保证该服务器重新投入使用,具体地,故障预警单元330,进一步适于接收关于该服务器的预警误报通知;将该服务器重新投入使用,或者将挪走的数据和服务重新挪回。例如,电源电压不稳发出的服务器可能断电的报警信息后,该服务器可能会被停止使用,但是,排查后发现该报警信息属于正常的电压波动,那么就需要将该服务器重新投入使用,这时,相关人员就会发送一个该服务器的预警误报通知。所以,当接收到该服务器的预警误报通知后,将该服务器重新投入使用。

因为创建的硬件故障预警列表中的包含的故障预警信息和相应的服务器日志内容不能涵盖所有的情况,也需要不断的更新硬件故障预警列表。在本发明的一个实施例中,列表维护单元310,进一步适于当有服务器实际发生硬件故障时,既然服务器已经发生硬件故障,那么就说明硬件故障预警列表没有保存关于该硬件故障的预警信息和相应的日志内容。那么就需要获取该服务器发生硬件故障对应的时间范围内的服务器系统运行日志中与硬件相关的日志;根据所获取的与硬件相关的日志中查出至少一条与该服务器实际发生的硬件故障相关的日志;将查找出的日志内容和该服务器实际发生的硬件故障的预警信息对应保存到硬件故障预警列表中,以实现对硬件故障预警列表的更新。

综上所述,根据本发明的技术方案,预先创建一个保存有对应不同的硬件故障预警信息和相应的服务器日志内容的硬件故障预警列表;实时获取服务器系统运行日志,并与预先创建的建硬件故障预警列表进行匹配;如果没有匹配项,说明该服务器不会出现硬件故障;如果有匹配项,那么就确定该服务器硬件将要发生匹配项对应的硬件故障预警信息所描述的硬件故障,是服务器硬件维护人员及时得到预警信息,根据预警信息就可以及时的发现即将出现故障的服务器硬件和问题所在,并可以进行及时处理。可见,本发明在服务器硬件出现故障之前可以及时的预警,以便根据预警信息获知问题所在并及时处理,消耗的时间短,保证整个服务器硬件系统的稳定性。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器硬件故障预警装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种服务器硬件故障预警方法,包括:

预先创建硬件故障预警列表,该列表中对应保存了不同的硬件故障预警信息和相应的服务器日志内容;

获取服务器系统运行日志,将所获取的服务器系统运行日志与所述硬件故障预警列表进行匹配;

如果存在匹配项,则确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障。

A2、如A1所述的方法,其中,所述获取服务器系统运行日志,将所获取的服务器系统运行日志与所述硬件故障预警列表进行匹配包括:

获取服务器运行日志中的与硬件相关的日志;

将所获取的与硬件相关的日志与所述硬件故障预警列表进行匹配。

A3、如A2所述的方法,其中,所述获取服务器运行日志中的与硬件相关的日志包括:

根据服务器的系统配置,确定保存与硬件相关的日志的日志文件名称;

根据所确定的日志文件名称,从相应的日志文件获取与硬件相关的日志。

A4、如A1所述的方法,其中,在所述确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,该方法进一步包括:

如果存在与该服务器存储相同数据且提供相同服务的其他服务器,则将该服务器上的服务迁移到所述其他服务器上。

A5、如A4所述的方法,其中,在所述确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,该方法进一步包括:

如果不存在与该服务器存储相同数据且提供相同服务的其他服务器,则将该服务器上的数据和服务都迁移到指定的备用服务器上。

A6、如A1所述的方法,其中,在所述确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障之后,该方法进一步包括:

通过指定渠道向指定位置发送包含该服务器标识和所述应用故障预警信息的报警消息。

A7、如A6所述的方法,其中,该方法进一步包括:

接收关于该服务器的预警误报通知;

将该服务器重新投入使用。

A8、如A1-A7中任一项所述的方法,其中,该方法进一步包括:

当有服务器实际发生硬件故障时,获取该服务器发生硬件故障对应的时间范围内的服务器系统运行日志中与硬件相关的日志;

根据所获取的与硬件相关的日志中查出至少一条与该服务器实际发生的硬件故障相关的日志;

将查找出的日志内容和该服务器实际发生的硬件故障的预警信息对应保存到所述硬件故障预警列表中。

本发明还公开了B9、一种服务器硬件故障预警装置,包括:

列表维护单元,适于预先创建硬件故障预警列表,该列表中对应保存了不同的硬件故障预警信息和相应的服务器日志内容;

日志匹配单元,适于获取服务器系统运行日志,将所获取的服务器系统运行日志与所述建硬件故障预警列表进行匹配,如果存在匹配项,通知故障预警单元;

故障预警单元,适于在收到日志匹配单元的通知后,确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障。

B10、如B9所述的装置,其中,

所述日志匹配单元,适于获取服务器运行日志中的与硬件相关的日志;将所获取的与硬件相关的日志与所述硬件故障预警列表进行匹配。

B11、如B10所述的装置,其中,

所述日志匹配单元,适于根据服务器的系统配置,确定保存与硬件相关的日志的日志文件名称;根据所确定的日志文件名称,从相应的日志文件获取与硬件相关的日志。

B12、如B9所述的装置,其中,该装置进一步包括:

预警处理单元,适于当所述故障预警单元确定该服务器将要发生匹配项对应的硬件故障预警信息所描述的硬件故障时,判断是否存在与该服务器存储相同数据且提供相同服务的其他服务器,如果存在则将该服务器上的服务迁移到所述其他服务器上。

B13、如B12所述的装置,其中,

所述预警处理单元,进一步适于当判断出不存在与该服务器存储相同数据且提供相同服务的其他服务器时,将该服务器上的数据和服务都迁移到指定的备用服务器上。

B14、如B9所述的装置,其中,

所述故障预警单元,进一步适于通过指定渠道向指定位置发送包含该服务器标识和所述应用故障预警信息的报警消息。

B15、如B14所述的装置,其中,

所述故障预警单元,进一步适于接收关于该服务器的预警误报通知;将该服务器重新投入使用。

B16、如B9-B15中任一项所述的装置,其中,

所述列表维护单元,进一步适于当有服务器实际发生硬件故障时,获取该服务器发生硬件故障对应的时间范围内的服务器系统运行日志中与硬件相关的日志;根据所获取的与硬件相关的日志中查出至少一条与该服务器实际发生的硬件故障相关的日志;将查找出的日志内容和该服务器实际发生的硬件故障的预警信息对应保存到所述硬件故障预警列表中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1