一种服务器故障检测的方法、装置、设备及存储介质与流程

文档序号:14950564发布日期:2018-07-17 22:27阅读:127来源:国知局

本发明涉及设备检测领域,特别涉及一种服务器故障检测的方法、装置、设备及计算机可读存储介质。



背景技术:

随着信息技术的飞速发展以及云计算和物联网的落地,用户对服务器的可靠性和信息处理能力有了更高的要求。与传统服务器相比,基于purley平台的新一代服务器在计算性能和可靠性上与传统服务器相比具有很大的优势,因此基于purley平台的服务器应用越来越广泛。随着服务器中的设备越来越多,因此导致各设备发生故障的因素也越来越多,对服务器中设备的故障检测工作也日益重要。

现有技术中基于purley平台的服务器的故障检测方式是机柜内采用集中管理和分级管理的策略,通过整机柜对服务器中的所有设备统一进行故障监控、故障管理和故障记录,在检测到设备异常的信息以后,发出提示信息以便提示操作人员对服务器中的设备进行排查,找出异常的设备。但是这种方式是在检测出有设备异常后通过人工排查的方式找出故障发生的位置,需要耗费大量的人力物力。

因此,如何提高服务器故障检测的便捷性是本领域技术人员目前需要解决的技术问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种服务器故障检测的方法,能够提高服务器故障检测的便捷性;本发明的另一目的是提供一种服务器故障检测的装置、设备及计算机可读存储介质,均具有上述有益效果。

为解决上述技术问题,本发明提供一种服务器故障检测的方法,包括:

接收由上电自检程序在检测到异常设备时发送的触发信息;

根据所述触发信息获取所述异常设备对应的寄存器数据;

根据预设的分析规则对所述寄存器数据进行分析并得出分析结果。

优选地,进一步包括:

将所述分析结果记录在故障日志中。

优选地,在所述将所述分析结果记录在故障日志中之后进一步包括:

通过网页显示所述故障日志的内容。

优选地,在所述将所述分析结果记录在故障日志中之后进一步包括:

利用警示器报警。

优选地,所述警示器具体为蜂鸣器和/或指示灯。

优选地,所述警示器包括多种报警信号,且各所述报警信号分别对应不同的故障情况。

优选地,其特征在于,在所述接收由上电自检程序在检测到异常设备时发送的触发信息之后进一步包括:

判断所述触发信息的格式是否与预设的格式相同;

若是,则进入所述根据所述触发信息获取所述异常设备对应的寄存器数据步骤;

若否,则结束进程。

为解决上述技术问题,本发明还提供一种服务器故障检测的装置,包括:

接收模块,用于接收由上电自检程序在检测到异常设备时发送的触发信息;

获取模块,用于根据所述触发信息获取所述异常设备对应的寄存器数据;

分析模块,用于根据预设的分析规则对所述寄存器数据进行分析并得出分析结果。

为解决上述技术问题,本发明还提供一种服务器故障检测的设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任一种服务器故障检测的方法的步骤。

为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种服务器故障检测的方法的步骤。

本发明提供的服务器故障检测的方法,通过接收由上电自检程序在检测到异常设备时发送的触发信息;然后根据触发信息获取异常设备对应的寄存器数据;再根据预设的分析规则对寄存器数据进行分析并得出分析结果。

可见,本方法通过上电自检程序对服务器的设备进行检测,在检测到异常设备时发送触发信息;在接收到触发消息后,根据触发信息获取异常设备对应的寄存器数据,再根据预设的分析规则分析寄存器数据并得出分析结果。也就是说,通过触发信息获取异常设备对应的寄存器数据,通过对异常设备的寄存器数据进行分析得出分析结果,从而不仅快速准确地获取异常设备的异常情况,还能快速准确地获取发生异常的设备的位置信息,进而提高服务器故障检测的便捷性。

为解决上述技术问题,本发明还提供了一种服务器故障检测的装置、设备及计算机可读存储介质,均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种服务器故障检测的方法的流程图;

图2为本发明实施例提供的另一种服务器故障检测的方法的流程图;

图3为本发明实施例提供的一种服务器故障检测的装置的结构图;

图4为本发明实施例提供的一种服务器故障检测的设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例的核心是提供一种服务器故障检测的方法,能够提高服务器故障检测的便捷性;本发明的另一核心是提供一种服务器故障检测的装置、设备及计算机可读存储介质,均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种服务器故障检测的方法的流程图。请参考图1,服务器故障检测的方法包括:

s10:接收由上电自检程序在检测到异常设备时发送的触发信息。

需要说明的是,上电自检程序(post,power-on-self-test)是bios(basicinputoutputsystem,基本输入输出系统)功能的一个主要部分,主要完成对cpu、主板、内存、软硬盘子系统、显示子系统(包括显示缓存)、串并行接口、键盘、cd-rom光驱等硬件设备的检测。具体的,在服务器主板接通电源的时候,上电自检程序将会对服务器上的设备进行检查。通过对服务器上的设备进行故障检测,判断设备是否正常工作,从而保障服务器的正常工作。

在具体实施中,当上电自检程序检测到某个设备异常时,也就是检测到存在异常设备时,发送触发信息。可以理解的是,触发信息用于触发开始后续的进程以及携带异常设备的信息。本实施例对触发信息的具体类型不做限定,作为优选的实施方式,触发信息可以是sel日志(systemeventlog,访问系统事件日志)。

另外需要说明的是,本实施例以intel平台的服务器架构为例进行说明,但本实施例不限于intel平台的服务器,还可以应用于其它平台的服务器与计算机平台。

s20:根据触发信息获取异常设备对应的寄存器数据。

具体的,服务器接收到触发信息后,根据触发信息获取异常设备对应的寄存器数据。需要说明的是,在本实施例中,在检测到异常设备时,发送sel日志到服务器bmc(baseboardmanagementcontroller,基板管理控制器),服务器bmc根据peci协议读取对应的寄存器数据。也就是说,根据触发信息携带的异常设备的信息,并根据peci协议获取异常设备对应的寄存器数据。可以理解的是,一些设备的寄存器数据分别存在于多个不同的寄存器中,因此需要根据触发信息获取异常设备对应的所有的寄存器数据。具体的,寄存器包括但不限于mca寄存器、aer寄存器以及pcierootport寄存器等。

需要说明的是,还可以进一步将获取到的寄存器数据存储于黑盒日志(blackbox),以便于后续的操作。可以理解的是,黑盒日志为存储二进制信息的日志文件,一般使用计算机程序进行读取操作。

s30:根据预设的分析规则对寄存器数据进行分析并得出分析结果。

具体的,根据预先设置的分析规则对寄存器数据进行分析,分析规则包括但不限于解码、解析等,以获得分析结果。这样一来,操作者就可以根据分析结果得出异常设备的具体情况。更具体的,若s20中将寄存器数据存储于黑盒日志中,则对应的s30具体包括根据预设的分析规则对存储于黑盒日志中的寄存器数据进行分析并得出分析结果。

本实施例提供的服务器故障检测的方法,通过接收由上电自检程序在检测到设备异常时发送的触发信息;然后根据触发信息获取异常设备对应的寄存器数据;再根据预设的分析规则对寄存器数据进行分析并得出分析结果。

可见,本方法通过上电自检程序对服务器的设备进行检测,在检测到设备异常时发送触发信息;在接收到触发消息后,根据触发信息获取异常设备对应的寄存器数据,再根据预设的分析规则分析寄存器数据并得出分析结果。也就是说,通过触发信息获取异常设备对应的寄存器数据,通过对异常设备的寄存器数据进行分析得出分析结果,从而不仅快速准确地获取异常设备的异常情况,还能快速准确地获取发生异常的设备的位置信息,进而提高服务器故障检测的便捷性。

在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,在接收由上电自检程序在检测到异常设备时发送的触发信息之后进一步包括:

判断触发信息的格式是否与预设的格式相同;

若是,则进入根据触发信息获取异常设备对应的寄存器数据并将寄存器数据存储于黑盒日志的步骤;

若否,则结束进程。

具体的,在接收触发信息之后,判断触发信息的格式是否与预设的格式相同,也就是说,将触发信息的格式与预设的格式进行比较,判断触发信息的格式是否与预设的格式相同,若是,则进入根据触发信息获取异常设备对应的寄存器数据并将寄存器数据存储于黑盒日志的步骤;即若触发信息的格式正确,则继续进行后续的步骤;若触发信息的格式与预设的格式不同,则结束进程;即表示触发信息的格式不正确,那么即使启动后续的步骤,也会由于触发信息的格式不正确而不能准确地获取异常设备的寄存器数据。因此,在接收触发信息之后,增加判断触发信息的格式是否正确的步骤,能够提高获取异常设备的寄存器数据的准确度,从而提高检测服务器中设备异常的效率。

图2为本发明实施例提供的另一种服务器故障检测的方法的流程图。如图2所示,在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,进一步包括:

s40:将分析结果记录在故障日志中。

需要说明的是,故障日志为用于存储设备故障信息的日志文件,通过将分析结果记录在故障日志中,可以通过查看故障日志以获得历史分析结果的信息,即历史故障信息;或者可以通过将故障日志下载到本地存储空间以便进行其他的操作。需要说明的是,本实施例对具体的记录形式不做限定。需要说明的是,分析结果的具体内容可以包括故障发生的时间、故障设备的类型、故障级别、故障码、故障描述以及处理建议等。

作为优选的实施方式,在将分析结果记录在故障日志中之后进一步包括:

s50:通过网页显示故障日志的内容。

可以理解的是,为了使操作者更便捷地获取服务器中异常设备的情况,可以通过网页显示故障日志的内容,即将分析结果以网页的形式显示。具体的,网页可以是服务器web网页,当然也可以是其他的网页,本实施例对网页的具体类型不做限定。

另外,通过网页显示故障日志的内容,可以是将故障日志的内容进行全部显示,也可以对故障日志中的内容进行筛选后再进行显示,本实施例对显示故障日志的内容不做限定。可见,通过网页显示故障日志的内容,增加了获取故障信息的方式,在实际应用中更加实用。

在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,在将分析结果记录在故障日志中之后进一步包括:

利用警示器报警。

警示器具体为蜂鸣器和/或指示灯。

警示器包括多种报警信号,且各报警信号分别对应不同的故障情况。

可以理解的是,在实际应用中,显示器也是属于服务器中的设备之一,当显示器出现异常时,操作者将不能通过显示器获取分析结果即异常设备的信息。因此,在将分析结果记录在故障日志中之后进一步包括利用警示器进行报警,警示器具体为蜂鸣器和/或指示灯。

具体的,在实际应用中,一般使用蜂鸣器或者指示灯对进行报警,通过蜂鸣器或指示灯直观地进行报警提示。

警示器包括多种报警信号,且各报警信号分别对应不同的异常设备的故障情况。更具体的,可以将故障信息通过不同的声音序列进行展示,也就是说,蜂鸣器的蜂鸣声可以是短的蜂鸣声和长的蜂鸣声的组合,将不同的组合方式对应不同的故障内容。例如,可以通过一声短促的蜂鸣声来表示蜂鸣器正常工作;可以通过短促的蜂鸣声表示电源电压不稳定;通过长时间持续的蜂鸣声表示内存故障;通过一长两短的蜂鸣声表示视频卡故障等等;类似的,可以将故障信息通过不同的灯光序列进行展示,也就是说,指示灯的灯光可以是闪烁的灯光和长亮的灯光的组合,同样通过不同的组合方式对应不同的故障内容,此处不再赘述。本实施例对报警信号与故障信息的对应关系不做限定。

可见,通过蜂鸣器和/或指示灯对故障信息进行显示,能够更加直接快速地获取故障信息,提高了故障检测方法的便捷性。

上文对于本发明提供的一种服务器故障检测的方法的实施例进行了详细的描述,本发明还提供了一种与该方法对应的服务器故障检测的装置、设备及计算机可读存储介质,由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应,因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。

图3为本发明实施例提供的一种服务器故障检测的装置的结构图。如图所示,服务器故障检测的装置包括:

接收模块31,用于接收由上电自检程序在检测到异常设备时发送的触发信息;

获取模块32,用于根据触发信息获取异常设备对应的寄存器数据;

分析模块33,用于根据预设的分析规则对寄存器数据进行分析并得出分析结果。

本实施例提供的服务器故障检测的装置,具有上述服务器故障检测的方法的有益效果。

图4为本发明实施例提供的一种服务器故障检测的设备的结构图,包括:

存储器41,用于存储计算机程序;

处理器42,用于执行计算机程序时实现如下步骤:

接收由上电自检程序在检测到异常设备时发送的触发信息;

根据触发信息获取异常设备对应的寄存器数据;

根据预设的分析规则对寄存器数据进行分析并得出分析结果。

本实施例提供的服务器故障检测的设备,具有上述服务器故障检测的方法的有益效果。

为解决上述技术问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现下步骤:

接收由上电自检程序在检测到异常设备时发送的触发信息;

根据触发信息获取异常设备对应的寄存器数据并将寄存器数据存储于黑盒日志;

根据预设的分析规则对黑盒日志中的寄存器数据进行分析并得出分析结果。

本实施例提供的计算机可读存储介质,具有上述服务器故障检测的方法的有益效果。

以上对本发明所提供的服务器故障检测的方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1