一种CPU故障定位方法、装置、设备及存储介质与流程

文档序号:16666633发布日期:2019-01-18 23:19阅读:211来源:国知局
一种CPU故障定位方法、装置、设备及存储介质与流程

本发明涉及计算机应用技术领域,特别是涉及一种cpu故障定位方法、装置、设备及存储介质。



背景技术:

随着计算机技术的快速发展,大数据、云服务被关注程度越来越高,各大运营商及众多互联网企业对服务器数量的需求逐年增长,对服务器性能的要求也是越来越高。在服务器cpu(centralprocessingunit,中央处理器)运行过程中,可能会发生故障,如何对故障进行准确定位,成为提高服务器性能的技术手段之一。

目前,cpu发生故障时,会将告警信息发送给bmc(baseboardmanagementcontroller,基板管理控制器),bmc再将告警信息发送给告警服务器。运维人员通过告警服务器获取到告警信息后,对故障进行分析定位。

但是,因为cpu告警类型较多,有些告警持续时间较短,当故障发生后,运维人员获取到告警信息对其进行分析时,现象大都已经消失,无法获取到更多有效信息进行分析,使得故障定位准确性较低、难度较大。



技术实现要素:

本发明的目的是提供一种cpu故障定位方法、装置、设备及存储介质,以对cpu故障进行准确定位,提高故障分析的可行性和服务器运行的安全性。

为解决上述技术问题,本发明提供如下技术方案:

一种cpu故障定位方法,应用于服务器bmc,所述方法包括:

在监测到cpu发生故障时,确定当前故障的故障类型;

抓取与所述故障类型相关的当前设备状态信息;

将所述当前设备状态信息存储到设定存储位置,以基于所述当前设备状态信息对cpu故障进行分析定位。

在本发明的一种具体实施方式中,还包括:

在监测所述cpu的过程中,如果接收到所述cpu的告警信息,则确定所述cpu发生故障。

在本发明的一种具体实施方式中,还包括:

基于所述当前故障的告警信息及所述当前设备状态信息,生成故障日志;

将所述故障日志保存到本地日志文件中。

在本发明的一种具体实施方式中,还包括:

将所述故障日志上报给远程日志服务器。

在本发明的一种具体实施方式中,所述当前设备状态信息至少包括当前cpu寄存器信息、当前cpu温度信息和当前cpu电压信息。

一种cpu故障定位装置,应用于服务器bmc,所述装置包括:

故障类型确定模块,用于在监测到cpu发生故障时,确定当前故障的故障类型;

状态信息抓取模块,用于抓取与所述故障类型相关的当前设备状态信息;

状态信息存储模块,用于将所述当前设备状态信息存储到设定存储位置,以基于所述当前设备状态信息对cpu故障进行分析定位。

在本发明的一种具体实施方式中,还包括:

故障确定模块,用于在监测所述cpu的过程中,如果接收到所述cpu的告警信息,则确定所述cpu发生故障。

在本发明的一种具体实施方式中,还包括:

故障日志生成模块,用于基于所述当前故障的告警信息及所述当前设备状态信息,生成故障日志;

故障日志保存模块,用于将所述故障日志保存到本地日志文件中;

故障日志上报模块,用于将所述故障日志上报给远程日志服务器。

一种cpu故障定位设备,应用于服务器bmc,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任一项所述cpu故障定位方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述cpu故障定位方法的步骤。

应用本发明实施例所提供的技术方案,服务器bmc在监测到cpu发生故障时,确定当前故障的故障类型,抓取与故障类型相关的当前设备状态信息,将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对cpu故障进行分析定位。bmc及时抓取cpu发生故障时的设备状态信息,使得运维人员可以基于当前设备状态信息对cpu故障进行分析定位,可以提高定位准确性,提高故障分析的可行性和服务器运行的安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种cpu故障定位方法的实施流程图;

图2为本发明实施例中一种cpu故障定位装置的结构示意图;

图3为本发明实施例中一种cpu故障定位设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的核心是提供一种cpu故障定位方法,该方法可以应用于服务器bmc,bmc可以对服务器的cpu进行管理。在监测到cpu发生故障时,将抓取到的当前设备状态信息存储到设定存储位置,以使运维人员获取到cpu故障发生的第一时间的设备状态信息,并基于该设备状态信息对cpu故障进行分析定位,提高定位准确性。

参见图1所示,为本发明实施例所提供的一种cpu故障定位方法,该方法可以包括以下步骤:

s110:在监测到cpu发生故障时,确定当前故障的故障类型。

在cpu运行过程中,bmc可以对cpu的运行状态进行监测。在监测cpu的过程中,如果接收到cpu的告警信息,则可以确定cpu发生故障。

在实际应用中,cpu发生故障时,会向bmc发送相应的告警信息,在告警信息中可以携带故障类型信息。bmc接收到cpu发送的告警信息,即可确定cpu发生了故障,在这种情况下,可以先确定当前故障的故障类型。

cpu的故障类型可以包括指令相关故障、计数相关故障、程序相关故障等。

s120:抓取与故障类型相关的当前设备状态信息。

bmc在监测到cpu发生故障,并确定当前故障的故障类型后,即可抓取与该故障类型相关的当前设备状态信息,以获取到cpu发生故障的第一时间的设备状态信息。当前设备状态信息至少包括当前cpu寄存器信息、当前cpu温度信息和当前cpu电压信息。还可以包括当前cpu处理业务信息、当前cpu占用率信息等。

如故障类型为指令相关故障,则可以抓取当前cpu中指令寄存器信息、当前cpu温度信息和当前cpu电压信息等;如故障类型为计数相关故障,则可以抓取当前cpu中计数寄存器信息、当前cpu温度信息和当前cpu电压信息等。

不同故障类型对应于不同的设备状态信息,可以预先设定相应的对应关系,并下发给bmc,bmc在确定cpu发生故障的故障类型时,根据该对应关系可以获知当前故障的故障类型对应哪些设备状态信息,并进行相应的抓取操作。

s130:将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对cpu故障进行分析定位。

在本发明实施例中,bmc抓取到与故障类型相关的当前设备状态信息后,可以将抓取到的当前设备状态信息存储到设定存储位置,如存储到黑盒日志中,为故障的分析及解决保留重要的数据信息。运维人员在该存储位置可以获取到cpu发生故障时的设备状态信息,基于当前设备状态信息可以对cpu故障进行分析定位,有利于cpu故障的及时诊断解决。

应用本发明实施例所提供的方法,服务器bmc在监测到cpu发生故障时,确定当前故障的故障类型,抓取与故障类型相关的当前设备状态信息,将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对cpu故障进行分析定位。bmc及时抓取cpu发生故障时的设备状态信息,使得运维人员可以基于当前设备状态信息对cpu故障进行分析定位,可以提高定位准确性,提高故障分析的可行性和服务器运行的安全性。

在本发明的一个实施例中,该方法还可以包括以下步骤:

步骤一:基于当前故障的告警信息及当前设备状态信息,生成故障日志;

步骤二:将故障日志保存到本地日志文件中。

为便于描述,将上述两个步骤结合起来进行说明。

bmc抓取到与故障类型相关的当前设备状态信息后,可以基于当前故障的告警信息及当前设备状态信息,生成故障日志,在故障日志中记录相关信息。

将故障日志保存到本地日志文件中,后续运维人员通过查询本地日志文件可以获取到相关故障日志。

在本发明的一个实施例中,该方法还可以包括以下步骤:

将故障日志上报给远程日志服务器。

在服务器集群中,每个服务器可以将故障日志上报给远程日志服务器,远程日志服务器存储各个服务器上报的故障日志,方便运维人员对各个服务器的故障日志进行联合分析,定位问题。

相应于上面的方法实施例,本发明实施例还提供了一种cpu故障定位装置,应用于服务器bmc,下文描述的一种cpu故障定位装置与上文描述的一种cpu故障定位方法可相互对应参照。

参见图2所示,该装置包括以下模块:

故障类型确定模块210,用于在监测到cpu发生故障时,确定当前故障的故障类型;

状态信息抓取模块220,用于抓取与故障类型相关的当前设备状态信息;

状态信息存储模块230,用于将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对cpu故障进行分析定位。

应用本发明实施例所提供的装置,服务器bmc在监测到cpu发生故障时,确定当前故障的故障类型,抓取与故障类型相关的当前设备状态信息,将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对cpu故障进行分析定位。bmc及时抓取cpu发生故障时的设备状态信息,使得运维人员可以基于当前设备状态信息对cpu故障进行分析定位,可以提高定位准确性,提高故障分析的可行性和服务器运行的安全性。

在本发明的一种具体实施方式中,还包括:

故障确定模块,用于在监测cpu的过程中,如果接收到cpu的告警信息,则确定cpu发生故障。

在本发明的一种具体实施方式中,还包括:

故障日志生成模块,用于基于当前故障的告警信息及当前设备状态信息,生成故障日志;

故障日志保存模块,用于将故障日志保存到本地日志文件中。

在本发明的一种具体实施方式中,还包括:

故障日志上报模块,用于将故障日志上报给远程日志服务器。

在本发明的一种具体实施方式中,当前设备状态信息至少包括当前cpu寄存器信息、当前cpu温度信息和当前cpu电压信息。

相应于上面的方法实施例,本发明实施例还提供了一种cpu故障定位设备,应用于服务器bmc,参见图3所示,该设备包括:

存储器310,用于存储计算机程序;

处理器320,用于执行计算机程序时实现上述cpu故障定位方法的步骤。

相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述cpu故障定位方法的步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1