一种服务器故障检测方法、系统及电子设备和存储介质与流程

文档序号:18884356发布日期:2019-10-15 20:39阅读:269来源:国知局
一种服务器故障检测方法、系统及电子设备和存储介质与流程

本申请涉及计算机技术领域,更具体地说,涉及一种服务器故障检测方法、系统及一种电子设备和一种计算机可读存储介质。



背景技术:

随着信息技术的飞速发展以及云计算和物联网的落地,用户对服务器的可靠性和信息处理能力有了更高的要求。与传统服务器相比,基于whitely平台的新一代服务器在计算性能和可靠性上与传统服务器相比具有很大的优势,并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。同时基于whitely平台的新一代服务器在机柜内采用集中管理和分级管理的策略,整机柜统一进行故障监控、故障管理和故障记录,故障发生的原因更加复杂,分析更加困难。

目前服务器对故障的监控并不充分,对故障发生原因的分析并不精准,尤其是在发生系统故障时,很难得到发生故障时的具体信息,因此需要更多的信息来帮助进行故障分析。

因此,如何确定发生故障时的具体信息是本领域技术人员需要解决的技术问题。



技术实现要素:

本申请的目的在于提供一种服务器故障检测方法、系统及一种电子设备和一种计算机可读存储介质,通过自动收集故障发生时的屏幕内容,更准确更高效的定位故障原因,从而可以更及时更有效的处理服务器管理过程中发生的故障。

为实现上述目的,本申请提供了一种服务器故障检测方法,包括:

检测所述服务器是否发生故障;

若是,则触发截屏功能,并将截屏图片保存至非易失性存储器中。

其中,所述非易失性存储器包括flash、tf卡、bmcconf分区中的任一项。

其中,所述触发截屏功能之前,还包括:

确定所述故障的故障类型;

相应的,所述将截屏图片保存至非易失性存储器中,包括:

将截屏图片保存至所述故障类型对应的非易失性存储器中。

其中,所述故障类型包括ierr故障和/或mce故障。

其中,所述检测所述服务器是否发生故障,包括:

获取所述服务器的gpio信号,并通过所述gpio信号检测所述服务器是否发生故障;

相应的,所述确定所述故障的故障类型,包括:

通过所述gpio信号中各电平的电平状态确定所述故障的故障类型。

其中,所述ierr故障对应的非易失性存储器中保存最近m个截屏图片;所述mce故障对应的非易失性存储器中保存最近n个截屏图片。

为实现上述目的,本申请提供了一种服务器故障检测系统,包括:

检测模块,用于检测所述服务器是否发生故障;若是,则启动截屏模块的工作流程;

所述截屏模块,用于触发截屏功能,并将截屏图片保存至非易失性存储器中。

其中,还包括:

确定模块,用于确定所述故障的故障类型;

相应的,所述截屏模块具体为触发截屏功能,并将截屏图片保存至所述故障类型对应的非易失性存储器中的模块。

为实现上述目的,本申请提供了一种电子设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上述服务器故障检测方法的步骤。

为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述服务器故障检测方法的步骤。

通过以上方案可知,本申请提供的一种服务器故障检测方法,包括:检测所述服务器是否发生故障;若是,则触发截屏功能,并将截屏图片保存至非易失性存储器中。

本申请提供的服务器故障检测方法,通过自动收集故障发生时的屏幕内容,更准确更高效的定位故障原因,从而可以更及时更有效的处理服务器管理过程中发生的故障,大大降低服务器的维护成本,提高产品竞争力,满足新一代平台的要求。本申请还公开了一种服务器故障检测系统及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1为根据一示例性实施例示出的一种服务器故障检测方法的流程图;

图2为根据一示例性实施例示出的另一种服务器故障检测方法的流程图;

图3为根据一示例性实施例示出的又一种服务器故障检测方法的流程图;

图4为根据一示例性实施例示出的一种服务器故障检测系统的结构图;

图5为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例公开了一种服务器故障检测方法,通过自动收集故障发生时的屏幕内容,更准确更高效的定位故障原因,从而可以更及时更有效的处理服务器管理过程中发生的故障。

参见图1,根据一示例性实施例示出的一种服务器故障检测方法的流程图,如图1所示,包括:

s101:检测所述服务器是否发生故障;若是,则进入s102;

本实施例的执行主体可以为服务器中的bmc(中文全称:基板管理控制器,英文全称:baseboardmanagementcontroller),当检测到本机服务器发生故障时进入s102。此处的故障可以包括ierr(internalerror)故障、mce(machinecheckexception)故障等,在此不进行具体限定。

需要说明的是,本实施例及本文以下实施例中的服务器可以是intel平台的服务器,如基于purley平台的服务器,当然,同样可以是其他平台的服务器,本申请在此不做任何限制,只要符合本申请实施例所公开服务器故障检测方法中的服务器架构即可。

s102:触发截屏功能,并将截屏图片保存至非易失性存储器中。

在本步骤中,当检测到服务器发生故障时,触发截屏功能,并将截屏图片保存至非易失性存储器中,本实施例中的非易失性存储器可以包括flash、tf卡、bmcconf分区等,在此不进行具体限定。运维人员可以在web界面上查看截屏内容、截屏时间、触发条件等,截屏图片可以在发生故障时提供的具体信息。运维人员也可以在web界面和ipmi(中文全称:智能平台管理接口,英文全称:intelligentplatformmanagementinterface)命令设置截屏功能是否开启。

本申请实施例提供的服务器故障检测方法,通过自动收集故障发生时的屏幕内容,更准确更高效的定位故障原因,从而可以更及时更有效的处理服务器管理过程中发生的故障,大大降低服务器的维护成本,提高产品竞争力,满足新一代平台的要求。

本申请实施例公开了一种服务器故障检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:

参见图2,根据一示例性实施例示出的另一种服务器故障检测方法的流程图,如图2所示,包括:

s201:检测所述服务器是否发生故障;若是,则进入s202;

s202:确定所述故障的故障类型,并触发截屏功能;

s203:将截屏图片保存至所述故障类型对应的非易失性存储器中。

在本实施例中,当检测到服务器发生故障时,确定故障类型,故障类型可以包括ierr故障、mce故障等。对于不同故障类型的截屏图片进行分别保存,进一步方便运维人员进行故障定位及分析。

本申请实施例公开了一种服务器故障检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:

参见图3,根据一示例性实施例示出的又一种服务器故障检测方法的流程图,如图3所示,包括:

s301:获取所述服务器的gpio信号,并通过所述gpio信号检测所述服务器是否发生ierr故障或mce故障;若是,则进入s302;

s302:通过所述gpio信号中各电平的电平状态确定所述故障的故障类型;

在本实施例中,通过gpio(中文全称:总线扩展器,英文全称:generalpurposeinputoutput)信号检测服务器是否发送故障及故障类型。需要说明的是,gpio能够提供额外的监控功能。本实施例通过gpio来实现对与各引脚的电平状态进行实时监测,然后根据电平状态来判断目标服务器是否出现故障及故障类型。

s303:触发截屏功能,并将截屏图片保存至所述故障类型对应的非易失性存储器中。

在具体实施中,对于不同故障类型的故障可以保存不同数量的截屏图片,即所述ierr故障对应的非易失性存储器中保存最近m个截屏图片;所述mce故障对应的非易失性存储器中保存最近n个截屏图片。例如,在监控到发生ierr故障时自动触发系统截屏功能,并将截屏图片保存在非易失性介质中,保存最近1次异常时的截屏。在监控到发生mce故障时自动触发系统截屏功能,并将截屏图片保存在非易失性介质中,保存最近3次异常时的截屏。

下面对本申请实施例提供的一种服务器故障检测系统进行介绍,下文描述的一种服务器故障检测系统与上文描述的一种服务器故障检测方法可以相互参照。

参见图4,根据一示例性实施例示出的一种服务器故障检测系统的结构图,如图4所示,包括:

检测模块401,用于检测所述服务器是否发生故障;若是,则启动截屏模块的工作流程;

所述截屏模块402,用于触发截屏功能,并将截屏图片保存至非易失性存储器中。

本申请实施例提供的服务器故障检测系统,通过自动收集故障发生时的屏幕内容,更准确更高效的定位故障原因,从而可以更及时更有效的处理服务器管理过程中发生的故障,大大降低服务器的维护成本,提高产品竞争力,满足新一代平台的要求。

在上述实施例的基础上,作为一种优选实施方式,所述非易失性存储器包括flash、tf卡、bmcconf分区中的任一项。

在上述实施例的基础上,作为一种优选实施方式,还包括:

确定模块,用于确定所述故障的故障类型;

相应的,所述截屏模块具体为触发截屏功能,并将截屏图片保存至所述故障类型对应的非易失性存储器中的模块。

在上述实施例的基础上,作为一种优选实施方式,所述故障类型包括ierr故障和/或mce故障。

在上述实施例的基础上,作为一种优选实施方式,所述检测模块401具体为获取所述服务器的gpio信号,并通过所述gpio信号检测所述服务器是否发生故障的模块;

相应的,所述确定模块具体为通过所述gpio信号中各电平的电平状态确定所述故障的故障类型的模块。

在上述实施例的基础上,作为一种优选实施方式,所述ierr故障对应的非易失性存储器中保存最近m个截屏图片;所述mce故障对应的非易失性存储器中保存最近n个截屏图片。

关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本申请还提供了一种电子设备,参见图5,本申请实施例提供的一种电子设备500的结构图,如图5所示,可以包括处理器11和存储器12。该电子设备500还可以包括多媒体组件13,输入/输出(i/o)接口14,以及通信组件15中的一者或多者。

其中,处理器11用于控制该电子设备500的整体操作,以完成上述的服务器故障检测方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口14为处理器11和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g或4g,或它们中的一种或几种的组合,因此相应的该通信组件15可以包括:wi-fi模块,蓝牙模块,nfc模块。

在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic)、数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd)、可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的服务器故障检测方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述服务器故障检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器12,上述程序指令可由电子设备500的处理器11执行以完成上述的服务器故障检测方法。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1