一种中央处理器故障定位的方法及装置与流程

文档序号:12271144阅读:368来源:国知局
一种中央处理器故障定位的方法及装置与流程

本发明涉及监控管理领域,特别是涉及一种中央处理器故障定位的方法,还涉及一种中央处理器故障定位的装置。



背景技术:

随着科技发展的迅速,各行各业都离不开计算机,用户对计算机运算能力的要求也在不断的提高。中央处理器(Central Process Unit,简称CPU)是计算机运算和控制的核心,用于解释计算机指令以及处理计算机软件中的数据,是决定计算机运算能力的关键部件。快速准确的定位故障的CPU,可以大大的节省修理或替换故障CPU的时间,从而提高运维人员的工作效率,进一步保证计算机的运算质量。

目前,由于修理或替换故障的CPU需要在断电的情况下实施,现有技术对于故障诊断定位的方法主要是在开机状态下识别出故障的CPU,依靠人工记住CPU的具体位置,然后到达现场按照之前记忆的位置在断电的情况下进行修理或替换故障的CPU。在CPU故障较多或CPU布局复杂的情况下,依靠人为记忆,不可避免的会记错故障CPU的位置,这样就需要反复更换验证,从而浪费大量的时间和人力,严重时甚至会导致整个计算机瘫痪,造成大量业务中断。



技术实现要素:

本发明的目的是提供一种中央处理器故障定位的方法及装置,对现有技术中依靠人为记忆故障CPU位置信息进行改进,提高了定位的准确率。

为解决上述技术问题,本发明实施例提供以下技术方案:

本发明一方面提供了一种中央处理器故障定位的方法,包括:

监控各中央处理器的状态信息;

判断各所述中央处理器是否发生故障,当判定各所述中央处理器中存在故障中央处理器时,生成故障信息;

根据所述故障信息,开启与所述故障中央处理器对应的故障指示灯;

其中,所述故障指示灯在断电的状态下正常工作。

优选的,所述故障指示灯通过大电池或大电容供电,和/或所述故障指示灯通过主板电池供电。

优选的,所述故障指示灯设置在故障指示灯板,或对应的所述中央处理器上;

其中,所述故障指示灯板通过总线与所述中央处理器相连。

优选的,所述判断各所述中央处理器是否发生故障的过程包括:

在判断过程中,所述故障指示灯通过闪烁进行提示;

还包括:

当判定各所述中央处理器未发生故障且对应的所述故障指示灯为开启状态时,关闭对应的所述故障指示灯。

优选的,在所述判断各所述中央处理器是否发生故障之后进一步包括:

当判定各所述中央处理器中存在所述故障中央处理器时,蜂鸣器长鸣进行报警提示。

本发明另一方面提供了一种中央处理器故障定位的装置,包括:

监控模块,用于监控各中央处理器的状态信息;

诊断故障模块,用于判断各所述中央处理器是否发生故障,当判定各所述中央处理器中存在故障中央处理器时,生成故障信息;

故障指示灯控制模块,用于根据所述故障信息,开启与所述故障中央处理器对应的故障指示灯;

其中,所述故障指示灯在断电的状态下正常工作。

优选的,所述故障指示灯通过大电池或大电容供电,和/或所述故障指示灯通过主板电池供电。

优选的,所述故障指示灯设置在故障指示灯板,或对应的所述中央处理器上;

其中,所述故障指示灯板通过总线与所述中央处理器相连。

优选的,所述诊断故障模块具体为:

在判断过程中,所述故障指示灯通过闪烁进行提示;

当判定所述各中央处理器未发生故障且对应的所述故障指示灯为开启状态时,关闭对应的所述故障指示灯的模块。

优选的,该装置进一步包括:

报警模块,用于在判断所述各中央处理器是否发生故障之后,如果判定各所述中央处理器存在所述故障中央处理器,则蜂鸣器长鸣进行报警提示。

本发明实施例提供了一种中央处理器故障定位的方法,即设计故障指示灯,在CPU发生故障后,通过给处于断电状态的所述故障指示灯提供电源,使故障CPU对应的所述故障指示灯正常工作,从而实现了准确定位故障CPU。

本发明的优点在于改进了现有技术中依靠人为记忆故障CPU位置信息,通过故障指示灯的指示快速识别故障CPU的位置,从而节省了寻找故障CPU和更换验证的时间,提高了定位的准确率,从而提高了运维人员的工作效率,一定程度上确保了计算机的运算质量。此外,本发明实施例还针对中央处理器故障定位的方法提供了相应的实现装置,进一步使得所述方法更具有实用性,所述装置具有相应的优点。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种服务器CPU故障定位的结构框图;

图2为本发明实施例提供的一种CPU故障定位方法的流程示意图;

图3为本发明实施例提供的另一种CPU故障定位方法的流程示意图;

图4为本发明实施例提供的一种CPU故障定位装置的结构图;

图5为本发明实施例提供的另一种CPU故障定位装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。

本申请的发明人经过研究发现,对于故障CPU的定位,现有技术依靠人为记忆故障CPU位置信息实现对故障CPU的定位,在CPU设计较为简单,故障发生较少时,依靠现有技术完全可以实现对故障CPU的定位。然而在复杂的布局或CPU出错较多时,人为记忆故障CPU信息难免会有错误,鉴于此,本申请通过设计故障指示灯,在CPU发生故障后,通过给处于断电状态的所述故障指示灯提供电源,使故障CPU对应的所述故障指示灯正常工作,从而实现了准确定位故障CPU,提高了定位的准确率,从而提高了运维人员的工作效率。

基于上述本发明实施例的技术方案,下面首先结合图1对本发明实施例的技术方案涉及的一些可能的应用场景进行举例介绍,图1为本发明实施例提供的一种服务器CPU故障定位的结构框图。

如图1所示,服务器有N个CPU,每个CPU对应的故障指示灯设置于故障指示灯板,所述故障指示灯板通过总线与CPU相连,所述的大电池是用来在断电后,为所述故障指示灯提供电源,使其正常工作。

现有技术中,当CPU出现故障时,工作人员判断故障CPU并记住其位置。到达现场断电后,依据之前记忆的位置对故障CPU进行修理或替换。当故障CPU较多或CPU布局较复杂时,人为记忆难免会出错。

本申请提供的方案是当判定第一CPU出现故障时,开启与第一CPU对应的故障指示灯。当工作人员到达现场,将服务器断电后,CPU故障灯由大电池的提供电源,使其继续保持工作状态。工作人员可以根据CPU故障指示灯的提示确定故障CPU的位置,其后对其进行修理或替换。鉴于现有技术,本申请的方案可快速无差错识别故障CPU位置,提高了工作人员的工作效率,一定程度上保证了服务器的工作质量。

需要注意的是,上述应用场景仅是为了便于理解本申请的思想和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。

在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。

实施例一:

首先参见图2,图2为本发明实施例提供的一种CPU故障定位方法的流程示意图,本发明实施例可包括以下内容:

步骤201:监控各中央处理器的状态信息。

其中,中央处理器至少为两个。当CPU个数为1个时,识别故障CPU的位置是无意义的,因此也不存在定位的问题。

可通过设计程序来监控CPU的状态信息,也可采用其他方式进行监控。

所述状态信息可包括:

CPU电源状态信息,不同状态用不同的符号进行标记,例如C0激活、C1挂起、C2停止允许和C3睡眠等;

CPU的设备性能状态信息,例如监控CPU的电压和时钟频率信息,CPU的占用率等;

CPU温度状态信息,可通过设置温度传感器测定CPU的当前温度。

上述状态信息仅为示例列出,实际操作中,监控CPU状态信息中可还包括其他状态信息。

步骤202:判断各所述中央处理器是否发生故障,当判定各所述中央处理器中存在故障中央处理器时,生成故障信息。

可预设CPU各个状态信息正常工作的值,所述的值可为范围或状态值(例如温度正常工作的范围30-80℃,CPU电源状态值正常工作可为C1),根据步骤201监控得到的状态信息值与预设正常工作值进行比较。如果是数值,不在正常工作的范围内,则表示当前监控的CPU发生故障;如果是状态值,若所监控的状态值为非正常工作的状态值,则表明当前监控的CPU发生故障。例如,当监控当前CPU的温度为90℃,或CPU占用率一直保持在95%以上,或保持超高频或超低频,或CPU核心电压太低,或CPU处于深度睡眠中无法唤醒,出现上述现象时,可判定当前CPU出现故障,需要进行修理或替换。需要说明的是,上述所列举的现象仅为示例,实际操作过程中,判断CPU故障的表征参数和现象还有许多。

判定存在故障CPU时,生成故障信息。所述生成故障信息可以是判定出现一个故障CPU就生成一次故障信息;或也可为设定一个周期,例如1s,在一个周期内,判定出现故障CPU后仅记录当前故障CPU的信息(例如故障信息、CPU位置信息),一个周期结束后,统计出现故障CPU的信息,统一生成故障信息,所述故障信息包括所述周期内所有发生故障CPU的信息。

所述故障信息可以是表结构的故障信息表的,例如对于周期内生成的故障信息表,表的一列为CPU的标号,如第一CPU、第二CPU…第N CPU,一行为相应CPU的位置信息。所述故障信息的格式还可以是文档、图片、网页,当然,必要的时候,也可设为其他格式。

当然,对于设置程序来监控CPU状态,给程序预设正常工作的值,当监控的CPU状态跟预设不同时,则提示当前监控的CPU出现故障;而对于人工进行判断时,则可不提前做预设。具体实现时,结合实际情况做相应的设置。

步骤203:根据所述故障信息,开启与所述故障中央处理器对应的故障指示灯,其中,所述故障指示灯在断电的状态下正常工作。

具体的,所述故障指示灯在断电状态下可由主板电池和/或大电池和/或大电容供电,使其继续保持工作状态。需要说明的是,也可采用其他方式进行供电,只要保证断电状态下故障指示灯可正常工作即可。其中,主板电池只适用于维护时间较短的情况,大电池或大电容可适用于较长时间的维护。实际操作时,CPU故障太多,或CPU布局特别复杂,或为了避免出现维护现场紧急状况而耽搁维护时间,故障指示灯需要长时间保持工作状态,可以将三者结合起来使用或其中两者配合使用如主板电池和大电池,举例来说,断电后,可以先采用主板电池为故障指示灯供电,假设主板电池为当前故障指示灯供电的时间为1h,而工作人员在检查现场后发现CPU布局较为复杂,反馈至少需要1.5h的作业时间,相关人员就可在50min中左右,换到大电池或大电容继续为故障指示灯提供电源。此外还可采用容量大,放电时间长的新型电池或电容(如石墨烯电池或石墨烯电容)。

所述开启故障CPU对于的故障指示灯的方法有两种,即根据断电状态下故障CPU的供电电源决定采用哪种方法。当由主板电池供电时,在断电后,会自动为故障指示灯提供电源;当由大电池或大电容供电时,需要工作人员通过开关开启故障指示灯。

所述故障指示灯的安装位置可直接安装在相应的CPU上,也可在设备显眼的地方(如设备的门或设备的正上方)设置故障指示灯板,所述故障指示灯板安装所有CPU对应的故障指示灯,所述故障指示灯板通过总线与所述中央处理器相连。

所述的故障指示灯可为LED或发光二极管,或其他任意一种灯,只要可以发光即可。优选的,故障指示灯选择针状的、耗电量小和体积小的灯。

可以看出,本发明实施例通过设计故障指示灯,在CPU发生故障后,通过给处于断电状态的所述故障指示灯提供电源,使故障CPU对应的所述故障指示灯继续正常工作,从而实现了准确定位故障CPU。改进了现有技术中依靠人为记忆故障CPU位置信息,通过故障指示灯的指示快速识别故障CPU位置信息,从而提高了运维人员的工作效率。

考虑在实际定位操作过程中,为了更方便的使用该方法,基于上述实施例做了部分改进。

实施例二:

参见图3,图3为本发明实施例提供的另一种CPU故障定位方法的流程示意图,本发明实施例例如可应用于CPU所在的服务器,具体的可包括以下内容:

步骤301:监控各中央处理器的状态信息。

具体的与实施例一的步骤201所描述一致,此处不再赘述。

步骤302:判断各所述中央处理器是否发生故障,如果是,则进入步骤303;

如果否,则进入步骤304。

步骤303:所述故障中央处理器对应的故障指示灯为开启状态,其中,所述故障指示灯在断电的状态下正常工作。

步骤304:所述故障中央处理器对应的故障指示灯为关闭状态。

在判断过程中,可进一步包括故障指示灯通过闪烁进行提示。做该项设置,是为了其客户或工作人员更直观的了解当前的工作状态,也可不做该项设置。具体的:

当判定各所述中央处理器未发生故障且对应的所述故障指示灯为开启状态时,关闭对应的所述故障指示灯;

当判定各所述中央处理器发生故障且对应的所述故障指示灯为关闭状态时,开启对应的所述故障指示灯;

当判定各所述中央处理器未发生故障且对应的所述故障指示灯为关闭状态时,不做任何处理;

当判定各所述中央处理器发生故障且对应的所述故障指示灯为开启状态时,不做任何处理。

在所述判断各所述中央处理器是否发生故障之后进一步包括:

当判定各所述中央处理器中存在所述故障中央处理器时,蜂鸣器长鸣进行报警提示,做该项设置,是为了其客户或工作人员更直观的了解当前CPU的工作状态,可替换为其他提醒装置,但也可不做该项设置。

由上可知,本发明实施例基于实施例一的基础进一步包括在判断过程中设置故障指示灯闪烁和发生故障后提示报警,使得本申请的技术方案更加直观、形象化,方便工作人员使用。

本发明实施例还针对CPU故障定位的方法提供了相应的实现装置,进一步使得所述方法更具有实用性。下面对本发明实施例提供的一种中央处理器故障定位的装置进行介绍,下文描述的一种CPU故障定位的装置与上文描述的一种CPU故障定位的方法可相互对应参照。

实施例三:

参见图4,图4为本发明实施例提供的一种CPU故障定位装置的结构图,该装置可包括:

监控模块401,用于监控各中央处理器的状态信息。

其中,监控模块可设计程序单元来监控各处理器的状态信息,监控的状态信息可为CPU电源状态信息,不同状态用不同的符号进行标记,例如C0激活、C1挂起、C2停止允许和C3睡眠等;CPU的设备性能状态信息,例如监控CPU的电压和时钟频率信息,CPU的占用率等;CPU温度状态信息,可通过设置温度传感器测定CPU的当前温度。上述状态信息仅为示例列出,实际操作中,监控CPU状态信息中可还包括其他状态信息。

诊断故障模块402,用于判断各所述中央处理器是否发生故障,当判定各所述中央处理器中存在故障中央处理器时,生成故障信息。

监控模块401将监控得到的当前CPU的状态信息发送到诊断故障模块402,在诊断故障模块402中可预设CPU正常工作的状态信息,该模块通过比较所接收到的当前CPU信息与预设信息作比较,从而判断出当前CPU是否发生故障。当判定各所述中央处理器中存在故障CPU时,生成故障信息。

故障指示灯控制模块403,用于根据所述故障信息,开启与所述故障中央处理器对应的故障指示灯;

其中,所述故障指示灯在断电的状态下正常工作。

该模块接收诊断故障模块402发送的故障信息,根据所述故障信息决定故障指示灯的状态。具体的可包括供电单元,所述供电单元可为主板电池和/或大电池和/或大电容;还包括故障指示灯单元,所述故障指示灯单元用来设置故障指示灯,具体的可直接设置在相应的CPU上,也可设置故障指示灯板;还包括开关单元,当由大电池或大电容为处于断电状态的故障指示灯供电时,所述开关单元用来开启故障指示灯。

进一步,参见图5,图5为本发明实施例提供的另一种CPU故障定位装置的结构图。本装置还可包括:

诊断故障模块402进一步包括时钟单元和记录信息单元。用来周期性的生成故障信息。具体的:

设定时钟,例如1s,在一个时钟周期内,判定出现故障CPU后仅记录当前故障CPU的信息(例如故障信息、CPU位置信息),一个周期结束后,统计出现故障CPU的信息,统一生成故障信息,所述故障信息包括所述周期内所有发生故障CPU的信息。

在判断过程中,所述故障指示灯可通过闪烁进行提示。具体的:

当判定各所述中央处理器未发生故障且对应的所述故障指示灯为开启状态时,关闭对应的所述故障指示灯;

当判定各所述中央处理器发生故障且对应的所述故障指示灯为关闭状态时,开启对应的所述故障指示灯;

当判定各所述中央处理器未发生故障且对应的所述故障指示灯为关闭状态时,不做任何处理;

当判定各所述中央处理器发生故障且对应的所述故障指示灯为开启状态时,不做任何处理。

报警模块404,用于在判断所述各中央处理器是否发生故障之后,如果判定各所述中央处理器存在所述故障中央处理器,则蜂鸣器长鸣进行报警提示。

本发明实施例提供了一种中央处理器故障定位的实现装置,即通过设置监控模块、诊断故障模块和故障指示灯控制模块,在CPU发生故障后,通过给处于断电状态的所述故障指示灯提供电源,使故障CPU对应的所述故障指示灯正常工作,从而实现了准确定位故障CPU。通过故障指示灯的指示快速识别故障CPU位置信息,从而节省了寻找故障CPU和更换验证的时间,提高了定位的准确率,从而提高了运维人员的工作效率,一定程度上确保了计算机的运算质量。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种中央处理器故障定位的方法以及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1