一种掉电状态服务器故障诊断的方法

文档序号:6519550阅读:401来源:国知局
一种掉电状态服务器故障诊断的方法
【专利摘要】本发明公开了一种掉电状态服务器故障诊断的方法,服务器管理控制器BMC负责监控服务器运行状态,利用各部件对应的LED指示灯进行故障诊断,在服务器部件发生故障时,BMC负责点亮部件对应的LED指示灯,其中,服务器前面板上设计一个USB接口,将BMC监控芯片的USB接口引到机箱的前面板上,用于外部USB移动电源给BMC供电,提供BMC掉电状态下故障诊断的能力;服务器发生故障时,BMC将对应故障状态记录到EEPROM中,永久保存,直到故障状态发生变化,重新保存故障状态;在服务器掉电状态下,使用USB移动电源给BMC监控芯片供电,BMC检测到USB移动电源供电,会按照保存在EEPROM中的服务器故障状态,对应点亮部件的LED指示灯,使服务器在掉电情况下继续完成服务器的故障诊断功能。
【专利说明】一种掉电状态服务器故障诊断的方法
【技术领域】
[0001]本发明涉及服务器故障诊断领域,具体涉及一种掉电状态服务器故障诊断的方法。
技术背景
[0002]随着高性能计算机技术的发展,服务器的部件不断增多,对服务器部件的故障监控、诊断也越来越迫切,服务器的监控管理单元BMC (Baseboard Management Controller)负责对服务器的各部件进行状态监控。但是随着服务器部件的增多,用于部件故障诊断的LED指示灯多达30-40个,对于高性能服务器,用于故障诊断的LED指示灯多达60个以上,前面板的LED指示灯无法满足服务器故障诊断的要求,所以只能将故障诊断的LED指示灯放在主板上。这样又出现了另外一个问题,故障诊断人员现场对服务器进行故障诊断时,必须将服务器从机柜中拿出,打开服务器的机箱盖,这些操作必须拔掉服务器的电源,传统的服务器掉电以后,故障状态将会被清空,无法再现服务器运行时的故障状态,也就无法达到故障诊断的目的。
[0003]随着服务器部件的不断增多,复杂度越来越高,出现故障后诊断故障花费的时间越来越长,传统服务器无法满足部件故障诊断的要求,这就对服务器故障诊断提出了新的要求。因此,提出一种掉电状态服务器故障诊断的方法就很有必要了。

【发明内容】

[0004]本发明要解决的技术问题是:提供一种掉电状态服务器故障诊断的方法。
[0005]本发明所采用的技术方案为:本发明提到的故障诊断,是以服务器BMC(BaSeb0ardManagement Controller)为核心的故障诊断。
[0006]一种掉电状态服务器故障诊断的方法,服务器利用各部件对应的LED指示灯进行故障诊断,服务器管理控制器BMC负责监控服务器运行状态,在服务器部件发生故障时,BMC负责点亮部件对应的LED指示灯,其中,在服务器前面板上设计一个USB接口,将BMC监控芯片的USB接口引到机箱的前面板上,用于外部USB移动电源给BMC供电,提供BMC掉电状态下故障诊断的能力;服务器正常运行过程中,BMC负责监控服务器的运行状态,服务器发生故障时,BMC将对应故障状态记录到EEPROM中,永久保存,直到故障状态发生变化,重新保存故障状态;在服务器掉电状态下,使用USB移动电源给BMC监控芯片供电,BMC检测到USB移动电源供电,会按照保存在EEPROM中的服务器故障状态,对应点亮部件的LED指示灯,达到掉电状态服务器故障诊断的目的,弥补了传统服务器故障诊断能力不足的缺陷。
[0007]所述方法流程如下:
首先,服务器正常运行过程中,BMC监控服务器各部件的运行状态,当服务器部件发生故障时,BMC对应点亮部件的LED指示灯;
其次,故障诊断时,将服务器电源断掉,部件的LED指示灯全部熄灭,然后,拿出USB移动电源插在服务器前面板的电池接口位置,移动电源只给BMC芯片及BMC芯片的外围电路供电,BMC启动过程中检测到电池供电,将上电运行时的故障状态重新通过LED指示灯展示给故障诊断人员,同时标记为已经诊断处理;
最后,诊断完成后,插入电源,BMC检测到是电源供电,不再按照保存的故障状态点亮对应LED指示灯,避免LED误亮对客户带来困扰,同时,BMC检测到已经诊断处理的标记,将保存在EEPROM中的故障状态清空,同时清除已经诊断处理的标记;
服务器故障诊断后,正常运行。
[0008]本发明的有益效果为:
基于高性能服务器的应用,部件使用越来越多,复杂度越来越高,出现故障后诊断故障花费的时间越来越长,所以对部件的故障自动监控、诊断功能已经必不可少。本发明提供了一种能够在服务器掉电情况下继续完成服务器的故障诊断功能,弥补了传统服务器故障诊断方法的不足,使其更适用于高性能计算机应用领域,因而具有非常广泛的发展空间。
【具体实施方式】
[0009]结合实施例对本发明详细说明。
[0010]实施例1:
一种掉电状态服务器故障诊断的方法,服务器管理控制器BMC负责监控服务器运行状态,利用各部件对应的LED指示灯进行故障诊断,在服务器部件发生故障时,BMC负责点亮部件对应的LED指示灯,其中,在服务器前面板上设计一个USB接口,将BMC监控芯片的USB接口引到机箱的前面板上,用于外部USB移动电源给BMC供电,提供BMC掉电状态下故障诊断的能力;服务器正常运行过程中,BMC负责监控服务器的运行状态,服务器发生故障时,BMC将对应故障状态记录到EEPROM中,永久保存,直到故障状态发生变化,重新保存故障状态;在服务器掉电状态下,使用USB移动电源给BMC监控芯片供电,BMC检测到USB移动电源供电,会按照保存在EEPROM中的服务器故障状态,对应点亮部件的LED指示灯。
[0011]实施例2:
在实施例1的基础上,本实施例所述方法流程如下:
首先,服务器正常运行过程中,BMC监控服务器各部件的运行状态,当服务器部件发生故障时,BMC对应点亮部件的LED指示灯;
其次,故障诊断时,将服务器电源断掉,部件的LED指示灯全部熄灭,然后,拿出USB移动电源插在服务器前面板的电池接口位置,移动电源只给BMC芯片及BMC芯片的外围电路供电,BMC启动过程中检测到电池供电,将上电运行时的故障状态重新通过LED指示灯展示给故障诊断人员,同时标记为已经诊断处理;
最后,诊断完成后,插入电源,BMC检测到是电源供电,不再按照保存的故障状态点亮对应LED指示灯,避免LED误亮对客户带来困扰,同时,BMC检测到已经诊断处理的标记,将保存在EEPROM中的故障状态清空,同时清除已经诊断处理的标记;
服务器故障诊断后,正常运行。
【权利要求】
1.一种掉电状态服务器故障诊断的方法,其中,服务器管理控制器BMC负责监控服务器运行状态,利用各部件对应的LED指示灯进行故障诊断,在服务器部件发生故障时,BMC负责点亮部件对应的LED指示灯,其特征在于:服务器前面板上设计一个USB接口,将BMC监控芯片的USB接口引到机箱的前面板上,用于外部USB移动电源给BMC供电,提供BMC掉电状态下故障诊断的能力;服务器正常运行过程中,BMC负责监控服务器的运行状态,服务器发生故障时,BMC将对应故障状态记录到EEPROM中,永久保存,直到故障状态发生变化,重新保存故障状态;在服务器掉电状态下,使用USB移动电源给BMC监控芯片供电,BMC检测到USB移动电源供电,会按照保存在EEPROM中的服务器故障状态,对应点亮部件的LED指示灯。
2.根据权利要求1所述的一种掉电状态服务器故障诊断的方法,其特征在于,所述方法流程如下: 首先,服务器正常运行过程中,BMC监控服务器各部件的运行状态,当服务器部件发生故障时,BMC对应点亮部件的LED指示灯; 其次,故障诊断时,将服务器电源断掉,部件的LED指示灯全部熄灭,然后,拿出USB移动电源插在服务器前面板的电池接口位置,移动电源只给BMC芯片及BMC芯片的外围电路供电,BMC启动过程中检测到电池供电,将上电运行时的故障状态重新通过LED指示灯展示给故障诊断人员,同时标记为已经诊断处理; 最后,诊断完成后,插入电源,BMC检测到是电源供电,不再按照保存的故障状态点亮对应LED指示灯,避免LED误亮对客户带来困扰,同时,BMC检测到已经诊断处理的标记,将保存在EEPROM中的故障状态清空,同时清除已经诊断处理的标记; 服务器故障诊断后,正常运行。
【文档编号】G06F11/32GK103593276SQ201310576783
【公开日】2014年2月19日 申请日期:2013年11月19日 优先权日:2013年11月19日
【发明者】刘宝阳, 平原, 张锋 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1