一种服务器故障的离线诊断方法

文档序号:6398081阅读:355来源:国知局
专利名称:一种服务器故障的离线诊断方法
技术领域
本发明涉及计算机技术领域,具体的说是一种服务器故障的离线诊断方法。
背景技术
随着用户需求的的不断提升和科技进步的不断发展,服务器的性能越来越卓越,同时也使得服务器系统越来越复杂。卓越的性能给用户带来良好体验的同时,也引入了一个棘手的问题一系统维护越来越困难。当系统出现故障时,面对如此庞大的电子系统,数量众多的系统板卡,成千上万的电子元器件,系统维护工程师往往要花费大量的时间才能定位到故障点,很多情况下,还需要借助于实验室分析才能定位,这浪费了大量的时间和人力消耗,同时长时间宕机也给客户带来了很大损失。芯片厂商和系统设计者都看到了这一问题,他们通过各种方法来提高自诊断能力,减少故障定位时间,提高系统维护效率。一般情况下芯片会根据自身的工作状态输出一些状态指示信号,例如指示错误的Error信号,指示温度异常的Hot信号,指示电源质量的PWRG00D等,系统设计者通过一定的手段收集这些状态信号并作出诊断,指示系统故障,给系统维护者提供帮助。常规的故障诊断方法可称之为在线故障诊断,其一般工作原理是
1、IC根据自身工作状态驱动工作状态指示信号,通过声光器件(LED、数码管、蜂鸣器等)指示其工作状态(如PWRG00D、HOT、Error等);
2、系统管理单元(SMC)收集系统工作状态,包括链路状态,系统电源状态,系统温度状态,湿度状态,内存和CPU异常等,通过系统日志或者UI面板指示系统工作状态;
采用这种故障诊断方法,诊断比较全面,实现也比较简单,但是存在一个致命问题可维护性较差,具体表现在
1、在线诊断方式,只能在芯片工作时才能指示异常,此时往往需要系统完全开机;然而,系统出了严重故障时可能已经宕机,在未排除系统故障的情况下,尝试对系统再次开机可能对设备造成灾难性损坏;
2、在线诊断和离线维护之间存在矛盾在对硬件故障维护更换时,系统必须处于关机状态,然后在线诊断时系统又必须处于开机状态,这就要求维护人员必须在开机状态下仔细记录故障现象,然后再关机维护。一方面当系统故障点较多时,记录比较麻烦,容易造成遗漏;另一方面,当板卡需要返厂做专业维修时,故障记录也容易在传递过程中造成遗失或者混乱,
3、系统日志导出往往需要专业工具,另一方面,从庞杂的系统日志里提取所包含的故障信息需要较高的专业知识,这会增加维护人员的工作难度,降低维护效率。为了解决在线故障诊断所带来的不便,提高维护效率,本发明提出一种全新的故障诊断方式一离线诊断
发明内容
本发明的技术任务是解决现有技术的不足,提供一种服务器故障的离线诊断方法。本发明的技术方案是按以下方式实现的,该一种服务器故障的离线诊断方法,其具体实现步骤为
a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通;
b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息;
C、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断;
d、故障诊断中心发送故障信息到离线指示模块;
e、离线指示模块存储故障信息,并在用户触发后,指示故障模块;
f、维护人员根据故障指示,完成系统维护更换。所述步骤a中板卡上的离线指示模块是指低功耗微处理器MCU,侦测单元是指硬件监控芯片或模数转换器ADC ;所述管理卡上的故障诊断中心是指服务监控芯片SMC。所述步骤b中侦测单元侦测的状态信息包括所在板卡的电压侦测、温度侦测、湿度侦测和风扇转速侦测;BI0S收集系统底层的错误信息包括内存错误,CPU故障。所述故障诊断中心还负责完成电池电量侦测,当电量过低时,会发出指示信号。所述步骤e的具体步骤为离线指示模块接收来自故障诊断中心的故障数据,并将其存储在自身Flash或者EEPROM中;在收到离线指示触发信号后,点亮故障模块对应的LED。所述电源管理模块采用下述两种方法中的一种进行供电
1)系统在线状态时,采用系统电源给离线指示模块供电,此时MCU处于一直工作状态,以便及时处理来自故障诊断中心的数据,系统离线时,切换到电池供电;
2)当采用电池供电时,MCU进入睡眠状态,只有收到离线指示触发信号才恢复正常工作,读取自身存储的故障信息,同时点亮指示灯,之后立即进入睡眠状态。本发明与现有技术相比所产生的有益效果是
本发明的一种服务器故障的离线诊断方法可以全面克服在线诊断方式的弊端,使得维护人员不再受限于系统工作状态,可以随时随地查看故障信息,完成高效维护;由于错误数据存储在EEPROM或者Flash存储器中,除非故障诊断中心去改写这些数据,否则它会永远保留;离线诊断,指示方便直观,便于快速定位,不再依赖于系统电源和系统运行状态,因此维护人员完全可以将板卡拆卸下来再去定位,而且故障直接定位到模块或者器件,维护人员只需按照指示去更换相应的模块即可,高效直观,有效提高产品的市场竞争力


附图1是本发明的服务器构架部分结构示意框图。
具体实施例方式下面结合附图对本发明的一种服务器故障的离线诊断方法作以下详细说明。
如附图1所示,现提供一种服务器故障的离线诊断方法,其具体实现步骤为
a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通;
下面对上述各个模块作详细简介。侦测单元侦测单元用来侦测该模块或者位置的状态,常见的侦测包括电压侦测、温度侦测、湿度侦测、风扇转速侦测;侦测单元在系统中一般有模数转换器ADC或者硬件监控芯片 Hardware Monitor 完成。BIOS =BIOS用来收集系统底层的一些错误信息,比如内存错误,CPU故障等。故障诊断中心故障诊断中心在系统中一般由服务监控芯片SMC承担;故障诊断中心主要完成四个方面的工作①收集来自侦测单元的数据;②收集来自BIOS的系统状态信息(比如内存和CPU错误)根据收集到的信息对各模块状态作出诊断;④发送模块错误信息到离线指示模块;另外故障诊断中心还负责完成电池电量侦测,当电量过低时,会发出指示信号,提醒用户更换电池。离线指示模块离线指示模块接收来自故障诊断中心的故障数据,并将其存储在自身Flash或者EEPROM中;在收到离线指示触发信号后,点亮故障模块(如内存、CPU、电源、风扇等)对应的LED,提示维护人员此模块有故障;离线指示模块在系统中通常由低功耗微处理器(MCU)完成,如MSP430系列微处理器,其待机电流非常低,因此可以采用电池供电方案;由于故障数据存储在非易失存储器中,因此即便系统关机,电池耗尽,该故障信息也会被保留下来,维护人员可以随时查看。电源管理模块为了节省电池功耗,电源管理模块采用两种策略来延长电池寿命①离线指示模块电源切换一系统在线状态时,采用系统电源给离线指示模块供电,此时MCU处于一直工作状态,以便及时处理来自故障诊断中心的数据,系统离线时,切换到电池供电;@MCU低功耗切换机制当采用电池供电时,MCU进入睡眠状态,只有收到离线指示触发信号才恢复正常工作,读取自身存储的故障信息,同时点亮指示LED几秒钟,之后立即进入睡眠状态;通过这两种策略,可以最大程度延迟电池寿命。b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息。C、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断。d、故障诊断中心发送故障信息到离线指示模块。e、离线指示模块存储故障信息,并在用户触发后,指示故障模块。f、维护人员根据故障指示,完成系统维护更换。本发明的一种服务器故障的离线诊断方法,区别于服务器故障在线诊断方法,该诊断方法的最大特点是在系统离线状态下仍可指示故障点,帮助系统维护人员迅速定位,维护更换备件,从而快速恢复系统正常运作。该服务器故障的离线诊断方法主要包含以下技术点①故障定位②故障信息存储③故障离线指示④电源管理方案。本文所阐述的服务器故障离线诊断方法适用于各种形式的服务器系统,包括但不限于刀片服务器、机架服务器、塔式服务器,采用这种故障离线诊断方法可以提高系统维护人员工作效率,大幅缩短系统宕机时间,降低维护成本。
权利要求
1.一种服务器故障的离线诊断方法,其特征在于其具体实现步骤为: a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通; b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息; C、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断; d、故障诊断中心发送故障信息到离线指示模块; e、离线指示模块存储故障信息,并在用户触发后,指示故障模块; f、维护人员根据故障指示,完成系统维护更换。
2.根据权利要求1所述的一种服务器故障的离线诊断方法,其特征在于:所述步骤a中板卡上的离线指示模块是指低功耗微处理器MCU,侦测单元是指硬件监控芯片或模数转换器ADC ;所述管理卡上的故障诊断中心是指服务监控芯片SMC。
3.根据权利要求1所述的一种服务器故障的离线诊断方法,其特征在于:所述步骤b中侦测单元侦测的状态信息包括所在板卡的电压侦测、温度侦测、湿度侦测和风扇转速侦测;B10S收集系统底层的错误信息包括内存错误,CPU故障。
4.根据权利要求1所述的一种 服务器故障的离线诊断方法,其特征在于:所述故障诊断中心还负责完成电池电量侦测,当电量过低时,会发出指示信号。
5.根据权利要求1 4中任一所述的一种服务器故障的离线诊断方法,其特征在于:所述步骤e的具体步骤为:离线指示模块接收来自故障诊断中心的故障数据,并将其存储在自身Flash或者EEPROM中;在收到离线指示触发信号后,点亮故障模块对应的LED。
6.根据权利要求5所述的一种服务器故障的离线诊断方法,其特征在于:所述电源管理模块采用下述两种方法中的一种进行供电: 1)系统在线状态时,采用系统电源给离线指示模块供电,此时MCU处于一直工作状态,以便及时处理来自故障诊断中心的数据,系统离线时,切换到电池供电; 2)当采用电池供电时,MCU进入睡眠状态,只有收到离线指示触发信号才恢复正常工作,读取自身存储的故障信息,同时点亮指示灯,之后立即进入睡眠状态。
全文摘要
本发明提供一种服务器故障的离线诊断方法,属于计算机技术,其主要步骤包括①故障定位;②故障信息存储;③故障离线指示;④电源管理方案。该一种服务器故障的离线诊断方法和现有技术相比,在系统离线状态下仍可指示故障点,帮助系统维护人员迅速定位,维护更换备件,从而快速恢复系统正常运作,提高系统维护人员工作效率,大幅缩短系统宕机时间,降低维护成本,提高系统可靠性。
文档编号G06F11/22GK103077103SQ20131001880
公开日2013年5月1日 申请日期2013年1月18日 优先权日2013年1月18日
发明者薛广营, 李博乐 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1