一种高端容错服务器的电源故障记录方法

文档序号:9750661阅读:422来源:国知局
一种高端容错服务器的电源故障记录方法
【技术领域】
[0001]本发明涉及服务器监控管理领域和电源故障监控领域,尤其涉及一种高端容错服务器的电源故障记录方法。主要针对高端容错服务器电源集中供电和集中管理的特点,月艮务器电源的故障直接影响整个设备的使用。
【背景技术】
[0002]随着用户对计算机的计算需求的提高,用户对单台计算机的计算性能要求越来越高。高端容错服务器是一款多路服务器。与传统服务器相比,在计算性能和可靠性上与传统服务器相比具有很大的优势,并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。同时高端容错服务器在机柜内采取集中供电和集中管理的策略。整机柜通过RMC统一进行电源的故障管理和故障记录,RMC统一管理整机柜的所有电源模块PSU,高端容错服务器对电源的故障管理和故障记与传统的服务器相比提出了新的挑战。
[0003]目前在高端容错服务器对电源的故障管理和故障记录具体内容并不明确,如果按照传统服务器下进行,因为电源集中供电和集中管理,需要记录的电源状态比较复杂,很难满足管理的要求。

【发明内容】

[0004]为了解决以上问题,本发明提出了一种高端容错服务器的电源故障记录方法。
[0005]通过一种高端容错服务器的电源故障记录方法,高端容错服务器的RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作,可以有效地完成RMC对机柜级别的电源故障LOG的记录和故障管理,使用户管理高端容错电源的故障信息,如同管理单台服务器的电源信息一样方便。
[0006]在RMC统一对电源进行管理。首先定义RMC对机柜内部电源故障管理LOG级别。其次定义RMC对机柜内部电源故障管理LOG内容。最后定义RMC对机柜内部电源故障管理LOG的触发条件。具体实现方式如下所示:
1)定义RMC对机柜内部电源故障管理LOG级别。管理的主要级别包含三个部分:Info、warning和critical。
[0007]2)定义RMC对机柜内部电源故障管理LOG内容。主要内容包括LOG的级别,设备的类型PCM(电源控制管理模块)和PSU,电源故障的Event Descript1n。
[0008]3)定义RMC对机柜内部电源故障管理LOG的触发条件。
[0009]本发明的有益效果是。
[0010]I)提供了高端容错服务器电源故障记录方法,适用于高端容错服务器的要求;
2)有助于公司在高端容错服务器领域形成技术壁皇,保证公司在整机柜服务器的优势。
【具体实施方式】
[0011]下面对本发明的内容进行更加详细的阐述:
本发明的一种高端容错服务器的电源故障记录方法主要包括:
(I)定义RMC对机柜内部电源故障管理LOG级别^管理的主要级别包含三个部分:1nfo、warning和criticaL.Inf ο是节电源的故障状态恢复、电源上电和电源模块的插入的操作信息;warning主要是指电源的移除、电源的不在位和电源的状态告警;critical主要指电源出现输入和输出故障,电源超过最大电源告警阈值。
[0012](2)定义RMC对机柜内部电源故障管理LOG内容。主要内容包括LOG的级别,设备的类型PCM(电源控制管理模块)和PSU,电源故障的Event Descript1n。
[0013](3)定义RMC对机柜内部电源故障管理LOG的触发条件,主要触发时间包括: A.1nfo 级别的LOG:
1PCM was OK,power control module电源控制模块从故障状态恢复;
2PSU was OK PSU从故障状态恢复;
3PSU was added PSU被插入;
4PSU was DC output on 打开PSU 电源DC输出;
5was DC input on打开PSU 电源DC输入;
6was AC input on打开PSU电源AC输入 B.warning 级别的 LOG:
1was DC output off 关闭PSU 电源DC输出;
2was removed PSU被移除;
3was absent PSU不在位;
4XXX loading was too high PSU负载过高;
5XXX Output Overvoltage Warning PSU输出电压超高告警;
6XXX Output Undervoltage Warning PSU输出电压超低告警;
7XXX Output Overcurrent Warning PSU输出电流超高告警
8XXX Input Overvoltage Warning.PSU 输入电压超高告警
9XXX Input Undervoltage Warning PSU 输入电压超低告警;
10XXX OTP Warning PSU温度过高告警;
C.critical级别的LOG:
1PCM was fail电源控制模块故障;
2PCM the rack power was xxx over Maxpower xxx服务期功耗过高告警
3xxx hotspot OTP error PSU温度超过故障
4xxx Output Overvoltage error PSU输出电压过高故障;
5xxx Output Overcurrent error PSU输出电流过高故障;
6xxx Input Overvoltage error PSU输入电压过高故障
7xxx AC Input Undervoltage error PSU输入电压过低故障
8was fan fail PSU风扇故障;
其中XXX代表电压电流发生告警或者故障时的实际读数。
【主权项】
1.一种高端容错服务器的电源故障记录方法,其特征在于,首先定义RMC对机柜内部电源故障管理LOG级别;其次定义RMC对机柜内部电源故障管理LOG内容;最后定义RMC对机柜内部电源故障管理LOG的触发条件;通过RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作。2.根据权利要求1所述的方法,其特征在于, 定义RMC对机柜内部电源故障管理LOG级别:管理的主要级别包含三个部分:Info、warning和critical03.根据权利要求2所述的方法,其特征在于, 定义RMC对机柜内部电源故障管理LOG内容:主要内容包括LOG的级别,设备的类型PCM和PSU,电源故障的Event Descript1n。
【专利摘要】本发明提供一种高端容错服务器的电源故障记录方法,涉及服务器监控管理领域和电源故障监控领域,首先定义RMC对机柜内部电源故障管理LOG级别;其次定义RMC对机柜内部电源故障管理LOG内容;最后定义RMC对机柜内部电源故障管理LOG的触发条件;通过RMC监测所有电源的在位信息、健康状态、输入输出电压电流功耗信息和故障LOG记录工作,可以有效地完成RMC对机柜级别的电源故障LOG的记录和故障管理。
【IPC分类】G06F11/07, G06F1/28
【公开号】CN105511980
【申请号】CN201510921696
【发明人】黄家明, 乔英良, 李冠广
【申请人】山东海量信息技术研究院
【公开日】2016年4月20日
【申请日】2015年12月14日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1