一种高端容错服务器的节点故障记录方法

文档序号:9600708阅读:300来源:国知局
一种高端容错服务器的节点故障记录方法
【技术领域】
[0001]本发明涉及计算机服务器技术领域,具体地说是一种实用性强、高端容错服务器的节点故障记录方法。
【背景技术】
[0002]随着用户对计算机的计算需求的提高,用户对单台计算机的计算性能要求越来越高。高端容错服务器是一款多路服务器。与传统服务器相比,在计算性能和可靠性上与传统服务器相比具有很大的优势,并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。同时高端容错服务器在机柜内集多个计算节点。整机柜通过RMC统一进行节点的故障管理和故障记录,RMC管理的节点数量繁多,高端容错服务器对节点的故障管理和故障记与传统的服务器相比提出了新的挑战。
[0003]目前在高端容错服务器的故障管理和故障记内容中,具体内容并不明确,如果按照传统服务器下进行,因为节点数量繁多,很难满足管理的要求。

【发明内容】

[0004]本发明的技术任务是针对以上不足之处,提供一种实用性强、高端容错服务器的节点故障记录方法。
[0005]—种高端容错服务器的节点故障记录方法,其具体设计过程为:
首先定义RMC对机柜内部节点故障管理LOG级别,这里的RMC为机柜管理控制器RacksManagement Controller, LOG 为日志文件;
其次定义RMC对机柜内部节点故障管理LOG内容;
最后定义RMC对机柜内部节点故障管理LOG的触发条件。
[0006]所述管理LOG级别包括三个部分:信息Info、警报warning和临界critical,其中信息Info是节点的故障状态恢复和用户的正常的操作信息;警报warning是指节点的资产信息变化、节点的移除和节点的温度超过warning阈值;临界critical是指节点出现故障,节点温度超过critical报警阈值和节点链路出现问题。
[0007]所述LOG内容包括:L0G的级别、设备的类型N0DE、节点故障的具体描述EventDescript1n。
[0008]所述触发条件是指通过读取节点故障管理日志文件LOG内容,根据内容分辨出上述信息Info级别的故障、警报warning级别的故障还是临界critical级别的故障。
[0009]所述Info级别的日志触发事件包括:节点从故障中恢复、节点的BMC地址发生变化、节点被插入、节点BMC被重启、节点开机、节点关机。
[0010]所述warning级别的日志触发事件包括:节点内存容量发生变化、节点的SSD硬盘容量发生变化、节点硬盘容量发生变化、节点被移除、节点不在位、节点机柜位置发生变化、节点ID位置发生变化、节点温度超过warning阈值。
[0011]所述critical级别的日志触发事件包括:节点发生故障、节点通信连路发生故障、节点温度超过critical阈值。
[0012]本发明的一种高端容错服务器的节点故障记录方法,具有以下优点:
本发明的一种高端容错服务器的节点故障记录方法,提供了高端容错服务器节点故障记录方法,适用于高端容错服务器的要求;高端容错服务器的RMC作所有计算节点的故障管理和故障LOG记录工作,可以有效地完成RMC对机柜级别的节点故障LOG的记录和故障管理,使用户管理高端容错服务器的故障信息,如同管理单台服务器一样方便,实用性强,易于推广。
【具体实施方式】
[0013]下面结合具体实施例对本发明作进一步说明。
[0014]本发明提供一种高端容错服务器的节点故障记录方法,涉及一种高端容错服务器的节点的故障记录的方法和故障记录的主要内容。主要针对高端容错服务器节点集中管理和分级管理的特点,计算节点等设备繁多。RMC对节点故障的记录比较复杂。
[0015]通过本发明的一种高端容错服务器的节点故障记录方法,高端容错服务器的RMC作所有计算节点的故障管理和故障LOG记录工作,可以有效地完成RMC对机柜级别的节点故障LOG的记录和故障管理,使用户管理高端容错服务器的故障信息,如同管理单台服务器一样方便。
[0016]其具体设计过程为:
首先定义RMC对机柜内部节点故障管理LOG级别,这里的RMC为机柜管理控制器RacksManagement Controller, LOG 为日志文件;
其次定义RMC对机柜内部节点故障管理LOG内容;
最后定义RMC对机柜内部节点故障管理LOG的触发条件。
[0017]所述管理LOG级别包括三个部分:信息Info、警报warning和临界critical,其中信息Info是节点的故障状态恢复和用户的正常的操作信息;警报warning是指节点的资产信息变化、节点的移除和节点的温度超过warning阈值;临界critical是指节点出现故障,节点温度超过critical报警阈值和节点链路出现问题。
[0018]所述LOG内容包括:L0G的级别、设备的类型N0DE、节点故障的具体描述EventDescript1n。
[0019]所述触发条件是指通过读取节点故障管理日志文件LOG内容,根据内容分辨出上述信息Info级别的故障、警报warning级别的故障还是临界critical级别的故障。
[0020]所述Info级别的日志触发事件包括: was 0K,节点从故障中恢复;
BMC IPMode change to Static节点的BMC地址发生变化; was added节点被插入;
BMC reset节点BMC被重起; was power on节点开机; was power off节点关机。
[0021 ] 所述warning级别的日志触发事件包括:
memory capacity was changed to xxx节点内存容量发生变化; SSD disk capacity was changed to xxx 节点的 SSD 硬盘容量发生变化;
HDD disk capacity was changed to xxx 节点硬盘容量发生变化; was removed节点被移除; was absent节点不在位;
was from xxxx (locat1n ID) to xxxx节点机柜位置发生变化;
ID from xxx to yyy节点ID位置发生变化;
ambient temperature was xxx over xxx degree.节点温度超过 warning 阈值。
[0022]所述critical级别的日志触发事件包括: was fail节点发生故障;
communicat1n was fail节点通信连路发生故障;
ambient temperature was xxx over xxx degree 节点温度超过 critical 阈值。
[0023]上述【具体实施方式】仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述【具体实施方式】,任何符合本发明的一种高端容错服务器的节点故障记录方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
【主权项】
1.一种高端容错服务器的节点故障记录方法,其特征在于,其具体设计过程为:首先定义RMC对机柜内部节点故障管理LOG级别,这里的RMC为机柜管理控制器RacksManagement Controller, LOG 为日志文件; 其次定义RMC对机柜内部节点故障管理LOG内容; 最后定义RMC对机柜内部节点故障管理LOG的触发条件。2.根据权利要求1所述的一种高端容错服务器的节点故障记录方法,其特征在于,所述管理LOG级别包括三个部分:信息Info、警报warning和临界critical,其中信息Info是节点的故障状态恢复和用户的正常的操作信息;警报warning是指节点的资产信息变化、节点的移除和节点的温度超过warning阈值;临界critical是指节点出现故障,节点温度超过critical报警阈值和节点链路出现问题。3.根据权利要求1所述的一种高端容错服务器的节点故障记录方法,其特征在于,所述LOG内容包括:L0G的级别、设备的类型NODE、节点故障的具体描述Event Descript1n。4.根据权利要求2所述的一种高端容错服务器的节点故障记录方法,其特征在于,所述触发条件是指通过读取节点故障管理日志文件LOG内容,根据内容分辨出上述信息Info级别的故障、警报warning级别的故障还是临界critical级别的故障。5.根据权利要求4所述的一种高端容错服务器的节点故障记录方法,其特征在于,所述Info级别的日志触发事件包括:节点从故障中恢复、、节点的BMC地址发生变化、节点被插入、节点BMC被重启、节点开机、节点关机。6.根据权利要求4所述的一种高端容错服务器的节点故障记录方法,其特征在于,所述warning级别的日志触发事件包括:节点内存容量发生变化、节点的SSD硬盘容量发生变化、节点硬盘容量发生变化、节点被移除、节点不在位、节点机柜位置发生变化、节点ID位置发生变化、节点温度超过warning阈值。7.根据权利要求4所述的一种高端容错服务器的节点故障记录方法,其特征在于,所述critical级别的日志触发事件包括:节点发生故障、节点通信连路发生故障、节点温度超过critical阈值。
【专利摘要】本发明公开了一种高端容错服务器的节点故障记录方法,其具体设计过程为:首先定义RMC对机柜内部节点故障管理LOG级别,这里的RMC为机柜管理控制器Racks?Management?Controller,LOG为日志文件;其次定义RMC对机柜内部节点故障管理LOG内容;最后定义RMC对机柜内部节点故障管理LOG的触发条件。该一种高端容错服务器的节点故障记录方法与现有技术相比,可以有效地完成RMC对机柜级别的节点故障LOG的记录和故障管理,使用户管理高端容错服务器的故障信息,如同管理单台服务器一样方便,实用性强,易于推广。
【IPC分类】G06F11/22, H04L12/24
【公开号】CN105357064
【申请号】CN201510931667
【发明人】黄家明, 乔英良, 李冠广
【申请人】山东海量信息技术研究院
【公开日】2016年2月24日
【申请日】2015年12月15日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1