一种快速判定服务器环境温度监控异常原因的方法与流程

文档序号:14249317阅读:1265来源:国知局

本发明涉及服务器温度监测领域,具体涉及一种快速判定服务器环境温度监控异常原因的方法。



背景技术:

随着大数据、云计算、人工智能时代的到来,互联网业务量和数据量出现猛烈增长,计算量及计算频率随之增大;在服务器系统中,随着用于存储和计算的数据量的增加,服务器的运载压力越来越大,其核心部件如cpu、内存、硬盘等发热量变大,机器内部温度升高,核心部件所能承受的温度是有一定限制的,如果达到承受点,性能会降低,元器件的寿命会降低,甚至服务器不能使用。在服务器运行过程中,如果环境温度过高,会导致服务器整体工作在一个高温环境中,此时cpu等核心部件本体的温度会更高,当cpu的温度达到一定高度时,服务器就会发生降频,严重影响服务器的计算性能;如果温度继续升高,服务器会发生异常关机,由此所引发的后果则是客户的业务中断,数据丢失,造成的损失不可预估。因此,为了保证服务器的正常稳定运行,需要对服务器的环境温度的监控提出更高的要求。

目前在服务器系统中,通常使用bmc(baseboardmanagementcontroller基板管理控制器)来对主板的健康状况进行监控和管理。主板上的一些重要的参数如电压、温度、功耗等都是通过bmc监控记录的。服务器环境温度的监控链路是由两部分构成:一是温度传感器及外挂三极管,二是bmc芯片。服务器环境温度的监控的具体工作方式为:首先温度传感器会收集本身内部三极管及外挂三极管的温度信息,并将之存放在不同的寄存器中,其次bmc芯片通过i2cbus来收集温度传感器中的寄存器信息,并在bmc芯片内部进行转化计算形成我们能够识别的摄氏度,进而实现主板温度信息的收集及监控。

当环境温度出现异常时,需要结合上述链路状况进行分析,异常产生的原因一般可能是三种情况:1、温度传感器或者三极管出现故障;2、bmc芯片本身转化计算出现故障;3、由于空调异常等因素导致的环境温度本身变高。具体是何种原因需要进一步定位故障位置,只有定位了故障位置才能针对问题解决问题,因此定位位置确定故障发生的原因非常重要。

基于上述问题,本申请发明一种快速判定服务器环境温度监控异常原因的方法,通过直接带外读取并显示温度传感器的寄存器数值,将读取到的寄存器数值进行换算,然后和bmc显示的数值进行对比,从而判断故障原因。使用本发明所述的方法可以有效的提高故障诊断的时效性,提高了客户满意度及产品的竞争力。



技术实现要素:

本申请发明一种快速判定服务器环境温度监控异常原因的方法,首先通过带外的ipmi(intelligentplatformmanagementinterface智能平台管理接口)工具远程读取温度传感器对应的寄存器空间,寄存器会返回十六进制的数值,将十六进制数值转化为二进制数值并进行温度的换算,就可以得出以摄氏度为单位的温度信息;然后读取bmc记录的以摄氏度为单位的温度信息;最后两者相比较即可以判断bmc显示的温度和温度传感器原始的数据是否一致。再结合服务器运行所处的实际环境温度,就可以准确的判断出是哪个链路出现故障,进而判定故障位置。

本发明使用带外的ipmi工具,利用远程操作的方式进行寄存器信息的收集,在方便快捷的同时,还不会影响的系统的正常运转,因此可以提高分析问题时系统的稳定性和可靠性;同时,使用这种设计方法,可以大大的提高故障处理效率,提高产品的竞争力。

具体地,本申请请求保护一种快速判定服务器环境温度监控异常原因的方法,其特征在于,该方法具体包括如下步骤:

获取服务器运行的正常环境温度;

读取bmc芯片记录并显示的温度;

通过ipmi带外工具读取温度传感器的寄存器信息;

将读取到的传感器信息进行转化计算得到寄存器温度;

三个温度信息进行对比判断;

如果其中一个的温度与其余两者的温度不同,则可以确定该部件出现异常。

如上所述的快速判定服务器环境温度监控异常原因的方法,其特征还在于,将读取到的传感器信息进行转化计算是将从寄存器中的十六进制数值转化为二进制数值并进行温度的换算。

如上所述的快速判定服务器环境温度监控异常原因的方法,其特征还在于,通过ipmi带外工具读取温度传感器的寄存器信息具体包括以下几个步骤:

步骤一:获取bmc的ip地址、用户名和密码;

步骤二:在系统主机上安装ipmi工具包,同时把主机的ip设置为和bmc的ip相同网段;

步骤三:通过网线连接主机和bmc专用管理网口,在主机dos下执行读取温度传感器的寄存器信息命令。

附图说明

图1、服务器环境温度监控异常原因判定架构示意图

具体实施方式

本发明所提出的判定方法是依托于服务器工作的实际环境温度,通过带外的ipmi工具远程读取温度传感器用于存储温度信息的寄存器空间,并将得到的返回值进行转化计算,然后和实际环温及bmc显示温度对比,最终判断出环温记录异常的原因。

下面通过一个实施例对本发明所述的查看方法具体实现步骤进行说明。

如附图1所示,首先,整个架构包含3个主要部分,分别是服务器运行的正常环境温度、bmc芯片读取并显示的温度、使用带外ipmi工具读取的寄存器数值。当服务器的环境温度记录异常的时候,只需要将收集到的三部分温度进行对比,即可判定故障位置。

以服务器运行的正常环境温度作为参考,如果bmc显示温度和寄存器温度一致,均不同于服务器环温,则说明是温度传感器出现异常;

如果二者温度不一致,且寄存器温度和正常环境温度一致,则说明是bmc出现异常。使用这种方法就可以很明显看出异常点。

整个判定架构具体实现主要包括以下几个步骤:

(1)获取服务器运行的正常环境温度;

(2)读取bmc芯片记录并显示的温度;

(3)通过ipmi带外工具读取温度传感器的寄存器信息;

(4)将读取到的传感器信息进行转化计算;

(5)三个温度信息进行对比判断。

通过ipmi带外工具读取温度传感器的寄存器信息主要包括以下几个步骤:

(1)获取bmc的ip地址、用户名和密码;

(2)选取一台装有windows或者linux系统主机,并安装ipmi工具包;同时把主机的ip设置为和bmc的ip相同网段;

(3)通过网线连接主机和bmc专用管理网口,在主机dos下执行如下命令:

ipmitool–hip–ilanplus–uadmin–padminraw0x60x520xd0x980x010xf8

ipmitool–hip–ilanplus–uadmin–padminraw0x60x520xd0x980x010xf9

其中,ip代表bmc的ip地址;0x98代表温度传感器的地址;0xf8和0xf9代表环境温度存储的寄存器空间。

显而易见地,上面所示的仅仅是本发明的一个具体实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据上述实施例获得其他的技术方案,以及在本发明保护的范围内做出的等同变化均应落入本发明的保护范围内,都属于本发明保护的范围。

综上所述,本发明采用直接读取温度传感器的寄存器空间并转化计算的方式,依托于服务器运行的正常环境温度,通过对比,即可在服务器环境温度记录异常时刻能够精确的定位故障位置,能够有效改善故障处理效率;使用带外ipmi工具读取寄存器空间,不仅方便快捷,而且具有较高的安全性,提高产品的可维护性的同时,提升了客户满意度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1