本发明涉及服务器领域,尤其涉及多单元服务器的传感器数据集成处理方法。
背景技术:
随着科技的发展,信息处理量越来越大,这给服务器的稳定运行提出了很高的要求。服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。然而,现有服务器对各单元缺少可靠地实时检测以及预警分析,影响服务器的正常工作,降低了工作效率。
技术实现要素:
本发明针对以上问题,提供了一种能够实时监控,有效分析并预警,提高管理效率的多单元服务器的传感器数据集成处理方法。
本发明的技术方案是:包括以下步骤:
S1、所述多单元服务器包括计算单元、存储单元、交换单元和供电单元,各单元分别设有电压传感器和温度传感器;在多单元服务器内增加管理单元;
S2、在管理单元内嵌管理控制器,在计算单元、存储单元、交换单元和供电单元内嵌采集控制器,采集控制器收集各单元的电压和温度的传感器数据;
S3、各单元采集控制器通过IPMI组包传输到管理控制器;
S4、管理控制器对采集控制器中的传感器数据进行数据处理并实时显示,其中,数据处理包括分类、融合;
S4.1、管理控制器对电压传感器数据进行解析,对超出正常范围数据进行异常告警,根据关联度信息表对告警数据进行数据融合,融合处理后对输入电压进行限值或关断;
S4.2、管理控制器对温度传感器数据进行解析,对超出正常范围数据进行分级别告警,若严重告警时,对告警数据根据关联度信息表进行数据融合,出现严重告警温度时调节风扇转速;
S5、管理控制器对电压限值或关断、风扇转速调节反馈控制数据通过IPMI协议进行组包,通过以太网络发送到各单元采集控制器,采集控制器解包后对输入电压、风扇转速进行处理。
S4中包括以下步骤:
1)开始;
2)管理控制器初始化,预置基准、关联度信息表;
3)数据采集接收或反馈控制发送;
4)接收IPMI组包解析(图2中IPMI包为IPMI组包);
5)分类电压、温度;
6)与基准信息表进行比较,判断是否正常;
6.1)正常,实时信息显示,结束;
6.2)异常;
7)接6.2)分级别告警;
7.1)一般,告警记录、统计,实时信息显示,结束;
7.2)严重;
8)接7.2)严重告警,转入反馈控制;
9)根据关联度信息表进行数据融合;
10)关闭告警电压源输入、风扇调节。
S4.1中,
管理控制器接收到电压数据,与基准电压值进行比较,电压值正常则进行实时电压值显示;
电压值异常则进入异常告警过程,
若单路电压超出范围,进入异常告警反馈,单路告警数据融合后即进行限值或关断;
若两路电压超出范围,同时进入异常告警反馈,则根据关联度信息表,对产生两路电压的同一电压输入源关断;
若多路电压超出范围,同时进入异常告警反馈,则根据关联度信息表,可前向关闭到主电源输出,直至关闭服务器总电源。
S4.2中,风扇运行包括以下步骤:
1)开机;
2)获取风扇属性;
3)设置初始转速级别;
4)正常运行阶段:
4.1)保持风扇转速;
4.2)稳定运行后逐级降低动态最小转速等级,查看是否出现异常;
4.3)动态最小转速等级降至风扇厂商规定最小等级后保持;
5)异常阶段:
5.1)普通告警,逐级增加风扇转速,回到正常状态后逐级下降风扇转速至最小动态风扇级;
5.2)重要告警,所有区域风扇转速调至最高,可降低出问题单元的电源等级,回到正常状态后逐级下降风扇转速至最小动态风扇级;
5.3)严重告警,所有区域调至最高转速,关闭出问题单元,回归正常状态后决定是否恢复出问题单元供电,回到正常状态后逐级下降风扇转速至最小动态风扇级别。
本发明中多单元服务器包括计算单元、存储单元、交换单元和供电单元,通过增加的管理单元对各单元传感器数据进行集成处理。首先,分别在计算单元、存储单元、交换单元和供电单元内嵌采集控制器,在管理单元内嵌管理控制器,采集控制器收集各单元电压、温度的传感器数据,通过IPMI组包传输到管理控制器进行分类、融合集成处理并实时显示。再管理控制器对传感器数据进行解析和分类,对超出正常范围数据进行分级别告警,分普通告警、重要告警和严重告警,出现告警数据时进行记录和响应,并对各级别告警次数进行统计。若严重告警时,对告警数据根据关联度信息表进行数据融合,出现严重告警电压时切断电压源输入,出现严重告警温度时调节风扇转速,反馈控制数据通过IPMI组包进行发送,有效避免了温度过高、芯片烧毁等现象。
本发明具有设计合理、优化管理等特点,通过对多单元服务器的各类传感器数据进行分类、融合集成处理并实时显示,同时对异常信息或超出预警情况进行及时处理,不仅实现了对传感器数据快速分类和融合功能,还可以对各单元部件进行自动有效控制,从而提高了用户分析、处理传感器数据的管理效率。
附图说明
图1是本发明的流程图,
图2是本发明中S4中数据处理的流程图,
图3是本发明中S4.2中风扇运行的流程图,
图4是本发明中计算单元采集控制流程图。
具体实施方式
本发明如图1-4所示,包括以下步骤:
S1、所述多单元服务器包括计算单元、存储单元、交换单元和供电单元,各单元分别设有电压传感器和温度传感器;在多单元服务器内增加管理单元;
S2、在管理单元内嵌管理控制器,在计算单元、存储单元、交换单元和供电单元内嵌采集控制器,采集控制器收集各单元的电压和温度的传感器数据;
S3、各单元采集控制器通过IPMI组包传输到管理控制器;
S4、管理控制器对采集控制器中的传感器数据进行数据处理并实时显示,其中,数据处理包括分类、融合;
S4.1、管理控制器对电压传感器数据进行解析,对超出正常范围数据进行异常告警,根据关联度信息表对告警数据进行数据融合,融合处理后对输入电压进行限值或关断;
S4.2、管理控制器对温度传感器数据进行解析,对超出正常范围数据进行分级别告警,若严重告警时,对告警数据根据关联度信息表进行数据融合,出现严重告警温度时调节风扇转速;
S5、管理控制器对电压限值或关断、风扇转速调节反馈控制数据通过IPMI协议进行组包,通过以太网络发送到各单元采集控制器,采集控制器解包后对输入电压、风扇转速进行处理。
本发明中:
IPMI:Intelligent Platform Management Interface智能平台管理接口
IPMB: Intelligent Platform Management BUS智能平台管理总线
LAN:Local Area Network局域网
CPLD:Complex Programmable Logic Device复杂可编程逻辑器件
IPMI是一种开放标准的硬件管理接口规格,定义了管理控制器进行通信的特定方法。采用IPMI协议做管理,采用IPMB和LAN共用的方式传输IPMI消息,其中:
IPMB:设置LAN参数,作为底层配置数据传输接口;
LAN:传输IPMI消息。
利用IPMB的简单和可靠性做底层配置,LAN的高速传输数据,达到高性能管理的目的。
IPMB使用“请求——应答”协议,发送一条请求消息给控制器,该控制器会返回一外独立的应答消息。IPMB总线支持有15个控制器的系统,请求和应答消息都是通过I2C总线的“主写”(Master Write)模式传输的,即:一条请求消息是从一个作为I2C主端(Master)的节点发出,被一个作为I2C从端(Slave)的节点接收;对应的应答消息是从一个作为I2C主端的应答设备发出,被一个作为I2C从端的请求发起者接收。
IPMI组包就是将传送/接收数据按IPMB数据格式封装过程,数据包包含链路数据头、命令和数据字节,链路数据头包含一个7位的从地址,1位I2C读写位(由于IPMB协议只使用I2C的主写模式,所以这个读写位总是0),网络/链路功能号和校验字节。
如图1所示,本发明的方法为:增加管理单元、数据采集、数据传输、数据处理以及反馈控制数据进行处理。
如图4所示,以计算单元为例,其与管理单元之间的模块框图以及数据采集流程图为:计算单元内设置采集控制器、电压传感器、温度传感器和CPLD,CPLD分别与电压传感器以及温度传感器互通;
采集控制器内设有电压以及温度采集控制模块、IPMI协议栈,两者之间互通,同时IPMI协议栈连接计算单元的IPMI网络接口;
CPLD与电压以及温度采集控制模块信号传输;
本发明中CPLD是一种根据需要而自行构造逻辑功能的数字集成电路。其基本设计方法是借助集成开发软件平台,用原理图、硬件描述语言等方法,生成相应的目标文件,通过下载器将代码传送到目标芯片中,实现设计的数字系统。
CPLD主要对电压、温度监测和反馈的状态切换和逻辑控制,如打开/关闭3.3V输入电源,打开/关闭风扇等。
管理单元内设有管理控制器,管理控制器内设有状态显示/反馈控制模块、IPMI协议栈,两者互通,同时,IPMI协议栈连接管理单元的IPMI网络接口;
最后,管理单元的IPMI网络接口通过LAN网络与计算单元的IPMI网络接口信号传输。
如图2所示,S4中包括以下步骤(其为S4的具体步骤):
1)开始;
2)管理控制器初始化,预置基准、关联度信息表;
3)数据采集接收或反馈控制发送;
4)接收IPMI组包解析;
5)分类电压、温度;
6)与基准信息表进行比较,判断是否正常;
6.1)正常,实时信息显示,结束;
6.2)异常;
7)接6.2)分级别告警;
7.1)一般,告警记录、统计,实时信息显示,结束;
7.2)严重;
8)接7.2)严重告警,转入反馈控制;
9)根据关联度信息表进行数据融合;
10)关闭告警电压源输入、风扇调节。
S4.1中,管理控制器接收到电压数据,与基准电压值进行比较,电压值正常则进行实时电压值显示;
电压值异常则进入异常告警过程,
若单路电压超出范围,进入异常告警反馈,单路告警数据融合后即进行限值或关断;
若两路电压超出范围,同时进入异常告警反馈,则根据关联度信息表,对产生两路电压的同一电压输入源关断;
若多路电压(至少三路电压)超出范围,同时进入异常告警反馈,则根据关联度信息表,可前向关闭到主电源输出,直至关闭服务器总电源。
本发明以计算单元为例,电压关联度信息表为:
12V(1)→0.9V(11)
12V(2)→3.3V(21) →1.2V(211)
12V(2)→5V(22)
5V(1)→3.3V(12)→1.5V(121)
5V(2)→3.3V(21)→1.8V(211)
5V(2)→3.3V(22)→2.5V(221)
管理控制器接收到电压传感器数据,解包分类出电压数据,与基准电压值进行比较,电压值正常则进行实时电压值显示;若电压值异常则进入异常告警过程,如1.8V电压超出1.7V~1.9V范围,进入异常告警反馈,单路告警数据融合后即对1.8V限值或关断;2.5V超出2.4V~2.6V范围,也会进入异常告警反馈,同样单路告警数据融合后即对2.5V限值或关断;若1.8V、2.5V同时进入异常告警反馈,则根据关联度信息表,对产生1.8V、2.5V的同一电压输入源3.3V关断。若多路电压异常告警根据关联度信息表,可前向关闭到主电源输出,直至关闭服务器总电源。其余单元同理。
这样逐级关闭电压好处是:对于某路电压异常不至于关闭服务器总电源,从而影响服务器所有单元工作,争取了服务器应急处理时间,或者可通过冗余热备方式在线更换故障单元,能够确保服务器不间断连续工作。
S4.2中,风扇运行包括以下步骤:
1)开机;
2)获取风扇属性(即获取厂商建议风速级别和最大转速级别);
3)设置初始转速级别(即厂商建议转速级别);
4)正常运行阶段:
4.1)保持风扇转速;
4.2)稳定运行后逐级降低动态最小转速等级,查看是否出现异常;
4.3)动态最小转速等级降至风扇厂商规定最小等级后保持;
5)异常阶段:
5.1)普通告警,逐级增加风扇转速,回到正常状态后逐级下降风扇转速至最小动态风扇级;
5.2)重要告警,所有区域风扇转速调至最高,可降低出问题单元的电源等级,回到正常状态后逐级下降风扇转速至最小动态风扇级;
5.3)严重告警,所有区域调至最高转速,关闭出问题单元,回归正常状态后决定是否恢复出问题单元供电,回到正常状态后逐级下降风扇转速至最小动态风扇级别。
温度监测实现服务器的散热,其分为三个阶段,发现阶段,正常运作阶段和异常阶段。散热控制的目标是在满足散热需求的时候尽可能降低风扇转速。
1)发现阶段:
1.发现风扇存在;
2.设置风扇转速为厂商推荐值;
2)正常阶段:
1.保持风扇转速;
2.经过稳定一段时间后降低动态最小转速等级,查看是否出现异常;
3.动态最小转速等级降至风扇厂商规定最小等级后保持;
3)异常阶段:
a)普通报警:
1.增加所有区域风扇转速;
2.回到正常状态后逐级下降风扇转速至最小动态风扇级;
b)重要报警:
1.将所有区域风扇转速调至最大;
2.如果可能,降低出问题单元的电源等级;
3.回到正常状态后逐级下降风扇转速至最小动态风扇级
c)严重报警:
1.将所有区域风扇转速调至最大;
2.关闭出问题单元;
3.回归正常状态后决定是否恢复出问题单元供电;
4.回到正常状态后逐级下降风扇转速至最小动态风扇级别;
4)设置风扇为最大转速的情况:
a)有区域风扇丢失后所有转速调至最大;
b)风扇转速超阀值时,同区域所有风扇转速调至最大;
目前默认风扇启动等级为1级,而默认设置传感器阀值均在60度及以上,这就导致初始的散热无法满足机箱的需求,进而导致风扇转速的提升无法及时有效的解决散热需求。
本发明默认通过启动脚本将风扇的级别调整在6级,这样基本可以满足整机的初始散热需求,根据实测也为一般运行时动态调整最终散热等级。同时针对机箱的散热情况,根据实测数据,将风扇的最小等级设定在一个合理值上,保证风扇声音和机箱稳定性的一个平衡。