一种多单元服务器的传感器数据集成处理方法与流程

文档序号:12665502阅读:171来源:国知局
一种多单元服务器的传感器数据集成处理方法与流程

本发明涉及服务器领域,尤其涉及多单元服务器的传感器数据集成处理方法。



背景技术:

随着科技的发展,信息处理量越来越大,这给服务器的稳定运行提出了很高的要求。服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。然而,现有服务器对各单元缺少可靠地实时检测以及预警分析,影响服务器的正常工作,降低了工作效率。



技术实现要素:

本发明针对以上问题,提供了一种能够实时监控,有效分析并预警,提高管理效率的多单元服务器的传感器数据集成处理方法。

本发明的技术方案是:包括以下步骤:

S1、所述多单元服务器包括计算单元、存储单元、交换单元和供电单元,各单元分别设有电压传感器和温度传感器;在多单元服务器内增加管理单元;

S2、在管理单元内嵌管理控制器,在计算单元、存储单元、交换单元和供电单元内嵌采集控制器,采集控制器收集各单元的电压和温度的传感器数据;

S3、各单元采集控制器通过IPMI组包传输到管理控制器;

S4、管理控制器对采集控制器中的传感器数据进行数据处理并实时显示,其中,数据处理包括分类、融合;

S4.1、管理控制器对电压传感器数据进行解析,对超出正常范围数据进行异常告警,根据关联度信息表对告警数据进行数据融合,融合处理后对输入电压进行限值或关断;

S4.2、管理控制器对温度传感器数据进行解析,对超出正常范围数据进行分级别告警,若严重告警时,对告警数据根据关联度信息表进行数据融合,出现严重告警温度时调节风扇转速;

S5、管理控制器对电压限值或关断、风扇转速调节反馈控制数据通过IPMI协议进行组包,通过以太网络发送到各单元采集控制器,采集控制器解包后对输入电压、风扇转速进行处理。

S4中包括以下步骤:

1)开始;

2)管理控制器初始化,预置基准、关联度信息表;

3)数据采集接收或反馈控制发送;

4)接收IPMI组包解析(图2中IPMI包为IPMI组包);

5)分类电压、温度;

6)与基准信息表进行比较,判断是否正常;

6.1)正常,实时信息显示,结束;

6.2)异常;

7)接6.2)分级别告警;

7.1)一般,告警记录、统计,实时信息显示,结束;

7.2)严重;

8)接7.2)严重告警,转入反馈控制;

9)根据关联度信息表进行数据融合;

10)关闭告警电压源输入、风扇调节。

S4.1中,

管理控制器接收到电压数据,与基准电压值进行比较,电压值正常则进行实时电压值显示;

电压值异常则进入异常告警过程,

若单路电压超出范围,进入异常告警反馈,单路告警数据融合后即进行限值或关断;

若两路电压超出范围,同时进入异常告警反馈,则根据关联度信息表,对产生两路电压的同一电压输入源关断;

若多路电压超出范围,同时进入异常告警反馈,则根据关联度信息表,可前向关闭到主电源输出,直至关闭服务器总电源。

S4.2中,风扇运行包括以下步骤:

1)开机;

2)获取风扇属性;

3)设置初始转速级别;

4)正常运行阶段:

4.1)保持风扇转速;

4.2)稳定运行后逐级降低动态最小转速等级,查看是否出现异常;

4.3)动态最小转速等级降至风扇厂商规定最小等级后保持;

5)异常阶段:

5.1)普通告警,逐级增加风扇转速,回到正常状态后逐级下降风扇转速至最小动态风扇级;

5.2)重要告警,所有区域风扇转速调至最高,可降低出问题单元的电源等级,回到正常状态后逐级下降风扇转速至最小动态风扇级;

5.3)严重告警,所有区域调至最高转速,关闭出问题单元,回归正常状态后决定是否恢复出问题单元供电,回到正常状态后逐级下降风扇转速至最小动态风扇级别。

本发明中多单元服务器包括计算单元、存储单元、交换单元和供电单元,通过增加的管理单元对各单元传感器数据进行集成处理。首先,分别在计算单元、存储单元、交换单元和供电单元内嵌采集控制器,在管理单元内嵌管理控制器,采集控制器收集各单元电压、温度的传感器数据,通过IPMI组包传输到管理控制器进行分类、融合集成处理并实时显示。再管理控制器对传感器数据进行解析和分类,对超出正常范围数据进行分级别告警,分普通告警、重要告警和严重告警,出现告警数据时进行记录和响应,并对各级别告警次数进行统计。若严重告警时,对告警数据根据关联度信息表进行数据融合,出现严重告警电压时切断电压源输入,出现严重告警温度时调节风扇转速,反馈控制数据通过IPMI组包进行发送,有效避免了温度过高、芯片烧毁等现象。

本发明具有设计合理、优化管理等特点,通过对多单元服务器的各类传感器数据进行分类、融合集成处理并实时显示,同时对异常信息或超出预警情况进行及时处理,不仅实现了对传感器数据快速分类和融合功能,还可以对各单元部件进行自动有效控制,从而提高了用户分析、处理传感器数据的管理效率。

附图说明

图1是本发明的流程图,

图2是本发明中S4中数据处理的流程图,

图3是本发明中S4.2中风扇运行的流程图,

图4是本发明中计算单元采集控制流程图。

具体实施方式

本发明如图1-4所示,包括以下步骤:

S1、所述多单元服务器包括计算单元、存储单元、交换单元和供电单元,各单元分别设有电压传感器和温度传感器;在多单元服务器内增加管理单元;

S2、在管理单元内嵌管理控制器,在计算单元、存储单元、交换单元和供电单元内嵌采集控制器,采集控制器收集各单元的电压和温度的传感器数据;

S3、各单元采集控制器通过IPMI组包传输到管理控制器;

S4、管理控制器对采集控制器中的传感器数据进行数据处理并实时显示,其中,数据处理包括分类、融合;

S4.1、管理控制器对电压传感器数据进行解析,对超出正常范围数据进行异常告警,根据关联度信息表对告警数据进行数据融合,融合处理后对输入电压进行限值或关断;

S4.2、管理控制器对温度传感器数据进行解析,对超出正常范围数据进行分级别告警,若严重告警时,对告警数据根据关联度信息表进行数据融合,出现严重告警温度时调节风扇转速;

S5、管理控制器对电压限值或关断、风扇转速调节反馈控制数据通过IPMI协议进行组包,通过以太网络发送到各单元采集控制器,采集控制器解包后对输入电压、风扇转速进行处理。

本发明中:

IPMI:Intelligent Platform Management Interface智能平台管理接口

IPMB: Intelligent Platform Management BUS智能平台管理总线

LAN:Local Area Network局域网

CPLD:Complex Programmable Logic Device复杂可编程逻辑器件

IPMI是一种开放标准的硬件管理接口规格,定义了管理控制器进行通信的特定方法。采用IPMI协议做管理,采用IPMB和LAN共用的方式传输IPMI消息,其中:

IPMB:设置LAN参数,作为底层配置数据传输接口;

LAN:传输IPMI消息。

利用IPMB的简单和可靠性做底层配置,LAN的高速传输数据,达到高性能管理的目的。

IPMB使用“请求——应答”协议,发送一条请求消息给控制器,该控制器会返回一外独立的应答消息。IPMB总线支持有15个控制器的系统,请求和应答消息都是通过I2C总线的“主写”(Master Write)模式传输的,即:一条请求消息是从一个作为I2C主端(Master)的节点发出,被一个作为I2C从端(Slave)的节点接收;对应的应答消息是从一个作为I2C主端的应答设备发出,被一个作为I2C从端的请求发起者接收。

IPMI组包就是将传送/接收数据按IPMB数据格式封装过程,数据包包含链路数据头、命令和数据字节,链路数据头包含一个7位的从地址,1位I2C读写位(由于IPMB协议只使用I2C的主写模式,所以这个读写位总是0),网络/链路功能号和校验字节。

如图1所示,本发明的方法为:增加管理单元、数据采集、数据传输、数据处理以及反馈控制数据进行处理。

如图4所示,以计算单元为例,其与管理单元之间的模块框图以及数据采集流程图为:计算单元内设置采集控制器、电压传感器、温度传感器和CPLD,CPLD分别与电压传感器以及温度传感器互通;

采集控制器内设有电压以及温度采集控制模块、IPMI协议栈,两者之间互通,同时IPMI协议栈连接计算单元的IPMI网络接口;

CPLD与电压以及温度采集控制模块信号传输;

本发明中CPLD是一种根据需要而自行构造逻辑功能的数字集成电路。其基本设计方法是借助集成开发软件平台,用原理图、硬件描述语言等方法,生成相应的目标文件,通过下载器将代码传送到目标芯片中,实现设计的数字系统。

CPLD主要对电压、温度监测和反馈的状态切换和逻辑控制,如打开/关闭3.3V输入电源,打开/关闭风扇等。

管理单元内设有管理控制器,管理控制器内设有状态显示/反馈控制模块、IPMI协议栈,两者互通,同时,IPMI协议栈连接管理单元的IPMI网络接口;

最后,管理单元的IPMI网络接口通过LAN网络与计算单元的IPMI网络接口信号传输。

如图2所示,S4中包括以下步骤(其为S4的具体步骤):

1)开始;

2)管理控制器初始化,预置基准、关联度信息表;

3)数据采集接收或反馈控制发送;

4)接收IPMI组包解析;

5)分类电压、温度;

6)与基准信息表进行比较,判断是否正常;

6.1)正常,实时信息显示,结束;

6.2)异常;

7)接6.2)分级别告警;

7.1)一般,告警记录、统计,实时信息显示,结束;

7.2)严重;

8)接7.2)严重告警,转入反馈控制;

9)根据关联度信息表进行数据融合;

10)关闭告警电压源输入、风扇调节。

S4.1中,管理控制器接收到电压数据,与基准电压值进行比较,电压值正常则进行实时电压值显示;

电压值异常则进入异常告警过程,

若单路电压超出范围,进入异常告警反馈,单路告警数据融合后即进行限值或关断;

若两路电压超出范围,同时进入异常告警反馈,则根据关联度信息表,对产生两路电压的同一电压输入源关断;

若多路电压(至少三路电压)超出范围,同时进入异常告警反馈,则根据关联度信息表,可前向关闭到主电源输出,直至关闭服务器总电源。

本发明以计算单元为例,电压关联度信息表为:

12V(1)→0.9V(11)

12V(2)→3.3V(21) →1.2V(211)

12V(2)→5V(22)

5V(1)→3.3V(12)→1.5V(121)

5V(2)→3.3V(21)→1.8V(211)

5V(2)→3.3V(22)→2.5V(221)

管理控制器接收到电压传感器数据,解包分类出电压数据,与基准电压值进行比较,电压值正常则进行实时电压值显示;若电压值异常则进入异常告警过程,如1.8V电压超出1.7V~1.9V范围,进入异常告警反馈,单路告警数据融合后即对1.8V限值或关断;2.5V超出2.4V~2.6V范围,也会进入异常告警反馈,同样单路告警数据融合后即对2.5V限值或关断;若1.8V、2.5V同时进入异常告警反馈,则根据关联度信息表,对产生1.8V、2.5V的同一电压输入源3.3V关断。若多路电压异常告警根据关联度信息表,可前向关闭到主电源输出,直至关闭服务器总电源。其余单元同理。

这样逐级关闭电压好处是:对于某路电压异常不至于关闭服务器总电源,从而影响服务器所有单元工作,争取了服务器应急处理时间,或者可通过冗余热备方式在线更换故障单元,能够确保服务器不间断连续工作。

S4.2中,风扇运行包括以下步骤:

1)开机;

2)获取风扇属性(即获取厂商建议风速级别和最大转速级别);

3)设置初始转速级别(即厂商建议转速级别);

4)正常运行阶段:

4.1)保持风扇转速;

4.2)稳定运行后逐级降低动态最小转速等级,查看是否出现异常;

4.3)动态最小转速等级降至风扇厂商规定最小等级后保持;

5)异常阶段:

5.1)普通告警,逐级增加风扇转速,回到正常状态后逐级下降风扇转速至最小动态风扇级;

5.2)重要告警,所有区域风扇转速调至最高,可降低出问题单元的电源等级,回到正常状态后逐级下降风扇转速至最小动态风扇级;

5.3)严重告警,所有区域调至最高转速,关闭出问题单元,回归正常状态后决定是否恢复出问题单元供电,回到正常状态后逐级下降风扇转速至最小动态风扇级别。

温度监测实现服务器的散热,其分为三个阶段,发现阶段,正常运作阶段和异常阶段。散热控制的目标是在满足散热需求的时候尽可能降低风扇转速。

1)发现阶段:

1.发现风扇存在;

2.设置风扇转速为厂商推荐值;

2)正常阶段:

1.保持风扇转速;

2.经过稳定一段时间后降低动态最小转速等级,查看是否出现异常;

3.动态最小转速等级降至风扇厂商规定最小等级后保持;

3)异常阶段:

a)普通报警:

1.增加所有区域风扇转速;

2.回到正常状态后逐级下降风扇转速至最小动态风扇级;

b)重要报警:

1.将所有区域风扇转速调至最大;

2.如果可能,降低出问题单元的电源等级;

3.回到正常状态后逐级下降风扇转速至最小动态风扇级

c)严重报警:

1.将所有区域风扇转速调至最大;

2.关闭出问题单元;

3.回归正常状态后决定是否恢复出问题单元供电;

4.回到正常状态后逐级下降风扇转速至最小动态风扇级别;

4)设置风扇为最大转速的情况:

a)有区域风扇丢失后所有转速调至最大;

b)风扇转速超阀值时,同区域所有风扇转速调至最大;

目前默认风扇启动等级为1级,而默认设置传感器阀值均在60度及以上,这就导致初始的散热无法满足机箱的需求,进而导致风扇转速的提升无法及时有效的解决散热需求。

本发明默认通过启动脚本将风扇的级别调整在6级,这样基本可以满足整机的初始散热需求,根据实测也为一般运行时动态调整最终散热等级。同时针对机箱的散热情况,根据实测数据,将风扇的最小等级设定在一个合理值上,保证风扇声音和机箱稳定性的一个平衡。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1