服务器BMC系统风道异常监控报警的方法及服务器与流程

文档序号:11230323阅读:3282来源:国知局
本发明属于服务器监控管理
技术领域
,具体涉及bmc系统中提供风道异常监控报警的方法及服务器。
背景技术
:在服务器的发展中,风扇不仅要实现降温的目的,还要满足节能降噪的要求。在服务器中引入了风道,以及自动调速策略,在保证服务器散热的前提下,使风扇以较低的转速运行,从而达到节能降噪的目的。但实际运行过程中,会因为种种问题,导致风道出现异常。比较典型的情况如服务器所在的环境灰尘过大,服务器长时间运行后,导致防尘罩灰尘过多,虽然风扇转速已经很高了,但因入风口风道堵塞导致的风量减少,散热仍不理想,严重情况下可能导致cpu过热宕机。再比如服务器的导风罩,一般是为保证风流按照预设的通道将热量导出,这些导风罩很多是塑料材质。如果导风罩因为破损或者未正确安装,会导致服务器散热性能的急剧下降。其次,很多服务器在购买之后,可能会自己配置一下非服务器标配的第三方pcie设备。在有些情况下,pcie挡片可能存在不合适的情况,而产生漏风,这样就可能导致风道的异常影响散热。在服务器的发展中,风扇不仅要实现降温的目的,还要实现节能降噪的目的。在服务器中引入了风道,以及自动调速策略。在保证服务器散热的前提下,使风扇以较低的转速运行,从而达到节能降噪的目的。中国专利《一种具有灰尘监控功能的服务器》,具体提供了一种具有灰尘监控功能的服务器,包括箱体,箱体内风扇外侧设置有可活动的过滤网,正对风扇的箱体上设置有风压监控模块和时间监控模块,风压监控模块与服务器电源相连,时间监控模块由电池驱动,可设置定时提醒时间。解决了风扇吸附灰尘和不易清洗的问题,在服务器工作时,风压监控模块实时监控风扇的转速,当风扇转速低于预定值或时间监控模块进行定时提醒时,相应的指示灯亮,操作人员将过滤网本身拆卸下来进行清理。但该现有技术风压监控模块通过监控风扇的转速来生成,而且风扇转速是不可调的,风扇转速的改变。但在目前的自动调速环境下,风扇转速是根据散热条件实时调整的,比如在外部环境温度低,通风条件好的情况,风扇可能一直以最低转速在运行。仅仅依靠风扇转速无法确定灰尘引起了风道异常。中国专利《一种服务器系统中基于niosii软核的风道异常侦测方法》,提供一种服务器系统中基于niosii软核的风道异常侦测方法,涉及风道异常侦测
技术领域
,本发明在使用fpga器件的计算机系统中,可使用在altera的fpga中搭建niosii软核技术用来实现服务器系统的风道异常侦测功能。自定义i2c作为主设备接口模块。将pio模块,ddr2sdram存储控制,flash存储控制等功能集成在fpga的niosii软核中。读取传感器风向风速并通过建立风速与风扇转速对应曲线报警机制,建立风向变化范围报警机制。实现对服务器系统中风道异常侦测。该技术方案的的风扇转速是可变的,但本方案需要增加额外的硬件:使用fpga器件,风向风速传感器。bmc系统,遵循ipmi规范,广泛用于服务器的远程监控管理方案。因此提供一种服务器bmc系统中风道异常监控报警的方法是非常有必要的。技术实现要素:本发明为解决由环境灰尘过大、导风罩等原因造成的风道异常问题。为此,本发明提供服务器bmc系统风道异常监控报警的方法及服务器,它具有能够对风道进行监控,并能够在风道异常时及时发出警告,增加服务器运行的可靠性的优点。为了实现上述目的,本发明采用如下技术方案。服务器bmc系统风道异常监控报警的方法,建立热功耗、温差、风扇转速的对应表,在与实际运行条件下的服务器功耗与温差相同的情况下,将风扇转速与对应表风扇转速进行比较。转速差别过大则判定为风道异常,触发告警。优选的,风道异常时,如当进风口的防尘罩灰尘过多时,导致进风口横截面积减小,增大的进风口风速。优选的,如热功耗、温差、风扇转速的对应表中不存在匹配的功耗、温差时,采用线性逼近的方法计算风扇转速或使用风扇转速估算公式进行处理。所述风扇转速公式为,风扇转速=常量k*热功耗/温差+常量a。一种服务器,在服务器bmc系统的sdr中,设有风道异常指数传感器。风道异常指数,是一个风扇转速偏离值,风道异常指数计算方法为:实际转速/理论转速。风道异常指数设置阈值上下限,当超出范围时触发告警。优选的,风道异常指数设置阈值上下限1.2、0.8。该阈值范围可以根据实际情况进行修改。优选的,在bmc的web管理界面上显示风道异常指数传感器。当风道异常指数传感器读值超过阈值时,记录sel,触发报警,并以邮件或者snmp的方式,发送告警信息。可选的,在服务器面板上设有led指示灯,如果检测到风道异常,则将led指示灯点亮。本发明的工作原理如下。电器热量(h)=热功率(p)*时间(t)/4.2风扇散热量(h)=比热(c)*质量(m)*温差(△t)质量(m)=风量(cfm)*密度(ρ)*时间(t)风量(cfm)=1.76p/△t进风口空气流量=进风口横截面积*进风口风速风量(q)与转速(n)的关系成正比:q1/q2=n1/n2。可以推算出:q1/n1=q2/n2=kq=kn=1.76p/△t。继而可以推算出n=k*p/△t。风扇转速与热功率成正比,与温差成反比。即在功率以及温差一定的情况下,服务器产生的热量,以及散发这些热量所需的风量是一定的,理论上风扇所需要的最小转速也是一定的。在风道正常的情况下,为满足所需风量,风扇转速会在一个小范围内浮动。但如果风道出现了异常情况,为保持这个风量,必然会导致风扇转速的改变。下面分别对两种风道异常情况进行说明。进风口空气流量=进风口横截面积*进风口风速。当进风口的防尘罩灰尘过多时,导致进风口横截面积减小,则需要更大的进风口风速。在导风罩异常的情况下,风扇在相同转速产生的风量是相同的,但因为导风罩导致的风道异常,正常情况下经过散热器件的风向风速发生了改变,只有部分通过。要达到散热效果,风扇转速势必需要提高。本发明的有益效果:本发明能够对风道进行监控,并能够在风道异常时及时发出警告,增加服务器运行的可靠性。在接收到告警信息后,及时对服务器的风道进行检查,能够有效解决风道异常引发的散热问题。附图说明图1是实施例处理方法的数据流图。具体实施方式下面结合附图与实施例对本发明作进一步说明。实施例1环境温度20度,服务器的cpu智能调速保持在正常工作温度70,服务器的热功耗保持100w不变。这种情况下,如果在风道正常的情况下,风扇转速只需要30%(pwm77)的转速就能满足散热条件。如果出现了风扇转速40%(pwm102)或者更高才能保证cpu温度维持在正常温度70度。则认为风道出现了异常,需要进行告警。实施例2一、对正常风道的服务器进行采样,建立热功耗、温差、风扇转速的对应表。其中热功耗可以从发热部件cpu中实时获取,温差为cpu部件与入风口温度的差值。风扇转速为满足散热条件下的当前稳定转速。采样时,应该尽可能的覆盖服务器的工作范围。对于热功耗,要参考cpu的最大热功耗tdp,采样至少要覆盖(0.5*tdp--tdp)的范围。可以采用跑压力测试工具的方法给cpu加压,以产生不同的实时功耗。对于温差要覆盖服务器的正常工作温度范围,比如(10-40度);还要覆盖cpu的正常工作温度范围,比如((tjmax-40)--tjmax度),上述温度范围跟cpu的spec具体情况具体分析。环境温度过低情况下,(低于10度),因温差大散热效果好,可以不进行采样。在采样时,可以采用空调制冷、风热机或者温控老化机房,以采取准确的数据。cpu温度的改变,也是通过cpu加压的方法实现。以环境温度20度、发热部件cpu温度为70度为例子,则温差为70-20=50度。同时为减少数据存储量,可以控制采样密度,比如功耗每差10w进行采样存储,温度每差2度进行采样存储。以tdp180w为例子,需要(180-90)/10+1=10个功耗点。以环境温度(10-40度)cpu温度tjmax88度(48-88度)为例子,温差范围(88-10,48-40)(78,8),需要采样(78-8)/2+1=36个。上述温差范围在某些边界范围内可能采样不到,可以具体情况具体分析。总共需要的采样数据表需要记录10*36=360条数据。对于采样中的热功耗与温差相同的数据,可以根据策略对风扇转速进行平均值或者方差处理。表1采样示例表热功耗温差风扇转速(pwm)80w4814580w46176二、风道异常的容错检测根据对应表以及计算公式,计算出当前环境下理论上的风扇转速,与实际的风扇转速做比较。如果实际风扇转速超出阈值10%,则认为风道异常,操作时该阈值可调节。检测到风道异常,则标记一次。以上的异常标记,每10秒执行一次,为防止误报,上述异常标记5分钟内出现超过15次,则触发风道异常告警。防止误报的多次尝试次数与间隔可以修改。下面对理论风扇转速的计算方法进行描述。如果在《功耗、温差、风扇转速》表中,有与当前环境匹配的功耗、温差,则直接使用表中的风扇转速作为理论转速。如果不存在匹配的功耗、温差。可以使用线性逼近的方法进行处理。如上述表一采样示例中,可以简单计算热功耗80w,温差47度的情况下。风扇转速为y。则(y-145)/(176-145)=(47-48)/(46-48),得出y=156。或者可以使用风扇转速估算公式进行处理。将表一种数值代入公式,风扇转速=常量k*热功耗/温差+常量a。145=k*80/48+a,176=k*80/46+a。计算出k、a的值后,代入公式y=k*80/47+a=155。与上述线性逼近的方法大体相同。三、触发告警后的界面显示以及告警发送在服务器bmc系统的sdr中,增加风道异常指数传感器。风道异常指数,是一个风扇转速偏离值。该值的计算方法为:实际转速/理论转速。该指数值可设置阈值上下限1.2、0.8。当超出范围时触发告警。该阈值范围可以根据实际情况进行修改。在bmc的web管理界面上显示该传感器。在该传感器读值超过阈值时,记录sel,触发报警,以邮件或者snmp的方式,发送告警信息。在服务器面板上增加一个led指示灯,如果检测到风道异常,则将led指示灯点亮。如图1所示,是本发明方法的处理流程图。采样流程,生成热功耗、温差、风扇转速对应表。检测流程根据对应表以及服务器的实时功耗温差数据,生成一个传感器读值。web显示流程,将传感器读值进行显示。告警流程,则根据sdr中设置的阈值,触发日志记录sel、以及日志告警发送(通过email或者snmp)。上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1