一种基于服务器表面热状态的运行状态诊断的方法与流程

文档序号:14774975发布日期:2018-06-23 02:54阅读:188来源:国知局
一种基于服务器表面热状态的运行状态诊断的方法与流程
本发明属于信号与信息处理
技术领域
,尤其涉及一种基于服务器表面热状态的运行状态诊断的方法。
背景技术
:近年来,随着云计算及其应用的兴起,云计算数据中心(CloudcomputingDataCenter,CDC)也得到了蓬勃发展。在2015年工信部联合国家能源局、国家机关事务管理局,印发《国家绿色数据中心试点工作方案》(以下简称方案)。方案披露:我国数据中心发展迅猛,总量已超过40万个,年耗电量超过全社会用电量的1.5%,其中大多数数据中心的电源使用效率值(PowerUsageEffectiveness,PUE)平均在1.89左右,与国际先进水平相比有较大差距。在数据中心工作的服务器及其相配套的硬件设备,一旦工作温度超过临界值将影响其正常工作。数据中心存在多个不利因素影响整个建筑内的温度,比如机架上排出的热气进入冷气通道,冷气短路进入机房空调,降温设备的故障,服务器工作负荷分布不均等。其中用于数据处理的服务器能耗占40%。因此,建设绿色数据中心首要考虑IT设备尤其是服务器的节能。由于服务器请求响应的不一致性,在同一时刻处于数据中心不同位置的服务器可能处于过载状态,也有可能处于空闲状态。其中局部过热将之称为热点、多个热点集中在一起形成温度较高的区域称为热区,这两种情况的存在导致数据中心各处热量不均。制冷设备供应商现在比较主流的解决方案主要还是针对“热区”而言。即机房空调(ComputerRoomAirConditioner,CRAC)将最大程度降低局部温度最高处的热量,进而导致整个数据中心系统的耗能增加。根据美国采暖、制冷与空调工程师协会(ASHRAE)提供的数据,数据中心内部温差由10℃降为2℃,CRAC能耗将降低25%,因此局部过热是亟待监测和处理的。监测数据中心内部热量分布有两种方案:整体仿真预测温度、多传感器实地实时监测。由于整体仿真预测温度使用到的流体力学(ComputationalFluidDynamics,CFD)模型对计算机计算能力要求极高,无法做到实时性,因此实用价值不大。多传感器实地实时监测主要是在数据中心机房部署各种传感器,目前,对大型数据中心的温度场测量,通用的方法是将大量温度传感器置于数据中心关键位置;然后,通过某种方法收集所有传感器的测量数据。早期的测量方法使用的是有线传感器,但是昂贵的安装及配置成本阻碍其广泛使用。虽然无线传感器具有低成本、无侵入式测量等优点,但是Chieh-JanMikeLiang等人在“RACNet:AHigh-FidelityDataCenterSensingNetwork”文中指出了数据中心的电磁环境不利于传感器网络的大规模无线通信。针对目前实际当中存在的问题,有必要提出一种服务器运行状态诊断方法,以帮助数据中心管理人员能够更加准确、迅速地找到服务器“热点”所在,排查解决问题。技术实现要素:根据上述提出的主流数据中心“热点”监测诊断不足的技术问题,而提供一种基于服务器表面热状态的运行状态诊断的方法。本发明采用红外热成像仪,可以进行非接触式、实时地监测数据中心服务器的运行状态,同时能够根据服务器的红外图像特征比较智能地识别出各种工况下的服务器运行状态以及故障成因,进而为数据中心运维人员提供极具价值的工程维护参考,最终达到提升数据中心能耗方面的提升。本发明采用的技术手段如下:一种基于服务器表面热状态的运行状态诊断的方法,其特征在于,包括如下步骤:S1、采集服务器红外图像:在服务器工作条件下,通过红外热像仪采集服务器运行状态下的红外图像;S2、标准化倾斜校正服务器感兴趣区:基于图像配准的标准方法对热图像进行倾斜校正,并采用手动分割方法确定红外图像服务器感兴趣区;S3、图像增强,提取热点区域:分割得到的感兴趣区灰度图,应用图像增强和图像二值化算法进行热点区域提取,得到热点灰度图;S4、提取形态学特征、纹理特征:基于热点灰度图的灰度分布特征,从图像纹理和形态学两方面提取有效特征;S5、搭建支持向量机,训练获取诊断分类器:将归一化之后的特征矩阵输入支持向量机进行训练得到可以对不同工况下的服务器进行诊断的分类模型,使用支持向量机进行训练,进而获得服务器运行诊断分类模型。进一步地,所述步骤S1中,在服务器处于工作状态下,采用热成像仪对服务器的出风口位置采集热图像数据。进一步地,所述步骤S2中,先将红外图像处理后得到的灰度图减去当时采集的室温值,然后再采用手动分割方法确定红外图像服务器感兴趣区,所述感兴趣区是指服务器所在区域;图像配准的标准化方法对其进行倾斜校正,使用仿射变换将图像校正为固定长宽的矩形灰度图。进一步地,所述步骤S3中,图像增强采用同态滤波算法在频率域中同时将图像亮度范围进行压缩和图像对比度进行增强,从而消除了图像上照度不均的问题同时增强了图像的暗区细节。同态滤波算法的基本流程为:对待处理图像求对数,然后再进行傅里叶变换,再乘上同态滤波函数,之后再进行傅里叶反变换,最后再进行指数变换得到增强后图像;其中,同态滤波函数,如下所示:其中,γH表示高频增益,γL表示低频增益,D(u,v)表示频率(u,v)到滤波器中心(u0,v0)的距离,D(u0,v0)表示滤波器的截止频率,常数c用于控制滤波函数的锐利度。进一步地,通过遍历图像查找并将图像中灰度值异常点,即灰度值为0,1等低值,更改为周围灰度值均值和调节同态滤波高频、低频滤波的范围获得利于二值化处理的增强灰度图;采用一维最大熵对图像增强后的灰度图进行二值化处理,其中,利用如下公式求取对应灰度t的熵值:其中,表示目标出现灰度的概率,pQ(i)表示Q属性的概率;表示目标部分直方图的熵;表示直方图的熵;HL-1表示最高灰度级的熵,L=255为灰度最高等级,L1,L2表示属性集Q中像素最小和最大灰度值;t为最佳阈值,记为T;将得到的二值图与原灰度图对比,保留值为1的区域灰度,将值为0的区域的灰度置为0,从而获得同一工况下相似,不同工况差异较大的热点灰度图。进一步地,所述步骤S4中,图像纹理特征的获取是采用Tamura纹理特征提取算法和基于LBP的GLCM纹理特征提取算法;Tamura纹理特征主要计算了图像的粗糙度、对比度、方向度、线性度、规则度五个特征,其中,粗糙度:m、n分别表示图像的长、宽;Sbest(i,j)表示坐标(i,j)处滑动窗口平均强度差最佳尺寸;对比度:α表示黑白色的偏差,σ表示黑白色方差;方向度:k表示直方图峰度值,nk表示所有峰值,Wk表示峰值包含的所有的离散区域,Φ表示0-π区域划分为16等分,每个区间取得的最大值,Φk表示波峰的中心位置;HD表示方向梯度直方图;线性度:Flin=max(tempM),tempM表示8个不同方向的线性度;规则度:Freg=1-r(Scrs+Scon+Sdir+Slin),r表示规范化因子,Scrs、Scon、Sdir、Slin分别表示粗糙度、对比度、方向度和线性度的标准差;基于LBP的GLCM纹理特征提取算法,使用LBP局部特征描述算子,其中用于计算的LBP图的公式,如下所示:(xc,yc)表示中心像素的坐标,pc表示中心像素邻域的第pc个像素,ipc、ic分别表示中心像素邻域的第pc个像素的灰度值和中心像素的灰度值,s(x)表示符号函数;计算得到LBP模式下的灰度图,然后对此图像计算GLCM,即灰度共生矩阵的对比度、能量、熵、最大概率、关联性、同质性特征,其中,对比度:H(i,j)表示像素坐标(i,j)处的灰度概率密度,能量:熵:最大概率:Max=max{H(i,j)},关联性:μxμy和σxσy分别表示灰度概率密度的均值和均方差;同质性:进一步地,所述步骤S4中,形态学特征是选择了热点面积,热点图灰度均值,热点图灰度方差,全图重心,最大灰度区域重心纵坐标、灰度比例,圆形度计算周长、面积,灰度概率密度,统计直方图概率均值、歪斜度、峰态、熵、面积比,欧拉数计算方法获得的,其中,灰度概率密度:ni表示第i个灰度级的像素数量,N表示图像的总的像素值;热点图灰度均值:热点灰度方差:I(i,j)表示像素坐标(i,j)处的灰度值;全图重心:统计直方图概率均值:Hl(i)表示灰度级概率;歪斜度:σs表示热点图直方图方差;峰态:熵:面积比:Sb表示灰度为0的面积,Sg表示灰度大于0的面积;欧拉数:E=b0-b1+b2,b0表示连接体数,b1表示孔洞数,b2表示空穴数。进一步地,所述步骤S5中,将采集计算得到的热点图按比例划分为训练集和测试集,将计算得到的特征矩阵进行归一化之后,输入搭建的支持向量机进行训练,进而获得服务器运行诊断分类模型。这一过程中分类器核函数的选择及其参数设置具有决定性作用。具体的,由于SVM进行高维映射的核函数包括线性核函数、多项式核函数、RBF核函数、sigmoid核函数。本发明参照先验知识,采用了RBF核函数以及网络搜索方法调整惩罚参数优化SVM的诊断效果。其中,RBF核函数映射公式:x表示原坐标系下的向量,z表示高维映射后的向量,g表示核函数调节参数,d(x,z)2函数表示计算两向量的欧几里得距离函数。SVM的目标函数是:s.t.,yi(wTxi+b)≥1-ξi,i=1,...,nξi≥0,i=1,...,n其中||w||2超平面之间的间隔距离,表示惩罚函数,ξi表示加入的松弛变量,C用来调节该变量的权重。与现有技术相比,本发明中使用到的红外热成像技术(IRT)具有非接触检测、无电磁干扰、安全可靠和实时监测且监测范围大等优点。相比温度传感器,热成像摄像头可以获取更直观的二维热分布图像,利用图像处理技术能够进一步的分析热点区域即用红外图像温度与灰度之间的关系,感知服务器温度异常点,从而对服务器热故障状态进行判断,极大地提高了数据中心管理人员的管理效率,便于工程调试和系统维护,同时提高数据中心空调系统的制冷效率,利于数据中心节能减排。且可实现在无需停机的情况下监测电气设备故障方面,因而红外热像技术扮演很重要的角色。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明运行状态诊断方法的流程图。图2是服务器在五种工作状况下的红外图像。图3是服务器在五种工作状况下的校正标准化后的图像。图4是服务器热点区域提取的图像。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。如图1所示,一种基于服务器表面热状态的运行状态诊断的方法,包括如下步骤:S1、采集服务器红外图像:在服务器工作条件下,通过红外热像仪采集服务器运行状态下的红外图像,即对服务器的出风口位置采集热图像数据。S2、标准化倾斜校正服务器感兴趣区:先将红外图像处理后得到的灰度图减去当时采集的室温值,然后再采用手动分割方法确定红外图像服务器感兴趣区,所述感兴趣区是指服务器所在区域;图像配准的标准化方法对其进行倾斜校正,使用仿射变换将图像校正为固定长宽的矩形灰度图。S3、图像增强,提取热点区域:分割得到的感兴趣区灰度图,应用图像增强和图像二值化算法进行热点区域提取,得到热点灰度图;图像增强采用同态滤波算法在频率域中同时将图像亮度范围进行压缩和图像对比度进行增强,从而消除了图像上照度不均的问题同时增强了图像的暗区细节。同态滤波算法的基本流程为:对待处理图像求对数,然后再进行傅里叶变换,再乘上同态滤波函数,之后再进行傅里叶反变换,最后再进行指数变换得到增强后图像;其中,同态滤波函数,如下所示:其中,γH表示高频增益,γL表示低频增益,D(u,v)表示频率(u,v)到滤波器中心(u0,v0)的距离,D(u0,v0)表示滤波器的截止频率,常数c用于控制滤波函数的锐利度。通过遍历图像查找并将图像中灰度值异常点,即灰度值为0,1等低值,更改为周围灰度值均值和调节同态滤波高频、低频滤波的范围获得利于二值化处理的增强灰度图;采用一维最大熵对图像增强后的灰度图进行二值化处理,其中,利用如下公式求取对应灰度t的熵值:其中,表示目标出现灰度的概率,pQ(i)表示Q属性的概率;表示目标部分直方图的熵;表示直方图的熵;HL-1表示最高灰度级的熵,L=255为灰度最高等级,L1,L2表示属性集Q中像素最小和最大灰度值;t为最佳阈值,记为T;将得到的二值图与原灰度图对比,保留值为1的区域灰度,将值为0的区域的灰度置为0,从而获得同一工况下相似,不同工况差异较大的热点灰度图。S4、提取形态学特征、纹理特征:基于热点灰度图的灰度分布特征,从图像纹理和形态学两方面提取有效特征;图像纹理特征的获取是采用Tamura纹理特征提取算法和基于LBP的GLCM纹理特征提取算法;Tamura纹理特征主要计算了图像的粗糙度、对比度、方向度、线性度、规则度五个特征,其中,粗糙度:m、n分别表示图像的长、宽;Sbest(i,j)表示坐标(i,j)处滑动窗口平均强度差最佳尺寸;对比度:α表示黑白色的偏差,σ表示黑白色方差;方向度:k表示直方图峰度值,nk表示所有峰值,Wk表示峰值包含的所有的离散区域,Φ表示0-π区域划分为16等分,每个区间取得的最大值,Φk表示波峰的中心位置;HD表示方向梯度直方图;线性度:Flin=max(tempM),tempM表示8个不同方向的线性度;规则度:Freg=1-r(Scrs+Scon+Sdir+Slin),r表示规范化因子,Scrs、Scon、Sdir、Slin分别表示粗糙度、对比度、方向度和线性度的标准差;基于LBP的GLCM纹理特征提取算法,使用LBP局部特征描述算子,其中用于计算的LBP图的公式,如下所示:(xc,yc)表示中心像素的坐标,pc表示中心像素邻域的第pc个像素,ipc、ic分别表示中心像素邻域的第pc个像素的灰度值和中心像素的灰度值,s(x)表示符号函数;计算得到LBP模式下的灰度图,然后对此图像计算GLCM,即灰度共生矩阵的对比度、能量、熵、最大概率、关联性、同质性特征,其中,对比度:H(i,j)表示像素坐标(i,j)处的灰度概率密度,能量:熵:最大概率:Max=max{H(i,j)},关联性:μxμy和σxσy分别表示灰度概率密度的均值和均方差;同质性:形态学特征是选择了热点面积,热点图灰度均值,热点图灰度方差,全图重心,最大灰度区域重心纵坐标、灰度比例,圆形度计算周长、面积,灰度概率密度,统计直方图概率均值、歪斜度、峰态、熵、面积比,欧拉数计算方法获得的,其中,灰度概率密度:ni表示第i个灰度级的像素数量,N表示图像的总的像素值;热点图灰度均值:热点灰度方差:I(i,j)表示像素坐标(i,j)处的灰度值;全图重心:统计直方图概率均值:Hl(i)表示灰度级概率;歪斜度:σs表示热点图直方图方差;峰态:熵:面积比:Sb表示灰度为0的面积,Sg表示灰度大于0的面积;欧拉数:E=b0-b1+b2,b0表示连接体数,b1表示孔洞数,b2表示空穴数。S5、搭建支持向量机,训练获取诊断分类器:将采集计算得到的热点图按比例划分为训练集和测试集,将计算得到的特征矩阵进行归一化之后,输入搭建的支持向量机进行训练,得到可以对不同工况下的服务器进行诊断的分类模型,使用支持向量机进行训练,进而获得服务器运行诊断分类模型。这一过程中分类器核函数的选择及其参数设置具有决定性作用。具体的,由于SVM进行高维映射的核函数包括线性核函数、多项式核函数、RBF核函数、sigmoid核函数。本发明参照先验知识,采用了RBF核函数以及网络搜索方法调整惩罚参数优化SVM的诊断效果。其中,RBF核函数映射公式:x表示原坐标系下的向量,z表示高维映射后的向量,g表示核函数调节参数,d(x,z)2函数表示计算两向量的欧几里得距离函数。SVM的目标函数是:s.t.,yi(wTxi+b)≥1-ξi,i=1,...,nξi≥0,i=1,...,n,其中||w||2超平面之间的间隔距离,表示惩罚函数,ξi表示加入的松弛变量,C用来调节该变量的权重。实施例目前比较主流的CFD流场仿真和温度传感器监测,由于存在着计算量过大,无法达到实时性的要求、电磁环境干扰、运营维护成本高等问题,本发明提出了一种基于红外图像的服务器运行状态诊断的方法,通过提取服务器热点图像的特征信息即纹理特征和形态学特征的红外图像处理技术,来对服务器进行监测及诊断,以识别服务器处于何种运行状态,进而达到优化数据中心运维效率和准确率,降低数据中心能耗的目的。下面结合具体实验实例对本发明所述方案作以具体说明:实验设备规格:1)机柜参数:2)服务器参数处理器:IntelXeonE5520*2颗共16核心2.26GHz三级缓存8MB内存:16GDDR3ECCREG(4GB*4)18个内存槽最大288G硬盘:600GBSAS15000转3.5寸(146G*4块)支持6块SASSATA电源:标配一个DELL原装570W电源最大支持2个电源主板:Intel5520芯片组支持硬件虚拟化4个千兆网卡4个USB口阵列卡:DELL原装SAS6I阵列卡带缓存电池3)热成像仪:FLIRE8手持式热成像仪。4)温湿度仪:得力牌电子温湿度仪。将服务器设置四种不同的运行状态:1)60%CPU使用率,服务器入口处使用网孔门,服务器风扇均正常运行;2)60%CPU使用率,服务器入口处使用网孔门,主风扇关闭,其余风扇正常;3)60%CPU使用率,服务器入口处使用玻璃门,服务器风扇均正常运行;4)100%CPU使用率,服务器入口处使用网孔门,服务器风扇均正常运行;5)60%CPU使用率,服务器入口处使用网孔门,服务器内左侧第二个风扇损坏,其余风扇均正常运行;图2中(a),(b),(c),(d),(e)热成像图分别对应着服务器运行状态1),2),3),4),5)。首先,通过放置在固定位置的红外热像仪拍摄运行状态下的服务器的红外图像(如图2所示)并将其作为研究对象即样本数据(步骤S1)。其中,每种运行状态下,服务器的运行时间段为上午10:00到下午17:00。其中,温湿度测量使用放置在服务器机柜旁的得力电子温湿度计,当拍摄时记录下当时的温湿度。其中,红外图像拍摄时间点选择在当天的11:00、14:00、17:00,每个拍摄时间点拍摄频率为1min/pic,每个拍摄时间点拍摄30min。在拍摄前15min,打开热成像仪,使热成像仪工作状态稳定,将热成像仪固定距离服务器1.5m以内,并将服务器的主体位于热成像仪屏幕中央。每种服务器运行状态拍摄90张图片,共计拍摄450张红外图像,后期对五种服务器运行状态下的热图像进行相同的图像处理与特征提取。由于红外热像仪的拍摄光照、角度、距离等因素,导致待处理的服务器图像发生了扭曲变形,无法进行正常的图像处理与特征提取。对其进行倾斜校正处理(步骤S2)即利用基于图像配准的标准化方法对每一运行状态下的图像进行倾斜校正处理。通过采用手动分割方法,将红外图像中包含服务器的感兴趣区域图像分割出来,然后将感兴趣区域图像通过仿射变换为与实际服务器的尺寸成比例的标准矩形图像,如本发明映射到87×424像素的服务器图像(如图3所示),用以后续的图像处理与特征提取。然后对仿射变换得到的长宽一致的服务器灰度图(如图3)进行图像增强和二值化处理(步骤S3),提取出热点区域。在图像增强之前首先需要遍历整幅图片,然后将其中灰度极低的灰度值(比如灰度小于10的灰度值),均需要改为与附近值最大的灰度值相同。然后,调节同态滤波算法的高频和低频滤波的范围,获得利于二值化处理的增强灰度图(这个过程需要不断通过二值化的结果来进行调节,即相同工况下二值图类似,不同工况下二值图差异较大)。最后采用一维最大熵算法对增强后的灰度图进行二值化处理,将得到的二值图与原灰度图对比,保留值为1的区域灰度,将值为0的区域的灰度置为0,从而热点区域图(如图4所示)。接下来对热点区域图提取纹理和形态学特征,基于热点灰度图的灰度分布的特征,对其进行Tamura纹理特征和基于LBP的GLCM纹理特征提取(步骤S4)。其中Tamura纹理特征主要计算了粗糙度、对比度、方向度、线性度、规则度等5个特征。基于LBP的GLCM纹理特征提取算法,通过使用LBP局部特征描述算子,计算得到LBP模式下的灰度图,然后对此图像计算GLCM,即灰度共生矩阵的对比度、能量、熵、最大概率、关联性、同质性等6个特征。形态学特征选择热点面积、热点图灰度均值、热点图灰度方差、全图重心、最大灰度区域重心纵坐标和灰度比例、周长,新计算方法的面积和圆形度、灰度概率密度、统计直方图概率均值、歪斜度、峰态、熵、面积比、欧拉数等计算方法获得了16个特征。总共提取了27个图像特征数据。将得到的特征进行归一化处理利于后续的分类器训练效果。将提取得到的图像特征输入到支持向量机中进行训练(步骤S5),最终获得服务器热运行状态诊断模型。采集待检测的服务器所对应的红外图像,经上述步骤处理后,诊断出所述服务器的热故障状态类型,进而分析服务器热故障形成原因;本发明采用5折交叉验证方法避免过学习与欠学习情况的发生,同时采用网格搜索法调整惩罚参数C与核函数参数g用于优化SVM模型。本发明将450张服务器热故障红外图像中的三分之二用于训练SVM分类器,其中的三分之一红外图像用于测试SVM分类效果。实验结果显示,当C=24.2515,g=0.094732时,得到的最优分类正确率为83.33%左右。本发明的结果准确地识别了服务器当时的运行状态,为数据中心管理人员对服务器的维护工作提供参考建议,同时寻找到热点服务器,提高数据中心空调系统的制冷效率,节约能源。本发明极具实用价值。最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1