服务器设备状态检修系统的制作方法

文档序号:6518497阅读:168来源:国知局
服务器设备状态检修系统的制作方法
【专利摘要】本发明提供一种服务器设备状态检修系统,其包括:特征量采集模块,负责定期采集服务器的状态特征量和告警信息;服务器状态评价模块,负责根据服务器的状态特征量和告警信息评价服务器的健康状态,得出服务器的健康状态等级;服务器状态诊断模块,负责在所述服务器状态评价模块评价服务器的健康状态为非正常时,根据服务器的当前及历史状态特征量判断服务器整体健康状态出现明显劣化的原因或者分析服务器存在的故障原因和故障部位;服务器决策建议模块,负责在所述服务器状态评价模块评价服务器的健康状态为非正常时,根据服务器状态诊断模块判断得到的故障原因和故障部位,为服务器的检修提供决策建议。
【专利说明】服务器设备状态检修系统
【技术领域】
[0001 ] 本发明涉及服务器设备状态检修系统。
【背景技术】
[0002]积极稳妥地开展以状态评价为基础的设备状态检修工作是新形势下缓解企业高速发展与人力资源相对紧缺等矛盾的有效途径,是加强精益化管理,提高维修针对性和及时性,提升可靠性水平的必然要求。
[0003]服务器状态检修是一个集信息汇集、处理、分析以及辅助决策判断为一体的复杂信息化过程,涉及到服务器及其运行巡视、监测等众多信息来源,特别是随着规模的不断扩大,信息来源的增多,传统手工分析将难以适应业务发展的要求。建立一套符合企业实际情况,有效帮助服务器管理者分析判断的计算机决策支持显得十分必要和势在必行。
[0004]目前国内外对于服务器设备的状态评价和综合决策的研究还比较少,大多数监控和管理工具都只提供针对特定品牌的服务器设备并缺乏统一的评判标准,而且自动化程度低,缺乏管理所需要的辅助手段。本发明针对各种品牌的服务器设备,提出统一的评判标准,增加自动化水平,并为服务器设备的运行状态及检修提供计算机辅助决策支持。

【发明内容】

[0005]针对现有技术的不足,本发明提出的是一种切实可行,自动化的服务器设备状态检修系统。
[0006]本发明的技术方案是提供一种服务器设备状态检修系统,其特征在于,其包括: 特征量采集模块,负责定期采集服务器的状态特征量和告警信息,并将它们存储于数
据库中;
服务器状态评价模块,负责根据服务器的状态特征量和告警信息评价服务器的健康状态,得出服务器的健康状态等级,所述服务器的健康状态等级从高到低设置有数个等级;如严重、异常、注意和正常,其中严重、异常和注意均为非正常状态;
服务器状态诊断模块,负责在所述服务器状态评价模块评价服务器的健康状态为非正常时,根据服务器的当前及历史状态特征量判断服务器整体健康状态出现明显劣化的原因或者分析服务器存在的故障原因和故障部位;
服务器预测评估模块,负责根据服务器当前及历史的状态特征量数据,通过具有可修改性和可扩充性的预测算法,预测未来一段时间内服务器状态特征量的可能值及服务器发生故障的概率;
服务器风险评价模块,负责根据服务器预测评估模块的评估结果数据和服务器状态特征量数据进行风险评价,风险评价的过程的输入参数为所述服务器预测评估模块得到的服务器发生故障的概率、服务器资产本身的价值和故障损失程度,输出结果为服务器的风险等级;
服务器决策建议模块,负责根据所述服务器状态评价模块的评价结果、服务器状态诊断模块的诊断结果、服务器预测评估模块的预测结果和服务器风险评价模块的评价结果,分析各级服务器检修优先级指标,建议服务器检修次序、检修级别、检修时间,并根据检修标准等级确定具体的检修项目。
[0007]优选的,所述服务器状态评价模块的处理步骤为:
1)将所述特征量采集模块采集服务器的状态特征量与其他服务器的状态特征量进行比较,并将所述特征量采集模块采集服务器的状态特征量的历史数据相互比较,对影响服务器各部件健康状态的特征量逐项评分;
2)根据评分分值所处范围确定服务器各部件的健康状态等级,该健康状态等级设置同所述服务器的健康状态等级;
3)根据服务器各部件的健康状态等级,结合部件对服务器整体的影响程度,确定服务器整体的健康状态等级;其中,首先根据部件对服务器的影响程度将部件分为关键部件和非关键部件,所有部件为正常状态则整体为正常状态,任一关键部件的健康状态为严重、异常或注意时,服务器整体的健康状态亦为严重、异常或注意;任一非关键部件的健康状态为严重或异常或注意时,服务器整体的健康状态为异常或注意;
4)最终形成的服务器整体健康状态等级的结果可用来支持服务器的状态诊断和决策建议。
[0008]优选的,所述服务器状态诊断模块采用基于知识的专家系统和基于数据的神经网络的混合诊断方法进行故障诊断;专家系统中的知识以规则的形式表示,规则是由过去检修工作中的服务器检修前状态和服务器实际故障的部位及原因构成,当服务器当前的状态类似于某条规则中的状态,就可以按照规则中的故障进行处理;神经网络通过对检修实例的训练库或样本库的学习,将诊断的依据以神经网络中每个神经元的权值的形式表示,当向神经网络中输入服务器当前的状态数据,通过与各个神经元权值的计算获得可能的故障部位及其原因。
[0009]优选的,所述服务器预测评估模块采用基于模型的预测、基于知识的预测和基于数据的预测的混合预测方法,所述混合预测方法符合服务器状态特征量数据的变化特点和服务器生命周期的特点;所述服务器预测评估模块预测的内容包括根据服务器的状态特征量及所述服务器状态评价模块的状态评价,得到未来一段时间内服务器的健康状态趋势及剩余寿命。预测的过程是根据当前和历史的状态特征量的值通过预测方法得到未来状态特征量的可能值,再根据预测的未来的状态特征量的可能值使用状态评价模块得到未来的健康状态趋势及剩余寿命。
[0010]优选的,所述服务器风险评价模块根据所述服务器预测评估模块的结果数据来识别服务器潜在的内部缺陷和外部威胁对服务器功能的影响,分析服务器发生故障的概率;
所述服务器资产本身的价值包括服务器的固有成本和服务器损坏后的维修或更换成本;并将上述成本之和从少至多划分为若干个等级,以对所述服务器资产本身的价值的量化;
服务器发生故障时所造成的资产损失程度包括服务器的资产要素的损失程度和资产要素损失的可能性;所述服务器的资产要素为:成本、网络安全性和应用服务可用性,通过资产要素不同损失等级所对应的值来量化资产要素的损失程度;通过统计在确定范围、时间范围内不同资产要素在不同等级所发生故障的次数,与故障总次数的比值就是资产要素损失的概率;资产要素的损失程度与损失的概率的乘积就是资产损失程度的量化值。
[0011]优选的,所述服务器决策建议模块的处理步骤为:
1)根据服务器状态评价结果数据、服务器状态诊断结果数据、服务器预测评估结果数据和服务器风险评价结果数据为服务器的检修提供决策建议;
2)根据服务器状态评价结果越差、服务器风险等级越高则越优先安排检修的原则,建立服务器状态评价结果和服务器失效风险评价结果的二维关系模型,并设定相关参数;
3)获得所述服务器决策建议模块的决策建议,包括服务器检修次序、检修级别、检修周期和检修内容。
[0012]
【专利附图】

【附图说明】
[0013]下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0014]图1是本发明的服务器状态评价模块的流程图;
图2是本发明的服务器状态诊断模块的流程图;
图3是本发明的服务器预测评估模块的流程图;
图4是本发明的服务器风险评价模块的流程图;
图5是本发明的服务器决策建议模块的流程图;
图6是本发明的服务器设备状态检修模块的流程图。
【具体实施方式】
[0015]为了使本【技术领域】的人员更好地理解本发明方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合实施例及实施例附图对本发明作进一步详细的说明。
[0016]本发明的服务器设备状态检修方法的全过程可以划分为特征量采集、服务器状态评价、服务器状态诊断、服务器预测评估、服务器风险评价和服务器决策建议模块,并分别对它们进行建模。
[0017]其中,特征量采集模块:
负责定期采集服务器的状态特征量和告警信息,并将它们存储于数据库中;服务器状态特征量由CPU使用率、内存占用率、连续运行时长、端口流量、风扇转数和剩余磁盘空间等服务器相关指标数据组成。
[0018]如图1所示,服务器状态评价模块的流程为:
1)服务器状态评价模块依据服务器状态特征量对服务器整体状态进行状态评价,服务器状态特征量由经过采集和处理的服务器相关指标数据组成;
2)结合状态特征量的横向(其他服务器)和纵向(历史数据)比较结果,对影响服务器各部件健康状态的特征量逐项评分,评分的分值等于基本扣分值乘以权重系数,基本扣分值表征状态量的劣化程度,从轻至重分别设为2、4、8、10,权重系数表征状态量的重要程度,从低到高分别设为1、2、3、4 ;
3)根据评分分值所处范围确定服务器各部件的健康状态等级,设定分值<10的为正常状态、12?16的为注意状态、20?24的为异常状态、> 30的为严重状态;
4)根据服务器各部件的健康状态等级,结合部件对服务器整体的影响程度,确定服务器整体的健康状态等级。根据部件对服务器的影响程度将部件分为关键部件(CPU、电源)和非关键部件(网口),所有部件为正常状态则整体为正常状态,任一关键部件的健康状态为严重、异常或注意时,服务器整体的健康状态亦为严重、异常或注意;任一非关键部件的健康状态为严重或异常或注意时,服务器整体的健康状态为异常或注意;
5)最终形成的服务器整体健康状态等级的结果可用来支持服务器的状态诊断和决策建议。
[0019]如图2所示,服务器状态诊断模块的流程为:
1)服务器状态诊断模块依据服务器状态评价结果数据、服务器告警信息以及服务器状态特征量数据进行状态诊断;
2)如果服务器整体健康状态评价为非正常状态或者服务器发出告警信息,则采用适当的手工或触发的方式启动服务器状态诊断,诊断出服务器整体健康状态出现明显劣化的原因或者分析服务器存在的故障原因和故障部位,并给出依据和解释;
3)诊断过程可以使用基于知识的专家系统和基于数据的神经网络。专家系统的“瓶颈”是知识的获取,神经网络的“瓶颈”是训练库或样本库的构建,不过专家系统的规则和神经网络的权值之间是互补的,每个神经元及其权值可以组合成规则,规则也可以拆分为神经元及其权值的组合,所以将这两种方法的组合使用不仅可以弥补各自的不足,还可以更大程度的提高故障诊断的准确率。
[0020]4)最终由诊断出的服务器故障部位和故障原因形成的服务器状态诊断报告为服务器预测评估模块和服务器决策建议模块提供诊断信息。
[0021]如图3所示,服务器预测评估模块的流程为:
1)服务器预测评估模块是对当前及历史的服务器状态特征量数据进行评估;
2)根据服务器当前及历史的状态特征量数据,通过具有可修改性和可扩充性的预测算法,预测未来一段时间内服务器状态特征量的可能值;
3)预测方法包括基于模型的预测、基于知识的预测和基于数据的预测,采用任何单一方法往往难以保证其预测效果,采用混合预测方法不仅能充分吸收各自方法的优点,同时也能弥补其各自的不足,混合预测方法需要符合服务器状态特征量数据的变化特点和服务器生命周期的特点;
4)预测的服务器未来状态特征量数据经过服务器状态评价模块的状态评价构成未来一段时间内服务器的健康状态趋势及剩余寿命;
5)最终的服务器未来健康状态趋势及剩余寿命为服务器风险评价模块和服务器决策建议模块提供预测信息;
如图4所示,服务器风险评价模块的流程为:
1)服务器风险评价模块根据服务器预测评估结果数据和服务器状态特征量数据进行风险评价,风险评价的过程需要综合考虑服务器发生故障的概率、服务器资产本身的价值、以及服务器发生故障时所造成的资产损失程度;
2)服务器预测评估结果数据能够用来识别服务器潜在的内部缺陷和外部威胁对服务器功能的影响,分析服务器发生故障的概率;
3)服务器资产本身的价值不仅包含服务器的固有成本,还包含服务器损坏后的维修或更换成本,将这两个成本的和从少至多划分为I?10,作为服务器资产本身价值的量化;4)资产损失程度需要综合考虑资产要素的损失程度和资产要素损失的可能性,根据服务器的特点,确定成本、网络安全性、应用服务可用性这3个为资产要素,通过要素不同损失等级所对应的值来量化资产要素的损失程度,通过统计在确定范围、时间范围内不同要素在不同等级所发生故障的次数,与故障总次数的比值就是资产要素损失的概率,两个量化值的乘积就是资产损失程度的量化值;
5)服务器故障的发生概率、服务器资产价值的量化值和服务器故障时的损失程度的量化值3者的乘积就是服务器的风险值,设定风险值≤5的为I类风险、3~5的为II类风险、I~3的为III类风险、0.5~I的为IV类风险、0.1~0.5的为V类风险、≤0.1的为VI类风险;
6)最终得到的服务器风险等级可以为服务器决策建议模块提供风险依据;
如图5所示,服务器决策建议模块的流程为:
1)服务器决策建议模块根据服务器状态评价结果数据、服务器状态诊断结果数据、月艮务器预测评估结果数据和服务器风险评价结果数据为服务器的检修提供决策建议;
2)遵循服务器状态评价结果越差、服务器风险等级越高则越优先安排检修的原则,建立服务器状态评价结果和服务器失效风险评价结果的二维关系模型,并设定相关参数;
3)检修级别从高到底分别为A类检修、B类检修、C类检修和D类检修,A类检修涉及设备整体更换,B类检修涉及对设备部件的更换,C类检修包括设备停运后的软件消缺和补丁升级,D类检修包括设备运行过程中能做的检测或检查;
4)检修周期与状态评价结果相关,正常状态的服务器可以超正常检修周期一年后安排检修、注意状态的服务器不超过正常检修周期内安排检修、异常状态的服务器应适时安排检修、严重状态的服务器应 尽快安排检修;
包括服务器检修次序、检修级别、检修周期和检修内容在内的决策建议结果提供给服务器检修人员安排具体检修工作,确保服务器持续稳定正常的运行;
以上所述,仅为本发明的【具体实施方式】。本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。
【权利要求】
1.一种服务器设备状态检修系统,其特征在于,其包括: 特征量采集模块,负责定期采集服务器的状态特征量和告警信息,并将它们存储于数据库中; 服务器状态评价模块,负责根据服务器的状态特征量和告警信息评价服务器的健康状态,得出服务器的健康状态等级,所述服务器的健康状态等级从高到低设置有数个等级; 服务器状态诊断模块,负责在所述服务器状态评价模块评价服务器的健康状态为非正常或出现告警时,根据服务器的当前及历史状态特征量判断服务器整体健康状态出现明显劣化的原因或者分析服务器存在的故障原因和故障部位; 服务器预测评估模块,负责根据服务器当前及历史的状态特征量数据,通过具有可修改性和可扩充性的预测算法,预测未来一段时间内服务器状态特征量的可能值,并最终预测服务器在未来一段时间内的健康状态趋势及剩余寿命; 服务器风险评价模块,负责根据服务器预测评估模块的评估结果数据和服务器状态特征量数据进行风险评价,风险评价的过程的输入参数为所述服务器预测评估模块得到的服务器发生故障的概率、服务器资产本身的价值和故障损失程度,输出结果为服务器的风险等级; 服务器决策建议模块,负责根据所述服务器状态评价模块的评价结果、服务器状态诊断模块的诊断结果、服务器预测评估模块的预测结果和服务器风险评价模块的评价结果,分析各级服务器检修优先级指标,建议服务器检修次序、检修级别、检修时间,并根据检修标准等级确定具体的检修项目。
2.根据权利要求1所述的系统,其特征在于,所述服务器状态评价模块的处理步骤为:I)将所述特 征量采集模块采集服务器的状态特征量与其他服务器的状态特征量进行比较,并将所述特征量采集模块采集服务器的状态特征量的历史数据相互比较,对影响服务器各部件健康状态的特征量逐项评分; 2)根据评分分值所处范围确定服务器各部件的健康状态等级,该健康状态等级设置同所述服务器的健康状态等级; 3)根据服务器各部件的健康状态等级,结合部件对服务器整体的影响程度,确定服务器整体的健康状态等级;其中,首先根据部件对服务器的影响程度将部件分为关键部件和非关键部件,所有部件为正常状态则整体为正常状态,任一关键部件的健康状态为严重、异常或注意时,服务器整体的健康状态亦为严重、异常或注意;任一非关键部件的健康状态为严重或异常或注意时,服务器整体的健康状态为异常或注意; 4)最终形成的服务器整体健康状态等级的结果可用来支持服务器的状态诊断和决策建议;专家系统中的知识以规则的形式表示,规则是由过去检修工作中的服务器检修前状态和服务器实际故障的部位及原因构成,当服务器当前的状态类似于某条规则中的状态,就可以按照规则中的故障进行处理;神经网络通过对检修实例的训练库或样本库的学习,将诊断的依据以神经网络中每个神经元的权值的形式表示,当向神经网络中输入服务器当前的状态数据,通过与各个神经元权值的计算可以获得可能的故障部位及原因。
3.根据权利要求2所述的系统,其特征在于,所述服务器状态诊断模块采用基于知识的专家系统和基于数据的神经网络的混合诊断方法进行故障诊断。
4.根据权利要求3所述的系统,其特征在于,所述服务器预测评估模块采用基于模型的预测、基于知识的预测和基于数据的预测的混合预测方法,所述混合预测方法符合服务器状态特征量数据的变化特点和服务器生命周期的特点;所述服务器预测评估模块预测的内容包括根据服务器的状态特征量及所述服务器状态评价模块的状态评价,得到未来一段时间内服务器的健康状态趋势及剩余寿命。
5.根据权利要求4所述的系统,其特征在于,所述服务器风险评价模块根据所述服务器预测评估模块的结果数据来识别服务器潜在的内部缺陷和外部威胁对服务器功能的影响,分析服务器发生故障的概率; 所述服务器资产本身的价值包括服务器的固有成本和服务器损坏后的维修或更换成本;并将上述成本之和从少至多划分为若干个等级,以对所述服务器资产本身的价值的量化; 服务器发生故障时所造成的资产损失程度包括服务器的资产要素的损失程度和资产要素损失的可能性;所述服务器的资产要素为:成本、网络安全性和应用服务可用性,通过资产要素不同损失等级所对应的值来量化资产要素的损失程度;通过统计在确定范围、时间范围内不同资产要素在不同等级所发生故障的次数,与故障总次数的比值就是资产要素损失的概率;资产要素的损失程度与损失的概率的乘积就是资产损失程度的量化值。
6.根据权利要求5所述的系统,其特征在于,所述服务器决策建议模块的处理步骤为: 1)根据服务器状态评价结果数据、服务器状态诊断结果数据、服务器预测评估结果数据和服务器风险评价结果数据为服务器的检修提供决策建议; 2)根据服务器状态评价结果越差、服务器风险等级越高则越优先安排检修的原则,建立服务器状态评价结果和服务器失效风险评价结果的二维关系模型,并设定相关参数;` 3)获得所述服务器决策建议模块的决策建议,包括服务器检修次序、检修级别、检修周期和检修内容。
【文档编号】G06F11/34GK103617110SQ201310555300
【公开日】2014年3月5日 申请日期:2013年11月11日 优先权日:2013年11月11日
【发明者】陈玉慧, 刘嘉华, 康睿, 王琪, 李元龙 申请人:国家电网公司, 南京南瑞集团公司, 南京南瑞信息通信科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1