一种服务器故障在线诊断、健康分析及失效预报系统及方法

文档序号:8472456阅读:258来源:国知局
一种服务器故障在线诊断、健康分析及失效预报系统及方法
【技术领域】
[0001]本发明属于电子信息技术领域,尤其涉及一种服务器故障在线诊断、健康分析及失效预报系统及方法。
【背景技术】
[0002]随着信息化技术的飞速发展,各个领域内服务器、网络设备均大规模使用,普遍认为服务器崩溃是一个非常困难的课题,服务器崩溃常是突发性的且难以预测,无法做到有效的提前预警,必须加以控制以提高系统的稳定性。
[0003]目前国内的相关研宄均不具备同时对设备、供电、环境、行为审计的管理,并不具备开发接口,提供对后期其他设备的接管功能。

【发明内容】

[0004]本发明实施例的目的在于提供一种服务器故障在线诊断、健康分析及失效预报系统及方法,旨在解决目前国内的相关研宄均不具备同时对设备、供电、环境、行为审计的管理,并不具备开发接口,提供对后期其他设备的接管功能的问题。
[0005]本发明实施例是这样实现的,一种服务器故障在线诊断、健康分析及失效预报方法,该服务器故障在线诊断、健康分析及失效预报方法包括:
[0006]首先通过对服务器、工作站、网络设备的机箱内温度、风扇出口温度设备周边温度的参数进行实时监测,将一段时间内的参数进行统计,并作为设备健康度指标;
[0007]其次利用基于神经网络技术的专家系统辨识服务器、网络设备正常状态下的负载量与健康度的模型,通过一段时间的健康分析,诊断经长期运行后某一负载水平下的健康度与期望值是否匹配,诊断设备长期运行后的健康度和当前设备的崩溃概率;
[0008]再次对设备故障、失效做提前预报,并分析故障的原因,实时产生趋势性能分析报告、统计报告和历史报告,为优化系统性能和解决故障提供分析依据,为管理人员提供决策依据;同时具备开发接口,提供对后期其他设备的接管功能。
[0009]本发明实施例的另一目的在于提供一种服务器故障在线诊断、健康分析及失效预报系统,该服务器故障在线诊断、健康分析及失效预报系统包括:监测对象单元、参数监测模块、数据分析模块、参数统计模块、系统辨识模块、结果报告模块;
[0010]监测对象单元为服务器或网络设备,参数监测模块与监测对象单元连接,用于对监测对象单元的CPU温度、主板温度、CPU负载率、用物理内存、网络流量、UPS负载率、设备周边温度等参数进行实时监测,数据分析模块与参数监测模块通过数据总线相连;
[0011]参数统计模块包含数据存储子程序和数据统计归类子程序,与数据分析模块连接,通过数据总线分别与系统辨识模块和结果报告模块相连;系统辨识模块包含一套基于神经网络技术的专家系统,通过数据总线分别与参数统计模块和结果报告模块相连;结果报告模块包括监测对象的趋势性能分析报告、统计报告和历史报告,通过数据总线分别与参数统计模块和系统辨识模块相连。
[0012]进一步,参数统计模块将数据进行存储和分类后的结果传输到系统辨识模块,系统辨识模块根据处理后的数据利用基于神经网络技术的专家系统对服务器、网络设备正常状态下的负载量与健康度的模型进行辨识。
[0013]本发明通过对服务器及网络设备等参数进行监测,并作为设备健康度指标,利用一套基于神经网络技术的专家系统辨识服务器、网络设备正常状态下的负载量与健康度的模型,诊断经长期运行后某一负载水平下服务器、网络设备的健康度与期望值是否匹配,从而对服务器突发性崩溃进行预测,做出提前预警,提高系统的稳定性,同时具备开发接口,提供对后期其他设备的接管功能。
【附图说明】
[0014]图1是本发明实施例提供的服务器故障在线诊断、健康分析及失效预报系统的结构示意图;
[0015]图中:1、监测对象单元;2、参数监测模块;3、数据分析模块;4、参数统计模块;5、系统辨识模块;6、结果报告模块。
【具体实施方式】
[0016]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0017]本发明的服务器故障在线诊断、健康分析及失效预报方法通过对服务器、工作站、网络设备的机箱内温度、风扇出口温度等设备周边温度等参数进行实时监测,将一段时间内的参数进行统计,并作为设备健康度指标;利用一套基于神经网络技术的专家系统辨识服务器、网络设备正常状态下的负载量与健康度的模型。通过一段时间的健康分析,诊断经长期运行后某一负载水平下的健康度与期望值是否匹配,诊断设备长期运行后的健康度和当前设备的崩溃概率。进而对设备故障、失效等做提前预报,并分析故障的原因,能够实时产生趋势性能分析报告、统计报告和历史报告,为优化系统性能和解决故障提供分析依据,为管理人员提供决策依据。同时具备开发接口,提供对后期其他设备的接管功能。
[0018]下面结合附图及具体实施例对本发明的应用原理作进一步描述。
[0019]如图1所示,本发明实施例的服务器故障在线诊断、健康分析及失效预报系统主要由监测对象单元1、参数监测模块2、数据分析模块3、参数统计模块4、系统辨识模块5、结果报告模块6 ;
[0020]监测对象单元I为服务器或网络设备,参数监测模块2与监测对象单元I连接,用于对监测对象单元I的CPU温度、主板温度、CPU负载率、可用物理内存、网络流量、UPS负载率、设备周边温度等参数进行实时监测,数据分析模块3与参数监测模块2通过数据总线相连。
[0021]参数统计模块4包含数据存储子程序和数据统计归类子程序,与数据分析模块3连接,通过数据总线分别与系统辨识模块5和结果报告模块6相连;系统辨识模块5包含一套基于神经网络技术的专家系统,通过数据总线分别与参数统计模块4和结果报告模块6相连;结果报告模块6包括监测对象的趋势性能分析报告、统计报告和历史报告,通过数据总线分别与参数统计模块4和系统辨识模块5相连。
[0022]图1中的参数统计模块4将数据进行存储和分类后的结果传输到系统辨识模块5,系统辨识模块5根据处理后的数据利用基于神经网络技术的专家系统对服务器、网络设备正常状态下的负载量与健康度的模型进行辨识。
[0023]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种服务器故障在线诊断、健康分析及失效预报系统,其特征在于,该服务器故障在线诊断、健康分析及失效预报系统设置有为服务器或网络设备的监测对象单元; 参数监测模块,与所述监测对象单元连接,用于对所述监测对象单元的CPU温度、主板温度、CPU负载率、用物理内存、网络流量、UPS负载率、设备周边温度参数进行实时监测; 数据分析模块,与所述参数监测模块通过数据总线相连,用于对所述参数监测模块CPU温度、主板温度、CPU负载率、用物理内存、网络流量、UPS负载率、设备周边温度参数进行处理和分析; 参数统计模块,包含数据存储子程序和数据统计归类子程序,与所述数据分析模块连接,用于对所述数据分析模块中的CPU温度、主板温度、CPU负载率、用物理内存、网络流量、UPS负载率、设备周边温度参数进行存储和分类; 系统辨识模块,通过数据总线连接所述参数统计模块,包含基于神经网络技术的专家系统,根据处理后的数据利用基于神经网络技术的专家系统对服务器、网络设备正常状态下的负载量与健康度的模型进行辨识; 结果报告模块,通过数据总线连接所述参数统计模块,用于实现所述监测对象单元的趋势性能分析报告、统计报告和历史报告。
2.一种服务器故障在线诊断、健康分析及失效预报方法,其特征在于,该服务器故障在线诊断、健康分析及失效预报方法包括: 首先通过对服务器、工作站、网络设备的机箱内温度、风扇出口温度设备周边温度的参数进行实时监测,将一段时间内的参数进行统计,并作为设备健康度指标; 其次利用基于神经网络技术的专家系统辨识服务器、网络设备正常状态下的负载量与健康度的模型,通过一段时间的健康分析,诊断经长期运行后某一负载水平下的健康度与期望值是否匹配,诊断设备长期运行后的健康度和当前设备的崩溃概率; 再次对设备故障、失效做提前预报,并分析故障的原因,实时产生趋势性能分析报告、统计报告和历史报告,为优化系统性能和解决故障提供分析依据,为管理人员提供决策依据;同时具备开发接口,提供对后期其他设备的接管功能。
【专利摘要】本发明公开了一种服务器故障在线诊断、健康分析及失效预报系统及方法,该服务器故障在线诊断、健康分析及失效预报系统包括:监测对象单元、参数监测模块、数据分析模块、参数统计模块、系统辨识模块、结果报告模块。本发明通过对服务器及网络设备等参数进行监测,并作为设备健康度指标,利用一套基于神经网络技术的专家系统辨识服务器、网络设备正常状态下的负载量与健康度的模型,诊断经长期运行后某一负载水平下服务器、网络设备的健康度与期望值是否匹配,从而对服务器突发性崩溃进行预测,做出提前预警,提高系统的稳定性,同时具备开发接口,提供对后期其他设备的接管功能。
【IPC分类】G05B23-02
【公开号】CN104793607
【申请号】CN201510192330
【发明人】陈浩, 谭向红, 张清策, 陈莉, 於砚福, 赵传伟, 陶静, 董晓岚, 潘琦, 王冬阳, 蔺维维
【申请人】国家电网公司, 国网天津市电力公司
【公开日】2015年7月22日
【申请日】2015年4月20日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1