面向电力业务的信息应用系统故障趋势信息获取方法与流程

文档序号:12469449阅读:169来源:国知局
面向电力业务的信息应用系统故障趋势信息获取方法与流程

本发明涉及一种计算机领域,特别是涉及面向电力业务的信息应用系统故障趋势信息获取方法。



背景技术:

随着国网公司信息化建设的不断推进,信息系统的种类和数量不断增加,信息系统安全可靠运行要求不断提高,国网公司统一建设了IMS(IP Multimedia Subsystem,IP多媒体子系统)系统加强对信息系统运行情况的集中监控能力。尤其是夜间只有调度员值守的情况下,当信息应用系统突发重大故障时,运维人员需要一定的时间才能到达现场排除故障。为了进一步提升信息应用的可靠运行和运维管理水平,提高信息系统安全可靠运行保障能力,有必要结合公司信息调运体系的实际情况,积极研究和应用信息技术对现有信息应用的运行监控分析与应急处置机制进行创新改进。

国内外研究水平综述:

1)国外研究水平:

数据中心是一整套复杂的设施,它不仅仅包括信息系统和其它与之配套的服务器、通信、存储等设备,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。如图1所示,针对常见的监控需求,通过基本的监控方法,并不能达到最理想的监控效果。

信息系统运维监控对象主要包括主机和网络,主机监控可以分为应用层监控、服务层监控、服务器层监控和网络接口层监控。信息系统网络其实就是不同设备的集合,路由器、交换机、防火墙等可以视为特殊的“服务器”,而它们之间的联系组成了网络。因此,网络监控对象其实就是基于网络环境的设备。

目前,国外主流商用IT监控工具产品包括IBM Tivoli、HP Open View、Microsoft SCCM、BMC Patrol、CAUnicenter等,商用产品价格比较昂贵,一般在几十万至数百万,且功能不易定制扩展。开源的IT监控技术包括Cacti、Nagios、Zenoss、Zabbix、Hyperic HQ等,以免费的形式提供,能有效监控Windows、Linux和Unix的主机状态,交换机、路由器等网络设备等,可以支持WMI、PerfMon、SNMP、JMX、HTTP、Telnet、SSH、Syslog、ICMP、FTP、SMTP等协议,但是一般缺乏友好的用户界面。

2)国内研究水平

近年来,国内在IT监控理论与技术研究领域发展很快,基于上述开源的IT监控技术,国产商用IT监控工具产品及解决方案得到快速发展,比较成熟的产品包括北塔、东华、神州泰岳、摩卡、泰豪等公司的IT运维监控管理系统。

即使现有信息应用系统可以实现故障检测,也只能在发生故障之后才能检测到相应故障,均无法实现可靠的故障趋势预测,无法实现“事前报警”功能。



技术实现要素:

鉴于上述问题,提出了本发明以便于提供一种克服上述问题或者至少部分地解决上述问题的面向电力业务的信息应用系统故障趋势信息获取方法。

依据本发明的第一个方面,提供了面向电力业务的信息应用系统故障趋势信息获取方法,包括:

对信息应用系统中包含的至少一个设备进行监测,并获取监测数据;

采用预设的故障趋势预测规则,对获取到的所述监测数据进行数据处理,得到对应的故障趋势信息;

在指定显示设备上将所述故障趋势信息进行可视化展示。

所述至少一个设备包括:信息应用系统中指定的服务器、存储设备、交换机和路由器节点中的任意一个或多个;

所述监测数据包括网络接口层数据、服务器层数据、服务层数据和应用层数据;其中,

所述网络接口层数据包括IP地址、MAC地址、路由表、端口存活状态、上下行流量;

所述服务器层数据包括CPU负载、内存占用率、进程状态、磁盘I/O;

所述服务层数据包括中间件、数据库平台软件的状态数据;

所述应用层数据包括信息应用系统的性能状态数据。

当采用智能代理的分布式监控方式,每台被监测设备上安装有智能监控代理SMA时,所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,包括:

智能监控代理SMA对所述信息应用系统中包含的至少一个设备进行监测,得到监测数据;

监控服务端获取所述智能监控代理SMA监测到的所述监测数据,所述监控服务端按照设定时间间隔定期轮巡所述智能监控代理SMA,以获取所述智能监控代理SMA监测到的所述监测数据;

其中,所述监控服务端获取所述智能监控代理SMA之间通过XML格式传输所述监测数据。

所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,还包括:

所述智能监控代理SMA与所述监控服务端建立心跳连接;

所述监控服务端监测到所述智能监控代理SMA心跳连接超时时,得出所述智能监控代理SMA对应的设备发生故障,并生成相应的故障消息;

其中,所述故障消息包含在所述监测数据内。

当采用SNMP协议的网络监控方式时,所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,包括:

对所述信息应用系统中包含的至少一个设备的网络性能以及网络差错进行监测,并获取监测数据。

当采用智能代理的主机故障诊断监控方式,每台被监测设备上安装有智能监控代理SMA时,所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,包括:

所述智能监控代理SMA根据指定的监测策略,对所述信息应用系统中包含的至少一个设备进行监测;

监控主服务器接收所述智能监控代理SMA在监测到所述设备运行异常时发送的告警或故障消息;

其中,所述告警或故障消息包含在所述监测数据。

所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,还包括:

所述智能监控代理SMA与所述监控主服务器建立心跳连接;

所述监控主服务器监测到所述智能监控代理SMA心跳连接超时时,得出所述智能监控代理SMA对应的设备发生故障,并生成相应的故障消息;

其中,所述故障消息包含在所述监测数据内。

所述采用预设的故障趋势预测规则,对获取到的所述监测数据进行数据处理,得到对应的故障趋势信息,包括:

采用预设的线性回归算法和指数回归算法,对获取到的所述监测数据进行数据处理,得到对应的故障未来趋势信息;

采用预设的三角函数回归算法,对获取到的所述监测数据进行数据处理,得到对应的故障周期性趋势信息;

其中,所述故障趋势信息包括故障未来趋势信息和故障周期性趋势信息。

所述采用预设的线性回归算法和指数回归算法,对获取到的所述监测数据进行数据处理,得到对应的故障未来趋势信息,包括:

(1)所述线性回归算法

以所述信息应用系统中与故障相关的监测数据作为线性回归算法的样本数据集,收集所述信息应用系统发生各种故障的历史数据,其中,所述历史数据包括发生各种故障的具体时间,一段时间内发生该故障的次数,以及每次发生该故障时对应的状态因子数据;

进行偏相关分析,即确定所述信息应用系统设定未来时期预计发生的主要故障,其中,主要故障为任意两个偏相关系数大于等于-1且小于等于1的故障;

采用逐步回归法,对确定出的各所述主要故障分别建立故障与状态因子数据的映射关系方程式,并进行F检验,如果显著水平P不能满足P<设定阈值,则剔除该主要故障,否则保留由该主要故障建立的故障与状态因子数据的映射关系方程式;

预测所述信息应用系统所述设定未来时期的监测数据状态因子参数值,并将预测出的所述状态因子参数值代入所述保留的所述故障与状态因子数据的映射关系方程式中,得出发生相应故障的概率值及故障未来趋势信息;

(2)所述指数回归算法

根据采集到的监测数据状态因子参数序列值利用预设的所述指数回归算法计算所述信息应用系统未来多个周期内的监测数据预测值:

所采集的状态因子参数序列为{y1,y2,……,yn},采集时间序列为{t1,t2,……,tn},采用的指数回归函数为:y=cedt

其中c和d为指数回归函数的参数,参数计算方法为:

其中,

采用如下公式,根据上述参数计算结果计算未来一个周期的状态因子参数预测值:

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供的技术方案通过对信息应用系统中包含的设备进行监测,并采用预设的故障趋势预测规则,对获取到的所述监测数据进行数据处理,得到对应的故障趋势信息,实现了故障趋势的准确预测,即“事前报警”,进而有助于提高信息系统安全可靠运行保障能力。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了现有技术中监控需求、监控方法与监控效果对比图;

图2示出了本发明实施例提供的信息应用系统故障趋势预测的总体架构示意图;

图3示出了本发明实施例一提供的信息应用系统故障趋势信息获取方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在详细说明本发明提供的技术方案之前,首先介绍一下本发明的基本构思。本发明实施例提供的技术方案的原理构架,如图2所示,自下而上分别是采集层、数据层、展示层。采集层负责通过SNMP、WMI等协议实时收集网络中指定服务器、受管交换机、路由器等节点的各层状态数据。数据层负责对采集层收集的监测数据进行存储和进一步处理,如根据公式或模型进行预警、告警计算。展示层负责对数据层提供监测数据及对数据的处理结果进行可视化展示。

信息应用系统监控数据可分为网络接口层、服务器层、服务层、应用层四个层次类别。网络接口层主要包括主机网络状态数据,如IP地址、MAC地址、端口存活、上下行流量、速率、路由表、网卡传输/包/坏包流量等。服务器层主要包括主机BIOS与操作系统状态数据,包括操作系统/温度/风扇/电压/服务器状态、CPU/负载/内存/磁盘/IO使用情况、安装的硬件和软件信息等。服务层主要包括中间件、数据库等平台软件的状态数据,包括服务端口/服务进程、IIS/Apache/Webloglc、Mssql/Mysql/Oracle/DB2、其它应用服务。应用层主要针对业务应用系统的可用性、性能等状态数据,包括基于用户访问的性能,如WEB页面访问响应时间等。

如图3所示,本发明实施例一提供的信息应用系统故障趋势信息获取方法的流程示意图。本实施例提供的所述方法的执行主体可以是能实现本实施例提供所述方法的硬件设备,和/或为安装在所述硬件设备上的应用。具体的,本实施例提供的所述方法,包括:

步骤101、对信息应用系统中包含的至少一个设备进行监测,并获取监测数据。

其中,所述至少一个设备可以包括:信息应用系统中指定的服务器、存储设备、交换机和路由器节点中的任意一个或多个。即被测设备为一个时,所述设备可以是上述中的任意一个,被测设备为多个时,所述设备即可以是上述中的任意多个。

所述的监测数据包括网络接口层数据、服务器层数据、服务层数据和应用层数据,网络接口层数据包括主机网络状态数据,包括IP地址、MAC地址、路由表、端口存活状态、上下行流量;服务器层数据包括主机BIOS与操作系统状态数据,包括CPU负载、内存占用率、进程状态、磁盘I/O;服务层数据包括中间件、数据库平台软件的状态数据;应用层数据包括信息应用系统的可用性、性能状态数据。

具体的,本实施例可根据不同的监控方式,采用不同的方法实现:

(1)采用智能代理的分布式监控方式

即当采用智能代理的分布式监控方式,每台被监测设备上安装有智能监控代理SMA时,所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,包括:

步骤S11、智能监控代理SMA对所述信息应用系统中包含的至少一个设备进行监测,得到监测数据。

步骤S12、监控服务端获取所述智能监控代理SMA监测到的所述监测数据。

其中,所述监控服务端获取所述智能监控代理SMA之间通过XML格式传输所述监测数据。

基于分布式监控结构,在每台集群计算机上安装智能监控代理SMA。智能监控代理SMA收集计算机的工作状态信息,在监控主机上安装运行监控服务端;智能监控代理SMA与监控服务端之间通过XML格式传递监控数据,监控服务端定期轮巡智能监控代理SMA获取监控信息,监控主机使用心跳探测检测集群内任意计算机的运行状态。

即进一步的,上述步骤:监控服务端获取所述智能监控代理SMA监测到的所述监测数据,可具体为:所述监控服务端按照设定时间间隔定期轮巡所述智能监控代理SMA,以获取所述智能监控代理SMA监测到的所述监测数据。

进一步的,步骤:所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,还可包括:

步骤S13、所述智能监控代理SMA与所述监控服务端建立心跳连接。

步骤S14、所述监控服务端监测到所述智能监控代理SMA心跳连接超时时,得出所述智能监控代理SMA对应的设备发生故障,并生成相应的故障消息。

其中,所述故障消息包含在所述监测数据内。

(2)采用SNMP协议的网络监控方式

当采用SNMP协议的网络监控方式时,所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,包括:

对所述信息应用系统中包含的至少一个设备的网络性能以及网络差错进行监测,并获取监测数据。

在具体实施时,基于简单网络管理协议SNMP的网络监控功能包括监视网络性能、检测分析网络差错和配置网络设备,在网络正常工作时,SNMP实现统计、配置和测试功能;在网络故障时,实现各种差错监测和恢复功能。

(3)采用智能代理的主机故障诊断监控方式

当采用智能代理的主机故障诊断监控方式,每台被监测设备上安装有智能监控代理SMA时,所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,包括:

步骤S21、所述智能监控代理SMA根据指定的监测策略,对所述信息应用系统中包含的至少一个设备进行监测。

步骤S22、监控主服务器接收所述智能监控代理SMA在监测到所述设备运行异常时发送的告警或故障消息。

其中,所述告警或故障消息包含在所述监测数据。

进一步的,所述对信息应用系统中包含的至少一个设备进行监测,并获取监测数据,还可包括:

步骤S23、所述智能监控代理SMA与所述监控主服务器建立心跳连接。

步骤S24、所述监控主服务器监测到所述智能监控代理SMA心跳连接超时时,得出所述智能监控代理SMA对应的设备发生故障,并生成相应的故障消息。

其中,所述故障消息包含在所述监测数据内。

步骤102、采用预设的故障趋势预测规则,对获取到的所述监测数据进行数据处理,得到对应的故障趋势信息。

在具体实施时,本步骤102可采用如下方法实现:

首先,采用预设的线性回归算法和指数回归算法,对获取到的所述监测数据进行数据处理,得到对应的故障未来趋势信息。

然后,采用预设的三角函数回归算法,对获取到的所述监测数据进行数据处理,得到对应的故障周期性趋势信息。

其中,所述故障趋势信息包括故障未来趋势信息和故障周期性趋势信息。

更具体的,上述采用预设的线性回归算法和指数回归算法,对获取到的所述监测数据进行数据处理,得到对应的故障未来趋势信息,可包括:

(1)所述线性回归算法

①以所述信息应用系统中与故障相关的监测数据作为线性回归算法的样本数据集,收集所述信息应用系统发生各种故障的历史数据,其中,所述历史数据包括发生各种故障的具体时间,一段时间内发生该故障的次数,以及每次发生该故障时对应的状态因子数据;

线性回归算法模型如下:y=a+b1x1+b2x2+b3x3+…;

其中y为因变量,也是预测对象故障未来趋势;x1、x2、x3为自变量,也是信息应用系统中与故障相关的监测数据,即故障状态因子,是y的相关因素;a为线性回归系数,b1、b2、b3为线性偏回归系数。

②进行偏相关分析,即确定所述信息应用系统设定未来时期预计发生的主要故障,其中,主要故障为任意两个偏相关系数大于等于-1且小于等于1的故障;

③采用逐步回归法,对步骤②中确定出的各所述主要故障分别建立故障与状态因子数据的映射关系方程式,并进行F检验,如果显著水平P不能满足P<设定阈值,则剔除该主要故障,否则保留由该主要故障建立的故障与状态因子数据的映射关系方程式;

④预测所述信息应用系统所述设定未来时期的监测数据状态因子参数值,并将预测出的所述状态因子参数值代入所述保留的所述故障与状态因子数据的映射关系方程式中,得出发生相应故障的概率值及故障未来趋势信息;

(2)所述指数回归算法

根据采集到的监测数据状态因子参数序列值利用预设的所述指数回归算法计算所述信息应用系统未来多个周期内的监测数据预测值:

所采集的状态因子参数序列为{y1,y2,……,yn},采集时间序列为{t1,t2,……,tn},采用的指数回归函数为:y=cedt

其中c和d为指数回归函数的参数,参数计算方法为:

其中,

采用如下公式,根据上述参数计算结果计算未来一个周期的状态因子参数预测值:

上述采用预设的三角函数回归算法,对获取到的所述监测数据进行数据处理,得到对应的故障周期性趋势信息,可包括:

取出监测数据状态因子参数序列中最后采集的状态因子参数值及其之前m-1个状态因子参数值进行周期性分析,根据采集到的状态因子参数值计算这段时间内状态因子参数值变化的周期性参数,得到周期性回归分析函数,然后根据该函数绘制状态因子参数值变化的周期性曲线;

所述周期性分析算法具体如下:所采集的状态因子参数序列为{y1,y2,……,yn},采集时间序列为{t1,t2,……,tn},采用的三角函数回归函数为:

其中k为预设的分波数,用于控制三角函数周期性回归的精度,m为状态因子参数序列的大小,ej(j=0,1,...,k)和fj(j=1,2,...,k)为三角函数周期性回归函数的参数,其中参数计算方法如下:

每次分析完毕后,继续采集下一个周期的状态因子参数值放到状态因子参数序列末尾,同时将原状态因子参数序列中最早采集的状态因子参数值删掉,保持状态因子参数序列大小为m。

步骤103、在指定显示设备上将所述故障趋势信息进行可视化展示。

本实施例提供的技术方案通过对信息应用系统中包含的设备进行监测,并采用预设的故障趋势预测规则,对获取到的所述监测数据进行数据处理,得到对应的故障趋势信息,实现了故障趋势的准确预测,即“事前报警”,进而有助于提高信息系统安全可靠运行保障能力。

需要说明的是:对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1