一种信息系统告警方法和装置与流程

文档序号：11133812阅读：644来源：国知局

本发明涉及模式识别领域，更具体地，涉及信息系统告警技术领域。

背景技术：

目前，信息系统监控过程中，信息报警系统主要用于监视信息系统设备重要过程的参数值，告警阈值是反映信息系统设备运行状态的重要指标，是告警系统的核心参数，它的大小直接决定报警数目的多少。

告警阈值设置的合理与否将直接影响系统的运行状态，如果阈值设得过高，系统设备可能在发生异常或故障的情况下不能及时报警，对工作人员和设备的安全将构成极大的威胁；如果告警阈值设得过低，系统的告警会过于频繁，增加了操作员的工作压力，其中部分告警可能会误导操作员，延误对重要告警的处理。因此，合理的告警阈值将会提高操作员的操作效率，确保系统处于安全的运行状态。

目前，现有技术通常采用单一告警阈值作为信息系统告警判断标准。现有技术中采用的告警阈值是通过最优告警阈值数学模型或固有经验进行确定的单一固定值。一方面，现有技术中的信息系统告警技术不能适应信息系统运行环境的变化而进行告警阈值的实时动态更新；另一方面，单一阈值的设定容易产生漏告警和误告警；最终不能真实反映信息系统的运行状况。

技术实现要素：

本发明提供一种克服上述问题或者至少部分地解决上述问题的方法和装置。

根据本发明的一个方面，提供了一种信息系统告警方法，包括以下步骤：S1.基于信息系统历史数据，利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值；基于信息系统历史数据，建立信息系统监控数据基准趋势模型；S2.基于信息系统实时数据，确认进行告警。

进一步，本发明还提供一种信息系统告警装置，包括：

接收模块，用于采集信息系统历史数据、采集信息系统实时数据；

处理模块，用于基于所述历史数据，利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值；基于所述历史数据进行数学建模，用以建立信息系统监控数据基准趋势模型；

告警模块，用于基于信息系统实时数据，确认进行告警。

本申请提出一种信息系统告警方法和装置，基于信息系统历史数据，利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值，然后进行数学建模，用以建立信息系统监控数据基准趋势模型，最后基于信息系统实时数据，确认进行告警。本发明具有避免信息系统漏告警和误告警，根据信息系统运行状态变化实时调整告警标准的有益效果。

附图说明

图1为根据本发明实施例的信息系统告警方法的总体流程示意图。

图2为根据本发明实施例的信息系统告警方法的告警阈值优化实例示意图。

图3为根据本发明实施例的信息系统告警方法的数据状态的报警阈值优化示意图；

图4为根据本发明实施例的信息系统告警装置的总体结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在一个具体实施例中，以某信息系统服务器CPU利用率的告警为例，结合附图对本发明进行进一步的说明。

图1给出了根据本发明实施例的一种信息系统告警方法的总体流程示意图。总的来说，该方法包括：S1.基于信息系统历史CPU利用率数据，利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值；基于信息系统历史CPU利用率数据，建立信息系统监控数据基准趋势模型；S2.信息系统实时CPU利用率数据，确认进行告警。

在本发明一个具体实施例中，步骤S1中,“告警阈值优化模型求解信息系统的最优告警阈值”包括如下。

首先，估计参数概率密度：选择高斯型的核函数，估计监控指标的概率密度，得到监控指标概率密度函数曲线，如图3所示，其中，右侧实线(蓝色)为正常数据的分布，左侧实线(红色)为异常数据的分布。若将图中黑线设置为监控指标的报警阈值，由于一部分正常数据大于报警阈值，就产生了误报警，概率就是正常分布曲线下超出报警阈值部分的区域面积；而一部分异常数据小于报警阈值，属于漏报，漏报警的概率为异常数据分布曲线下低于报警阈值部分的区域面积。根据最小错误率贝叶斯决策理论，误报警和漏报警发生的概率可以通过以下表达式计算：

其中，P₁(e)为正常状态的概率密度函数表达式，P₂(e)为异常状态的概率密度函数表达式，th为报警阈值。可以看出，如果报警阈值设置过大，误报警的概率则变小，而漏报警的概率则变大；反之，当报警阈值设置太小时，误报警发生的概率增大，而漏报警的概率会减小。

然后，确定监控指标的报警阈值属于一类模式最优分类问题，合理的报警阈值可以将正常状态和异常状态区分开来，并且使正常状态误报和异常状态漏报概率达到最小。

将报警阈值的设置看作一个优化问题，描述如下：

minF(x)＝P₁(e)+P₂(e)

在本发明另一个具体实施例中，IT环境在一定时段内具有相对的稳定性，KPI波动会出现规律性变化，基于这种认识，建立以动态基线为基础的阈值统计结果对比会产生比较好的效果，对于提高告警准确度有很大提高，其基本思路如下：根据一段历史时间内的KPI历史记录进行数学建模，比如正态分布、上升趋势、下降趋势模型的建立，当前时间KPI变化在模型变化范围之内，如果不在该范围，即认为越界，累计越界次数过多到一定的次数，则认为是预警，提醒用户可能存在问题。这对提高告警的准确性具有很大帮助。

在本发明另一个具体实施例中，在步骤S1前还包括信息系统CPU利用率数据采集与处理的过程，具体包括：采集信息系统历史CPU利用率数据；对所述历史CPU利用率数据进行归一化处理。

在本发明另一个具体实施例中，步骤S2还包括以下步骤：采集信息系统实时CPU利用率数据；判断所述实时CPU利用率数据是否高于所述最优告警阈值，如果高于则进行告警；如果不高于，进一步判断所述实时CPU利用率数据是否超出监控数据基准趋势模型范围，如果超出则进行报警。如图2中的A曲线，如果超越该优化值，则出现异常；另一方面，根据这一个月时间内的CPU利用率进行数学建模(比如正态分布、上升趋势、下降趋势模型)，如图2中的B、C、D三条曲线，分别是建立的趋势基线模型及其上下边界。如果后续监控到的CPU利用率超出上下边界，则认为出现异常情况。图2中展示了某天信息系统服务器CPU利用率出现了两次告警，一次是超越了告警优化阈值，另一次是越过了趋势基线的上边界，这样提高了告警的准确率。

在本发明另一个具体实施例中，随着后续信息系统历史数据的更新，不断更新告警阈值优化模型、相应的优化阈值和监控数据基准趋势模型。

在本发明另一个具体实施例中，通过以下步骤对所述历史CPU利用率数据进行归一化处理：

其中，为归一化后的数据，x_min和x_max分别为原始数据的最小值和最大值。

在本发明另一个具体实施例中，通过以下方式实现“求解所需信息系统的最优告警阈值”，利用优化算法求解上述优化问题，具体求解步骤如下，

(1)选取区间[a，b]，构造两点x1＝a+M(b—a)，x2＝a4-N(b—a)；

(2)如果F(x1)<F(x2)，则搜索区间缩小为[a,x2]，b＝x2，判断|x2-x1|<ε是否成立，如果成立转到第(4)步，否则返回第(1)步；

(3)如果F(x1)≥F(x2)，则搜索区间缩小为[x1,b]，a＝x1，判断|x2-x1|<ε是否成立，如果成立转到第(4)步，否则返回第(1)步；

(4)最优解为t＝x＝0.5(x1+x2)，目标函数最小值为F(x)。

在本发明另一个具体实施例中，基准趋势模型的建模是基于所述历史数据利用以下几种模型建立：正态分布模型、上升趋势模型或者下降趋势模型。

在本发明另一个具体实施例中，还包括一种信息系统告警装置，包括：接收模块，用于采集信息系统历史数据、采集信息系统实时数据；处理模块，用于基于所述历史CPU利用率数据，利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值；基于所述历史数据进行数学建模，用以建立信息系统监控数据基准趋势模型；告警模块，用于基于信息系统实时数据，确认进行告警。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖克江;李键;付暾;罗伟;邓鹏程;王向阳;眭建新;
技术所有人：国家电网公司;国网湖南省电力公司;国网湖南省电力公司信息通信公司;
我是此专利的发明人

上一篇：故障检测方法及装置与制造工艺
上一篇：一种机箱管理系统及服务器的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。