一种基于自反馈模型的实时告警响应方法与流程

文档序号:12622610阅读:417来源:国知局
一种基于自反馈模型的实时告警响应方法与流程

本发明涉及通信技术领域,特别是涉及一种基于自反馈模型的实时告警响应方法。



背景技术:

名词解释:

大规模网络告警:对于数据中心而言,网络告警数据的存储、计算和分析超过一台服务器处理能力的网络告警定义为大规模网络告警;

实时响应:根据当前告警在毫秒级别对告警进行响应或预测;

告警网络拓扑:根据历史告警记录建立的告警网路拓扑;

Kafka:由LinkedIn开发并开源的分布式消息系统;

Producer:数据生产者,是告警数据的产生源头。

Broker:代理,负责数据与数据生产者与数据消费者对接,起到数据缓冲作用,用于协调数据生产与数据消费的速率、节奏不一致问题。

随着IT技术的发展以及大规模云计算数据中心的建成并且分布式并行计算技术的日趋成熟,IT数据中心在运维过程中产生的告警能够实时通知运维人员将系统故障进行处理和修复。然后在很多情况下,系统维护人员如果能够提前知道系统将会产生什么告警,从而推断出系统哪些环节将会出现故障,则能够给维护人员足够的时间进行提前处理,预测故障的产生,从而减少系统出现故障的次数和时长,最终减少因为故障宕机产生的额外损失。为了实现告警预测,从而进行告警相应,目前技术中主要分为以下两类:一、使用复杂的数学理论模型进行预测,这种方式虽然可以保证一定的测准确率,但是由于计算过程较为复杂,耗时长,导致告警预测的实时性不高;二、以分析为主,预测为辅的系统,在对各种告警进行分析的过程中,根据历史数据进行一些预测,这种方式预测准确率不高,难以进行有效的预测告警。而且在现有告警预测方法中,模型建立之后将不再改变或者难以改变,不能根据基础设施目前的告警现状实时更新告警预测模型,造成告警模型固化后,随着告警时间的推移,告警预测效果越来越差,因此现有的告警预测方法无法适应现有快速、多变的云数据中心告警场景。



技术实现要素:

为了解决上述的技术问题,本发明的目的是提供一种基于自反馈模型的实时告警响应方法。

本发明解决其技术问题所采用的技术方案是:

一种基于自反馈模型的实时告警响应方法,包括步骤:

获取当前告警数据后,在预先建立的有向概率图上查找当前告警节点,并预测获得对应的响应告警节点;

获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对后,更新有向概率图。

进一步,所述预先建立的有向概率图是通过以下步骤建立的:

获取实时告警数据流并采用分布式消息队列对告警数据进行实时存储;

采用有向概率图的数据结构对实时告警数据进行遍历,建立有向概率图。

进一步,所述获取实时告警数据流并采用分布式消息队列对告警数据进行实时存储的步骤,其具体为:

采用Kafka消息队列获取基础设施的实时告警数据,并采用分布式消息队列对告警数据进行实时存储。

进一步,所述采用有向概率图的数据结构对实时告警数据进行遍历,建立有向概率图的步骤,包括:

采用有向概率图的数据结构对实时告警数据进行遍历,按照规则一或规则二逐一地将每个实时的告警数据添加到有向概率图中:

规则一、响应于当前告警数据在有向概率图中不存在对应节点的情况,以当前告警数据在有向概率图中建立一个节点,并令该节点的计数为1,同时建立从前一个告警数据指向当前告警数据的有向边;

规则二、响应于当前告警数据在有向概率图中存在对应节点的情况,将该节点的计数加1,并判断是否存在前一个告警数据指向当前告警数据的有向边,若是,则将该有向边的权值加1,反之新建一条从前一个告警数据指向当前告警数据的有向边,并使其权值为1。

进一步,所述获取当前告警数据后,在预先建立的有向概率图上查找当前告警节点,并预测获得对应的响应告警节点的步骤,包括:

获取当前告警数据后,在建立的有向概率图上查找当前告警节点;

响应于有向概率图上存在当前告警节点的情况,将当前告警节点的所有的有向边按照边值进行逆序排序;

响应于只存在一条边值最大的有向出边的情况,将边值最大的有向出边所连接的告警节点作为响应告警节点输出,或者响应于存在多条边值最大的有向出边的情况,将这些有向出边中对应的节点中计数值最大的节点作为响应告警节点输出。

进一步,所述获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对后,更新有向概率图的步骤,其具体为:

获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对,若两者相同,则增强有向概率图中响应告警节点所对应的有向边,反之,减弱该有向边。

进一步,所述若两者相同,则增强有向概率图中响应告警节点所对应的有向边,反之,减弱该有向边的步骤,其具体为:

若两者相同,则将有向概率图中响应告警节点所对应的有向边的边值加1,反之,将该有向边的边值减1。

本发明的有益效果是:本发明的一种基于自反馈模型的实时告警响应方法,包括步骤:获取当前告警数据后,在预先建立的有向概率图上查找当前告警节点,并预测获得对应的响应告警节点;获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对后,更新有向概率图。本方法复杂度低,能够针对实时海量告警数据进行预测,并且对所有的告警数据仅处理一次,实时性高,而且本方法能够在预测中根据预测的结果正确性进行自修正,预测准确度高,可适应现有快速、多变的云数据中心告警场景。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明的实施例二进行实时告警数据流采集的示意图;

图2是本发明的实施例二建立的一有向概率图的组织形式图;

图3是本发明的实施例二建立的另一有向概率图的网络拓扑结构示意图。

具体实施方式

实施例一

本发明提供了一种基于自反馈模型的实时告警响应方法,包括步骤:

获取当前告警数据后,在预先建立的有向概率图上查找当前告警节点,并预测获得对应的响应告警节点;

获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对后,更新有向概率图。

进一步作为优选的实施方式,所述预先建立的有向概率图是通过以下步骤建立的:

获取实时告警数据流并采用分布式消息队列对告警数据进行实时存储;

采用有向概率图的数据结构对实时告警数据进行遍历,建立有向概率图。

进一步作为优选的实施方式,所述获取实时告警数据流并采用分布式消息队列对告警数据进行实时存储的步骤,其具体为:

采用Kafka消息队列获取基础设施的实时告警数据,并采用分布式消息队列对告警数据进行实时存储。

进一步作为优选的实施方式,所述采用有向概率图的数据结构对实时告警数据进行遍历,建立有向概率图的步骤,包括:

采用有向概率图的数据结构对实时告警数据进行遍历,按照规则一或规则二逐一地将每个实时的告警数据添加到有向概率图中:

规则一、响应于当前告警数据在有向概率图中不存在对应节点的情况,以当前告警数据在有向概率图中建立一个节点,并令该节点的计数为1,同时建立从前一个告警数据指向当前告警数据的有向边;

规则二、响应于当前告警数据在有向概率图中存在对应节点的情况,将该节点的计数加1,并判断是否存在前一个告警数据指向当前告警数据的有向边,若是,则将该有向边的权值加1,反之新建一条从前一个告警数据指向当前告警数据的有向边,并使其权值为1。

进一步作为优选的实施方式,所述获取当前告警数据后,在预先建立的有向概率图上查找当前告警节点,并预测获得对应的响应告警节点的步骤,包括:

获取当前告警数据后,在建立的有向概率图上查找当前告警节点;

响应于有向概率图上存在当前告警节点的情况,将当前告警节点的所有的有向边按照边值进行逆序排序;

响应于只存在一条边值最大的有向出边的情况,将边值最大的有向出边所连接的告警节点作为响应告警节点输出,或者响应于存在多条边值最大的有向出边的情况,将这些有向出边中对应的节点中计数值最大的节点作为响应告警节点输出。

进一步作为优选的实施方式,所述获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对后,更新有向概率图的步骤,其具体为:

获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对,若两者相同,则增强有向概率图中响应告警节点所对应的有向边,反之,减弱该有向边。

进一步作为优选的实施方式,所述若两者相同,则增强有向概率图中响应告警节点所对应的有向边,反之,减弱该有向边的步骤,其具体为:

若两者相同,则将有向概率图中响应告警节点所对应的有向边的边值加1,反之,将该有向边的边值减1。

实施例二

一种基于自反馈模型的实时告警响应方法,包括步骤:

S1、获取实时告警数据流并采用分布式消息队列对告警数据进行实时存储;其具体为:采用Kafka消息队列获取基础设施的实时告警数据,并采用分布式消息队列对告警数据进行实时存储。

实时告警数据流是云数据中心的各基础设施实时产生的告警数据,每个告警数据包含告警时间、告警设备、告警标题在内等多个告警相关的字段。详细的,实时告警数据流的采集如图1所示,采用Producer对接基础设施的告警系统进行告警数据的实时采集后,将采集的实时数据通过推送的方式推送到Kafka消息队列的Broker集群中。读取时,实时计算服务通过Pull的方式从Broker集群中获取增量数据,即获取告警数据。

S2、采用有向概率图的数据结构对实时告警数据进行遍历,建立有向概率图;包括步骤S21~S23:

采用有向概率图的数据结构对实时告警数据进行遍历,按照步骤S22的规则或S23的规则逐一地将每个实时的告警数据添加到有向概率图中:

S22、响应于当前告警数据在有向概率图中不存在对应节点的情况,以当前告警数据在有向概率图中建立一个节点,并令该节点的计数为1,同时建立从前一个告警数据指向当前告警数据的有向边;

S23、响应于当前告警数据在有向概率图中存在对应节点的情况,将该节点的计数加1,并判断是否存在前一个告警数据指向当前告警数据的有向边,若是,则将该有向边的权值加1,反之新建一条从前一个告警数据指向当前告警数据的有向边,并使其权值为1。

本实施例建立的一有向概率图的组织形式如图2所示,图2中,每个节点后面的数字表示该节点的3,例如“A:3”表示节点A的计数为3。

S3、获取当前告警数据后,在预先建立的有向概率图上查找当前告警节点,并预测获得对应的响应告警节点,包括步骤S31~S33:

S31、获取当前告警数据后,在建立的有向概率图上查找当前告警节点;

S32、响应于有向概率图上存在当前告警节点的情况,将当前告警节点的所有的有向边按照边值进行逆序排序;

S33、响应于只存在一条边值最大的有向出边的情况,将边值最大的有向出边所连接的告警节点作为响应告警节点输出,或者响应于存在多条边值最大的有向出边的情况,将这些有向出边中对应的节点中计数值最大的节点作为响应告警节点输出。

S4、获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对后,更新有向概率图,具体为:

获取该当前告警数据的下一个告警数据,并将获取的下一个告警数据与预测的响应告警节点进行比对,若两者相同,则将有向概率图中响应告警节点所对应的有向边的边值加1,反之,将该有向边的边值减1,同时在某有向边的边值等于0时,删除该有向边。因此,本发明建立的有向概率图带有自反馈修正作用,能够在预测中根据预测的结果正确性进行自修正模型,使得模型预测告警越多越准确。具体的,本方法根据相应的告警数据和接下来实际产生的结果对模型进行自修正;模型通过不断的预测验证过程,将验证结果反馈到拓扑关系中,使得每次正确的预期都会增强,每次错误的预测在拓扑关系中都会弱化。因此随着预测与验证过程不断深入,有向概率图的自反馈作用逐渐增强,使得本方法的预测准确率不断增强。经测试,本方法最好的预测准确率效果达到95%。

另外,现有的告警预测方案需要在离线场景下,对历史告警数据进行复杂的处理,对每一个告警数据需扫描和处理多次,而本方法针对实时告警句的场景和每条告警数据仅处理一次,可以针对实时流式告警进行训练和预测,预测实时度高,对于每一个告警的预测延时在微秒时间数量级以内,特别适用云数据中心实时的海量告警场景。

本步骤中,根据告警序列ABABCACDEFA进行告警响应最后获得的自反馈模型的网络拓扑图如图3所示。

以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1