告警生成方法和系统与流程

文档序号:14779092发布日期:2018-06-26 10:10阅读:171来源:国知局

本发明一般地涉及云计算领域监控告警领域,更具体地涉及一种告警生成方法和系统。



背景技术:

随着云计算、大数据及分布式相关的技术落地,电信运营商设备数量及业务数量出现突变式的增长,告警类型和数量也越来越多,因此对资源监控和运维工作量也将剧增,如何更加准确定位故障告警、消除误告警、减少重复性告警并实现关联性告警则成为一个迫切需要解决的一个问题。

现在大多数监控系统一般都采用阈值告警,其实现主要是通过对需要监控的指标设置一个门限值,当采集到指标数据大于设定值就会生成告警。为了对告警严重程度进行区分,也会对指标设置几个级别的值(一般、重要、严重、紧急等级别),这种告警技术会生成很多级别的告警,也容易生成误告警(如:指标出现一个瞬时值大于设定阈值,但随后指标就恢复正常),一些比较完善的监控系统如移动BOMC系统、电信ITSM系统,由CMDB、服务流程、基础平台监控、业务监控等多个配套系统组成,但其告警系统设计仍然脱离不了基于指标阈值告警模式,还没有实现告警智能化和动态化,其针对大批量告警、误告警处理措施仍采用后处理手段来解决。通过告警自动消除、告警自动升级、告警处理流程自动化及告警短信个性化订阅提醒等功能来解决问题,难以做到告警预防和预测分析。

本发明在监控告警系统设计上引入大数据存储和计算技术,采用人工智能算法原理,建立一套基于推理树方式的告警决策分析模型,可以对告警生成的多种因素进行分析、整合,使得系统具备自我学习的能力,从而建立一套智能化告警系统。通过本发明建立的告警系统,可以提高告警准确性和全面性,有效减少重复告警和无效告警,解决告警分散无序问题,降低运维人员处理大量告警短信数量,实现故障告警精确定位,为系统快速、自动化运维提供很好数据和技术支撑。



技术实现要素:

本发明提出了一种基于大数据技术智能告警系统设计和实现,通过引用大数据分析技术,采用“为监控对象建立监控模型及告警决策分析模型”的方式,充分利用采集的全量监控数据作为当前告警决策数据基础,并考虑告警之间的关联性,从而保障告警准确性和全面性。通过对监控对象生命周期及其所依赖的环境的全方位监控,并逐步建立告警评估参考知识库,可逐步建立起一个可自我学习告警系统。

根据本发明实施例的告警生成方法,包括:基于预定采集策略采集监控对象的运行数据以及至少一个关联对象的运行数据,其中关联对象是直接或间接地影响所述监控对象的运行状态的对象;基于预定数据分析策略获取预先存储的监控对象和至少一个关联对象的历史运行数据并对所采集到的监控对象的运行数据以及至少一个关联对象的运行数据以及所获取的监控对象和至少一个关联对象的历史运行数据进行数据分析,得到监控对象的性能趋势及状态变化;基于告警策略对监控对象的性能趋势及状态变化进行智能告警分析决策,以判断是否生成告警。

根据本发明实施例的告警生成系统,包括数据采集模块,被配置为基于预定采集策略采集监控对象的运行数据以及至少一个关联对象的运行数据,其中所述关联对象是直接或间接地影响所述监控对象的运行状态的对象;数据分析模块,被配置为基于预定数据分析策略获取预先存储的所述监控对象和所述至少一个关联对象的历史运行数据,并对所采集到的监控对象的运行数据以及至少一个关联对象的运行数据以及所获取的所述监控对象和所述至少一个关联对象的历史运行数据进行数据分析,得到所述监控对象的性能趋势及状态变化;告警决策模块,被配置为基于告警策略对所述监控对象的性能趋势及状态变化进行智能告警分析决策,以判断是否生成告警。

采用本发明可以实现对历史监控数据进行全量分析,不仅可以对监控对象当前的状态进行合理的评估和告警决策,同时还可以对监控对象未来的运行状态进行预测,实现告警智能化和自动化,可以节省大量人工配置和故障处理工作,提高运维效率。采用本发明还可以解决告警过多、重复告警和无效告警问题,提高告警准确性。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明,其中:

图1是示出根据本发明实施例的告警生成系统的框图;

图2是示出根据本发明实施例的告警生成方法的流程图;

图3是示出根据本发明实施例的告警分析模型的图示;

图4是示出根据本发明实施例的大数据分析简化图;

图5是示出根据本发明实施例的智能分析原理图;

图6是示出根据本发明实施例的告警推理决策模型的图示;

图7a是示出根据本发明实施例的基于告警分析模型的实施例的图示;

图7b是示出根据本发明实施例的基于告警推理决策模型实现告警生成方法的实施例的图示。

具体实施方式

下面将结合附图详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本发明造成不必要的模糊。

为了实现实时的智能告警,下面结合附图,详细描述了根据本发明实施例的告警生成方法和系统

图1示出根据本发明实施例的告警生成系统100的框图。图2是示出根据本发明实施例的告警方法的流程图。如图1所示,根据本发明的实施例的告警系统包括,数据采集模块102,基于预定采集策略采集监控对象的运行数据以及至少一个关联对象的运行数据,其中所述关联对象是直接或间接地影响所述监控对象的运行状态的对象;数据分析模块104,基于预定数据分析策略获取预先存储的所述监控对象和所述至少一个关联对象的历史运行数据,并对所采集到的监控对象的运行数据以及至少一个关联对象的运行数据以及所获取的所述监控对象和所述至少一个关联对象的历史运行数据进行数据分析,得到所述监控对象的性能趋势及状态变化;告警决策模块106,基于告警策略对所述监控对象的性能趋势及状态变化进行智能告警分析决策,以判断是否生成告警。

在一些实施例中,数据采集模块102负责监控数据采集,并通过消息中间件将采集的数据发送给数据处理引擎,所采集的数据包括例如,性能数据、告警数据、配置数据、业务数据和日志数据等。数据分析模块104,主要针对采集的数据获取相关的历史数据,以对当前运行数据及历史运行数据进行分析,并将得到的监控对象的性能趋势及状态变等分析结果输入到告警决策模块106,以判断是否告警,最终由智能告警引擎负责告警分析和处理,并生成告警。

图2是示出根据本发明实施例的告警生成方法的流程图。在步骤202中,基于预定采集策略采集监控对象的运行数据以及至少一个关联对象的运行数据,其中关联对象是直接或间接地影响所述监控对象的运行状态的对象;在步骤204中,基于预定数据分析策略获取预先存储的监控对象和至少一个关联对象的历史运行数据,并对所采集到的监控对象的运行数据以及至少一个关联对象的运行数据以及所获取的监控对象和至少一个关联对象的历史运行数据进行数据分析,得到监控对象的性能趋势及状态变化;在步骤206中,基于告警策略对监控对象的性能趋势及状态变化进行智能告警分析决策,以判断是否生成告警。

图3是示出根据本发明实施例的告警分析模型的图示。在一些实施例中,为了实现智能化告警,必须对所要监控的对象建立一个全面、合理的告警分析模型,本发明与现有技术的区别在于,将有关联的对象也纳入到分析模型中,并采用先进的大数据分析技术进行数据分析。该模型定义了监控对象的指标及其关联对象的指标,并定义采集策略、告警策略及数据分析策略对监控对象和关联对象进行全面分析。关联对象有可能对监控对象的运行状态起到直接或间接的影响,有些甚至是告警根源,因此需要对在模型中对关联对象进行定义,以实现告警关联分析和根源分析。在一些实施例中,策略被定义为如下:

采集策略:对每个监控对象配置采集策略,包括采集周期频率、采集方式等;

数据分析策略:主要是针对当前采集的数据及监控对象历史数据进行分析和处理,实时计算整个对象性能趋势及状态变化,并输出分析结果,为告警决策分析提供数据。如图4所示,采用大数据分布式计算技术可以将大量指标数据进行快速合并运算,并输出运算结果。

告警策略:告警策略分为四种类型,包括单指标、多指标、单对象、多对象方式,同时针对每种类型可以定义告警参照标准(例如,与历史告警进行比较)、过滤规则(例如,与之前告警对比,去重)、组合规则等。

在一些实施例中,基于以上的策略,可以确定监控指标和指标的权重,设定与该监控对象有关的关联对象,以及影响该监控指标的关联对象影响指标。

在一些实施例中,基于告警分析的分析结果,利用人工智能算法的思想对分析结果做出进一步的运算。图5示出了根据本发明实施例的智能分析原理图。

智能分析原理

在一些实施例中,利用人工智能算法的思想,以模糊集合的方式,把影响监控对象的指标及外部因素定义为影响因子,并针对每个因子定义影响度(即,指标权重),所有影响因子组成一个模糊集合,针对影响因子还可以进行分类计算,例如,有些因子之间需要进行与运算,有些因子之间需要进行或运算,通过对这些因子和影响度进行模糊运算,可全面分析出监控对象整体运行情况。

以上述智能分析原理为基础,建立了一套告警推理决策模型。图6是示出根据本发明实施例的告警推理决策模型的图示,告警推理决策有两条路径,一条路径是从指标数据出发的去推理如何生成告警,通过对指标数据、指标对象、指标阈值及关联对象推理,将所有告警相关的因素规范化为因子,通过模糊算法进行计算分析,其对数据实时计算和分析主要是基于大数据技术进行实现,最后根据告警策略进行决策;另一条路径从直接采集到的告警数据推理告警影响的对象及影响程度,同样通过告警分析模型和算法分析进行推导,最终计算出影响对象清单及影响度,再根据告警策略进行决策是否生成关联告警。通过采用这两条路径进行告警推理和决策可以全面覆盖告警生成的过程,实现告警的全面分析评估。

充分考虑关联对象影响来进行智能告警分析是本方法的核心,也是告警推理决策的基础。因为告警时效性非常强,必须进行实时分析和处理,但对大量数据实时分析一直存在技术难题,不过随着大数据技术出现和广泛应用有效解决了该技术难关,本方法就是基于大数据技术建立的告警分析模型,从而可以快速、准确进行告警推理和决策。

通过告警推理决策模型可以将各类告警全面整合,并输入到告警决策分析模块中,然后进行告警分类、分级、过滤去重等处理过程,生成比较符合实际告警。

图7a是示出根据本发明实施例的基于告警分析模型的实施例的图示。在该实施例中,电子渠道业务由2台web主机,2台数据库主机组成,通过负载均衡对外提供服务。首先我们对监控对象进行告警分析模型定义:

我们将一台web主机A作为监控对象;

告警关联对象为数据库主机B、负载均衡器C;

web主机监控指标包括CPU使用率、内存使用率

关联对象数据库主机B关联指标:数据库主机状态,数据库运行状态,数据库连接数;

关联对象负载均衡C,关联指标:负载均衡状态;

采集策略:针对web主机A,每5分钟进行指标采集;针对数据库主机B每10分钟采集一次;

数据分析策略:对监控对象一个月内历史数据进行分析,对关联对象一个星期内的数据进行分析;

告警策略:采用动态阈值方式进行告警,超过计算出的动态阈值,则告警

图7b是示出根据本发明实施例的基于告警推理决策模型实现告警方法的实施例的图示。

在图7b中仅示出了告警推理决策模型中的指标数据的路径。所采集到的监控对象web主机A的运行数据为当前CPU利用率为75%,基于告警推理决策模型的指标数据路径出发得到以下数据:对历史数据分析得出针对CPU利用率的动态阈值上限为70%,对运行数据的各项指标进行分析得出指标处于业务繁忙时段,根据告警策略,对二者进行分析得出主机CPU的利用率75%超过动态阈值70%,生成临时警告。

对关联对象的数据库主机B和负载均衡器C的各项指标进行分析,得出数据库服务状态异常,其他指标正常,生成关联对象告警:数据库服务状态异常,直接影响到web主机服务的正常使用;根据告警策略对临时告警和关联对象告警进行级别、类型的判定,与之前生成的告警对当前生成的告警进行过滤、去重,在对告警信息进行整合,最终输出告警信息:CPU利用率75%,超过动态阈值;关联对象数据库主机B服务状态异常,业务不可用。

基于本发明的告警系统和方法,可以建立一套可自我学习的监控体系,实现告警全面立体式分析,解决重复告警、误告警、无序告警的问题,告警准确性和有效性将大大提升,从而解决因业务突变式增长所造成的问题,同时有利于告警故障快速定位。

本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1