一种云监控系统告警方法和系统与流程

文档序号:11205925阅读:761来源:国知局
一种云监控系统告警方法和系统与流程

本发明涉及计算机网络领域,尤指一种云监控系统告警方法和系统。



背景技术:

为了更好快速地获取被监控资源发生故障或者变更,能够快速地对被监控资源的故障信息进行处理,云计算系统采用是主动监控和被动接收相结合的监控机制。在主动监控方式下,以被监控资源的监测项为单位,设置监测项的监测频率,定时采集数据,当监控项出现异常时,及时将告警信息展示给用户处理。被动接收方式下,用户将被监控资源相应的陷阱报文信息管理库(trapmib)导入到系统中,当设备出现故障或变更时,该资源会通过trap方式将该设备的故障或变更信息发送到系统中,系统对接收的trap信息进行解析,形成相应的告警信息,并展示给用户。

在主动监控和被动接收相结合的监控机制下,当设备出现异常时,有可能既通过被动接收方式检测到了异常并下发送了告警信息,又在主动监控方式下监测到该设备相对应的监测项也产生了异常,并产出告警,导致设备的同一故障相同或相近时间内产生了两次告警,即产生了无用的告警。相应的,也会触发两次告警通知,在用户侧,针对同一故障接收到多次告警通知,发生了重复告警。



技术实现要素:

为了解决上述技术问题,本发明提供了一种云监控系统告警方法和系统,能够解决针对同一异常反复告警的问题。

为了达到本发明目的,本发明提供了一种云监控系统告警方法,包括:

在收集到监控系统上报的告警信息时,在告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录;

在存在与所述告警信息一致的告警信息记录时,丢弃收集到的所述告警信息。

优选的,所述告警信息包含异常设备对应的对象标识符oid和告警状态,在告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录的步骤具体为:

在所述告警信息数据库中查询是否存在oid和告警状态与收集到的所述告警信息一致的告警信息记录。

优选的,在收集到监控系统上报的告警信息时,在告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录的步骤之后,还包括:

在不存在与所述告警信息一致的告警信息记录时,根据所述告警信息,更新所述告警信息记录数据库,具体包括:

在不存在与所述告警信息oid相同的告警信息记录时,生成相应的告警信息记录,将生成的告警信息记录写入所述告警信息数据库,所述告警信息记录包含对应的告警信息中包含的oid和告警状态,

在存在与所述告警信息oid相同但告警状态不同的告警信息记录时,使用所述告警信息中的告警状态替换所述告警信息记录的告警状态,生成新的告警信息记录并保存。

优选的,该方法还包括:

在不存在与所述告警信息一致的告警信息记录时,发送与所述告警信息相关的告警通知消息。

优选的,所述监控系统包括主动监控系统和/或被动接收监控系统,该方法还包括:

所述主动监控系统根据预置的监控频率,对配置的监测项进行数据采集,在监测项出现异常时,生成异常监测项的告警信息,所述告警信息至少包含以下参数中的任一或任意多项:

oid、告警产生设计、告警状态;

所述被动接收监控系统收集陷阱trap报文,对收集得到的trap报文进行解析,生成异常监测项的告警信息,所述告警信息至少包含以下参数中的任一或任意多项:

oid、告警产生设计、告警状态。

本发明还提供了一种云监控系统告警系统,包括监控子系统、告警信息解析模块和告警信息数据库;

所述告警信息解析模块,用于在收集到所述监控子系统上报的告警信息时,在所述告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录,在存在与所述告警信息一致的告警信息记录时,丢弃收集到的所述告警信息。

优选的,所述告警信息包含异常设备对应的oid和告警状态,

所述告警信息解析模块,具体用于在所述告警信息数据库中查询是否存在oid和告警状态与收集到的所述告警信息一致的告警信息记录。

优选的,所述告警信息解析模块,还用于在不存在与所述告警信息一致的告警信息记录时,根据所述告警信息,更新所述告警信息记录数据库,具体包括:

在不存在与所述告警信息oid相同的告警信息记录时,生成相应的告警信息记录,将生成的告警信息记录写入所述告警信息数据库,所述告警信息记录包含对应的告警信息中包含的oid和告警状态,

在存在与所述告警信息oid相同但告警状态不同的告警信息记录时,使用所述告警信息中的告警状态替换所述告警信息记录的告警状态,生成新的告警信息记录并保存。

优选的,该系统还包括:

告警通知模块,用于在不存在与所述告警信息一致的告警信息记录时,发送与所述告警信息相关的告警通知消息。

优选的,所述监控子系统包括主动监控模块和被动接收模块;

所述主动监控模块,用于根据预置的监控频率,对配置的监测项进行数据采集,在监测项出现异常时,生成异常监测项的告警信息,所述告警信息至少包含以下参数中的任一或任意多项:

oid、告警产生设计、告警状态;

所述被动接收模块,用于收集trap报文,对收集得到的trap报文进行解析,生成异常监测项的告警信息,所述告警信息至少包含以下参数中的任一或任意多项:

oid、告警产生设计、告警状态。

与现有技术相比,本发明在收集到监控系统上报的告警信息时,在告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录,在存在与所述告警信息一致的告警信息记录时,丢弃收集到的所述告警信息,在不存在与所述告警信息一致的告警信息记录时,根据所述告警信息,更新所述告警信息记录数据库,并发出告警通知消息。解决了同一异常重复告警的问题,实现了准确高效的告警通知机制。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1为本发明的实施例一提供的一种云监控系统告警方法的流程示意图;

图2为本发明的实施例二提供的一种云监控系统告警系统的架构示意图;

图3为图2中监控子系统的结构示意图;

图4为本发明的实施例三提供的一种云监控系统告警系统的工作原理示意图。

具体实施方式

在主动监控和被动接收相结合的监控机制下,当设备出现异常时,有可能既通过被动接收方式检测到了异常并下发送了告警信息,又在主动监控方式下监测到该设备相对应的监测项也产生了异常,并产出告警,导致设备的同一故障相同或相近时间内产生了两次告警,即产生了无用的告警。相应的,也会触发两次告警通知,在用户侧,针对同一故障接收到多次告警通知,发生了重复告警。

此外,由于对云计算系统的监控是持续长期的,在周期性监测等监测方式下,如果故障在多个周期内未解决,也可能发生针对同一故障多次告警的情况。

为了解决上述问题,本发明的实施例提供了一种云监控系统告警方法和系统。维护一告警信息数据库,对接收到的告警信息进行管理,在该告警信息数据库的基础上对接收到的告警信息进行过滤判断,并在接收到新的告警信息时才进行告警通知,有效的避免了非必要的多次重复告警,节约了系统资源,使用户能更准确、及时的了解系统故障情况。

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

首先结合附图,对本发明的实施例一进行说明。

本发明实施例提供了一种云监控系统告警方法,使用该方法完成对云计算系统监测的流程如图1所示,包括:

步骤101、监控系统对云计算系统进行监测;

本发明实施例中,采用主动监控和被动接收相结合的监控方式,所述监控系统包括主动监控系统和/或被动接收监控系统。

所述主动监控系统根据预置的监控频率,对配置的监测项进行数据采集,在监测项出现异常时,生成异常监测项的告警信息,所述告警信息至少包含以下参数中的任一或任意多项:

oid、告警产生设计、告警状态;

所述被动接收监控系统收集陷阱trap报文,对收集得到的trap报文进行解析,生成异常监测项的告警信息,所述告警信息至少包含以下参数中的任一或任意多项:

oid、告警产生设计、告警状态。

步骤102、在收集到监控系统上报的告警信息时,在告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录;

本发明实施例中,维护有一告警信息数据库,该告警信息数据库中保存有与告警信息相关的告警信息记录,告警信息记录中包含与相应的告警信息上同的oid和告警状态。

本步骤中,无论接收到的告警信息来源是主动监测系统还是被动接收监控系统,均需要在告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录,具体的,在所述告警信息数据库中查询是否存在oid和告警状态与收集到的所述告警信息一致的告警信息记录。

在查询结果为存在时,进入步骤103;在查询结果为不存在时,进入步骤104。

步骤103、在存在与所述告警信息一致的告警信息记录时,丢弃收集到的所述告警信息;

本步骤中,在存在与所述告警信息一致的告警信息记录时,表明已发送过相关的告警通知通知消息,此时,为了避免重复告警,将收集到的告警信息丢弃,不作进一步处理。

步骤104、在不存在与所述告警信息一致的告警信息记录时,根据所述告警信息,更新所述告警信息记录数据库;

本步骤中,所述告警信息记录包含对应的告警信息中包含的oid和告警状态。本步骤具体包括:

在不存在与所述告警信息oid相同的告警信息记录时,生成相应的告警信息记录,将生成的告警信息记录写入所述告警信息数据库,所述告警信息记录包含对应的告警信息中包含的oid和告警状态,

在存在与所述告警信息oid相同但告警状态不同的告警信息记录时,使用所述告警信息中的告警状态替换所述告警信息记录的告警状态,生成新的告警信息记录并保存。

步骤105、在不存在与所述告警信息一致的告警信息记录时,发送与所述告警信息相关的告警通知消息;

本发明实施例中,在告警信息数据库不存在与收集到的告警信息一致的告警信息记录时,判定发生了新的异常,需要发送通知,进而触发向预置的设备发送告警通知消息。

需要说明的是,步骤104与步骤105并无严格的时序关系,可并行处理,也可依一定时序前后进行。

下面结合附图,对本发明的实施例二进行说明。

本发明实施例提供了一种云监控系统告警系统,其结构如图2所示,包括监控子系统201、告警信息解析模块202和告警信息数据库203;

所述告警信息解析模块,用于在收集到所述监控子系统上报的告警信息时,在所述告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录,在存在与所述告警信息一致的告警信息记录时,丢弃收集到的所述告警信息。

优选的,所述告警信息包含异常设备对应的oid和告警状态,

所述告警信息解析模块202,具体用于在所述告警信息数据库中查询是否存在oid和告警状态与收集到的所述告警信息一致的告警信息记录。

优选的,所述告警信息解析模块202,还用于在不存在与所述告警信息一致的告警信息记录时,根据所述告警信息,更新所述告警信息记录数据库,具体包括:

在不存在与所述告警信息oid相同的告警信息记录时,生成相应的告警信息记录,将生成的告警信息记录写入所述告警信息数据库,所述告警信息记录包含对应的告警信息中包含的oid和告警状态,

在存在与所述告警信息oid相同但告警状态不同的告警信息记录时,使用所述告警信息中的告警状态替换所述告警信息记录的告警状态,生成新的告警信息记录并保存。

优选的,该系统还包括:

告警通知模块204,用于在不存在与所述告警信息一致的告警信息记录时,发送与所述告警信息相关的告警通知消息。

优选的,所述监控子系统201的结构如图3所示,包括主动监控模块2011和被动接收模块2012;

所述主动监控模块2011,用于根据预置的监控频率,对配置的监测项进行数据采集,在监测项出现异常时,生成异常监测项的告警信息,所述告警信息至少包含以下参数中的任一或任意多项:

oid、告警产生设计、告警状态;

所述被动接收模块2012,用于收集trap报文,对收集得到的trap报文进行解析,生成异常监测项的告警信息,所述告警信息至少包含以下参数中的任一或任意多项:

oid、告警产生设计、告警状态。

下面结合附图,对本发明的实施例三进行说明。

本发明实施例提供了一种云监控系统告警系统,在支持主动监控和被动接收两种监控机制下,任意一种方式在解析告警信息时,把出现异常设备的oid信息和告警状态存入到数据库中;当系统接收到该异常设备产生的告警信息时,系统根据刚接收到的告警的oid和告警状态对告警信息数据库中的告警信息进行查询,如果告警信息数据库中存在当前oid的告警信息记录,并且告警信息记录中的告警状态与刚接收到的告警信息的状态一致,则说明刚接收到的告警信息已被监测到(如,在另一种机制下被查询过),系统会选择把当前告警信息抛弃;如果数据库中不存在当前oid的告警信息记录,或者存在当前oid的告警信息记录,但是告警状态与刚接收到的告警信息的告警状态不一致,则说明该设备产生了新的故障或变更,则添加新的告警信息或者更新数据库的告警信息。并将告警信息展示给用户,对出故障的设备进行及时地处理。

本发明实施例提供的系统架构如图4所示,包括:主动监控模块、被动接收模块、告警信息解析模块、告警通知模块四个模块。

1)主动监控机制下,设置监控频率后,定时对所有监测项进行数据采集,当某监测项出现异常时,系统将监测项的oid、告警产生设计、告警状态、等组成告警信息发送告警信息解析模块。

2)用户需要通过导入资源的trapmib库信息设置资源的被动接收监控机制,当系统接收到一条trap信息时,对trap信息的资源ip、oid、告警状态和告警详情解析为资源id、oid、告警状态和告警详情组成告警信息发送到告警信息解析模块。

3)告警解析模块在接收到一条告警信息时,根据告警信息中的资源id、oid查询告警信息数据库中是否存在与当前的告警信息一致的告警信息记录,如果不存在,则在告警信息数据库中添加一条新的告警信息记录。如果存在相同oid的告警信息记录,则对比新接收到的告警信息的告警状态与告警信息记录中的告警状态,当一致时,则抛弃接收到的告警信息,如果不一致则更新数据库中的告警状态。

4)当数据库新添加一条告警信息,或者告警信息状态改变时,告警通知模块通过发送告警通知消息将告警信息通知给用户设备,提醒用户对出故障的设备进行及时地处理。

本发明的实施例提供了一种云监控系统告警方法和系统,在收集到监控系统上报的告警信息时,在告警信息数据库中查询是否存在与所述告警信息一致的告警信息记录,在存在与所述告警信息一致的告警信息记录时,丢弃收集到的所述告警信息,在不存在与所述告警信息一致的告警信息记录时,根据所述告警信息,更新所述告警信息记录数据库,并发出告警通知消息。解决了同一异常重复告警的问题,实现了准确高效的告警通知机制。在支持主动监控和被动接收两种监控机制下,能够保证用户快速的接收到被监控资源的故障信息,同时能够对同一设备的同一故障两种机制下产生的多个同样告警信息进行筛选,避免产生多余的告警信息,使用户能够准确、及时地对出现故障的设备进行处理。

虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1