通信网络告警系统的告警消息传输和处理方法

文档序号:9219644阅读:1380来源:国知局
通信网络告警系统的告警消息传输和处理方法
【技术领域】
[0001] 本发明涉及网络通信技术,尤其涉及一种通信网络告警系统的告警消息传输和处 理方法。
【背景技术】
[0002] 通信网络告警系统是通信运营商在运营支撑管理中必不可少的工具。告警的实时 采集、响应的及时性以及高可靠性是对告警系统的基本要求。如图1所示,告警系统一般为 采集、处理、功能展现的分层模式,即告警系统包括多个系统终端,多个告警处理单元(图 中示例性的示出一个)和多个告警采集单元。告警采集单元采集所负责的被管网元的告警 消息并上报给告警处理单元,告警处理单元将待处理的告警消息放入到告警消息队列中并 且对告警消息队列中的告警消息进行告警分析处理。告警系统还可以包括数据库,用于存 储告警消息。
[0003] 告警处理单元往往管理成百上千个网元经告警采集单元上报的告警消息。一个告 警处理单元可以接收和处理来自多个告警采集单元上报的告警消息。一个告警采集单元管 理多个网元,各个网元直接或者若干网元组成一组通过网元代理的方式,将网元产生的告 警消息发送给该一个告警采集单元,由告警采集单元将告警消息上报给告警采集处理单元 进行处理。显然,一个告警处理单元可能处理来自多个告警采集单元的告警消息。
[0004] 一般来说,告警处理单元的告警接收和处理能力能够应对正常情况的告警消息, 但是在一些特殊情况下会产生告警风暴,导致网元的告警发送与告警处理单元的告警接收 和处理会严重不对称。例如,网元由于某些原因出现大面积的故障,导致网元的告警数量急 剧增加,告警采集单元发送的告警消息也随之大量增加。这就很容易导致网路的堵塞、告警 的丢失,以及告警处理单元的告警消息队列中积累的告警消息量过大,从而影响了告警处 理的及时性,尤其是对程度严重的重要告警处理的及时性;再比如,告警处理单元部分设备 出现故障,告警消息接收和处理的任务转移到尚能正常运行的高兴处理单元设备上,导致 某些告警处理单元处理任务大大增加,众多的告警消息拥堵在网路上,或者已接收待处理 的告警消息积累和排列过多,也会导致重要告警处理的及时性得不到保证。
[0005] 为了解决上述问题,现有技术中公开了一种告警消息传输方法,其中,网络侧的服 务器根据告警消息的数量超过预定数量值时,根据已接收的所有告警消息的优先级确定一 个优先级阈值并将该优先级阈值发送给具有告警消息采集能力的网元设备,网元设备停止 向服务器发送低于优先级阈值的告警消息。其中,优先级阈值的确定是一个指定的数值或 者是服务器尚未处理的所有告警消息的优先级的平均值。虽然该方法中每个网元设备可以 保证在服务器中的告警消息较多时本网元设备中优先级高于优先级阈值的告警消息被发 送,但是由于优先级阈值的确定是直接指定一个数值或者是服务器尚未处理的告警消息的 优先级的平均值,并没有考虑服务器的当前告警消息处理能力;而且,该现有技术也没有注 意到这些尚未处理的告警消息中可能存在可以不考虑处理的辅告警消息。因此,该现有技 术的优先级阈值并不能够正确反映故障发生时网络的状况,并且与发生故障时当前告警消 息处理能力无关,网元设备根据该优先级阈值来确定不发送的告警消息的方式仍然解决不 了在一些特殊情况下产生告警风暴时,导致网路堵塞、告警丢失的问题,从而仍会导致重要 告警处理的及时性得不到保证。
[0006] 同样,为了解决在一些特殊情况下产生告警风暴,导致网元的告警发送与告警处 理单元的告警接收和处理会严重不对称的问题,现有技术中还公开了一种网元管理系统和 网络管理系统之间过滤告警的方法,其中,网络管理系统向网元管理系统设置告警相关性 规则,该告警相关性规则将最能够说明故障根源的告警的特征设为主告警特征,其他的与 所述故障相关的告警的特征设为辅告警特征;网元管理系统根据告警相关性规则确定故障 时产生的告警为主告警还是辅告警;如果是辅告警,并且辅告警符合告警相关性规则的过 滤条件,则不发送该辅告警。该现有技术通过告警相关性规则的应用,阻止了部分辅告警的 发送,一定程度降低了故障发生时的告警风暴带来的问题。但是,该现有技术由于是没有考 虑网络管理系统的故障处理能力而不发送所有符合告警相关性规则的过滤条件的告警消 息,尽管有助于缓解产生告警风暴的可能,但是对于存在大量辅告警消息的情形,则会严重 破坏告警消息的完整性,可能导致无法分析故障;对于存在少量辅告警消息的情形,少量辅 告警消息的不发送的方式并不能够真正缓解报警风暴的问题。
[0007] 因此,存在对能够在告警处理单元对告警消息的接收和处理告警能力暂时相对的 严重不足时,根据告警处理单元的故障处理能力来保证优先级别高的告警消息的发送和传 输处理的告警消息传输和处理技术的需要。

【发明内容】

[0008] 本发明的实施例提供了一种通信网络告警系统的告警消息传输和处理方法,用以 缓解网路堵塞、告警丢失的问题,并更为及时地处理优先级较高的告警消息。
[0009] 根据本发明的一个方面,提供了一种通信网络告警系统的告警消息传输和处理方 法,所述通信网络告警系统包括用于告警分析的告警处理单元,网元设备和采集所管理的 所述网元设备产生的告警消息的告警采集单元,所述方法包括:
[0010] 当所述告警处理单元按照预定时间周期确定其告警消息处理能力下降时,所述告 警处理单元启动预先配置的过滤规则过滤告警消息队列中的辅告警消息,并且计算告警消 息队列中的过滤后的所有告警消息的平均优先级,向所述告警采集单元发送携带有告警消 息处理能力下降值VPM和所述平均优先级Pm的告警消息处理能力下降的通知消息;
[0011] 所述告警采集单元从接收的通知消息中解析出告警消息处理能力下降值和所 述平均优先级pm,并根据从所管理的网元设备采集的告警消息中最高优先级的告警消息的 占比来确定该告警采集单元的名义优先级调整因子0,按照如下公式确定本告警采集单元 的名义优先级pn:
[0012] Pn=Pm(l+f3XVpro) (公式 1)
[0013] 其中,e大于等于0小于等于1 ;
[0014] 告警采集单元利用预先配置的屏蔽规则过滤掉本告警采集单元的已采集的告警 消息中的匹配屏蔽规则的告警消息,同时,停止向告警处理单元发送优先级低于本告警采 集单元的名义优先级过滤后的告警消息。
[0015] 其中,所述告警处理单元根据如下规则确定告警消息处理能力下降值vPM:
[0016] 当所述告警处理单元确定告警消息处理能力下降是由于告警处理单元的故障导 致时:
「00171 卑所沭告*々卜理里元确宙告警消息处理能力下降是由于网元故障导致时,
[0018] 当所述告警处理单元确定告警消息处理能力下降是由于告警处理单元网络侧故 障和网元告警消息增加导致下降时,Vpr〇C:n (公式4);
[0019] 式中,AlarmMinal为所述告警处理单元预定时间周期内可以处理的额定告警消息 数量,所述告警消息队列中的告警消息数量为Length,Alarm表示告警处理单元在预定时 间周期内当前可以处理的告警消息数量,Alarm,Length和AlarmMinal均为整数。
[0020] 其中,所述根据从所管理的网元设备采集的告警消息中最高优先级的告警消息的 占比来确定该告警采集单元的名义优先级调整因子0包括:
[0021] 统计该告警采集单元所采集的所有告警消息的数量以及最高优先级的告警消息 的数量;
[0022] 计算所述告警采集单元中的最高优先级的告警消息的数量相对于该告警采集单 元中的所有告警消息的数量的比值;
[0023] 如果所述比值低于第一调整因子阈值,则确定名义优先级调整因子为: 0. 2<0 ^ 1 ;
[0024] 如果所述比值不低于第一调整因子阈值,则确定名义优先级调整因子为: 0 ^ ^ 0. 2〇
[0025] 优选地,第一调整因子阈值从20%至30%中选取。
[0026] 本发明的告警消息传输和处理方法还包括步骤:当所述告警处理单元按照预定时 间周期根据告警消息长队列长度确定其告警消息处理能力下降时,所述告警处理单元对告 警消息队列中过滤后的告警消息进行告警消息相关性分析,将所述告警消息队列中具有相 关性的告警消息作为一组处理。
[0027] 优选地,所述告警处理单元对告警消息队列中过滤后的告警消息进行告警消息相 关性分析,将所述告警消息队列中
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1