一种大容量分组传送系统下的高性能告警处理系统及方法

文档序号:9673107阅读:451来源:国知局
一种大容量分组传送系统下的高性能告警处理系统及方法
【技术领域】
[0001]本发明涉及通信及计算机领域,具体属于一种大容量分组传送系统下的高性能告警处理系统及方法。
【背景技术】
[0002]在大容量分组传送系统中,都会存在管理大容量的通信设备,每个通信设备都存在复杂的模块,其组成的传输网络也会非常巨大及复杂,在极端情况下其会产生大规模的告警。这种场景的特点是告警数量大,来自大量网元设备的告警并发程度大,也就是说在某个极小的时间段内将上报极大数量的告警。这种情况下要求系统能够在一个极短的时间段内处理大量的并发告警,保证实时性、正确性和告警不丢失的可靠性。这就要设计一个高吞吐量的处理系统,系统即要想办法降低并发带来的处理复杂度,又要在保证计算稳定告警不丢失的情况下高效的处理及分析告警数据,才能解决上述问题。
[0003]大容量分组传送系统是一个由多个分组传输网元构成的网络传输系统。在极端情况下,如大规模网络升级,传输系统改造扩容等,会在一个极短的时间段内产生数量和规模巨大的告警风暴,那么将对上层系统带来如下问题。第一,如何设计一个高吞吐量的系统来处理极短时间内上报的大量告警,保证告警的实时性。第二,保证告警不丢失的可靠性,告警处理的正确性,这需要降低告警并发带来的处理上的复杂度。综上所述,需要设计一个高吞吐量的化繁为简的告警处理系统。
[0004]与本发明相关的现有技术的第一种方法所采用的实现方式是在极短时间内上报的大量告警的时候,通过对告警分流将告警分发到不同的处理器上并行处理,以增加并行处理器来解决极短时间内上报的大量告警的处理问题。
[0005]如果采用上述第一种处理方式就会存在以下问题。首先,告警的上报存在时序性,由于并行处理所以要很好的处理时序关系,那么必然需要增加复杂的处理逻辑,其复杂性必然导致处理困难。其次,每个并行单元如果考虑告警的时序性,那么必然需要一个调度程序势必导致多余的开销,其并行带来的快速处理能力必然收敛在某个范围,也就是说随着通信网络规模的持续扩大极端的告警规模变大,这种并行处理方案最终受限。最后,并行必然带来程序的复杂度提高,最终系统难于维护。
[0006]与本发明相关的现有技术第二种方法是依次按照告警接收次序,逐批处理告警,其可以保障告警处理的正确性,可靠性。
[0007]如果采用上述第二种处理方式就会存在以下问题。首先,其在在极端情况下,如大规模网络升级,传输系统改造扩容等,会在一个极短的时间段内产生数量和规模巨大的告警风暴。在这种极端场景下会因为每次处理的时间都是一个固定开销,那么由于其依次处理,处理时间的逐步累加必然导致无法在一个短暂的时间范围内处理完,并在短时间内上报的所有告警,最终导致告警积压在告警通道内,使得告警通道溢出等异常状态发生。其次,假设告警通道永远不会溢出等异常,其较长的处理时间也无法保证告警的实时性。最后,采用这种方式用户由于无法及时获取告警信息,会极大的降低用户体验。

【发明内容】

[0008]本发明要解决的技术问题是:提供一种大容量分组传送系统下的高性能告警处理系统及方法,解决现有技术无法很好应对在极短的时间段内产生数量和规模巨大的告警风暴的场景。
[0009]本发明为解决上述技术问题所采取的技术方案为:一种大容量分组传送系统下的高性能告警处理系统,其特征在于:它包括
当前告警处理模块,用于对从多个告警源并发接收到的告警进行分类、处理,并发出处理结果通知;当前告警处理模块包括告警分类器、告警移除器、操作队列管理器和告警处理器;告警分类器用于将接收到的告警分为新增告警和清除告警两类;操作队列管理器用于将分好的新增告警和清除告警分别放入新增队列和重置队列2个FIFO操作队列,并在有可能发生重复告警的场景下过滤重复告警;告警处理器用于在达到集约条件时将新增队列和重置队列中的告警批量取出进行批量处理,所取出的告警必须满足所有新增告警的发生时间早于清除告警,处理事务成功提交后发出批量清除通知,将待删除的告警放入清除队列;告警移除器用于根据历史告警处理模块的删除指令删除操作队列中相应的一批告警;
历史告警处理模块,用于接收批量清除通知,按预设的上限将清除队列中的告警迀移到历史告警中,发出删除指令给告警移除器;
告警关联分析模块,用于接收批量清除通知,从清除队列中获取需要分析的告警,根据预设值按照一定的并发量,并行分析告警,将分析结果依次写入告警关联结果数据库。
[0010]按上述系统,所述的操作队列管理器过滤重复告警的方法具体为:通过告警的关键信息生成hash值,每个hash值跟随一组告警特征;收到一个新的告警时,首先比较hash值,如果现有告警中没有相同的,则将该新的告警生成的hash值及其告警特征存储到用于比较的告警hash集合中;如果现有告警中有相同的hash值,则对比hash值后跟随的一组告警特征是否有重复,如果没有则存储,有则排除掉这条新的告警。
[0011 ]按上述系统,所述的告警关联分析模块在分析告警时,如果出现震荡告警,则针对同一个告警源发出的同一种告警,则只分析一条;所述的震荡告警为在极短的时间内同一个告警源不断有新增和清除告警。
[0012]按上述系统,所述的告警处理器中的集约条件为:新增队列、重置队列和清除队列中任意一个操作队列的时间达到集约周期或队列大小达到阈值。
[0013]—种大容量分组传送系统下的高性能告警处理方法,其特征在于:它包括以下步骤:
51、从多个告警源并发接收告警,将接收到的告警分为新增告警和清除告警两类;
52、将分好的新增告警和清除告警分别放入新增队列和重置队列2个FIFO操作队列,并在有重复告警源时过滤重复告警;
53、在达到集约条件时将新增队列和重置队列中的告警批量取出进行批量处理,所取出的告警必须满足所有新增告警的发生时间早于清除告警,处理事务成功提交后发出批量清除通知,将待删除的告警放入清除队列;
54、接收批量清除通知,按预设的上限将清除队列中的告警迀移到历史告警中,删除操作队列中相应的一批告警; S5、接收批量清除通知,从清除队列中获取需要分析的告警,根据预设值按照一定的并发量,并行分析告警,将分析结果依次写入告警关联结果数据库。
[0014]按上述方法,所述的S2过滤重复告警的具体方法为:通过告警的关键信息生成hash值,每个hash值跟随一组告警特征;收到一个新的告警时,首先比较hash值,如果现有告警中没有相同的,则将该新的告警生成的hash值及其告警特征存储到用于比较的告警hash集合中;如果现有告警中有相同的hash值,则对比hash值后跟随的一组告警特征是否有重复,如果没有则存储,有则排除掉这条新的告警。
[0015]按上述方法,所述的S5在分析告警时,如果出现震荡告警,则针对同一个告警源发出的同一种告警,则只分析一条;所述的震荡告警为在极短的时间内同一个告警源不断有新增和清除告警。
[0016]按上述方法,所述的S3中的集约条件为:新增队列、重置队列和清除队列中任意一个操作队列的时间达到集约周期或队列大小达到阈值。
[0017]按上述方法,所述的S3判断所取出的告警必须满足所有新增告警的发生时间早于清除告警的具体方法如下:首先从新增队列中取出告警,然后找到其中发生时间与当前时间最近的告警,然后依次从重置队列中获取要清除的告警,要清除的告警发生时间均晚于新增告警。
[0018]本发明的有益效果为:通过本发明可以在保证告警的实时性的条件下同时保证告警的时序性、正确性和可靠性。在极端场景下本发明通过并发接收获取大量告警,并以高效的FIFO操作队列作为告警的处理存储,并发的大量告警往队尾写,而告警处理在队首进行,从而获得了高并发条件下的吞吐量保证了实时性;通过对当前告警的操作进行分类设计优先级,由于是按队列操作,新增队列中的告警发生时间早于重置队列,而新增队列和重置队列中的告警处理成功后才能放入清除队列进行操作,
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1