故障告警上报管理方法

文档序号:6540467阅读:260来源:国知局
专利名称:故障告警上报管理方法
技术领域
本发明一般涉及通信产品的故障告警方法,特别涉及一种能够使用户只看到产生根本故障原因的父告警并且在父告警消失后使有相关性的子告警也消失的故障告警方法。
背景技术
告警是让用户了解系统运行情况的重要手段,系统的任何故障都应该通过告警上报给用户,通信产品的告警主要分为硬件故障告警和非硬件故障告警。一般,在一个设备运行过程中如果硬件的电源或时钟等器件出现故障会引发很多非硬件的告警。而这些告警产生的根本原因是硬件故障,通常情况是将这些告警都上报给用户,用户看到这些告警不知该先解决哪个告警,感觉设备到处都是问题而不知该如何解决。因此,如果使系统能够只上报最根本原因的那一个告警(以下称为“父告警”),而不上报其他连带产生的告警(以下称为“子告警”),就会给用户解决问题带来方便。父、子告警的关系一般由硬件设计决定,如硬件设计了5V电源给DSP、FPGA等器件供电,那么5V电源异常时就会导致DSP和FPGA异常,5V电源异常告警就是DSP、FPGA等器件异常告警的父告警。
目前解决该问题的方法是首先建立一个列出各个父告警和子告警之间的关系的告警相关性列表,并将上报之前的所有告警按照父、子告警的关系装入该列表;然后,在需要执行告警上报时,系统在一定的时间内(如12秒)根据该相关性列表判断当前的这些告警中有父、子相关性的告警就只上报父告警,子告警不上报,当父告警消失后,如果在规定的时间内子告警消失,那么子告警就不上报,如果子告警不消失就上报。
但是,在实际情况中,由于各个父、子告警上报的时间有随机性,可能相差比较大,如果超出了规定的时间,则相关性不起作用,多个告警还是都会上报。例如,父告警消失后,子告警消失的时间可能比父告警消失的时间晚很多,如果超出了规定的时间,则子告警也被上报。比如父告警消失要5秒钟检测时间,子告警的消失要10秒钟的检测时间,当父告警消失后,子告警还要等5秒钟才消失,这样系统发现该子告警的父告警消失了就会将这个子告警上报给用户,而子告警在5秒之后又消失了,系统又将子告警消失上报给用户,这样用户就会看到一个告警消失后又产生新的告警,然后又很快消失。由此会使用户误认为告警系统不稳定,而且不能确定是否有新的告警存在。

发明内容
因此,本发明就是针对解决现有技术中的上述问题而提出的,其目的是提供这样一种故障告警方法,该方法既能够使用户只看到产生根本故障原因的父告警,又可以在父告警消失后使有相关性的子告警一起消失,而不会有个别子告警单独产生、消失的情况发生。
为了实现上述目的,本发明提供了一种故障告警上报管理方法,用于能够进行故障告警的系统,所述系统包括告警检测模块、告警管理模块和告警台,所述方法包括1)所述告警检测模块在检测到所述系统因出现故障而产生当前故障时,判断所述当前故障在所述系统中是否具有至少一个父告警;2)如果在步骤1)中判断的结果是不具有至少一个父告警,则所述告警管理模块向所述告警台上报所述当前告警产生;否则,3)所述告警管理模块判断所述至少一个父告警中是否至少存在一个父告警的状态为“产生”;4)如果在步骤3)中的判断结果是存在,则对所述告警台不上报所述当前告警产生;否则,5)所述告警管理模块向所述告警台上报所述当前告警产生。
根据本发明,所述步骤3)还包括3-1)所述告警管理模块等待一个预定的时间;之后3-2)所述告警管理模块判断所述至少一个父告警中是否至少存在一个父告警的状态为“产生”。
根据本发明一种故障告警上报管理方法,所述方法还包括6)所述告警管理模块在检测到所述当前故障消失时,判断所述当前告警在所述系统中是否具有至少一个父告警;7)如果在步骤6)中的判断结果是具有至少一个父告警,则所述告警管理模块在所述系统中将所述至少一个父告警的状态设置为“消失”;8)所述告警管理模块向所述告警台上报所述告警消失。所述步骤6)还包括所述告警管理模块判断所述当前告警是否具有子告警的步骤,如果判断的结果是所述当前报警具有子告警,则,6-1)所述告警管理模块将所述子告警的状态在所述系统中设置为“消失”;6-2)所述告警管理模进一步判断所述子告警是否具有下一级子系统,如果判断的结果是具有,则所述告警管理模块将所述下一级系统设置为“消失”。
采用本发明所述的告警方法,可以带来以下有益效果1.当子告警在父告警产生后较长时间内产生也不会上报至告警台,肯定不会有多余的告警上报;2.父告警消失后即使子告警消失速度较慢也不会在告警台显示产生消失;3.当父告警在子告警之后产生,系统也能在一定的时间内只上报父告警而不上报子告警,从而使用户只看到系统的有效告警而不会看到出现冗余的告警。


通过以下结合附图对本发明实施方案的具体描述,本发明的上述目的、特征和优点将变得更加清楚。在附图中图1是本发明实施方案所述告警方法中采用的父、子告警相关性列表的示例图;图2是本发明实施方案的设置告警变量的流程图;图3是根据本发明实施方案的告警处理方法的流程框图。
具体实施方案本发明提供的故障告警上报管理方法能够用于能够进行故障告警的系统,通常,这些系统包括告警检测模块和告警管理模块。图1示出了父、子告警相关性列表的一个例子。如图1所示,假设告警1产生后可能会产生告警2和告警3,父告警4产生后可能会产生子告警1和子告警5。
在本发明的实施方案中,通过为告警设置一个告警状态,并结合该告警状态对不同的告警做出相应的处理,即可实现本发明的目的。具体而言,可将该告警状态设置为“产生”和“消失”这两种状态。在系统无告警的正常情况下,将所有告警的状态都设置为“消失”。当系统出现故障产生告警4时,系统接收到告警4,并且如果在告警相关性列表中查询到告警4无父告警就直接上报给告警台,同时设置告警4的告警状态为“产生”。在间隔一段时间后,当告警1和告警5也产生时,系统查询父、子相关性列表发现告警1和告警5有父告警4,且告警4的状态为“产生”时,则系统设置告警1和告警5的告警状态为“产生”,但是不上报到告警台。再经过一段时间,如果产生了告警2和告警3,此时系统查询父、子相关性列表,若发现告警2和告警3具有父告警1,且父告警1的状态为“产生”,则置告警2和告警3的告警状态为“产生”,但是不上报到告警台。当告警4消失时,上报告警台告警4消失,通过查询相关性列表得知告警4有子告警5和告警1,将告警5和告警1的状态置为“消失”,再查询告警5和告警1的子告警,发现告警1下有告警2和告警3,再将告警2和告警3的告警状态置为“消失”。这样在告警4消失后,其它的子告警状态都是“消失”,而不管是否已经检测到该告警是否消失。如果子告警不消失的话会再次检测到告警产生,通过判断其父告警没有产生而将其上报。
以上描述了本发明实施方案的基本思想,下面将对可实现上述基本思想的实施例进行描述。
首先为每个告警设置一个状态全局变量,并根据该告警的状态将该状态全局变量设置为“产生”或“消失”。
图2示出了设置根据本发明的告警变量almidstatus的流程图。在变量字符串“almidstatus”中的“id”表示告警ID。如图2所示,首先将告警A01的状态初始化为“消失”,即将表示告警A01的状态的全局变量almA01status置为“0”,接着检测告警A01的当前状态,如果告警A01的当前状态为“产生”则将告警A01的状态设置为“产生”,也就是将全局变量almA01status置为“1”,否则,将告警A01的状态设置为“消失”,即将全局变量almA01status置为“0”。
告警的处理包括告警检测和告警管理两个步骤,如图3所示。
在告警检测处理中,系统通过告警检测模块周期性地定时检测各个实际告警是否产生,对于硬件告警一般是通过读取EPLD器件的相关寄存器来进行检测。将检测到的告警结果(“产生”或“消失”)和该告警在系统中的当前状态比较,即,与表示该告警的状态全局变量almidstatus进行比较。如果比较的结果是一致,则不作处理,如果比较的结果是不一致,则将检测到的该告警状态上报到系统的告警管理模块。
上述告警检测模块检测到当前告警的状态变化后,发送相应的告警消息(“产生”或“消失”)到告警管理模块以触发启动告警管理步骤,其包括如下具体步骤1、告警管理模块根据当前告警在系统中的当前状态判断当前告警的类型是产生”还是“消失”,如果判断的结果是“产生”,则转到步骤2,如果判断的结果是“消失”则转到步骤8;2、告警管理模块查询包含于系统内的告警相关性列表,检测该告警是否有父告警,如果有则转到步骤3,如果没有则转到步骤7;3、告警管理模块查询并判断上述相关性列表中所有的父告警的告警状态是否为“消失”,即,判断所有父告警的状态全局变量almidstatus是否都为“0”,如果所有父告警的全局状态变量almidstatus为“0”,则转步骤5,否则,转到步骤4;4、告警管理模块将当前告警的当前状态设置为“产生”,即将表示当前告警状态的全局变量almidstatus设置为“1”,处理结束;5、告警管理模块等待一个规定的时间,在这里,规定的时间为最长的告警检测时间,告警检测时间可以由设计人员来预先设定,例如,父告警消失要5秒钟检测时间,子告警的消失要10秒钟的检测时间,则设置最长的告警检测时间为10秒钟;6、在最长的告警检测时间的时间到达后,告警管理模块将再次判断所有父告警的告警状态是否为“消失”,在这里,同样是检测所有父告警的告警状态全局变量almidstatus是否都为“0”,如果判断的结果是所有的全局变量almidstatus为“0”则转步骤7,否则,转到步骤4;7、告警管理模块将当前的告警状态设置为“产生”,即将表示当前告警状态的全局变量almidstatus置为“1”,并上报本告警至告警台,处理结束;8、如果在步骤1中告警管理模块判断当前收到的告警消息类型为“消失”,则在系统中通过将表示该告警状态的全局变量almidstatus置为“0”来将该当前告警的告警状态置为“消失”,此时,告警管理模块查询系统的告警相关性列表,检测该告警是否有父告警,如果没有,则转到步骤9,否则,转到步骤12;9、告警管理模块查询上述告警相关性列表,检测该告警是否有子告警,如果有则转到步骤10,否则,转到步骤11;10、告警管理模块设置子告警的告警状态为消失,即当前告警的子告警的告警状态全局变量almidstatus置为“0”,并查询上述告警相关性列表,检测该子告警是否还有下一级子告警,如果有则循环地将所有与当前告警相关的子告警及下一级子告警设置为“消失”,否则,转到步骤11;11、告警管理模块上报该告警消失至告警台,使该告警在系统显示告警的界面中消失。处理结束;12、告警管理模块检测所有父告警的告警状态是否都为“消失”,即检测表示所有父告警的告警状态的全局变量almidstatus是否都为“0”,如果是,转到步骤11,否则,转到步骤13;13、告警管理模块通过将表示该告警的告警状态的全局变量almidstatus置为“0”,从而将该告警置为“消失”,并转到处理步骤9。
虽然以上结合具体实施方案对本发明的方法做出了说明,但上述具体实施方案并不构成对本发明的限制。本领域的技术人员应该明白,可以对上述实施方案做出多种变换和修改。但是,这些变换和修改都不应背离由所附权利要求限定出的本发明的精神和范围。
权利要求
1.一种故障告警上报管理方法,用于能够进行故障告警的系统,所述系统包括告警检测模块、告警管理模块和告警台,所述方法包括1)所述告警检测模块在检测到所述系统因出现故障而产生的当前故障时,判断所述当前故障在所述系统中是否具有至少一个父告警;2)如果在步骤1)中判断的结果是不具有至少一个父告警,则所述告警管理模块向所述告警台上报所述当前告警产生;否则3)所述告警管理模块判断所述至少一个父告警中是否至少存在一个父告警的状态为“产生”;4)如果在步骤3)中的判断结果是存在,则对所述告警台不上报所述当前告警产生;否则5)所述告警管理模块向所述告警台上报所述当前告警产生。
2.如权利要求1所述的方法,其特征在于,所述方法还包括在所述系统中设置所述当前告警和其它告警的相关性列表的步骤。
3.如权利要求2所述的方法,其特征在于,所述当前告警和所述其它告警在所述系统中被初始化设置为“消失”。
4.如权利要求1所述的方法,其特征在于,所述步骤2)还包括在所述系统中将所述当前告警的状态设置为“产生”的处理步骤。
5.如权利要求1所述的方法,其特征在于,所述步骤4)还包括在所述系统中所述当前告警的状态被设置为“产生”的处理步骤。
6.如权利要求1所述的方法,其特征在于所述步骤3)还包括3-1)所述告警管理模块等待一个预定的时间;之后3-2)所述告警管理模块判断所述至少一个父告警中是否至少存在一个父告警的状态为“产生”。
7.如权利要求6所述的方法,其中,所述预定的时间为最长告警检测时间。
8.如权利要求1所述的方法,还包括6)所述告警管理模块在检测到所述当前故障消失时,判断所述当前告警在所述系统中是否具有至少一个父告警;7)如果在步骤6)中的判断结果是具有至少一个父告警,则所述告警管理模块在所述系统中将所述至少一个父告警的状态设置为“消失”;8)所述告警管理模块向所述告警台上报所述告警消失。
9.如权利要求8所述的方法,所述步骤6)还包括所述告警管理模块判断所述当前告警是否具有子告警的步骤,如果判断的结果是所述当前报警具有子告警,则,6-1)所述告警管理模块将所述子告警的状态在所述系统中设置为“消失”;6-2)所述告警管理模进一步判断所述子告警是否具有下一级子系统,如果判断的结果是具有,则所述告警管理模块将所述下一级系统设置为“消失”。
10.如前述任一项权利要求所述的方法,其特征在于,所述步骤1)还包括1-1)所述告警检测模块将检测到的当前故障的状态与所述当前故障在系统中的状态进行比较;1-2)如果在步骤1-1)中比较的结果是一致,则所述告警检测模块对所述当前告警不作处理,否则,则将检测到的所述当前告警的状态上报到所述告警管理模块。
全文摘要
一种故障告警上报管理方法,包括1)告警检测模块在检测到系统因出现故障而产生当前故障时,判断当前故障在系统中是否具有至少一个父告警;2)如果在步骤1)中判断的结果是不具有至少一个父告警,则告警管理模块向告警台上报当前告警产生;否则,3)告警管理模块判断所述至少一个父告警中是否至少存在一个父告警的状态为“产生”;4)如果在步骤3)中的判断结果是存在,则对告警台不上报当前告警产生;否则,5)告警管理模块向告警台上报当前告警产生。该方法能够使用户只看到产生根本故障原因的父告警并且在父告警消失后使有相关性的子告警也消失,从而使用户只看到系统的有效告警而不会看到出现冗余的告警。
文档编号G06F11/36GK1838087SQ20051005575
公开日2006年9月27日 申请日期2005年3月21日 优先权日2005年3月21日
发明者吴晓冬 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1