告警处理方法和告警处理设备与流程

文档序号:11593996阅读:758来源:国知局

本申请涉及通信领域,尤其涉及告警处理方法和告警处理设备。



背景技术:

电信网络是由大量的网络设备组成的,这些网络设备每天产生大量的告警。所谓告警,是指网络设备因某种故障而生成一条信息,一般包含设备名称、故障发生时间和地点等。每个网络设备会将在自身发生的告警上报到告警处理设备,网络监控人员会分析通过在告警处理设备上获取告警,并从中找出网络中存在的问题,反馈给网络维修人员去处理。

如果把所有的告警都呈现给网络监控人员,那么网络监控人员会被海量的告警淹没而无法集中精力去挖掘网络问题。实际上,很大一部分告警并不能反映网络问题的根因,所以没有必要把所有的告警都展示给网络监控人员。

为了降低展现给监控人员的告警数量,提高工作效率,必须过滤掉一些不重要的告警,这些不重要的告警会可以存储到数据库,这种过滤告警的过程也叫做告警压缩,即压缩一些不重要的告警。为此,对同一类告警,只显示有可能出现问题的告警,其余的告警直接存入数据库或者直接舍弃,不显示给网络监控人员。

通常情况下,技术专家会根据经验来为每一类告警制定一个告警闪断规则,该告警闪断规则包括一个压缩区间,依据每个告警的持续时间与该压缩区间的大小关系确定该告警该被显示还是被压缩。对任何一个上报的告警,若其持续时间不大于压缩区间时,此告警不会显示给网络监控人员,而会被压缩到数据库或者直接舍弃,否则,该告警会展示给网络监控人员。

由于专家的经验决定了告警闪断规则的准确性,因而网络质量对专家的依赖性很强。而且由于告警闪断规则是固定不变的,不能够根据网络状态进行动态的调整,因此当网络状态变化时,或者当有一个新的电信网络刚组建或旧的网络升级时,已有的告警闪断规则不能准确反映当前的网络状态。如果需要新的告警闪断规则,则需要专家重新对整个网络的状况进行分析并确 定新的告警闪断规则,专家需要为此耗费大量的时间和精力,从而导致网络告警处理的效率低下。



技术实现要素:

本申请实施例提供了一种告警处理方法和告警处理设备,用于根据接收的告警实例更新告警统计信息,从而更新告警闪断规则。

有鉴于此,本申请第一方面提供了一种告警处理方法,该方法包括:

接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型;根据该第一告警更新第一概率密度函数得到更新后的第一概率密度函数,该更新后的第一概率密度函数的自变量由该第一告警的持续时间,和接收该第一告警之前接收的,属于该第一告警类型的告警的持续时间组成,该第一告警的持续时间为该第一告警的出现时间和消除时间的时间差;根据该更新后的第一概率密度函数更新该第一告警类型的第一压缩区间,得到更新后的第一压缩区间,该更新后的第一压缩区间用于,当实时接收到的第二告警属于该第一告警类型,且该第二告警的持续时间小于该更新后的第一压缩区间,则压缩该第二告警。

当告警被告警处理设备接收,用于更新告警的压缩区间,并以此作为告警的告警闪断规则。需要说明的是,告警闪断规则可以用二元组<a,,ci>来表示,其中a为告警名,ci为压缩区间的数值,用于当接收告警时,判断其告警类型,寻找该告警类型的压缩区间,并通过持续时间与该压缩区间的大小关系来判断该告警是否需要被压缩,即当持续时间小于该压缩区间时,说明该告警应该不会出现问题,该告警会被压缩,否则会显示给工作人员。

统计信息可以以概率密度函数y=f(x)以及累计密度函数y=f(x)的方式记录下来,其中自变量x表示出现过的持续时间,函数值为该持续时间的概率,即出现的次数与累计的告警的数量之比。进而,通过对该概率密度函数的积分得到累计密度函数f(x),即自变量x为表示出现过的持续时间,其函数值表示持续时间在0-x之间的概率,即出现的次数与累计的告警的数量之比。

本方案中通过接收告警,获取该告警的告警类型和持续时间,用于更新 该告警类型的告警的持续时间的概率密度函数,从而更新该告警的告警类型的压缩区间,以此作为告警闪断规则,用于实时接收与上述的告警类型相同的告警时,将其持续时间小于该压缩区间的告警进行压缩处理。由于通过动态的信息来更新告警闪断规则,能很好的反映当前网络的状态,而且由于不需要专家来制定告警闪断规则,减少了对专家的依赖,而且降低专家的工作量,使得网络维护更容易。

结合本申请的第一方面,本申请的第一方面的第一种实施方式,包括:

使用该更新后的第一概率密度函数,与若干个预置参数计算该第一压缩区间。

专家给定若干个预置参数包括:默认的压缩区间cidef、压缩区间的最大允许值cimax以及预置步长δ。其中,cimax的含义是任何可以被压缩的告警的持续时间都不应该超过cimax,所有持续时间大于cimax的告警都应该显示给网络监控人员。

通过在预置的默认压缩区间cidef的左右寻找,并通过具体局部值和平均值比较小步步长δ调整压缩区间ci的值,因此可以找到恰当的告警闪断规则压缩区间。

结合本申请的第一方面,本申请的第一方面的第二种实施方式,包括:

判断该第一告警类型是否存在于预置的不可压缩列表中;若是,则设置该更新后的第一压缩区间的数值为零。

对于一些特殊的告警,无论如何都不应该被压缩,而是应该被显示给网络工作人员,则可以预置不可压缩列,不可压缩列表包含告警类型。当显示终端接收告警时,会判断告警的告警类型是否在不可压缩列表中。若该告警的告警类型存在与不可压缩列表中时,确定该告警不可被压缩,而是直接显示给工作人员。

由于提前把不可被压缩的告警展示,在实际操作中,避免了系统过多的计算,减少系统的计算次数,降低系统压力。

结合本申请的第一方面,本申请的第一方面的第三种实施方式,包括:

读取该更新后的第一概率密度函数中数值最大的若干个告警的持续时 间;判断该若干个告警的持续时间是否符合线性分布;若符合,则设置该更新后的第一压缩区间的数值为零。

电信网络中存在其持续时间的只有几个离散的数值的告警类型,如30,60,90,120…,且这些离散值符合线性关系。这类告警在实际情况中是不能被压缩的,因为根据持续时间的分布,可知这类告警一直没有被消除,且变的越来越严重,必须要及时解决。所以此告警类型的告警都要显示给网络监控人员。

由于通过该告警类型的告警的持续时间的分布情况确定了某些不可被压缩的告警类型,把在实际工作中不可被压缩的告警展示,在实际操作中,避免了系统过多的计算,减少系统的计算次数,降低系统压力。

结合本申请的第一方面,本申请的第一方面的第四种实施方式,包括:

计算在该第一概率密度函数中的告警的持续时间小于预置的默认压缩区间的比例;判断该比例是否小于预置比例;若是,则设置该更新后的第一压缩区间的数值为零。

在实际工作中,如果认为一个告警类型的告警整体上问题不大,那么在持续时间小于压缩区间的告警的比例应该达到某个比例。即该领域的专家通过经验得出在一定区域内的持续时间的分布密度函数的比例必须达到一定程度,若未达到,则可认为该告警有可能会显示出问题,则认为该告警不可被压缩,因此该告警要显示给网络监控人员。因此可以由该领域的专家预置一个预置比例值ω与预置压缩区间cidef,判断f(cidef)≥ω是否成立。若不成立,则此告警不能够被压缩,则此告警会显示给网络监控人员。

由于通过该告警类型的告警的持续时间的分布情况确定了某些不可被压缩的告警类型,把在实际工作中不可被压缩的告警展示,在实际操作中,避免了系统过多的计算,减少系统的计算次数,降低系统压力。

结合本申请的第一方面、本申请的第一方面的第一种实施方式、本申请的第一方面的第二种实施方式、本申请的第一方面的第三种实施方式、本申请的第一方面的第四种实施方式,本申请的第一方面的第五种实施方式,包括:

缓存该第一告警;判断该缓存的告警的存储量是否到达预置存储量;若是,则使用该缓存的告警中属于该第一告警类型的告警的持续时间更新该第一概率密度函数,得到该更新后的第一概率密度函数。

考虑到在实际工作中如果一接收到告警就对告警统计信息进行更新,则系统工作的负荷太大,不符合实际工作的需要,因此会首先缓存接收到的告警,等到满足一定的条件再用于更新统计信息。

由于在用告警更新告警统计信息前先缓存,而不是直接使用,因此在一定的时间内才会更新告警信息一次,因此不需要每次接收到告警都更新一次,避免了系统过多的计算,减少系统的计算次数,降低系统压力。

结合本申请的第一方面的第五种实施方式,包括:

计算该第一告警的出现时间与当前时间的时间差;判断该时间差是否小于预置时间差;若是,则缓存该第一告警。

统计告警的出现时间、持续时间和告警名,存放在告警的三元组中<a,occur,duration>(其中a为告警名,occur为该告警的发生时间,duration为该告警的持续时间)。缓存的告警会周期性的被存储到数据库,并清空缓存。在告警数据转存到数据库的同时,也可以在预置时间内的告警持续时间的告警,将其持续时间用于更新函数密度函数。

由于发生在很久之前的告警有未必可以能够准确的反映目前的网络状况,因此,只有最新的告警才会被考虑作为当前网络状况的反映。

本申请第二方面提供了一种告警处理设备,包括:

第一接收模块,用于接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型;第一更新模块,根据该第一接收模块接收的,该第一告警更新第一概率密度函数得到更新后的第一概率密度函数,该更新后的第一概率密度函数的自变量由该第一告警的持续时间,和接收该第一告警之前接收的属于该第一告警类型的告警的持续时间组成,该第一告警的持续时间为该第一告警的出现时间和消除时间的时间差;第二更新模块,根据该第一更新模块更新的,该更新后的第一概率密度函数更新该第一告警类型的第一压缩区间,得到更新后的第一压缩区间, 该更新后的第一压缩区间用于,当实时接收到的第二告警属于该第一告警类型,且该第二告警的持续时间小于该更新后的第一压缩区间,则压缩该第二告警。

本申请第三方面提供了一种告警处理设备,包括:

接收器、存储器、处理器以及总线;该接收器、该存储器以及该处理器通过该总线连接;该接收器用于接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型;该存储器用于存储程序以及该接收器接收的该第一告警;该处理器用于根据该第一告警更新第一概率密度函数得到更新后的第一概率密度函数,该更新后的第一概率密度函数的自变量由该第一告警的持续时间,和接收该第一告警之前接收的属于该第一告警类型的告警的持续时间组成,该第一告警的持续时间为该第一告警的出现时间和消除时间的时间差;根据该更新后的第一概率密度函数更新该第一告警类型的第一压缩区间,得到更新后的第一压缩区间,该更新后的第一压缩区间用于,当实时接收到的第二告警属于该第一告警类型,且该第二告警的持续时间小于该更新后的第一压缩区间,则压缩该第二告警。该存储器还用于存储该处理器更新的该更新后的第一概率密度函数以及该更新后的该第一压缩区间。

本申请第四方面提供了一种告警处理方法,包括:

接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型;判断该第一告警的持续时间是否小于第一压缩区间,该第一告警的持续时间为该第一告警出现时间和消除时间之间的时间差,该第一压缩区间由告警闪断规则确定,该告警闪断规则包括多条告警类型和压缩区间之间的对应关系,在该对应关系中每个告警类型都有且仅有一个对应的压缩区间;若是,则压缩该第一告警。

若第一告警的持续时间小于第一压缩区间,则可以认为该第一告警是没有问题的,则可以对其进行压缩处理,否则即会将其显示给工作人员。

结合本申请的第一方面的一种实施方式,包括:

接收告警闪断规则,该告警闪断规则包括该第一告警类型以及与该第一 告警类型对应的该第一压缩区间。

该告警闪断规则可以为多个二元组<a,ci>,其中a为告警名,即告警类型,ci为压缩区间。即该告警闪断规则对不同的告警类型都有相对应的压缩区间。需要说明的是,不同的告警类型对应的压缩区间可以不同,也可以相同,互相之间并没有因果关系。

本申请第五方面提供了一种告警处理设备,包括:

第二接收模块,用于接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型;第四判断模块,用于判断该第二接收模块接收的,该第一告警的持续时间是否小于第一压缩区间,该第一告警的持续时间为该第一告警出现时间和消除时间之间的时间差,该第一压缩区间由告警闪断规则确定,该告警闪断规则包括多条告警类型和压缩区间之间的对应关系,在该对应关系中每个告警类型都有且仅有一个与之对应的压缩区间;压缩模块,若该第四判断模块的判断结果为是,则压缩该第一告警。

本申请第六方面提供了一种告警处理设备,包括:

接收器、存储器、处理器以及总线;该接收器、该存储器以及该处理器通过总线连接;该接收器用于接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型;该存储器用于存储程序、该接收器接收的该第一告警;该处理器用于判断该接收器接收的该第一告警的持续时间是否小于第一压缩区间,该第一告警的持续时间为该第一告警出现时间和消除时间之间的时间差,该第一压缩区间由告警闪断规则确定,该告警闪断规则包括多条告警类型和压缩区间之间的对应关系,在该对应关系中每个告警类型都有且仅有一个与之对应的压缩区间;若该接收器接收的该第一告警的持续时间是否小于第一压缩区间,则压缩该第一告警。

从以上技术方案可以看出,本申请实施例具有以下优点:

本方案中通过接收告警,获取该告警的告警类型和持续时间,用于更新该告警类型的告警的持续时间的概率密度函数,从而更新该告警的告警类型的压缩区间,以此作为告警闪断规则,用于实时接收与上述的告警类型相同 的告警时,将其持续时间小于该压缩区间的告警进行压缩处理。由于通过动态的信息来更新告警闪断规则,能很好的反映当前网络的状态,而且由于不需要专家来制定告警闪断规则,减少了对专家的依赖,而且降低专家的工作量,使得网络维护更容易。

附图说明

图1为本申请实施例中网络设备告警系统的架构示意图;

图2为本申请实施例中告警处理方法的一个实施例示意图;

图3为本申请实施例中告警处理设备的一个实施例示意图;

图4为本申请实施例中告警处理设备的另一个实施例示意图;

图5为本申请实施例中告警处理设备的另一个实施例示意图;

图6为本申请实施例中告警处理设备的另一个实施例示意图;

图7为本申请实施例中告警处理设备的另一个实施例示意图;

图8为本申请实施例中告警处理设备的另一个实施例示意图;

图9为本申请实施例中告警处理设备的一个实施例示意图;

图10为本申请实施例中告警处理方法的另一个实施例示意图;

图11为本申请实施例中告警处理设备的一个实施例示意图;

图12为本申请实施例中告警处理设备的另一个实施例示意图;

图13为本申请实施例中告警处理设备的一个实施例示意图;

图14为本申请实施例中计算压缩区间算法示意图。

具体实施方式

本申请实施例提供了告警处理方法以及告警处理设备,用于根据接收的告警更新形式为概率密度函数的告警统计信息,从而更新包含压缩区间的告警闪断规则。

为了使本技术领域的人员更好地理解本发明实施例方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下 所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示,是一种网络设备告警系统的架构示意图。由网络设备和告警处理设备组成网络设备告警系统。在电信网络中,存在大量的网络设备,例如无线网络控制器(英文:radionetworkcontroller,缩写:rnc),3g移动基站(英文:nodeb),媒体网关(英文:mediagateway,缩写:mgw),移动交换中心(英文:mobileswitchingcenter,缩写:msc)等。

网络设备不会直接产生告警,而是产生告警实例,这些网络设备每天产生大量的告警实例。告警实例是网络设备因某种故障而生成一条信息,告警实例分为两类:设备告警实例,包括告警名,即告警类型,以及出现时间,说明某个设备在某个地方某个时间发生了某种问题;消除告警实例,包括告警类型和消除时间,说明某个告警已经被消除。

一般来说,对于包含同一个告警类型的设备告警实例和消除告警实例,前者会先出现。而当一个消除告警到来时,系统首先要寻找该消除告警对应的设备告警实例,并计算该告警的持续时间为:消除告警实例的发生时间减去设备告警实例的发生时间,则得到一个告警的持续时间。每个网络设备会将在自身发生的告警上报到服务器,网络监控人员会分析通过告警处理设备获取的告警的信息,并从中找出网络中存在的问题,反馈给网络维修人员去处理。

如果把所有的告警都呈现给网络监控人员,那么网络监控人员会被海量的告警淹没而无法集中精力去挖掘网络问题。实际上,很大一部分告警并不 能反映网络问题的根因,所以没有必要把所有的告警都展示给网络监控人员。

为了降低展现给监控人员的告警数量,提高工作效率,必须过滤掉一些不重要的告警,这些不重要的告警会可以存储到数据库,或者直接舍弃,这种过滤告警实例的过程也叫做告警压缩,即压缩一些不重要的告警。为此,对同一类告警,只显示有可能出现问题的告警,其余的告警直接存入数据库,或者直接舍弃,不显示给网络监控人员。

通常情况下,技术专家会根据经验来为每一类告警制定一个告警闪断规则,该告警闪断规则包括一个压缩区间,该压缩区间以时间为单位,依据每个告警的持续时间与该压缩区间的大小关系确定该告警该被显示还是被压缩。对任何一个上报的告警,若其持续时间不大于该压缩区间时,此告警不会显示给网络监控人员,而会被压缩到数据库,否则,该告警会展示给网络监控人员。

由于专家的经验决定了告警闪断规则的准确性,因而对专家的依赖性强。而且由于告警闪断规则是固定不变的,不能够根据网络状态进行动态的调整,因此当网络状态变化时,或者当有一个新的电信网络刚组建或旧的网络升级时,已有的告警闪断规则不能准确反映当前的网络状态。如果需要新的告警闪断规则,则需要专家都需要重新对整个网络的状况进行分析并确定新的告警闪断规则,因此专家会耗费大量的时间和精力。

本方案中通过接收告警,获取该告警的告警类型和持续时间,用于更新该告警类型的告警的持续时间的概率密度函数,从而更新该告警的告警类型的压缩区间,以此作为告警闪断规则,用于实时接收与上述的告警类型相同的告警时,将其持续时间小于该压缩区间的告警进行压缩处理。由于通过动态的信息来更新告警闪断规则,能很好的反映当前网络的状态,而且由于不需要专家来制定告警闪断规则,减少了对专家的依赖,而且降低专家的工作量,使得网络维护更容易。

因此,本申请实施例的核心思想是,通过接收新的告警用于更新其所属的告警类型的告警的持续时间的概率密度函数,从而更新包含压缩区间的告警闪断规则,该告警闪断规则用于对新接收的告警进行判断是否需要进行压 缩处理。

为便于理解,下面对本申请实施例中的具体流程进行描述,请参阅图2,本申请实施例中告警处理方法一个实施例包括:

201、接收第一告警。

在一些可行的实施例中,每个告警都有且仅有一个告警类型,告警类型又称为告警名。如果两个告警具有一样的告警名,则可认为这两个告警反映同一类问题。另外,告警的持续时间是最重要的参数之一,是反映其告警类型是否有问题的主要判断参数。

需要说明的是,在一些可行的实施例中,告警还可以包括设备名称、故障类型、发生时间以及发生地点等,此处不作限定,在本发明实施例中,以告警包含告警类型和持续时间为例进行说明。

在一些可行的实施例中,告警一方面会被显示终端接收,以当前的告警闪断规则判断该告警会被显示还是会被压缩。同时,另一方面也会被告警处理设备接收,用于更新告警的压缩区间,并以此作为告警的告警闪断规则。需要说明的是,告警闪断规则可以用二元组<a,,ci>来表示,其中a为告警名,ci为压缩区间的数值,用于当接收告警时,判断其告警类型,寻找该告警类型的压缩区间,并通过持续时间与该压缩区间的大小关系来判断该告警是否需要被压缩,即当持续时间小于该压缩区间时,说明该告警应该不会出现问题,该告警会被压缩,否则会显示给工作人员。

需要说明的是,在一些可行的实施例中,该计算得到压缩区间的设备与使用该压缩区间的设备可以为同一个设备,也可以为两个不同的设备此处不作限定。

202、缓存第一告警。

在本发明实施例中,考虑到如果一接收到告警就对告警统计信息进行更新,则系统工作的负荷太大,不符合实际工作的需要,因此会首先缓存接收到的告警,等到满足一定的条件再用于更新统计信息。

在本发明实施例中,具体的实施方式为统计告警的出现时间、持续时间和告警名,存放在告警的三元组中<a,occur,duration>(其中a为告警名, occur为该告警的发生时间,duration为该告警的持续时间)。在一些可行的实施例中,缓存的告警会周期性的被存储到数据库,并清空缓存。在另一些可行的实施例中,可以为当缓存的告警数量达到一定规模时被存储到数据库,并清空缓存,此处不作限定。在告警数据转存到数据库的同时,也可以在预置时间内的告警持续时间的告警,将其持续时间用于更新函数密度函数。

203、判断第一告警的告警类型是否在不可压缩列表中。

在一些可行的实施例中,存在一些告警类型不可被压缩,必须被显示,若还是继续计算其告警闪断规则,则对系统的资源来说是一种浪费。为此,本发明实施例中,可以对告警类型进行筛选,首先确定一些不可压缩的告警类型,进而将不可压缩的告警类型中的所有告警都显示给网络监控人员。

在本发明实施例中,对于一些特殊的告警,无论如何都不应该被压缩,而是应该被显示给网络工作人员,则可以预置不可压缩列,不可压缩列表包含告警类型。当显示终端接收告警时,会判断告警的告警类型是否在不可压缩列表中。若该告警的告警类型存在与不可压缩列表中时,确定该告警不可被压缩,而是直接显示给工作人员。

204、更新第一告警类型的告警的持续时间的概率密度函数。

接收到告警之后,由于发生在很久之前的告警有未必可以能够准确的反映目前的网络状况,因此在本发明实施例中,只有最新的告警才会被考虑作为当前网络状况的反映。

为了实施上述方案,在一些可行的实施例中,会读取缓存信息中的告警的出现时间,确定出现时间与当前时间的时间差,若该时间差小于预置时间差,则使用该告警更新其持续时间的概率密度函数。

因此,在本发明实施中,将对接收到的告警可以进行筛选。具体的实施方式如下。确定一个统计信息集合d={si=(a,occur,duration),|i=1、2、3、……、n}(其中a为告警名,occur为该告警的发生时间,duration为该告警的持续时间),以及集合d的覆盖区间l,是用户可配置的正数,单位为时间,以表示告警的出现时间与当前时间之间的预置时间差。其中si是从缓存的告警的三元组。当接收的告警的出现时间满足occur∈[t-l,t],其中t为 当前系统时间,则表示该告警是最近的告警,因此才会被考虑用于表示最近的状况。

需要说明的是,如果l>0,则表示通过筛选去除d中告警的发生时间不在区域[t-l,t]中的三元组,最后根据d中剩余的告警的持续时间的统计信息更新告警闪断规则。特别的,在一些可行的实施例中,当不考虑预置时间差的影响时,即将l设置为0,表示所有从缓存的告警得到的三元组都将存放在d中,即所有告警的持续时间都会被记录分析。

在一些可行的实施例中,也可以把当天的告警作为最新的需要考虑的告警,只要是能作为表示为最新的告警,并以此更新告警闪断规则,此处不作限定。

在本发明实施例中,使用经过筛选的数据会被更新到统计信息中,统计信息可以以概率密度函数y=f(x)以及累计密度函数y=f(x)的方式记录下来,其中自变量x表示出现过的持续时间,函数值为该持续时间的概率,即出现的次数与累计的告警的数量之比。进而,通过对该概率密度函数的积分得到累计密度函数f(x),即自变量x为表示出现过的持续时间,其函数值表示持续时间在0-x之间的概率,即出现的次数与累计的告警的数量之比。

205、判断该若干个告警的持续时间是否符合线性分布。

在一些可行的实施例中,电信网络中存在其持续时间的只有几个离散的数值的告警类型,如30,60,90,120…,且这些离散值符合线性关系。这类告警在实际情况中是不能被压缩的,因为根据持续时间的分布,可知这类告警一直没有被消除,且变的越来越严重,必须要及时解决。所以此告警类型的告警都要显示给网络监控人员。

为了寻找到上述所称的告警,可以提取告警统计信息的告警概率密度函数f(x)最大的若干个告警的持续时间,比如8个告警的持续时间,分别为x1,x2,……,x8。如果这8个值符合线性分布,则认为此告警不能被压缩。

206、判断第一概率密度函数中的告警的持续时间小于预置的默认压缩区间的比例是否小于预置比例。

在实际工作中,如果认为一个告警类型的告警整体上问题不大,那么在 持续时间小于压缩区间的告警的比例应该达到某个比例,反之如果达不到,则可以认为此告警整体都有问题,则需要将整个告警类型的所有告警都显示。

为了达到上述目的,在一些可行的实施例中,可以由该领域的专家预置一个预置比例值ω与预置压缩区间cidef,判断f(cidef)≥ω是否成立。若不成立,则此告警不能够被压缩,则此告警会显示给网络监控人员。即该领域的专家通过经验得出持续时间在[0,cidef]内的分布密度函数的比例必须达到一定的比例,即预置比例ω,若未达到,则可认为该告警有可能会显示出问题,则认为该告警不可被压缩,因此该告警要显示给网络监控人员。

207、设置第一压缩区间的数值为零。

在本发明实施例中,告警闪断规则的形式是一个二元组<a,ci>表示,其中a为告警名,ci为压缩区间的数值。当确定不可被压缩的告警类型时,则返回的告警闪断规则为<a,0>。由于所有告警类型的持续时间都大于0,因此,当该告警的压缩区间为0时,则所有该告警不会被压缩,而会被显示给网络监控人员。

在本发明实施例中,如果满足步骤203、步骤205或者步骤206中的一个或者几个时,则可以认为第一压缩区间的数值为零。需要说明的是,判断告警是否不可被压缩的方式可以为以上的一种或者几种,还可能有其他的方式,此处不作限定。

在一些可行的实施例中,告警闪断规则可以不仅包括告警名和压缩区间,还可以包括发生地点、压缩比例等,只要包括告警名和压缩区间,在此不作限定。

208、计算压缩区间的数值。

在一些可行的实施例中,可以通过步骤204确定的告警统计信息中的每个告警实例的持续时间的概率密度函数f(x),进而得到累计密度函数f(x),使用累计密度函数f(x)与若干个预置参数计算压缩区间。请参考附图14,具体的实施方式如下:

专家给定若干个预置参数包括:默认的压缩区间cidef、压缩区间的最大允许值cimax以及预置步长δ。其中,cimax的含义是任何可以被压缩的告警的 持续时间都不应该超过cimax,所有持续时间大于cimax的告警都应该显示给网络监控人员。

具体实施方式为在默认压缩区间cidef左右两侧搜索,得到两个备选压缩区间cil和cir。向cidef左边搜索的原因是专家给定的cidef可能过大,可能会压缩掉一些重要的告警;而向右边搜索的原因是cidef可能过小,会有过多的告警展示给网络监控人员。当cidef等于cir时,则最终的ci是cil,否则是cir。为了达到上述目的,可以使用以下算法:

令x=cidef–δ,判断f(x+δ)-f(x)>=f(cidef)×δ/cidef是否成立,若是,则cil=x+δ,否则令x=x-δ重新判断;令x=cidef+δ,判断f(x)–f(x-δ)<f(cidef)×δ/cidef是否成立,若是,则cir=x–δ,若否且x<cimax,则令x=x+δ重新判断,若x>=cimax,则令cir=cidef;若cir等于cidef,则ci=cil,否则ci=cir;则得到告警闪断规则<a,ci>。

此算法的理念是,可以通过cidef的左右的具体局部值和平均值比较,可以得到局部值比平均值高还是低。如果的cidef左边的累计函数的局部值比平均值高,那么说明右边的局部区间有大量告警出现,至少比平均值要多,那么可以认为此部分告警是频繁现象,可以认为是正常无问题的,因而可以被压缩。如果局部值比平均值低,那么这一部分可被认为是少数现象,应该报告给网络监控人员,则应该向左边再走一个步长δ。

同理,如果的cidef右边的累计函数的局部值比平均值高,那么说明右边的局部区间有大量告警出现,至少比平均值要多,那么可以认为此部分告警是频繁现象,可以认为是正常无问题的,因而属于可以被压缩的告警,因此x需要再右边走一个步长δ。如果局部值比平均值低,那么这一部分可被认为是少数现象,属于不被压缩的告警,应该报告给网络监控人员。

需要说明的是,如果cir和cil同时不等于cidef,那么可以判断cil到cidef之间的告警出现数量较少是个别现象,可以忽略不计,则要选择cir作为最后的ci。

在一些可行的实施例中,还可以通过其他算法或者其他理念计算告警闪断规则的压缩区间,从而得到恰当的压缩区间ci,此处不作限定。

在本发明实施例中,由于通过动态的信息来更新告警闪断规则的压缩区间,能很好的反映当前网络的状态,而且由于不需要专家来制定告警闪断规则,减少了对专家的依赖,而且降低专家的工作量,使得网络维护更容易。

上面对本申请实施例中告警处理方法进行描述,下面对本申请实施例中的告警处理设备进行描述。

请参考图3,本申请实施例还提供一种告警处理设备300,该告警处理设备包括:

第一接收模块301,用于接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型;

第一更新模块302,根据该第一接收模块301接收的,该第一告警更新第一概率密度函数得到更新后的第一概率密度函数,该更新后的第一概率密度函数的自变量由该第一告警的持续时间,和接收该第一告警之前接收的属于该第一告警类型的告警的持续时间组成,该第一告警的持续时间为该第一告警的出现时间和消除时间的时间差;

第二更新模块303,根据该第一更新模块302更新的,该更新后的第一概率密度函数更新该第一告警类型的第一压缩区间,得到更新后的第一压缩区间,该更新后的第一压缩区间用于,当实时接收到的第二告警属于该第一告警类型,且该第二告警的持续时间小于该更新后的第一压缩区间,则压缩该第二告警。

在一些实施例中,该第二更新模块303具体用于,包括:

使用该第一更新模块更新的该更新后的第一概率密度函数与若干个预置参数计算该第一压缩区间。

本方案中通过接收告警,获取该告警的告警类型和持续时间,用于更新该告警类型的告警的持续时间的概率密度函数,从而更新该告警的告警类型的压缩区间,以此作为告警闪断规则,用于实时接收与上述的告警类型相同的告警时,将其持续时间小于该压缩区间的告警进行压缩处理。由于通过动态的信息来更新告警闪断规则,能很好的反映当前网络的状态,而且由于不需要专家来制定告警闪断规则,减少了对专家的依赖,而且降低专家的工作 量,使得网络维护更容易。

请参考图4,在一些实施例中,该告警处理设备300还包括:

第一判断模块304,判断该第一接收模块301接收的该第一告警类型是否存在于预置的不可压缩列表中;

第一设置模块305,用于若该第一判断模块304的判断结果为是,则设置该更新后的第一压缩区间的数值为零。

请参考图5,在一些实施例中,该告警处理设备300包括:

读取模块306,读取该第一更新模块302更新的,该更新后的第一概率密度函数中数值最大的若干个告警的持续时间;

第二判断模块307,用于判断该读取模块306读取的,该若干个告警的持续时间是否符合线性分布;

第二设置模块308,用于若该第二判断模块307的判断结果为符合,则设置该更新后的第一压缩区间的数值为零。

请参考图6,在一些实施例中,该告警处理设备300包括:

计算模块309,用于计算该第一更新模块302更新的,该更新后的该第一概率密度函数中的告警的持续时间小于预置的默认压缩区间的比例。

第三判断模块310,用于判断该计算模块309计算的,该比例是否小于预置比例。

第三设置模块311,用于若该第三判断模块310的判断结果为是,则设置该更新后的第一压缩区间的数值为零。

请参考图7,在一些实施例中,该第一更新模块302包括:

缓存单元3021,用于缓存该第一接收模块301接收的,该第一告警。

判断单元3022,用于判断该缓存单元3021缓存的告警的存储量是否到达预置存储量。

更新单元3023,用于若该判断单元3022的判断结果为是,则使用该缓存单元中属于该第一告警类型的告警的持续时间更新该第一概率密度函数,得到该更新后的第一概率密度函数。

请参考图8,在一些实施例中,该缓存单元3021包括:

计算子单元30211,用于计算该第一接收模块301接收的,该第一告警的出现时间与当前时间的时间差。

判断子单元30212,用于判断该计算子单元30211计算的,该时间差是否小于预置时间差。

缓存子单元30213,用于若该判断子单元30212的判断结果为是,则缓存该第一告警。

在本发明实施例中,由于通过动态的信息来更“新告警闪断规则”,能很好的反映当前网络的状态,而且由于不需要专家来制定告警闪断规则,减少了对专家的依赖,而且降低专家的工作量,使得网络维护更容易。

上面从模块化功能实体的角度对本申请实施例中的告警处理设备进行描述,下面从硬件处理的角度对本申请实施例中的告警处理设备进行描述,请参阅图9,本申请实施例提供了一种告警处理设备。

一种告警处理设备400,包括:

接收器401、存储器402、处理器403以及总线404。

接收器401、存储器402以及处理器403通过总线404连接。

接收器401,用于接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型。

接收器401可以包括处理器403和标准通信子系统之间的通信接口(英文communicationinterface)。

接收器401还可以进一步包括eia-rs-232c标准下的通信接口,即数据终端设备(英文:dataterminalequipment,缩写:dte)和数据通讯设备(英文:datacircuit-terminatingequipment,缩写:dce)之间串行二进制数据交换接口技术标准的通信接口,也可以包括rs-485协议下的通信接口,此处不作限定。

存储器402,用于存储程序、接收器401接收的第一告警。

存储器402可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-accessmemory,缩写:ram);存储器402也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flashmemory),硬盘(英文:harddiskdrive,缩写:hdd)或固态硬盘 (英文:solid-statedrive,缩写:ssd);存储器403还可以包括上述种类的存储器的组合,此处不作限定。

可选地,存储器402还可以用于存储程序指令,处理器403可以调用该存储器402中存储的程序指令,执行图2所示实施例中的一个或多个步骤,或其中可选的实施方式,使得该告警处理设备400实现上述方法的功能。

处理器403,用于根据该第一告警更新第一概率密度函数得到更新后的第一概率密度函数,该更新后的第一概率密度函数的自变量由该第一告警的持续时间,和接收该第一告警之前接收的,属于该第一告警类型的告警的持续时间组成,该第一告警的持续时间为该第一告警的出现时间和消除时间的时间差;根据该更新后的第一概率密度函数更新该第一告警类型的第一压缩区间,得到更新后的第一压缩区间,该更新后的第一压缩区间用于,当实时接收到的第二告警属于该第一告警类型,且该第二告警的持续时间小于该更新后的第一压缩区间,则压缩该第二告警。

处理器403可以是中央处理器(英文:centralprocessingunit,缩写:cpu),网络处理器(英文:networkprocessor,缩写:np)或者cpu和np的组合。

处理器403还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specificintegratedcircuit,缩写:asic),可编程逻辑器件(英文:programmablelogicdevice,缩写:pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文:complexprogrammablelogicdevice,缩写:cpld),现场可编程逻辑门阵列(英文:field-programmablegatearray,缩写:fpga),通用阵列逻辑(英文:genericarraylogic,缩写:gal)或其任意组合。

存储器402还用于存储处理器403更新的更新后的第一概率密度函数以及更新后的第一压缩区间。

在本发明实施例中,由于通过动态的信息来更新告警闪断规则的压缩区间,能很好的反映当前网络的状态,而且由于不需要专家来制定告警闪断规则,减少了对专家的依赖,而且降低专家的工作量,使得网络维护更容易。

上面对本申请实施例中从生成压缩区间的告警处理设备侧进行描述,下 面对本申请实施例中的使用压缩区间的数据处理设备侧对告警处理方法进行描述,请参考图10:

501、接收第一告警。

请参考步骤201,在此不再赘述。

502、接收告警闪断规则。

在本发明实施例中,接收包含通过步骤201至步骤203生成的压缩区间的告警闪断规则。在一些可行的实施例中,该告警闪断规则可以为多个二元组<a,ci>,其中a为告警名,即告警类型,ci为压缩区间。即该告警闪断规则对不同的告警类型都有相对应的压缩区间。需要说明的是,不同的告警类型对应的压缩区间可以不同,也可以相同,互相之间并没有因果关系。

503、判断第一告警的持续时间是否小于第一压缩区间。

在本发明实施例中,可以在告警闪断规则中找到该告警类型,再找到相对应的压缩区间,接着通过在线实时判断步骤501接收的第一告警的持续时间与该压缩区间的大小如何。

504、压缩第一告警。

在本发明实施例中,若第一告警的持续时间小于第一压缩区间,则可以认为该第一告警是没有问题的,则可以对其进行压缩处理,否则即会将其显示给工作人员。

上面对本申请实施例中告警处理方法进行描述,下面对本申请实施例中的告警处理设备600进行描述,请参考图11。

第二接收模块601,用于接收第一告警,该第一告警包括该第一告警的出现时间和消除时间,以及该第一告警所属的第一告警类型;

第四判断模块602,用于判断该第二接收模块601接收的,该第一告警的持续时间是否小于第一压缩区间,该第一告警的持续时间为该第一告警出现时间和消除时间之间的时间差,该第一压缩区间由告警闪断规则确定,该告警闪断规则包括多条告警类型和压缩区间之间的对应关系,在该对应关系中每个告警类型都有且仅有一个与之对应的压缩区间;

压缩模块603,若该第四判断模块602的判断结果为是,则压缩该第一告警。

请参考图12,在一些实施例中,该告警处理设备600还包括:

第三接收模块604,用于接收告警闪断规则,该告警闪断规则包括该第一告警类型以及与该第一告警类型对应的该第一压缩区间。

上面从模块化功能实体的角度对本申请实施例中的告警处理设备进行描述,下面从硬件处理的角度对本申请实施例中的告警处理设备进行描述,请参阅图13,本申请实施例提供了一种告警处理设备。

一种告警处理设备700,包括:

接收器701、存储器702、处理器703以及总线704。

接收器701、存储器702以及处理器703通过总线704连接。

接收器701用于接收第一告警,第一告警包括第一告警的出现时间和消除时间,以及第一告警所属的第一告警类型。

存储器702用于存储程序、接收器701接收的第一告警。

处理器703用于判断接收器701接收的第一告警的持续时间是否小于第一压缩区间,第一告警的持续时间为第一告警出现时间和消除时间之间的时间差,第一压缩区间由告警闪断规则确定,告警闪断规则包括多条告警类型和压缩区间之间的对应关系,在对应关系中每个告警类型都有且仅有一个与之对应的压缩区间。

若接收器接收701的第一告警的持续时间是否小于第一压缩区间,则压缩第一告警。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合 或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1