一种告警故障的关联分析方法、装置及设备与流程

文档序号:17535727发布日期:2019-04-29 13:58阅读:230来源:国知局
一种告警故障的关联分析方法、装置及设备与流程

本发明涉及it运维管理技术领域,更具体地说,涉及一种告警故障的关联分析方法、装置、设备及计算机可读存储介质。



背景技术:

随着it信息化的高速发展,it基础设施的数量不断扩大,业务指标累计增多,监控方式也逐渐趋向多维度,使得运维人员对基础it环境的管理、维护难度也在不断地增加。具体来说,现有统一监控平台在设备指标发生告警之后会将告警相应信息全部列出,运维人员通过现有告警信息的列表查找发生告警信息的设备及其指标,并通过长期的人为经验来查找故障条件,既费时又费力;且监控是多维度的,不同的业务会有不同的指标,所有加起来有上万个指标,这无疑会需要大量的工作量。

综上所述,现有技术中实现告警故障分析的技术方案存在大量耗时耗力的问题。



技术实现要素:

有鉴于此,本发明的目的是提供一种告警故障的关联分析方法、装置、设备及计算机可读存储介质,能够解决现有技术中实现告警故障分析的技术方案存在的大量耗时耗力的问题。

为了达到上述目的,本发明提供如下技术方案:

一种告警故障的关联分析方法,包括:

获取需要进行关联分析的多个告警故障的告警信息;

计算每两个所述告警信息中每一个告警信息作为条件、另一个告警信息作为结果时得到的每组条件及结果的条件概率值,并确定该条件概率值大于概率阈值的条件及结果对应告警信息为具有因果关联的告警信息;

将确定出的具有因果关联的告警信息保存以供查询。

优选的,计算每组条件及结果的条件概率值之前,还包括:

基于每个所述告警信息包含的开始时间及结束时间,确定每个所述告警信息在预设的长度相同的连续多个时间窗中所占据的时间窗,确定并存储每个所述告警信息占据的时间窗个数与时间窗总数的比值为对应告警信息的支持度,将该支持度小于支持度阈值的告警信息删除。

优选的,确定每个所述告警信息在预设的长度相同的连续多个时间窗中所占据的时间窗,包括:

对于每个所述告警信息中的任一告警信息,确定该任一告警信息的开始时间处于的时间窗为该任一告警信息占据的首个时间窗,将该任一告警信息的结束时间及开始时间的差值除以所述时间窗的长度得到的值为该任一告警信息占据的时间窗个数,基于该任一告警信息占据的首个时间窗及占据的时间窗个数确定出该任一告警信息占据的最后一个时间窗,确定该任一告警信息占据的首个时间窗及最后一个时间窗之间的时间窗、首个时间窗、最后一个时间窗均为该任一告警信息占据的时间窗。

优选的,计算每组条件及结果的条件概率值,包括:

按照下列公式计算每组条件及结果中任一组条件及结果的条件概率值:

其中,p(a|b)表示条件b及结果a的条件概率值,p(ab)表示条件b及结果a均占据的时间窗的个数,p(b)表示条件b占据的时间窗的个数。

优选的,确定出具有因果关联的告警信息之后,还包括:

确定并存储每组具有因果关联的告警信息的条件概率值对应的关联强度等级。

优选的,存储每组具有因果关联的告警信息、对应关联强度等级及其中各所述告警信息的支持度之后,还包括:

接收外界输入的查询条件,确定所述查询条件对应告警信息为目标告警信息,将所述目标告警信息、所述目标告警信息的支持度、所述目标告警信息作为条件时对应作为结果的告警信息、所述目标告警信息作为结果时对应作为条件的告警信息及对应的各关联强度等级进行输出。

优选的,输出所述目标告警信息作为条件时对应作为结果的告警信息、所述目标告警信息作为结果时对应作为条件的告警信息及对应的各关联强度等级进行输出,包括:

按照对应条件概率值由大至小的顺序,输出所述目标告警信息作为条件时对应作为结果的告警信息、所述目标告警信息作为结果时对应作为条件的告警信息及对应的各关联强度等级。

一种告警故障的关联分析装置,包括:

获取模块,用于:获取需要进行关联分析的多个告警故障的告警信息;

计算模块,用于:计算每两个所述告警信息中每一个告警信息作为条件、另一个告警信息作为结果时得到的每组条件及结果的条件概率值,并确定该条件概率值大于概率阈值的条件及结果对应告警信息为具有因果关联的告警信息;

保存模块,用于:将确定出的具有因果关联的告警信息保存以供查询。

一种告警故障的关联分析设备,可以包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上任一项所述告警故障的关联分析方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述告警故障的关联分析方法的步骤。

本发明提供了一种告警故障的关联分析方法、装置、设备及计算机可读存储介质,其中该方法包括:获取需要进行关联分析的多个告警故障的告警信息;计算每两个所述告警信息中每一个告警信息作为条件、另一个告警信息作为结果时得到的每组条件及结果的条件概率值,并确定该条件概率值大于概率阈值的条件及结果对应告警信息为具有因果关联的告警信息;将确定出的具有因果关联的告警信息保存以供查询。本申请公开的技术方案,在获取到需要进行关联分析的多个告警信息之后,计算每个告警信息中任一告警信息作为条件、除该任一告警信息之外的其余每个告警信息中任一告警信息作为结果的条件概率值,从而确定条件概率值大于概率阈值的条件及结果为具有因果关联的告警信息,也即确定一个告警信息导致另一个告警信息发生的概率较大时确定这两个告警信息为具有因果关联的告警信息,从而使得工作人员通过查找到保存的数据,即可获知不同告警信息之间的因果关联,进而基于此即可快速推断出产生告警故障的原因,达到了进行告警故障的分析时能够省时省力的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种告警故障的关联分析方法的流程图;

图2为本发明实施例提供的一种告警故障的关联分析装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,其示出了本发明实施例提供的一种告警故障的关联分析方法的流程图,可以包括:

s11:获取需要进行关联分析的多个告警故障的告警信息。

需要说明的是,本发明实施例提供的一种告警故障的关联分析方法的执行主语为关联分析装置。其中,由于数据量巨大,关联分析的计算不可能间隔很短,因此可以以设定定时任务的方式来定时启动关联分析的计算相关步骤;具体来说,可以根据实际需要配置定时任务的时间间隔(如10分钟),确定每隔多长时间执行一次关联分析的计算相关步骤(本申请包括的获取告警信息及对获取的告警信息进行关联分析)这一定时任务。

其中,告警信息与背景技术中的告警信息含义相同,是在设备发生告警故障之后得到的对应告警信息,可以包括发生告警故障的资源的资源标识(包括资源uri、资源名称等)、发生告警故障的指标的指标标识(包括cpu使用率、硬盘占用率等)、发生告警故障的开始时间及结束时间。具体来说,可以将告警信息处理成“资源标识,指标标识”格式的信息,如“uri1|服务器1|cpu使用率”“uri2|服务器2|cpu使用率”等,也即通过将告警信息进行数据预处理成预设的数据格式后对其实现关联分析的计算。

s12:计算每两个告警信息中每一个告警信息作为条件、另一个告警信息作为结果时得到的每组条件及结果的条件概率值,并确定该条件概率值大于概率阈值的条件及结果对应告警信息为具有因果关联的告警信息。

其中,概率阈值的具体取值可以根据实际需要进行设定,如可以为70%。需要说明的是,条件概率指事件a在另外一个事件b已经发生条件下的发生概率,条件概率表示为p(a|b),读作“在b的条件下a的概率”。本申请在获取多个告警信息后,假设告警信息的数量为n,则将这n个告警信息同时作为条件及结果,每一个条件中任一个条件与除自身之外的每一个结果分别组成对应的一组条件及结果,从而可以得到n*(n-1)组条件及结果,这即为将每两个告警信息中每一个告警信息作为条件、另一个告警信息作为结果得到多组条件及结果的过程。其中,条件在上述条件概率中表示为事件b,结果在上述条件概率中表示为事件a,计算一组条件及结果的条件概率值即为计算该组条件及结果中结果在条件已经发生的前提下的发生概率,也即该组条件及结果中条件导致结果发生的概率;因此,当条件概率值大于概率阈值时,则可以认为对应的条件导致对应的结果发生的概率较大,则认为对应的条件及概率具有因果关联。

s13:将确定出的具有因果关联的告警信息保存以供查询。

其中,将具有因果关联的告警信息保存以供查询可以是将具有因果关联的告警信息存储至数据库中,另外,在实现具有因果关联的告警信息的保存时可以是将步骤s11中获取到的每个告警信息进行保存,并将其中具有因果关联的告警信息设置相应的标记;由此工作人员调用数据库中的数据时不仅可以获取到各告警信息,还可以获取告警信息之间的因果关联关系,从而基于此确定出告警故障发生的原因。

本申请公开的技术方案,在获取到需要进行关联分析的多个告警信息之后,计算每个告警信息中任一告警信息作为条件、除该任一告警信息之外的其余每个告警信息中任一告警信息作为结果的条件概率值,从而确定条件概率值大于概率阈值的条件及结果为具有因果关联的告警信息,也即确定一个告警信息导致另一个告警信息发生的概率较大时确定这两个告警信息为具有因果关联的告警信息,从而使得工作人员通过查找到保存的数据,即可获知不同告警信息之间的因果关联,进而基于此即可快速推断出产生告警故障的原因,达到了进行告警故障的分析时能够省时省力的目的。

另外,本申请公开的技术方案自动实现告警信息之间的关联分析,使运维走向自动化、平台化、智能化,保障基础it支撑环境的稳定和可靠运行,帮助运维人员提高it支撑环境的监控与运维能力。

本发明实施例提供的一种告警故障的关联分析方法,计算每组条件及结果的条件概率值之前,还可以包括:

基于每个告警信息包含的开始时间及结束时间,确定每个告警信息在预设的长度相同的连续多个时间窗中所占据的时间窗,确定并存储每个告警信息占据的时间窗个数与时间窗总数的比值为对应告警信息的支持度,将该支持度小于支持度阈值的告警信息删除。

关联分析常用到的四个概念分别是频繁项集、关联规则、置信度及支持度。本申请中以告警信息对应条件概率作为置信度,以告警信息出现概率作为支持度,而频繁项集即为支持度不小于对应支持度阈值的告警信息,关联规则即为告警信息之间是否具有因果关联。其中,支持度阈值可以根据实际需要进行设定,每个告警信息包含的开始时间及结束时间即为对应告警故障出现的开始时间及结束时间,将所有告警信息对应的时间划分为多个长度相同的连续的时间段,每个时间段即为一个事件窗,每个时间窗的长度可以根据实际需要进行设定,如可以为1分钟;在确定出时间窗后,基于每个告警信息的开始时间及结束时间可以确定其所占据的时间窗,由此通过每个告警信息占据的时间窗的个数即可确定出告警信息的支持度,进而将支持度小于支持度阈值的告警信息删除。

需要说明的是,本实施例中删除小于支持度阈值的告警信息是为了排除某些偶发因素可能导致的告警故障,或者可理解为有些告警故障发生的次数很少,发生的概率很小,基本算是偶发状况,举例说明这种情况下可能存在的问题,如10000条数据中告警故障a只发生了2次,此时如果不排除a,在分割时间窗后,a所在的时间窗均有告警故障b,那计算出的结果就是,a发生的条件下,b发生的概率为100%,而实际上,告警故障c发生了100次,在c所在时间窗内b发生了92次,b共发生100次,其中2次都有a,92次有c,剩下6次ac都没有,并且ac没有同时发生过;此时,c条件下b发生的概率为92%,小于a发生条件下b发生的100%概率,很明显是不正确的;所以本实施例中需要排除掉小于支持度阈值的告警信息。本发明实施例提供的一种告警故障的关联分析方法,确定每个告警信息在预设的长度相同的连续多个时间窗中所占据的时间窗,可以包括:

对于每个告警信息中的任一告警信息,确定该任一告警信息的开始时间处于的时间窗为该任一告警信息占据的首个时间窗,将该任一告警信息的结束时间及开始时间的差值除以时间窗的长度得到的值为该任一告警信息占据的时间窗个数,基于该任一告警信息占据的首个时间窗及占据的时间窗个数确定出该任一告警信息占据的最后一个时间窗,确定该任一告警信息占据的首个时间窗及最后一个时间窗之间的时间窗、首个时间窗、最后一个时间窗均为该任一告警信息占据的时间窗。

需要说明的是,确定每个告警信息占据的时间窗的方式有多种,如以下三种方法:

(1)遍历每条告警信息,遍历每个时间窗,通过告警信息的开始时间及结束时间判断此条告警信息是否在当前遍历到的时间窗内,进而将所得结果添加到预设的list中。

(2)遍历每条告警信息,对于任一告警信息,根据该任一告警信息的开始时间及结束时间循环所有时间窗,当该任一告警信息的开始时间在一个时间窗内即开始记录,循环判断该任一告警信息的结束时间是否在下一个时间窗内,如果不是则记录该下一个时间窗,直至确定出结束时间所在的时间窗,记录结束时间所在的时间窗并停止循环时间窗,从而确定出每个告警信息占据的时间窗并将所得结果存储。

(3)新建map用于接收每个时间窗内的告警信息,遍历每条告警信息,确定每条告警信息的开始时间所处的时间窗为对应告警信息占据的首个时间窗,通过两时间(告警信息的结束时间和开始时间)进行相减计算,并将相减得到的结果除以每个时间窗的长度,得到的值即为对应告警信息处于的时间窗个数;根据每条告警信息的首个时间窗向后依次数对应个数个时间窗(包括首个时间窗)分别在map中存储告警信息。

其中,第一种方法需要遍历所有的告警信息,在遍历每条告警信息的同时还要遍历所有时间窗,因此这种方法的计算量相当于指数级的,当告警信息的数据量增大时,运算量则会使系统变得很吃力;第二种方法虽然没有遍历所有时间窗,但是还是会将告警信息所占时间都遍历到,直到结束时间在最后一个时间窗内停止,同样会导致计算量非常大。第三种方法即为本实施例中采取的方法,只需要确定出首个时间窗后,通过结束时间减去开始时间后除以每个时间窗的长度,得出告警信息所占时间窗个数,从首个时间窗后依次往后存储即可,可见第三种方法为最优算法,计算速度快且准确。

另外,本实施例在确定任一告警信息占据的首个时间长时,可以将该任一告警信息的开始时间减去第一个时间窗的开始时间,并将得到的结果除以每个时间窗的长度,最终所得结果即为该任一告警信息的首个时间窗在全部时间窗中处于第几个时间窗,从而进一步减少了计算量。

本发明实施例提供的一种告警故障的关联分析方法,计算每组条件及结果的条件概率值,可以包括:

按照下列公式计算每组条件及结果中任一组条件及结果的条件概率值:

其中,p(a|b)表示条件b及结果a的条件概率值,p(ab)表示条件b及结果a均占据的时间窗的个数,p(b)表示条件b占据的时间窗的个数。

需要说明的是,在计算每组条件及结果的条件概率值时基于每个告警信息占据的时间窗实现,从而能够基于支持度计算时已经得到的信息(占据的时间窗)实现,方便快速。

本发明实施例提供的一种告警故障的关联分析方法,确定出具有因果关联的告警信息之后,还可以包括:

确定并存储每组具有因果关联的告警信息的条件概率值对应的关联强度等级。

需要说明的是,可以预先设定条件概率值及关联强度等级之间的对应关系,由此只要确定出条件概率值,即可确定出对应的关联强度等级,一般来说条件概率值越大对应告警信息存在因果关联的可能性越大、关联强度等级越高,从而工作人员在查询时基于关联强度等级即可确定出对应告警信息存在因果关联的可能性大小,方便了工作人员开展对应的分析工作。

本发明实施例提供的一种告警故障的关联分析方法,存储每组具有因果关联的告警信息、对应关联强度等级及其中各告警信息的支持度之后,还可以包括:

接收外界输入的查询条件,确定查询条件对应告警信息为目标告警信息,将目标告警信息、目标告警信息的支持度、目标告警信息作为条件时对应作为结果的告警信息、目标告警信息作为结果时对应作为条件的告警信息及对应的各关联强度等级进行输出。

其中,查询条件可以是告警信息包含的关键字,如资源标识等,从而确定出与查询条件对应的告警信息后,将该告警信息、该告警信息的支持度、该告警信息对应的其他告警信息(包括该告警信息作为条件时对应作为结果的告警信息、该告警信息作为结果时对应作为条件的告警信息)及该告警信息对应的各关联强度进行输出,从而通过这种相关信息的全面展示,方便了工作人员对于信息的直接获取及分析。

另外还可以输出目标告警信息对应的各条件概率值、占据的时间窗个数等,从而进一步加强了输出信息的全面性。

本发明实施例提供的一种告警故障的关联分析方法,输出目标告警信息作为条件时对应作为结果的告警信息、目标告警信息作为结果时对应作为条件的告警信息及对应的各关联强度等级进行输出,可以包括:

按照对应条件概率值由大至小的顺序,输出目标告警信息作为条件时对应作为结果的告警信息、目标告警信息作为结果时对应作为条件的告警信息及对应的各关联强度等级。

在对上述信息输出时,按照对应条件概率值由大到小输出每组目标告警信息及对应其他告警信息,能够使得工作人员进一步直观的确定出各告警信息之间的关联关系。另外,还可以将不同的信息以不同的背景颜色进行标注,也能够提高工作人员信息获取时的直观性,进而便于其实现信息分析。

另外,在工作人员基于本发明提供的一种告警故障的关联分析装置实现关联分析时,在工作人员点击告警主菜单、并在告警主菜单点击关联分析功能后,在界面下方列表中展示上述需要输出的信息,进而在外界点击帮助按钮后可以为工作人员提供各项信息或者功能的详细说明。

本发明实施例还提供了一种告警故障的关联分析装置,如图2所示,可以包括:

获取模块11,用于:获取需要进行关联分析的多个告警故障的告警信息;

计算模块12,用于:计算每两个告警信息中每一个告警信息作为条件、另一个告警信息作为结果时得到的每组条件及结果的条件概率值,并确定该条件概率值大于概率阈值的条件及结果对应告警信息为具有因果关联的告警信息;

保存模块13,用于:将确定出的具有因果关联的告警信息保存以供查询。

本发明实施例提供的一种告警故障的关联分析装置,还可以包括:

过滤模块,用于:计算每组条件及结果的条件概率值之前,基于每个告警信息包含的开始时间及结束时间,确定每个告警信息在预设的长度相同的连续多个时间窗中所占据的时间窗,确定并存储每个告警信息占据的时间窗个数与时间窗总数的比值为对应告警信息的支持度,将该支持度小于支持度阈值的告警信息删除。

本发明实施例提供的一种告警故障的关联分析装置,过滤模块可以包括:

第一确定模块,用于:对于每个告警信息中的任一告警信息,确定该任一告警信息的开始时间处于的时间窗为该任一告警信息占据的首个时间窗,将该任一告警信息的结束时间及开始时间的差值除以时间窗的长度得到的值为该任一告警信息占据的时间窗个数,基于该任一告警信息占据的首个时间窗及占据的时间窗个数确定出该任一告警信息占据的最后一个时间窗,确定该任一告警信息占据的首个时间窗及最后一个时间窗之间的时间窗、首个时间窗、最后一个时间窗均为该任一告警信息占据的时间窗。

本发明实施例提供的一种告警故障的关联分析装置,计算模块可以包括:

计算单元,用于:按照下列公式计算每组条件及结果中任一组条件及结果的条件概率值:

其中,p(a|b)表示条件b及结果a的条件概率值,p(ab)表示条件b及结果a均占据的时间窗的个数,p(b)表示条件b占据的时间窗的个数。

本发明实施例提供的一种告警故障的关联分析装置,还可以包括:

第二确定模块,用于:确定出具有因果关联的告警信息之后,确定并存储每组具有因果关联的告警信息的条件概率值对应的关联强度等级。

本发明实施例提供的一种告警故障的关联分析装置,还可以包括:

输出模块,用于:存储每组具有因果关联的告警信息、对应关联强度等级及其中各告警信息的支持度之后,接收外界输入的查询条件,确定查询条件对应告警信息为目标告警信息,将目标告警信息、目标告警信息的支持度、目标告警信息作为条件时对应作为结果的告警信息、目标告警信息作为结果时对应作为条件的告警信息及对应的各关联强度等级进行输出。

本发明实施例提供的一种告警故障的关联分析装置,输出模块可以包括:

输出单元,用于:按照对应条件概率值由大至小的顺序,输出目标告警信息作为条件时对应作为结果的告警信息、目标告警信息作为结果时对应作为条件的告警信息及对应的各关联强度等级。

本发明实施例还提供了一种告警故障的关联分析设备,可以包括:

存储器,用于存储计算机程序;

处理器,用于执行计算机程序时实现如上任一项告警故障的关联分析方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项告警故障的关联分析方法的步骤。

需要说明的是,本发明实施例提供的一种告警故障的关联分析装置、设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的一种告警故障的关联分析方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1