批量告警汇聚定位排除分析的方法及装置与流程

文档序号:18985480发布日期:2019-10-29 04:20阅读:277来源:国知局
批量告警汇聚定位排除分析的方法及装置与流程

本申请涉及计算机技术领域,具体而言,涉及一种批量告警汇聚定位排除分析的方法及装置。



背景技术:

服务器在运行的过程中,经常会出现各种的故障,通常这些故障会以告警的形式发送给运维人员,使运维人员及时对服务器故障进行排除。

告警的形式通常为服务器死机告警、服务器ping告警、进程down告警、磁盘写满告警、cpu使用率过高、流量异常告警、交换机异常告警、机柜掉电告警等等。告警的时间比较分散,而且每条告警都是一条孤立的消息,之间没有关联性。当在机柜掉电、交换机故障等共性问题影响一批服务器时,在短时间内就会产生大量告警,如服务器死机告警、进程down告警、服务器ping告警、单机流量告警等等,这时,运维人员面对持续大批量的告警,无法对故障进行快速的定位,影响故障分析的效率。



技术实现要素:

本申请的主要目的在于提供一种批量告警汇聚定位排除分析的方法及装置,以解决如何在大批量告警发生时,对故障进行快速的定位分析的问题。

为了实现上述目的,根据本申请的第一方面,提供了一种批量告警汇聚定位排除分析的方法。

根据本申请的批量告警汇聚定位排除分析的方法包括:

获取预设时段内的告警列表,所述告警列表中至少包括告警时间、ip地址;

根据所述ip地址查找与ip地址对应的交换机和机柜;

分别以查找到的交换机的编号和机柜的编号为关键字,对所述ip地址进行归类,得到新的告警列表,所述新的告警列表中包括交换机的编号、机柜的编号、ip地址;

根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警,所述预设批量告警汇聚定位排除分析算法为依据所述机柜与所述交换机上所有服务器的ip地址的数量以及对应的新的告警列表中的ip地址的数量之间的关系判断是否触发告警。

进一步的,所述根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警,包括:

分别获取所述交换机与所述机柜上所有服务器的ip地址的数量;

分别统计新的告警列表中,与所述交换机和所述机柜对应的ip地址的数量;

根据同一交换机或者同一机柜对应的所有服务器的ip地址的数量与新的告警列表中的ip地址的数量之间的比值关系判断是否触发共性告警。

进一步的,所述根据同一交换机或者同一机柜对应的所有服务器的ip地址的数量与新的告警列表中的ip地址的数量之间的比值关系判断是否触发共性告警包括:

计算每一个交换机或者每一个机柜对应的新的告警列表中的数量与对应的所有服务器的ip地址的数量之间的比值;

将每一个比值与预设比值进行比较;

根据比较结果判断是否触发共性告警。

进一步的,根据比较结果判断是否触发共性告警包括:

若每一个比值都小于预设比值,则不触发共性告警;

若不是每一个比值都小于预设比值,则触发共性告警。

进一步的,所述方法还包括:

若触发共性告警,则生成共性告警结论输出。

进一步的,在获取预设时段内的告警列表之前,所述方法还包括:

获取预设时段内的告警数量;

根据预设时段内的告警数量判断是否执行获取预设时段内的告警列表。

为了实现上述目的,根据本申请的第二方面,提供了一种批量告警汇聚定位排除分析的装置。

根据本申请的批量告警汇聚定位排除分析的装置包括:

第一获取单元,用于获取预设时段内的告警列表,所述告警列表中至少包括告警时间、ip地址;

查找单元,用于根据所述ip地址查找与ip地址对应的交换机和机柜;

归类单元,用于分别以查找到的交换机的编号和机柜的编号为关键字,对所述ip地址进行归类,得到新的告警列表,所述新的告警列表中包括交换机的编号、机柜的编号、ip地址;

第一判断单元,用于根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警,所述预设批量告警汇聚定位排除分析算法为依据所述机柜与所述交换机上所有服务器的ip地址的数量以及对应的新的告警列表中的ip地址的数量之间的关系判断是否触发告警。

进一步的,所述第一判断单元包括:

获取模块,用于分别获取所述交换机与所述机柜上所有服务器的ip地址的数量;

统计模块,用于分别统计新的告警列表中,与所述交换机和所述机柜对应的ip地址的数量;

判断模块,用于根据同一交换机或者同一机柜对应的所有服务器的ip地址的数量与新的告警列表中的ip地址的数量之间的比值关系判断是否触发共性告警。

进一步的,所述判断模块,用于:

计算每一个交换机或者每一个机柜对应的新的告警列表中的数量与对应的所有服务器的ip地址的数量之间的比值;

将每一个比值与预设比值进行比较;

根据比较结果判断是否触发共性告警。

进一步的,所述判断模块还用于:

若每一个比值都小于预设比值,则不触发共性告警;

若不是每一个比值都小于预设比值,则触发共性告警。

进一步的,所述装置还包括:

生成单元,用于若触发共性告警,则生成共性告警结论输出。

进一步的,所述装置还包括:

第二获取单元,用于在获取预设时段内的告警列表之前,获取预设时段内的告警数量;

第二判断单元,用于根据预设时段内的告警数量判断是否执行获取预设时段内的告警列表。

为了实现上述目的,根据本申请的第三方面,提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述第一方面中任一项所述的批量告警汇聚定位排除分析的方法。

在本申请实施例中,批量告警汇聚定位排除分析的方法及装置能够首先获取预设时段内的告警列表,告警列表中至少包括告警时间、ip地址;然后根据ip地址查找与ip地址对应的交换机和机柜;再分别以查找到的交换机的编号和机柜的编号为关键字,对ip地址进行归类,得到新的告警列表,新的告警列表中包括交换机的编号、机柜的编号、ip地址;最后根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警,预设批量告警汇聚定位排除分析算法为依据机柜与交换机上所有服务器的ip地址的数量以及对应的新的告警列表中的ip地址的数量之间的关系判断是否触发共性告警。可以看出,本申请中,将所有的发生告警的ip地址根据对应的交换机以及机柜进行重新的归类,并根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警。这样就可以将存在大量的共性告警进行定位,进而提高故障定位分析的效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例提供的一种批量告警汇聚定位排除分析的方法流程图;

图2是根据本申请实施例提供的另一种批量告警汇聚定位排除分析的方法流程图;

图3是根据本申请实施例提供的一种批量告警汇聚定位排除分析的装置的组成框图;

图4是根据本申请实施例提供的另一种批量告警汇聚定位排除分析的装置的组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本申请实施例,提供了一种批量告警汇聚定位排除分析的方法,如图1所示,该方法包括如下的步骤:

s101.获取预设时段内的告警列表。

告警列表中至少包括告警时间、ip地址以及告警信息。ip地址为服务器的ip地址,预设时段通常选择几分钟,比如5分钟、10分钟等,本实施例中对预设时段的时长不做限制。告警列表的形式如下表1所示。

表1告警列表

s102.根据ip地址查找与ip地址对应的交换机和机柜。

本实施例中,服务器接在交换机或者机柜上,每个交换机以及机柜上的连接的所有的服务器都会有对应的记录,因此,能够根据服务器的ip地址找到对应的交换机和机柜。

s103.分别以查找到的交换机的编号和机柜的编号为关键字,对ip地址进行归类,得到新的告警列表。

在实际应用中,为了查找记录的方便,通常每一个交换机和机柜都设置有对应的编号,比如c_9f_1_1_4、s_9f_1_1_1等。将告警列表中的ip地址根据交换机和机柜的编号进行分类。根据分类结果得到的新的告警列表,新的告警列表中包括交换机的编号、机柜的编号、ip地址。对应于前述表1中的告警列表,给出对应的新的告警列表,如表2所示。

表2新的告警列表

s104.根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警。

共性告警是在某一个柜机或者某一个交换机上的大多数服务器存在由共性的问题产生的大量的告警的情况下生成的。共性告警是否触发,需要根据预设批量告警汇聚定位排除分析算法来判断确定。具体的预设批量告警汇聚定位排除分析算法的原理为:依据机柜与交换机上所有服务器的ip地址的数量以及对应的新的告警列表中的ip地址的数量之间的关系(比例关系)判断是否触发告警。需要说明的是,机柜或者交换机上所有服务器的ip地址的数量是机柜或者交换机实际接入的服务器的对应的ip地址的数量(也是服务器的数量)。前述“根据关系(比例关系)判断是否触发告警”即将实际的比例关系与预设的比例值进行比对,根据比对的结果判断是否触发告警。

从以上的描述中,可以看出,本申请实施例中批量告警汇聚定位排除分析的方法能够首先获取预设时段内的告警列表,告警列表中至少包括告警时间、ip地址;然后根据ip地址查找与ip地址对应的交换机和机柜;再分别以查找到的交换机的编号和机柜的编号为关键字,对ip地址进行归类,得到新的告警列表,新的告警列表中包括交换机的编号、机柜的编号、ip地址;最后根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警,预设批量告警汇聚定位排除分析算法为依据机柜与交换机上所有服务器的ip地址的数量以及对应的新的告警列表中的ip地址的数量之间的关系判断是否触发共性告警。可以看出,本申请中,将所有的发生告警的ip地址根据对应的交换机以及机柜进行重新的归类,并根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警。这样就可以将存在大量的共性告警进行定位,进而提高故障定位分析的效率。

作为上述实施例的补充和细化,本申请实施例提供了另一种批量告警汇聚定位排除分析的方法,如图2所示,该方法包括:

s201.获取预设时段内的告警数量,并根据预设时段内的告警数量判断是否执行获取预设时段内的告警列表。

本实施例是针对大批量的告警出现的情况进行共性告警,因此在进行共性告警之前,首先需要确定是否满足大批量告警出现的条件,如果满足大批量告警出现的条件则执行共性告警的第一步“获取预设时段内的告警列表”。具体的确定方式为:第一种,获取预设时段内的告警数量,判断告警数量是否超过预设的数量值,若超过则确定满足大批量告警出现的条件;第二种,根据告警数量的增长比例确定,具体的实现方式为:分别获取预设时段内的告警数量以及预设时段之前的,与预设时段相邻的相同时长内的历史告警数量,根据历史告警数量以及预设时段内的告警数量计算告警数量增长率,根据增长率的大小确定是否满足大量告警出现的条件。增长率越大满足大批量告警出现的条件的概率越高。

s202.获取预设时段内的告警列表,告警列表中至少包括告警时间、ip地址。

对于步骤s201的判断结果,若满足大批量告警出现的条件,则执行本步骤。本步骤的实现方式与图1步骤s101的实现方式相同,此处不再赘述。

s203.根据ip地址查找与ip地址对应的交换机和机柜。

本步骤的实现方式与图1中步骤102的实现方式相同,此处不再赘述。

s204.分别以查找到的交换机的编号和机柜的编号为关键字,对ip地址进行归类,得到新的告警列表。

本步骤的实现方式与图1步骤s103的实现方式相同,此处不再赘述。

s205.分别获取交换机与机柜上所有服务器的ip地址的数量。

每个交换机以及机柜上实际接入的所有的服务器都会有对应的记录,根据记录可以确定步骤s203中查找到的每个机柜和交换机对应的所有服务器的数量,即得到交换机与机柜上所有服务器的ip地址的数量。

s206.分别统计新的告警列表中,与交换机和机柜对应的ip地址的数量。

对应于图1实施例中的告警列表和新的告警列表的示例,对本步骤进行说明:图1对应的新的告警列表中包含了5个机柜以及2个交换机,统计得到交换机与机柜对应的ip地址的数量分别为如下所示。

机柜c_9f_1_1_412个;交换机s_9f_1_1_120个;

机柜c_9f_1_1_511个;交换机s_9f_1_1_222个;

机柜c_9f_1_1_610个;

机柜c_9f_1_1_711个;

机柜c_9f_1_1_810个。

s207.根据同一交换机或者同一机柜对应的所有服务器的ip地址的数量与新的告警列表中的ip地址的数量之间的比值关系判断是否触发共性告警。

具体的本步骤的实现过程包括:

1)计算每一个交换机或者每一个机柜对应的新的告警列表中的ip地址的数量与对应的所有服务器的ip地址的数量之间的比值;2)将每一个比值与预设比值进行比较;3)根据比较结果判断是否触发共性告警:若每一个比值都小于预设比值,则不触发共性告警;若不是每一个比值都小于预设比值,则触发共性告警。

结合图1实施例中的示例,对本步骤进行解释说明:

首先,计算每一个比值:

(1)、机柜c_9f_1_1_4对应的新的告警列表中ip地址数量:8个;此机柜上所有的ip地址数量:12个,比值:8/12=75%;

(2)、机柜c_9f_1_1_5对应的新的告警列表中ip地址数量:4个;此机柜上所有的ip地址数量:11个,比值:4/11=33%;

(3)、机柜c_9f_1_1_6对应的新的告警列表中ip地址数量:4个;此机柜上所有的ip地址数量:10个,比值:4/10=40%;

(4)、机柜c_9f_1_1_7对应的新的告警列表中ip地址数量:3个;此机柜上所有的ip地址数量:11个,比值:3/11=23%;

(5)、机柜c_9f_1_1_8对应的新的告警列表中ip地址数量:4个;此机柜上所有的ip地址数量:10个,比值:4/10=40%;

(6)、交换机s_9f_1_1_1对应的新的告警列表中ip地址数量:8个;此交换机上所有的ip地址数量:20个,比值:8/20=40%;

(7)、交换机s_9f_1_1_2对应的新的告警列表中ip地址数量:15个;此交换机上所有的ip地址数量:22个,比值:15/22=68%;

其次,将每一个比值与预设比值进行比较;

假设预设比值为50%,比较结果为机柜c_9f_1_1_4和交换机s_9f_1_1_2对应的比值大于50%,剩余的比值都小于50%。

最后,根据比较结果判断是否触发共性告警。

由于存在比值大于50%的情况,所以会触发共性告警。

需要说明的是,触发共性告警,说明因机柜电力异常、或交换机异常导致的共性问题非常的大。

s208.若触发共性告警,则生成共性告警结论输出。

生成告警结论是为了及时将共性告警以结论的形式通知运维人员和机房进行快速问题确认。结合上述示例,给出一种共性告警结论的形式,如下:

(1)、机柜c_9f_1_1_4上12台中有8台出现了异常告警,请及时联系机房定位确认;

(2)、交换机s_9f_1_1_2下22台中有15台出现了异常告警,请及时联系机房确认。

本实施例中在处理大规模批量告警时的优点是:从海量可能产生问题的原因中,通过排除法分析是否有共性问题,如是共性问题,就能极大的减少了问题定位的时间以及问题根源分析的范围。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例,还提供了一种用于实施上述图1和图2所述方法的批量告警汇聚定位排除分析的装置,如图3所示,该装置包括:

第一获取单元31,用于获取预设时段内的告警列表,所述告警列表中至少包括告警时间、ip地址;

查找单元32,用于根据所述ip地址查找与ip地址对应的交换机和机柜;

归类单元33,用于分别以查找到的交换机的编号和机柜的编号为关键字,对所述ip地址进行归类,得到新的告警列表,所述新的告警列表中包括交换机的编号、机柜的编号、ip地址;

第一判断单元34,用于根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警,所述预设批量告警汇聚定位排除分析算法为依据所述机柜与所述交换机上所有服务器的ip地址的数量以及对应的新的告警列表中的ip地址的数量之间的关系判断是否触发告警。

从以上的描述中,可以看出,本申请实施例中批量告警汇聚定位排除分析的装置能够首先获取预设时段内的告警列表,告警列表中至少包括告警时间、ip地址;然后根据ip地址查找与ip地址对应的交换机和机柜;再分别以查找到的交换机的编号和机柜的编号为关键字,对ip地址进行归类,得到新的告警列表,新的告警列表中包括交换机的编号、机柜的编号、ip地址;最后根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警,预设批量告警汇聚定位排除分析算法为依据机柜与交换机上所有服务器的ip地址的数量以及对应的新的告警列表中的ip地址的数量之间的关系判断是否触发共性告警。可以看出,本申请中,将所有的发生告警的ip地址根据对应的交换机以及机柜进行重新的归类,并根据预设批量告警汇聚定位排除分析算法判断是否触发共性告警。这样就可以将存在大量的共性告警进行定位,进而提高故障定位分析的效率。

进一步的,如图4所示,所述第一判断单元31包括:

获取模块311,用于分别获取所述交换机与所述机柜上所有服务器的ip地址的数量;

统计模块312,用于分别统计新的告警列表中,与所述交换机和所述机柜对应的ip地址的数量;

判断模块313,用于根据同一交换机或者同一机柜对应的所有服务器的ip地址的数量与新的告警列表中的ip地址的数量之间的比值关系判断是否触发共性告警。

进一步的,如图4所示,所述判断模块313,用于:

计算每一个交换机或者每一个机柜对应的新的告警列表中的数量与对应的所有服务器的ip地址的数量之间的比值;

将每一个比值与预设比值进行比较;

根据比较结果判断是否触发共性告警。

进一步的,如图4所示,所述判断模块313还用于:

若每一个比值都小于预设比值,则不触发共性告警;

若不是每一个比值都小于预设比值,则触发共性告警。

进一步的,如图4所示,所述装置还包括:

生成单元35,用于若触发共性告警,则生成共性告警结论输出。

进一步的,如图4所示,所述装置还包括:

第二获取单元36,用于在获取预设时段内的告警列表之前,获取预设时段内的告警数量;

第二判断单元37,用于根据预设时段内的告警数量判断是否执行获取预设时段内的告警列表。

具体的,本申请实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。

根据本申请实施例,还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行图1或图2所述的批量告警汇聚定位排除分析的方法。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1