一种基于云平台报警事故根因最佳路径确定方法及系统与流程

文档序号:25310322发布日期:2021-06-04 15:31阅读:118来源:国知局
一种基于云平台报警事故根因最佳路径确定方法及系统与流程

1.本发明属于互联网监控技术领域,特别涉及一种基于云平台报警事故根因最佳路径确定方法及系统。


背景技术:

2.近年来,随着互联网技术的迅猛发展,网络服务系统的规模和内部模块间的复杂度不断增加,由此导致对于服务故障的诊断难度也在不断增加。对云计算下庞大且复杂的网络环境,在避免影响客户使用的前提下,应用服现故障时的及时发现变得尤为重要。因此就需要在服务发生故障后找到一条最佳的故障路径,根据该最佳故障路径可以提高故障排出的效率,提升用户体验。
3.相关技术提供的方法在发现问题后通过人工逐一进行查找,即不会确定最佳的故障路径。
4.但是这种排障过程相对复杂,耗费较多的人力成本和时间成本,并且部分故障诊断过程耗时过长,很难及时、有效的进行故障诊断并止损。


技术实现要素:

5.为了解决上述技术问题,本发明提供了一种基于云平台报警事故根因最佳路径确定方法及系统。
6.本发明具体技术方案如下:
7.一种基于云平台报警事故根因最佳路径确定方法,方法包括:
8.获取发生报警事故模块的相关报警信息,相关报警信息包括报警事故发生的时间点;
9.根据报警事故发生的时间点获取位于时间点之前预设时间内所有报警事故模块发生报警事件的信息;
10.分析位于时间点之前预设时间内所有报警事故模块发生报警事件的信息,得到关联报警事故模块信息;
11.根据关联报警事故模块信息得到关联报警事故模块与本次报警事故模块的关联离散度;
12.根据关联离散度确定报警事故根因最佳路径。
13.在一种可选地实施例中,根据关联报警事故模块信息得到关联报警事故模块与本次报警事故模块的关联离散度,包括:
14.获取每个关联报警事故模块与本次报警事故模块的相关度;
15.根据相关度得到每个报警关联事故模块与本次报警事故模块的相关系数;
16.根据相关系数得到关联报警事故模块与本次报警事故模块的关联离散度。
17.在一种可选地实施例中,根据相关系数得到关联报警事故模块与本次报警事故模块的关联离散度,包括:
18.关联报警事故模块的相关系数与本次报警事故模块的相关系数差值绝对值为本次报警事故模块的关联离散度。
19.在一种可选地实施例中,根据相关度得到每个报警关联事故模块与本次报警事故模块的相关系数,包括:
20.获取每个报警关联事故模块在预设时间内被调用的频率;
21.根据每个报警关联事故模块在预设时间内被调用的频率得到每个关联报警事故模块在预设时间内被调用的均方差系数,将均方差系数作为每个关联报警事故模块与本次报警事故模块的相关系数。
22.在一种可选地实施例中,获取每个关联报警事故模块与本次报警事故模块的相关度,包括:
23.获取每个关联报警事故模块与本次报警事故模块对预设项目的变化状态;
24.获取每个关联报警事故模块与本次报警事故模块的时间序列;
25.根据每个关联报警事故模块与本次报警事故模块对预设项目的变化状态与每个关联报警事故模块与本次报警事故模块的时间序列得到每个关联报警事故模块与本次报警事故模块的相关度。
26.在一种可选地实施例中,分析位于时间点之前预设时间内所有报警事故模块发生报警事件的信息,得到关联报警事故模块信息,包括:
27.获取位于时间序列之前预设时间内所有报警事故模块的报警日志、报警事故模块以及报警事故模块的访问量;
28.将报警日志、报警事故模块以及报警事故模块的访问量与本次报警事故模块有关联的报警事故模块信息进行汇集,得到关联报警事故模块信息。
29.在一种可选地实施例中,根据关联离散度确定报警事故根因最佳路径,包括:
30.以本次报警事故模块为中心点,获取第一层在第一预设相关度以及第一预设相关系数范围之内的关联报警事故模块;
31.以本次报警事故模块为中心点,在上一层获取的关联报警事故模块中获取在第二预设相关度以及目标预设相关系数范围之内的关联报警事故模块,第一预设相关度大于第二预设相关度;
32.根据在目标相关系数范围之内的关联报警事故模块的关联离散度确定报警事故根因最佳路径。
33.在一种可选地实施例中,根据关联离散度确定报警事故根因最佳路径之后,方法还包括:
34.按照报警事故根因最佳路径查找报警根因,根据报警根因作出处理动作。
35.还一方面,提供了一种基于云平台报警事故根因最佳路径确定系统,系统包括:存储器、处理器以及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述任一的方法。
36.再一方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一的方法。
37.本发明的有益效果如下:
38.本申请实施例提供的方法一方面基于采用时间区分,即只对位于本次报警事故时
间点之前的报警事故模块进行分析,减少了对位于时间点之后的报警事故模块进行分析的时间,提高了分析效率;通过获取关联离散度,通过关联离散度对对报警模块进行分析,提高了故障路径确定的效率。
附图说明
39.图1为本申请实施例提供的基于云平台报警事故根因最佳路径确定方法流程示意图;
40.图2为本申请实施例提供的一产品服务发生故障报警的时间示意图;
41.图3为本申请实施例提供的s105的简单示意图。
具体实施方式
42.下面结合附图和以下实施例对本发明作进一步详细说明。
43.目前市场上基于云平台报警事故根因的路径确定算法相对单一,接口之间的报警事件的关联离散程度没有进行动态分析及追踪,影响模块报警关联关系的分析结果,导致事故根因定位有偏差。鉴于此,本申请实施例提供了一种基于云平台报警事故根因最佳路径确定方法和系统,旨在解决上述技术问题。
44.一方面,本申请实施例提供了一种基于云平台报警事故根因最佳路径确定方法,请参见图1,图1为本申请实施例提供的基于云平台报警事故根因最佳路径确定方法流程示意图。该方法包括:
45.s101、获取发生报警事故模块的相关报警信息,相关报警信息包括报警事故发生的时间点。
46.s102、根据报警事故发生的时间点获取位于时间点之前预设时间内所有报警事故模块发生报警事件的信息。
47.s103、分析位于时间点之前预设时间内所有报警事故模块发生报警事件的信息,得到关联报警事故模块信息。
48.s104、根据关联报警事故模块信息得到关联报警事故模块与本次报警事故模块的关联离散度。
49.s105、根据关联离散度确定报警事故根因最佳路径。
50.本申请实施例提供的方法,通过获取发生报警事故模块的相关报警信息,其中相关报警信息包括报警事故发生的时间点;通过前置因果关系可以获取位于时间点之前预设时间内所有报警事故模块发生报警事件的信息,以将该所有报警事故模块的信息与本报警事故模块进行比对;分析位于时间点之前预设时间内所有报警事故模块发生报警事件的信息,将与本次报警事故模块关联的报警模块进行标记,得到关联报警事故模块信息;根据关联报警事故模块信息得到关联报警事故模块与本次报警事故模块的关联离散度;根据关联离散度确定报警事故根因最佳路径。本申请实施例提供的方法基于采用时间区分,即只对位于本次报警事故时间点之前的报警事故模块进行分析,减少了对位于时间点之后的报警事故模块进行分析的时间,提高了分析效率;通过获取关联离散度,通过关联离散度对对报警模块进行分析,提高了故障路径确定的效率。
51.以下通过可选地实施例对本申请提供的方法进行进一步解释和说明。
52.s101、获取发生报警事故模块的相关报警信息,相关报警信息包括报警事故发生的时间点。
53.需要说明的是,由于导致服务发生报警的不但包括与该服务有关联的接口的报警,还包括与该服务有关联的主机的报警。本申请实施例所指的报警事故模块包括接口模块和主机模块。
54.也就是说每一个报警事件的发生与一些已经发生报警事故的模块都有一定的关联关系,即每个发生报警事故的模块都有可能导致本次报警。作为一种示例,模块a不能正常访问,通过分析报警模块对事故模块报警和报警模块报警数据的分析,同时比对各报警事故模块关联关系库,可以得到是哪一个模块导致了a不能正常访问。
55.发生报警事故模块的相关报警信息有很多种,例如报警发生的时间点,报警服务的内容等。本申请实施例通过获取报警的时间点,可以根据前置因果关系对发生在该时间点之前的报警事故模块的信息进行查看,而不需要对所有发生报警事故模块的信息进行查看,提高了故障查询的效率。
56.s102、根据报警事故发生的时间点获取位于时间点之前预设时间内所有报警事故模块发生报警事件的信息。
57.可以理解的是,服务进程运行时会有很多的接口或主机发生故障,而针对该特定的报警故障,只需要对可以导致其报警的前置报警故障模块信息进行检查即可。
58.作为一种示例,可以参见图2,图2为本申请实施例提供的一产品服务发生故障报警的时间示意图,该产品服务报警的时间为9.25,则对在9:05~9:25之间所有报警模块的信息进行分析,即20分钟之内所有接口的报警事件及服务请求数据信息。可以看出,图2中每个时间点对应很对的报警事故,本申请实施例只对位于该预设时间内的报警事故事件进行分析,位于该预设时间之外的报警事故事件则不予处理。
59.需要说明的是,本申请实施例获取的位于时间点之前预设时间内所有报警事故模块发生报警事件的信息包括该报警事故模块的日志、技术资源、访问量等内容。
60.s103、分析位于时间点之前预设时间内所有报警事故模块发生报警事件的信息,得到关联报警事故模块信息。
61.可以理解的是,在该预设时间内,会有很多报警事故模块发生报警事件,但是如果与本次报警事故模块的报警没有关联,则不会对本次报警事故造成影响。因此通过对位于该时间点之前预设时间内所有报警事故模块发生报警事件的信息进行分析,剔除与本次报警事故模块没有关联的报警事故模块,得到与本次报警事故模块有关联的关联报警事故模块信息。
62.在一种可选地实施例中,s103包括s1031~s1032。
63.s1031、获取位于时间点之前预设时间内所有报警事故模块的报警日志、报警事故模块以及报警事故模块的访问量。
64.关联报警事故模块信息可以包括位于时间点之前预设时间内所有报警事故模块的报警日志、报警事故模块以及报警事故模块的访问量,该关联的报警事故模块的身份信息,发生故障的报警时间,与本次报警事故模块之间的连接关系,该连接关系包括直接连接关系和间接连接关系。
65.s1032、将报警日志、报警事故模块以及报警事故模块的访问量与本次报警事故模
块有关联的报警事故模块信息进行汇集,得到关联报警事故模块信息。
66.s104、根据关联报警事故模块信息得到关联报警事故模块与本次报警事故模块的关联离散度。
67.在一种可选地实施例中,s104包括s1041~s1043。
68.s1041、获取每个关联报警事故模块与本次报警事故模块的相关度。
69.可以理解的是,只有当每个关联报警事故模块与本次报警事故模块具有相关性时才有可能导致该本次报警事故模块报警。
70.在一种可选地实施例中,s1041包括:
71.获取每个关联报警事故模块与本次报警事故模块对预设项目的变化状态。
72.预设项目可以包括报警事故模块的负载、cpu占用率等。作为一种示例,报警事故模块a发生故障报警时,a的负载升高,b的负载也相应的升高,则可以说明警事故模块a与b之间是有相关性的,即a负载的升高或降低会影响b负载的升高或降低,或者说b的负载升高或降低会影响a负载的升高或降低。
73.获取每个关联报警事故模块与本次报警事故模块的时间序列。
74.可以理解的是,当一个报警事故模块出现故障后会在很短的时间内引起与其相关联的报警故障模块的报警,即在时间上具有快速性和时效性。也就是说距离本次报警故障模块报警时间点越近的报警故障模块有可能是导致本次报警的原因。因此通过获取每个关联报警事故模块与本次报警事故模块的时间序列,通过时间序列可以得到每个关联报警模块的报警时间,与本次报警事故模块报警时间越接近,说明与本次报警故障模拟的相关度越大。
75.根据每个关联报警事故模块与本次报警事故模块对预设项目的变化状态与每个关联报警事故模块与本次报警事故模块的时间序列得到每个关联报警事故模块与本次报警事故模块的相关度。
76.s1042、根据相关度得到每个报警关联事故模块与本次报警事故模块的相关系数。
77.在一种可选地实施例中,s1042包括:
78.获取每个报警关联事故模块在预设时间内被调用的频率。
79.可以理解的是,报警关联事故模块在预设时间内被调用的频率越大,说明该报警关联事故模块的访问量越大,则导致本次报警事故模块发生报警的概率越大。
80.本申请实施例通过获取每个报警关联事故模块在预设时间内被调用的频率,根据每个报警关联事故模块在预设时间内被调用的频率得到每个关联报警事故模块在预设时间内被调用的均方差系数,将均方差系数作为每个关联报警事故模块与本次报警事故模块的相关系数。
81.s1043、根据相关系数得到关联报警事故模块与本次报警事故模块的关联离散度。
82.在一种可选地实施例中,s1043包括:关联报警事故模块的相关系数与本次报警事故模块的相关系数差值绝对值为本次报警事故模块的关联离散度。
83.作为一种示例,报警事故模块a发生报警,报警事故模块b和c均为关联报警事故模块。通过抽样方法获取三个报警事故模块在预设时间内被调用的频率,示例的,该预设时间可以为9.10~9.25分,在下方的标记为10~25,即15分钟的间隔时间内。报警事故模块a、报警事故模块b和c的相关系数分别记为αa=chg[a,10~25]、αc=chg[c,10~25]、αb=chg
[b,10~25]。以报警事故模块a为例进行说明,其中chg为相关系数,中括号内的a代表报警事故模块a,10

25代表时间为9.10~9.25分,即15分钟的间隔时间内,报警事故模块b和c公式代表的含义与a的相同,此处不再一一赘述。通过求取上述报警事故模块a、报警事故模块b和c的均方差,分别记为均方差stdevp[αa]=2.4,stdevp[αb]=2.6,stdevp[αc]=3.4,则报警事故模块b到报警事故模块a的离散度为q[a,b]=stdevp[αb]

stdevp[αa]=0.2,报警事故模块c到报警事故模块a的离散度为q[a,c]=stdevp[αc]

stdevp[αa]=1.4。即上述实施例中关联报警事故模块的相关系数与本次报警事故模块的相关系数差值绝对值为本次报警事故模块的关联离散度。
[0084]
s105、根据关联离散度确定报警事故根因最佳路径。
[0085]
在一种可选地实施例中,s105包括s1051~s1053。
[0086]
请参见图3,图3为本申请实施例提供的s105的简单流程示意图。
[0087]
s1051、以本次报警事故模块为中心点,获取第一层在第一预设相关度以及第一预设相关系数范围之内的关联报警事故模块。
[0088]
需要说明的是,从图3中可以看出,与报警事故模块a相关联的报警事故模块有很多,如果每次都件过每条相关报警事故模块从头分析到尾,则会增加分析时间,降低分析效率。因此本申请实施例通过获取第一层在第一预设相关度以及在第一预设相关系数范围之内的关联报警事故模块,将第一层中位于第一预设相关度范围之外的关联报警事故模块剔除,只对位于第一预设相关度范围之内的关联报警事故进行再次分析。如此,减少了路径分析的工作量,提高了路径分析的效率。需要说明的是,位于每一层中的关联报警事故模块均与被测报警事故模块之间具有不同的相关度,通过上述对第一层中的第一预设相关度以内的报警事故模块进行分析,可以剔除与本报警事故模块关联度不大的报警事故模块。
[0089]
s1052、以本次报警事故模块为中心点,在上一层获取的关联报警事故模块中获取在第二预设相关度以及目标预设相关系数范围之内的关联报警事故模块,第一预设相关度大于第二预设相关度。
[0090]
可以理解的是,本申请实施例提供的根据关联离散度确定报警事故根因最佳路径可能不能通过一次的路径分析就找到最佳路径,此时需要对第一层符合条件,即位于第一预设相关度之内的关联报警事故进行再次分析,如此重复,直到关联报警事故模块在目标相关系数之内,则说明该条路径为本申请实施例所确定的最佳路径。
[0091]
s1053、根据在目标相关系数范围之内的关联报警事故模块的关联离散度确定报警事故根因最佳路径。
[0092]
作为一种示例,与报警事故模块a关联的模块有报警事故模块b和报警事故模块c,与报警事故模块b和报警事故模块c的模块分别为报警事故模块d和报警事故模块e,报警事故模块d和报警事故模块b的关联离散度为2,报警事故模块c和报警事故模块e的关联离散度为1,则到达报警事故模块a有两条关键路径:d

>b

>a关联离散度为4,e

>c

>a关联离散度为2,则a

>c

>e为最优路径,也就是报警的关联离散度偏低,从而确定问题的根因,导致事故a的根因为e模块。
[0093]
在一种可选地实施例中,根据关联离散度确定报警事故根因最佳路径之后,方法还包括:
[0094]
按照报警事故根因最佳路径查找报警根因,根据报警根因作出处理动作。
[0095]
另一方面,还提供了一种基于云平台报警事故根因最佳路径确定系统,系统包括:存储器、处理器以及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述任一的方法。
[0096]
在一种可选地实施例中,本申请实施例提供的基于云平台报警事故根因最佳路径确定系统还包括:
[0097]
事件分析模块,用于统计分析报警事故发生时,按照时间序列分析报警事故模块前一段时间内所有模块的报警事件,将这段时间内发生过报警模块的名称、报警事故模块的内容及报警事故数据信息存储到数据库中。
[0098]
统计标签模块,通过对报警事故事件分析模块,将分析结果与报警事故模块的关联关系数据库表做比对分析,将报警事故模块与事故模块建立报警关联离散度的标签,用于确定各个模块到报警事故模块的报警关联关系的关联离散度。
[0099]
最优路径模块,用于计算各个报警事故模块到本次报警事故模块的关键路径,并从关键路径中选出一条最短的路径作为最优路径,从而确定该报警事故模块与本次报警事故模块有最高的关联关系,即为事故的最佳路径根因。
[0100]
还一方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如上任一的服务故障监控方法。
[0101]
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1