系统异常原因确定方法、装置、设备及存储介质与流程

文档序号:25041960发布日期:2021-05-14 11:01阅读:107来源:国知局
系统异常原因确定方法、装置、设备及存储介质与流程

1.本申请涉及金融科技(fintech)的设备监控技术,尤其涉及一种系统异常原因确定方法、装置、设备及存储介质。


背景技术:

2.随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技转变,系统监控技术也不例外,但由于金融行业的安全性、实时性要求,也对系统监控技术提出更高的要求。
3.当前在金融行业中,分布式系统的应用越来越广泛。例如随着金融行业中数据的爆发式增长,传统存储系统由于磁盘空间不足、处理能力有限等已经不能满足当前数据存储的要求,分布式存储系统的应用在一定程度上解决了传统存储系统的存储瓶颈。现有系统监控方式主要是采用大数据分析技术或机器学习技术定位系统故障。
4.然而,大数据分析技术或机器学习技术均是在系统出现某个持续的故障,导致大量异常请求的场景下进行根因判断。对于只有少量或偶尔的请求失败,现有技术难以分析具体的异常原因。


技术实现要素:

5.为解决现有技术中存在的问题,本申请提供一种系统异常原因确定方法、装置、设备及存储介质。
6.第一方面,本申请实施例提供一种系统异常原因确定方法,所述方法包括:
7.获取待监控系统的实时运维指标数据;
8.根据所述待监控系统的历史运维指标数据,获得所述实时运维指标数据的实时异常权重值,其中,所述历史运维指标数据是在获取所述实时运维指标数据之前预设时间段内所述待监控系统的运维指标数据;
9.根据所述实时异常权重值,确定所述待监控系统的异常运维指标数据;
10.根据所述异常运维指标数据,确定所述待监控系统运行异常的原因。
11.在一种可能的实现方式中,所述根据所述待监控系统的历史运维指标数据,获得所述实时运维指标数据的实时异常权重值,包括:
12.根据所述历史运维指标数据和所述实时运维指标数据,确定所述待监控系统的异常权重波动值;
13.根据所述历史运维指标数据的历史异常权重值和所述异常权重波动值,获得所述实时异常权重值。
14.在一种可能的实现方式中,所述根据所述实时异常权重值,确定所述待监控系统的异常运维指标数据,包括:
15.根据所述实时异常权重值,确定所述实时运维指标数据的异常等级;
16.根据所述异常等级,从所述实时异常权重值中获取目标异常权重值;
17.根据所述目标异常权重值,确定所述异常运维指标数据。
18.在一种可能的实现方式中,所述异常等级包括第一等级、第二等级和第三等级,所述第一等级低于所述第二等级,所述第二等级低于所述第三等级。
19.所述根据所述实时异常权重值,确定所述实时运维指标数据的异常等级,包括:
20.若所述实时异常权重值大于或等于预设权重下限值,且所述实时异常权重值小于或等于预设权重上限值,则确定所述实时运维指标数据的异常等级为所述第一等级;
21.若所述实时异常权重值大于所述预设权重上限值,且所述实时异常权重值小于或等于所述预设权重上限值的预设倍值,则确定所述实时运维指标数据的异常等级为所述第二等级;
22.若所述实时异常权重值大于所述预设权重上限值的预设倍值,则确定所述实时运维指标数据的异常等级为所述第三等级。
23.在一种可能的实现方式中,所述根据所述异常等级,从所述实时异常权重值中获取目标异常权重值,包括:
24.根据所述第一等级、所述第二等级和所述第三等级,确定目标等级;
25.根据所述目标等级,从所述实时异常权重值中获取所述目标异常权重值。
26.在一种可能的实现方式中,在所述根据所述历史运维指标数据的历史异常权重值和所述异常权重波动值,获得所述实时异常权重值之前,还包括:
27.根据所述待监控系统的运行周期,对所述历史异常权重值进行修正;
28.所述根据所述历史运维指标数据的历史异常权重值和所述异常权重波动值,获得所述实时异常权重值,包括:
29.根据修正后的历史异常权重值和所述异常权重波动值,获得所述实时异常权重值。
30.在一种可能的实现方式中,所述运行周期包括灰度期、全量期、推广期、低峰期和平稳期。
31.所述根据所述待监控系统的运行周期,对所述历史异常权重值进行修正,包括:
32.若所述运行周期为所述灰度期,则根据预存的系统运行周期与权重调整规则的对应关系,确定所述灰度期对应的权重调整规则,并根据所述灰度期对应的权重调整规则,对所述历史异常权重值进行修正;
33.若所述运行周期为所述全量期,则根据所述对应关系,确定所述全量期对应的权重调整规则,并根据所述全量期对应的权重调整规则,对所述历史异常权重值进行修正;
34.若所述运行周期为所述推广期,则根据所述对应关系,确定所述推广期对应的权重调整规则,并根据所述推广期对应的权重调整规则,对所述历史异常权重值进行修正;
35.若所述运行周期为所述低峰期,则根据所述对应关系,确定所述低峰期对应的权重调整规则,并根据所述低峰期对应的权重调整规则,对所述历史异常权重值进行修正;
36.若所述运行周期为所述平稳期,则根据所述对应关系,确定所述平稳期对应的权重调整规则,并根据所述平稳期对应的权重调整规则,对所述历史异常权重值进行修正。
37.在一种可能的实现方式中,所述根据所述异常运维指标数据,确定所述待监控系统运行异常的原因,包括:
38.判断所述异常运维指标数据是否在预设关联区间;
39.若所述异常运维指标数据在所述预设关联区间,则根据所述异常运维指标数据,确定所述待监控系统运行异常的原因。
40.在一种可能的实现方式中,在所述判断所述异常运维指标数据是否在预设关联区间之前,还包括:
41.判断所述异常运维指标数据是否为存在上下限的运维指标数据;
42.若所述异常运维指标数据为所述存在上下限的运维指标数据,则根据第一算法和所述历史运维指标数据,确定所述预设关联区间,其中,所述第一算法包括3σ、指数加权移动平均值的控制图(exponentially weighted moving

average,ewma)或同环比;
43.若所述异常运维指标数据不为所述存在上下限的运维指标数据,则根据第二算法和所述历史运维指标数据,确定所述预设关联区间,其中,所述第二算法包括孤立森林或差分整合移动平均自回归(autoregressive integrated moving average,arima)。
44.在一种可能的实现方式中,所述根据所述实时异常权重值,确定所述待监控系统的异常运维指标数据,包括:
45.根据所述待监控系统的运行周期,确定所述待监控系统的核心运维指标数据;
46.从所述实时异常权重值中,获取所述核心运维指标数据的实时异常权重值;
47.根据所述核心运维指标数据的实时异常权重值,确定所述异常运维指标数据。
48.第二方面,本申请实施例提供一种系统异常原因确定装置,所述装置包括:
49.数据获取模块,用于获取待监控系统的实时运维指标数据;
50.权重值获得模块,用于根据所述待监控系统的历史运维指标数据,获得所述实时运维指标数据的实时异常权重值,其中,所述历史运维指标数据是在获取所述实时运维指标数据之前预设时间段内所述待监控系统的运维指标数据;
51.数据确定模块,用于根据所述实时异常权重值,确定所述待监控系统的异常运维指标数据;
52.原因确定模块,用于根据所述异常运维指标数据,确定所述待监控系统运行异常的原因。
53.在一种可能的实现方式中,所述权重值获得模块,具体用于:
54.根据所述历史运维指标数据和所述实时运维指标数据,确定所述待监控系统的异常权重波动值;
55.根据所述历史运维指标数据的历史异常权重值和所述异常权重波动值,获得所述实时异常权重值。
56.在一种可能的实现方式中,所述数据确定模块,具体用于:
57.根据所述实时异常权重值,确定所述实时运维指标数据的异常等级;
58.根据所述异常等级,从所述实时异常权重值中获取目标异常权重值;
59.根据所述目标异常权重值,确定所述异常运维指标数据。
60.在一种可能的实现方式中,所述异常等级包括第一等级、第二等级和第三等级,所述第一等级低于所述第二等级,所述第二等级低于所述第三等级。
61.所述数据确定模块,具体用于:
62.若所述实时异常权重值大于或等于预设权重下限值,且所述实时异常权重值小于或等于预设权重上限值,则确定所述实时运维指标数据的异常等级为所述第一等级;
63.若所述实时异常权重值大于所述预设权重上限值,且所述实时异常权重值小于或等于所述预设权重上限值的预设倍值,则确定所述实时运维指标数据的异常等级为所述第二等级;
64.若所述实时异常权重值大于所述预设权重上限值的预设倍值,则确定所述实时运维指标数据的异常等级为所述第三等级。
65.在一种可能的实现方式中,所述数据确定模块,具体用于:
66.根据所述第一等级、所述第二等级和所述第三等级,确定目标等级;
67.根据所述目标等级,从所述实时异常权重值中获取所述目标异常权重值。
68.在一种可能的实现方式中,所述权重值获得模块,还用于:
69.根据所述待监控系统的运行周期,对所述历史异常权重值进行修正;
70.所述权重值获得模块,具体用于:
71.根据修正后的历史异常权重值和所述异常权重波动值,获得所述实时异常权重值。
72.在一种可能的实现方式中,所述运行周期包括灰度期、全量期、推广期、低峰期和平稳期。
73.所述权重值获得模块,具体用于:
74.若所述运行周期为所述灰度期,则根据预存的系统运行周期与权重调整规则的对应关系,确定所述灰度期对应的权重调整规则,并根据所述灰度期对应的权重调整规则,对所述历史异常权重值进行修正;
75.若所述运行周期为所述全量期,则根据所述对应关系,确定所述全量期对应的权重调整规则,并根据所述全量期对应的权重调整规则,对所述历史异常权重值进行修正;
76.若所述运行周期为所述推广期,则根据所述对应关系,确定所述推广期对应的权重调整规则,并根据所述推广期对应的权重调整规则,对所述历史异常权重值进行修正;
77.若所述运行周期为所述低峰期,则根据所述对应关系,确定所述低峰期对应的权重调整规则,并根据所述低峰期对应的权重调整规则,对所述历史异常权重值进行修正;
78.若所述运行周期为所述平稳期,则根据所述对应关系,确定所述平稳期对应的权重调整规则,并根据所述平稳期对应的权重调整规则,对所述历史异常权重值进行修正。
79.在一种可能的实现方式中,所述原因确定模块,具体用于:
80.判断所述异常运维指标数据是否在预设关联区间;
81.若所述异常运维指标数据在所述预设关联区间,则根据所述异常运维指标数据,确定所述待监控系统运行异常的原因。
82.在一种可能的实现方式中,所述原因确定模块,还用于:
83.判断所述异常运维指标数据是否为存在上下限的运维指标数据;
84.若所述异常运维指标数据为所述存在上下限的运维指标数据,则根据第一算法和所述历史运维指标数据,确定所述预设关联区间,其中,所述第一算法包括3σ、ewma或同环比;
85.若所述异常运维指标数据不为所述存在上下限的运维指标数据,则根据第二算法和所述历史运维指标数据,确定所述预设关联区间,其中,所述第二算法包括孤立森林或arima。
86.在一种可能的实现方式中,所述数据确定模块,具体用于:
87.根据所述待监控系统的运行周期,确定所述待监控系统的核心运维指标数据;
88.从所述实时异常权重值中,获取所述核心运维指标数据的实时异常权重值;
89.根据所述核心运维指标数据的实时异常权重值,确定所述异常运维指标数据。
90.第三方面,本申请实施例提供一种系统异常原因确定设备,包括:
91.处理器;
92.存储器;以及
93.计算机程序;
94.其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如第一方面所述的方法的指令。
95.第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行第一方面所述的方法。
96.第五方面,本申请实施例提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行第一方面所述的方法。
97.本申请实施例提供的系统异常原因确定方法、装置、设备及存储介质,该方法通过获取待监控系统的实时运维指标数据,进而,根据上述待监控系统的历史运维指标数据,获得上述实时运维指标数据的实时异常权重值,并根据该实时异常权重值,确定上述待监控系统的异常运维指标数据,根据该异常运维指标数据,确定上述待监控系统运行异常的原因。其中,对于只有少量或偶尔的请求失败,本申请实施例通过系统的实时运维指标数据的实时异常权重值,能够分析确定具体的异常原因,从而,针对该异常原因确定相应的解决方案,解决系统出现异常的问题,进而,避免系统异常导致的系统大面积故障。而且,本申请实施例根据待监控系统的历史运维指标数据,获得系统实时运维指标数据的实时异常权重值,从而,使得获得的实时异常权重值与系统实时运维指标数据更相符,进而,根据该实时异常权重值,确定系统运行异常的原因,提高了确定的系统异常原因的准确性。
附图说明
98.为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
99.图1为本申请实施例提供的一种系统异常原因确定系统架构示意图;
100.图2为本申请实施例提供的一种系统异常原因确定方法的流程示意图;
101.图3为本申请实施例提供的另一种系统异常原因确定系统架构示意图;
102.图4为本申请实施例提供的另一种系统异常原因确定方法的流程示意图;
103.图5为本申请实施例提供的中央处理器(central processing unit,cpu)使用率可能导致的系统异常的概率的示意图;
104.图6为本申请实施例提供的交易量可能导致的系统异常的概率的示意图;
105.图7为本申请实施例提供的一种系统异常原因确定装置的结构示意图;
106.图8示出了本申请系统异常原因确定设备的一种可能的结构示意图。
具体实施方式
107.下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
108.本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
109.当前在金融行业中,分布式系统的应用越来越广泛。例如随着金融行业中数据的爆发式增长,传统存储系统由于磁盘空间不足、处理能力有限等已经不能满足当前数据存储的要求,分布式存储系统的应用在一定程度上解决了传统存储系统的存储瓶颈。现有系统异常原因确定方式主要是采用大数据分析技术或机器学习技术定位系统故障。
110.然而,大数据分析技术或机器学习技术均是在系统出现某个持续的故障,导致大量异常请求的场景下进行根因判断。对于只有少量或偶尔的请求失败,例如,在5分钟内,系统99.9%均正常工作,0.1%异常工作,从而使得少量或偶尔的请求失败。上述大数据分析技术或机器学习技术难以分析具体的异常原因,只能将其忽略不计。但是,在某些情况下,上述系统异常可能会导致系统大面积故障,出现大量异常请求。
111.因此,本申请实施例提出一种系统异常原因确定方法,对于只有少量或偶尔的请求失败,通过系统的实时运维指标数据的实时异常权重值,分析确定系统运行异常的原因,从而,针对该异常原因确定相应的解决方案,解决系统出现异常的问题,进而,避免系统异常导致的系统大面积故障。而且,本申请实施例根据系统的历史运维指标数据,获得上述系统实时运维指标数据的实时异常权重值,从而,使得获得的实时异常权重值与系统实时运维指标数据更相符,进而,根据该实时异常权重值,确定系统运行异常的原因,提高了确定的系统异常原因的准确性。
112.本申请实施例提供的系统异常原因确定方法可应用多种情景的系统异常原因确定中,示例性的,以分布式存储系统的系统异常原因确定为例。这里,分布式存储系统一般由负载均衡器(load balance,lb)、数据库(data base,db)、集群管理节点(cluster management node)与多个应用节点(application nodes,api)构成。其中,数据库用于存储业务数据,负载均衡器设置于多个应用节点的前端入口数,用于均匀分发访问请求,从而,使得各应用节点可以无差别的处理请求。
113.可选地,图1为本申请实施例提供的一种系统异常原因确定系统架构示意图。在图1中,以对上述分布式存储系统的系统异常原因确定为例,上述架构包括系统监控设备。
114.这里,上述分布式存储系统包括:负载均衡器、数据库、集群管理节点、第一应用节点与第二应用节点。其中,图1中的省略号表示该分布式存储系统中还可以具备其他一个或多个应用节点。
115.可以理解的是,本申请实施例示意的结构并不构成对系统异常原因确定架构的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
116.在具体实现过程中,系统监控设备对于只有少量或偶尔的请求失败,通过上述分布式存储系统的实时运维指标数据的实时异常权重值,分析确定上述分布式存储系统运行异常的原因,从而,针对该异常原因确定相应的解决方案,解决系统出现异常的问题,进而,避免系统异常导致的系统大面积故障。而且,系统监控设备根据上述分布式存储系统的历史运维指标数据,获得上述分布式存储系统的实时运维指标数据的实时异常权重值,从而,使得获得的实时异常权重值与上述分布式存储系统的实时运维指标数据更相符,进而,根据该实时异常权重值,确定上述分布式存储系统运行异常的原因,提高了确定的系统异常原因的准确性。
117.另外,本申请实施例描述的系统架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
118.下面以几个实施例为例对本申请的技术方案进行描述,对于相同或相似的概念或过程可能在某些实施例不再赘述。
119.图2为本申请实施例提供的一种系统异常原因确定方法的流程示意图,本申请实施例提供了一种系统异常原因确定方法,该方法可以应用于系统监控,且该方法可以由任意执行系统异常原因确定方法的装置来执行,该装置可以通过软件和/或硬件实现。如图2所示,在图1所示系统架构的基础上,本申请实施例提供的系统异常原因确定方法包括如下步骤:
120.s201:获取待监控系统的实时运维指标数据。
121.这里,上述待监控系统可以根据实际情况确定,例如上述图1中的分布式存储系统。
122.在本申请实施例中,以执行主体为上述图1中的系统监控设备为例,该系统监控设备获取上述待监控系统的实时运维指标数据。该运维指标数据可以包括业务数据、系统进程状态、基础资源和上下游系统等。
123.s202:根据上述待监控系统的历史运维指标数据,获得上述实时运维指标数据的实时异常权重值。
124.其中,上述历史运维指标数据是在获取上述实时运维指标数据之前预设时间段内上述待监控系统的运维指标数据。
125.这里,上述预设时间段可以根据实际情况确定,例如上述历史运维指标数据是在获取上述实时运维指标数据之前一周内上述待监控系统的运维指标数据,本申请实施例对此不做特别限制。
126.示例性的,上述系统监控设备可以根据上述历史运维指标数据和上述实时运维指标数据,确定上述待监控系统的异常权重波动值,进而,根据上述历史运维指标数据的历史异常权重值和上述异常权重波动值,获得上述实时异常权重值。
127.其中,上述历史运维指标数据的波动数值f可以基于历史运维指标数据,采用回归算法得到。上述系统监控设备可以采集实时运维指标数据的实时振幅u,即可得出此时系统的波动数值g,以g/f可以得到此时异常权重波动率u,进而基于该异常权重波动率u,确定异常权重波动值w,从而,根据上述历史运维指标数据的历史异常权重值和上述异常权重波动值w,获得上述实时运维指标数据的实时异常权重值。例如上述系统监控设备将上述历史异常权重值和上述异常权重波动值w相加,将两者相加之和作为上述实时运维指标数据的实时异常权重值。其中,上述系统监控设备在基于该异常权重波动率u,确定异常权重波动值w时,可以首先计算上述异常权重波动率u与1的差值的绝对值,然后计算该绝对值与上述系统的波动数值g的乘积,进而,根据该乘积确定上述异常权重波动值w,例如将上述乘积作为上述异常权重波动值w。
128.另外,上述历史异常权重值是在历史时刻,按照上述实时异常权重值的计算方式计算得到,具体计算过程参照上述实时异常权重值的计算过程,在此不再赘述。
129.s203:根据上述实时异常权重值,确定上述待监控系统的异常运维指标数据。
130.这里,上述系统监控设备可以根据上述实时异常权重值,确定上述实时运维指标数据的异常等级,进而,根据该异常等级,从上述实时异常权重值中获取目标异常权重值,根据该目标异常权重值,确定上述异常运维指标数据。
131.其中,上述异常等级包括第一等级、第二等级和第三等级,第一等级低于第二等级,第二等级低于第三等级。
132.上述系统监控设备可以将上述实时异常权重值与预设阈值进行比较,根据比较结果确定上述实时运维指标数据的异常等级。这里,上述预设阈值包括预设权重下限值、预设权重上限值和预设权重上限值的预设倍值等。该预设倍值可以根据实际情况确定,例如两倍、三倍等,本申请实施例对此不做特别限制。
133.示例性的,如果上述实时异常权重值大于或等于预设权重下限值,且上述实时异常权重值小于或等于预设权重上限值,例如预设权重下限值为a,预设权重上限值为b,a小于b,上述实时异常权重值在(a,b)范围内(包括边界值),则上述系统监控设备确定上述实时运维指标数据的异常等级为上述第一等级。
134.如果上述实时异常权重值大于上述预设权重上限值,且上述实时异常权重值小于或等于上述预设权重上限值的预设倍值,例如预设倍值为两倍,则上述系统监控设备确定上述实时运维指标数据的异常等级为上述第二等级。
135.如果上述实时异常权重值大于上述预设权重上限值的预设倍值,例如预设倍值为两倍,则上述系统监控设备确定上述实时运维指标数据的异常等级为上述第三等级。
136.这里,上述系统监控设备在确定上述实时运维指标数据的异常等级后,即确定上述第一等级、第二等级和第三等级后,可以根据上述第一等级、第二等级和第三等级,确定目标等级(即,通过比对确定目标等级是第一、第二还是第三等级),进而,根据该目标等级,从上述实时异常权重值中获取目标异常权重值,根据该目标异常权重值,确定上述异常运维指标数据。
137.其中,上述目标等级可以根据实际情况确定,例如上述第一等级、第二等级或第三等级。示例性的,以上述目标等级为上述第三等级为例。上述系统监控设备可以根据上述第三等级,从上述实时异常权重值中获取目标异常权重值,即权重值大于上述预设权重上限
值的预设倍值的实时异常权重值,进而,根据该目标异常权重值,确定上述异常运维指标数据。其中,上述目标异常权重值是上述实时运维指标数据的实时异常权重值中的目标异常权重值。上述系统监控设备在根据该目标异常权重值,确定上述异常运维指标数据时,可以根据上述实时运维指标数据的实时异常权重值,以及上述目标异常权重值,确定上述异常运维指标数据。
138.另外,上述系统监控设备在获得上述异常权重波动率u后,还可以将上述异常权重波动率u与预存的历史异常权重波动率进行比较。当上述异常权重波动率u超过历史异常权重波动率,则上述系统监控设备可以对上述实时异常权重值进行调整,进而,根据调整后的实时异常权重值,确定上述待监控系统的异常运维指标数据。示例性的,上述系统监控设备根据调整后的实时异常权重值,确定上述实时运维指标数据的异常等级,根据该异常等级,从上述实时异常权重值中获取目标异常权重值,根据该目标异常权重值,确定上述异常运维指标数据。
139.其中,上述系统监控设备可以对上述实时异常权重值进行调整可以根据实际情况确定,例如对于存在等级跃升的数据,对存在上下限的数据则在权重值的70%,90%时,调整成自动跃迁至二级或三级的权重值。对无上下限的数据,则可在权重值的50%,80%的区间范围,调整成自动跃迁至二级或三级的权重值。这样,在上述异常权重波动率u超过历史异常权重波动率时,本申请实施例能够更加准确地确定上述实时运维指标数据的异常等级,从而,根据该异常等级,从上述实时异常权重值中获取目标异常权重值,根据该目标异常权重值,确定上述异常运维指标数据,提高后续处理结果的准确性。
140.在本申请实施例中,上述系统监控设备还可以根据上述待监控系统的运行周期,确定上述待监控系统的核心运维指标数据,进而,从上述实时异常权重值中,获取上述核心运维指标数据的实时异常权重值,根据上述核心运维指标数据的实时异常权重值,确定上述异常运维指标数据。
141.即上述系统监控设备可以根据上述待监控系统的运行周期,对上述待监控系统的实时运维指标数据进行删减,从中获得核心运维指标数据,后续处理针对核心运维指标数据进行处理,及时发现核心运维指标数据导致的系统异常,快速解决该系统异常,避免系统异常导致的系统大面积故障。
142.其中,上述系统监控设备可以预存系统的运行周期与核心运维指标数据的对应关系,进而,根据该对应关系,确定上述待监控系统的运行周期对应的核心运维指标数据,从上述实时异常权重值中,获取上述核心运维指标数据的实时异常权重值,从而,根据上述核心运维指标数据的实时异常权重值,确定上述异常运维指标数据。
143.s204:根据上述异常运维指标数据,确定上述待监控系统运行异常的原因。
144.这里,上述系统监控设备可以根据上述异常运维指标数据,找到上述待监控系统哪里出现问题,从而,确定上述待监控系统运行异常的原因。例如上述异常运维指标数据包括cpu使用率,上述系统监控设备可以根据上述cpu使用率,找到上述待监控系统哪里出现问题,例如cpu,进而,确定上述待监控系统运行异常的原因。
145.本申请实施例,上述系统监控设备通过获取待监控系统的实时运维指标数据,进而,根据上述待监控系统的历史运维指标数据,获得上述实时运维指标数据的实时异常权重值,并根据该实时异常权重值,确定上述待监控系统的异常运维指标数据,根据该异常运
维指标数据,确定上述待监控系统运行异常的原因。其中,对于只有少量或偶尔的请求失败,上述系统监控设备通过系统的实时运维指标数据的实时异常权重值,能够分析确定具体的异常原因,从而,针对该异常原因确定相应的解决方案,解决系统出现异常的问题,进而,避免系统异常导致的系统大面积故障。而且,上述系统监控设备根据待监控系统的历史运维指标数据,获得系统实时运维指标数据的实时异常权重值,从而,使得获得的实时异常权重值与系统实时运维指标数据更相符,进而,根据该实时异常权重值,确定系统运行异常的原因,提高了确定的系统异常原因的准确性。
146.另外,由上述可知,上述系统监控设备根据上述历史运维指标数据和上述实时运维指标数据,确定上述待监控系统的异常权重波动值,然后根据上述历史运维指标数据的历史异常权重值和上述异常权重波动值,获得上述实时运维指标数据的实时异常权重值。其中,上述系统监控设备在根据上述历史运维指标数据的历史异常权重值和上述异常权重波动值,获得上述实时运维指标数据的实时异常权重值之前,还考虑对上述历史异常权重值进行修正。图3为本申请实施例提出的另一种系统异常原因确定方法的流程示意图。如图3所示,该方法包括:
147.s301:获取待监控系统的实时运维指标数据。
148.其中,步骤s301与上述步骤s201的实现方式相同,此处不再赘述。
149.s302:根据上述待监控系统的历史运维指标数据和上述实时运维指标数据,确定上述待监控系统的异常权重波动值。
150.其中,上述历史运维指标数据是在获取上述实时运维指标数据之前预设时间段内上述待监控系统的运维指标数据。
151.上述历史运维指标数据的波动数值f可以基于历史运维指标数据,采用回归算法得到。上述系统监控设备可以采集实时运维指标数据的实时振幅u,即可得出此时系统的波动数值g,以g/f可以得到此时异常权重波动率u,进而基于该异常权重波动率u,确定异常权重波动值w。
152.s303:根据上述待监控系统的运行周期,对上述待监控系统的历史运维指标数据进行修正。
153.这里,上述运行周期包括灰度期、全量期、推广期、低峰期和平稳期。
154.示例性的,如果上述运行周期为上述灰度期,则上述系统监控设备可以根据预存的系统运行周期与权重调整规则的对应关系,确定上述灰度期对应的权重调整规则,并根据上述灰度期对应的权重调整规则,对上述历史异常权重值进行修正。
155.相应的,如果上述运行周期为上述全量期,则上述系统监控设备可以根据上述对应关系,确定上述全量期对应的权重调整规则,并根据上述全量期对应的权重调整规则,对上述历史异常权重值进行修正。
156.如果上述运行周期为上述推广期,则上述系统监控设备可以根据上述对应关系,确定上述推广期对应的权重调整规则,并根据上述推广期对应的权重调整规则,对上述历史异常权重值进行修正。
157.如果上述运行周期为上述低峰期,则上述系统监控设备可以根据上述对应关系,确定上述低峰期对应的权重调整规则,并根据上述低峰期对应的权重调整规则,对上述历史异常权重值进行修正。
158.如果上述运行周期为上述平稳期,则上述系统监控设备可以根据上述对应关系,确定上述平稳期对应的权重调整规则,并根据上述平稳期对应的权重调整规则,对上述历史异常权重值进行修正。
159.即上述系统监控设备预存上述系统运行周期与权重调整规则的对应关系,进而,根据该对应关系,确定上述待监控系统的运行周期对应的权重调整规则,根据该权重调整规则,对上述历史异常权重值进行修正,使得调整后的历史异常权重值更加符合系统的实际情况,从而,根据修正后的历史异常权重值和上述异常权重波动值,能够获得更加准确的上述实时运维指标数据的实时异常权重值,根据该实时异常权重值,确定上述待监控系统的异常运维指标数据,进而,确定上述待监控系统运行异常的原因,提高后续处理结果的准确性。
160.其中,上述系统运行周期与权重调整规则的对应关系可以根据实际情况确定。例如,当上述运行周期处于灰度期,系统的核心权重值为关键字的权重值,上述系统监控设备可以设置灰度期对应的权重调整规则为:关键字的权重值自动提升一个等级(例如从上述第一等级提升到第二等级);对处于某一等级最后的指标,则对应的权重值增加30%,其它各类权重保持不变等。当上述运行周期处于全量期,即新版本全量后的一段时间内,例如一天时间内,系统的核心权重值为全部数据的权重值,上述系统监控设备可以设置全量期对应的权重调整规则为:将第一等级的权重由第一等级上升为第二等级,第二等级的权重按原有权重值提升50%,第三等级的权重不变等。当上述运行周期处于推广期,此时交易量较平日请求加大,数据的波动性降低,上述系统监控设备可以设置推广期对应的权重调整规则为:对系统运行的java虚拟机(java virtual machine,jvm)数据由第一等级上升为第二等级,第二等级升为第三等级。当上述运行周期处于低峰期,数据波动性降低,上述系统监控设备可以设置低峰期对应的权重调整规则为:第二等级的数据权重维持不变,第一等级的各数据权重置0等。当上述运行周期处于平稳期,上述系统监控设备可以设置平稳期对应的权重调整规则为:系统各数据权重不变。
161.s304:根据修正后的历史异常权重值和上述异常权重波动值,获得上述实时运维指标数据的实时异常权重值。
162.s305:根据上述实时异常权重值,确定上述待监控系统的异常运维指标数据。
163.s306:根据上述异常运维指标数据,确定上述待监控系统运行异常的原因。
164.其中,步骤s305

s306与上述步骤s203

s204的实现方式相同,此处不再赘述。
165.在本申请实施例中,上述系统监控设备根据上述待监控系统的运行周期,对上述历史异常权重值进行修正,使得调整后的历史异常权重值更加符合系统的实际情况,从而,根据修正后的历史异常权重值和上述异常权重波动值,能够获得更加准确的上述实时运维指标数据的实时异常权重值,根据该实时异常权重值,确定上述待监控系统的异常运维指标数据,进而,确定上述待监控系统运行异常的原因,提高后续处理结果的准确性。另外,对于只有少量或偶尔的请求失败,本申请实施例通过系统的实时运维指标数据的实时异常权重值,能够分析确定具体的异常原因,从而,针对该异常原因确定相应的解决方案,解决系统出现异常的问题,进而,避免系统异常导致的系统大面积故障。而且,本申请实施例根据待监控系统的历史运维指标数据,获得系统实时运维指标数据的实时异常权重值,从而,使得获得的实时异常权重值与系统实时运维指标数据更相符,进而,根据该实时异常权重值,
确定系统运行异常的原因,提高了确定的系统异常原因的准确性。
166.这里,上述系统监控设备在根据上述异常运维指标数据,确定上述待监控系统运行异常的原因时,还考虑上述异常运维指标数据是否在预设关联区间,其中,该预设关联区间可以理解为与上述系统监控设备其它运维指标数据关联度较高的区间。这里,上述关联度较高可以为关联度达到一定阈值,具体阈值大小可以根据实际情况确定。图4为本申请实施例提出的再一种系统异常原因确定方法的流程示意图。如图4所示,该方法包括:
167.s401:获取待监控系统的实时运维指标数据。
168.s402:根据上述待监控系统的历史运维指标数据,获得上述实时运维指标数据的实时异常权重值。其中,上述历史运维指标数据是在获取上述实时运维指标数据之前预设时间段内上述待监控系统的运维指标数据。
169.s403:根据上述实时异常权重值,确定上述待监控系统的异常运维指标数据。
170.其中,步骤s401

s403与上述步骤s201

s203的实现方式相同,此处不再赘述。
171.s404:判断上述异常运维指标数据是否在预设关联区间。
172.这里,上述异常运维指标数据与上述系统监控设备其它运维指标数据的关联度可能高可能低,因此,上述系统监控设备首先判断上述异常运维指标数据是否在预设关联区间,即判断上述异常运维指标数据与上述系统监控设备其它运维指标数据的关联度是否较高。如果上述异常运维指标数据在上述预设关联区间,说明上述异常运维指标数据与上述系统监控设备其它运维指标数据的关联度较高,上述异常运维指标数据对上述系统监控设备其它运维指标数据的影响较大,上述异常运维指标数据可能导致系统异常的概率较大,因此,后续根据上述异常运维指标数据,确定上述待监控系统运行异常的原因。如果上述异常运维指标数据不在上述预设关联区间,说明上述异常运维指标数据与上述系统监控设备其它运维指标数据的关联度较低,上述异常运维指标数据对上述系统监控设备其它运维指标数据的影响较小,上述异常运维指标数据可能导致系统异常的概率较小,因此,后续无需根据上述异常运维指标数据,确定上述待监控系统运行异常的原因。
173.其中,在上述判断上述异常运维指标数据是否在预设关联区间之前,上述系统监控设备还可以判断上述异常运维指标数据是否为存在上下限的运维指标数据。如果是,则上述系统监控设备可以根据第一算法和上述历史运维指标数据,确定上述预设关联区间,其中,上述第一算法包括3σ、ewma或同环比。如果不是,则上述系统监控设备可以根据第二算法和上述历史运维指标数据,确定上述预设关联区间,其中,上述第二算法包括孤立森林或arima。
174.示例性的,针对存在上下限的运维指标数据,以cpu的使用率为例,下表展示了cpu在对应使用率下与系统其它运维指标数据的关联度,即对其它运维指标数据的影响,进而可能导致的系统异常的概率。在数据上升的初期,cpu可以在正常时间范围内完成对应请求,此时如果出现异常请求,则与cpu的关联性较低,可排除cpu为异常原因。当cpu达到某个点,关联度上升,在90

100区间,属于较高关联区间,cpu对其它运维指标数据的影响较大,可能导致的系统异常的概率较大。示例性的,为了方便理解cpu使用率可能导致的系统异常的概率,本申请给出图5,其中图中横坐标表示cpu使用率,纵坐标表示可能导致的系统异常的概率。
[0175][0176]
针对另一种不存在上下限的运维指标数据,以交易量为例。当交易量较低时,与系统其它运维指标数据的关联度较低,即对其它运维指标数据的影响较小,进而可能导致的系统异常的概率较小。当交易量逐渐上升,与系统其它运维指标数据的关联度增大,即对其它运维指标数据的影响增大,进而可能导致的系统异常的概率增大。当达到一定值,例如系统正常处理的极限,此时交易量与系统其它运维指标数据的关联度最大,即对其它运维指标数据的影响最大,进而可能导致的系统异常的概率最大。随着交易量的继续增大,交易量与系统其它运维指标数据的关联度减小,即对其它运维指标数据的影响较小,进而可能导致的系统异常的概率减小。示例性的,为了方便理解交易量可能导致的系统异常的概率,本申请给出图6,其中图中横坐标表示交易量,纵坐标表示可能导致的系统异常的概率。
[0177][0178]
s405:若上述异常运维指标数据在上述预设关联区间,则根据上述异常运维指标数据,确定上述待监控系统运行异常的原因。
[0179]
其中,步骤s405与上述步骤s204的实现方式相同,此处不再赘述。
[0180]
本申请实施例,上述系统监控设备在根据上述异常运维指标数据,确定上述待监控系统运行异常的原因时,还考虑上述异常运维指标数据是否在预设关联区间,在预设关联区间时,才执行后续步骤,使得后续处理结果更准确。另外,对于只有少量或偶尔的请求失败,本申请实施例通过系统的实时运维指标数据的实时异常权重值,能够分析确定具体的异常原因,从而,针对该异常原因确定相应的解决方案,解决系统出现异常的问题,进而,避免系统异常导致的系统大面积故障。而且,本申请实施例根据待监控系统的历史运维指标数据,获得系统实时运维指标数据的实时异常权重值,从而,使得获得的实时异常权重值与系统实时运维指标数据更相符,进而,根据该实时异常权重值,确定系统运行异常的原因,提高了确定的系统异常原因的准确性。
[0181]
对应于上文实施例的系统异常原因确定方法,图7为本申请实施例提供的系统异常原因确定装置的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分。图7为本申请实施例提供的一种系统异常原因确定装置的结构示意图,该系统异常原因确定装置70包括:数据获取模块701、权重值获得模块702、数据确定模块703以及原因确定模块704。这里的系统异常原因确定装置可以是上述系统监控设备本身,或者是实现系统监控设备的功能的芯片或者集成电路。这里需要说明的是,数据获取模块、权重值获得模块、数据确定模块以及原因确定模块的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。
[0182]
其中,数据获取模块701,用于获取待监控系统的实时运维指标数据。
[0183]
权重值获得模块702,用于根据所述待监控系统的历史运维指标数据,获得所述实
时运维指标数据的实时异常权重值,其中,所述历史运维指标数据是在获取所述实时运维指标数据之前预设时间段内所述待监控系统的运维指标数据。
[0184]
数据确定模块703,用于根据所述实时异常权重值,确定所述待监控系统的异常运维指标数据。
[0185]
原因确定模块704,用于根据所述异常运维指标数据,确定所述待监控系统运行异常的原因。
[0186]
在一种可能的设计中,所述权重值获得模块702,具体用于:
[0187]
根据所述历史运维指标数据和所述实时运维指标数据,确定所述待监控系统的异常权重波动值;
[0188]
根据所述历史运维指标数据的历史异常权重值和所述异常权重波动值,获得所述实时异常权重值。
[0189]
在一种可能的实现方式中,所述数据确定模块703,具体用于:
[0190]
根据所述实时异常权重值,确定所述实时运维指标数据的异常等级;
[0191]
根据所述异常等级,从所述实时异常权重值中获取目标异常权重值;
[0192]
根据所述目标异常权重值,确定所述异常运维指标数据。
[0193]
在一种可能的实现方式中,所述异常等级包括第一等级、第二等级和第三等级,所述第一等级低于所述第二等级,所述第二等级低于所述第三等级。
[0194]
所述数据确定模块703,具体用于:
[0195]
若所述实时异常权重值大于或等于预设权重下限值,且所述实时异常权重值小于或等于预设权重上限值,则确定所述实时运维指标数据的异常等级为所述第一等级;
[0196]
若所述实时异常权重值大于所述预设权重上限值,且所述实时异常权重值小于或等于所述预设权重上限值的预设倍值,则确定所述实时运维指标数据的异常等级为所述第二等级;
[0197]
若所述实时异常权重值大于所述预设权重上限值的预设倍值,则确定所述实时运维指标数据的异常等级为所述第三等级。
[0198]
在一种可能的实现方式中,所述数据确定模块703,具体用于:
[0199]
根据所述第一等级、所述第二等级和所述第三等级,确定目标等级;
[0200]
根据所述目标等级,从所述实时异常权重值中获取所述目标异常权重值。
[0201]
在一种可能的实现方式中,所述权重值获得模块702,还用于:
[0202]
根据所述待监控系统的运行周期,对所述历史异常权重值进行修正;
[0203]
所述权重值获得模块,具体用于:
[0204]
根据修正后的历史异常权重值和所述异常权重波动值,获得所述实时异常权重值。
[0205]
在一种可能的实现方式中,所述运行周期包括灰度期、全量期、推广期、低峰期和平稳期。
[0206]
所述权重值获得模块702,具体用于:
[0207]
若所述运行周期为所述灰度期,则根据预存的系统运行周期与权重调整规则的对应关系,确定所述灰度期对应的权重调整规则,并根据所述灰度期对应的权重调整规则,对所述历史异常权重值进行修正;
[0208]
若所述运行周期为所述全量期,则根据所述对应关系,确定所述全量期对应的权重调整规则,并根据所述全量期对应的权重调整规则,对所述历史异常权重值进行修正;
[0209]
若所述运行周期为所述推广期,则根据所述对应关系,确定所述推广期对应的权重调整规则,并根据所述推广期对应的权重调整规则,对所述历史异常权重值进行修正;
[0210]
若所述运行周期为所述低峰期,则根据所述对应关系,确定所述低峰期对应的权重调整规则,并根据所述低峰期对应的权重调整规则,对所述历史异常权重值进行修正;
[0211]
若所述运行周期为所述平稳期,则根据所述对应关系,确定所述平稳期对应的权重调整规则,并根据所述平稳期对应的权重调整规则,对所述历史异常权重值进行修正。
[0212]
在一种可能的实现方式中,所述原因确定模块704,具体用于:
[0213]
判断所述异常运维指标数据是否在预设关联区间;
[0214]
若所述异常运维指标数据在所述预设关联区间,则根据所述异常运维指标数据,确定所述待监控系统运行异常的原因。
[0215]
在一种可能的实现方式中,所述原因确定模块704,还用于:
[0216]
判断所述异常运维指标数据是否为存在上下限的运维指标数据;
[0217]
若所述异常运维指标数据为所述存在上下限的运维指标数据,则根据第一算法和所述历史运维指标数据,确定所述预设关联区间,其中,所述第一算法包括3σ、ewma或同环比;
[0218]
若所述异常运维指标数据不为所述存在上下限的运维指标数据,则根据第二算法和所述历史运维指标数据,确定所述预设关联区间,其中,所述第二算法包括孤立森林或arima。
[0219]
在一种可能的实现方式中,所述数据确定模块703,具体用于:
[0220]
根据所述待监控系统的运行周期,确定所述待监控系统的核心运维指标数据;
[0221]
从所述实时异常权重值中,获取所述核心运维指标数据的实时异常权重值;
[0222]
根据所述核心运维指标数据的实时异常权重值,确定所述异常运维指标数据。
[0223]
本申请实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本申请实施例此处不再赘述。
[0224]
可选地,图8示意性地提供本申请所述系统异常原因确定设备的一种可能的基本硬件架构。
[0225]
参见图8,系统异常原因确定设备800包括至少一个处理器801以及通信接口803。进一步可选的,还可以包括存储器802和总线804。
[0226]
其中,系统异常原因确定设备800可以是上述处理装置,本申请对此不作特别限制。系统异常原因确定设备800中,处理器801的数量可以是一个或多个,图8仅示意了其中一个处理器801。可选地,处理器801,可以是cpu、图形处理器(graphics processing unit,gpu)或者数字信号处理(digital signal process,dsp)。如果系统异常原因确定设备800具有多个处理器801,多个处理器801的类型可以不同,或者可以相同。可选地,系统异常原因确定设备800的多个处理器801还可以集成为多核处理器。
[0227]
存储器802存储计算机指令和数据;存储器802可以存储实现本申请提供的上述系统异常原因确定方法所需的计算机指令和数据,例如,存储器802存储用于实现上述系统异常原因确定方法的步骤的指令。存储器802可以是以下存储介质的任一种或任一种组合:非
易失性存储器(例如只读存储器(rom)、固态硬盘(ssd)、硬盘(hdd)、光盘),易失性存储器。
[0228]
通信接口803可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器件的任一种或任一种组合:网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。
[0229]
可选的,通信接口803还可以用于系统异常原因确定设备800与其它计算设备或者终端进行数据通信。
[0230]
进一步可选的,图8用一条粗线表示总线804。总线804可以将处理器801与存储器802和通信接口803连接。这样,通过总线804,处理器801可以访问存储器802,还可以利用通信接口803与其它计算设备或者终端进行数据交互。
[0231]
在本申请中,系统异常原因确定设备800执行存储器802中的计算机指令,使得系统异常原因确定设备800实现本申请提供的上述系统异常原因确定方法,或者使得系统异常原因确定设备800部署上述的系统异常原因确定装置。
[0232]
从逻辑功能划分来看,示例性的,如图8所示,存储器802中可以包括数据获取模块701、权重值获得模块702、数据确定模块703以及原因确定模块704。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现数据获取模块、权重值获得模块、数据确定模块以及原因确定模块的功能,而不限定是物理上的结构。
[0233]
另外,上述的系统异常原因确定设备除了可以像上述图8通过软件实现外,也可以作为硬件模块,或者作为电路单元,通过硬件实现。
[0234]
本申请提供一种计算机可读存储介质,所述计算机程序产品包括计算机指令,所述计算机指令指示计算设备执行本申请提供的上述系统异常原因确定方法。
[0235]
本申请提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行本申请提供的上述系统异常原因确定方法。
[0236]
本申请提供一种芯片,包括至少一个处理器和通信接口,所述通信接口为所述至少一个处理器提供信息输入和/或输出。进一步,所述芯片还可以包含至少一个存储器,所述存储器用于存储计算机指令。所述至少一个处理器用于调用并运行该计算机指令,以执行本申请提供的上述系统异常原因确定方法。
[0237]
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0238]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0239]
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1