异常数据确定方法及相关装置与流程

文档序号:31603660发布日期:2022-09-21 09:46阅读:126来源:国知局
异常数据确定方法及相关装置与流程

1.本技术涉及数据处理技术领域,具体涉及一种异常数据确定方法及相关装置。


背景技术:

2.随着互联网技术、人工智能的发展,网络交易成为了人们广泛的交易方式,但是随着交易数据的增多以及交易监控技术的发展,检测到交易系统的故障也增多,但是通过人工进行逐一排查消耗人力成本较大,因此,对高效地找出异常数据有了更大的需求。


技术实现要素:

3.本技术实施例提供了一种异常数据确定方法及相关装置,有利于提高异常数据确定的准确性和效率。
4.第一方面,本技术实施例提供一种异常数据确定方法,应用于电子设备,所述方法包括:确定多个告警事件;获取所述多个告警事件中每个告警事件对应的指标数据,其中,所述指标数据包括每一告警事件对应的系统响应时间数据;根据所述每个告警事件对应的系统响应时间数据,生成系统响应时间序列;根据所述多个告警事件对应的基线,对所述每个告警事件对应的系统响应时间数据进行修正,得到所述系统响应时间序列对应的目标系统响应时间序列;对所述目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件;对每一所述目标告警事件对应的指标数据进行根因定位,确定所述多个目标告警事件对应的异常指标数据。
5.第二方面,本技术实施例提供了一个异常数据确定装置,应用于电子设备,所述装置包括:确定单元、获取单元和处理单元,其中,所述确定单元,用于确定多个告警事件;所述获取单元,用于获取所述多个告警事件中每个告警事件对应的指标数据,其中,所述指标数据包括每一告警事件对应的系统响应时间数据;所述处理单元,用于根据所述每个告警事件对应的系统响应时间数据,生成系统响应时间序列;所述处理单元,还用于根据所述多个告警事件对应的基线,对所述每个告警事件对应的系统响应时间数据进行修正,得到所述系统响应时间序列对应的目标系统响应时间序列;所述处理单元,还用于对所述目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件;所述确定单元,还用于对每一所述目标告警事件对应的指标数据进行根因定位,
确定所述多个目标告警事件对应的异常指标数据。
6.第三方面,本技术实施例提供了一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如本技术实施例第一方面任一方法中所描述的部分或全部步骤。
7.第四方面,本技术实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本技术实施例第一方面任一方法中所描述的部分或全部步骤。
8.可以看出,本技术实施例中,电子设备可确定多个告警事件,获取多个告警事件中每个告警事件对应的指标数据,其中,指标数据包括每一告警事件对应的系统响应时间数据,并根据每个告警事件对应的系统响应时间数据,生成系统响应时间序列,进而根据多个告警事件对应的基线,对每个告警事件对应的系统响应时间数据进行修正,得到系统响应时间序列对应的目标系统响应时间序列,再对目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件,最后对每一目标告警事件对应的指标数据进行根因定位,确定多个目标告警事件对应的异常指标数据,有利于排除误告警事件,有利于提高异常数据确定的准确性和效率。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
10.图1是本技术实施例提供的一种异常数据确定方法的流程示意图;图2a是本技术实施例提供的一种基线和系统响应时间的示意图;图2b是本技术实施例提供的另一种基线和系统响应时间的示意图;图2c是本技术实施例提供的另一种基线和系统响应时间的示意图;图3是本技术实施例提供的一种电子设备的结构示意图;图4是本技术实施例提供的一种异常数据确定装置的示意图。
具体实施方式
11.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
12.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包
括对于这些过程、方法、产品或设备固有的其他步骤或单元。
13.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
14.本技术实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(user equipment,ue),移动台(mobile station,ms),终端设备(terminal device)等等。为方便描述,上面提到的设备统称为电子设备。在一些示例中,上述电子设备还可以是服务器,具体可包括异常数据确定服务器。
15.请参阅图1,图1是本技术实施例提供的一种异常数据确定方法的流程示意图,应用于电子设备,如图所示,本异常数据确定方法包括以下操作。
16.s101、确定多个告警事件。
17.其中,上述电子设备可包括数据处理(交易)系统和/或异常数据确定系统。当电子设备是服务器时,该服务器可用于异常数据确定,数据处理系统对应的服务器进行通信连接,以确定上述系统中的异常情况。
18.其中,上述异常数据可以理解为:数据处理系统在工作时,由于系统的配置变更、处理延迟、网络延迟、系统崩溃、系统卡机等故障而产生异常情况对应的数据。
19.其中,事件是系统内发生的动作或者发生的事情,系统会在事件出现时产生或者触发某种信号,并且会提供一个自动加载相应动作的机制。
20.示例的,电子设备可通过监控单元识别或者监控上述数据处理环境中业务的交易或者处理情况等等,以及时的获取系统运行过程中的多个上述处理情况所对应的业务的服务;上述业务类型可包括以下至少一种:搜索业务、交易业务、验证业务、监听业务、数据删除业务、提醒业务等等,在此不作限定。
21.其中,电子设备在处理上述业务类型对应的服务时,可产生多个事件,可包括以下至少一种事件:告警事件、验证事件、提醒事件、数据删除事件、监听事件、搜索事件等等,在此不作限定;不同的业务场景会产生不同类型的事件。
22.并且,在上述业务发生异常情况时,即出现异常业务类型时,例如,如果出现搜索业务异常、交易业务异常、监听业务异常时,会产生异常数据,电子设备可在系统发生异常情况时,系统的监控单元根据异常情况给出的告警信号,当给出告警信号以后,电子设备可生成一个告警事件。
23.其中,在系统发生异常情况时,电子设备可确定预设时段内(可为系统默认或者用户自行设置,在此不作限定)的多个告警事件。
24.需要说明的是,在本技术中,多个可指两个或两个以上,后续不再赘述。
25.s102、获取所述多个告警事件中每个告警事件对应的指标数据,其中,所述指标数据包括每一告警事件对应的系统响应时间数据。
26.其中,指标是用于衡量事物发展程度的单位或者方法,可以将某个事物对应的变化情况量化或者以数字的形式来衡量目标。
27.其中,上述指标数据可以为发生指标波动变化时该指标所对应的量化或者以数字
的形式所表现的数据。
28.其中,上述指标可以是用来评价系统异常情况的单位或者方法,指标数据可以是一段时间内电子设备获取得到的该指标对应的具体数据。例如,电子设备可接收到用户对应的终端设备针对该交易系统下发的请求指令,该请求指令在交易系统a的前端平台处理时,会根据该请求指令生成调用指令,并根据该调用指令去后端平台拉取或者调用该交易系统a对应的各项服务,以完成或者执行该客户请求。
29.其中,由于电子设备对应的数据处理系统可对应有多个前端平台和/或后端平台,一些前端平台的响应时间异常可能是由后端平台的响应时间异常引起,但前端平台与后端平台、后端平台与后端平台之间的关联性会随时变动;当上述异常情况发生时,会生成告警事件,在本技术中,电子设备可将告警事件对应的异常情况作为指标,并将前端平台或者后端平台响应该请求指令的系统响应时间作为指标数据,每一告警事件可对应一个系统响应时间,可通过该系统响应时间衡量电子设备对应的数据处理系统的异常情况。
30.其中,上述多个告警事件对应的多个指标数据可以是一组线性或者非线性变化的数据。
31.s103、根据所述每个告警事件对应的系统响应时间数据,生成系统响应时间序列。
32.其中,在本技术中,由于电子设备对应有多个前端和/或后端平台,每一平台对应的告警事件的系统响应时间不同,在存在多个平台的情况下,电子设备获取到的多个平台的系统响应时间的先后顺序不同,当告警事件的数量巨大时,电子设备收取到的多个平台的告警时间可能存在混乱的情况;因此,电子设备可将告警事件对应的系统响应时间数据序列化,可将多个系统响应时间按照时间的先后关系进行排列得到系统响应时间序列,以便于根据该系统响应时间确定异常数据,也就是确定系统中产生异常情况的原因。
33.s104、根据所述多个告警事件对应的基线,对所述每个告警事件对应的系统响应时间数据进行修正,得到所述系统响应时间序列对应的目标系统响应时间序列。
34.其中,电子设备可预设基线,该基线对应的数值或者参数可由用户自行设置或者系统默认,在此不作限定。上述基线可通过历史经验学习得到,该基线可对应有多个时刻,每一时刻对应的基线值可相同或不同,不同的指标可对应有不同的基线,当指标为异常情况时,可选取在一段时间段内,该系统响应时间数据对应的基线。
35.其中,上述基线可为电子设备预先选择的当前数据处理过程所采用的预设标准基线中的任意一个,可用于判断或者确定电子设备产生的多个事件中的告警事件,以通过告警事件对指标数据对应的异常数据进行检测。
36.其中,在具体实现中,在系统配置发送变更时,前端平台和/或后端平台响应用户请求的响应时间会随之发生变化,会发生整体平移或者偏移,从而超出基线的范围,往往基线的变更是滞后的,而告警事件的确定跟基线是息息相关的,在这种情况下,系统就会产生误告警的情况,即会产生错误的告警事件,后续再对该误告警的告警事件对应的指标数据进行处理时,会导致电子设备在确定真正的系统异常情况时发生判断错误,从而导致异常数据定位不准确。因此,在本技术中,可通过多个告警事件对应的基线,对每个告警事件对应的系统响应时间数据进行修正,以得到有效的指标数据,即目标系统响应时间序列,使得目标系统响应时间序列与正确的响应时间匹配,以避免或者减小由于系统配置变更而产生的误告警的情况对整个系统异常情况确定的影响,从而有利于提高系统异常数据或者异常
情况定位的准确性。
37.s105、对所述目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件。
38.其中,由于每一前端和/或后端平台的基线变更的滞后性,其变更的时间或者时刻不同,那么,电子设备根据该基线确定的告警事件是不同的,其对应的系统响应时间也可能是不同的;如此,如果两个平台的基线差异性过大,当电子设备在确定多个前端和/或后端平台对应的多个告警事件的评价标准不同,根据多个系统响应时间数据生成的系统响应时间序列中会存在剧烈突变的情况,而通过上述修正步骤是将整个系统响应时间序列进行整体的修正,可能会忽略到部分产生数据突变额度情况,显然这部分的系统响应时间数据不是我们想要的,会增加定位到该告警事件与异常情况之间的关联关系的难度。因此,可继续对该目标系统响应序列进行突变检测,以筛除发生数据突变的目标系统响应时间序列对应的告警事件,从而,进一步的筛除由于误告警而带来的数据偏移情况,有利于提高告警事件的准确率。
39.s106、对每一所述目标告警事件对应的指标数据进行根因定位,确定所述多个目标告警事件对应的异常指标数据。
40.其中,在对上述多个系统响应时间数据进行误告警情况的系统响应时间数据筛除以后,可得到多个目标告警事件,并根据该目标告警事件对应的指标数据进行根因定位,从而,有利于确定该目标告警事件对应的异常指标数据。
41.其中,该异常指标数据可以是某一系统响应时间数据,可通过该系统响应时间数据定位到告警事件,进而通过该告警事件确定具体的系统影响原因,例如,可以是由一个或多个平台的系统故障而产生的告警事件,具体的,可以是后端平台a的网络交换机故障而生成的告警事件,也可以是后端平台b的路由器故障而生成的告警事件,如此,可以精确定位到故障点,从而实现对于异常数据的根因定位。
42.可以看出,本技术实施例中,电子设备可确定多个告警事件,获取多个告警事件中每个告警事件对应的指标数据,其中,指标数据包括每一告警事件对应的系统响应时间数据,并根据每个告警事件对应的系统响应时间数据,生成系统响应时间序列,进而根据多个告警事件对应的基线,对每个告警事件对应的系统响应时间数据进行修正,得到系统响应时间序列对应的目标系统响应时间序列,再对目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件,最后对每一目标告警事件对应的指标数据进行根因定位,确定多个目标告警事件对应的异常指标数据。如此,可通过对指标数据的修正以及突变检测,以排除系统误告警的情况,以实现对后续的根因定位的数据准备,有利于提高异常数据确定的准确性和效率。
43.在一个可能的示例中,确定多个告警事件,上述方法可包括如下步骤:获取多个事件中每个事件在每隔预设时段内对应的第一系统响应时间数据;比较所述每个事件对应的第一系统响应时间数据与所述基线;将所述第一系统响应时间数据中超出所述基线预设次数的第一系统响应时间数据对应的事件作为所述告警事件,得到多个告警事件。
44.其中,该基线包括上基线和下基线,上基线和下基线可对应有多个基线值,每一基线值可对应一个时刻。
45.其中,上述预设时间段和/或预设次数可以为用户自行设置或者系统默认,在此不
作限定;可通过预设时间段和预设次数约束对于多个事件中告警事件的选择,可作为该告警事件的选择标准。预设次数可以是超过上基线次数和下基线次数的和的最小限定值。
46.具体实现中,在比较所述每一事件对应的第一系统响应时间数据与所述基线时,电子设备可选取第一系统响应时间数据中超出上基线的次数和超过下基线次数的和大于预设次数的的事件为告警事件。
47.需要说明的是,上述上基线可对应第一预设次数,上述下基线可对应第二预设次数,即,也可根据不同的预设次数来分别约束超过上基线或下基线的事件,其实现方式与本示例相同,具体的在此不作赘述。
48.举例来说,可定义预设时间段对应m分钟,m的单位可以是分钟、小时、秒等等;定义预设次数为n次,其中,m、n均为大于1的正整数。电子设备可获取每隔m分钟内对应的多个事件中每一事件对应的第一系统响应时间数据,如图2a所示,为一种基线和系统响应时间的示意图,可将系统响应时间序列的单位与基线单位置于同一单位标准中,横坐标为系统响应时间,事件可包括事件a(实心点)和事件b(空心点),电子设备可根据多个第一系统响应时间数据生成第一系统响应时间序列,若m为5分钟,n为3次,如图所示,事件a对应的第一系统响应时间数据中共有5次超过了上基线和下基线,事件b对应的第一系统响应时间数据中共有2次超过了上基线和下基线,则可认定事件a为告警事件,事件b为非告警事件。
49.可见,在本示例中,可动态调整预设时间段和预设次数,以通过基线确定告警事件,有利于准确灵敏地从多个事件中确定告警事件。
50.在一个可能的示例中,若所述基线包括上基线和下基线;所述根据所述多个告警事件对应的基线,对所述每个告警事件对应的系统响应时间数据进行修正,上述方法可包括如下步骤:根据所述上基线和所述下基线,确定所述基线的基线均值序列,其中,所述基线均值序列对应有i个基线值,i为大于1的正整数;计算所述系统响应时间序列中与所述i个基线值对应的每一个数值与所述基线值的差值,得到i个差值,其中,所述i个差值组成差值序列;根据所述差值序列,对所述每个告警事件对应的系统响应时间数据进行修正。
51.其中,基线均值序列中的每一个基线值为对应的上基线和下基线的每一个基线值的平均值。
52.其中,这里对告警事件对应的系统响应时间数据进行修正,并不是意味着这里的告警事件对应的系统响应时间数据导致了误告警的产生,究其原因是基线在系统配置发生变更之后进行相应的变更,但是基线的变更往往具有滞后性,慢于前端平台对应的系统响应时间的变更,以至于在用基线对系统响应时间数据检测,确定告警事件时,进行了错误的告警,而又考虑到基线本身是作为确定事件是否是告警事件的一个比对标准,对标准的变更会使最终得到的结果准确性以及可靠性降低,因此这里选择通过修正告警事件对应的系统响应时间数据进行后续步骤来确定异常指标数据。
53.其中,上基线和/或下基线对应有i个数值,i为大于1的正整数。i的取值可以根据以当前时刻为起始的预设修正时间段p确定,上述i值的大小与预设修正时间段p密切相关。
54.可选地,为了清楚描述后续系统响应时间序列的局部特征(即该序列形成的折线图或者曲线的对应的形状、波动方向、中心位置、峰值等等,在此不作限定),当预设修正时间段p小于或等于一个区间值a时,可动态调大i/p的比值,使得i值相对较大,即当p小于或等于a时,增大i值。例如,若区间值a选择为6,若选取的是10min以内的时间段,i/p为1/2;则
i值可取为5;若选取的是6min以内的时间段,可调节i/p为2/3,则i值为可选取为4。如此,可以增加系统响应时间序列的可读性,有利于提高后续系统响应时间数据修正的概率。
55.其中,当用a序列代表基线均值序列,此时基线均值序列公式表示为:,其中,upi,lowi为第i个上基线的基线值和下基线的基线值;当用b序列代表差值序列,差值序列的公式表示为:,其中,ci为第i个系统响应时间序列的数值,meani为差值序列的第i个基线均值。
56.可见,在本示例中,通过计算系统响应时间序列中数值与相对应时刻的基线的基线值的差值,得到多个差值组成的差值序列,再根据差值序列,来修正告警事件对应的系统响应时间数据,能够实现后续基线和修正后的系统时间数据进行比对,以排除因为基线变更的滞后性引起的误告警事件,有利于提高异常数据确定的准确性。
57.在一个可能的示例中,根据所述差值序列,对所述每个告警事件对应的系统响应时间数据进行修正,上述方法可包括如下步骤:对所述差值序列中的i个差值进行异常值过滤,得到h个目标差值;确定所述h个目标差值的均值,得到目标变更均值,其中h为大于1的正整数;确定所述系统响应时间序列中的每一个数值与所述目标变更均值的差值,得到所述目标系统响应时间序列,其中,所述目标系统响应时间序列对应有i个目标数值。
58.其中,h值小于或等于i值,在i个差值中不存在异常值时,h值等于i值。
59.其中,对差值序列中的i个差值进行异常值的过滤可以通过聚类算法来实现,例如:可以是通过聚类算法对i个差值进行聚类,得到一个聚类结果,聚类结果中包括i个点,其中i个点与上述i个差值对应,再根据点数密集程度对聚类结果进行分类,如果得到两种分类,第一目标聚类结果和第二目标聚类结果,其中第一目标聚类结果的点数密集程度大于第二目标聚类结果的点数密集程度,则选取第一目标聚类结果中的点对应的差值作为正常值,将第二目标聚类结果中的点对应的差值作为异常值进行过滤,得到h个目标差值。也可以通过利用均方差法、箱形图法等方法来确定异常值,当然也可以人为根据经验判断对数据进行过滤,此处不做限定。
60.其中,计算系统响应时间序列中的每一个数值与目标变更均值的差值,得到的差值有i个,并且与所述目标数值一一对应,组成目标系统响应时间序列。
61.其中,当用d序列表示目标系统响应时间序列,则得到的目标系统响应时间序列可以表示为d=c-b。
62.其中,如图2b所示,为另一种基线和系统响应时间的示意图,可将系统响应时间序列的单位与基线单位置于同一单位标准中,横坐标为系统响应时间,在系统配置发生变更后,系统响应时间序列已经发生变更,而由于基线变更的滞后性,基线未发生变更,有些正常事件就会产生如图2b所示的情况,此时用基线与系统响应时间进行对比,就可能会导致确定多个正常事件被错误确定为告警事件。而为了排除误告警事件,准确找到异常数据,通过根据基线,对告警事件的系统响应数据进行修正,修正之后得到目标系统响应时间序列,如图2c所示,此时,再比对目标系统响应时间序列与基线,筛除未超出基线预设次数的目标系统响应时间序列对应的事件,确定被筛除的目标系统响应时间序列对应的事件为正常事
件。
63.其中,筛除的目标系统响应时间序列对应的事件是误告警事件,产生误告警的原因是前面提到的在系统配置变更时,基线变更具有滞后性。
64.可见,在本示例中,修正告警事件对应的系统响应时间数据,并利用基线确定告警事件的真实性,有利于排除误告警事件,有利于后续准确地确定异常数据。
65.在一个可能的示例中,在所述对所述目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件之前,上述方法可包括如下步骤:以k时刻点为基准,得到所述k时刻点之前的第一目标系统响应时间序列和所述k时刻点之后的第二目标系统响应时间序列,其中,所述第一目标系统响应时间序列包括n1个第一目标数值,第二目标系统响应时间序列包括n2个第二目标数值,其中n1、n2都为大于或等于1的正整数;根据所述n1个第一目标数值和所述n2个第二目标数值,确定所述第一目标系统响应时间序列和所述第二目标系统响应时间序列分别对应的第一均值、第二均值、第一方差和第二方差,其中,所述第一均值和所述第一方差为所述第一目标系统响应时间序列的均值和方差,所述第二均值和第二方差为所述第二目标系统响应时间序列的均值和方差;根据所述第一均值、所述第二均值、所述第一方差和所述第二方差,确定预对比数值;确定目标临界值;若所述预对比数值的绝对值大于所述目标临界值,则确定所述目标系统响应序列发生突变。
66.其中,时刻点是逐一选取的,选取的时刻点的个数为i-2个,得到预对比数值的个数为i-2个,是从第2个时刻点开始逐一选取一直选到第i-1个时刻点。
67.其中,n1+n2=i-1, n1、n2都为大于或等于1的正整数。
68.其中,当用t代表预对比数值,则预对比数值计算公式表示如(1)所示:(1);其中,x1为第一目标系统响应时间序列对应的数值,x2为第二目标系统响应时间序列对应的数值,s的计算公式如(2)所示:(2)。
69.其中,s1的平方为第一方差,s2的平方为第二方差。
70.其中,目标临界值的确定,根据显著性水平和自由度v,来查t分布表,查到的数值即为目标临界值,其中,可以人为预设设置显著性水平,也可以系统默认显著性水平,显著性水平可以是95%、90%、85%等等,自由度v的公式表示为v=n1+n
2-2。
71.其中,在比对预对比数值t的绝对值与目标临界值的大小,确定目标系统响应序列发生突变之后,要筛除发生突变所述目标系统响应序列对应的告警事件,得到多个目标告警事件。
72.具体实现中,选取k时刻点后,根据上述公式代入所述第一均值、第二均值、第一方
差、第二方差,确定预对比数值t,并在确定显著性水平和自由度之后查取t分布表,确定目标临界值,若所述预对比数值的绝对值大于所述目标临界值,则确定所述目标系统响应序列发生突变。
73.可见,在本示例中,利用本技术算法确定目标系统响应序列是否发生突变,并筛除发生突变所述目标系统响应序列对应的告警事件,有利于进一步排除误告警事件,有利于后续准确地确定异常数据。
74.在一个可能的示例中,所述对每一所述目标告警事件对应的指标数据进行根因定位,确定所述多个目标告警事件对应的异常指标数据,上述方法可包括如下步骤:获取每一所述目标告警事件相对应后端平台的后端指标数据;用聚类算法对每一所述目标告警事件对应的指标数据和相对应的每一所述后端指标数据进行聚类,得到多个聚类结果;确定所述多个聚类结果中存在离群点的聚类结果对应的目标告警事件对应的指标数据为所述异常指标数据。
75.其中,后端平台指标数据可以是后端平台对应的系统响应时间数据。
76.其中,可以将基于pearson相关系数作为距离度量,也可以将基于spearman相关系数作为距离度量,以这两个相关系数作为距离度量的原因是,确定异常指标数据是通过聚类目标告警事件对应的目标系统响应时间序列和后端平台对应的系统响应时间序列来实现,因此将基于pearson相关系数或者基于spearman相关系数作为距离度量较为合适,其中聚类算法可以是dbscan聚类算法,该聚类算法无需事先确定类的个数,适合用于确定异常指标数据。
77.其中,则基于pearson相关系数的度量公式可表示为如(3)所n相关系数的度量公式可表示为如(3)所(3)。
78.基于spearman相关系数的度量公式可表示为如(4)所示:基于spearman相关系数的度量公式可表示为如(4)所示:(4)。
79.其中,cds1、cds2分别为目标告警事件对应的系统响应时间序列和对应的后端平台的后端系统响应时间序列,cd
1i
为目标告警事件对应的系统响应时间序列的第i个分量,cd
2i
为对应的后端平台的后端系统响应时间序列的第i个分量,n为时间序列的长度,rk1,rk2为cds1、cds2中的分量转换为降序位置后的序列,rk
1i
,rk
2i
为rk1,rk2的第i个分量。
80.其中,通过聚类指标数据可以获得多个样本点,聚类结果包括以下至少之一:聚类簇和离群点,聚类簇是包括多个样本点的区域,离群点是指不成簇的独立出来的样本点。
81.其中,考虑到在异常指标数据在从前端平台传输到后端平台的传输时间上可能会跨分钟,即在相邻的两分钟内前端平台传输同一异常指标数据到后端平台,因此可以选取cdsi的第i个分量和第i-1个分量分别与cds2的第i个分量带入公式,得到两个距离度量值,即第一距离度量值和第二距离度量值,选取第一距离度量值和第二距离度量值中小的值作为第i个距离度量值,这样可以进一步减小误差,有利于准确确定异常指标数据。
82.具体实现中,根据告警事件对应的指标数据情况确定基于pearson相关系数或者基于spearman相关系数作为距离度量,将目标告警事件对应的系统响应时间序列作为cds1,该目标告警事件对应的后端平台的后端系统响应时间序列作为cds2,根据相应的距离度量公式进行聚类,得到聚类结果,若得到的聚类结果存在离群点,则确定该目标告警事件对应的指标数据为异常指标数据。
83.可见,在本示例中,通过聚类算法对目标告警事件对应的系统响应时间数据和对应的后端平台的系统响应时间数据进行确定异常数据,有利于快速确定异常数据。
84.在一个可能的示例中,所述确定多个告警事件之后,上述方法可包括如下步骤:确定所述多个告警事件中每一告警事件对应的异常业务事件,得到多个异常业务事件,其中,每一异常业务事件对应有至少一个告警事件;根据所述多个告警事件,确定第一异常业务事件对应的每一告警事件对应的第一概率,其中,所述第一异常业务事件为所述多个异常业务事件中任意一个异常业务事件;确定多个第二异常业务事件中每一第二异常业务事件发生的第二概率,得到多个第二概率,其中,所述第二异常业务事件为所述多个异常业务事件中除所述第一异常业务事件以外的任意一个异常业务事件;根据所述第一概率和每一所述第二概率,确定所述第一异常业务事件和每一所述第二异常业务事件之间的关联概率相对值,得到多个关联概率相对值;按照多个关联概率相对值的大小关系,由大到小排列所述多个关联概率相对值对应的所述多个第二异常业务事件对应的告警事件,得到多个目标告警事件;从所述多个目标告警事件中选择最大的所述关联概率相对值对应的目标告警事件对应的指标数据为所述异常指标数据。
85.其中,异常业务事件可以是上述业务发生异常情况时对应的事件,电子设备在执行一个发生异常情况的业务对应的服务过程中,可能会发生多次异常情况,每一次异常情况可生成一个告警事件,一个异常业务事件可对应有多个告警事件。
86.其中,第一概率可以是条件概率,关联概率相对值是根据贝叶斯公式得到,贝叶斯公式表示如下:p(x)*p(y/x)=p(y)*p(x/y),其中,x表示告警事件,y表示异常业务事件,预设时间段内x事件发生的概率为p(x),预设时间段内y事件发生的概率为p(y),关联概率相对值表示为p(x/y)/p(x),关联概率相对值越大,告警事件引起异常业务事件发生的可能性越大。
87.其中,上述步骤是在确定多个告警事件之后进行,是为了确定引起一个异常业务事件的原因是该异常业务事件对应的多个告警事件中哪一个告警事件引起。另外,通过对每一所述目标告警事件对应的指标数据进行根因定位,确定所述多个目标告警事件对应的异常指标数据为第一异常指标数据,通过上述步骤得到的异常指标数据为第二异常指标数据,若能够同时得到第一异常指标数据和第二异常指标数据,则选取第一异常指标数据为真正的异常指标数据,若只得到第二异常指标数据,未得到第一异常指标数据,则将第二异常指标数据作为真正的异常指标数据。
88.其中,电子设备会分别将发生的告警事件和异常业务事件作为历史告警事件数据和历史异常业务事件数据存储到历史告警事件数据库和历史异常业务事件数据库。
89.其中,历史告警事件数据包括多个告警事件,历史异常业务事件数据库包括多个异常业务事件数据库,通过第二预设时间段,可以获取历史异常业务事件数据库中的一个异常业务事件对应的历史告警事件数据库中的多个告警事件。
90.具体实现中,当异常业务事件为y,告警事件为x,先统计y事件发生前第二预设时间段内多个告警事件,计算每个告警事件出现的条件概率p(x/y),即第一概率,根据存储的历史告警事件数据和历史异常业务事件数据,确定任意预设时间段内x事件发生的概率,即第二概率,再根据贝叶斯公式计算每一告警事件和异常业务事件的关联概率相对值,根据该关联概率相对值的大小,对多个告警事件进行关联概率值由大到小的排序,选取最大的关联概率值对应的告警事件对应的指标数据为异常指标数据。
91.可见,本示例中,可利用本技术算法计算关联概率值确定告警事件和异常业务事件的关联关系,并进一步得到异常指标数据,有利于快速地确定异常指标数据。
92.请参阅图3,图3是本技术实施例提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,应用于电子设备,其中,上述一个或多个程序被存储在上述存储器中,上述一个或多个程序被配置由上述处理器执行以下步骤的指令:确定多个告警事件;获取所述多个告警事件中每个告警事件对应的指标数据,其中,所述指标数据包括每一告警事件对应的系统响应时间数据;根据所述每个告警事件对应的系统响应时间数据,生成系统响应时间序列;根据所述多个告警事件对应的基线,对所述每个告警事件对应的系统响应时间数据进行修正,得到所述系统响应时间序列对应的目标系统响应时间序列;对所述目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件;对每一所述目标告警事件对应的指标数据进行根因定位,确定所述多个目标告警事件对应的异常指标数据。
93.可以看出,本技术实施例中,电子设备可确定多个告警事件,获取多个告警事件中每个告警事件对应的指标数据,其中,指标数据包括每一告警事件对应的系统响应时间数据,并根据每个告警事件对应的系统响应时间数据,生成系统响应时间序列,进而根据多个告警事件对应的基线,对每个告警事件对应的系统响应时间数据进行修正,得到系统响应时间序列对应的目标系统响应时间序列,再对目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件,最后对每一目标告警事件对应的指标数据进行根因定位,确定多个目标告警事件对应的异常指标数据。如此,可通过对指标数据的修正以及突变检测,以排除系统误告警的情况,以实现对后续的根因定位的数据准备,有利于提高异常数据确定的准确性和效率。
94.在一个可能的示例中,在确定多个告警事件方面,上述程序包括用于执行以下步骤的指令:获取多个事件中每个事件在每隔预设时段内对应的第一系统响应时间数据;比较所述每个事件对应的第一系统响应时间数据与所述基线;将所述第一系统响应时间数据中超出所述基线预设次数的第一系统响应时间数据对应的事件作为所述告警事件,得到多个告警事件。
95.在一个可能的示例中,在若所述基线包括上基线和下基线;所述根据所述多个告警事件对应的基线,对所述每个告警事件对应的系统响应时间数据进行修正方面,上述程
序包括用于执行以下步骤的指令:根据所述上基线和所述下基线,确定所述基线的基线均值序列,其中,所述基线均值序列对应有i个基线值,i为大于1的正整数;计算所述系统响应时间序列中与所述i个基线值对应的每一个数值与所述基线值的差值,得到i个差值,其中,所述i个差值组成差值序列;根据所述差值序列,对所述每个告警事件对应的系统响应时间数据进行修正。
96.在一个可能的示例中,在根据所述差值序列,对所述每个告警事件对应的系统响应时间数据进行修正方面,上述程序包括用于执行以下步骤的指令:对所述差值序列中的i个差值进行异常值过滤,得到h个目标差值;确定所述h个目标差值的均值,得到目标变更均值,其中h为大于1的正整数;确定所述系统响应时间序列中的每一个数值与所述目标变更均值的差值,得到所述目标系统响应时间序列,其中,所述目标系统响应时间序列对应有i个目标数值。
97.在一个可能的示例中,在所述对所述目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件之前,上述程序包括用于执行以下步骤的指令:以k时刻点为基准,得到所述k时刻点之前的第一目标系统响应时间序列和所述k时刻点之后的第二目标系统响应时间序列,其中,所述第一目标系统响应时间序列包括n1个第一目标数值,第二目标系统响应时间序列包括n2个第二目标数值,其中n1、n2都为大于或等于1的正整数;根据所述n1个第一目标数值和所述n2个第二目标数值,确定所述第一目标系统响应时间序列和所述第二目标系统响应时间序列分别对应的第一均值、第二均值、第一方差和第二方差,其中,所述第一均值和所述第一方差为所述第一目标系统响应时间序列的均值和方差,所述第二均值和第二方差为所述第二目标系统响应时间序列的均值和方差;根据所述第一均值、所述第二均值、所述第一方差和所述第二方差,确定预对比数值;确定目标临界值;若所述预对比数值的绝对值大于所述目标临界值,则确定所述目标系统响应序列发生突变。
98.在一个可能的示例中,在对每一所述目标告警事件对应的指标数据进行根因定位,确定所述多个目标告警事件对应的异常指标数据方面,上述程序包括用于执行以下步骤的指令:获取每一所述目标告警事件相对应后端平台的后端指标数据;用聚类算法对每一所述目标告警事件对应的指标数据和相对应的每一所述后端指标数据进行聚类,得到多个聚类结果;确定所述多个聚类结果中存在离群点的聚类结果对应的目标告警事件对应的指标数据为所述异常指标数据。
99.在一个可能的示例中,在确定多个告警事件之后,上述程序包括用于执行以下步骤的指令:确定所述多个告警事件中每一告警事件对应的异常业务事件,得到多个异常业务
事件,其中,每一异常业务事件对应有至少一个告警事件;根据所述多个告警事件,确定第一异常业务事件对应的每一告警事件对应的第一概率,其中,所述第一异常业务事件为所述多个异常业务事件中任意一个异常业务事件;确定多个第二异常业务事件中每一第二异常业务事件发生的第二概率,得到多个第二概率,其中,所述第二异常业务事件为所述多个异常业务事件中除所述第一异常业务事件以外的任意一个异常业务事件;根据所述第一概率和每一所述第二概率,确定所述第一异常业务事件和每一所述第二异常业务事件之间的关联概率相对值,得到多个关联概率相对值;按照多个关联概率相对值的大小关系,由大到小排列所述多个关联概率相对值对应的所述多个第二异常业务事件对应的告警事件,得到多个目标告警事件;从所述多个目标告警事件中选择最大的所述关联概率相对值对应的目标告警事件对应的指标数据为所述异常指标数据。
100.上述主要从方法侧执行过程的角度对本技术实施例的方案进行了介绍。可以理解的是,服务器为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
101.本技术实施例可以根据上述方法示例对服务器进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本技术实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
102.在采用对应各个功能划分各个功能模块的情况下,图4给出了异常数据确定装置的示意图,如图4所示,所述装置应用于电子设备,该异常数据确定装置400可以包括:确定单元401、获取单元402、生成单元403、修正单元404、突变检测单元405和根因定位单元406,其中,所述确定单元401,用于确定多个告警事件;所述获取单元402,用于获取所述多个告警事件中每个告警事件对应的指标数据和对应的系统响应时间数据;所述生成单元403,用于根据所述每个告警事件对应的系统响应时间数据,生成系统响应时间序列;所述修正单元404,用于根据所述多个告警事件对应的基线,对所述每个告警事件对应的系统响应时间数据进行修正,得到所述系统响应时间序列对应的目标系统响应时间序列;所述突变检测单元405,用于对所述目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件;所述根因定位单元406,用于对每一所述目标告警事件对应的指标数据进行根因
定位,确定所述多个目标告警事件对应的异常指标数据。
103.可以看出,本技术实施例中,电子设备可确定多个告警事件,获取多个告警事件中每个告警事件对应的指标数据,其中,指标数据包括每一告警事件对应的系统响应时间数据,并根据每个告警事件对应的系统响应时间数据,生成系统响应时间序列,进而根据多个告警事件对应的基线,对每个告警事件对应的系统响应时间数据进行修正,得到系统响应时间序列对应的目标系统响应时间序列,再对目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件,最后对每一目标告警事件对应的指标数据进行根因定位,确定多个目标告警事件对应的异常指标数据。如此,可通过对指标数据的修正以及突变检测,以排除系统误告警的情况,以实现对后续的根因定位的数据准备,有利于提高异常数据确定的准确性和效率。
104.在一个可能的示例中,在确定多个告警事件方面,所述确定单元401具体用于:获取多个事件中每个事件在预设时段内对应的第一系统响应时间数据;比较所述每个事件对应的第一系统响应时间数据与所述基线,其中,所述基线为从预设标准基线中选取的所述预设时段内对应的基线;将所述第一响应时间数据中超出所述基线预设次数的第一响应时间数据对应的事件作为所述告警事件,得到多个告警事件。
105.在一个可能的示例中,在若所述基线包括上基线和下基线;所述根据所述多个告警事件对应的基线,对所述每个告警事件对应的系统响应时间数据进行修正方面,所述修正单元404具体用于:根据所述上基线和所述下基线,确定所述基线的基线均值序列,其中,所述基线均值序列对应有i个基线值,i为大于1的正整数;计算所述系统响应时间序列中与所述i个基线值对应的每一个数值与所述基线值的差值,得到i个差值,其中,所述i个差值组成差值序列;根据所述差值序列,对所述每个告警事件对应的系统响应时间数据进行修正。
106.在一个可能的示例中,在根据所述差值序列,对所述每个告警事件对应的系统响应时间数据进行修正方面,所述修正单元404具体用于:对所述差值序列中的i个差值进行异常值过滤,得到h个目标差值;确定所述h个目标差值的均值,得到目标变更均值,其中h为大于1的正整数;确定所述系统响应时间序列中的每一个数值与所述目标变更均值的差值,得到所述目标系统响应时间序列,其中,所述目标系统响应时间序列对应有i个目标数值。
107.在一个可能的示例中,在所述对所述目标系统响应时间序列进行突变检测以筛除发生数据突变的目标系统响应时间序列对应的告警事件,得到多个目标告警事件之前,所述突变检测单元405具体用于:以k时刻点为基准,得到所述k时刻点之前的第一目标系统响应时间序列和所述k时刻点之后的第二目标系统响应时间序列,其中,所述第一目标系统响应时间序列包括n1个第一目标数值,第二目标系统响应时间序列包括n2个第二目标数值,其中n1、n2都为大于或等于1的正整数;根据所述n1个第一目标数值和所述n2个第二目标数值,确定所述第一目标系统响应时间序列和所述第二目标系统响应时间序列分别对应的第一均值、第二均值、第一方差
和第二方差,其中,所述第一均值和所述第一方差为所述第一目标系统响应时间序列的均值和方差,所述第二均值和第二方差为所述第二目标系统响应时间序列的均值和方差;根据所述第一均值、所述第二均值、所述第一方差和所述第二方差,确定预对比数值;确定目标临界值;若所述预对比数值的绝对值大于所述目标临界值,则确定所述目标系统响应序列发生突变。
108.在一个可能的示例中,在对每一所述目标告警事件对应的指标数据进行根因定位,确定所述多个目标告警事件对应的异常指标数据方面,所述根因定位单元406具体用于:获取每一所述目标告警事件相对应后端平台的后端指标数据;用聚类算法对每一所述目标告警事件对应的指标数据和相对应的每一所述后端指标数据进行聚类,得到多个聚类结果;确定所述多个聚类结果中存在离群点的聚类结果对应的目标告警事件对应的指标数据为所述异常指标数据。
109.在一个可能的示例中,在确定多个告警事件之后,所述确定单元401具体用于:确定所述多个告警事件中每一告警事件对应的业务事件,得到多个业务事件,其中,每一业务事件对应有至少一个告警事件;根据所述多个告警事件,确定第一业务事件对应的每一告警事件对应的第一概率,其中,所述第一业务事件为所述多个业务事件中任意一个业务事件;确定多个第二业务事件中每一第二业务事件发生的第二概率,得到多个第二概率,其中,所述第二业务事件为所述多个业务事件中除所述第一业务事件以外的任意一个业务事件;根据所述第一概率和每一所述第二概率,确定所述第一业务事件和每一所述第二业务事件之间的关联概率相对值,得到多个关联概率相对值;按照多个关联概率相对值的大小关系,由大到小排列所述多个关联概率相对值对应的所述多个第二业务事件对应的告警事件,得到多个目标告警事件;从所述多个目标告警事件中选择最大的所述关联概率相对值对应的目标告警事件对应的指标数据为所述异常指标数据。
110.需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
111.本实施例提供的电子设备,用于执行上述异常数据确定方法,因此可以达到与上述实现方法相同的效果。
112.本技术实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括服务器。
113.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知
悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
114.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
115.在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
116.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
117.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
118.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例上述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
119.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
120.以上对本技术实施例进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1