一种集群中异常单机的识别方法和装置与流程

文档序号:18028947发布日期:2019-06-28 22:26阅读:182来源:国知局
一种集群中异常单机的识别方法和装置与流程

本申请涉及计算机技术领域,尤其涉及一种集群中异常单机的识别方法和装置。



背景技术:

在互联网中,在向用户提供网络服务时,可以基于集群实现。通常,集群中可以包含多个分布式的单机,一个单机可以视为一个服务器,多个单机之间可以进行数据交互。

通常,集群在向用户提供服务的过程中,集群中的单机会不可避免地出现异常的情况,导致集群无法正常地对外提供服务。例如,当集群中某个单机的硬件出现故障时,该单机将会运行异常,从而对集群造成影响,导致集群无法正常地提供服务。有鉴于此,亟需一种有效地方法,能够及时发现集群中的异常单机,进而解决上述问题。



技术实现要素:

本申请实施例提供一种集群中异常单机的识别方法和装置,用于解决由于不能及时发现集群中的异常单机,导致在集群中的单机出现异常时,集群无法对外提供服务的问题。

为解决上述技术问题,本申请实施例是这样实现的:

第一方面,提出一种集群中异常单机的识别方法,包括:

获取集群中多个单机的特征指标,一个单机包括多个特征指标;

针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;

若存在所述目标特征指标,则将所述目标特征指标对应的单机确定为异常单机。

第二方面,提出一种集群中异常单机的识别装置,包括:

获取单元,获取集群中多个单机的特征指标,一个单机包括多个特征指标;

处理单元,针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;

识别单元,若存在所述目标特征指标,则将所述目标特征指标对应的单机确定为异常单机。

第三方面,提出一种电子设备,该电子设备包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:

获取集群中多个单机的特征指标,一个单机包括多个特征指标;

针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;

若存在所述目标特征指标,则将所述目标特征指标对应的单机确定为异常单机。

第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:

获取集群中多个单机的特征指标,一个单机包括多个特征指标;

针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;

若存在所述目标特征指标,则将所述目标特征指标对应的单机确定为异常单机。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

本申请实施例提供的技术方案,在识别集群中的异常单机时,可以获取集群中多个单机的特征指标,一个单机包括多个特征指标,针对每个特征指标,可以利用3-sigma算法确定集群中多个单机的该特征指标中是否存在异常的特征指标,若存在,则可以将该异常的特征指标对应的单机确定为异常单机。这样,通过获取集群中每个单机的特征指标,并利用3-sigma算法对每个特征指标进行分析,可以及时地发现集群中的异常单机,从而在发现异常单机后,可以及时地对采取相应措施,保证集群能够正常地对外提供服务。

为解决上述技术问题,本申请实施例还可以这样实现:

第五方面,提出一种集群中异常单机的识别方法,包括:

获取集群中同一分组内多个单机的特征指标,所述分组内每个单机的型号相同,一个单机包括多个特征指标;

基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,所述第一离群单机中包括异常的特征指标;

基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,所述异常识别模型基于所述多个单机的特征指标训练得到;

根据所述第一离群单机和所述第二离群单机,确定异常单机。

第六方面,提出一种集群中异常单机的识别装置,包括:

获取单元,获取集群中同一分组内多个单机的特征指标,所述分组内每个单机的型号相同,一个单机包括多个特征指标;

第一处理单元,基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,所述第一离群单机中包括异常的特征指标;

第二处理单元,基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,所述异常识别模型基于所述多个单机的特征指标训练得到;

识别单元,根据所述第一离群单机和所述第二离群单机,确定异常单机。

第七方面,提出一种电子设备,该电子设备包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:

获取集群中同一分组内多个单机的特征指标,所述分组内每个单机的型号相同,一个单机包括多个特征指标;

基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,所述第一离群单机中包括异常的特征指标;

基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,所述异常识别模型基于所述多个单机的特征指标训练得到;

根据所述第一离群单机和所述第二离群单机,确定异常单机。

第八方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:

获取集群中同一分组内多个单机的特征指标,所述分组内每个单机的型号相同,一个单机包括多个特征指标;

基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,所述第一离群单机中包括异常的特征指标;

基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,所述异常识别模型基于所述多个单机的特征指标训练得到;

根据所述第一离群单机和所述第二离群单机,确定异常单机。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

本申请实施例提供的技术方案,在识别异常单机时,可以获取集群中同一分组内多个单机的特征指标,同一分组内每个单机的型号相同,一个单机包括多个特征指标,基于这些特征指标,分别利用3-sigma算法和异常识别模型,判断哪些单机是可能存在异常的单机,并从这些单机中进一步确定异常单机。由于同一分组内每个单机的型号相同,因此,针对集群中同一分组内多个单机的特征指标进行分析,可以避免由于单机的型号不同导致的将正常情况下的离群单机误判为异常单机的问题,从而提高识别结果的准确度;由于分别利用3-sigma算法和异常识别模型两种方式确定离群单机,因此,可以提高识别结果的准确性;由于在得到离群单机后,在对这些离群单机进行进一步分析的基础上得到异常单机,因此,可以降低将正常的离群单机误判为异常单机的可能性,从而提高识别结果的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例集群中异常单机的识别方法的流程示意图;

图2是本申请的一个实施例集群中异常单机的识别方法的流程示意图;

图3是本申请的一个实施例集群中异常单机的识别方法的流程示意图;

图4是本申请的一个实施例集群中异常单机的识别方法的流程示意图;

图5是本申请的一个实施例电子设备的结构示意图;

图6是本申请的一个实施例集群中异常单机的识别装置的结构示意图;

图7是本申请的一个实施例电子设备的结构示意图;

图8是本申请的一个实施例集群中异常单机的识别装置的结构示意图。

具体实施方式

在现有的互联网中,可以利用集群向用户提供网络服务。然而,集群在向用户提供服务的过程中,集群中的单机会不可避免地出现异常,导致集群无法正常地向用户提供服务,从而影响用户体验。因此,有必要提供一种有效地方法,可以及时发现集群中的异常单机,进而采取相应措施,以保证集群可以正常地对外提供服务。

通常,当集群中某个单机出现异常时,该单机的一项或多项特征指标会偏离集群中其他正常单机的特征指标,有鉴于此,本申请实施例提供一种集群中异常单机的识别方法和装置,可以基于集群中多个单机的特征指标,及时发现集群中的异常单机。

本申请实施例提供的一种集群中异常单机的识别方法和装置,该方法包括:获取集群中多个单机的特征指标,一个单机包括多个特征指标;针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;若是,则将所述目标特征指标对应的单机确定为异常单机。这样,通过获取集群中每个单机的特征指标,并利用3-sigma算法对每个特征指标进行分析,可以及时地发现集群中的异常单机,从而在发现异常单机后,可以及时地对采取相应措施,保证集群能够正常地对外提供服务。

本申请实施例还提供另一种集群中异常单机的识别方法和装置,该方法包括:获取集群中同一分组内多个单机的特征指标,所述分组内每个单机的型号相同,一个单机包括多个特征指标;基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,所述第一单机中包括异常的特征指标;基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,所述异常识别模型基于所述多个单机的特征指标训练得到;根据所述第一离群单机和第二离群单机,确定异常单机。

本申请实施例中,由于同一分组内每个单机的型号相同,因此,针对集群中同一分组内多个单机的特征指标进行分析,可以避免由于单机的型号不同导致的将正常情况下的离群单机误判为异常单机的问题,从而提高识别结果的准确度;由于分别利用3-sigma算法和异常识别模型两种方式确定离群单机,因此,可以提高识别结果的准确性;由于在得到离群单机后,在对这些离群单机进行进一步分析的基础上得到异常单机,因此,可以降低将正常的离群单机误判为异常单机的可能性,从而提高识别结果的准确度。

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

以下结合附图,详细说明本申请各实施例提供的技术方案。

图1是本申请的一个实施例集群中异常单机的识别方法的流程示意图。所述方法包括以下步骤。

s102:获取集群中多个单机的特征指标。

在s102中,在识别集群中是否存在异常单机时,可以获取集群中每个单机的特征指标。

本实施例中,每个单机均可以包括多个特征指标,为了提高对异常单机的识别准确度,针对其中一个单机,可以获取该单机的多个特征指标,且,针对不同的单机,获取的特征指标相同。

需要说明的是,在获取特征指标时,为了保证异常单机的识别准确度,至少可以遵循以下标准:

第一:获取的特征指标很大概率上会影响集群正常对外提供服务,即当获取的特征指标出现异常时,会导致集群无法正常对外提供服务;

第二:获取的特征指标具有集群一致性,即在对集群进行压力测试时,这些特征指标在不同单机之间的波动相对一致,且在集群正常对外提供服务的情况下,这些特征指标在不同单机之间相差不大。

优选地,针对一个单机而言,获取的多个特征指标可以包括以下至少两种:

cpu使用率、平均负载、线程异常数、rpc调用失败数、代码异常数量、rpc调用耗时。

其中,平均负载可以是单机在每分钟内的平均负载;rpc(remoteprocedurecallprotocol,远程过程调用协议)调用失败数可以理解为单机在调用集群中其他单机的数据时,调用失败的次数;代码异常数量可以理解为单机在运行的过程中,运行异常的代码数量,通常为common-error的错误数;rpc调用耗时可以理解为单机在调用集群中其他单机的数据时,消耗的时间。

应理解,上述举例说明的特征指标仅是本实施例的一种优选方式,在其他实现方式中,还可以是其他特征指标,这里不做具体限定。

在获取到集群中多个单机的特征指标后,可以执行s104。

s104:针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标。

在s104中,基于s102中获取到的特征指标,可以利用3-sigma算法确定这些特征指标中是否存在异常的特征指标。这里为了便于区分,可以由目标特征指标表示异常的特征指标。

在确定目标特征指标时,可以针对多个单机中相同的特征指标,利用3-sigma算法进行分析。

具体地,针对其中一个特征指标,首先,基于多个单机中的该特征指标(即多个相同的特征指标),得到正态分布曲线;其次,基于该正态分布曲线,确定该特征指标的平均值μ和标准差σ;最后,以(μ-3σ,μ+3σ)为判断依据,若某个特征指标在(μ-3σ,μ+3σ)(对应概率0.9937)内,则说明该特征指标为正常的特征指标,若某个特征指标在(μ-3σ,μ+3σ)外(对应的概率为0.0063),则说明该特征指标为目标特征指标。

这样,针对其中一个特征指标,可以利用3-sigma算法确定多个单机的该特征指标中是否存在目标特征指标。基于同样的方法,可以依次确定多个单机中其他相同特征指标中是否存在目标特征指标。

以集群中包含n个单机,获取的特征指标为a、b和c为例,针对特征指标a,首先,可以根据n个单机的特征指标a1,a2,……,an,确定正态分布曲线;其次,确定特征指标a的平均值μ1和标准差σ1;最后,依次判断特征指标a1,a2,……,an是否在(μ1-3σ1,μ1+3σ1)内,进而确定特征指标a1,a2,……,an中是否存在目标特征指标。

假设特征指标a1至an中,只有a1不在(μ1-3σ1,μ1+3σ1)内,则,可以确定a1为目标特征指标。

基于相同的方法,针对特征指标b和c,可以确定n个单机中是否存在目标特征指标。

在利用3-sigma算法确定是否存在目标特征指标后,可以执行s106。

s106:若存在所述目标特征指标,则将所述目标特征指标对应的单机确定为异常单机。

在s106中,若存在目标特征指标,则可以说明,该目标特征指标偏离了集群中其他单机的特征指标,还可以进一步说明,该目标特征指标对应的单机偏离了集群中其他单机,此时,可以确定该目标特征指标对应的单机属于异常单机。

仍以上述n个单机为例,若特征指标a1和特征指标c4为目标特征指标,则,可以说明特征指标a1偏离了特征指标a2至an,特征指标c4偏离了特征指标c1、c2、c3、c5至cn,进一步可以说明特征指标a1对应的单机1偏离了其他单机,特征指标c4对应的单机4偏离了其他单机,此时,可以确定单机1和单机4为异常单机。

在确定集群中的异常单机后,可选地,可以生成异常单机的数据报告,其中,该数据报告中可以包括异常单机的标识和异常单机的特征指标等信息。

在一种实现方式中,异常单机的数据报告可以是以下形式:

这样,基于上述s102至s106记载的内容,通过获取集群中每个单机的特征指标,并利用3-sigma算法对每个特征指标进行分析,可以及时地发现集群中的异常单机,以便在发现异常单机后,可以及时地对异常单机采取相应措施,从而保证集群能够正常地对外提供服务。

需要说明的是,在本实施例中,在判断是否存在目标特征指标时,判断结果还可以是不存在目标特征指标,即每个单机的每个特征指标均是正常的,在这种情况下,为了进一步识别集群中是否存在异常单机,可以利用异常识别模型,对每个单机的多个特征指标进行分析,以确定集群中是否为异常单机。具体实现方式如下:

针对其中一个单机,可以执行以下操作:

首先,基于单机的多个特征指标,利用异常识别模型确定该单机对应的异常特征值。

异常识别模型可以基于集群中多个单机各自的多个特征指标进行训练得到。在本申请中,考虑到训练样本的数量和多个特征指标对应多个维度,优选地,可以利用iforest(isolationforest,孤立森林)算法,对集群中多个单机各自的多个特征指标进行训练,得到异常识别模型。

应理解,在其他实现方式中,也可以选择其他机器学习算法进行模型训练,并得到异常识别模型,这里不做具体限定。

在训练得到异常识别模型后,可以将一个单机的多个特征指标输入异常识别模型中,异常识别模型可以输出一个分值,该分值可以视为该单机的异常特征值。其中,异常特征值可以表征单机的异常程度。

这样,在确定一个单机的异常特征值后,可以基于相同的方法,得到集群中其他单机的异常特征值。

其次,基于单机的异常特征值,确定单机是否为异常单机。

具体地,针对其中一个单机,可以基于集群中多个单机的异常特征值,利用3-sigma算法确定该单机的异常特征值是否异常。具体实现如下:

基于集群中多个单机的异常特征值,确定正态分布曲线;基于该正态分布曲线,确定异常特征值的均值μ和标准差σ;针对该单机而言,若该单机的异常特征值在(μ-3σ,μ-3σ)内,则可以说明该单机的异常特征值并未偏离集群中其他单机的异常特征值,此时,可以确定该单机不属于异常单机;若该单机的异常特征值不在(μ-3σ,μ-3σ)内,则可以说明该单机的异常特征值偏离了集群中其他单机的异常特征值,此时,可以确定该单机属于异常单机。

这样,在确定该单机是否是依异常单机后,可以基于相同的方法确定集群中其他单机是否是异常单机。

在确定集群中的异常单机后,可选地,也可以生成异常单机的数据报告,该数据报告中可以包括异常单机的标识和异常单机的特征指标等信息。

本实施例中,在利用3-sigma算法对单机的单特征指标进行分析时,若未识别到异常单机,则可以基于异常识别模型进行多特征指标的分析,以进一步识别集群中是否存在异常单机,这样,通过递进式的识别方式,可以有效地识别到集群中的异常单机,从而在识别到异常单机后,可以及时地采取相应措施,保证集群可以正常地对外提供服务。

为了便于理解整个技术方案,可以参见图2。图2为本申请的一个实施例集群中异常单机的识别方法的流程示意图。图2所示的实施例包括以下步骤:

s201:获取集群中多个单机的特征指标。

在s201中,针对集群中的每个单机,可以分别获取多个特征指标,其中,该多个特征指标可以包括以下至少两种:cpu使用率、平均负载、线程异常数、rpc调用失败数、代码异常数量、rpc调用耗时。

s202:针对其中一个特征指标,利用3-sigma算法确定多个单机的所述特征指标中是否存在目标特征指标。

在s202中,可以针对每个特征指标,利用3-sigma算法确定多个单机的该特征指标中,是否存在目标特征指标,该目标特征指标表征异常的特征指标。具体实现方式可以参见图1所示实施例中的相应内容,这里不再重复描述。

若多个单机的特征指标中存在目标特征指标,则可以执行s206;若多个单机的特征指标中不存在目标特征指标,则可以执行s203。

s203:基于每个单机的多个特征指标,利用异常识别模型确定每个单机对应的异常特征值。

其中,异常识别模型可以基于集群中每个单机的特征指标训练得到,在进行模型训练时,优选iforest算法进行训练。

在得到异常识别模型后,针对其中一个单机,可以以该单机的多个特征指标作为模型的输入,模型的输出即为该单机的异常特征值。

s204:针对其中一个单机,基于多个单机各自的异常特征值,利用3-sigma算法确定所述单机的异常特征值是否异常。

具体地,首先,基于多个单机各自对应的异常特征值,确定正态分布曲线;其次,基于该正态分布曲线,确定异常特征值的平均值μ和标准差σ;最后,判断该单机的异常特征值是否在(μ-3σ,μ-3σ)内,若是,则可以确定该单机的异常特征值正常;若否,则可以确定该单机的异常特征值偏离其他单机的异常特征值,即该单机的异常特征值异常。

在确定单机的异常特征值异常时,可以执行205;在确定单机的异常特征值正常时,可以确定单机为正常单机。

在s204中,若集群中每个单机的异常特征值均正常,则可以确定集群中不存在异常单机,此时,可以执行s208。

s205:确定所述单机为异常单机。

在确定集群中的异常单机后,可以执行s207。

s206:确定与所述目标特征指标对应的单机为异常单机。

在确定集群中的异常单机后,可以执行s207。

s207:生成异常单机的数据报告。

本实施例中,异常单机的数据报告中可以包括异常单机的标识和异常单机的特征指标等信息。

s208:结束。

在上述s201至s208中,在基于3-sigma算法识别到异常单机后,可以无需执行s203至s205。但是,应理解,在其他实现方式中,也可以利用异常识别模型进行进一步识别,以对3-sigma算法的识别结果进行验证,提高识别结果的准确度。

本申请实施例提供的技术方案,通过获取集群中每个单机的特征指标,并利用3-sigma算法对每个特征指标进行分析,可以及时地发现集群中的异常单机,从而在发现异常单机后,可以及时地对采取相应措施,保证集群能够正常地对外提供服务。

图3为本申请的一个实施例集群中异常单机的识别方法的流程示意图。本实施例,集群内可以包括多个分组,每个分组内可以包括多个单机,其中,同一分组内的单机型号相同。本实施例所述的识别方法包括以下步骤。

s302:获取集群中同一分组内多个单机的特征指标。

在s302中,在识别集群中是否存在异常单机时,可以以集群中的一个分组为单位,获取同一分组内多个单机的特征指标,其中,位于同一分组内的多个单机的型号相同,且在正常情况下,同一分组内不同单机的特征指标之间相差不大。

这里获取同一分组内多个单机的特征指标的原因是,通常位于不同分组内的单机的型号不同,且在正常情况下,不同分组的单机的特征指标有可能不一致,即有可能存在离群特征指标,这样,如果在不同分组的单机中存在离群单机,那么,该离群单机存在被误判为异常单机的可能。本实施例获取位于同一分组内多个单机的特征指标,则可以解决上述误判问题。

本实施例在获取同一分组内多个单机的特征指标时,针对其中一个单机,可以获取该单机的多个特征指标,且,针对不同的单机,获取的特征指标相同。

需要说明的是,本实施例在获取特征指标时,为了保证异常单机的识别准确度,至少可以遵循以下标准:

第一:获取的特征指标很大概率上会影响集群正常对外提供服务;

第二:获取的特征指标具有集群一致性。

优选地,针对一个单机而言,获取的多个特征指标可以包括以下至少两种:

cpu使用率、平均负载、线程异常数、rpc调用失败数、代码异常数量、rpc调用耗时。

具体可以参见图1所示实施例中的相应记载,这里不再重复说明。

在获取到集群中同一分组内多个单机的特征指标后,可以执行s304。

s304:基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机。

第一离群单机可以理解为包括异常特征指标的单机,本实施例中,第一离群单机的个数可以是一个,也可以是多个。

在利用3-sigma算法确定第一离群单机时,首先,针对其中一个特征指标,利用3-sigma算法确定同一分组内多个单机的该特征指标中是否存在异常的目标特征指标;其次,若存在,则可以将目标特征指标对应的单机确定为第一离群单机。具体实现方式可以参见图1所示实施例中相应步骤的具体实现,这里不再重复说明。

若不存在,则可以基于上述相同的方法,进一步确定同一分组内多个单机的其他特征指标中是否存在异常的目标特征指标,若存在,则可以进一步确定其他的第一离群单机,若均不存在,则可以确定该分组内多个单机中不存在第一离群单机。

本实施例中,可以以存在第一离群单机为例进行说明,其中,第一离群单机的个数可以是一个,也可以是多个。

在确定第一离群单机后,可以执行s306。

s306;基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机。

本实施例中,异常识别模型可以基于s302中获取的多个单机的特征指标训练得到。优选地,可以利用iforest算法,对集群同一分组内多个单机各自的多个特征指标进行训练,得到异常识别模型。

在利用异常识别模型确定第二离群单机时,针对分组内的其中一个单机,可以执行以下步骤:

首先,可以基于该单机的特征指标,利用异常识别模型确定该单机对应的异常特征值。

具体地,可以将该单机的多个特征值指标作为异常识别模型的输入,异常识别模型可以输出一个分值,该分值即为该单机对应的异常特征值。

其次,确定该单机的异常特征值是否异常。

这里可以基于分组内多个单机各自的异常特征值,利用3-sigma算法确定该单机的异常特征值是否异常,其中,分组内多个单机各自的异常特征值可以基于异常识别模型确定得到,具体实现方式可以参见图1所示实施例中相应步骤的具体实现,这里不再重复描述。

最后,若该单机的异常特征值异常,则可以说明,该单机的异常特征值偏离了分组内其他单机的异常特征值,此时,可以将该单机确定为第二离群单机;否则,可以确定该单机为正常单机。

这样,在确定该单机是否是第二离群单机后,可以基于相同的方法确定分组内其他单机是否是第二离群单机。

本实施例可以以存在第二离群单机为例进行说明,其中,第二离群单机的数量可以是一个,也可以是多个,可以于第一离群单机相同,也可以不同。

在确定第二离群单机后,可执行s308。

需要说明的是,本实施例中记载的s304和s306的执行顺序,也可以是先执行s306,再执行s304,或者,还可以并行执行s304和s306,无论哪种执行顺序,均不会影响后续异常单机的识别结果。

s308:根据所述第一离群单机和第二离群单机,确定异常单机。

本实施例中,考虑到离群单机不一定是异常单机,因此,为了提高对异常单机的识别准确度,在得到第一离群单机和第二离群单机后,可以对第一离群单机和第二离群单机进行进一步分析,并从第一离群单机和第二离群单机中确定异常单机。

本实施例中,至少可以通过以下三种方法,从第一离群单机和第二离群单机中确定异常单机。

第一种方法:

针对第一离群单机和第二离群单机中的其中一个离群单机,可以判断改离群单机是否满足预设条件,若满足,则可以确定离群单机为异常单机,否则,可以确定离群单机为正常单机。

预设条件可以表征离群单机中异常特征指标的个数不小于预设值,或,表征离群单机为第二离群单机且该离群单机中包括异常的特征指标(个数可以是一个,也可以是多个),其中,预设值可以根据实际情况确定,这里不做具体限定,本实施例中,预设值可以优选3。

例如,若离群单机1为第一离群单机,且包含5个异常的特征指标,则可以确定离群单机1为异常单机;若离群单机2为第二离群单机,且包含1个异常的特征指标,则可以确定离群单机2为异常单机。

若离群单机3为第一离群单机,不为第二离群单机,且包含1个异常的特征指标,则可以确定离群单机3不是异常单机;若离群单机4为第二离群单机,不为第一离群单机,且不包含异常的特征指标,则可以确定离群单机4不是异常单机。

这样,在使用上述第一种方法确定其中一个离群单机是否为异常单机后,可以基于相同的方法,确定该分组内其他的离群单机是否为异常单机,进而确定得到该分组内的异常单机。

第二种方法:

针对其中一个离群单机,判断该离群单机的特征指标是否在预设阈值内;若否,则确定该离群单机为异常单机;若是,则可以确定该离群单机为正常单机。

所述预设阈值表征正常的特征指标对应的阈值,可以根据历史经验确定得到的。

在判断该离群单机的特征指标是否在预设阈值内时,若离群单机为第一离群单机,则,优选地,可以确定离群单机中异常特征指标是否在预设阈值内;若离群单机为第二离群单机,则,优选地,可以确定离群单机中每个特征指标是否在预设阈值内。

这样,在使用上述第二种方法确定其中一个离群单机是否为异常单机后,可以基于相同的方法,确定该分组内其他的离群单机是否为异常单机,进而确定得到该分组内的异常单机。

第三种方法:

针对其中一个离群单机,首先,可以判断该离群单机是否满足上述第一种方法中记载的预设条件;其次,若满足,则可以进一步判断该离群单机的特征指标是否在上述第二种方法记载的预设阈值内;最后,若该离群单机的特征指标不在预设阈值内,则可以确定该离群单机为异常单机。其中,各步骤的具体实现方式可以参见上述第一种方法和第二种方法记载的相关内容,这里不再重复描述。

这样,在使用上述第三种方法确定其中一个离群单机是否为异常单机后,可以基于相同的方法,确定该分组内其他的离群单机是否为异常单机,进而确定得到该分组内的异常单机。

本实施例在基于上述任一种方法确定得到异常单机后,还可以生成异常单机的数据报告,该数据报告中可以包括异常单机的标识和异常单机的特征指标等信息。

基于本实施例上述s302至s308记载的内容,可以有效地识别到集群中同一分组内的异常单机,从而在识别到异常单机后,可以采取相应措施,以保证集群可以正常对外提供服务。

需要说明的是,本实施例与图1(或图2)所示的实施例相比,两者都可以识别集群中是否存在异常单机,不同的是:

(1)本实施例中获取的是集群中同一分组的多个单机的特征指标,图1(或图2)所示实施例中获取的是集群中多个单机的特征指标,两者相比,本实施例可以避免由于单机的型号不同导致的将正常情况下的离群单机误判为异常单机的问题,从而提高识别结果的准确度;

(2)本实施例是同时使用3-sigma算法和异常识别模型对获取的特征指标进行分析处理,图1(或图2)所示实施例是首先使用3-sigma算法对获取的特征指标进行分析处理,在未识别到异常单机的基础上,才利用异常识别模型对获取的特征指标进行分析处理,两者相比,本实施例识别结果的准确度相对较高;

(3)本实施例在得到离群单机后,通过对离群单机做进一步分析才确定异常单机,因此,可以降低将正常的离群单机误判为异常单机的可能性,从而提高识别结果的准确度。

为了便于理解图3所示实施例的整个技术方案,可以参见图4。图4是本申请的一个实施例集群中异常单机的识别方法的流程示意图,包括以下步骤:

s401:获取集群中同一分组内多个单机的特征指标。

其中,同一分组内的多个单机型号相同,针对一个单机而言,可以获取该单机的多个特征指标,优选地,该多个特征指标可以是cpu使用率、平均负载、线程异常数、rpc调用失败数、代码异常数量、rpc调用耗时中的至少两种。

s402:利用3-sigma算法,确定多个单机的相同特征指标中是否存在异常的目标特征指标。

具体实现方式可以参见图1所示实施例中相应步骤的具体实现,这里不再重复描述。

若存在目标异常特征指标,则执行s403;否则,可以执行404。

s403:将所述目标特征值对应的单机确定为第一离群单机。

在确定第一离群单机后,可以执行s404。

s404:利用异常识别模型确定多个单机各自的异常特征值。

具体实现方式可以参见图3所示实施例中相应步骤的具体实现,这里不再重复描述。

s405:根据多个单机各自的异常特征值,利用3-sigma算法确定第二离群单机。

首先,针对其中一个单机,可以利用3-sigma算法确定该单机的异常特征值是否异常;其次,若该单机的异常特征值异常,则可以确定该单机是第二离群单机,否则,可以确定该单机不是第二离群单机。

这样,针对多个单机各自的异常特征值,利用3-sigma算法进行分析后,可以得到第二离群单机。

在得到第二离群单机中,可以执行s406。

s406:针对其中一个离群单机,确定所述离群单机是否满足预设条件。

所述离群单机为第一离群单机或第二离群单机中的一个单机,所述预设条件可以表征离群单机中异常特征指标的个数不小于预设值,或表征离群单机为第二离群单机且离群单机中包括异常的特征指标。

若离群单机满足预设条件,则可以执行s407;否则,可以说明该离群单机为正常单机,此时,可以执行s410。

s407:确定所述离群单机的特征指标是否在预设阈值内。

所述预设阈值表征正常的特征指标对应的阈值,可以根据历史经验确定得到的。

在确定离群单机的特征指标是否在预设阈值内时,若离群单机为第一离群单机,则,优选地,可以确定离群单机中异常特征指标是否在预设阈值内;若离群单机为第二离群单机,则,优选地,可以确定离群单机中每个特征指标是否在预设阈值内。

若离群单机的特征指标不在预设阈值内,则可以说明该离群单机的特征指标偏离了正常指标范围,并执行s408;若离群单机的特征指标在预设阈值内,则可以说明该离群单机的特征指标均正常,该离群单机为正常单机,此时,可以执行s410。

s408:确定所述离群单机为异常单机。

s409:生成异常单机的数据报告。

所述数据报告中可以包括异常单机的标识和异常单机的特征指标等信息。

s410:结束。

需要说明的是,上述s402至s403,与s404至s405可以并行执行,也可以先执行s404至s405,后执行s402至s403。

此外,在其他实现方式中,在执行s406时,若离群单机满足预设条件,则还可以直接执行s408;或者,在上述整个过程中,可以不执行s406,而直接执行s407,最终,都可以实现识别异常单机的目的。

本申请实施例提供的技术方案,在识别异常单机时,可以获取集群中同一分组内多个单机的特征指标,同一分组内每个单机的型号相同,一个单机包括多个特征指标,基于这些特征指标,分别利用3-sigma算法和异常识别模型,判断哪些单机是可能存在异常的单机,并从这些单机中进一步确定异常单机。由于同一分组内每个单机的型号相同,因此,针对集群中同一分组内多个单机的特征指标进行分析,可以避免由于单机的型号不同导致的将正常情况下的离群单机误判为异常单机的问题,从而提高识别结果的准确度;由于分别利用3-sigma算法和异常识别模型两种方式确定离群单机,因此,可以提高识别结果的准确性;由于在得到离群单机后,在对这些离群单机进行进一步分析的基础上得到异常单机,因此,可以降低将正常的离群单机误判为异常单机的可能性,从而提高识别结果的准确度。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

图5是本申请的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-accessmemory,ram),也可能还包括非易失性存储器(non-volatilememory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industrystandardarchitecture,工业标准体系结构)总线、pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成集群中异常单机的识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

获取集群中多个单机的特征指标,一个单机包括多个特征指标;

针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;

若存在所述目标特征指标,则将所述目标特征指标对应的单机确定为异常单机。

上述如本申请图5所示实施例揭示的集群中异常单机的识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

该电子设备还可执行图1和图2的方法,并实现集群中异常单机的识别装置在图1和图2所示实施例中的功能,本申请实施例在此不再赘述。

当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1和图2所示实施例的方法,并具体用于执行以下操作:

获取集群中多个单机的特征指标,一个单机包括多个特征指标;

针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;

若存在所述目标特征指标,则将所述目标特征指标对应的单机确定为异常单机。

图6是本申请的一个实施例集群中异常单机的识别装置60的结构示意图。请参考图6,在一种软件实施方式中,所述集群中异常单机的识别装置60可包括:获取单元61、处理单元62和识别单元63,其中:

获取单元61,获取集群中多个单机的特征指标,一个单机包括多个特征指标;

处理单元62,针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;

识别单元63,若存在所述目标特征指标,则将所述目标特征指标对应的单机确定为异常单机。

可选地,所述多个特征指标包括以下至少两种:

cpu使用率、平均负载、线程异常数、rpc调用失败数、代码异常数量、rpc调用耗时。

可选地,所述处理单元62,若所述多个单机的每个特征指标中均不存在异常的目标特征指标,则针对其中一个单机,执行以下操作:

基于所述单机的多个特征指标,利用异常识别模型确定所述单机对应的异常特征值,所述异常识别模型基于所述多个单机的特征指标训练得到;

根据所述异常特征值,确定所述单机是否为异常单机。

可选地,所述处理单元62,根据所述异常特征值,确定所述单机是否为异常单机,包括:

基于所述多个单机各自对应的异常特征值,利用3-sigma算法确定所述单机的异常特征值是否异常;

若是,则确定所述单机为异常单机。

本申请实施例提供的集群中异常单机的识别装置60还可执行图1和图2的方法,并实现集群中异常单机的识别装置在图1和图2所示实施例的功能,本申请实施例在此不再赘述。

图7是本申请的一个实施例电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-accessmemory,ram),也可能还包括非易失性存储器(non-volatilememory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industrystandardarchitecture,工业标准体系结构)总线、pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成集群中异常单机的识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

获取集群中同一分组内多个单机的特征指标,所述分组内每个单机的型号相同,一个单机包括多个特征指标;

基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,所述第一离群单机中包括异常的特征指标;

基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,所述异常识别模型基于所述多个单机的特征指标训练得到;

根据所述第一离群单机和所述第二离群单机,确定异常单机。

上述如本申请图7所示实施例揭示的集群中异常单机的识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

该电子设备还可执行图3和图4的方法,并实现集群中异常单机的识别装置在图3和图4所示实施例中的功能,本申请实施例在此不再赘述。

当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图3和图4所示实施例的方法,并具体用于执行以下操作:

获取集群中同一分组内多个单机的特征指标,所述分组内每个单机的型号相同,一个单机包括多个特征指标;

基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,所述第一离群单机中包括异常的特征指标;

基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,所述异常识别模型基于所述多个单机的特征指标训练得到;

根据所述第一离群单机和所述第二离群单机,确定异常单机。

图8是本申请的一个实施例集群中异常单机的识别装置80的结构示意图。请参考图8,在一种软件实施方式中,所述集群中异常单机的识别装置80可包括:获取单元81、第一处理单元82、第二处理单元83和识别单元84,其中:

获取单元81,获取集群中同一分组内多个单机的特征指标,所述分组内每个单机的型号相同,一个单机包括多个特征指标;

第一处理单元82,基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,所述第一离群单机中包括异常的特征指标;

第二处理单元83,基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,所述异常识别模型基于所述多个单机的特征指标训练得到;

识别单元84,根据所述第一离群单机和所述第二离群单机,确定异常单机。

可选地,所述多个特征指标包括以下至少两种:

cpu使用率、平均负载、线程异常数、rpc调用失败数、代码异常数量、rpc调用耗时。

可选地,所述第一处理单元82,基于所述多个单机的特征指标,利用3-sigma算法确定第一离群单机,包括:

针对其中一个特征指标,利用3-sigma算法确定所述多个单机的所述特征指标中是否存在异常的目标特征指标;

若是,则将所述目标特征指标对应的单机确定为所述第一离群单机。

可选地,所述第二处理单元83,基于所述多个单机的特征指标,利用异常识别模型确定第二离群单机,包括:

针对其中一个单机,执行以下操作:

基于所述单机的特征指标,利用所述异常识别模型确定所述单机对应的异常特征值;

确定所述单机的异常特征值是否异常;

若是,则将所述单机确定为所述第二离群单机。

可选地,所述第二处理单元83,确定所述异常特征值是否异常,包括:

基于所述多个单机各自的异常特征值,利用3-sigma算法确定所述单机的异常特征值是否异常。

可选地,所述识别单元84,根据所述第一离群单机和所述第二离群单机,确定异常单机,包括以下至少一种:

针对所述第一离群单机和所述第二离群单机中的每个离群单机,判断所述离群单机是否满足预设条件,所述预设条件表征所述离群单机中异常特征指标的个数不小于预设值,或表征所述离群单机为第二离群单机且所述离群单机中包括异常的特征指标;若是,则确定所述离群单机为异常单机;

针对每个离群单机,判断所述离群单机的特征指标是否在预设阈值内,所述预设阈值为经验值;若否,则确定所述离群单机为异常单机;

针对每个离群单机,判断所述离群单机是否满足所述预设条件;若是,则判断所述离群单机的特征指标是否在所述预设阈值内;若否,则确定所述离群单机为异常单机。

本申请实施例提供的集群中异常单机的识别装置80还可执行图3和图4的方法,并实现集群中异常单机的识别装置在图3和图4所示实施例的功能,本申请实施例在此不再赘述。

总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1