作业数据异常检测方法及装置与流程

文档序号:11729261阅读:207来源:国知局
作业数据异常检测方法及装置与流程

本发明涉及作业数据异常检测技术领域,特别是涉及作业数据异常检测方法及装置。



背景技术:

大数据平台中的监控模块,可以获取各类用户作业的作业数据,例如作业运行耗时等。这些作业数据十分重要,需要对它们进行检测,及时发现异常的作业数据并进行相应处理。

现有的作业数据异常检测技术常由技术人员为单一作业数据设定异常报警条件,当该种作业数据到达异常报警条件时,则进行异常报警。但这种方式过于依靠技术人员的经验和能力,同时,作业数据种类很多,作业数据量也巨大,因此大量作业数据之间具有何种关系无法被技术人员完全掌握,这种情况下,如何更好的发现异常的作业数据对本领域技术人员而言仍旧是一个亟待解决的技术难题。



技术实现要素:

本发明实施例的目的在于提供一种作业数据异常检测方法及装置,以更好的发现异常的作业数据。具体技术方案如下:

一种作业数据异常检测方法,包括:

获得多种作业数据;

从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;

确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;

确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。

可选的,所述确定所述结果空间集合中的为离群点的多维组合,包括:

确定所述结果空间集合中的多维组合的近邻点;

确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;

基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子lof值;

将所述lof值大于1的多维组合确定为离群点。

可选的,所述确定所述结果空间集合中的为离群点的多维组合,还包括:

按照所述lof值对所述结果空间集合中的各多维组合进行排序。

可选的,所述冗余数据,包括以下多种数据中的一种或多种:

非数值型数据;

常量型数据;

方差为零的数据;

同一种作业数据中的最大值;

同一种作业数据中的最小值。

可选的,在确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时,所述方法还包括:

将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中;

确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数p;

将所述p大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述p不大于所述第二预设阈值的二维数组从所述候选空间集合中删除;

将n设为3;

将各种n维组合的n维数组放入候选空间集合中;

按照预设顺序依次选择一种n维组合作为当前处理组合,对当前处理组合的各n维数组:

将当前处理组合的各n维数组确定为第一数据集;对除当前处理组合外的其他n维组合的n维数组进行采样,将采样后得到的n维数组映射为当前处理组合的n维数组,将映射后得到的n维数组确定为第二数据集;通过kolmogorov-smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除;

判断所述n是否小于所述待检测的多种作业数据的数据种类数量,如果是,则将所述n更新为n+1,返回执行所述将各种n维组合的n维数组放入候选空间集合中的步骤,否则,执行所述确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据的步骤。

一种作业数据异常检测装置,包括:数据获得单元、数据去除单元、数量判断单元、多维组合单元和离群确定单元,

所述数据获得单元,用于获得多种作业数据;

所述数据去除单元,用于从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;

所述数量判断单元,用于确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则触发所述多维组合单元;

所述多维组合单元,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;

所述离群确定单元,用于确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。

可选的,所述离群确定单元,包括:近邻点确定子单元、局部密度确定子单元、lof值确定子单元、离群点确定子单元和异常数据确定子单元,

所述近邻点确定子单元,用于确定所述结果空间集合中的多维组合的近邻点;

所述局部密度确定子单元,用于确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;

所述lof值确定子单元,用于基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子lof值;

所述离群点确定子单元,用于将所述lof值大于1的多维组合确定为离群点;

所述异常数据确定子单元,用于,将为离群点的多维组合确定为异常数据。

可选的,所述离群确定单元还包括:排序子单元,用于按照所述lof值对所述结果空间集合中的各多维组合进行排序。

可选的,所述冗余数据,包括以下多种数据中的一种或多种:

非数值型数据;

常量型数据;

方差为零的数据;

同一种作业数据中的最大值;

同一种作业数据中的最小值。

可选的,所述装置还包括:组合确定单元,所述组合确定单元在所述数量判断单元确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时被所述数量判断单元触发;

所述组合确定单元,包括:二维确定子单元和n维确定子单元,

所述二维确定子单元,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中;确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数p;将所述p大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述p不大于所述第二预设阈值的二维数组从所述候选空间集合中删除;

所述n维确定子单元,包括:n初始化子单元、数组放入子单元、组合选择子单元、当前处理子单元和数量判断子单元,

所述n初始化子单元,用于将n设为3;

所述数组放入子单元,用于将各种n维组合的n维数组放入候选空间集合中;

所述组合选择子单元,用于按照预设顺序依次选择一种n维组合作为当前处理组合;

所述当前处理子单元,用于对当前处理组合的各n维数组:

将当前处理组合的各n维数组确定为第一数据集;对除当前处理组合外的其他n维组合的n维数组进行采样,将采样后得到的n维数组映射为当前处理组合的n维数组,将映射后得到的n维数组确定为第二数据集;通过kolmogorov-smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除;

所述数量判断子单元,用于判断所述n是否小于所述待检测的多种作业数据的数据种类数量,如果是,则将所述n更新为n+1,并触发所述数组放入子单元,否则,触发所述离群确定单元。

本发明实施例提供的作业数据异常检测方法及装置,可以获得多种作业数据;从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。本发明首先将异常作业数据视为某段时间内所有作业数据中的离群点。

本发明把作业表示为n维空间里的一个点,所有的作业都可以在n维空间中找到对应的点。摆脱一维指标分析缺乏考虑指标之间关联性后,异常作业即远离n维空间中大多数点的观测点,同时关联子空间的挑选,可以加速检测并适用于更高维度指标的分析。本发明将作业数据的分析从一维扩展到多维,使得异常作业数据的检测不再受单指标的局限。

当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种作业数据异常检测方法的流程图;

图2为本发明实施例提供的一种作业数据异常检测方法中作业数据种类数量大于第一预设阈值时的执行流程图;

图3为本发明实施例提供的一种作业数据异常检测方法中确定所述结果空间集合中的为离群点的多维组合的执行流程图;

图4为本发明实施例提供的一种作业数据异常检测方法中另一种确定所述结果空间集合中的为离群点的多维组合的执行流程图;

图5为本发明实施例提供的一种作业数据异常检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供的一种作业数据异常检测方法,可以包括:

s100、获得多种作业数据;

其中,本发明可以从大数据平台的各类存储数据库中(如mysql、hbase)获得多种作业数据。具体的,作业数据可以为作业的状态指标,本发明可以通过对作业的状态指标进行监控来获得作业的状态指标。其中,作业的状态指标可以为任务数目、持续时间、输出结果大小、映射任务数等。

步骤s100可以仅获得当前时刻之前预设时间段内的多种作业数据,预设时间段可以为一个月。通过这种方式,可以使得本发明获得的作业数据更能体现出作业的变化,同时减少了计算量。

s200、从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;

其中,所述冗余数据,可以包括以下多种数据中的一种或多种:

非数值型数据;

常量型数据;

方差为零的数据;

同一种作业数据中的最大值;

同一种作业数据中的最小值。

其中,非数值型数据常为一些不需要关注的数据,如任务名称、任务策略名称、队列名称等。同时,常量型数据、方差为零的数据、同一种作业数据中的最大值、同一种作业数据中的最小值的统计分析意义不大,可以去除。

s300、确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则执行步骤s400;

在确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时,本发明可以去除其中的一些种类的作业数据。

在本发明其他实施例中,在确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时,如图2所示,图1所示方法还可以包括:

s601、将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中。

s602、确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数p。

其中,皮尔森相关系数为:x和y的协方差/(x的标准差*y的标准差)。

皮尔森相关系数可以用于判断两组数据的线性关系程度,它首先要求两组数据都服从正态分布,利用相关的函数得出系数,在-1和1之间的范围,0代表不相关,-1和1代表严格的线性相关。正数代表当x增加,y也增加,即正相关;负数代表x增加,y减小,即负相关。

s603、将所述p大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述p不大于所述第二预设阈值的二维数组从所述候选空间集合中删除。

s604、将n设为3。

s605、将各种n维组合的n维数组放入候选空间集合中。

s606、按照预设顺序依次选择一种n维组合作为当前处理组合,对当前处理组合的各n维数组:

将当前处理组合的各n维数组确定为第一数据集;对除当前处理组合外的其他n维组合的n维数组进行采样,将采样后得到的n维数组映射为当前处理组合的n维数组,将映射后得到的n维数组确定为第二数据集;通过kolmogorov-smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除。

具体的,可以通过为除当前处理组合外的其他n维组合的n维数组初始化一个随机分片{s2:[left,right],s3:[..],…,sn:[..]}来进行采样,其中,left、right范围为(0,1)。

kolmogorov-smirnov检验(简称ks检验)是检测两个样本数据是否来源与同一个连续分布集的方法,p-value是根据ks检验计算的另一个dstatistic值转换而来,dstatistic是两个数据集的最大距离,主要用于标识两个数据来源于同一个连续分布的假设是否成立,超过设置的p-value的阈值则成立,否则不成立;通常情况下如果p-value小于0.05那么来源于同一分布的假设就不成立。

s607、判断所述n是否小于所述待检测的多种作业数据的数据种类数量,如果是,则执行步骤s608;否则,执行所述步骤s500。

s608、将所述n更新为n+1,返回执行所述步骤s605。

为方便理解,下面对步骤s601至步骤s608进行举例说明,可以理解的是,下方举例说明过程各步骤的描述顺序并不一定与步骤s601至步骤s608的执行顺序完全一致。

方便起见,假设有4种作业数据,分别为种类a、种类b、种类c和种类d。每种作业数据对应的具体数据分别为:

a:a1、a2;

b:b1、b2;

c:c1、c2;

d:d1、d2。将每种作业数据作为多维组合的一个维度,则共有6种二维组合:ab、ac、ad、bc、bd、cd;每种二维组合的二维数组分别如下(共有24个二维数组):

ab:a1b1、a2b1、a1b2、a2b2;

ac:a1c1、a2c1、a1c2、a2c2;

ad:a1d1、a2d1、a1d2、a2d2;

bc:b1c1、b2c1、b1c2、b2c2;

bd:b1d1、b2d1、b1d2、b2d2;

cd:c1d1、c2d1、c1d2、c2d2。

将上述24个二维数组放入候选空间集合中,分别计算上述6种二维组合的二维数组的皮尔逊相关系数p。为方便起见,下面仅以ab这个二维数组为例对p的计算过程进行说明。

对于ab的各二维数组的p,按照预设顺序,分别计算ab的一个二维数组与ab的其他二维数组的p,将p大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中。例如:首先计算a1b1与(a2b1、a1b2、a2b2)的p,如果p大于第二预设阈值,则将a1b1从所述候选空间集合中转移到所述结果空间集合中;其次,计算a2b1与(a1b2、a2b2)的p(由于a1b1已经从候选空间集合中转移到结果空间集合,因此候选空间集合中没有a1b1),如果p不大于第二预设阈值,则将a2b1从所述候选空间集合中删除。

设n为3。

按照与二维相似的方式,将三维组合的三维数组放入候选空间集合中。具体的,由于只有四种业务数据,因此三维组合也只有4种:abc、abd、acd、bcd,其中abc对应的三维数组分别为:a1b1c1、a2b1c1、a1b2c1、a1b1c2、a2b2c1、a2b1c2、a1b2c2、a2b2c2。

下面以abc为当前处理组合进行举例说明:

第一数据集为:a1b1c1、a2b1c1、a1b2c1、a1b1c2、a2b2c1、a2b1c2、a1b2c2、a2b2c2。

除当前处理组合abc外的其他三维组合为abd、acd、bcd,对其他三维组合的三维数组进行采样,假设得到三维数组为:a1b1d1、a1c1d1、b1c1d1、a1b2d1、b1c1d2,则映射后得到的三维数组为:a1b1c1、a1b2c1,a1b1c1、a1b2c1即构成第二数据集。通过kolmogorov-smirnov检验计算所述第一数据集和所述第二数据集的p-value平均值,将该p-value平均值确定为当前处理组合abc的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合abc从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合abc从所述候选空间集合中删除。

之前的当前处理组合为abc,处理完abc后,本发明继续选择其他三维组合作为当前处理组合进行上述过程,直至将所有三维组合处理完毕。

由于n为3,小于业务数据种类数量4,因此将n更新为4,继续执行按照预设顺序依次选择一种n维组合作为当前处理组合及对当前处理组合进行处理的步骤,本发明不再举例说明。

s400、将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;

s500、确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。

其中,如图3所示,所述确定所述结果空间集合中的为离群点的多维组合,可以包括:

s510、确定所述结果空间集合中的多维组合的近邻点;

s520、确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;

s530、基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子lof值;

其中,局部异常值因子的英文全称为:localoutlierfactor。

s540、将所述lof值大于1的多维组合确定为离群点。

进一步,如图4所示,所述确定所述结果空间集合中的为离群点的多维组合,还可以包括:

s531、按照所述lof值对所述结果空间集合中的各多维组合进行排序。

通过排序就可以使得用户根据排序确定各多维组合的异常情况,更加直观易懂。

本发明实施例提供了一种作业数据异常检测方法,可以获得多种作业数据;从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。本发明首先将异常作业数据视为某段时间内所有作业数据中的离群点。本发明将作业数据的分析从一维扩展到多维,使得异常作业数据的检测不再受单指标的局限。

与上述方法实施例相对应,本发明还提供了一种作业数据异常检测装置。

如图5所示,本发明实施例提供的一种作业数据异常检测装置,可以包括:数据获得单元100、数据去除单元200、数量判断单元300、多维组合单元400和离群确定单元500,

所述数据获得单元100,用于获得多种作业数据;

所述数据去除单元200,用于从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;

其中,所述冗余数据,包括以下多种数据中的一种或多种:

非数值型数据;

常量型数据;

方差为零的数据;

同一种作业数据中的最大值;

同一种作业数据中的最小值。

所述数量判断单元300,用于确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则触发所述多维组合单元400;

所述多维组合单元400,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;

所述离群确定单元500,用于确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。

其中,所述离群确定单元500,可以包括:近邻点确定子单元、局部密度确定子单元、lof值确定子单元、离群点确定子单元和异常数据确定子单元,

所述近邻点确定子单元,用于确定所述结果空间集合中的多维组合的近邻点;

所述局部密度确定子单元,用于确定所述结果空间集合中的多维组合的局部密度及近邻点的局部密度;

所述lof值确定子单元,用于基于所述多维组合的局部密度及近邻点的局部密度确定所述结果空间集合中的多维组合的局部异常值因子lof值;

所述离群点确定子单元,用于将所述lof值大于1的多维组合确定为离群点;

所述异常数据确定子单元,用于,将为离群点的多维组合确定为异常数据。

进一步,所述离群确定单元500还可以包括:排序子单元,用于按照所述lof值对所述结果空间集合中的各多维组合进行排序。

在本发明其他实施例中,图5所示装置还可以包括:组合确定单元,所述组合确定单元在所述数量判断单元300确定所述待检测的多种作业数据中的作业数据种类数量大于第一预设阈值时被所述数量判断300单元触发;

所述组合确定单元,包括:二维确定子单元和n维确定子单元,

所述二维确定子单元,用于将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将各种二维组合的二维数组放入候选空间集合中;确定所述候选空间集合中每种二维组合的二维数组的皮尔逊相关系数p;将所述p大于第二预设阈值的二维数组从所述候选空间集合中转移到所述结果空间集合中,将所述p不大于所述第二预设阈值的二维数组从所述候选空间集合中删除;

所述n维确定子单元,包括:n初始化子单元、数组放入子单元、组合选择子单元、当前处理子单元和数量判断子单元,

所述n初始化子单元,用于将n设为3;

所述数组放入子单元,用于将各种n维组合的n维数组放入候选空间集合中;

所述组合选择子单元,用于按照预设顺序依次选择一种n维组合作为当前处理组合;

所述当前处理子单元,用于对当前处理组合的各n维数组:

将当前处理组合的各n维数组确定为第一数据集;对除当前处理组合外的其他n维组合的n维数组进行采样,将采样后得到的n维数组映射为当前处理组合的n维数组,将映射后得到的n维数组确定为第二数据集;通过kolmogorov-smirnov检验计算所述第一数据集和所述第二数据集的假设几率p-value平均值,将该p-value平均值确定为当前处理组合的p-value平均值;如果该平均值大于第三预设阈值,则将当前处理组合从所述候选空间集合中转移到所述结果空间集合中;如果该平均值不大于第三预设阈值,则将当前处理组合从所述候选空间集合中删除;

所述数量判断子单元,用于判断所述n是否小于所述待检测的多种作业数据的数据种类数量,如果是,则将所述n更新为n+1,并触发所述数组放入子单元,否则,触发所述离群确定单元500。

本发明实施例提供了一种作业数据异常检测装置,可以获得多种作业数据;从所述多种作业数据中去除冗余数据,得到待检测的多种作业数据;确定所述待检测的多种作业数据中的作业数据种类数量是否不大于第一预设阈值,如果是,则将所述待检测的多种作业数据中每一种作业数据作为多维组合的一个维度,将所有维度构成的多维组合放入结果空间集合中;确定所述结果空间集合中的为离群点的多维组合,将为离群点的多维组合确定为异常数据。本发明首先将异常作业数据视为某段时间内所有作业数据中的离群点。本发明将作业数据的分析从一维扩展到多维,使得异常作业数据的检测不再受单指标的局限。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1