本发明涉及数据处理技术领域,尤其涉及一种大数据异常点检测方法及其系统。
背景技术:
在大数据时代,数据的质量直接影响大数据分析处理方法的效果,也影响决策过程。通过分析海量数据,可以从中发现数据集中隐含的模式和规律。但数据集中的异常数据会对分析过程产生重大干扰,因此通过数据挖掘方法对大数据进行利用的研究领域中,数据异常检测已成为热门研究。
在大数据中的异常数据存在如下特点:1.与正常数据的表现有明显的差异;2.其产生机制与正常数据不同,可能为未知方式;3.数据维度较高,异常数据与正常数据一样,都是高维数据。
由于高维数据集中的数据点在高维空间内的分布有着稀疏性。因此,传统方法无法处理大数据中的异常数据检测问题。在现有高维异常数据检测方法中,通常可以采用数据点间的欧氏空间距离作为指标来判断数据的异常性,是否属于异常数据。
但由于高维数据在高维空间上的距离无法作为有效指标来进行衡量。进一步的,有些方案则引入余弦角度来代替欧氏距离作为指标,但这个方法的时间复杂度随着数据集的增大,急剧增大,同时通常的角度对比方法在非圆的数据集上不能很好地工作。
因此,现有技术还有待发展。
技术实现要素:
鉴于上述现有技术的不足之处,本发明的目的在于提供大数据异常点检测方法及其系统,旨在解决现有技术中数据异常点检测效果不佳的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种大数据异常点检测方法,其中,所述方法包括:
计算高维数据的维度属性权重,所述高维数据具有若干维度属性;
移除所述维度属性权重低于第一预定阈值的维度属性;
在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;
将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;
在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块;
计算不属于所述正常区块的高维数据的角度方差因子;
在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。
所述的方法,其中,所述第二预定阈值为所有二维平面区块的数据密度的平均值。
所述的方法,其中,所述方法还包括:
确定所述数据集在各维度属性上的数据密集区间;
根据所述数据密集区间获得所述数据集的若干个数据密集;
将所述数据密集中体积最小的超矩形作为所述标准切块。
所述的方法,其中,所述计算高维数据的维度属性权重,具体包括:
使用如下算式计算所述维度属性权重:
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性,ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重;rc(pi,pj)为第i个和第j个维度属性的联合权重。
所述的方法,其中,使用如下算式计算所述独立权重:
其中,ei为pi的熵值,
使用如下算式计算所述联合权重:
其中,
一种大数据异常点检测系统,其中,包括:
约简降维模块,用于计算高维数据的维度属性权重,所述高维数据具有若干维度属性;以及移除所述维度属性权重低于第一预定阈值的维度属性;
数据集切分模块,用于在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;以及在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块;
异常数据判断模块,用于计算不属于所述正常区块的高维数据的角度方差因子;以及在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。
所述的系统,其中,所述第二预定阈值为所有二维平面区块的数据密度的平均值。
所述的系统,其中,所述数据集切分模块还用于:确定所述数据集在各维度属性上的数据密集区间;根据所述数据密集区间获得所述数据集的若干个数据密集;以及将所述数据密集中体积最小的超矩形作为所述标准切块。
所述的系统,其中,所述约简降维模块具体用于:使用如下算式计算所述维度属性权重:
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性,ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重;rc(pi,pj)为第i个和第j个维度属性的联合权重。
所述的系统,其中,所述约简降维模块具体用于:使用如下算式计算所述独立权重:
其中,ei为pi的熵值,
使用如下算式计算所述联合权重:
其中,
有益效果:本发明提供的大数据异常点检测方法及其系统,基于数据区域切分和约简降维的思想,有效克服了现有异常数据检测方法,在处理大规模高维数据时,时间复杂度过高及效果不理想的弊端,处理大规模高维数据集中的异常点检测这样的复杂问题具有较好的效果。
附图说明
图1为本发明实施例提供的大数据异常点检测方法的方法流程图;
图2为本发明实施例提供的二维平面区块图;
图3为本发明实施例提供的相邻数据区块图;
图4为本发明实施例提供的大数据异常点检测系统的功能框图。
具体实施方式
本发明提供大数据异常点检测方法及其系统。为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例提供的一种大数据异常点检测方法的方法流程图。所述方法包括如下步骤:
100、计算高维数据的维度属性权重,所述高维数据具有若干维度属性。
200、移除所述维度属性权重低于第一预定阈值的维度属性。
步骤100和200属于预处理的过程,大数据通常包含高维数据,其特性是维度属性较多。令pi表示第i维上的属性,根据分析需要的不同,各维度属性的重要性也不相同。因此,在进行异常点检测前,可以首先根据属性的权重来去除一些冗余属性,进行约简降维。
基于在高维数据中,维度属性间存在着一定的相关关系,不同维度属性之间的权重会受其它属性的影响的考虑,在本发明实施例中,具体可以采用如下方法计算维度属性权重:
设对于高维数据集d,p={p1,p2,…,pi,…,pn}为其维度属性集合,n为长度,对于维度属性集合中的某个维度属性pi的权重r(pi)可以通过算式(1)计算获得:
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性。ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重,rc(pi,pj)为第i个和第j个维度属性的联合权重。
对于独立权重,可以使用算式(2)计算获得:
其中,ei为pi的熵值,
对于联合权重,可以使用算式(3)计算获得:
其中,
在计算获得所述维度属性权重后,可以根据实际情况的需要,设置合适的阈值用以筛选或者移除一些维度属性,实现约简降维。对于小于阈值的维度属性,将其移出集合,降低后续操作的开销。较佳的,第一预定阈值η设置为η∈[0.2,0.25]时,具有较为理想的筛选效果。
300、在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果。
进一步的,对于该数据集d,各个维度属性上均会存在有数据相对集中的区间
400、将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块。在划分后,可以通过将数据投射到二维平面的方法,获得对应的二维平面区块reci。
500、在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块。
图2为本发明实施例提供的二维平面区块的示意图。如图2所示,不同的二维平面区块的数据密度情况有异。可以通过算式(4)计算某个二维平面区块的数据密度:
其中,count(reci),acr(reci)分别为reci包含的数据点数量和区块面积。当数据密度大于一定阈值时,将该区块标记为正常区块。在一些实施例中,所述阈值可以取所有区块的平均数据密度。
在获得至少一个正常区块后,可以使用一定的策略完成对于数据集区块的判断(即扩展正常区块)。例如,如图3所示,若正常区块的相邻区块密度也满足上述条件,则可以将其加入到连续的正常区块队列中。
600、计算不属于所述正常区块的高维数据的角度方差因子。
在步骤500的正常区块划分完成后,在数据集d中可以得到多个连续的正常数据区块。确定不在这些正常数据区块内的数据点并回到高维空间,计算这些数据点的角度方差因子。
在一些实施例中,可以通过算式(5)计算所述角度方差因子:
其中,xixk为数据点xi和xk的向量差,xi和xj落在正常数据区块reci内,xk落在正常数据区块外。
700、在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。计算获得角度方差因子后,同样也可以通过设置第三预定阈值,确定是否属于异常数据。
本发明实施例还提供了一种大数据异常点检测系统。如图4所示,所述系统包括:约简降维模块100,用于计算高维数据的维度属性权重,所述高维数据具有若干维度属性;以及移除所述维度属性权重低于第一预定阈值的维度属性。数据集切分模块200,用于在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;以及在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块。异常数据判断模块300,用于计算不属于所述正常区块的高维数据的角度方差因子;以及在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。
具体的,所述第二预定阈值为所有二维平面区块的数据密度的平均值。
在本发明另一些实施例中,所述数据集切分模块200还用于:确定所述数据集在各维度属性上的数据密集区间;根据所述数据密集区间获得所述数据集的若干个数据密集;以及将所述数据密集中体积最小的超矩形作为所述标准切块。
所述约简降维模块100具体用于:使用如下算式计算所述维度属性权重:
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性,ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重;rc(pi,pj)为第i个和第j个维度属性的联合权重。
可选地,使用如下算式计算所述独立权重:
其中,ei为pi的熵值,
使用如下算式计算所述联合权重:
其中,
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及本发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。