一种基于角度的高维数据离群检测方法

文档序号:9417473阅读:336来源:国知局
一种基于角度的高维数据离群检测方法
【技术领域】
[0001] 本发明涉及一种基于角度的高维数据离群检测方法,属于离群数据挖掘技术领 域。
【背景技术】
[0002] 离群数据挖掘技术是目前数据挖掘领域的研究热点之一,广泛应用于网络流量入 侵检测、交通事故检测、科学数据测量异常检测等领域。目前已有的离群数据挖掘主要基于 距离或最近邻概念进行离群挖掘,在高维数据中,高维空间距离和最近邻已经不再具有欧 式空间的特性,就会出现距离维度灾难的情况。在高维数据中,由于离群点远离其它数据 点,离群点与其它点组成的向量的夹角变化不大,而非离群点被包围在数据点中,非离群点 与其它点组成的向量的夹角变化较大,因此根据夹角变化的方差可以发现隐藏在高维数据 中的离群数据。

【发明内容】

[0003] 为解决现有技术的不足,本发明的目的在于,提供一种基于角度的高维数据离群 检测方法,本发明可以高效快速地从大规模高维数据中发现隐藏在其中的离群数据,可以 广泛应用于信用卡欺诈检测、交通事故检测、科学数据测量异常检测等高维数据中。
[0004] 本发明的技术方案为:一种基于角度的高维数据离群检测方法,其特征在于,包括 以下步骤:
[0005] (1)在数据集D中,对于每一个数据点A e D,获取A的k个最近邻点;
[0006] (2)计算各数据点基于角度的离群因子,即对于每个数据点A,分别计算A点到其 余所有任意两个点B和C组成的向量和?芒的夹角的方差;
[0007] (3)按从小到大的顺序排序各数据点的离群因子,得到离群因子序列L,选取离群 因子最小的点集为数据离群度最大的离群点集,选取方法为:划分平均间距序列L为2类 (;和C b,按照分类算法依次比较平均间距序列L中的前后数据,如果数值变化小于某一阈值 ε,则该数据及其后面所有的数据都划分为类Ca,其中,ε由用户确定,BP
[0008] VZi el, Ca= Φ, Cb= L
[0009] 如果 d = I Iw-Ii I〈 ε,则 Ca= C AU {1 J
[0010] 否贝iJ,Cb= CbVU,
[0011] 其中,I1表示平均间距序列L中的第i个数据,Φ表示空集;
[0012] (4)确定离群数据,检查所述步骤(3)中获得的类别Ca,如果Ca的数据个数大于某 一阈值S,则该大规模高维数据中没有检测到离群点,否则C a中所有数据对应的点为离群 点,其中,S由用户设定。
[0013] 前述的一种基于角度的高维数据离群检测方法,其特征在于,所述步骤(1)包括 以下步骤:
[0014] 1-1)形式化数据集,高维数据形式化为:
[0015] 对于给定的高维数据集Dei?'范数M · 11定义为Rd-R+,内积〈·,·>定义为 RdXRd- R,v点A,B e D,1吞表示向量亙一云,其中Rd表示d维实数空间,R +表示正实数, Rd- R+表示d维实数空间上的元素到正实数的一个映射,R dXRd- R表示d维实数空间上 的两个向量作内积运算;
[0016] 1-2)对于给定的高维数据集中的,采用超球搜索法获取A的k个最近邻 点,表示为点集N k(A) e D。
[0017] 前述的一种基于角度的高维数据离群检测方法,其特征在于,所述步骤(2)包括 以下步骤:
[0018] 2-1)定义离群因子AOF㈧G D , A的离群因子AOF㈧定义为A点到任意两 点B和C组成的向量和的角度方差,具体描述为:
[0019] VA e D,Bi?,C 6-0,且 B ε D\ {A}, C ε D\ {A, B}
[0020]
[0021]
[0022]
[0023] 其中Var表示向量通_:和.衣^_的夹角ΦΒΜ方差,<:4爲此>表示向量I和无的 内积,和iC分别表示向量的范数,ΕΦΒΑ(;表示夹角Φ BAe的数学期望;
[0024] 2-2)根据步骤1-2)获得A的k近邻Nk (A) e D,则2-1)中离群因子AOF (A)
[0025] 描述为基于A的k近邻的离群因子,即:
[0026] V/\ € D, Nk (A) e D, B, C e Nk (A)
[0027]
[0028] *
[0029] 其中Var表示向量和JC的夹角Φ μ;方差,<JC >表示向量和乂C的 内积,/IS和』Γ分别表示向量的范数,ΕΦΒΑ(;表示夹角Φ BAe的数学期望。
[0030] 本发明所达到的有益效果:本发明可以高效快速地从大规模高维数据中发现隐藏 在其中的离群数据,基于向量夹角的离群因子,能有效克服基于高维距离和最近邻等离群 检测方法的"维度灾难"问题,利用本发明可以广泛应用于信用卡欺诈检测、交通事故检测、 科学数据测量异常检测等高维数据中。
【附图说明】
[0031] 图1为本发明的一种基于角度的高维数据离群检测方法的流程图。
【具体实施方式】
[0032] 下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明 的技术方案,而不能以此来限制本发明的保护范围。
[0033] 如图1所示,一种基于角度的高维数据离群检测方法,包括以下步骤:
[0034] 1)在数据集D中,对于每一个数据点A e D,获取A的k个最近邻点;
[0035] 为了得到各数据点的k个最近邻点,需要给出高维数据的形式化描述、k个近邻点 的的计算方法,分别为:
[0036] 1-1)形式化数据集,所述高维数据形式化为:
[0037] 对于给定的高维数据集及e 范数11 · 11定义为Rd- R+,内积〈·,· >定义为 RdXRd-R,¥AA,B e D,i表示向量3-i,其中Rd表示d维实数空间,R+表示正实数, Rd- R+表示d维实数空间上的元素到正实数的一个映射,R dXRd- R表示d维实数空间上 的两个向量作内积运算;
[0038] 1-2)对于给定的高维数据集中的点VJ e D,获取A的k个最近邻点,表示为点集 Nk(A) e D,方法为:米用超球搜索法获取k近邻点。
[0039] 超球搜索法的基本思想是将高维空间划分成若干个体积相等的超立方体,也即为 基元超立方体,并依次进行编码,然后在以A为中心的超球内(由若干个基元超立方体覆 盖)进行搜索,逐渐扩大超球半径直至超球内包含k个样本为止。该超球内的k近邻即为 整个空间内的k近邻。该方法通过对特征空间的预组织,使分类在以A为中心的超球内进 行。超球半径由零开始逐渐增大至超球内包含k个以上模式样本为止。超球搜索法分为两 个阶段:第一阶段为组织阶
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1