一种基于角度的高维数据离群检测方法

文档序号：9417473阅读：336来源：国知局

一种基于角度的高维数据离群检测方法
【技术领域】
[0001] 本发明涉及一种基于角度的高维数据离群检测方法，属于离群数据挖掘技术领域。
【背景技术】
[0002] 离群数据挖掘技术是目前数据挖掘领域的研究热点之一，广泛应用于网络流量入侵检测、交通事故检测、科学数据测量异常检测等领域。目前已有的离群数据挖掘主要基于距离或最近邻概念进行离群挖掘，在高维数据中，高维空间距离和最近邻已经不再具有欧式空间的特性，就会出现距离维度灾难的情况。在高维数据中，由于离群点远离其它数据点，离群点与其它点组成的向量的夹角变化不大，而非离群点被包围在数据点中，非离群点与其它点组成的向量的夹角变化较大，因此根据夹角变化的方差可以发现隐藏在高维数据中的离群数据。

【发明内容】

[0003] 为解决现有技术的不足，本发明的目的在于，提供一种基于角度的高维数据离群检测方法，本发明可以高效快速地从大规模高维数据中发现隐藏在其中的离群数据，可以广泛应用于信用卡欺诈检测、交通事故检测、科学数据测量异常检测等高维数据中。
[0004] 本发明的技术方案为：一种基于角度的高维数据离群检测方法，其特征在于，包括以下步骤：
[0005] (1)在数据集D中，对于每一个数据点A e D，获取A的k个最近邻点；
[0006] (2)计算各数据点基于角度的离群因子，即对于每个数据点A，分别计算A点到其余所有任意两个点B和C组成的向量和?芒的夹角的方差；
[0007] (3)按从小到大的顺序排序各数据点的离群因子，得到离群因子序列L，选取离群因子最小的点集为数据离群度最大的离群点集，选取方法为：划分平均间距序列L为2类 (；和C b，按照分类算法依次比较平均间距序列L中的前后数据，如果数值变化小于某一阈值 ε，则该数据及其后面所有的数据都划分为类Ca，其中，ε由用户确定，BP
[0008] VZi el, Ca= Φ, Cb= L
[0009] 如果 d = I Iw-Ii I〈 ε，则 Ca= C AU {1 J
[0010] 否贝iJ，Cb= CbVU，
[0011] 其中，I1表示平均间距序列L中的第i个数据，Φ表示空集；
[0012] (4)确定离群数据，检查所述步骤（3)中获得的类别Ca，如果Ca的数据个数大于某一阈值S，则该大规模高维数据中没有检测到离群点，否则C a中所有数据对应的点为离群点，其中，S由用户设定。
[0013] 前述的一种基于角度的高维数据离群检测方法，其特征在于，所述步骤（1)包括以下步骤：
[0014] 1-1)形式化数据集，高维数据形式化为：
[0015] 对于给定的高维数据集Dei?'范数M · 11定义为Rd-R+，内积〈·，·>定义为 RdXRd- R，v点A，B e D，1吞表示向量亙一云，其中Rd表示d维实数空间，R +表示正实数， Rd- R+表示d维实数空间上的元素到正实数的一个映射，R dXRd- R表示d维实数空间上的两个向量作内积运算；
[0016] 1-2)对于给定的高维数据集中的，采用超球搜索法获取A的k个最近邻点，表示为点集N k(A) e D。
[0017] 前述的一种基于角度的高维数据离群检测方法，其特征在于，所述步骤（2)包括以下步骤：
[0018] 2-1)定义离群因子AOF㈧G D , A的离群因子AOF㈧定义为A点到任意两点B和C组成的向量和的角度方差，具体描述为：
[0019] VA e D,Bi?,C 6-0，且 B ε D\ {A}, C ε D\ {A, B}
[0020]
[0021]
[0022]
[0023] 其中Var表示向量通_:和.衣^_的夹角ΦΒΜ方差，<:4爲此>表示向量I和无的内积，和iC分别表示向量的范数，ΕΦΒΑ(；表示夹角Φ BAe的数学期望；
[0024] 2-2)根据步骤1-2)获得A的k近邻Nk (A) e D，则2-1)中离群因子AOF (A)
[0025] 描述为基于A的k近邻的离群因子，即:
[0026] V/\ € D, Nk (A) e D, B, C e Nk (A)
[0027]
[0028] *
[0029] 其中Var表示向量和JC的夹角Φ μ；方差，<JC >表示向量和乂C的内积，/IS和』Γ分别表示向量的范数，ΕΦΒΑ(；表示夹角Φ BAe的数学期望。
[0030] 本发明所达到的有益效果：本发明可以高效快速地从大规模高维数据中发现隐藏在其中的离群数据，基于向量夹角的离群因子，能有效克服基于高维距离和最近邻等离群检测方法的"维度灾难"问题，利用本发明可以广泛应用于信用卡欺诈检测、交通事故检测、科学数据测量异常检测等高维数据中。
【附图说明】
[0031] 图1为本发明的一种基于角度的高维数据离群检测方法的流程图。
【具体实施方式】
[0032] 下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
[0033] 如图1所示，一种基于角度的高维数据离群检测方法，包括以下步骤：
[0034] 1)在数据集D中，对于每一个数据点A e D，获取A的k个最近邻点；
[0035] 为了得到各数据点的k个最近邻点，需要给出高维数据的形式化描述、k个近邻点的的计算方法，分别为：
[0036] 1-1)形式化数据集，所述高维数据形式化为：
[0037] 对于给定的高维数据集及e 范数11 · 11定义为Rd- R+，内积〈·，· >定义为 RdXRd-R，￥AA，B e D，i表示向量3-i,其中Rd表示d维实数空间，R+表示正实数， Rd- R+表示d维实数空间上的元素到正实数的一个映射，R dXRd- R表示d维实数空间上的两个向量作内积运算；
[0038] 1-2)对于给定的高维数据集中的点VJ e D，获取A的k个最近邻点，表示为点集 Nk(A) e D，方法为：米用超球搜索法获取k近邻点。
[0039] 超球搜索法的基本思想是将高维空间划分成若干个体积相等的超立方体，也即为基元超立方体，并依次进行编码，然后在以A为中心的超球内（由若干个基元超立方体覆盖）进行搜索，逐渐扩大超球半径直至超球内包含k个样本为止。该超球内的k近邻即为整个空间内的k近邻。该方法通过对特征空间的预组织，使分类在以A为中心的超球内进行。超球半径由零开始逐渐增大至超球内包含k个以上模式样本为止。超球搜索法分为两个阶段：第一阶段为组织阶

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘文婷;
技术所有人：河海大学;
我是此专利的发明人

上一篇：一种基于html5的动态标绘方法及装置的制造方法
上一篇：基于云的网页广告筛选方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。