一种基于密度聚类的局部离群点检测方法

文档序号:6637881阅读:426来源:国知局
一种基于密度聚类的局部离群点检测方法
【专利摘要】本发明公开了一种基于密度聚类的局部离群点检测方法,包括以下步骤:(a)获取被检测数据集的数据族个数及聚类中心;(b)通过计算不同数据簇中各个数据对象的描述特征的均值和标准差;(c)利用3sigma准则检测得到每个数据簇的离群点。本发明采用上述方法,能够使参数设置容易,适用于任意形状和具有不同密度区域分布的数据集情况,可以对局部离群点进行检测,离群点的检测结果准确率高,算法对参数值的选择不敏感,鲁棒性好。
【专利说明】一种基于密度聚类的局部离群点检测方法

【技术领域】
[0001] 本发明涉及离群点检测领域,具体涉及一种基于密度聚类的局部离群点检测方 法。

【背景技术】
[0002] 离群点检测是数据挖掘中的一个分支,它的任务是识别其数据特征显著不同于其 他数据对象的观测值。离群点检测在数据挖掘中非常重要,因为如果异常是由固有数据的 变异造成的,那么对它们进行分析可以发现蕴藏在其中更深层次的、潜在的、有价值的信 息。因此,离群点检测是一个非常有意义的研究方向。
[0003] 数据挖掘专家Hawkins将离群点定义为:"离群点是数据集中与众不同的数据对 象,其表现与其它数据对象非常不同,以至于使人怀疑这些数据对象并非随机的偏差,而是 由另外一种完全不同的机制所产生的"。这个定义一定程度上揭示了离群的本质,被广泛引 用。但这只是一个并不严格的描述型定义。事实上,长期以来学术界并没有一个统一的关 于离群点的形式化定义。研究者们常常根据不同的应用环境给出离群点的形式化定义。多 年来,研究者们已经针对不同类型的数据集提出了不同的数学方法用于检测不同情况下所 存在的离群点。
[0004] 总的来说,离群点检测技术主要分为:基于统计的技术,基于距离的技术,基于密 度的技术,基于聚类的技术。
[0005] 1)基于统计的技术
[0006] 基于统计的离群点检测技术假定被检测的数据集符合某个概率分布模型,凡不符 合该分布模型的数据对象被视为离群点。基于统计的技术不适合高维数据集的离群点检 测。此外,有参的统计方法还需要知道(或能估计出)数据的分布参数,但绝大多数现实数 据集其分布规律都是未知的。事实上,很可能根本就不能用单一的分布来刻画其特征。这 些难点大大限制了基于统计的离群点检测方法的应用。
[0007] 2)基于距离的技术
[0008] 基于距离的技术其实是对基于统计的离群点检测技术做进一步的扩展。与基于统 计的技术相比,它可以处理多维属性的数据集,也不需要用户事先知道具体数据分布模型。 但该方法只能检测到全局离群点,无法对局部离群点进行检测。
[0009] 3)基于密度的技术
[0010] 为了解决基于距离的离群点检测技术无法检测局部离群点的问题,人们提出了基 于密度的离群点检测技术:LOF算法及其变体。该技术解决了局部离群程度的度量及其判 断问题,能够检测出局部离群点,并且对于数据对象在不同密度的区域也能够很好的处理。 其难点在于算法的参数选择比较困难。
[0011] 4)基于聚类的技术
[0012] 进一步的,人们将很多经典的聚类算法扩展到离群点的检测。例如,有些算法显式 地定义了离群点,将其看作所谓"背景噪声";有些算法为了减少离群点对聚类结果的不良 影响,自身引入了某种机制进行判断,如CLARANS,DBSCAN,BIRCH,WaveCluster等。还有很 多算法的设计初衷是进行聚类分析,但将聚类结果进一步扩展到离群点的判断中。目前, 大部分基于聚类技术的离群点检测方法往往不能达到最优,而且检测出的离群点很多都是 全局离群点,不能有效检测出局部离群点。此外,很多聚类算法的参数设置通常需要依靠经 验,难以确定,同时对参数值的选择非常敏感。


【发明内容】

[0013] 本发明的目的在于提供一种基于密度聚类的局部离群点检测方法,该方法适用于 任意形状和具有不同密度区域分布的数据集,可以有效检测局部离群点,同时所提算法的 参数设置容易,对参数的选择不敏感,算法的鲁棒性好。
[0014] 本发明为实现上述目的,采用以下技术方案实现:一种基于密度聚类的局部离群 点检测方法,包括以下步骤:
[0015] (a)获取被检测数据集的数据族个数及聚类中心;
[0016] (b)通过计算不同数据簇中各个数据对象的描述特征的均值和标准差;
[0017] (c)利用3sigma准则检测得到每个数据簇的离群点。
[0018] 进一步地,作为优选方案,所述步骤(a)的具体过程为:
[0019] (al)数据集的预处理;
[0020] (a2)计算数据集中数据对象间的相异度:如果数据对象的属性是数值型的,可利 用欧氏距离计算数据对象间的相异度;如果数据对象的属性是混合类型的,则可以使用如 下公式计算数据对象间的相异度:

【权利要求】
1. 一种基于密度聚类的局部离群点检测方法,其特征在于:包括以下步骤: (a) 获取被检测数据集的数据族个数及聚类中心; (b) 通过计算不同数据簇中各个数据对象的描述特征的均值和标准差; (c) 利用3sigma准则检测得到每个数据簇的离群点。
2. 根据权利要求1所述的一种基于密度聚类的局部离群点检测方法,其特征在于:所 述步骤(a)的具体过程为: (al)数据集的预处理; (a2)计算数据集中数据对象间的相异度:如果数据对象的属性是数值型的,可利用欧 氏距离计算数据对象间的相异度;如果数据对象的属性是混合类型的,则可以使用如下公 式计算数据对象间的相异度:
其中,Xi和Xj是两个数据对象;k是数据对象的维度,即属性个数;d(Xi,m,Xj,m)是数据 对象Xi和\在第m维上的相异度;δm是第m维的指示项; (a3)选择数据族个数及聚类中心; (a4)按照密度rho从大到小的顺序,将非聚类中心点分配到离该数据对象最近且密度 更大的聚类中心所在的数据簇。
3. 根据权利要求2所述的一种基于密度聚类的局部离群点检测方法,其特征在于:所 述步骤(al)包括数据清理和数据规范化,所述数据清理用于删除噪声数据和具有遗漏值 的数据,所述数据规范化的方法包括最大最小规范化、z-score规范化以及小数定标规范 化。
4. 根据权利要求2所述的一种基于密度聚类的局部离群点检测方法,其特征在于:所 述步骤(a3)的具体过程为: (a31)对每个数据对象定义两个描述特征,分别是该数据对象的密度rho以及该数据 对象到密度更大的数据对象的最小距离delta; (a32)定义截断距离dc,dc的大小设定为使得平均密度占数据集的数据总数的2 %,根 据dc计算每个数据对象的密度rho; (a33)得到每个数据对象的密度,并将数据对象的密度rho按照从大到小的顺序进行 排序,密度最大的数据对象的最小距离delta为该数据对象到其他所有数据对象的最大距 离; (a34)计算其余数据对象的最小距离delta,选择密度rho较大且最小距离delta很大 的数据对象作为整个数据集中不同数据簇的聚类中心。
5. 根据权利要求1所述的一种基于密度聚类的局部离群点检测方法,其特征在于:所 述步骤(b)的具体过程为: (bl)找出每个数据族的所有数据对象; (b2)将各个数据族中的数据对象按照其密度从大到小的顺序进行排序; (b3)计算每个数据族中各个数据对象的最小距离delta的均值delta_aver和标准差 Sigma0
6. 根据权利要求1所述的一种基于密度聚类的局部离群点检测方法,其特征在于:所 述步骤(c)的具体过程为: (cl)将数据族的中心,即每个数据族密度最大的数据对象,标记为正常数据; (c2)按照密度从大到小的顺序,依次判断数据族中其余数据对象是否为离群点。
7. 根据权利要求6所述的一种基于密度聚类的局部离群点检测方法,其特征在于:所 述步骤(c2)的具体判断过程为: (c21)首先,用3sigma准则进行判断,即判断数据对象的最小距离delta跟数据簇中所 有数据对象的最小距离delta的均值delta_aver之差的绝对值是否大于3sigma; (c22)如果数据对象的最小距离delta跟数据簇中所有数据对象的最小距离delta的 均值delta_aver之差的绝对值小于或等于3sigma,则数据对象跟密度更大的最近邻点属 于同一类型; (c23)如果数据对象的最小距离delta跟数据簇中所有数据对象的最小距离delta的 均值delta_aver之差的绝对值大于3sigma,则需要进一步判断该数据对象跟数据簇中心 是否可以3sigma可达; (c24)如果数据对象到其数据簇中心3sigma不可达或者与该数据对象密度更大的最 近邻点是离群点,则该数据对象被判断为离群点;反之,如果数据对象跟数据簇中心可以 3sigma可达或者与该数据对象密度更大的最近邻点不是离群点,则该数据对象不是离群 点。
【文档编号】G06F19/00GK104462819SQ201410748848
【公开日】2015年3月25日 申请日期:2014年12月9日 优先权日:2014年12月9日
【发明者】王电钢, 黄林, 黄昆, 常健, 陈龙, 潘可佳 申请人:国网四川省电力公司信息通信公司, 国家电网公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1