离群点检测方法和系统与流程

文档序号:12863631阅读:918来源:国知局
离群点检测方法和系统与流程

本发明涉及离群点检测技术领域,特别是涉及离群点检测方法和离群点检测系统。



背景技术:

离群点检测,亦称“异常点检测”,是从历史数据中找出其行为很不同于预期对象的一个检测过程,而这些对象被称为离群点或者异常点。随着科技的发展,离群点检测的应用前景越来越广泛。例如,在目前的数据科学领域中,基本上都是以数据流为导向来进行的。从数据源的获取到数据存储,然后到数据预处理,再到数据建模、数据分析与数据挖掘,最后再到数据变现。其中数据预处理的质量及准确性对于其后续的每一个步骤起着极其重要的作用,若数据存在离群点,则会直接导致数据挖掘算法过拟合,无法直接用于业务。又例如,在某些业务场景中,也会存在异常或离群对象显著的不同于其他绝大部分对象,这种情况下对数据进行异常挖掘就显得尤为重要,例如,在信用卡欺诈检测就是一个极为典型的例子,其主要目的是检测出异常对象的购买模式或行为。

传统技术中,一般通过在eda(exploratorydataanalysis,探索性数据分析)阶段使用图形化工具画出散点图或者盒图等,比较直观且可以从视觉上检测出基于距离的离群点。但是通过作图的这种方式,当数据量比较大的时候对全量数据进行可视化会带来一定的困难。



技术实现要素:

基于此,有必要针对上述在数据量较大时无法检测离群点的问题,提供一种离群点检测方法和系统,不受限于数据量的限制,即使在数据量较大时,也能准确检测出离群点。

一种离群点检测方法,包括步骤:

获取待检测的样本空间,其中所述样本空间包括多个样本点,每个样本点包括若干个维度;

从所述样本空间选取若干个样本点作为对应簇的中心点;

计算所述样本空间中未被选取的每个样本点与各个中心点之间的距离权重,其中所述距离权重为样本点和中心点的数值相同的维度数与总维度数之比;

根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离;

根据所述距离确定未被选取的每个样本点所属的簇;

将不属于任何簇的样本点判定为离群点。

上述离群点检测方法,在筛选样本空间中的离群点时,先计算出每个样本点与各个中心点之间的距离权重,然后根据距离权重对样本点和中心点的距离进行加权,根据加权后的距离检测出样本空间中的离群点,由于直接在样本空间中筛选出离群点,无需作图,因此不受限于数据量的大小,即使在数据量较大时,也可以准确检测出离群点。

在一个实施例中,将不属于任何簇的样本点判定为离群点之后,还包括步骤:计算每个簇的平均标准差,根据所述平均标准差获得每个簇的阈值;获取每个簇中与对应中心点之间的距离大于阈值的样本点,将获取的样本点作为候选离群点;对所有的候选离群点进行筛选,获得补充的离群点。对直接聚类的结果采用标准差的距离的策略进行了离群点的补充,使得对聚类的结果有较好的修正,以防止在聚类过程中离最终中心点最远的那些其实是离群点的样本点被错分到簇中,进一步提高了离群点检测的准确性。

在一个实施例中,对所有的候选离群点进行筛选,获得补充的离群点包括:将所有的候选离群点按照与中心点距离的大小进行排序,从距离最大的候选离群点开始选择预设个数的候选离群点作为补充的离群点。

在一个实施例中,计算每个簇的平均标准差包括:根据簇所包含的样本点的总数量、簇所包含的每个样本点在每个维度的数值以及簇所包含的所有样本点在每个维度的均值,获得每个簇在每个维度的标准差;计算每个簇所有维度的标准差的平均值,获得每个簇的平均标准差。

在一个实施例中,根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离包括:根据样本点与中心点之间的距离权重的倒数、样本点的维度的数值以及中心点的维度的数值,计算未被选取的每个样本点与各个中心点之间的马氏距离。距离权重为一个小数,越大表示两个样本点越接近,所以在马氏距离中作为距离权重的因子时使用其倒数,另外,传统技术中的作图方式不能体现多变量之间的关系,本发明使用马氏距离不受量纲的影响,且还考虑了变量之间的相关性,使聚类的结果更贴合实际聚类,能获得比较良好的聚类效果,进而更为准确检测出离群点。

在一个实施例中,根据所述距离确定未被选取的每个样本点所属的簇之后,将不属于任何簇的样本点判定为离群点之前,还包括步骤:判断得到的簇是否满足设定的收敛条件;若得到的簇不满足设定的收敛条件,重新选取每个簇的中心点,根据重新选取的各个中心点重新确定未被选取的每个样本点所属的簇。

在一个实施例中,确定未被选取的每个样本点所属的簇包括:若距离某样本点最近的中心点仅有一个,将该样本点归入最近的中心点所在的簇,若距离某样本点最近的中心点有多个,不将该样本点归入任何簇。

一种离群点检测系统,包括:

样本空间获取模块,用于获取待检测的样本空间,其中所述样本空间包括多个样本点,每个样本点包括若干个维度;

中心点选取模块,用于从所述样本空间选取若干个样本点作为对应簇的中心点;

距离权重获得模块,用于计算所述样本空间中未被选取的每个样本点与各个中心点之间的距离权重,其中所述距离权重为样本点和中心点的数值相同的维度数与总维度数之比;

距离获得模块,用于根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离;

簇划分模块,用于根据所述距离确定未被选取的每个样本点所属的簇;

离群点检测模块,用于将不属于任何簇的样本点判定为离群点。

上述离群点检测系统,在筛选样本空间中的离群点时,先计算出每个样本点与各个中心点之间的距离权重,然后根据距离权重对样本点和中心点的距离进行加权,根据加权后的距离检测出样本空间中的离群点,由于直接在样本空间中筛选出离群点,无需作图,因此不受限于数据量的大小,即使在数据量较大时,也可以准确检测出离群点。

在一个实施例中,离群点检测系统还包括与所述离群点检测模块相连的离群点补充模块,所述离群点补充模块包括:阈值获得单元,用于计算每个簇的平均标准差,根据所述平均标准差获得每个簇的阈值;候选离群点获得单元,用于获取每个簇中与对应中心点之间的距离大于阈值的样本点,将获取的样本点作为候选离群点;补充离群点获得单元,用于对所有的候选离群点进行筛选,获得补充的离群点。对直接聚类的结果采用标准差的距离的策略进行了离群点的补充,使得对聚类的结果有较好的修正,以防止在聚类过程中离最终中心点最远的那些其实是离群点的样本点被错分到簇中,进一步提高了离群点检测的准确性。

在一个实施例中,所述补充离群点获得单元将所有的候选离群点按照与中心点距离的大小进行排序,从距离最大的候选离群点开始选择预设个数的候选离群点作为补充的离群点。

附图说明

图1为一实施例的离群点检测方法的流程示意图;

图2为一具体实施例的聚类过程中离群点检测方法的流程示意图;

图3为另一实施例的离群点检测方法的流程示意图;

图4为一实施例的离群点检测系统的结构示意图;

图5为另一实施例的离群点检测系统的结构示意图;

图6为一实施例的离群点补充模块的结构示意图。

具体实施方式

在进行离群点检测时,传统技术中一般有两种方式:(1)在eda阶段作图检测出离群点;(2)基于统计的粒子群检测。上述第(1)种方式不适用于数据量比较大的情况,第(2)种方式不适用于高维的样本空间,且需要预先知道样本空间中数据的分布特征,而这些分布特征很有可能在进行离群点检测前是无法获取的。

为了有效解决上述缺陷,本发明采用基于距离的聚类算法,例如k-means算法,对样本空间的数据进行聚类计算以检测离群点。但是单纯基于聚类的离群点检测也存在局限性,例如,离群点在聚类的过程中会影响聚类的簇划分或簇结果,为了减小该局限性对离群点检测带来的影响,本发明方案做出如下改进:在对所有样本空间中的数据进行聚类时,对距离的求值进行加权,使得每一轮聚类都包含加权距离的因子。

为了更清楚的理解本发明所做出的改进,下面结合附图及较佳实施例,对聚类过程中离群点检测的技术方案,进行清楚和完整的描述。

如图1所示,一种离群点检测方法,包括步骤:

s110、获取待检测的样本空间,其中所述样本空间包括多个样本点,每个样本点包括若干个维度;

s120、从所述样本空间选取若干个样本点作为对应簇的中心点;

s130、计算所述样本空间中未被选取的每个样本点与各个中心点之间的距离权重,其中所述距离权重为样本点和中心点的数值相同的维度数与总维度数之比;

s140、根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离;

s150、根据所述距离确定未被选取的每个样本点所属的簇;

s160、将不属于任何簇的样本点判定为离群点。

上述离群点检测方法,不需要用户拥有任何领域知识,直接在样本空间中筛选出离群点,无需作图,因此不受限于数据量的大小,即使在数据量较大时,也可以准确检测出离群点;加入距离权重因子,使得聚类的结果更贴合实际聚类,能获得比较良好的聚类效果,更准确地筛选出离群点,此外距离权重因子依托维度数量,支持在大数据平台上对大规模高维数据进行离群点检测,可以解决高维样本带来的计算复杂度和难度,适用于高维的样本空间,且不需要预先知道样本空间中数据的分布特征。下面对各个步骤进行详细介绍:

在步骤s110中,随机事件e的所有基本结果组成的集合为e的样本空间。待检测的样本空间即为待检测离群点的数据。样本空间的元素称为样本点或基本事件。样本点包括若干个维度,例如,样本点的维度包括:id(身份标识)、gender(性别)、age(年龄)、salary(薪水)、address(地址)、job(工作)。每个样本点的维度的值构成样本点的向量的具体内容。例如,样本点1的向量为(身份证号a,女,30,4000,地址b,工作为c),样本点2的向量为(身份证号d,男,30,3500,地址e,工作为f)。

在步骤s120中,从样本空间随机选择k个样本点作为k个簇的中心点,k为大于等于1的整数。例如,从样本空间随机选择样本点1、样本点2和样本点3作为初始中心点,即样本点1为簇1的初始中心点,样本点2为簇2的初始中心点,样本点3为簇3的初始中心点。选取几个样本点则得到几个簇,每个簇的初始中心点为选取的对应的样本点。

在步骤s130中,由于每个中心点一定属于对应的簇,所以在对样本点进行簇划分时无需考虑选取的中心点,仅考虑未被选取的样本点即可,但是本发明并不对此做出限定。距离权重越大表示两个样本点相似度越高。对于某一个样本点a,计算出该样本点a与某个中心点c之间的距离权重,计算方法为:w=same_num/sum_num,其中w为该样本点a与中心点c之间的距离权重,same_num为该样本点a与中心点c的维度值相同的数量,每个样本点的总维度数都是一样的,所以sum_num为样本点a或中心点c的总维度数。采用上述方法可以计算出样本点a分别与k个中心点之间的距离权重,类似的,可以得到未被读取的每个样本点与k个中心点之间的距离权重。

例如,样本点的维度有:id、gender、age、salary、address和job,则总维度数为6。样本点1的各维度的数值为(a1,b1,c1,d1,e1,f1),某中心点的各维度的数值为(a2,b1,c1,d2,e2,f2),则值相同的维度数为2,则样本点1与该中心点的距离权重为2/6。

在步骤s140中,对于某一个样本点,根据该样本点与某中心点之间的距离权重,计算出该样本点与该中心点之间带距离权重的距离。计算距离的方式有很多种,例如,在一个实施例中,根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离可以包括:根据样本点与中心点之间的距离权重的倒数、样本点的维度的数值以及中心点的维度的数值,计算未被选取的每个样本点与各个中心点之间的马氏距离。具体的,通过下述公式计算某一样本点a和某一中心点c的马氏距离:

上式中,分别表示样本点a和中心点c,都是向量,每个样本点的维度值(维度的数值)就是向量的具体内容;表示样本点a和中心点c的距离,w表示样本点a和中心点c的距离权重;t表示转置,-1表示求逆。

在计算距离时使用马氏距离而非欧式距离的出发点在于,其一、马氏距离是与量纲无关的,其二、马氏距离还考虑了变量之间的相关性,相较于传统技术中作图方式不能体现多变量之间的关系的缺陷,使得聚类的结果更贴合实际聚类。另外,距离权重为一个小数,越大表示两个样本点越接近,所以在马氏距离中作为距离权重的因子时使用其倒数反映其倒数的值越小,两个样本点的距离越小。

在步骤s150中,在一个实施例中,确定未被选取的每个样本点所属的簇包括:若距离某样本点最近的中心点仅有一个,将该样本点归入最近的中心点所在的簇,若距离某样本点最近的中心点有多个,不将该样本点归入任何簇。

在步骤s160中,在一轮循环中不将该样本点归入任何簇只意味着该样本点在本轮循环中为疑似离群点,该样本点是否为离群点需要在满足收敛条件时确定。收敛条件可以根据实际需要确定,例如,设置循环次数为10次,且所有样本点的簇划分在最后5次循环中均不发生任何改变。若满足收敛条件,结束聚类,将不属于任何簇的离群点判定为离群点。若一个样本点判定为离群点,可以在该样本点上添加离群点的标记,以便于用户查看。

在一个实施例中,根据所述距离确定未被选取的每个样本点所属的簇之后,将不属于任何簇的样本点判定为离群点之前,还包括步骤:判断得到的簇是否满足设定的收敛条件;若得到的簇不满足设定的收敛条件,重新选取每个簇的中心点,根据重新选取的各个中心点重新确定未被选取的每个样本点所属的簇。即若不满足设定的收敛条件,则在已有的k个簇中各自重新选择中心点,继续迭代执行步骤s130至步骤s150,直至满足收敛条件结束。

为了更好的理解本发明聚类的过程,下面基于k-means聚类算法的具体实施例进行详细介绍。

如图2所示,k-means聚类过程,包含以下步骤:

s1、从样本空间随机选取k个初始中心点;

s2、计算每个样本点与k个初始中心点之间的距离权重;

s3、根据距离权重,计算每个样本点与k个初始中心点之间的距离;

s4、根据距离对每个样本点进行簇划分,若距某样本点最近的中心点只有一个,则将该样本点划入该最近的中心点所在的簇,否则将该样本点不划入任何簇;

s5、判断是否循环次数等于10且最后5次循环簇划分不发生任何改变,若满足,将最终不属于任何簇的样本点判定为离群点,聚类结束;若不满足,重新选取k个簇的中心点,返回步骤s2。

单纯基于聚类的离群点检测还存在另一局限性:对于所选择的聚类算法较为依赖,不同的聚类算法对同一个样本空间数据进行聚类可能得到不同的簇结果。为了减小该局限性对离群点检测带来的影响,本发明方案做出如下改进和创新:在聚类完成之后,对每个簇计算距离的标准差,然后根据每个簇的标准差以及每个簇中样本点与中心点的距离,选出每个簇的候选离群点,最后根据候选离群点选出补充的离群点。通过对直接聚类的结果进行了离群点的补充,使得对聚类的结果有较好的修正,以防止在聚类过程中离最终中心点最远的那些其实是离群点的样本点被错分到簇中,进一步提高了离群点检测的准确性。

为了更清楚的理解本发明所做出的另一改进,下面对聚类结束后离群点检测的技术方案,进行清楚和完整的描述。

在一个实施例中,如图3所示,将不属于任何簇的样本点判定为离群点之后,还可以包括步骤:

s170、计算每个簇的平均标准差,根据所述平均标准差获得每个簇的阈值;

该步骤的每个簇为最后聚类结束时所生成的各个簇。在一个实施例中,计算每个簇的平均标准差包括:根据簇所包含的样本点的总数量、簇所包含的每个样本点在每个维度的数值以及簇所包含的所有样本点在每个维度的均值,获得每个簇在每个维度的标准差;计算每个簇所有维度的标准差的平均值,获得每个簇的平均标准差。即对于某一个簇,采用下述公式计算该簇的平均标准差:

上式中,σ表示簇的平均标准差;m表示样本点的总维度数,例如每个样本点有6个维度,总维度数为6;n表示簇所包含的样本点的总数量,例如一个簇的用户数为100,则n为100;xi表示第i个样本点的维度的数值,也即是向量值;μ表示簇所包含的所有样本点在与xi对应的维度上的均值。计算簇的标准差时,对每个维度都要计算,这样,若总体有m个维度,则每个簇都计算出m个标准差的平均值,作为此簇的平均标准差。

获得每个簇的标准差后,每个簇的阈值可以根据该标准差进行确定,例如阈值为3*σ,用户还可以根据实际需要设置其它阈值,本发明并不对此做出限定。

s180、获取每个簇中与对应中心点之间的距离大于阈值的样本点,将获取的样本点作为候选离群点;

针对每一个簇,分别筛选出与其中心点之间的距离大于阈值的样本点,将这些样本点作为候选的离群点,这里的距离为样本点在聚类中与最终簇的中心点的加权距离,即带距离权重的距离。为了减少候选离群点获取的计算量,可选的,针对每一个簇,从离簇的中心点最远的样本点开始判断:d>aσ,a为常数,即该样本点在聚类(例如k-means聚类)中与最终簇中心点的加权距离是否大于a倍的标准差,若大于,则将此样本点加入到候选离群集合,即candidate_set={x......},直到遇到该簇中距离小于等于a倍标准差的样本点结束判断。

s190、对所有的候选离群点进行筛选,获得补充的离群点;

筛选规则可以根据用户需要进行设置,例如,在一个实施例中,对所有的候选离群点进行筛选,获得补充的离群点包括:将所有的候选离群点按照与中心点距离的大小进行排序,从距离最大的候选离群点开始选择预设个数的候选离群点作为补充的离群点。预设个数可以根据实际需要进行确定,例如,将最终的candidate_set集合中的样本点与对应中心点之间的距离按照降序排列,选择前80%的样本点作为离群点的差补,即补充的离群点。该筛选出来的补充的离群点和聚类时判定的离群点为本次检测的所有的离群点。

基于同一发明构思,本发明还提供一种离群点检测系统,下面结合附图对本发明系统的具体实施方式做详细描述。

如图4所示,一种离群点检测系统,包括:

样本空间获取模块110,用于获取待检测的样本空间,其中所述样本空间包括多个样本点,每个样本点包括若干个维度;

中心点选取模块120,用于从所述样本空间选取若干个样本点作为对应簇的中心点;

距离权重获得模块130,用于计算所述样本空间中未被选取的每个样本点与各个中心点之间的距离权重,其中所述距离权重为样本点和中心点的数值相同的维度数与总维度数之比;

距离获得模块140,用于根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离;

簇划分模块150,用于根据所述距离确定未被选取的每个样本点所属的簇;

离群点检测模块160,用于将不属于任何簇的样本点判定为离群点。

上述离群点检测系统,在对所有样本空间中的数据进行聚类时,对距离的求值进行加权,使得每一轮聚类都包含加权距离的因子,有效解决了单纯基于聚类的离群点检测存在的离群点在聚类的过程中会影响聚类的簇划分或簇结果的局限性;不需要用户拥有任何领域知识,直接在样本空间中筛选出离群点,无需作图,因此不受限于数据量的大小,即使在数据量较大时,也可以准确检测出离群点;加入距离权重因子,使得聚类的结果更贴合实际聚类,能获得比较良好的聚类效果,更准确地筛选出离群点,此外距离权重因子依托维度数量,支持在大数据平台上对大规模高维数据进行离群点检测,可以解决高维样本带来的计算复杂度和难度,适用于高维的样本空间,且不需要预先知道样本空间中数据的分布特征。下面对各个模块进行详细介绍:

待检测的样本空间即为待检测离群点的数据。样本空间的元素称为样本点或基本事件。样本点包括若干个维度,每个样本点的维度的值构成样本点的向量的具体内容。样本空间获取模块110获取待检测的样本空间,中心点选取模块120从样本空间随机选择k个样本点作为k个簇的中心点,k为大于等于1的整数。

由于每个中心点一定属于对应的簇,所以在对样本点进行簇划分时无需考虑选取的中心点,仅考虑未被选取的样本点即可,但是本发明并不对此做出限定。距离权重越大表示两个样本点相似度越高。对于某一个样本点a,距离权重获得模块130计算出该样本点a与某个中心点c之间的距离权重,计算方法为:w=same_num/sum_num,其中w为该样本点a与中心点c之间的距离权重,same_num为该样本点a与中心点c的维度值相同的数量,每个样本点的总维度数都是一样的,所以sum_num为样本点a或中心点c的总维度数。距离权重获得模块130采用上述方法可以计算出样本点a分别与k个中心点之间的距离权重,类似的,距离权重获得模块130可以得到未被读取的每个样本点与k个中心点之间的距离权重。

对于某一个样本点,距离获得模块140根据该样本点与某中心点之间的距离权重,计算出该样本点与该中心点之间带距离权重的距离。距离获得模块140计算距离的方式有很多种,例如,在一个实施例中,所述距离获得模块140根据样本点与中心点之间的距离权重的倒数、样本点的维度的数值以及中心点的维度的数值,计算未被选取的每个样本点与各个中心点之间的马氏距离。

所述距离获得模块140在计算距离时使用马氏距离而非欧式距离的出发点在于,其一、马氏距离是与量纲无关的,其二、马氏距离还考虑了变量之间的相关性,相较于传统技术中作图方式不能体现多变量之间的关系的缺陷,使得聚类的结果更贴合实际聚类。另外,距离权重为一个小数,越大表示两个样本点越接近,所以在马氏距离中作为距离权重的因子时使用其倒数反映其倒数的值越小,两个样本点的距离越小。

在一个实施例中,簇划分模块150确定未被选取的每个样本点所属的簇包括:若距离某样本点最近的中心点仅有一个,将该样本点归入最近的中心点所在的簇,若距离某样本点最近的中心点有多个,不将该样本点归入任何簇。

不将该样本点归入任何簇只意味着该样本点在本轮循环中为疑似离群点,该样本点是否为离群点需要在满足收敛条件时确定。收敛条件可以根据实际需要确定,例如,设置循环次数为10次,且所有样本点的簇划分在最后5次循环中均不发生任何改变。若满足收敛条件,结束聚类,离群点检测模块160将不属于任何簇的离群点判定为离群点。若一个样本点判定为离群点,可以在该样本点上添加离群点的标记,以便于用户查看。

在一个实施例中,离群点检测系统还可以包括连接在簇划分模块150和离群点检测模块160之间的中心点重选模块,所述中心点重选模块用于判断得到的簇是否满足设定的收敛条件;在得到的簇不满足设定的收敛条件时,重新选取每个簇的中心点,根据重新选取的各个中心点重新确定未被选取的每个样本点所属的簇。即若不满足设定的收敛条件,则在已有的k个簇中各自重新选择中心点,重新计算每个样本点和重新选取的中心点之间的距离权重以及距离,根据重新计算的距离重新对各个样本点进行簇划分。直至满足收敛条件结束。

单纯基于聚类的离群点检测还存在另一局限性:对于所选择的聚类算法较为依赖,不同的聚类算法对同一个样本空间数据进行聚类可能得到不同的簇结果。为了减小该局限性对离群点检测带来的影响,在一个实施例中,如图5所示,离群点检测系统还可以包括与所述离群点检测模块相连的离群点补充模块170。如图6所示,所述离群点补充模块170包括:

阈值获得单元1701,用于计算每个簇的平均标准差,根据所述平均标准差获得每个簇的阈值;

候选离群点获得单元1702,用于获取每个簇中与对应中心点之间的距离大于阈值的样本点,将获取的样本点作为候选离群点;

补充离群点获得单元1703,用于对所有的候选离群点进行筛选,获得补充的离群点。

在一个实施例中,阈值获得单元1701计算每个簇的平均标准差包括:根据簇所包含的样本点的总数量、簇所包含的每个样本点在每个维度的数值以及簇所包含的所有样本点在每个维度的均值,获得每个簇在每个维度的标准差;计算每个簇所有维度的标准差的平均值,获得每个簇的平均标准差。

在一个实施例中,所述补充离群点获得单元1703将所有的候选离群点按照与中心点距离的大小进行排序,从距离最大的候选离群点开始选择预设个数的候选离群点作为补充的离群点。

上述离群点检测方法和系统,与现有技术相互比较时,具备以下优点:

1、不需要用户拥有任何领域知识,可以在离群点上添加类别标记,直接在样本空间中筛选出离群点,无需作图,因此不受限于数据量的大小,即使在数据量较大时,也可以准确检测出离群点;

2、计算样本点与中心点的马氏距离,相较于传统技术中的作图方式,考虑了变量之间的相关性,使检测的离群点更为准确;

3、加入距离权重因子,使得聚类的结果更贴合实际聚类,能获得比较良好的聚类效果,更准确地筛选出离群点,此外距离权重因子依托维度数量,支持在大数据平台上对大规模高维数据进行离群点检测,可以解决高维样本带来的计算复杂度和难度,适用于高维的样本空间,且不需要预先知道样本空间中数据的分布特征;

4、对直接聚类的结果采用标准差的距离的策略进行了离群点的补充,使得对聚类的结果有较好的修正,以防止在聚类过程中离最终中心点最远的那些其实是离群点的样本点被错分到簇中,提高了离群点检测的准确性;

5、单纯基于聚类的离群点检测存在局限性:其一是离群点在聚类的过程中会影响聚类的簇划分或簇结果;其二是对于所选择的聚类算法较为依赖,不同的聚类算法对同一个样本空间数据进行聚类可能得到不同的簇结果,本发明减小了以上两个局限性对离群点检测带来的影响。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1