空间密度相似性度量K‑means聚类方法与流程

文档序号:12468902阅读:394来源:国知局
空间密度相似性度量K‑means聚类方法与流程

本发明涉及机器学习领域,尤其是使用聚类分析方法将任意形状分布的复杂数据集分成特定类别的一种有效的聚类方法,具体是一种空间密度相似性度量K-means聚类方法。



背景技术:

在传统及改进K-means方法中通常采用欧氏距离直接表达样本间的相似性距离,但欧氏距离往往不能较为准确地表达各种流形数据点间的相似性,本发明提出的是通过采用空间密度的相似性距离弥补这一缺陷,并加上新的K-means方法类中心的迭代模型,能反映各种数据集的真实分布规律,得到准确稳定的聚类效果。

K-means方法是应用最广泛的聚类方法之一,传统的K-means方法存在初始聚类中心不稳定,聚类效果和迭代次数对初始聚类中心过于依赖,易陷入局部最优等问题。为改善以上缺陷,国内外学者从不同角度对K-means方法提出了一系列的优化方法。如Huang等提出一种基于自动计算权值的K-means方法,改进聚类中变量的选择问题。Dhillon等为提高方法性能调整K-means迭代过程中计算聚类中心的方法。Redmond等将k-d树和Katsavounidis提出的方法相结合,在基于密度选择初始聚类中心时能尽可能分散选择,使初始聚类中心的选择更加合理化。Sarafis将遗传方法应用在K-means的目标函数构建中,并在此基础上提出新的聚类方法RBCGA,取得较好效果。

在传统和改进K-means方法中,通常采用欧氏距离计算在m维空间中两个样本之间的距离。然而,在任意形状分布的复杂数据集上,K-means方法通过欧式距离来衡量样本间的相似性距离,往往达不到预期效果。如图1中,样本集中分布的A、B、C三点,欧式距离计算可得A点和C点的距离大于A点和B点的距离,而实际期望是通过某种距离计算得到,A点和C点的距离小于A点和B点的距离。

同时在迭代过程中,K-means新一轮聚类中心的产生规则取所有本簇样本中每一维的平均值。而在像图1中类似的非簇型数据集中使用平均值选择聚类中心时,聚类中心极有可能出现在本簇区域以外,甚至存在和另一簇中心相重合的情况。



技术实现要素:

针对背景技术中存在的两个显著问题,本发明改进单一的欧氏距离测量方法和K-means的迭代规则,设计出更加有效合理的距离测量方法和迭代规则,使分类效果明显改善。

本发明公开了一种空间密度相似性度量K-means聚类方法,该方法包括以下步骤:

(1)对数据集样本D进行归一化的数据预处理;

(2)初始化聚类中心:

1)根据样本间的空间密度的相似性距离得出样本空间Space和每一个样本的密集度Density(xi);

2)选择最大密集度样本作为初始聚类中心的第一个聚类中心;

3)选择其次大的密集度样本,并且此样本与之前选择的聚类中心的距离大于一定的值,该值记为控制迭代值distrol,添加此样本进入初始聚类中心;

4)循环执行3),直至选择出K个初始聚类中心C0

步骤3)中所述之前是指:在初次循环时,为步骤2)中第一个聚类中心;在后续循环执行时,为前面循环中选择的所有初始聚类中心;

(3)在第t次循环中,根据聚类中心Ct-1和数据集样本D的空间密度的相似性距离重新划分类得到Dt

(4)通过类中心迭代模型计算得到新一轮的聚类中心Ct

(5)循环执行(3)和(4),直至满足目标函数E的值达到最优即不再变化时结束,

xj表示第j个样本,ci表示第i个聚类中心,DistF(xj,ci)表示二者空间密度的相似性距离。

优选的,步骤(2)中计算的Space和Density(xi)具体包括以下步骤:

(A).首先计算数据集样本D中任意两个样本距离的伸缩系数A为:

其中Dist(xi,xj)为xi和xj的欧式距离;mean为样本集的特征变量,即一个类内的样本均值,在某一样本集中,mean为一定值;A值则取决于Dist(xi,xj)的大小:当Dist(xi,xj)相对于mean越大,两样本间距离受到的惩罚越大,即A值越大;Dist(xi,xj)相对于mean越小,两样本间距离受到的惩罚越小,即A值越小;

(B).根据A,计算数据集样本D中任意两个样本间的密集度可调节的线段长度L(xi,xj)公式为:

其中,e为数学中的欧拉数;A系数可以加强欧式距离的大小比例程度,Dist(xi,xj)越小,A也越小,e的指数值也越小,反之亦然,同时指数函数的性质达到加强距离的伸缩效果;

(C).根据L(xi,xj)计算样本的空间密度相似性距离DistF(Xi,xj)为:

令数据集样本D为图G=(V,E)的顶点,P表示长度为|r-1|的连接数据点x1和x|r|的路径,(xk,xk+1)∈E;Pi,j作为xi到xj的所能经过的所有路径;距离DistF(xi,xj)表示的是样本xi通过图G中任意条路径最终到达xj的最小距离,此距离可以最大程度的逼近两个样本在其样本空间上的分布距离;

(D).样本空间指数据集中所有样本分布的空间范围。数据集的样本空间Space为:

Space=Max{DistF(xi,xj)|0<i<n,0<j<n,i≠j} (4)

(E).得某一样本的密集度Density(xi)为:

其中,Num(xj)为符合条件的样本个数;r为密度半径。

欧拉数e取值为2.718281828。

具体的实施例中,密度半径r取值为Space/(K*2)。

优选的,步骤(4)中类中心迭代模型通过设定第t次迭代过程中第i个聚类中心的优化公式计算,所述优化公式为:

其中,表示由第i个聚类中心得到新一轮的样本集,m为中样本的个数,遍历样本集中的每一个xj,求其与中所有样本的DistF距离之和,最小值的样本作为

优选的,控制迭代值distrol取值为(1.0/(K))*Space。

本发明的有益效果

本发明在聚类过程中的相似度衡量,不再简单地依据欧氏距离,而是依据空间密度的相似性距离。这样不仅可以合理地衡量样本间的距离,同时可以选择出更加可靠稳定的初始聚类中心。同时本发明中新的K-means方法类中心的迭代模型,使数据集中心点的选择更加准确,尤其是对于非簇型数据集,其中心点的选择完全可以避免在数据集以外的点,使得聚类效果显著提高。

本发明衡量样本间的距离不再采用简单的欧式距离来,而是通过空间密度相似性距离度量。空间密度相似性距离通过密集度可调节的线段长度衡量相邻点的距离,同时采用最短距离优化不相邻点的相似性距离。在密集度可调节的线段长度中根据指数函数的性质给高密度集区域的样本赋予更小的距离,给低密度集区域的样本赋予更大的距离,可在任意形状分布的复杂样本空间中准确反映样本的基本分布规律。

本发明改进的K-means类中心迭代模型,不是求同一类别样本的平均值得到此类别新一轮的聚类中心,而是通过计算同一类别样本的空间密度相似性距离,选择出与此类别所有样本的相似性距离代价和最小的样本,作为此类别新一轮的聚类中心。此方法选择出的聚类中心,不仅是此样本中的一个样本,而且是最具有代表性的一个。

附图说明

图1为样本分布图

图2为非簇型数据集原始数据的直观效果图

图3A为方法一作用下Moon数据集方法实验效果图

图3B为方法二作用下Moon数据集方法实验效果图

图3C为方法三作用下Moon数据集方法实验效果图

图3D为本发明方法作用下Moon数据集方法实验效果图

图4A为方法一作用下Stick数据集方法实验效果图

图4B为方法二作用下Stick数据集方法实验效果图

图4C为方法三作用下Stick数据集方法实验效果图

图4D为本发明方法作用下Stick数据集方法实验效果图

图5A为方法一作用下Ring数据集方法实验效果图

图5B为方法二作用下Ring数据集方法实验效果图

图5C为方法三作用下Ring数据集方法实验效果图

图5D为本发明方法作用下Ring数据集方法实验效果图

图6为数据集方法实验准确率

图7为UCI数据集在不同方法上的效果

具体实施方式

下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此:

下面结合附图和实施例对本发明作进一步的说明。

1.数据集的选取

为了证明本发明在簇型和非簇型数据中的有效性,实验采用两类数据,一类是自生成的二维的非簇型数据集,如图2所示,分别为月牙形、条形和环形数据;另一类是三种UCI标准数据集,分别为Iris、Wine、Haberman。

2.实验的评估方法和指标

采用本发明方法和现阶段三种流行的K-means优化方法进行实验对比,同时对比相关文献中在UCI数据集上的实验效果。三种K-means方法分别为随机产生初始聚类中心(方法一),选择批次距离尽可能远的K个点作为初始聚类中心(方法二),基于密度的初始聚类中心的改进(方法三)。方法一通过产生随机数选择对应的样本作为初始聚类中心;方法二在随机选择第一个初始聚类中心后,选择其他K-1个初始聚类中心均要求与之前已选择的聚类中心最远;方法三通过计算每一个样本密度选择较大密度的样本作为初始聚类中心;本发明方法即如技术方案中所述,此处不再进行重复描述。

为了验证本发明方法在非簇型数据集的聚类效果,人工生成三种不同形状的非簇型数据,分别为月牙型数据集(Moon)、条形数据集(Stick)、环形数据集(ring)。数据集的直观效果图如图2。将三种人工数据集分别在方法一、方法二、方法三和本发明方法上进行实验,聚类效果采用直观效果图(图3-5)和最常用的聚类指标之一Accuracy的折线图(图6)展示在不同方法下的聚类效果。

从图2至图5可以直观地观察到,方法一和方法二在非簇型数据集上的K-means效果很相似,因为方法一和方法二在选择初始聚类中心的规则都是选择某一个样本作为初始聚类中心,方法二只是在选择时添加欧式距离的控制条件,虽然使选择更加合理,但经过迭代,随机选择的中心也可以达到类似的效果。而方法三是基于欧式距离计算的密度来选择初始聚类中心,对于非簇型数据,方法三往往会对数据集本身造成误解,欧式距离相对近的样本并不一定比欧式距离相对远的样本更相似,所以效果往往不佳。由此可知,欧氏距离下K-means在非簇型数据中的聚类效果较差。方法一和方法二的K-means聚类效果的准确率均在0.6至0.85之间,方法三在非簇型数据集上的效果更加不理想。基于样本空间密度的相似性距离方法在非簇型数据集上可达到较好的效果,它利用指数函数性质和数据集样本自身的伸缩系数相结合,根据有限个小数据相加仍是小数据,较少个大数据相加仍是大数据的规则,可达到类内距离相对于类外距离越来越小,类外距离相对于类内距离越来越大的效果,从而保证K-means的聚类效果。

对于选用UCI机器学习数据库中3个聚类方法常用的数据集,对本发明K-means的相似性度量方法进行实验,并与传统的方法一、方法二、方法三中的相关K-means优化方法进行比较。UCI数据集在不同方法上的效果如图7。从图7中看出,本发明在Iris、Wine和Haberman数据集上的聚类效果与方法一、方法二、方法三相比,均占有优势,在Haberman的优势更加明显。本发明方法在三个数据集上的准确率分别达到96.6%,91.57%,74.5%。

由此可以得出结论,本发明提出基于空间密度的K-means相似性度量优化不仅在非簇型人工数据集上的效果明显优于其他方法,而且在UCI标准数据集上的效果也优于传统方法以及一些改进后的K-means方法。

本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1