数据挖掘中基于密度优化初始中心的k均值聚类方法

文档序号：8412583阅读：216来源：国知局

数据挖掘中基于密度优化初始中心的k均值聚类方法
【技术领域】
[0001] 本发明涉及一种聚类方法，尤其是一种数据挖掘中基于密度优化初始中心的K均值聚类方法，属于聚类分析的技术领域。
【背景技术】
[0002] 数据挖掘是当今计算机研宄的热题之一，聚类分析作为一种无监督的机器学习方法，是指对于一个数据对象集合，研宄如何自动把数据对象划分到不同的簇中，让相同簇内的对象在某种衡量标准下具有较高的相似性，而不同簇中的数据对象具有低的相似性。聚类分析被广泛的应用在机器学习、数据挖掘、语音识别、图像分割、商业分析和生物信息处理等前沿领域。目前，传统的聚类算法主要包括五类，他们分别是：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类算法。
[0003] 在聚类算法当中，κ-means算法属于基于划分的聚类算法，它简洁而快速，以高效而著称。但原始的K-means算法存在一些缺陷：1)、原始算法要求使用者给出K值，即类簇的个数，这个值主要由经验得来，所以确定K值的难度较大；2)、算法对初始聚类中心敏感，初始中心选择的优劣，会影响聚类结果，影响算法运行的效率；3)、该算法对异常数据较为敏感，会导致结果陷入局部最优解。
[0004] 目前，一些学者已对初始中心点问题做出了些改进，如为防止结果陷入局部最优，通常是选择距离较远的比较分散的点作为初始中心点。但若仅仅考虑距离因素，则容易选到异常点，进而影响到聚类效果。学者也都考虑到这些问题，进而从密度的角度出发，来过滤掉异常点。还有一个问题是初始中心点有可能会被选成同一个类簇中的点，即尽管某个点的密度比较大，但是该点对应的类簇中已经有点被选做中心点了，此时应该选择其它类中的有代表性的点，否则，也会导致结果容易陷入局部最优解。

【发明内容】

[0005] 本发明的目的是克服现有技术中存在的不足，提供一种数据挖掘中基于密度优化初始中心的K均值聚类方法，其降低计算复杂度，提高分类的准确率，稳定性高，提高快速收敛。
[0006] 按照本发明提供的技术方案，一种数据挖掘中基于密度优化初始中心的K均值聚类方法，所述聚类方法包括如下步骤：
[0007] 步骤1、给定所需的数据集，并确定聚类个数K ;
[0008] 步骤2、计算数据集内所有数据对象的密度，并根据得到数据对象的密度计算数据集的平均密度；
[0009] 步骤3、计算数据集内每个数据对象的最小密度距离值；
[0010] 步骤4、对数据集内数据对象的最小密度距离值进行降序排序，根据确定的聚类个数K，选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中心；
[0011] 步骤5、根据上述获得的初始聚类中心，利用κ-means聚类方法对数据集进行聚类，直至输出聚类结果。
[0012] 所述步骤5包括如下步骤：
[0013] 步骤5. 1、根据选定的初始聚类中心，将数据集内的数据对象分配到与所述数据对象距离最近的初始聚类中心，并计算K个聚类内数据对象的误差平方和，以得到初始误差平方和；
[0014] 步骤5. 2、在将数据集内的数据对象分配到距离最近的初始聚类中心后，计算得到 K个聚类的聚类中心，以得到修正聚类中心；
[0015] 步骤5. 3、根据修正聚类中心，确定K个聚类内数据对象的误差平方和，以得到修正误差平方和；
[0016] 步骤5. 4、当修正误差平方和与初始误差平方和之间的差值不满足收敛条件时，则将得到的修正聚类中心重新作为初始聚类中心，并重复上述步骤，直至修正误差平方和与初始误差平方和之间的差值满足收敛条件。
【主权项】
1. 一种数据挖掘中基于密度优化初始中心的K均值聚类方法，其特征是，所述聚类方法包括如下步骤：步骤1、给定所需的数据集，并确定聚类个数K; 步骤2、计算数据集内所有数据对象的密度，并根据得到数据对象的密度计算数据集的平均密度；步骤3、计算数据集内每个数据对象的最小密度距离值；步骤4、对数据集内数据对象的最小密度距离值进行降序排序，根据确定的聚类个数 K，选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中心；步骤5、根据上述获得的初始聚类中心，利用K-means聚类方法对数据集进行聚类，直至输出聚类结果。
2. 根据权利要求1所述的数据挖掘中基于密度优化初始中心的K均值聚类方法，其特征是，所述步骤5包括如下步骤：步骤5. 1、根据选定的初始聚类中心，将数据集内的数据对象分配到与所述数据对象距离最近的初始聚类中心，并计算K个聚类内数据对象的误差平方和，以得到初始误差平方和；步骤5. 2、在将数据集内的数据对象分配到距离最近的初始聚类中心后，计算得到K个聚类的聚类中心，以得到修正聚类中心；步骤5. 3、根据修正聚类中心，确定K个聚类内数据对象的误差平方和，以得到修正误差平方和；步骤5. 4、当修正误差平方和与初始误差平方和之间的差值不满足收敛条件时，则将得到的修正聚类中心重新作为初始聚类中心，并重复上述步骤，直至修正误差平方和与初始误差平方和之间的差值满足收敛条件。
3. 根据权利要求1所述的数据挖掘中基于密度优化初始中心的K均值聚类方法，其特征是，对于数据集X = Ixi I i = 1，2, ...，η}，数据对象具有m维特征，则数据对象的密度为
其中，d(Xi，xp为数据对象Xi与数据对象^之间的欧式距离，
=1，2,. . .，η ; j = 1，2,. . .，n ;R为数据对象Xi的邻域半径。
4. 根据权利要求1所述的数据挖掘中基于密度优化初始中心的K均值聚类方法，其特征是，对于数据对象Xi，计算数据对象X i到比它密度大的数据对象的距离，则最小密度距离值为数据对象\到比它密度大数据对象的距离中的最小值；当所述数据对象X i为密度最大的数据对象时，则最小密度距离值为数据对象\与数据集内数据对象间的最远距离。
【专利摘要】本发明涉及一种数据挖掘中基于密度优化初始中心的K均值聚类方法，其包括如下步骤：步骤1、给定所需的数据集，并确定聚类个数K；步骤2、计算数据集内所有数据对象的密度，并根据得到数据对象的密度计算数据集的平均密度；步骤3、计算数据集内每个数据对象的最小密度距离值；步骤4、对数据集内数据对象的最小密度距离值进行降序排序，根据确定的聚类个数K，选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中心；步骤5、根据上述获得的初始聚类中心，利用K-means聚类方法对数据集进行聚类，直至输出聚类结果。本发明降低计算复杂度，提高分类的准确率，稳定性高，提高快速收敛。
【IPC分类】G06F17-30
【公开号】CN104731916
【申请号】CN201510131975
【发明人】袁启龙, 史海波, 周晓锋
【申请人】无锡中科泛在信息技术研发中心有限公司
【公开日】2015年6月24日
【申请日】2015年3月24日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁启龙;史海波;周晓锋;
技术所有人：无锡中科泛在信息技术研发中心有限公司;
我是此专利的发明人

上一篇：一种推荐方法及装置的制造方法
上一篇：一种分布式存储系统中磁盘设备映射方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。