一种基于离群指数的初始聚类中心优选算法

文档序号:6629473阅读:265来源:国知局
一种基于离群指数的初始聚类中心优选算法
【专利摘要】本发明涉及一种聚类算法,具体涉及一种基于离群指数的初始聚类中心优选算法。包括如下步骤:(1)计算局部离群指数;(2)得到处于密集区域的数据对象集合D;(3)将局部离群指数最小的数据加入初始聚类中心集合;在集合D中找出距离O1点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O1、O2;(4)从集合D中找出O3和O1、O2和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k个;(5)运用K‐均值聚类算法对整个数据集进行聚类。本发明简单、快速、应用广泛。
【专利说明】一种基于离群指数的初始聚类中心优选算法

【技术领域】
[0001]本发明涉及一种聚类算法,具体涉及一种基于离群指数的初始聚类中心优选算法。

【背景技术】
[0002]数据聚类(或聚类分析)是为了获得图案、点集或对象集本然的分组关系。聚类分析参照“物以类聚”的思想,通过研究抽取样本数据的潜在结构,将数据对象分组成为多个类(或簇),使得同一个类中的对象之间具有较高的相似度,而不同类中的对象差别较大。由于类的形成完全是数据驱动的,不需要任何的先验信息和假设,因此聚类分析是一种非监督学习方法,广泛应用于数据挖掘和数据分析。
[0003]传统K -均值聚类算法中初始聚类中心的选择是随机选取的,初始聚类中心选取的不同会产生不同的聚类结果;传统的K-均值聚类算法受初始聚类中心的影响比较大。根据初始聚类中心选择的不同,分类准确率也不同,针对这一问题常用的方法是通过多次随机生成初始聚类中心,计算聚类结果,选择目标函数最小的一次计算结果作为最后的聚类结果,如Matlab中K-均值聚类的实现.该方法的缺点是耗时严重,试验效果不稳定,未必能够得到最优结果。


【发明内容】

[0004]本发明提供一种简单、快速、应用广泛的基于离群指数的初始聚类中心优选算法。
[0005]一种基于离群指数的初始聚类中心优选算法,采用如下步骤:
输入:具有η个对象的数据集X和聚类分组数k ;
输出:k个聚类,使得目标函数E最小;
步骤1:计算每个数据对象的局部离群指数;
步骤2:将局部离群指数排在前η个的数据对象点删除,得到处于密集区域的数据对象集合D ;
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O i,将O i加入初始聚类中心集合;在集合D中找出距离O1点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O ^O2 ;
步骤4:从集合D中找出O3和O 1、02和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D中找出到初始聚类
中心对象集合中所有对象距离最远的点作为聚类中心,直到第k个;
步骤5:用得到的k个聚类中心,运用K -均值聚类算法对整个数据集进行聚类。
[0006]本发明简单、快速、应用广泛。

【具体实施方式】
[0007]—种基于离群指数的初始聚类中心优选算法,其特征在于:采用如下步骤: 输入:具有η个对象的数据集X和聚类分组数k ;
输出:k个聚类,使得目标函数E最小;
步骤1:计算每个数据对象的局部离群指数;
步骤2:将局部离群指数排在前η个的数据对象点删除,得到处于密集区域的数据对象集合D ;
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O i,将O i加入初始聚类中心集合;在集合D中找出距离O1点最远的点O2作为第二个聚类中心,加入初始聚类中心集合,并从D中删除O ^O2 ;
步骤4:从集合D中找出O3和O 1、02和O3的距离之和最大,然后将O3加入到初始聚类中心集合,将O3从集合D中删除,继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k个;
步骤5:用得到的k个聚类中心,运用K -均值聚类算法对整个数据集进行聚类。
【权利要求】
1.一种基于离群指数的初始聚类中心优选算法,其特征在于:采用如下步骤: 输入:具有η个对象的数据集X和聚类分组数k ; 输出:k个聚类,使得目标函数E最小; 步骤1:计算每个数据对象的局部离群指数; 步骤2:将局部离群指数排在前η个的数据对象点删除,得到处于密集区域的数据对象集合D ; 步骤3:将局部离群指数最小的数据对象作为第一个聚类中心0 i,将0 i加入初始聚类中心集合;在集合D中找出距离h点最远的点02作为第二个聚类中心,加入初始聚类中心集合,并从D中删除; 步骤4:从集合D中找出03和0 1、02和03的距离之和最大,然后将03加入到初始聚类中心集合,将03从集合D中删除,继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心,直到第k个; 步骤5:用得到的k个聚类中心,运用K -均值聚类算法对整个数据集进行聚类。
【文档编号】G06F17/30GK104317824SQ201410523697
【公开日】2015年1月28日 申请日期:2014年10月8日 优先权日:2014年10月8日
【发明者】王耀斌 申请人:陕西高新实业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1