一种基于离群指数的初始聚类中心优选算法

文档序号：6629473阅读：265来源：国知局

一种基于离群指数的初始聚类中心优选算法
【专利摘要】本发明涉及一种聚类算法，具体涉及一种基于离群指数的初始聚类中心优选算法。包括如下步骤：（1）计算局部离群指数；（2）得到处于密集区域的数据对象集合D；（3）将局部离群指数最小的数据加入初始聚类中心集合；在集合D中找出距离O１点最远的点O2作为第二个聚类中心，加入初始聚类中心集合，并从D中删除O１、O2；（4）从集合D中找出O3和O１、O2和O3的距离之和最大，然后将O3加入到初始聚类中心集合，将O3从集合D中删除，继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心，直到第k个；（5）运用K‐均值聚类算法对整个数据集进行聚类。本发明简单、快速、应用广泛。
【专利说明】一种基于离群指数的初始聚类中心优选算法

【技术领域】
[0001]本发明涉及一种聚类算法，具体涉及一种基于离群指数的初始聚类中心优选算法。

【背景技术】
[0002]数据聚类(或聚类分析)是为了获得图案、点集或对象集本然的分组关系。聚类分析参照“物以类聚”的思想，通过研究抽取样本数据的潜在结构，将数据对象分组成为多个类(或簇)，使得同一个类中的对象之间具有较高的相似度，而不同类中的对象差别较大。由于类的形成完全是数据驱动的，不需要任何的先验信息和假设，因此聚类分析是一种非监督学习方法，广泛应用于数据挖掘和数据分析。
[0003]传统K -均值聚类算法中初始聚类中心的选择是随机选取的，初始聚类中心选取的不同会产生不同的聚类结果；传统的K-均值聚类算法受初始聚类中心的影响比较大。根据初始聚类中心选择的不同，分类准确率也不同，针对这一问题常用的方法是通过多次随机生成初始聚类中心，计算聚类结果，选择目标函数最小的一次计算结果作为最后的聚类结果，如Matlab中K-均值聚类的实现.该方法的缺点是耗时严重，试验效果不稳定，未必能够得到最优结果。

【发明内容】

[0004]本发明提供一种简单、快速、应用广泛的基于离群指数的初始聚类中心优选算法。
[0005]一种基于离群指数的初始聚类中心优选算法，采用如下步骤:
输入:具有η个对象的数据集X和聚类分组数k ；
输出:k个聚类,使得目标函数E最小；
步骤1:计算每个数据对象的局部离群指数；
步骤2:将局部离群指数排在前η个的数据对象点删除，得到处于密集区域的数据对象集合D ；
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O i，将O i加入初始聚类中心集合；在集合D中找出距离O1点最远的点O2作为第二个聚类中心，加入初始聚类中心集合，并从D中删除O ^O2 ；
步骤4:从集合D中找出O3和O 1、02和O3的距离之和最大，然后将O3加入到初始聚类中心集合，将O3从集合D中删除，继续从集合D中找出到初始聚类
中心对象集合中所有对象距离最远的点作为聚类中心，直到第k个；
步骤5:用得到的k个聚类中心，运用K -均值聚类算法对整个数据集进行聚类。
[0006]本发明简单、快速、应用广泛。

【具体实施方式】
[0007]—种基于离群指数的初始聚类中心优选算法，其特征在于:采用如下步骤: 输入:具有η个对象的数据集X和聚类分组数k ；
输出:k个聚类,使得目标函数E最小；
步骤1:计算每个数据对象的局部离群指数；
步骤2:将局部离群指数排在前η个的数据对象点删除，得到处于密集区域的数据对象集合D ；
步骤3:将局部离群指数最小的数据对象作为第一个聚类中心O i，将O i加入初始聚类中心集合；在集合D中找出距离O1点最远的点O2作为第二个聚类中心，加入初始聚类中心集合，并从D中删除O ^O2 ；
步骤4:从集合D中找出O3和O 1、02和O3的距离之和最大，然后将O3加入到初始聚类中心集合，将O3从集合D中删除，继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心，直到第k个；
步骤5:用得到的k个聚类中心，运用K -均值聚类算法对整个数据集进行聚类。
【权利要求】
1.一种基于离群指数的初始聚类中心优选算法，其特征在于:采用如下步骤: 输入:具有η个对象的数据集X和聚类分组数k ；输出:k个聚类,使得目标函数E最小；步骤1:计算每个数据对象的局部离群指数；步骤2:将局部离群指数排在前η个的数据对象点删除，得到处于密集区域的数据对象集合D ；步骤3:将局部离群指数最小的数据对象作为第一个聚类中心0 i，将0 i加入初始聚类中心集合；在集合D中找出距离h点最远的点02作为第二个聚类中心，加入初始聚类中心集合，并从D中删除；步骤4:从集合D中找出03和0 1、02和03的距离之和最大，然后将03加入到初始聚类中心集合，将03从集合D中删除，继续从集合D中找出到初始聚类中心对象集合中所有对象距离最远的点作为聚类中心，直到第k个；步骤5:用得到的k个聚类中心，运用K -均值聚类算法对整个数据集进行聚类。
【文档编号】G06F17/30GK104317824SQ201410523697
【公开日】2015年1月28日申请日期:2014年10月8日优先权日:2014年10月8日
【发明者】王耀斌申请人:陕西高新实业有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王耀斌
技术所有人：陕西高新实业有限公司
我是此专利的发明人

上一篇：一种利用符号手势指令进行文档编辑的方法及装置制造方法
上一篇：业务信息录入方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。