基于空间最短距离平均的密度自适应无监督聚类方法

文档序号:6525973阅读:301来源:国知局
基于空间最短距离平均的密度自适应无监督聚类方法
【专利摘要】本发明公开一种基于空间最短距离平均的密度自适应无监督聚类方法,步骤如下:计算空间中任意两点间最短距离平均,生成距离矩阵;根据距离密度和矩阵用递归扩散的方法寻找高密聚类区;根据最短距离平均倍数系数步长调整距离密度范围;根据设定的最小聚类数和最大聚类数稳定宽度判断聚类过程是否结束;根据在不同密度范围下得到的聚类数,按照聚类密度变化的次序对聚类数绘制曲线;根据聚类数变化曲线中的聚类数稳定窗口识别主要聚类和离群点;根据聚类数变化曲线中聚类数稳定区域出现的先后次序绘制聚类层次树图;根据聚类层次树图差分计算出不同层次的聚类,得到最终的聚类及离群点。
【专利说明】基于空间最短距离平均的密度自适应无监督聚类方法
【技术领域】
[0001]本发明涉及数据挖掘【技术领域】,具体涉及一种适应性广泛、能自主识别聚类的基于空间最短距离平均的密度自适应无监督聚类方法。
【背景技术】
[0002]随着计算机和通信技术的发展及其应用的普及,每时每刻都在产生大量的数据,对大数据进行处理、挖掘并发现有用的信息是一个重要的课题。从人类认知客观事物并获得有效信息的角度,聚类是一种非常有效的学习和认知手段,同样对数据进行聚类挖掘也是计算机获得有效认知的一种重要手段。目前已经存在的一些聚类技术,往往缺乏足够的可适应性,对形状、密度等聚类特征有特定的要求,同时对聚类存在的自主发现也存在着一定的困难,往往需要辅助的指标判断或用人工干预的办法进行不断的尝试。

【发明内容】

[0003]本发明是为了解决现有技术所存在的上述技术问题,提供一种适应性广泛、能自主识别聚类的基于空间最短距离平均的密度自适应无监督聚类方法。
[0004]本发明的技术解决方案是:一种基于空间最短距离平均的密度自适应无监督聚类方法,其特征在于按照如下步骤进行:
a.计算空间中任意两点间最短距离平均,同时生成距离矩阵;
b.根据距离密度和距离矩阵采用递归扩散的方法寻找高密聚类区;
c.根据最短距离平均倍数系数步长调整距`离密度范围,适应不同密度聚类区;
d.根据设定的最小聚类数和最大聚类数稳定宽度判断聚类过程是否结束;
e.根据在不同密度范围下得到的聚类数,按照聚类密度变化的次序对聚类数绘制曲
线.f.根据聚类数变化曲线中的聚类数稳定窗口识别主要聚类和离群点;
g.根据聚类数变化曲线中聚类数稳定区域出现的先后次序绘制聚类层次树图;
h.根据聚类层次树图差分计算出不同层次的聚类,得到最终的聚类及离群点。
所述a步骤如下:
对空间中的每一点寻找到其他点的最短距离,将寻找过程中计算得到的距离记入距离矩阵,最后根据所有点的最短距离求平均值得到最短距离平均
_ ;最短距离平均-定义如下:
【权利要求】
1.一种基于空间最短距离平均的密度自适应无监督聚类方法,其特征在于按照如下步骤进行: a.计算空间中任意两点间最短距离平均,同时生成距离矩阵; b.根据距离密度和距离矩阵采用递归扩散的方法寻找高密聚类区; c.根据最短距离平均倍数系数步长调整距离密度范围,适应不同密度聚类区; d.根据设定的最小聚类数和最大聚类数稳定宽度判断聚类过程是否结束; e.根据在不同密度范围下得到的聚类数,按照聚类密度变化的次序对聚类数绘制曲线.f.根据聚类数变化曲线中的聚类数稳定窗口识别主要聚类和离群点; g.根据聚类数变化曲线中聚类数稳定区域出现的先后次序绘制聚类层次树图; h.根据聚类层次树图差分计算出不同层次的聚类,得到最终的聚类及离群点。
2.根据权利要求1所述基于空间最短距离平均的密度自适应无监督聚类方法,其特征在于所述a步骤如下: 对空间中的每一点寻找到其他点的最短距离,将寻找过程中计算得到的距离记入距离矩阵,最后根据所有点的最短距离求平均值得到最短距离平均5 ;最短距离平均(?定义如下:
3.根据权利要求2所述基于空间最短距离平均的密度自适应无监督聚类方法,其特征在于所述b步骤如下:从空间中任意点开始,通过比对基于最短距离平均的密度范围和两点间的距离递归寻找与自己邻近的高密点,跳过已标记聚类的点和低密点。
4.根据权利要求3所述基于空间最短距离平均的密度自适应无监督聚类方法,其特征在于所述c步骤如下:根据设定的步长对最短距离平均的倍数系数进行调整,逐步扩大点间聚类的距离范围,用来适应同一聚类内部密度不均匀的情况,同时保证不同聚类间的区别,聚类密度G定义为:

5.根据权利要求4所述基于空间最短距离平均的密度自适应无监督聚类方法,其特征在于所述d步骤如下:设定最小分类个数作为聚类过程的结束条件,或者把聚类过程中聚类个数相对稳定的次数称为聚类稳定窗口,当聚类稳定窗口宽度大于所设定的最大聚类稳定窗口宽度时聚类过程结束,其中最小分类个数定义为Cmin,聚类稳定窗口最大宽度定义/V max ο
【文档编号】G06F19/00GK103761419SQ201310735562
【公开日】2014年4月30日 申请日期:2013年12月28日 优先权日:2013年12月28日
【发明者】张大为, 项明 申请人:辽宁师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1