自适应空间聚类方法

文档序号:6656126阅读:375来源:国知局
专利名称:自适应空间聚类方法
技术领域
本发明属于空间数据挖掘与空间分析领域,涉及一种自适应空间聚类方法。
背景技术
空间聚类是当前地理空间数据挖掘与知识发现的一个重要手段,其旨在将空间数据库中的实体划分为一系列具有一定分布模式的空间簇,使得同一空间簇中的实体具有最大的相似度,不同空间簇中的实体具有最大差别。当前,空间聚类已广泛应用于犯罪热点分析、地震空间分布模式挖掘、制图自动综合、遥感影像分类、公共设施选址、地价评估以及时空建模等诸多领域。现有的空间聚类方法大致可以分为(1)划分的方法;(2)层次的方法;(3)基于密度的方法;(4)基于图论的方法;(5)基于模型的方法;(6)基于格网的方法。划分的方法对于体积相似、密度相似的球形簇聚类效果较好。但是,这类方法的聚类结果严重依赖初始聚类中心的选择,难以发现任意形状的空间簇,而且当空间簇尺寸、密度变化较大时难以获得满意的聚类结果。传统的层次聚类方法只适合发现球形的空间簇。改进的层次空间聚类方法,如CURE使用代表点的策略虽然能够发现较为复杂结构的空间簇,但是其依然无法发现任意形状的空间簇,而且过多的输入参数增加了算法的使用难度;传统的密度聚类方法, 如DBSCAN由于采用固定阈值聚类,难以适应空间实体密度的变化。改进的密度方法虽然能够在一定程度上顾及空间实体密度的分异特性,然而对于空间簇邻近等问题依然难以很好解决。现有基于图论的聚类方法还不够稳健,容易受空间簇邻接与密度变化的影响。基于模型的方法,需要预先假定空间数据的分布模型,这在某些实际应用中难以准确获得。基于格网的方法虽然聚类效率得到提高,但是聚类质量不高,且易遇到基于密度方法同样的问题。现有顾及专题属性的空间聚类方法大致可以分为三类(1)在空间聚类过程中分别考虑空间邻近域专题属性相似。这类方法多是直接在基于密度方法的基础上顾及专题属性的相似性,其与DBSCAN具有类似的缺陷;同时这类方法大多忽视了专题属性空间分布的非均勻性与趋势性,难以保证同一空间簇中的实体专题属性相似。(2)将空间属性与专题属性归一化后加权融合构造距离函数,再采用传统聚类方法进行聚类。但是这类方法中空间属性与专题属性间权值的确定比较困难。(3)分别从空间属性和专题属性两方面进行聚类。这类方法易受其使用的空间属性聚类与专题属性聚类方法的局限性的影响。现有的顾及空间障碍的空间聚类方法大多是在传统空间聚类方法的基础上进行扩展的,因此在很大程度都继承了原有聚类方法的缺陷和不足。此外,现有方法都难以同时顾及空间邻近、专题属性相似以及空间障碍等因素进行空间聚类分析,无疑限制了其在实际中的应用效果。相关文献Miller H and Han J. Geographic data mining and knowledge discovery (Second Edition) [M]. London :CRC Press,2009 ;邓敏,刘启亮,李光强.基于场论的空间聚类方法.遥感学报,2010,14 );李光强,邓敏,程涛,朱建军.一种基于双重距离的空间聚类方法[J]·测绘学报,2008,37 ) ;Estivill-Castro V, Lee I. J. Clustering with obstacles for geographical data mining[J]. ISPRS Journal of Photogrammetry& Remote Sensing. 2004,59。

发明内容
本发明所要解决的技术问题是提出一种自适应空间聚类方法,该自适应空间聚类方法能够适应空间数据的复杂性、需要较少的人为干预,实用性好,可靠性高。本发明的技术解决方案如下一种自适应空间聚类器,包括以下步骤步骤1 构建Delaimay三角网以确定空间实体间的空间邻近关系,进而分别搜索获取每个空间实体的Delaimay邻近实体,即在Delaimay三角网中与该实体直接相连的实体;步骤2 依据空间属性进行空间聚类操作该步骤包括基于整体边长约束、局部边长约束和局部方向约束聚类得到空间邻近的空间实体集合;步骤3:输出聚类结果。(1)步骤2中基于整体边长约束的聚类用于删除整体上过长的Delaimay三角网边,整体约束条件表达为Cel°bal(p),表示与空间实体ρ连接的所有边的整体约束条件,利用下列公式进行计算Cclobal (P) = Mean (DT) + α * (SD (DT) /Ni (ρ));Mean(DT)表示三角网的平均边长,利用下列公式计算
权利要求
1.一种自适应空间聚类器,其特征在于,包括以下步骤步骤1 构建Delaunay三角网以确定空间实体间的空间邻近关系,进而分别搜索获取每个空间实体的Delaunay邻近实体,即在Delaunay三角网中与该实体直接相连的实体;步骤2 依据空间属性进行空间聚类操作该步骤包括基于整体边长约束、局部边长约束和局部方向约束聚类得到空间邻近的空间实体集合; 步骤3:输出聚类结果。
2.根据权利要求1所述的自适应空间聚类器,其特征在于(1)步骤2中基于整体边长约束的聚类用于删除整体上过长的Delaunay三角网边,整体约束条件表达为Celt5bal (ρ),表示与空间实体ρ连接的所有边的整体约束条件,利用下列公式进行计算
3.根据权利要求1所述的自适应空间聚类器,其特征在于在步骤1的构建Delaimay 三角网前,对空间数据预处理与特征选取首先对空间数据进行预处理,对空间数据中缺失的部分采用空间插值的方式进行修补或删除,对重复的记录进行清理;针对空间聚类的任务,即聚类属性,由用户选取空间或专题属性以及相应的距离度量准则,所述的距离包括欧氏距离、闵氏距离或马氏距离。
4.根据权利要求2所述的自适应空间聚类器,其特征在于顾及空间障碍或专题属性进行聚类在根据空间属性聚类后获得的各个子图中,构建空间邻近关系在每个子图删除整体长边后实体间连接关系的基础上,采用放宽的局部边长约束条件,即β设为2,删除局部长边,有公共Delaimay三角网边的实体被认为空间邻近。
5.根据权利要求2所述的自适应空间聚类器,其特征在于还包括顾及空间障碍聚类导入空间障碍图层,空间障碍与空间实体间Delaimay三角网边进行叠置分析,打断与空间障碍相交的Delaimay三角网边,更新实体间的空间邻近关系,所有通过Delaimay三角网边连接的空间实体构成一个空间簇。
6.根据权利要求1-5任一项所述的自适应空间聚类器,其特征在于还包括顾及专题属性距离进行聚类的过程①选取一个未标记的核实体;②针对该核实体的1阶、2阶,...K阶邻近域的实体,分别判断是否满足直接专题属性距离可达与间接专题属性距离相连条件,若满足则与核实体采用同一 ID进行标识,直到没有空间实体可以加入为止,一个空间簇生成结束;这里,K阶邻域是指给定一个图G,p为G 的一个顶点,则任意一个点到P所经过边的数目小于或等于K的所有顶点构成的集合;③重新选取一个未标记的核,重复步骤②,直到所有实体均进行搜索为止,空间聚类过程结束;不能加入任何空间簇的实体被标记为异常点;④整理聚类结果,ID相同的空间实体间的Delaimay三角网边保留,否则进行打断,通过Delaimay三角网表连接的实体构成一个空间簇;所述的直接专题属性距离可达的定义为对于空间实体Pl、P2,若二者之间具有公共边,且dAtte(Pl,ρ2) ( ε direct,则称Pl、p2专题属性距离可达,记为灼Η尸2。其中,dAtte(Pl,p2) 表示实体口”!^间的专题属性差异,为各维专题属性分别归一化后的欧氏距离;ε direct表示专题属性差异最小阈值,由用户根据实际需求或领域专家建议进行设置;所述的间接专题属性距离相连的定义为对于空间实体集合S = (PijP2jP3,..., ^!, 若dAtte(Avg(Pl,P2,... , Ph) ,Pi) ^ ε intoe。t,则称S、Pi间接专题属性距离相连,记为S A;其中,Avg (P1, P2, ... , Ph)表示实体 P1, P2, · · ·,Pi-I 的专题属性平均值; indirect 表示间接专题属性距离最小阈值,由用户根据实际需求或领域专家建议进行设置;所述的核的定义为选取一个空间实体,如至少有一个空间实体与其满足直接专题属性距离可达则将其视为一个核。
全文摘要
本发明公开了一种自适应空间聚类方法,包括(1)空间数据预处理及特征选取;(2)根据空间属性构建Delaunay三角网;(3)依据空间属性进行聚类分析操作;(4)若需要进一步考虑空间实体障碍则转步骤(5),若要考虑专题属性转步骤(6),否则空间聚类操作终止;(5)导入空间障碍图层,将空间障碍与各个空间簇中实体间的Delaunay三角网边长进行叠加分析,若相交则打断该边长;(6)采用改进的基于密度的空间聚类方法进行专题属性聚类。(7)聚类结果可视化,并输出聚类结果。本发明具有操作简便、自动化程度与计算效率高、功能完备、适用性强等优点,能有效提高空间聚类分析挖掘深层次地学规律的能力。
文档编号G06F17/30GK102163224SQ201110085248
公开日2011年8月24日 申请日期2011年4月6日 优先权日2011年4月6日
发明者刘启亮, 石岩, 邓敏, 黄健柏 申请人:中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1