一种自适应聚类方法

文档序号:9787451阅读:938来源:国知局
一种自适应聚类方法
【技术领域】
[0001] 本发明属于空间数据挖掘与空间分析技术领域,尤其涉及一种改进的自适应聚类 方法。
【背景技术】
[0002] 空间数据挖掘作为近年来从大量复杂数据库中发现有用信息和知识的有力工具 得到广泛的关注。空间聚类作为空间数据挖掘的一个主要研究方向,旨在是用相似性尺度 来衡量事物之间的亲疏程度,并以此来实现分类。目前已广泛应用于分等定级、影像分类、 异常探测、热点分析等诸多领域。
[0003] 已有的空间聚类方法大概可分为:(1)基于密度的方法;(2)基于划分的方法;(3) 基于层次的方法;(4)基于模型的方法;(6)基于格网的方法。
[0004] 已有的空间聚类算法很难顾全以下几种聚类要求:(1)顾及空间簇内目标的邻近 性;(2)顾及空间障碍的影响;(3)顾及噪声点的影响;(4)顾及空间分布的密度差异;(5)实 现任意形状的空间簇的识别;(5)实现自适应的空间聚类。因此需要一种改进的空间聚类方 法满足不断增长的聚类需求。
[0005] 已有的顾及空间和非空间属性的双重聚类大多将目标之间的距离定义为空间属 性与非空间属性进行归一化后加权求和的值,再采用已有的空间聚类方法实现聚类操作, 该方法中空间属性与非空间属性的权重难以确定。也有部分聚类方法从空间属性聚类和非 空间属性聚类两方面展开,但已有方法难以自适应的实现聚类操作,通常需要人为的设定 参数,且对聚类结果的优劣没有很好的评判标准,在没有足够先验知识的前提下,难以明确 最优参数值。此外,现有方法通常没有顾及噪声和空间障碍的影响。
[0006] 因此随着当前聚类需求的不断增长,迫切需要一种改进的自适应聚类算法实现空 间属性与非空间属性的双重聚类。

【发明内容】

[0007] 为了解决上述问题,本发明提供了一种可以实现空间属性与非空间属性的双重聚 类的自适应聚类方法。
[0008] 本发明所采用的技术方案是:一种自适应聚类方法,其特征在于,包括以下步骤:
[0009] 步骤1:收集处理研究区数据集并明确聚类目标;
[0010] 若是对数据集的空间属性进行聚类,则顺序执行下述步骤2、步骤4和步骤5;
[0011] 若是对数据集的空间属性与非空间属性进行聚类,则顺序执行下述步骤2、步骤3、 步骤4和步骤5;
[0012]步骤2:对数据集的空间属性进行聚类;
[0013] 分析数据集的空间属性,将空间属性相近的目标聚集成簇,实现空间相邻,且空间 分布密度相似的目标聚集成簇;
[0014] 步骤3:对数据集的非空间属性进行聚类;
[0015] 在步骤2的基础上,分析每个簇的非空间属性分布,进一步将非空间属性相近的目 标聚集成簇;
[0016] 步骤4:对已有的聚类结果进行优化,将与邻近簇属性相近的噪声和较小簇归并到 邻近簇内;
[0017] 步骤5:聚类结果输出。
[0018]作为优选,步骤1所述的收集处理研究区数据集,其中对数据集进行处理的方法主 要包括采用空间插值方法实现空缺数据的修补、对重复的数据进行删除和在涉及非空间属 性聚类时对用于聚类分析的非空间属性进行选取。
[0019] 作为优选,步骤2的具体实现包括以下子步骤:
[0020] 步骤2.1 :初始化调节参数β;
[0021] 步骤2.2:构建Delaunay三角网G确定目标间的邻近关系,若存在空间障碍的影响, 则打断与空间障碍相交的Delaunay三角网边;
[0022]步骤2.3:删除整体上过长的Delaunay三角网边,整体约束条件表达式为
[0024] 其中Global_mean(G)和Global_variation(G)表不三角网G所有边的长度均值和 均方差,利用下列公式计算:
[0027] mean(p)表示与实体p直接相连的所有边的长度均值,利用下列公式计算:
[0029]其中N表示三角网G中边的数目,η表示与p直接相连的边的数目,Ie11表示与实体p 直接相连的边的长度;
[0030] 依据整体层次约束,删除Delaunay三角网中长度大于Global_cut_value (P)的边;
[0031]步骤2.4:删除局部层次上过长的De Iaunay三角网边,局部约束条件表达式为:
[0033]其中MeaaiiCp)::表示在删除整体层次上的长边之后,子图Gi中实体二阶邻域内的 所有边的长度均值,利用下列公式计算:
[0035]其中m表示p二阶邻域边长的数目;
[0036] Mean_variation(Gi)表示P所在的子图Gi内所有实体的一阶邻域内所有边长均方 差的均值,利用下列公式计算:
[0039]其中N1表示子图仏中实体的个数,表示实体Pb的一阶邻域内边长的数目;
[0040] 依据局部边长约束,删除Delaunay三角网中实体边长大于Local_cut_value(p)的 边。
[0041 ]作为优选,步骤2.1中所述的调节参数β,是采用基于PSO的优化算法自适应的获取 最优的调节参数β;采用基于PSO的优化算法,首先明确调节参数β的取值范围[1,2]以及优 化目标函数,然后在对调整参数β不断优化的同时,对步骤2.2、步骤2.3和步骤2.4进行重复 执行,直到目标函数值达到最大时停止,并获取最优的β值;
[0042]所述优化目标函数能同时顾及空间簇簇内凝聚力、空间簇簇间凝聚力以及噪声的 影响,由下列公式计算获得:
[0044] 其中me和η。分别表示聚类结果中空间子图和噪声点的数目,me表示子图的个数,η。 表示噪声点的数目,Fe(G1)表示空间子图G 1的簇内凝聚力,利用下列公式计算:
[0045]
[0046] Fagg(Pl,Pj)表示子图G冲实体之间的凝聚力,根据目标的邻近关系来定义凝 聚力,当目标无邻近关系时则凝聚力为〇,ΠΗ表示子图61中存在凝聚力的实体对数目,利用下 列计算公式:
[0048] S(Pl,W)表示实体?1和仍之间的欧式距离,ND(W)表示实体w-阶邻域实体集; [0049] F1(G1)为空间子图G1的簇间凝聚力,表示其他子图内实体对G 1内实体的凝聚力的 平均值,利用下列公式:
[0051]其中,w表示其他子图以及噪声点与空间子图61中实体有凝聚力作用的实体数量; [0052] FE(Oj)表示噪声点与其他实体之间的凝聚力,表示其他实体对Oj的凝聚力的平均 值,利用下列公式:
[0054] 其中,k表示与噪声点有凝聚力作用的实体数量。
[0055] 作为优选,步骤3的具体实现包括以下步骤:
[0056]步骤3.1:对非空间属性进行选取,并确定非空间属性距离A(pa,pb)度量方法,利用 下列公式:
[0059]其中,A(pa,pb)表示实体P^pb之间的非空间属性距离,ND表示实体的邻近实体 集;Wq表示实体?3非空间属性{'···,#}的权重,采用层次分析法进行权重计算,其中d表示 非空间属性维度。
[0060]步骤3.2:针对空间聚类操作后的每个子图G1,判断子图中实体是否具有非空间属 性空间集聚现象,利用下列公式进行计算:

[0063] 其中Wei表示子图中实体的数目,
[0064] 当/Gt > 0 & 0(?) :> 1.65丨:> -.165)时,回转执行步骤3 · 2,否则执行步骤 3.3;
[0065] 步骤3.3:当三角网中的边连接的实体间非空间属性差异较大时,执行边删除操 作;
[0066]约束条件标准为:
[0067] long_attri_D(Gi) =attri_mean(Gi)+attri_variation(Gi);
[0068] 其中 81:1:1';[_1116311(60和31:1:1';[_^1^31:;[011(60分别表示子图61的邻近点对的非空 间属性距离均值和均方差,利用下列公式:

[0071 ] mab表示实体间的邻近关系
[0072]当子图中实体间的非空间属性距离大于long_attri_D(Gi),则对实体间的连接边 进行删除;
[0073] 步骤3.4:获取新生成的子图并返回执行步骤3.2,直到没有新子图生成。
[0074] 作为优选,步骤4的具体实现包括以下步骤:
[0075] 步骤4.1:判断是否存在过度分割的异常点〇1,若存在,则合并到邻近的子图中; [0076]判别操作表达式为:
[0078] 其中G_mear^PG_variation表示簇内实体间的属性距离均值和方差,采用下列公 式:
[0081] P%表示子图中实体的数目,v(〇1,Pj)表示异常点〇1与w的属性距离;若聚类操作 实现的是空间聚类,则V表示空间属性聚类,当异常点 〇1与1^的空间属性距离满足条件时,则 将〇1连接到Gj中;若聚类操作实现的是空间与非空间属性的双重聚类,则异常点 〇1与仍的空 间属性距离和非空间属性距离需要同时满足条件时,则将Q1连接到Gj中;
[0082] 步骤4.2:判断是否存在过度分割的小子图,在这里定义实体个数小于总数5%的 子图为小子图,若存在过度分割的小子图G1,则将小子图合并到邻近的子图内;
[0083]判别操作表达式为:
[0085] &G_mean(Gi) £ [G_m
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1