一种基于时序相关性的空间聚类方法

文档序号:10687186阅读:336来源:国知局
一种基于时序相关性的空间聚类方法
【专利摘要】本发明涉及一种基于时序相关性的空间聚类方法。该方法包括:1)选取将要聚类的空间点的集合;2)根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为一类;3)确定第二次聚类时使用的时序数据的时间区间T,取出每个空间点在时间区间T内的数据值,形成时间序列;4)根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两个空间点之间的时序相关性;5)对于步骤2)中的每一聚类结果,结合步骤4)得到的时序相关性,对每一聚类结果进行二次聚类,形成最终的聚类结果。本发明对于空间对象聚类时使用两步聚类,加入考虑各对象之间的时序相关性特性,使得聚类结果更加准确,更具有现实意义。
【专利说明】
一种基于时序相关性的空间聚类方法
技术领域
[0001] 本发明属于空间分析的大数据和数据挖掘应用领域,具体涉及一种基于时序相关 性的空间聚类方法。
【背景技术】
[0002] 聚类是数据挖掘领域一个重要的组成部分和分析方法。随着大数据和数据挖掘领 域的广泛应用,数据分析领域中常用的方法之一一一聚类分析也受到了越来越广泛的探 索,其在图像处理、生物信息、空间数据库、人工智能等多种领域均得到了十分有效的应用。
[0003] 聚类的主要思想将具有较高相似性的数据对象归为一个簇,而不同簇之间的数据 对象则不具有或具有较低的相似度,簇内相似,簇间相异。对于聚类分析来说,度量数据对 象之间的相似性成为了分析的关键,聚类结果的好坏也取决于该方法所采用的相似性评估 方式以及该方法是否探索出了较多的隐含模式。
[0004] -般地,常见的聚类的方法通常采用的是基于距离的相似性度量方法。距离的含 义较广,但凡是满足距离定义的四个条件的函数均可作为计算相似性的距离公式,这四个 条件分别是唯一性、非负性、对称性和三角不等式。常用的距离计算方法主要包括:欧式距 离、马氏距离、曼哈顿距离和切比雪夫距离。欧式距离是一个通常采用的距离,主要描述在 空间中两个点的自然长度和真实距离;马氏距离是用于表示数据的协方差距离,马氏距离 与欧式距离不同的是,其主要考虑了样本各种特性之间的关系;曼哈顿距离则是一种用于 几何度量空间的度量方式,其标明了两个点在坐标系上的绝对轴距的总和;而切比雪夫距 离是向量空间中的一种度量方式,其主要思想是将两个点之间的距离定义为其各坐标数值 差的最大值。在基于距离的聚类方法中,较典型聚类算法主要包括:k_均值聚类算法、k_中 心点聚类算法、凝聚型层次聚类算法和分裂型层次聚类算法等。
[0005] 但对于具有不同空间位置,且具有时序特征的对象,传统的聚类方法具有局限性, 不能得到更优的聚类结果。

【发明内容】

[0006] 本发明的目的是针对对象之间的一些现实特性,给出一种基于时序相关性的空间 聚类方法。该方法对于空间对象聚类时,使用两步聚类,加入考虑各对象之间的时序相关性 特性,使得聚类结果更加准确,更具有现实意义。
[0007] 具体来说,本发明的技术方案为:
[0008] -种基于时序相关性的空间聚类方法,包括以下步骤:
[0009] 1)选取将要聚类的空间点的集合;
[0010] 2)根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点 聚为一类;
[0011] 3)针对分析任务,确定第二次聚类时使用的时序数据的时间区间T,取出每个空间 点在时间区间T内的数据值,形成时间序列;
[0012] 4)根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两 个空间点之间的时序相关性;
[0013] 5)对于步骤2)中的每一聚类结果,结合步骤4)得到的空间点之间的时序相关性, 通过一种自底向上的方法,对每一聚类结果进行二次聚类,形成最终的聚类结果。
[0014] 与现有技术相比,本发明的有益效果如下:
[0015] 本发明对于在对真实空间对象进行聚类时,不仅考虑其在空间距离上的特性,同 时还考虑了各数据对象之间的时序相关性,这样使得空间对象聚类的结果更加真实,更加 具有实际的研究意义。
【附图说明】
[0016] 图1是本发明方法的步骤流程图。
[0017] 图2是聚类比率随距离远近的变化图,其中横轴代表举例,纵轴代表聚类比率。
【具体实施方式】
[0018] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和 附图,对本发明做进一步说明。
[0019] 本实施例的基于时序相关性的空间聚类方法,其步骤流程如图1所示,具体包括以 下步骤:
[0020] 第一步,选取将要聚类的空间点的集合。该集合包括了某个空间范围内的所有的 点,并且对于每一个点,都包含了一个时间段内的时序数据。例如,对中国空气质量检测站 点进行聚类,则该空间点的集合包括了所有的空气质量检测站点,对于每一个监测站点来 说,都包含了每小时的空气质量检测数据。
[0021] 上述空间点的集合可以是空间范围内的全部空间点,也可以是应用某种过滤规则 后过滤出的空间点。这些过滤规则包括但不限于:距离在一个特定值之内、或其他指标(如 降水)在某个特定数值范围之内。
[0022]第二步,根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的 空间点聚为一类。该地理关系如行政区划,如国家、省份、城市等,可以根据不同的情况,如 全部空间的范围、数据集时序密度、主机的计算能力等进行调整;又如自定义区域,如根据 山脉、河流走向进行区域分割,也可以是根据城市建设的空间对象而划分,如铁路、高速公 路等。
[0023] 第三步,针对分析任务,确定第二次聚类时使用的时序数据的时间区间T,取出每 个空间点在时间区间T内的数据值,形成时间序列。
[0024] 第四步,根据第一次聚类的结果和第三步得到的时间序列,计算同一类中任意两 个空间点之间的时序相关性。
[0025] 例如,在本实例中,使用行政区划进行第一次聚类,根据各点所位于的行政区划 内,将同一行政区的点聚类为一个簇。针对每一簇中的任两个点,计算两点之间的皮尔森相 关性指标,其定义如下:
[0027] 其中,wy的取值范围是-1到1,正负号代表相关的方向是正相关或负相关,其绝对 值越大代表相关程度越高,I和y分别代表时间序列X和Y的平均值,Xi和yi表示时间序列X在 第i时刻的数值,N表示时间序列Y在第j时刻的数值。除皮尔森相关性指标外,本发明也可以 采用其它指标计算时序相关性,如斯皮尔曼等级相关系数(Spearman's rank correlation coefficient)、肯德尔等级相关系数(Kendall rank correlation coefficient)等。
[0028] 第五步,通过一种自底向上的方法,对每一聚类结果进行二次聚类,形成最终的聚 类结果。
[0029] 该二次聚类方法的伪代码如下面算法1 (Algorithm lrecluster)所示,本方法使 用一种自底向上的聚类方法,称为recluster算法,recluster算法是一个迭代的过程。该算 法的输入参数为已经聚类的结果clustered,未聚类的结果unclustered以及上一次 recluster算法执行后未聚类的长度length。对于每一个第一次聚类的结果,recluster的 初始参数值中,clustered为一个空集合,保存所有recluster方法执行过程中的聚类结果, unclustered为第一次聚类的结果,length为unclustered的长度。算法在第一次被执行时, 算法执行步骤如下:
[0030] 1.如果未聚类的结果中,空间点数目与上一次recluster算法执行后数目相同,说 明结果中已无满足要求的可聚类的空间点,算法执行结束,返回,其中clustered结果即为 二次聚类结果。
[0031] 2.如果未聚类结果中,空间点数目为0,说明所有空间点都已完成聚类,算法执行 结束,返回,其中clustered结果即为二次聚类的结果
[0032] 3.将length的长度赋值为unclustered的长度,并创建一个新的变量保存在本次 recluster中未进行聚类的点remaining。如不满足1、2条件,贝lj对于unclustered中的所有 空间点,判断其任意两个点A与B的相关性,该相关性是在第四步计算得到的时序相关性,如 果其相关性小于某一阈值,或者其不具有显著性差异(其中显著性差异是指统计学上对数 据差异性的评价,当数据之间具有了显著性差异,就说明参与比对的数据不是来自于同一 总体,得出的相关性数值才具有可解释性),则将B添加到r e m a i n i n g中,并将B从 unclustered 中移除。
[0033] 4 .在步骤3执行完毕后,将剩余unclustered聚为一类,并添加到cluster中 (cluster表示"类")。
[0034] 5.重新执行算法 recluster,使用的参数为cluster,remaining,length。
[0036] 以中国空气质量检测站点为例,以PM2.5为分析维度,以城市划分作为第一步聚类 的基准,将相关性阈值预先设定为0.6,执行本发明所给出的方法。以每一城市为中心,以距 离城市的距离为半径r,计算随着r的变化,聚类比率的变化,结果如图1所示。图1中,横轴表 示距离的远近,可以表示以某个特定点为中心,距离该点特定距离内的所有空间点的集合; 纵轴表示聚类比率,是指聚类后簇数目除以所有空间点的数目。不同的颜色分别表示以不 同空间点为中心所得的所有的聚类比率的最大、最小及平均值。聚类比例定义为已经聚类 的结果数目除以所有站点的数目。根据图1的结果可以发现,随着距离的变化,总体聚类比 例维持在40 %左右。
[0037] 在本方法中,对于空间对象,不单纯以传统基于距离的聚类方式进行聚类,而是采 用了所提出的两步聚类法,本方法不仅考虑了空间对象在距离方面的特性,同时还考虑了 其的时序相关性特性。通过两步聚类方法所得到的结果,由于其所对应的时序数据也在聚 类过程中被考虑,所以聚类结果更具有现实意义。同时本方法也拓展了传统聚类方法在时 空数据上的应用。
[0038] 以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术 人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本 发明的保护范围应以权利要求所述为准。
【主权项】
1. 一种基于时序相关性的空间聚类方法,其特征在于,包括以下步骤: 1) 选取将要聚类的空间点的集合; 2) 根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为 一类; 3) 针对分析任务,确定第二次聚类时使用的时序数据的时间区间,取出每个空间点在 该时间区间内的数据值,形成时间序列; 4) 根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两个空 间点之间的时序相关性; 5) 对于步骤2)中的每一聚类结果,结合步骤4)得到的时序相关性,对每一聚类结果进 行二次聚类,形成最终的聚类结果。2. 如权利要求1所述的方法,其特征在于,步骤1)所述空间点的集合是某个空间范围内 的全部空间点,或者是应用某种过滤规则后过滤出的空间点,并且每一个空间点包含一个 时间段内的时序数据。3. 如权利要求2所述的方法,其特征在于,所述过滤规则包括:距离在一个特定值之内, 或其他指标在某个特定数值范围之内。4. 如权利要求1所述的方法,其特征在于,步骤2)所述地理关系是按行政区划划分的地 理关系,或者是自定义的区域。5. 如权利要求4所述的方法,其特征在于,所述行政区划包括但不限于国家、省份、城 市,并能够根据不同的情况进行调整,包括根据全部空间的范围、数据集时序密度、主机的 计算能力进行调整。6. 如权利要求4所述的方法,其特征在于,所述自定义的区域是根据山脉、河流走向而 划分的区域,或者是根据城市建设的空间对象而划分的区域。7. 如权利要求1所述的方法,其特征在于,步骤4)计算所述时序相关性的指标包括:皮 尔森相关性指标、斯皮尔曼等级相关系数、肯德尔等级相关系数。8. 如权利要求1所述的方法,其特征在于,步骤5)通过自底向上的聚类方法对每一聚类 结果进行二次聚类;将所述自底向上的聚类方法称为recluster算法,其输入参数为已经聚 类的结果clustered,未聚类的结果unclustered以及上一次recluster算法执行后未聚类 的长度length;该recluster算法的执行步骤如下: a) 如果未聚类的结果中,空间点数目与上一次recluster算法执行后数目相同,说明结 果中已无满足要求的可聚类的空间点,算法执行结束,返回;其中clustered结果即为二次 聚类结果; b) 如果未聚类结果中,空间点数目为0,说明所有空间点都已完成聚类,算法执行结束, 返回;其中clustered结果即为二次聚类的结果; c) 将length的长度赋值为unclustered的长度,并创建一个新的变量保存在本次 recluster中未进行聚类的点remaining;如不满足a)、b)的条件,贝lj对于unclustered中的 所有空间点,判断其任意两个点A与B的时序相关性,如果其相关性小于某一阈值,或者其不 具有显著性,则将B添加到remaining中,并将B从unclustered中移除; d) 在步骤c)执行完毕后,将剩余unclustered聚为一类,并添加到cluster中。 e) 重新执行算法 recluster,使用的参数为cluster,remaining,length 〇
【文档编号】G06F17/30GK106055689SQ201610404636
【公开日】2016年10月26日
【申请日】2016年6月8日
【发明人】杜, 杜一, 崔文娟, 吕菲, 周园春, 黎建辉
【申请人】中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1