一种云环境下的空间数据划分方法

文档序号:6377007阅读:306来源:国知局
专利名称:一种云环境下的空间数据划分方法
技术领域
本发明涉及一种云环境下的空间数据划分方法,属于计算机网络技术领域。
背景技术
云计算是一种分布式系统能将计算任务分给多台机器来处理,能对各种应用系统提供计算力、存储空间和信息服务。现在职呢办公司和开源云计算平台等都使用map-reduce并行计算模型。该模型为海量数据的处理提供了一个通用、高效的技术框架,从而在地理空间数据查询处理、数据挖掘等领域得到了越来越广泛的应用。当今,提高地理空间数据索引效率是个热点问题,如何找到一种有效的方法在云平台上建立索引机制具有重要的意义。W树是个高度平衡树,用空间对象的#份?(最小外接矩形)来近似表示空间数据对象,根据对象的#份 建立树,并可以直接对空间中占据一定 范围的空间数据对象进行索引。如何找到一种算法划分空间数据对象使得树满足空间数据对象划分的准则(数据量平衡准则、空间关系平衡准则),有效地提高空间数据的索引效率。已有的并行空间数据库中的分配方法不适合云计算平台,且大都是按空间区域平均划分,这样很难满足空间数据对象划分的准则。Ariel 等人提出了用Z曲线编码空间数据对象,然后根据《部节点的数目,按空间数据量平均划分,把得到的每个部分交给 ^处理得到R树,这种方法不满足空间关系平衡原则,即划分不能保证空间相邻的对象在树的同一分支上,以致索引效率降低。Shubin zhang等人提出了基于空间填充曲线的划分和轮转法结合的划分方法,但这种方法既不满足空间关系平衡原则,也不满足数据平衡准则,这种方法划分的结果在map-reduce上建立的R树的索引效率非常低
贾婷等人提出一种A均值聚类算法的空间数据划分方法,把空间数据划分的结果分配给不同的计算节点。这种方法不满足数据量平衡原则,A均值聚类算法只能保证空间相邻的对象在同一族,但不能保证每个族的大小相对平衡。刘润涛等人提出用A均值聚类算法建立7 树,只是简单地考虑了空间数据对象的相邻关系,并没有考虑数据量平衡原则,这样会使W树的部分分支索引过于频繁,而且没有提出用imp-reduce模型来构建R树,只是简单地并行构建R树,导致效率不高。

发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种云环境下的空间数据划分方法,能够同时满足空间数据对象划分的数据量平衡准则和空间关系平衡准则,且计算复杂度低,算法实时性好。本发明具体采用以下技术方案解决上述技术问题
一种云环境下的空间数据划分方法,包括以下步骤
步骤I、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示;步骤2、利用Hilbert曲线编码方法将空间数据库中的空间数据对象映射为一维有序数组,并依序将一维有序数组中的元素平均划分为々个类,左为所述云环境中存储节点的数量;
步骤3、计算一维有序数组中每个元素与A个类中心的欧氏距离,对于任意一个元素,如其与当前所属类的中心的距离非最小,且当前所属类中的元素个数大于一预设的阈值,则将该元素划入距离最近的类中心所在类中;所述阈值小于或等于
j ,η为所述一维有序数组中的元素个数;k
步骤4、更新々个类中心;
步骤5、重复执行步骤4、步骤5,直到满足预设的迭代停止条件;
步骤6、按照最终的划分结果对空间数据对象进行划分。本发明方法首先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的左-均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中。本发明综合了现有均值法和A均值聚类算法各自的优点,很好满足了空间数据划分的准则,能均衡的将地理空间数据分配给 进行处理建立7 树,从而提高地理空间数据索引效率,且本发明方法计算复杂度低,算法实时性好。


图I为本发明方法的流程示意图。
具体实施例方式下面结合附图对本发明的技术方案进行详细说明
在建立云环境下的地理空间数据R树索引结构时,划分空间数据对象应使得树满足空间数据对象划分的数据量平衡准则和空间关系平衡准则。正如背景技术中介绍的,现有均值法的划分方法不满足空间关系平衡原则,即划分不能保证空间相邻的对象在W树的同一分支上,以致索引效率降低;而A均值聚类算法虽然满足了空间关系平衡原则,但却无法满足数据量平衡准则。为解决该问题,本发明的思路是先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中,这样空间数据划分既满足了数据量平衡准则,又满足了空间关系平衡准则;且通过之前的初步划分,后续的聚类算法的效率可大幅度提高。具体而言,本发明的云环境下的空间数据划分方法,如图I所示,包括以下步骤
步骤I、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示。根据空间数据库中对象的相关概念,以中心点代表空间数据对象(包括点对象,线对象和面对象)。空间数据库中点对象i的中心坐标即为其坐标Cr(i),_F(i))。设线或面对象J的最小外接矩形为,其边界坐标为min_y (J), max_x (J), max_y (J)) ° 令
area (MBRiJ))为矩形的面积,则(pl—xij), pi_jU))的中心点坐标,其中
X (J) = (min_x (J) +max_x (J) )/2, pi _j (J) = Qnin _j(J)+ max _j (J) )/2 以上定义可以得出空间数据库中无论点对象,线对象或面对象都可以用中心坐标表示。一个样本集有点对象,线对象和面对象组成时,这混合聚类中心点/7的坐标为
权利要求
1.一种云环境下的空间数据划分方法,其特征在于,包括以下步骤 步骤I、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示;步骤2、利用Hilbert曲线编码方法将空间数据库中的空间数据对象映射为一维有序数组,并依序将一维有序数组中的元素平均划分为々个类,左为所述云环境中存储节点的数量; 步骤3、计算一维有序数组中每个元素与A个类中心的欧氏距离,对于任意一个元素,如其与当前所属类的中心的距离非最小,且当前所属类中的元素个数大于一预设的阈值,则将该元素划入距离最近的类中心所在类中;所述阈值小于或等于T^n为所述一维有序数组中的元素个数;K 步骤4、更新々个类中心; 步骤5、重复执行步骤4、步骤5,直到满足预设的迭代停止条件; 步骤6、按照最终的划分结果对空间数据对象进行划分。
2.如权利要求I所述云环境下的空间数据划分方法,其特征在于,所述迭代停止条件为相邻两次迭代步中各类中心的变化小于预设范围,或者,达到预设的迭代次数。
全文摘要
本发明公开了一种云环境下的空间数据划分方法,属于计算机网络技术领域。本发明首先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的k-均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中。本发明综合了现有均值法和k均值聚类算法各自的优点,很好满足了空间数据划分的准则,能均衡的将地理空间数据分配给map-reduce进行处理建立R树,从而提高地理空间数据索引效率,且本发明方法计算复杂度低,算法实时性好。
文档编号G06F17/30GK102902742SQ201210342170
公开日2013年1月30日 申请日期2012年9月17日 优先权日2012年9月17日
发明者刘林峰, 孙靖, 吴家皋, 邹志强 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1