一种基于Hadoop的StaMPS算法并行化处理方法

文档序号:6543966阅读:531来源:国知局
一种基于Hadoop的StaMPS算法并行化处理方法
【专利摘要】一种基于Hadoop的StaMPS算法并行化处理方法,所述Hadoop包括HDFS和MapReduce,包括:精配准,运行于Hadoop云平台上,实现影像的配准,把配准单机串行处理改造为多机并行;PS分析,运行于Hadoop云平台上,实现PS点的选择、精简,把单机串行顺序处理改造为多机并行。所述精配准包括:辅影像到主影像的精配准和辅影像到辅影像的精配准。本发明中,精配准由串行改造实现了并行,PS分析阶段从步骤1到步骤7实现了并行,通过Hadoop和StaMPS算法的结合,使得StaMPS算法处理效率成倍的提高,适应了大数据时代的海量数据的存储和计算,提高了系统的可用性和扩展性。
【专利说明】—种基于Hadoop的StaMPS算法并行化处理方法
【技术领域】
[0001]本发明涉及Hadoop技术,特别是涉及一种基于Hadoop的StaMPS算法并行化处理方法。
【背景技术】
[0002]随着各种遥感仪器空间分辨率、频谱分辨率的不断提高,随着时间的延长,遥感影像的数据量急剧增长,积累了大量的影像数据。面对数据爆炸式的增长,传统单机串行处理方式已经慢慢落伍,新出现的分布式并行处理日益成熟,将替代原有的处理方式。时下有关数据的海量处理和存储成为研究的热潮。在这其中,由Doug Cutting等人开发的Hadoop平台脱颖而出,成为分布式处理的宠儿。Hadoop分布式架构主要由HDFS分布式文件系统和MapReduce计算模型组成。HDFS主要负责存储海量数据,而MapReduce主要负责计算海量数据。而传统的StaMPS算法处理遥感数据一般都采用单机式的shell和matlab脚本串行处理,在面对今天海量数据处理中有些力不从心,因此使得StaMPS算法处理海量遥感数据和Hadoop结合成为可能。
[0003]如何将Hadoop应用于StaMPS算法地面沉降监测,实现海量遥感数据的存储和计算,尽可能地提高效率成为研究的重要内容。

【发明内容】

[0004]本发明的目的在于克服现有技术的不足,提供一种基于Hadoop的StaMPS算法并行化处理方法,实现了 Hadoop与StaMPS算法的结合,从而实现了海量数据的存储和计算,增强了系统的扩展性和可用性。
[0005]为了达到上述目的,本发明采用的技术方案是:
一种基于Hadoop的StaMPS算法并行化处理方法,所述Hadoop包括HDFS和MapReduce,包括:
精配准,运行于Hadoop云平台上,实现影像的配准,把配准单机串行处理改造为多机并行;
PS (全称Permanent Scatterers,永久性散射体)分析,运行于Hadoop云平台上,实现PS点的选择、精简,把单机串行顺序处理改造为多机并行。
[0006]较佳地,所述精配准包括:
辅影像到主影像的精配准:用于将所有与主影像的基线小于η (可以自己设定,比如100)米的辅影像直接配准到主影像空间,η的数值根据情况设定;
辅影像到辅影像的精配准:用于将与主影像的基线大于η (可以自己设定,比如100)米的影像配准到与之最近的m个辅影像的空间,当然本发明并不限于2?4个辅影像的空间,根据具体需要调整,n、m的数值根据情况设定。例如,2?4个辅影像的空间,当然本发明并不限于2?4个辅影像的空间,根据具体需要调整。
[0007]较佳地,所述辅影像到主影像的精配准,改造for循环,用于把之前的循环迭代目录处理改造为MapReduce并行,每个Map (接受一个键值对,产生一组中间键值对)处理一个互不影响的目录数据。
[0008]较佳地,所述辅影像到辅影像的精配准,改造双重for循环,用于把之前的循环迭代目录处理改造为MapReduce并行,每个Map处理一个互不影响的目录数据。
[0009]较佳地,所述PS分析由模块组成,所述模块包括:
数据加载模块,用于将数据转化为PS分析需要的格式,并将数据存储到matlab空间; 计算时间相干系数模块,用于迭代计算干涉图中每个候选点的时间相干系数;
PS点选择模块,根据设定的非PS点像元在总像元中所占比例的最大值自适应地求得时间相干系数阈值,从而选择PS点;
PS点精简模块,剔除由于受到邻域影响使得干涉相位噪声大于预设阈值的点;
空间非相干误差改正模块,用于对缠绕的相位进行空间非相干误差改正,包括空间非相干的视线角误差和与主影像有关的空间非相干误差。
[0010]较佳地,基于Hadoop的StaMPS算法并行化处理方法包括如下步骤:
精配准:
步骤101.把辅影像目录进行分块,一个Map对应一个辅影像目录,进行辅影像到主影像的配准;
步骤102.在Reduce (接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值))端生成需要配准的辅影像对记录,所述辅影像对由配准的辅影像和被配准的辅影像构成;
步骤103.把Reduce生成的η个辅影像按照要求选取作为下一个MapReduce的输入; 步骤104.每个Map处理一个辅影像到辅影像的配准;
PS分析:
步骤201.进行数据分块,提取PS候选点,每个Map处理一块数据;
步骤202.数据加载,将数据转化为PS分析需要的格式,并将数据存储到matlab空
间;
步骤203.计算时间相干系数,迭代计算干涉图(在正交偏光下使用干涉球观察非均质体宝石时所呈现的由干涉条带及黑臂组成的图案,它是由于透过晶体的锥形偏振光所产生的消光与干涉效应的总和)中每个候选点的时间相干系数;
步骤204.PS点选择,根据设定的非PS点像元在总像元中所占比例的最大值自适应地求得时间相干系数阈值,从而选择PS点;
步骤205.PS点精简,剔除由于受到邻域影响使得干涉相位噪声大于预设阈值的点;步骤206.空间非相干误差改正,对缠绕的相位进行空间非相干误差改正,包括空间非相干的视线角误差和与主影像有关的空间非相干误差;
步骤207.调用matlab进行合并;
步骤208.进行相位解缠、空间相干误差改正、去噪声相位操作。
[0011]与现有技术相比,本发明的有益效果是:精配准由串行改造实现了并行,PS分析阶段从步骤I到步骤7实现了并行,通过Hadoop和StaMPS算法的结合,使得StaMPS算法处理效率成倍的提高,适应了大数据时代的海量数据的存储和计算,提高了系统的可用性和扩展性。【专利附图】

【附图说明】
[0012]图1为本发明的系统架构图;
图2为本发明的精配准并行处理流程图;
图3为本发明的PS分析并行处理流程图。
【具体实施方式】
[0013]本发明的主旨在于克服现有技术的不足,提供一种基于Hadoop的StaMPS算法并行化处理方法,StaMPS是一种新型的PSInSAR方法,能实现无限存储和计算,因为Hadoop有着闻容错、闻可罪性、闻可扩展性、闻获得性、闻吞吐率等特点,通过分析StaMPS算法处理流程和反复试验,找出了 StaMPS算法的瓶颈(最耗时的两部分,约占整个处理流程的96%左右)所在,同时也发现这两部分满足并行处理的条件,因此把这两部分并行起来,大大提高StaMPS算法处理的效率。Hadoop是一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS, Hadoop Distributed Filesystem)和 MapReduce (Google MapReduce 的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。
[0014]下面结合实施例参照附图进行详细说明,以便对本发明的技术特征及优点进行更深入的诠释。
[0015]本发明的系统框图如图1所示,包括客户端(影像文件)、Hadoop云平台(也为Hadoop集群,包括HDFS和MapReduce)及基础资源(StaMPS算法处理软件)
本发明所公开的基于Hadoop的StaMPS算法并行化处理方法,所述Hadoop包括HDFS和 MapReduce,包括:
精配准,运行于Hadoop云平台上,实现影像的配准,把配准单机串行处理改造为多机并行;
PS分析,运行于Hadoop云平台上,实现PS点的选择、精简,把单机串行顺序处理改造为多机并行。因为各辅影像精密轨道信息的读取,与其他影像的配准、重采样、差分干涉图生成都是在各辅影像夹中单独运行的,与其他影像互不影响,满足并行处理的条件,故也可以对其进行并行处理,在stamps (5,5)结尾处调用merge中进行合并处理。
[0016]较佳地,所述精配准包括:
辅影像到主影像的精配准:用于将所有与主影像的基线小于100米的辅影像直接配准到主影像空间;通过分析其处理脚本,把单线程一重for循环遍历影像文件目录(互不影响的影像文件目录)顺序处理改造为由MapReduce的每个Map处理一个目录并行处理,再由Reduce进行合并,大大缩短了其处理时间,提高了处理效率。
[0017]辅影像到辅影像的精配准:用于将与主影像的基线大于η (可以自己设定,比如100)米的影像配准到与之最近的2?4个辅影像的空间。通过把二重循环的文件目录顺序遍历读写改造为MapReduce的每个Map处理一个目录并行处理,再由Reduce进行合并,大大缩短了其处理时间,提高了处理效率。
[0018]较佳地,所述辅影像到主影像的精配准,改造for循环,即把之前的循环迭代目录处理改造为MapReduce并行,每个Map处理一个互不影响的目录数据。
[0019]较佳地,所述辅影像到辅影像的精配准,改造双重for循环,即把之前的循环迭代目录处理改造为MapReduce并行,每个Map处理一个互不影响的目录数据。
[0020]较佳地,所述PS分析由模块组成,所述模块包括:
数据加载模块,用于将数据转化为PS分析需要的格式,并将数据存储到matlab空间; 计算时间相干系数模块,用于迭代计算干涉图中每个候选点的时间相干系数;
PS点选择模块,根据设定的非PS点像元在总像元中所占比例的最大值自适应地求得时间相干系数阈值,从而选择PS点;
PS点精简模块,剔除由于受到邻域影响使得干涉相位噪声大于预设阈值的点;
空间非相干误差改正模块,用于对缠绕的相位进行空间非相干误差改正,包括空间非相干的视线角误差和与主影像有关的空间非相干误差。
[0021 ] 较佳地,基于Hadoop的StaMPS算法并行化处理方法包括如下步骤:
如图2所示,精配准:
步骤101.把辅影像目录进行分块,一个Map对应一个辅影像目录,进行辅影像到主影像的配准;
步骤102.在Reduce端生成需要配准的辅影像对记录;
步骤103.把Reduce生成的η个辅影像按照要求选取作为下一个MapReduce的输入; 步骤104.每个Map处理一个辅影像到辅影像的配准;
如图3所示,PS分析:
步骤201.进行数据分块,提取PS候选点,每个Map处理一块数据;
步骤202.数据加载,将数据转化为PS分析需要的格式,并将数据存储到matlab空
间;
步骤203.计算时间相干系数,迭代计算干涉图中每个候选点的时间相干系数;
步骤204.PS点选择,根据设定的非PS点像元在总像元中所占比例的最大值自适应地求得时间相干系数阈值,从而选择PS点;
步骤205.PS点精简,剔除由于受到邻域影响使得干涉相位噪声大于预设阈值的点;步骤206.空间非相干误差改正,对缠绕的相位进行空间非相干误差改正,包括空间非相干的视线角误差和与主影像有关的空间非相干误差;
步骤207.调用matlab进行合并;
步骤208.进行相位解缠、空间相干误差改正、去噪声相位操作。
[0022]以上内容是结合具体的优选方式对本发明所作的进一步详细说明,不应认定本发明的具体实施只局限于以上说明。对于本【技术领域】的技术人员而言,在不脱离本发明构思的前提下,还可以作出若干简单推演或替换,均应视为由本发明所提交的权利要求确定的保护范围之内。
【权利要求】
1.一种基于Hadoop的StaMPS算法并行化处理方法,所述Hadoop包括HDFS和MapReduce,其特征在于,包括: 精配准,运行于Hadoop云平台上,实现影像的配准,把配准单机串行处理改造为多机并行; PS分析,运行于Hadoop云平台上,实现PS点的选择、精简,把单机串行顺序处理改造为多机并行。
2.根据权利要求1所述的基于Hadoop的StaMPS算法并行化处理方法,其特征在于,所述精配准包括: 辅影像到主影像的精配准,用于将所有与主影像的基线小于η米的辅影像直接配准到主影像空间,η的数值根据情况设定; 辅影像到辅影像的精配准,用于将与主影像的基线大于η米的影像配准到与之最近的m个辅影像的空间,n、m的数值根据情况设定。
3.根据权利要求2所述的基于Hadoop的StaMPS算法并行化处理方法,其特征在于:所述辅影像到主影像的精配准,改造for循环,即把之前的循环迭代目录处理改造为MapReduce并行,每个Map处理一个互不影响的目录数据。
4.根据权利要求2所述的基于Hadoop的StaMPS算法并行化处理方法,其特征在于:所述辅影像到辅影像的精配准,改造双重for循环,即把之前的循环迭代目录处理改造为MapReduce并行,每个Map处理一个互不影响的目录数据。
5.根据权利要求1所述的基于Hadoop的StaMPS算法并行化处理方法,其特征在于,所述PS分析由模块组成,所述模块包括: 数据加载模块,用于将数据转化为PS分析需要的格式,并将数据存储到matlab空间; 计算时间相干系数模块,用于迭代计算干涉图中每个候选点的时间相干系数; PS点选择模块,根据设定的非PS点像元在总像元中所占比例的最大值自适应地求得时间相干系数阈值,从而选择PS点; PS点精简模块,用于剔除由于受到邻域影响使得干涉相位噪声大于预设阈值的点;空间非相干误差改正模块,用于对缠绕的相位进行空间非相干误差改正,包括空间非相干的视线角误差和与主影像有关的空间非相干误差。
6.根据权利要求1~5中任一项所述的基于Hadoop的StaMPS算法并行化处理方法,其特征在于,包括如下步骤: 精配准: 步骤101.把辅影像目录进行分块,一个Map对应一个辅影像目录,进行辅影像到主影像的配准; 步骤102.在Reduce端生成需要配准的辅影像对记录,所述辅影像对由配准的辅影像和被配准的辅影像构成; 步骤103.把Reduce生成的η个辅影像按照要求选取作为下一个MapReduce的输入,η的数值根据情况设定; 步骤104.每个Map处理一个辅影像到辅影像的配准; PS分析: 步骤201.进行数据分块,提取PS候选点,每个Map处理一块数据;步骤202.数据加载,将数据转化为PS分析需要的格式,并将数据存储到matlab空间; 步骤203.计算时间相干系数,迭代计算干涉图中每个候选点的时间相干系数; 步骤204.PS点选择,根据设定的非PS点像元在总像元中所占比例的最大值自适应地求得时间相干系数阈值,从而选择PS点; 步骤205.PS点精简,剔除由于受到邻域影响使得干涉相位噪声大于预设阈值的点;步骤206.空间非相干误差改正,对缠绕的相位进行空间非相干误差改正,包括空间非相干的视线角误差和与主影像有关的空间非相干误差; 步骤207.调用matlab进行合并; 步骤208.进行相位解缠、空间相干误差改正、去噪声相位操作。
【文档编号】G06F9/46GK103903272SQ201410152271
【公开日】2014年7月2日 申请日期:2014年4月16日 优先权日:2014年4月16日
【发明者】黄井优, 范海生, 任伏虎, 王晋年, 萧畅成, 肖少林, 钟金沙, 唐秋霞 申请人:广东中科遥感技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1