面向全球变化研究的空间科学数据元数据自动汇聚方法

文档序号:6429957阅读:174来源:国知局
专利名称:面向全球变化研究的空间科学数据元数据自动汇聚方法
技术领域
本发明属于信息技术、全球变化研究领域,尤其涉及在面向全球变化研究领域中采用信息技术对分布、多源、异构空间科学数据元数据进行自动汇聚方法。
背景技术
随着全球变化的负面影响越来越严重、全球环境问题的日益突出,全球变化的研究正在受到空前的重视。这一点可从国际科学联合会理事会(ICSU)等国际科学组织陆续发起的四大全球环境变化研究计划表现出来1980年发起世界气候研究计划(WCRP)、1987 年发起国际地圈生物圈计划(IGBP)、1991年发起生物多样性计划(DIVERSITAQ、1996年发起国际全球环境变化的人文因素计划(IHDP)。并且,这四大科学计划于2001年联合组建了地球系统科学联盟(ESSP),联盟的目的在于推动对地球系统的综合集成研究、促进地球系统各研究计划之间的合作、加强人类对地球系统的深入认识。目前全球变化研究主要采用的手段和方法包括发展全球分析、模拟、数据挖掘等。 在当前的大科学时代,无论上述的哪一种研究手段,都需要大量的科学数据作为研究的基础和支持。观测技术,特别是卫星遥感技术的快速发展,提供了对整个地球系统行为进行监测的能力,而基于此的空间科学数据则为全球变化的研究提供了直接的基础。在全球变化研究领域中,不同层次、角度的研究模型众多,而这通常需要各种来源的科学数据作为基础。即使针对一个研究模型,也常常需要汇聚多个数据源的遥感空间科学数据来支持,而这些遥感科学数据源一般情况下处于分布、异构状态。比如遥感数据由于气象等自然条件影响,单一数据源的遥感影像无法覆盖整个研究区域,通常需要使用其他数据源进行替补。在无法快速、准确定位、汇聚分布、异构遥感空间科学数据的情况下,这些遥感空间科学数据的空间分布、结构多样性在很大程度上限制了科学研究的计算尺度范围。此问题需要一个功能完善的空间科学数据自动汇聚平台去解决。考虑到空间科学数据自动汇聚的前提是元数据的自动汇聚,全球变化的研究计划和科学家迫切需要一种能对分布式、多源、异构空间科学数据元数据进行自动汇聚的平台。 它能方便科学数据元数据的查询、定位,最终使得科学家可以方便地、一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源。经过查询文献,目前尚未发现能解决上述问题的方法和平台。

发明内容
针对上述需要对全球变化空间科学数据元数据资源自动汇聚的问题,本发明的目的在于提供一种面向全球变化研究的空间科学数据元数据自动汇聚方法。本发明提出结合空间科学数据的特点,根据系统工程分而治之的思路,通过元数据资源动态发现、元数据动态汇聚、元数据一致化表达及转换、元数据统一快速准确检索等步骤实现空间科学数据元数据资源的自动汇聚。本发明包括以下步骤(如图1所示)
(1)元数据资源动态发现考虑到全球变化科学数据海量膨胀,涌现出了大量的优质数据资源,且多数数据资源的元数据资源都采用友好的数据共享政策。不断扩展新的元数据资源,并实现元数据资源的动态发现是元数据资源自动汇聚的一个关键。为此需要建立兼容性强的数据源汇聚接口,通过透明、快捷的方式对元数据资源进行动态发现和确认,以更好地整合分布式遥感空间科学数据元数据资源。(2)元数据动态汇聚即如何保持数据提供方和面向全球变化研究的空间科学数据元数据自动汇聚平台之间元数据记录的一致性问题。为此,需要在分析数据源的元数据资源更新状况基础上, 形成不同的元数据收割方式和频率,及基于此的元数据下载模块,以满足数据更新需求和减轻系统负载之间的良好折中,实现元数据实时或准实时同步。(3)元数据一致化表达及转换分布式空间科学数据元数据的表达具有多样性特征,要实现对元数据的统一化管理和检索,必须实现全球变化科学数据元数据的一致化表达。为解决不同来源元数据的表达多样性问题,需要在全球变化科学数据领域的国际通用数据表达和数据互操作规范的基础上建立本地兼容性良好的元数据信息模型,并开发本地元数据转换器对不同来源的元数据进行解析、转换、信息提取,以实现元数据的一致化表达。(4)元数据统一快速准确检索如上述,全球变化相关数据具有关系复杂、非结构化、数据量大、多比例尺、随时间变化等特点,异构性强。在进行元数据的一致化转换和表达基础上,面对超大规模的海量科学数据元数据,需要建立高效快速索引(数字)系统和元数据库系统,以实现统一、快速、准确的元数据检索、定位。为实现上述目的,本发明采用如下的技术方案一种面向全球变化研究的空间科学数据元数据自动汇聚方法,包括如下步骤(1)服务器对不同的数据源,定期循环执行以下过程根据数据产品类型的不同, 生成该数据源元数据文件的可能有效id列表,并对其中的每一个id进行有效性验证(验证的标准是id所标示的元数据文件是否存在)从而得到当前有效的元数据文件id列表, 对其中有效的id生成完整的元数据文件url (含对应的图片文件url),并将这些元数据文件url (含对应的图片文件url)组合生成下载列表和下载任务,并启动下载任务(如图2 所示)。(2)服务器在识别目标任务(含正常与否、任务类型等)后按照任务量和资源情况启动相应的下载线程,并按照线程的情况和公平规则动态分配下载列表(对于已下载的任务,会默认不进行重复下载),之后各线程按照配置文件连接数据服务器及按照所分配的列表顺序获取文件流、对下载内容进行存储、对图片文件进行尺寸缩小和对下载过程中的异常进行恢复和纠正等(如图3所示)。(3)元数据文件(含对应的图片文件)下载完成后服务器对下载的文件完成质量检查(包括文件是否可以正常打开、文件大小是否匹配、元数据文件和图片文件及缩小的图片文件之间是否一一对应等)、元数据项提取、在计算的基础上识别四个顶点的经纬度值、元数据转换、元数据入库和建立数字索引等(如图4所示)。
(4)服务器对元数据按照文件(之前步骤完成)、元数据项数据库数据、索引数据等不同形式进行存储,并按照规则进行映射形成逻辑上统一的元数据环境,基于此提供逻辑上统一的元数据检索接口(如图5所示)。(5)用户检索部分提供用户检索接口,并完成对用户的查询(经纬度、空间对象) 进行相关性计算、按照规则(如距离等)对结果数据进行排序、根据用户的需要完成元数据查询、定位等(如图6所示)。通过上述步骤,完整地实现了面向全球变化研究的空间科学数据元数据自动汇聚
等工作。与现有技术相比,本发明的优点和积极效果基于本发明的方法,可以使得科学家们方便地、一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源,解决全球变化研究中的元数据自动汇聚问题。


图1面向全球变化研究的空间科学数据元数据自动汇聚流程图;图2元数据资源动态发现;图3元数据动态汇聚;图4元数据一致化表达及转换;图5元数据存储管理;图6用户检索部分。
具体实施例方式下面以Iandsat数据为例说明一下本发明的实施方式。首先对需要汇聚的特定数据源整理其数据网站的地址(比如Iandsat的数据网站地址为http://gl0vis. usgs. gov/)和需要汇聚的数据产品类型(比如LANDSAT-7 SLC_ off)。接下来服务器根据Iandsat数据产品类型、年份、日数等不同,生成可能有效的数据产品id列表,Iandsat的数据产品id是一种格式为LXSPPPRRRYYYYDDDGSIVV型的字符串,其中每一位的含义为L- ^^ Landsat ^ig。X-表示产品类型(M代表MSS,T代表TM,E代表ETM+)。S-表示卫星(1,2,3,4,5,7)。PPP-表示WRS通道。全球的范围是001-251,中国的范围是114-151。RRR-表示WRS列。全球范围是00H48,中国的范围是011-051。YYYY-表示数据产品的年份。DDD-表示数据产品日数(001-366)。GSI-表示地面站标识(比如北美站点为AAA,中国北京站点为BJC等)。VV-表示版本(两位数字)。之后服务器对生成的数据产品id列表中的每一个id进行有效性验证,可以通过提交到数据网站的验证接口(比如Iandsat的接口为
http://edcsnsl7. cr. usgs. gov/EarthExplorer/order/bulkDownload. php) t艮据元数据文件是否存在验证id的有效性;或者在下述拼接url基础上通过直接访问元数据文件的方式根据元数据文件是否存在验证id的有效性。对有效的数据产品id,在数据产品id和元数据文件url固定部分的基础上,拼接生成目标(元数据及其对应图片)文件的url地址(比如数据产品id = LE71370312010294SGS00 的元数据文件的地址http//edcsnsl7. cr. usgs. gov/cgi-bin/ EarthExplorer/fgdc. cgi ?dataset_name = LANDSAT_ETM&ent i ty_i d = LE71370312010294SGS00&form£it = HTM)。对于生成的有效元数据文件url (含对应的图片文件url),组合生成下载文件列表和下载任务(一个下载任务对应的下载列表中某一类型数据产品需下载的url数量占该下载任务需下载url总数量的比例等同于该类型数据产品的有效id数量占当前数据源中总有效id数量的比例;并且url依次按照数据产品类型、时间顺序排列),并启动之。服务器元数据动态汇聚部分在检测到已经可以启动的Iandsat下载任务后,按照下载列表的url数量和数据源的数据服务器的资源情况启动相应的下载线程,并按照线程的情况及公平原则将下载列表动态分配(分配规则采取完全随机的方式进行分配)给下载线程,之后各线程按照配置文件连接元数据服务器及按照所分配的列表顺序获取文件流、对下载内容进行存储、对图片文件进行尺寸缩小和对下载过程中的异常进行恢复和纠正等。服务器对下载完成的元数据文件(含对应的图片文件),首先需要经过质量检查, 包括文件是否能打开,文件大小和下载前是否相同,元数据文件、图片文件、缩小的图片文件是否一一对应等。对质量检查合格的元数据文件可以进行元数据项的提取(比如数据产生时间、实体数据文件所包含数据范围四个顶点的经纬度值、云量等),并通过计算判断的方式确定四个顶点的经纬度值(计算判断的原则是最北点的纬度值最大,最南点的纬度值最小,最东点的经度值最大,最西点的经度值最小),之后在对元数据项进行必要转换 (比如考虑到对数字建立索引的过程中对正数处理比较方便,统一将所有的经纬度值增加一个固定的正数,例如180,从而将所有的经纬度转换成大于或等于0的数;为了表达一致和建立索引高效,将数据的产品类型等统一转换成数字编码)的基础上对四个顶点经纬度值等建立数字索引(每一个数据均有一个唯一的数据id值),同时将其他的元数据内容 (包括元数据文件的路径)插入到本发明服务器的元数据项数据库中(每一个数据均有一个唯一的数据id值)。此过程中在元数据文件、元数据项数据库数据、数字索引项数据之间通过文件路径、元数据项数据库的数据id值、数字索引项中的数据id值(和元数据项数据库中的数据id值是同一值,对应一致)建立一一对应的映射关系,从而在此基础上形成可统一访问的数据检索接口。此后,用户可以在用户检索部分提供的检索接口,通过直接输入经纬度值或者提交特定空间对象特征(服务器事先建立这些空间对象特征和经纬度之间的对应关系,在用户提交空间对象特征时,服务器首先将这些特征转换为经纬度值)等作为查询条件,服务器将用户输入或经转换后的经纬度值增加固定的数值(比如180)后对查询条件进行相关性计算,并对查询结果按照区域中心点和查询区域中心点的距离、时间、云量等条件顺序排列,以此展示特定区域的空间数据情况,比如Iandsat数据产品中存在的此区域的数据列表,数据产生时间、云量等等。如果用户需要这些数据,可向对应的数据源(比如landsat) 提出数据预定申请。 在此基础上,实现了分布、多源、异构空间科学数据元数据的自动汇聚等功能。
权利要求
1.一种面向全球变化研究的空间科学数据元数据自动汇聚方法,其步骤为1)选定数据源,服务器定期对所选数据源进行访问,生成下载列表和下载任务;其方法为首先根据数据源的数据产品类型,生成该数据源元数据文件的可能有效id列表 ’然后验证可能有效id列表中每一 id所标示的元数据文件是否存在,从而得到当前有效的元数据文件id列表;最后根据有效的id生成完整的元数据文件url,并根据元数据文件url 生成所述下载列表和下载任务;2)服务器根据当前下载列表和下载任务,访问数据源数据服务器,进行数据下载并将其保存到服务器;3)服务器对下载的元数据文件进行质量检查,并对检查合格的元数据文件进行元数据项提取;4)将元数据项及元数据文件路径保存到元数据项数据库并建立索引;5)服务器通过元数据文件路径、元数据项数据库的数据id值、索引项的id值,建立元数据文件、元数据项数据库数据、索引数据之间一一对应的映射关系。
2.如权利要求1所述的方法,其特征在于提取的所述元数据项包括数据产生时间、实体数据文件所包含数据范围四个顶点的经纬度值、云量。
3.如权利要求2所述的方法,其特征在于所述索引的建立方法为首先对提取的实体数据文件所包含数据范围四个顶点的经纬度值进行计算,确定最北点的纬度值、最南点的纬度值、最东点的经度值、最西点的经度值;然后将确定的四个顶点经纬度值转换为大于或等于0的数;最后根据转换后的顶点经纬度值建立所述索引。
4.如权利要求3所述的方法,其特征在于所述索引为元数据项的数字索引。
5.如权利要求3所述的方法,其特征在于将所述四个顶点经纬度值分别加180,从而将所述四个顶点经纬度值转换为大于或等于0的数。
6.如权利要求1所述的方法,其特征在于所述根据有效的id生成完整的元数据文件 url,并根据元数据文件url生成所述下载列表和下载任务的方法为每一下载任务对应一下载列表,当设定下载url总数量为N时,每一下载列表中某一类型数据产品需下载的url 数量占该下载任务需下载url总数量的比例等同于该类型数据产品的有效id数量占当前数据源中总有效id数量的比例;并且url依次按照数据产品类型、时间顺序排列;其中,N 小于或等于总有效id数。
7.如权利要求6所述的方法,其特征在于服务器将所述下载列表中的url按照随机分配的方式分配给下载线程。
8.如权利要求1或2或3或4或5或6或7所述的方法,其特征在于所述质量检查包括元数据文件是否能打开,文件大小和下载前是否相同,元数据文件、图片文件、缩小的图片文件是否一一对应。
9.如权利要求8所述的方法,其特征在于所述服务器提供一检索接口。
全文摘要
本发明公开一种面向全球变化研究的空间科学数据元数据自动汇聚方法,属于信息技术领域。本方法为1)选定数据源,服务器定期对数据源进行访问,生成下载列表和下载任务;2)根据当前下载列表和下载任务,访问数据源服务器,进行元数据文件下载,并将其保存到服务器;3)对下载的元数据文件进行质量检查,并对检查合格的元数据文件进行元数据项提取、计算和转换;4)将元数据文件路径、元数据项保存到元数据项数据库并建立索引;5)通过文件路径、元数据项数据库的id值、索引项的id值,建立元数据文件、元数据项数据库数据、索引数据之间一一对应的映射关系。本方法可一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源。
文档编号G06F17/30GK102289483SQ20111022053
公开日2011年12月21日 申请日期2011年8月2日 优先权日2011年8月2日
发明者周园春, 杨风雷, 林青慧, 沈志宏, 胡良霖, 黎建辉 申请人:中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1