自动提取空间元数据并和空间数据模型自动关联的方法与流程

文档序号:37179992发布日期:2024-03-01 12:36阅读:19来源:国知局
自动提取空间元数据并和空间数据模型自动关联的方法与流程

本技术涉及地理信息系统,更具体地说,涉及一种自动提取空间元数据并和空间数据模型自动关联的方法。


背景技术:

1、地理信息系统(gis)在今天的现代社会中扮演着至关重要的角色,为城市规划、资源管理、紧急响应、环境监测等领域提供了关键支持。gis依赖于准确和全面的地理信息数据来实现其功能,而这些数据通常包括位置坐标、地理范围、数据质量、来源和其他关键元数据信息。

2、然而,gis系统和地理数据管理通常涉及大量手动工作,主要方式包括:手动输入和维护元数据信息。数据管理员或gis专家手动填写数据的关键元数据,如数据类型、坐标系统、地理范围、数据源等。

3、一些公司使用表格或数据库来管理地理信息数据的元数据。这些表格或数据库包括各种数据字段,允许用户记录和维护数据的元数据信息。在某些情况下,公司可能采用标准化的元数据模板,要求数据提供者按照特定的格式和标准提供元数据信息。这有助于确保一致性,但仍需要较多人工干预。

4、上述地理信息数据的管理方式存在一些劣势,这些劣势在现代地理信息系统和数据管理中逐渐显得不够高效和可持续。这些劣势包括:效率问题,手动提取空间元数据需要大量时间和劳动力;随着地理信息数据不断增多,需要更有效的方法来处理和管理这些数据;错误和不一致性问题,人工提取元数据容易引入错误和不一致性,不同的数据采集人员可能使用不同的方法和标准,导致元数据的不一致性。


技术实现思路

1、鉴于上述的一些地理信息数据的管理方式存在效率问题和错误和不一致性问题,本技术提供了一种自动提取空间元数据并和空间数据模型自动关联的方法,以减少手动工作,提高元数据的一致性和质量,这不仅有助于提高gis系统的性能,还能够更好地支持城市规划、环境保护、资源管理和紧急响应等领域。

2、一种自动提取空间元数据并和空间数据模型自动关联的方法,包括如下步骤:

3、步骤a:设计元数据提取器的参数;所述元数据提取器的参数包括数据源、元数据模板、元数据采集器、元数据提取规则和元数据存储方式;所述数据源存储有不同格式的空间数据文件;对于每个所述空间数据文件,相应生成一个元数据提取任务;

4、步骤b:注册文件变化监测脚本;所述监测脚本获取所述数据源中变化的空间数据文件以及该空间数据文件的变化信息,并把空间数据文件的变化信息推送到apache kafka消息队列中;

5、步骤c:注册文件变化消息处理器,通过监听apache kafka消息队列主题,获得发生变化的空间数据文件,基于该空间数据文件映射的元数据提取任务,触发相应的元数据提取任务;

6、步骤d:对于触发的元数据提取任务,根据所述元数据提取规则,自动从所述空间数据文件之中提取相应的元数据,根据所述元数据存储方式将元数据进行存储;

7、步骤e:从neo4j图库中获取空间数据文件衍生的空间数据模型,自动将该空间数据模型与从该空间数据文件中提取的元数据进行关联。

8、通过采用上述技术方案,通过监测数据源的文件变化信息,自动提取空间数据的元数据信息,减少手动工作,提高效率,提高元数据的一致性和准确性。空间元数据和空间数据模型自动关联,有利于描述和组织各空间元数据之间的关系,可以更好的管理和理解空间元数据,提高空间元数据的质量和价值。

9、需要说明的是,apache kafka是一个开源消息系统项目,该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台,是一个分布式的、分区的、多复本的日志提交服务,提供了一个消息系统的功能。

10、作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,在步骤a中,所述数据源是基于delta lake构建的数据湖;所述数据湖存储有不同格式的空间数据文件;delta lake自动将空间数据文件的变化写入日志文件中。在步骤b中,所述监测脚本通过定时调用delta lake的api接口,来获取日志文件中变化的空间数据文件以及该空间数据文件的变化信息。

11、需要说明的是,delta lake是databricks公司推出的一种数据湖方案。deltalake将文件变化信息记录在其文件操作日志中。api接口:应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

12、通过采用上述技术方案,通过监测delta lake文件变化日志,动态监测空间数据文件的变化,自动提取空间数据的元数据信息,以减少手动工作,提高元数据的一致性和质量。

13、作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,所述元数据提取器内置多种元数据模板;所述元数据模板定义所要提取的元数据的字段名称、字段类型和字段分类。所述元数据提取规则包括设定提取频率和数据更新方式。所述元数据提取规则还包括设置所述元数据模板与所述空间数据文件存储目录的映射关系,通过映射关系识别所述空间数据文件的格式,所述元数据采集器通过geotools开源框架解析读取不同格式的空间数据文件,根据所述元数据模板以及设定的提取频率和数据更新方式,来提取元数据信息。

14、通过采用上述技术方案,设定元数据提取规则,遵循固定的规则和标准,从而使元数据具有一致性。

15、作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,所述提取频率选自实时提取、周期性提取和一次性提取之中的任意一种;所述数据更新方式选自增量更新、全覆盖更新和比较更新之中的任意一种。

16、通过采用上述技术方案,多样化的元数据提取规则,可按产品需要选择来执行,适用范围广。

17、作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,步骤b中,所述把空间数据文件的变化信息推送到apache kafka消息队列中,包括:先定义apache kafka消息队列主题的数据内容包括:文件路径、文件变化类型、文件变化时间和文件版本;然后使用python的confluent-kafka库,将空间数据文件的变化信息发送到apachekafka消息队列主题中。

18、通过采用上述技术方案,监测文件路径以获取变化的文件和变化信息,运行可靠。

19、作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,步骤c具体包括:注册文件变化消息处理器,使用python的confluent-kafka库,监听apachekafka消息队列主题,解析出变化的空间数据文件以及该空间数据文件的文件路径,基于文件路径与元数据提取任务的映射关系,触发元数据提取任务。

20、通过采用上述技术方案,自动、准确的触发元数据提取任务。

21、作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,步骤d具体包括:对于触发的元数据提取任务,获取任务执行参数,所述任务执行参数包括文件路径、文件名和元数据模板,通过所述文件路径生成唯一表名,通过所述元数据模板定义表结构;连接postgis空间元数据库,判断所述表名是否存在,不存在则创建使用所述表名和所述表结构的元数据表;根据所述元数据提取规则,从所述空间数据文件之中提取相应的元数据,将元数据写入postgis空间元数据库的元数据表中。

22、通过采用上述技术方案,元数据可以存储在postgis空间元数据库的元数据表中,方便展示和管理。

23、作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,所述自动提取空间元数据并和空间数据模型自动关联的方法还包括步骤f:所述元数据表中的元数据通过数据表格、地图检索的方式,来进行展示,所述数据表格和所述地图检索均支持对元数据空间查询,包括范围查询、属性查询、地理交互式查询和地理缓冲区查询。

24、通过采用上述技术方案,本技术提供了一种容易访问和管理地理信息数据的途径。

25、综上所述,本技术的自动提取空间元数据并和空间数据模型自动关联的方法具有如下有益效果:

26、高效性:自动提取元数据,可以迅速分析和记录大量地理信息数据的关键属性,无需手动输入或编辑,提高了工作效率,特别是在处理大规模数据集时。

27、准确性:自动化方法能够以一致和精确的方式提取元数据,降低了人为操作错误的风险,有助于确保数据的准确性和可信度。

28、一致性:自动提取方法遵循固定的规则和标准,从而确保元数据的一致性。

29、数据发现:自动提取的元数据可以改善数据发现和访问。用户可以更轻松地搜索和找到需要的地理信息数据,节省时间和精力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1