本发明涉及渔业资源信息,具体涉及基于etl结构的渔业资源环境数据组织方法、系统及装置。
背景技术:
1、渔业资源数据为多源异构数据,目前多源异构数据的汇聚已经运用到和多领域当中,随着我国远洋渔业发展的不断壮大,海洋领域多元化信息系统建设的步伐也在加快。单一的单纯海洋开发发展战略已经跟不上时代潮流的内在要求,由此衍生出的智能海洋是发展的重中之重。其中,在海洋环境要素数据采集阶段,由于技术和人为因素的影响,不同数据源的存储方式不同,标准也不同,不利于数据的再分发和应用。因此,如何提高海洋环境要素数据的利用率已成为一个亟待解决的问题。数据集成是指通过某种方式将来自不同数据源的异构数据进行集成,使用户能够更方便地访问和使用这些数据。多源异构海洋数据集成系统的研究对渔业信息化具有重要意义,可以大大提高海洋环境要素数据的管理效率。很多研究也一直在进行数据集成在国内外,为了解决互连的问题和互连的勘探和开发数据源。渔业资源数据存在的互联互通问题没有实际解决。
2、总体而言,目前海洋环境数据的整合存在一些问题。不同数据源研究机构提供的元数据具有不同的元数据标准,因此获取数据所需的参数不同,同一类型数据的时间和空间分辨率也可能不同。其中一些甚至差异很大,使用和共享会造成一定的障碍。大多数数据源只提供单一的数据格式(netcdf),不能满足多样化数据的需要。现有的大多数数据集成系统只能解决其中的一部分问题,无法满足用户日益增长的使用和共享需求。
技术实现思路
1、为了解决现有技术中,渔业资源数据的数据格式单一,不能满足多样化数据的需要等技术问题,本发明提供基于etl结构的渔业资源环境数据组织方法、系统及装置。
2、本发明解决上述技术问题的技术方案如下:
3、基于etl结构的渔业资源环境数据组织方法,包括如下步骤:
4、从多个海洋环境监测平台获取海洋环境监测数据,得到多源异构数据集;其中,所述多源异构数据集中的数据为所述海洋环境监测数据;
5、对所述多源异构数据集中的数据按数据用途进行分类,得到多个分类异构数据集;
6、对每个所述分类异构数据集中的数据均进行首次数据清洗以及首次数据标准化处理,得到多个初始标准化分类异构数据集;
7、将所有所述初始标准化分类异构数据集存储于临时数据库中;
8、将所述临时数据库中的所有所述初始标准化分类异构数据集中的数据进行二次数据标准化处理,得到多个标准化渔业资源环境数据集;
9、将所有所述标准化渔业资源环境数据集中的数据进行数据分类分级处理,得到多个多层级海洋数据集;
10、将所有所述多层级海洋数据集上传至互联网数据库中。
11、本发明的有益效果是:在基于etl结构的数据抽取即extract、数据转换即transform以及数据加载即load流程,将与传统海洋环境监测平台中的数据进行汇聚并统一处理,统一了海洋数据标准,并通过数据采集让数据更加多元性以及全面性。本发明满足了海洋环境元素数据架构数据集成层数据后续处理和应用的及时性和正确性要求,便于后续的处理和应用,解决了海洋数据格式单一且多源异构冗余等问题,也解决了数据空间分辨率不一致的问题。
12、在上述技术方案的基础上,本发明还可以做如下改进。
13、进一步,所述海洋环境监测数据包括海面温度数据、海洋叶绿素浓度数据、海洋风速数据、洋流数据以及海水盐度数据。
14、进一步,从多个海洋环境监测平台获取海洋环境监测数据,得到多源异构数据集,包括如下步骤:
15、通过重采样方法从多个海洋环境监测平台获取海洋环境监测数据,得到所述多源异构数据集。
16、进一步,对每个所述分类异构数据集中的数据均进行首次数据清洗以及首次数据标准化处理,得到多个初始标准化分类异构数据集,包括如下步骤:
17、对每个所述分类异构数据集中的数据均通过分布式离群点挖掘算法进行首次数据清洗,得到首次数据清洗后的所述分类异构数据集;
18、将首次数据清洗后的所述分类异构数据集中的数据进行首次数据标准化处理,得到多个所述初始标准化分类异构数据集。
19、进一步,对每个所述分类异构数据集中的数据均通过分布式离群点挖掘算法进行首次数据清洗,得到首次数据清洗后的所述分类异构数据集,包括如下步骤:
20、基于分布式离群点挖掘算法,去除每个所述分类异构数据集中离群值大于预设离群阈值的数据,得到多个初始筛选分类异构数据集;
21、将每个所述初始筛选分类异构数据集中异常的数据通过数据填充处理方法或数据重采样处理方法进行数据处理,得到首次数据清洗后的所述分类异构数据集。
22、进一步,所述数据重采样处理方法,具体为双向线性插值法。
23、进一步,将所述临时数据库中的所有所述初始标准化分类异构数据集中的数据进行二次数据标准化处理,得到多个标准化渔业资源环境数据集,包括如下步骤:
24、将所述临时数据库中的所有所述初始标准化分类异构数据集中的数据进行数据格式转换,得到转换数据格式后的多个所述初始标准化分类异构数据集;
25、将转换数据格式后的多个所述初始标准化分类异构数据集中的数据进行数据重构处理,得到多个所述标准化渔业资源环境数据集。
26、进一步,将转换数据格式后的多个所述初始标准化分类异构数据集中的数据进行数据重构处理,得到多个所述标准化渔业资源环境数据集,包括如下步骤:
27、建立重构数据模型;
28、将转换数据格式后的所有所述初始标准化分类异构数据集中的数据按照所述重构数据模型进行数据重构,得到数据重构后的所述初始标准化分类异构数据集;
29、将数据重构后的所有所述初始标准化分类异构数据集中的数据均转换为整数型数据格式,得到多个所述标准化渔业资源环境数据集。
30、为了解决上述技术问题,本发明还提供基于etl结构的渔业资源环境数据组织系统,具体技术内容如下:
31、基于etl结构的渔业资源环境数据组织系统,包括数据获取模块、数据分类模块、数据处理模块以及数据上传模块;
32、所述数据获取模块用于,从多个海洋环境监测平台获取海洋环境监测数据,得到多源异构数据集;其中,所述多源异构数据集中的数据为所述海洋环境监测数据;
33、所述数据分类模块用于,对所述多源异构数据集中的数据按数据用途进行分类,得到多个分类异构数据集;
34、所述数据处理模块用于,对每个所述分类异构数据集中的数据均进行首次数据清洗以及首次数据标准化处理,得到多个初始标准化分类异构数据集;将所有所述初始标准化分类异构数据集存储于临时数据库中;将所述临时数据库中的所有所述初始标准化分类异构数据集中的数据进行二次数据标准化处理,得到多个标准化渔业资源环境数据集;将所有所述标准化渔业资源环境数据集中的数据进行数据分类分级处理,得到多个多层级海洋数据集;
35、所述数据上传模块用于,将所有所述多层级海洋数据集上传至互联网数据库中。
36、为了解决上述技术问题,本发明还提供基于etl结构的渔业资源环境数据组织装置,具体技术内容如下:
37、基于etl结构的渔业资源环境数据组织装置,其特征在于包括存储器以及一个或多个处理器,所述存储器中存储有可执行代码,一个或多个所述处理器执行所述可执行代码时,实现上述基于etl结构的渔业资源环境数据组织方法的步骤。