本发明涉及数字信息数据处理,特别是涉及一种基于时空大数据引擎的数据处理方法和装置。
背景技术:
1、新时代下,数据资源已经成为国家重要基础战略资源之一,大数据、云计算、物联网等新一代信息技术的不断创新发展为自然资源时空大数据的存储和分析创造了新条件,例如:计算机硬件与网络的发展为自然资源信息化提供了高效的计算和访问能力,云计算、大数据与人工智能的创新为自然资源智能管理与服务提供了技术手段等;时空大数据技术在海量数据存储、数据挖掘、图像视频智能分析等方面有着显著优势,但时代的发展也对这些数据信息的利用提出了更高的要求。现有方式主要是通过时空大数据技术,对时空大数据进行处理和分析挖掘,以及使用经典gis功能的分布式重构,对经典时空数据进行管理和处理。
2、但是,现有技术在对时空大数据的多源数据集进行分析和管理时所使用的模型众多,且经常变化调整,导致资源利用率低,并且,由于时空大数据的数据量庞大,导致无法从中及时获取目标数据信息并进行一站式管理,严重降低了数据的利用率。
技术实现思路
1、本发明提供一种基于时空大数据引擎的数据处理方法和装置,以解决难以及时从多源数据集中获取目标数据以进行一站式智能管理的问题。
2、为了解决上述问题,本发明提供了一种基于时空大数据引擎的数据处理方法,包括:
3、获取多源数据集和若干时空大数据任务;
4、将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型;
5、根据所述若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
6、根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据;
7、对所述调度数据进行数据治理和多维分析挖掘,得到目标数据。
8、本发明通过数据分解所得到的若干弹性分布式数据集是存储在子过程的不同节点上的,因此当需要进行数据计算的时候可以在这些节点上并行操作,能够加快数据的处理过程;根据各数据集群的负载信息和吞吐率值建立资源洞察模型,可以充分考虑到数据的变化情况,使所得到的资源洞察模型能够反馈准确的数据实时处理动态信息,因此能够以时空大数据任务为基础,通过引擎负载调整,以集中资源在众多数据中进行搜寻调度,可以在避免引擎过劳使用的同时,充分发挥引擎的效用,快速得到所需要的调度数据;最后通过数据治理和多维分析挖掘,能够对数据进行进一步优化处理和遗漏排除,使所得到的目标数据准确有效。
9、相比于现有技术,本发明通过对多源数据集进行分析处理,建立对应的资源洞察模型以控制引擎进行搜索,能够快速得到调度数据以做进一步处理,使最后得到的目标数据拥有完善且高价值的信息,所以能够解决难以及时从多源数据集中获取目标数据以进行一站式智能管理的问题。
10、作为优选方案,将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型,具体为:
11、按照所述若干时空大数据任务的任务数量将所述多源数据集分解为前后依赖的若干子过程,使每一个任务包含对应的若干子过程,且每一个子过程包含对应的若干弹性分布式数据集;
12、将所述多源数据集的数据重新分配到所述若干弹性分布式数据集中,使所述若干弹性分布式数据集对重新分配的数据进行整合处理;
13、根据所述若干弹性分布式数据集在进行整合处理时的数据信息计算得到负载信息集和数据吞吐率集,根据所述负载信息集和所述数据吞吐率集和预设权重,建立所述若干资源洞察模型。
14、本优选方案通过数据分解所得到的若干弹性分布式数据集是存储在子过程的不同节点上的,因此当需要进行数据计算的时候可以在这些节点上并行操作,能够加快数据的处理过程;由于若干子过程是前后依赖的关系,所以能够降低数据并发执行的限制,提高了各数据集的数据处理的性能和吞吐量。
15、作为优选方案,根据所述若干弹性分布式数据集在进行整合处理时的数据信息计算得到负载信息集和数据吞吐率集,根据所述负载信息集和所述数据吞吐率集和预设权重,建立所述若干资源洞察模型,具体为:
16、根据所述若干弹性分布式数据集在进行整合处理时的cpu利用率、任务占有率、磁盘等待队列长度、活跃任务数、周期吞吐率和未处理数据量,计算得到所述负载信息集和所述数据吞吐率集;
17、根据时空大数据任务的下发速度和当前时空大数据任务的处理速度,计算得到模型权重;
18、根据所述负载信息集、所述数据吞吐率集和所述模型权重建立所述若干资源洞察模型。
19、本优选方案使用若干弹性分布式数据集在进行整合处理时的数据信息建立资源洞察模型,能够充分考虑到进行整合处理时数据的变化情况,使所得到的资源洞察模型能够反馈准确的数据实时处理动态信息,以便后续以此进行资源调度。
20、作为优选方案,根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据,具体为:
21、根据所述若干资源洞察模型的任务负载量和任务吞吐率建立负载信息样本集和历史吞吐率集;
22、根据所述若干资源洞察模型的模型权重和所述负载信息样本集计算得到所述若干时空大数据任务的若干吞吐率洞察值;
23、根据所述若干吞吐率洞察值、数据吞吐率集和所述若干时空大数据任务的负载数据量对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据。
24、本优选方案是资源调度过程的具体描述,根据若干吞吐率洞察值、数据吞吐率集和负载数据量对若干引擎的负载进行控制,能够以时空大数据任务为基础,集中资源在众多数据中进行搜寻调度与引擎负载调整,能够在避免引擎过劳使用的同时,充分发挥引擎的效用,快速得到所需要的调度数据,该调度控制方式针对性强,调度效果立竿见影。
25、作为优选方案,对所述调度数据进行数据治理和多维分析挖掘,得到目标数据,具体为:
26、通过对所述调度数据进行信息注册的方式,将所述调度数据与预设的大数据分析资源池建立连接;其中,所述大数据分析资源池是根据分布式文件系统、云存储、列式存储建立的数据库;
27、对建立连接之后的调度数据进行数据清洗与融合,得到过渡数据;
28、在多维空间上对所述过渡数据进行近似数据查找与汇总,得到所述目标数据。
29、本优选方案对调度数据进行数据清洗与融合,相当于在原有调度数据的基础上做了数据提取与修剪,使所得到的过渡数据条理清晰、数据正常,且数据特征得到了加强;
30、在多维空间上对过渡数据进行近似数据查找与汇总,能够以优化后的过渡数据为基础,通过不同纬度在多源数据集中再次进行数据分析查找,以避免出现数据遗漏的情况,并且能够对过渡数据做进一步分析,以获取到更多有用的特征属性。
31、作为优选方案,在所述得到目标数据之后,还包括:
32、将所述目标数据渲染后输入预设的三维地图中形成若干点位;
33、通过拾取所述若干点位的高程信息,对所述若干点位进行通视分析,得到通视分析结果;
34、根据所述三维地图中的中心点以及区域范围对可视区域结果进行动态分析,得到动态分析结果;
35、根据所述通视分析结果和所述动态分析结果对所述若干点位进行查询,得到查询结果;
36、通过所述三维地图展示所述查询结果。
37、本优选方案是通过三维地图对查询结果进行展示,由于该查询结果是在通视分析结果和动态分析结果的基础上获取的,因此能够将目标数据中的信息完整有效地展示在三维地图上,避免信息遗漏;并且,通过三维地图的展现方式比使用二维地图或者直接用数字展示的方式更为直观,能够让用户更快速全面地获取目标数据。
38、作为优选方案,将所述目标数据渲染后输入预设的三维地图中形成若干点位,具体为:
39、将所述目标数据的图层数据对象、样式对象与拟定渲染对象分离,得到分离结果;
40、将所述分离结果渲染后输入预设的三维地图中形成若干点位;其中,所述三维地图是通过在二维地图上进行点、线、面要素标绘和符号化图标三维展现的方式构建的。
41、作为优选方案,在所述得到目标数据之后,还包括:
42、获取目标服务对象的数据信息;
43、通过预设的服务api管理节点根据所述数据信息的ip、端口和服务信息进行微服务注册;
44、通过预设的网关服务节点将所述目标数据共享给注册后的所述目标服务对象。
45、本优选方案通过微服务注册的方式,能够节省数据共享的时间成本,可以直接根据目标服务对象的ip等信息共享对应的服务信息,免除了额外的安全认证,能够在保证数据安全的同时加快数据共享的进度。
46、作为优选方案,在所述获取多源数据集和若干时空大数据任务之后,还包括:
47、使用预设模型对所述多源数据集进行配置适用;
48、根据细粒度分析算子,使进行配置适用后的所述预设模型以拖拽组合的方式对所述多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
49、使用所述预设模型对所述初步数据进行初步展示和共享复用。
50、本优选方案通过使用预设模型对初步数据进行初步展示和共享复用,能够在第一时间将数据的初步处理结果反馈给用户,用户可以根据自身需求查看预设模型中与初步数据相关的数据流程及详细参数,减少沟通成本。
51、本发明还提供了一种基于时空大数据引擎的数据处理装置,包括获取模块、构建模块、遴选模块、调度模块和综合模块;
52、其中,所述获取模块,用于获取多源数据集和若干时空大数据任务;
53、所述构建模块,用于将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型;
54、所述遴选模块,用于根据所述若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
55、所述调度模块,用于根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据;
56、所述综合模块,用于对所述调度数据进行数据治理和多维分析挖掘,得到目标数据。
57、作为优选方案,所述构建模块包括分解单元、处理单元和模型单元;
58、其中,所述分解单元,用于按照所述若干时空大数据任务的任务数量将所述多源数据集分解为前后依赖的若干子过程,使每一个任务包含对应的若干子过程,且每一个子过程包含对应的若干弹性分布式数据集;
59、所述处理单元,用于将所述多源数据集的数据重新分配到所述若干弹性分布式数据集中,使所述若干弹性分布式数据集对重新分配的数据进行整合处理;
60、所述模型单元,用于根据所述若干弹性分布式数据集在进行整合处理时的数据信息计算得到负载信息集和数据吞吐率集,根据所述负载信息集和所述数据吞吐率集和预设权重,建立所述若干资源洞察模型。
61、作为优选方案,所述模型单元包括第一计算子单元、第二计算子单元和第三计算子单元;
62、其中,所述第一计算子单元,用于根据所述若干弹性分布式数据集在进行整合处理时的cpu利用率、任务占有率、磁盘等待队列长度、活跃任务数、周期吞吐率和未处理数据量,计算得到所述负载信息集和所述数据吞吐率集;
63、所述第二计算子单元,用于根据时空大数据任务的下发速度和当前时空大数据任务的处理速度,计算得到模型权重;
64、所述第三计算子单元,用于根据所述负载信息集、所述数据吞吐率集和所述模型权重建立所述若干资源洞察模型。
65、作为优选方案,所述调度模块包括数据集单元、洞察值单元和控制单元;
66、其中,所述数据集单元,用于根据所述若干资源洞察模型的任务负载量和任务吞吐率建立负载信息样本集和历史吞吐率集;
67、所述洞察值单元,用于根据所述若干资源洞察模型的模型权重和所述负载信息样本集计算得到所述若干时空大数据任务的若干吞吐率洞察值;
68、所述控制单元,用于根据所述若干吞吐率洞察值、数据吞吐率集和所述若干时空大数据任务的负载数据量对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据。
69、作为优选方案,所述综合模块包括连接单元、过渡单元和目标单元;
70、其中,所述连接单元,用于通过对所述调度数据进行信息注册的方式,将所述调度数据与预设的大数据分析资源池建立连接;其中,所述大数据分析资源池是根据分布式文件系统、云存储、列式存储建立的数据库;
71、所述过渡单元,用于对建立连接之后的调度数据进行数据清洗与融合,得到过渡数据;
72、所述目标单元,用于在多维空间上对所述过渡数据进行近似数据查找与汇总,得到所述目标数据。
73、作为优选方案,所述综合模块还包括点位单元、通视分析单元、动态分析单元、查询单元和展示单元;
74、其中,所述点位单元,用于将所述目标数据渲染后输入预设的三维地图中形成若干点位;
75、所述通视分析单元,用于通过拾取所述若干点位的高程信息,对所述若干点位进行通视分析,得到通视分析结果;
76、所述动态分析单元,用于根据所述三维地图中的中心点以及区域范围对可视区域结果进行动态分析,得到动态分析结果;
77、所述查询单元,用于根据所述通视分析结果和所述动态分析结果对所述若干点位进行查询,得到查询结果;
78、所述展示单元,用于通过所述三维地图展示所述查询结果。
79、作为优选方案,所述点位单元包括分离子单元和点位子单元;
80、其中,所述分离子单元,用于将所述目标数据的图层数据对象、样式对象与拟定渲染对象分离,得到分离结果;
81、所述点位子单元,用于将所述分离结果渲染后输入预设的三维地图中形成若干点位;其中,所述三维地图是通过在二维地图上进行点、线、面要素标绘和符号化图标三维展现的方式构建的。
82、作为优选方案,所述综合模块还包括信息获取单元、注册单元和共享单元;
83、其中,所述信息获取单元,用于获取目标服务对象的数据信息;
84、所述注册单元,用于通过预设的服务api管理节点根据所述数据信息的ip、端口和服务信息进行微服务注册;
85、所述共享单元,用于通过预设的网关服务节点将所述目标数据共享给注册后的所述目标服务对象。
86、作为优选方案,所述获取模块还包括配置单元、治理单元和复用单元;
87、其中,所述配置单元,用于使用预设模型对所述多源数据集进行配置适用;
88、所述治理单元,用于根据细粒度分析算子,使进行配置适用后的所述预设模型以拖拽组合的方式对所述多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
89、所述复用单元,用于使用所述预设模型对所述初步数据进行初步展示和共享复用。本发明还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被计算机调用并执行,实现如上所述一种基于时空大数据引擎的数据处理方法。