数据的汇聚方法及装置、存储介质和电子装置与流程

文档序号:19745056发布日期:2020-01-21 18:13阅读:286来源:国知局
数据的汇聚方法及装置、存储介质和电子装置与流程

本发明涉及计算机领域,具体而言,涉及一种数据的汇聚方法及装置、存储介质和电子装置。



背景技术:

在信息技术发达的今天,数据呈指数级增长。企业的各个业务系统在运行过程也产生了不同量级的数据资源,这些数据类型多样化,结构复杂化,分布分散化。数据汇聚就是将多源、异构并且分散的数据在物理上或者逻辑上有机聚集到大数据平台中集中存储和管理,同时也能够实现各个系统间的数据共享、各个应用间的有效流通。但如何有效的将这些来源不同、格式不一、结构各异的数据汇聚到一起变得非常重要。现有技术中的数据汇聚方法是针对某一种数据源或者单一结构的数据源,无法满足企业多源、异构的场景。

针对相关技术中的上述问题,目前尚未存在有效的解决方案。



技术实现要素:

本发明实施例提供了一种数据的汇聚方法及装置、存储介质和电子装置,以至少解决相关技术中数据汇聚方法是针对某一种数据源或者单一结构的数据源的问题。

根据本发明的一个实施例,提供了一种数据的汇聚方法,包括:获取各个数据源的元信息,其中,所述元信息用于指示以下至少之一:数据源类型,数据源的位置,数据源的数据结构;根据所述元信息对各个所述数据源进行分类存储。

可选地,在获取各个数据源的元信息之后,所述方法还包括:创建多个采集任务,其中,每一个采集任务对应一个数据类型;根据所述元信息从所述各个数据源中选择与指定类型匹配的数据源,并根据所述采集任务执行选择出的数据源;保存采集任务的执行结果。

可选地,所述采集任务所包括的任务至少包括以下之一:创建任务、删除任务、运行任务、重运行、查看任务详情。

可选地,所述执行结果至少包括以下之一:采集开始时间、结束时间、触发方式、采集量、目的存储位置。

可选地,所述方法还包括:实时监控多个所述采集任务执行数据源的情况。

根据本发明的一个实施例,提供了一种数据的汇聚装置,包括:获取模块,用于获取各个数据源的元信息,其中,所述元信息用于指示以下至少之一:数据源类型,数据源的位置,数据源的数据结构;分类模块,用于根据所述元信息对各个所述数据源进行分类存储。

可选地,所述装置还包括:创建模块,用于在获取各个数据源的元信息之后,创建多个采集任务,其中,每一个采集任务对应一个数据类型;处理模块,用于根据所述元信息从所述各个数据源中选择与指定类型匹配的数据源,并根据所述采集任务执行选择出的数据源;保存模块,用于保存采集任务的执行结果。

可选地,所述采集任务所包括的任务至少包括以下之一:创建任务、删除任务、运行任务、重运行、查看任务详情。

可选地,所述执行结果至少包括以下之一:采集开始时间、结束时间、触发方式、采集量、目的存储位置。

可选地,所述装置还包括:监控模块,用于实时监控多个所述采集任务执行数据源的情况。

根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明,采用获取各个数据源的元信息,其中,元信息用于指示以下至少之一:数据源类型,数据源的位置,数据源的数据结构,并进而根据元信息对各个数据源进行分类存储的方式,解决了相关技术中数据汇聚方法是针对某一种数据源或者单一结构的数据源的问题,丰富了数据汇聚的应用场景。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的一种数据的汇聚方法的终端的硬件结构框图;

图2是根据本发明实施例的数据汇聚的方法流程图;

图3是根据本发明实施例的数据的汇聚装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在终端、计算机终端或者类似的运算装置中执行。以运行在终端上为例,图1是本发明实施例的一种数据的汇聚方法的终端的硬件结构框图。如图1所示,终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据的汇聚方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端10的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(networkinterfacecontroller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radiofrequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述终端或的数据的汇聚方法,图2是根据本发明实施例的数据的汇聚方法的流程图,如图2所示,该流程包括如下步骤:

步骤s202,获取各个数据源的元信息,其中,元信息用于指示以下至少之一:数据源类型,数据源的位置,数据源的数据结构;

步骤s204,根据元信息对各个数据源进行分类存储。

通过上述步骤s202至步骤s204,采用获取各个数据源的元信息,其中,元信息用于指示以下至少之一:数据源类型,数据源的位置,数据源的数据结构,并进而根据元信息对各个数据源进行分类存储的方式,解决了相关技术中数据汇聚方法是针对某一种数据源或者单一结构的数据源的问题,丰富了数据汇聚的应用场景。

需要说明的是,本实施例的方法步骤的执行主体可以是大数据平台。

在本实施例的可选实施方式中,在获取各个数据源的元信息之后,本实施例的方法步骤还可以包括:

步骤s206,创建多个采集任务,其中,每一个采集任务对应一个数据类型;

步骤s208,根据元信息从各个数据源中选择与指定类型匹配的数据源,并根据采集任务执行选择出的数据源;

步骤s210,保存采集任务的执行结果;

步骤s212,实时监控多个采集任务执行数据源的情况。

其中,采集任务所包括的任务至少包括以下之一:创建任务、删除任务、运行任务、重运行、查看任务详情。

其中,执行结果至少包括以下之一:采集开始时间、结束时间、触发方式、采集量、目的存储位置。

下面结合本实施例的可选实施方式对本申请进行举例说明;

本可选实施方式提供了一种通用的数据汇聚方法,数据汇聚的存储是依赖于现有的大数据平台,包括以下步骤:

步骤s11,获取需要汇聚到大数据平台的各个数据源的元信息,其中,元信息包括数据源类型,数据位置,数据结构等,将这些信息保存到数据库中;

步骤s12,确定针对常用数据源的数据采集程序即数据源采集器,

其中采集器包括:常用的关系型数据库(mysql、oracle、sqlserver、hive、postgresql等)采集器,半结构化数据(文本、json文件、excel等)采集器,流式数据采集器;

步骤s13,实现任务管理器,用来管理采集任务,包括创建任务、删除任务、运行任务、重运行、查看任务详情等;

步骤s14,实现任务监控器,用来监控任务的执行情况;

步骤s16,实现任务记录器,用来记录采集任务的执行结果包括采集开始时间、结束时间、触发方式(自动、手动)、采集量、目的存储位置等信息

步骤s17,数据汇聚后的存储管理,对不同来源的数据分类存储以及数据版本的维护;

下面以具体方式为例进行相似说明

假设有mysql数据源mysql-s,大数据平台bigdataplatform为分布式的hadoop平台,先将mysql-s中的数据汇聚到大数据平台bigdataplatform中;获取mysql-s下所有的库信息,库下的所有表信息以及表中所有的列信息;任务管理器创建一个mysql类型的采集任务task-1,并等待任务执行;根据任务的触发方式,手动或者自动运行采集任务;根据采集任务的数据源类型为mysql类型,调用mysql采集器抽取mysql-s中的数据到大数据平台中;任务监控器启动,实时监控task-1的执行情况,并将执行情况反馈给用户;任务task-1执行完成后,任务记录器将任务执行结果保存到数据库中;根据mysql-s所属的业务系统,进行分类存储,同时根据数据的采集日期对数据存储目录进行版本维护。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种数据的汇聚装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的数据的汇聚装置的结构框图,如图3所示,该装置包括:获取模块32,用于获取各个数据源的元信息,其中,元信息用于指示以下至少之一:数据源类型,数据源的位置,数据源的数据结构;分类模块34,与获取模块32耦合连接,用于根据元信息对各个数据源进行分类存储。

可选地,本实施例中的装置还可以包括:创建模块,用于在获取各个数据源的元信息之后,创建多个采集任务,其中,每一个采集任务对应一个数据类型;处理模块,用于根据元信息从各个数据源中选择与指定类型匹配的数据源,并根据采集任务执行选择出的数据源;保存模块,用于保存采集任务的执行结果。

其中,采集任务所包括的任务至少包括以下之一:创建任务、删除任务、运行任务、重运行、查看任务详情。

其中,执行结果至少包括以下之一:采集开始时间、结束时间、触发方式、采集量、目的存储位置。

可选地,本实施例的装置还可以包括:监控模块,用于实时监控多个采集任务执行数据源的情况。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

s1,获取各个数据源的元信息,其中,元信息用于指示以下至少之一:数据源类型,数据源的位置,数据源的数据结构;

s2,根据元信息对各个数据源进行分类存储。

可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-onlymemory,简称为rom)、随机存取存储器(randomaccessmemory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

s1,获取各个数据源的元信息,其中,元信息用于指示以下至少之一:数据源类型,数据源的位置,数据源的数据结构;

s2,根据元信息对各个数据源进行分类存储。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1