本发明涉及计算机技术领域,尤其涉及一种自动化etl数据处理工具及其使用方法。
背景技术:
随着大数据业务的快速发展,对数据进行etl处理就变得非常的普遍。etl处理的过程大致是将来自不同数据源中的数据抽取后进行清洗、转换、集成处理,即数据抽取、数据转换、数据加载等处理,并将处理后的数据置入目标数据仓库中。目前,存在多种不同类型的数据源,例如:关系型mysql、非关系型hbase、数据仓库有hive、文件存储hdfs、具有存储功能的文件索引服务elasticsearch;而不同的数据类型的数据源可能会具有不同的接口类型。然而,针对不同的接口类型的数据源技术人员需要开发不同的etl处理工具进行etl处理,这样不仅增加了技术开发人员的工作量,而且开发效率也会偏低。鉴于现有技术中的缺点,如何提供一种使用简单、运行速度快、开发效率高的自动化etl数据处理工具及其使用方法是本领域技术人员需要解决的技术难题。
技术实现要素:
针对现有技术中的上述不足之处,本发明提供了一种自动化etl数据处理工具及其使用方法。
本发明为解决上述技术问题,采用以下技术方案来实现:
设计一种自动化etl数据处理工具,包括数据抽取模块、数据转换模块、任务创建模块、数据加载模块、数据存储模块和数据输出模块;
所述的数据抽取模块与所述的数据转换模块连接,且所述的数据抽取模块用于获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中;
所述的数据转换模块与所述的任务创建模块连接,且所述的数据转换模块用于将接收到的源数据转换成csv格式数据,并将所述的csv格式数据传递至任务创建模块中;
所述的任务创建模块与所述的数据加载模块连接,且所述的任务创建模块用于依据所述的csv格式数据来创建etl任务;
所述的数据加载模块与所述的数据输出模块连接,且所述的数据加载模块用于根据创建的etl任务来执行、加载该etl任务;
所述的数据输出模块用于将etl任务执行、加载以后的结果发送至目标数据仓库;
所述的数据存储模块均与数据抽取模块、数据转换模块、任务创建模块以及数据加载模块连接,其用于存储输入数据、中间数据以及etl任务执行以后的结果。
优选的,所述的数据抽取模块还包括对数据源中的源数据进行归一化处理。
优选的,所述数据加载模块的架构为etl架构、elt架构中的一种。
设计一种自动化etl数据处理工具的使用方法,包括如下步骤:
步骤一:数据抽取模块获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中;
步骤二:数据转换模块将接收到的源数据转换成csv格式数据;
步骤三:任务创建模块依据所述的csv格式数据来创建etl任务;
步骤四:数据加载模块用于根据创建的etl任务来执行、加载该etl任务;
步骤五:数据输出模块将etl任务执行、加载以后的结果发送至目标数据仓库中。
本发明提出的一种自动化etl数据处理工具及其使用方法,有益效果在于:
(1)本发明的自动化etl数据处理工具首先将抽取的数据转换成统一的csv格式数据,然后在进行转换、执行和加载,最后将加载以后的数据输出至目标数据仓库中;
(2)本发明的自动化etl数据处理工具无需根据不同类型的数据源提供不同的处理工具,提高了适用性,只需要先将不同类型的数据源转换成csv格式数据即可,也就说只需要一个etl工具;可减少频繁地导入导出etl工具降低处理速度的情况,进而较现有技术有效提高了处理速度和开发效率。
附图说明
下面结合附图中的实施例对本发明作进一步的详细说明,但并不构成对本发明的任何限制。
图1为本发明系统的结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
参阅附图1所示,本发明的一种自动化etl数据处理工具,包括数据抽取模块、数据转换模块、任务创建模块、数据加载模块、数据存储模块和数据输出模块;
所述的数据抽取模块与所述的数据转换模块连接,且所述的数据抽取模块用于获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中,所述的数据抽取模块还包括对数据源中的源数据进行归一化处理;
所述的数据转换模块与所述的任务创建模块连接,且所述的数据转换模块用于将接收到的源数据转换成csv格式数据,并将所述的csv格式数据传递至任务创建模块中;
所述的任务创建模块与所述的数据加载模块连接,且所述的任务创建模块用于依据所述的csv格式数据来创建etl任务;
所述的数据加载模块与所述的数据输出模块连接,且所述的数据加载模块用于根据创建的etl任务来执行、加载该etl任务,所述数据加载模块的架构为etl架构;
所述的数据输出模块用于将etl任务执行、加载以后的结果发送至目标数据仓库;
所述的数据存储模块均与数据抽取模块、数据转换模块、任务创建模块以及数据加载模块连接,其用于存储输入数据、中间数据以及etl任务执行以后的结果。
本发明的一种自动化etl数据处理工具的使用方法,包括如下步骤:
步骤一:数据抽取模块获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中;
步骤二:数据转换模块将接收到的源数据转换成csv格式数据;
步骤三:任务创建模块依据所述的csv格式数据来创建etl任务;
步骤四:数据加载模块用于根据创建的etl任务来执行、加载该etl任务;
步骤五:数据输出模块将etl任务执行、加载以后的结果发送至目标数据仓库中。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。