本发明属于大数据处理,涉及一种基于kettle的大数据汇聚集成方法。
背景技术:
1、随着企业信息化应用的不断深入,在寻求业务管理精益的同时,信息化对于决策的支撑、对于市场前沿的洞察力成为了越来越多企业深化应用的方向。当前企业信息系统的数据量越来越多,种类越来越丰富,但是总体来说,数据相互独立,内在逻辑互不联系,信息孤岛问题严重,迫切需要对数据进行汇聚、集成、整合和分析。数据整合分析已成为现代企业管理的通用性需求。
技术实现思路
1、本发明的目的是提供一种大数据汇聚集成方法,采用简单直观的数据管理视图,针对百亿级规模的结构化、半结构化、非结构化数据,提供可适配的统一接入模式,提供数据资源管理、任务调度管理、任务监控管理、集群配置管理、分布式文件存储、文件解析等多项功能。
2、本发明的技术方案如下:
3、一种基于kettle的大数据汇聚集成方法,其特征在于包括以下步骤:
4、(1)数据资源管理:对数据资源的各类信息进行配置和管理,实现各数据库与etl工具的连接与联动;
5、(2)kettle流程设计器:通过对kettle各核心组件的封装与二次开发,实现复杂流程的设计并生成任务,同时,创新使用集群抽取方式,实现高效数据集成;
6、(3)任务调度管理:提供调度规则的配置和任务的管理;
7、(4)任务监控管理:提供任务执行状态的监控和管理;
8、(5)集群配置管理:对kettle集群的配置信息进行管理;
9、(6)分布式文件存储:对文件资源进行存储和管理,提供hdfs和fastdfs两种文件存储方式,实现高效的文件存储;
10、(7)文件解析:对文件资源进行高效的解析入库。
11、本发明可提供基于分布式并行架构开发的etl数据集成功能,具备高吞吐、高可用、高扩展特性,可以为海量数据的超大规模数据仓库建设提供抽取、整合、清洗、入库等集成业务;可提供任务配置及调度管理全流程可视化配置方式,以及基于策略的智能化管理,有效保障集群的高可用。
1.一种基于kettle的大数据汇聚集成方法,其特征在于包括以下步骤: