一种基于Kettle的大数据汇聚集成方法与流程

文档序号:33898847发布日期:2023-04-21 06:52阅读:25来源:国知局

本发明属于大数据处理,涉及一种基于kettle的大数据汇聚集成方法。


背景技术:

1、随着企业信息化应用的不断深入,在寻求业务管理精益的同时,信息化对于决策的支撑、对于市场前沿的洞察力成为了越来越多企业深化应用的方向。当前企业信息系统的数据量越来越多,种类越来越丰富,但是总体来说,数据相互独立,内在逻辑互不联系,信息孤岛问题严重,迫切需要对数据进行汇聚、集成、整合和分析。数据整合分析已成为现代企业管理的通用性需求。


技术实现思路

1、本发明的目的是提供一种大数据汇聚集成方法,采用简单直观的数据管理视图,针对百亿级规模的结构化、半结构化、非结构化数据,提供可适配的统一接入模式,提供数据资源管理、任务调度管理、任务监控管理、集群配置管理、分布式文件存储、文件解析等多项功能。

2、本发明的技术方案如下:

3、一种基于kettle的大数据汇聚集成方法,其特征在于包括以下步骤:

4、(1)数据资源管理:对数据资源的各类信息进行配置和管理,实现各数据库与etl工具的连接与联动;

5、(2)kettle流程设计器:通过对kettle各核心组件的封装与二次开发,实现复杂流程的设计并生成任务,同时,创新使用集群抽取方式,实现高效数据集成;

6、(3)任务调度管理:提供调度规则的配置和任务的管理;

7、(4)任务监控管理:提供任务执行状态的监控和管理;

8、(5)集群配置管理:对kettle集群的配置信息进行管理;

9、(6)分布式文件存储:对文件资源进行存储和管理,提供hdfs和fastdfs两种文件存储方式,实现高效的文件存储;

10、(7)文件解析:对文件资源进行高效的解析入库。

11、本发明可提供基于分布式并行架构开发的etl数据集成功能,具备高吞吐、高可用、高扩展特性,可以为海量数据的超大规模数据仓库建设提供抽取、整合、清洗、入库等集成业务;可提供任务配置及调度管理全流程可视化配置方式,以及基于策略的智能化管理,有效保障集群的高可用。



技术特征:

1.一种基于kettle的大数据汇聚集成方法,其特征在于包括以下步骤:


技术总结
本发明涉及一种基于Kettle的大数据汇聚集成方法,包括:数据资源管理,对数据资源的各类信息进行配置和管理,实现各数据库与ETL工具的连接与联动;Kettle流程设计器,通过对kettle各核心组件的封装与二次开发,实现高效数据集成;任务调度管理,提供调度规则的配置和任务的管理;任务监控管理,提供任务执行状态的监控和管理;集群配置管理,对Kettle集群的配置信息进行管理;分布式文件存储,对文件资源进行存储和管理,实现高效的文件存储;文件解析,对文件资源进行高效的解析入库。本发明可提供基于分布式并行架构开发的ETL数据集成功能,具备高吞吐、高可用、高扩展特性。

技术研发人员:张丹普
受保护的技术使用者:北京航天长峰科技工业集团有限公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1