云计算平台下实现异构数据处理功能的ETL系统及其处理方法与流程

文档序号:18739669发布日期:2019-09-21 01:38阅读:349来源:国知局
云计算平台下实现异构数据处理功能的ETL系统及其处理方法与流程

本发明涉及计算机软件领域,尤其涉及云计算平台领域,具体是指一种云计算平台下实现异构数据处理功能的ETL系统及其处理方法。



背景技术:

随着云计算和大数据时代的到来,网络信息和数据量日益增长。在诸多领域当中,都具有极大规模的数据信息,人们需要使用各种各样的数据处理系统来对网络上的海量数据进行分析和整理,发掘其数据价值。数据处理系统(Data processing system)是指运用计算机处理信息而构成的系统。通过数据处理系统对数据信息进行加工、整理,计算得到各种分析指标,转变为易于被人们所接受的信息形式,并可以将处理后的信息进行贮存。

网络上的数据包含多种结构,有结构化、非结构化和半结构化,要在这些异构的数据当中提取有用的信息,人们常常使用ETL工具来将数据进行转换。ETL是用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。ETL将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,因而也称为数据仓库技术。其目的是将分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

海量数据处理系统及方法,公开了一种海量数据处理系统及方法,该系统包括:整合单元,用于从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据;存储单元,用于将所述主题数据存储在分布式文件系统中;分析单元,用于根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析;展现单元,用于展现所述分析单元的计算和分析结果。利用本发明,可以实现对智能小区中海量数据的处理,提高处理效率及系统扩展性。

但是,在实际过程中,一个数据处理系统往往并不能满足企业的分析需求,数据的共用,才能使数据的利用达到最大化,因为本文在实现异构数据处理的基础上,增加了数据交流,有效提升系统的开放性。同时系统采用分布式结构,使得系统便于扩展,能减轻系统处理数据的压力,提升处理速度,满足现今的数据处理要求。



技术实现要素:

本发明的目的是克服了上述现有技术的缺点,提供了一种效率高、操作简便、适用范围较为广泛的云计算平台下实现异构数据处理功能的ETL系统及其处理方法。

为了实现上述目的,本发明的云计算平台下实现异构数据处理功能的ETL系统及其处理方法如下:

该云计算平台下实现异构数据处理功能的ETL系统,其主要特点是,所述的系统包括:

WEB应用前端处理模块,用于进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;

ETL数据处理模块,与所述的WEB应用前端处理模块相连接,用于采集异构数据,根据WEB应用发起的采集任务来采集不同的异构数据;

数据存储及交互模块,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于进行数据存储以及与其他模块进行数据交互。

较佳地,所述的WEB应用前端处理模块包括:

采集数据源配置单元,用于配置异构数据的类型、采集产物的挂载点及指定需要采集的异构数据的存储介质类型;

采集器信息配置单元,与所述的采集数据源配置单元相连接,用于配置采集产物关系生成规则及采集产物的展示方式;

采集任务配置单元,与所述的采集器信息配置单元相连接,用于根据不同的采集器信息配置,发起采集任务;

采集产物管理单元,与所述的采集任务配置单元相连接,用于查看采集成功的产物并可对产物进行操作;

浏览操作日志单元,与所述的采集产物管理单元相连接,用于对每个操作步骤进行记录。

较佳地,所述的ETL数据处理模块包括:

数据采集单元,与所述的WEB应用前端处理模块相连接,用于根据不同的采集任务,将大量异构数据转换为统一数据格式的数据;

采集产物分析单元,与所述的数据采集单元相连接,用于调用采集产物存储模块中的数据,对这些数据进行分析,提炼出用户需要的信息;

产生日志单元,与所述的采集产物分析单元相连接,用于记录ETL数据采集模块中的每个操作步骤。

较佳地,所述的数据存储及交互模块包括:

采集产物存储单元,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于将采集成功后的数据存储至数据库,前端页面可调用这些数据;

WEB前端录入存储单元,与所述的采集产物存储单元相连接,用于将前端录入的信息录入至数据库;

日志信息存储单元,与所述的WEB前端录入存储单元相连接,用于将WEB前端应用的操作日志和ETL的采集日志存储至数据库;

系统交互单元,与所述的日志信息存储单元相连接,用于通过开放接口供其他系统订阅调用数据。

较佳地,所述的采集数据源配置单元支持的存储介质类型包括xml文件、excel文档、ETL的数据脚本和主流的关系型数据库。

较佳地,所述的采集任务配置单元的任务启动方式包括手工启动和定时周期启动。

该基于上述系统实现云计算平台下的异构数据处理方法,其主要特点是,所述的方法包括以下步骤:

(1)所述的WEB应用前端处理模块进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;

(2)所述的ETL数据处理模块采集异构数据,根据WEB应用发起的采集任务来采集不同的异构数据;

(3)所述的数据存储及交互模块进行数据存储以及与其他模块进行数据交互。

较佳地,所述的步骤(1)具体包括以下步骤:

(1.1)所述的采集数据源配置单元配置采集数据源,配置异构数据的类型、采集产物挂载点及指定需要采集的异构数据的存储介质类型;

(1.2)所述的采集器信息配置单元配置采集器信息,配置采集产物关系生成规则及配置采集产物的展示方式;

(1.3)所述的采集任务配置单元配置采集任务,根据采集器信息配置,发起采集任务;

(1.4)所述的采集产物管理单元浏览并管理采集产物,查看采集成功的产物并可对产物执行修改、删除等操作。

较佳地,所述的步骤(1)还包括以下步骤:

(1.5)所述的浏览操作日志单元浏览操作日志,查看每一步操作的记录。

较佳地,所述的ETL数据处理模块包括数据采集单元、采集产物分析单元和产生日志单元,所述的步骤(2)具体包括以下步骤:

(2.1)所述的数据采集单元采集数据,并根据采集任务调用对应的适配器,将异构数据转化为统一数据格式的数据;

(2.2)所述的采集产物分析单元分析采集产物,对数据采集模块产出的统一格式的数据,进行关系分析。

较佳地,所述的步骤(2)还包括以下步骤:

(2.3)所述的产生日志单元记录详细操作日志,将日志信息保存至数据库并生成日志文件。

较佳地,所述的数据存储及交互模块包括采集产物存储单元、WEB前端录入存储单元和日志信息存储单元,所述的步骤(3)具体包括以下步骤:

(3.1)所述的采集产物存储单元将采集产物存储至数据库;

(3.2)所述的WEB前端录入存储单元将Web前端应用录入信息存储;

(3.3)所述的日志信息存储单元存储日志信息。

采用了本发明的云计算平台下实现异构数据处理功能的ETL系统及其处理方法,采用了该发明中的实现异构数据处理的ETL系统,业务开发人员在实现业务需求时,不再需要开发多个只针对单一数据模式的数据处理系统。而是通过本系统就能处理多种异构数据,从中提取有用的信息,并且在与外部系统的数据交互中,也能减少数据格式转换带来的麻烦,能使有用的数据快速流转,在简化开发工作量的同时提升了业务处理的效率。

附图说明

图1为本发明的云计算平台下实现异构数据处理功能的ETL系统的总体架构图。

图2为本发明的云计算平台下实现异构数据处理功能的ETL系统的物理部署结构图。

图3为本发明的云计算平台下实现异构数据处理功能的数据采集分析的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。

本发明的该云计算平台下实现异构数据处理功能的ETL系统,其中包括:

WEB应用前端处理模块,用于进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;

ETL数据处理模块,与所述的WEB应用前端处理模块相连接,用于采集异构数据,根据WEB应用发起的采集任务来采集不同的异构数据;

数据存储及交互模块,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于进行数据存储以及与其他模块进行数据交互。

作为本发明的优选实施方式,所述的WEB应用前端处理模块包括:

采集数据源配置单元,用于配置异构数据的类型、采集产物的挂载点及指定需要采集的异构数据的存储介质类型;

采集器信息配置单元,与所述的采集数据源配置单元相连接,用于配置采集产物关系生成规则及采集产物的展示方式;

采集任务配置单元,与所述的采集器信息配置单元相连接,用于根据不同的采集器信息配置,发起采集任务;

采集产物管理单元,与所述的采集任务配置单元相连接,用于查看采集成功的产物并可对产物进行操作;

浏览操作日志单元,与所述的采集产物管理单元相连接,用于对每个操作步骤进行记录。

作为本发明的优选实施方式,所述的ETL数据处理模块包括:

数据采集单元,与所述的WEB应用前端处理模块相连接,用于根据不同的采集任务,将大量异构数据转换为统一数据格式的数据;

采集产物分析单元,与所述的数据采集单元相连接,用于调用采集产物存储模块中的数据,对这些数据进行分析,提炼出用户需要的信息;

产生日志单元,与所述的采集产物分析单元相连接,用于记录ETL数据采集模块中的每个操作步骤。

作为本发明的优选实施方式,所述的数据存储及交互模块包括:

采集产物存储单元,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于将采集成功后的数据存储至数据库,前端页面可调用这些数据;

WEB前端录入存储单元,与所述的采集产物存储单元相连接,用于将前端录入的信息录入至数据库;

日志信息存储单元,与所述的WEB前端录入存储单元相连接,用于将WEB前端应用的操作日志和ETL的采集日志存储至数据库;

系统交互单元,与所述的日志信息存储单元相连接,用于通过开放接口供其他系统订阅调用数据。

作为本发明的优选实施方式,所述的采集数据源配置单元支持的存储介质类型包括xml文件、excel文档、ETL的数据脚本和主流的关系型数据库。

作为本发明的优选实施方式,所述的采集任务配置单元的任务启动方式包括手工启动和定时周期启动。

本发明的该基于上述系统实现云计算平台下的异构数据处理方法,其中包括以下步骤:

(1)所述的WEB应用前端处理模块进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;

(1.1)所述的采集数据源配置单元配置采集数据源,配置异构数据的类型、采集产物挂载点及指定需要采集的异构数据的存储介质类型;

(1.2)所述的采集器信息配置单元配置采集器信息,配置采集产物关系生成规则及配置采集产物的展示方式;

(1.3)所述的采集任务配置单元配置采集任务,根据采集器信息配置,发起采集任务;

(1.4)所述的采集产物管理单元浏览并管理采集产物,查看采集成功的产物并可对产物执行修改、删除等操作;

(1.5)所述的浏览操作日志单元浏览操作日志,查看每一步操作的记录;

(2)所述的ETL数据处理模块采集异构数据,根据WEB应用发起的采集任务来采集不同的异构数据;

(2.1)所述的数据采集单元采集数据,并根据采集任务调用对应的适配器,将异构数据转化为统一数据格式的数据;

(2.2)所述的采集产物分析单元分析采集产物,对数据采集模块产出的统一格式的数据,进行关系分析;

(2.3)所述的产生日志单元记录详细操作日志,将日志信息保存至数据库并生成日志文件;

(3)所述的数据存储及交互模块进行数据存储以及与其他模块进行数据交互;

(3.1)所述的采集产物存储单元将采集产物存储至数据库;

(3.2)所述的WEB前端录入存储单元将Web前端应用录入信息存储;

(3.3)所述的日志信息存储单元存储日志信息。

本发明的具体实施方式中,本发明的目的是克服了上述现有技术中的缺点,提供了云计算平台下实现异构数据处理的数据系统,借助ETL工具,实现将数据转换成统一的数据格式,使数据可在不同系统中流转,达到数据最大化使用的目的。

实现异构数据处理的ETL系统,其中包括:

WEB应用前端处理模块,此模块的主要实现门户管理功能,用户可以在此模块实现异构数据采集的数据源配置,采集器信息配置,采集任务的配置,采集产物浏览管理,浏览操作日志;

ETL数据处理模块,此模块实现异构数据的采集功能,根据web应用发起的采集任务来采集不同的异构数据;

数据存储及交互模块,包括对数据的存储以及与其他系统的交互。

所述的WEB应用前端处理模块包括:

采集数据源配置模块,其作用是配置异构数据的类型、采集产物的挂载点及指定需要采集的异构数据的存储介质类型,支持存储介质类型包括xml文件,excel文档,ETL的数据脚本及主流的关系型数据库;

采集器信息配置,其作用是配置采集产物关系生成规则及采集产物的展示方式;

采集任务的配置,其作用是根据不同的采集器信息配置,发起采集任务,任务启动方式包括手工启动和定时周期启动;

采集产物浏览管理,其作用是WEB前端能查看采集成功的产物并可对产物执行修改、删除等操作;

浏览操作日志,对每一个操作步骤进行记录,方便用户查看历史;

所述的ETL数据处理模块包括:

数据采集模块,该模块为本系统的核心模块,其作用是根据不同的采集任务将大量异构数据在此模块中转换为统一数据格式的数据;

采集产物分析,此模块将调用采集产物存储模块中的数据,对这些数据进行分析,提炼出用户需要的信息;

产生日志,记录ETL数据采集模块中的每一个操作步骤;

所述的数据存储及交互模块包括:

采集产物存储,本模块将采集成功后的数据存储到数据库中,前端页面可调用这些数据;

Web前端应用录入信息存储,本模块将前端录入的信息录入到数据库中;

日志信息存储,本模块将web前端应用的操作日志和ETL的采集日志存储到数据库中;

系统交互,系统会开放接口,供其他系统订阅调用数据;

技术解决方案实现方法的流程步骤说明如下:

该基于上述的云计算平台下实现异构数据处理的ETL系统的方法,其中包括WEB前端操作流程、ETLs、数据存储及交互流程。

所述的WEB前端操作流程,包括以下步骤:

(1)所述WEB应用前端处理模块中,配置采集数据源,配置异构数据的类型、采集产物挂载点及指定需要采集的异构数据的存储介质类型。

(2)所述WEB应用前端处理模块中,配置采集器信息,配置采集产物关系生成规则及配置采集产物的展示方式。

(3)所述WEB应用前端处理模块中,配置采集任务,根据采集器信息配置,发起采集任务。

(4)所述WEB应用前端处理模块中,浏览并管理采集产物,查看采集成功的产物并可对产物执行修改、删除等操作。

(5)所述WEB应用前端处理模块中,浏览操作日志,查看每一步操作的记录。

所述的ETL数据处理流程,包括以下步骤:

(1)所述ETL数据处理模块中,采集数据,根据采集任务调用对应的适配器,将异构数据转化为统一数据格式的数据。

(2)所述ETL数据处理模块中,分析采集产物,对数据采集模块产出的统一格式的数据,进行关系分析,可分析去各个数据间的层级关系,以及数据的血缘关系,影响关系及全链关系等。

(3)所述ETL数据处理模块中,会记录上述步骤中的详细操作日志,内容包括操作动作、操作的时间,操作耗时等信息,日志信息保存到数据库中以及生成日志文件。

所述的数据存储及交互模块,包括以下步骤:

(1)所述数据存储及交互模块中,将采集产物存储到数据库,前端页面可调用这些数据;

(2)所述数据存储及交互模块中,将Web前端应用录入信息存储,包括采集器数据源配置信息,采集器信息配置,采集任务信息,采集产物管理

(3)所述数据存储及交互模块中,将日志信息存储,包括web前端应用的操作日志和ETL的采集日志

(4)所述数据存储及交互模块中,系统交互,系统会开放接口,供其他系统订阅调用数据;

在实际应用中,本发明的云计算平台下实现异构数据处理的ETL系统的具体过程如下:

1、采集数据源配置模块

采集数据源配置模块,主要负责录入采集数据源的配置信息,信息包括采集异构数据的适配器、适配器参数、适配器版本、异构数据存储介质的上传方式、采集产物的挂载点。具体过程如下:

(1)选择采集适配器类型(xml文件、excel模板、主流关系型数据库的bd采集等)

(2)选择采集器版本

(3)选择异构数据存储介质的上传方式

(4)选择采集产物挂载点

(5)根据上述步骤选择的配置,填写适配器的参数

2、采集器信息配置

采集器信息配置模块,主要负责配置采集产物关系生成规则及配置采集产物的展示方式,具体过程如下:

(1)配置异构数据间的数据关系

(2)配置采集挂载点与产物展现方式的关系

3、采集任务的配置

采集任务配置模块,主要负责根据不同的采集器信息配置,发起采集任务,任务启动方式包括手工启动和定时周期启动,具体过程如下:

(1)创建手动采集任务,选择对应的采集器信息。

(2)手动启动采集任务。

(3)配置定时任务,按时启动采集任务

4、采集产物浏览管理

采集产物浏览管理模块,其作用是查看采集成功的产物并可对产物执行修改、删除等操作,具体过程如下:

(1)根据数据库存储的采集产物,提供一个采集产物管理页面,可以查看采集产物间的层级关系,血缘关系,影响关系,全链关系。

(2)能对采集产物间的关系维护,增删改等操作。

5、浏览操作日志

浏览操作日志模块,对每一个操作步骤进行记录,方便用户查看历史,具体过程如下:

(1)记录用户在web前端应用的每一步操作。

(2)提供一个日志浏览页面,用户能浏览自己的历史操作日志

6、数据采集模块

数据采集模块,根据采集任务调用对应的适配器,将异构数据转化为统一数据格式的数据,具体过程如下:

(1)监听web前端应用是否发起采集任务

(2)根据监听到的采集任务,从数据库中读取采集任务的配置信息,调用对应的适配器,将异构数据转化为统一数据格式的数据,并生成采集产物间的层级关系。

7、采集产物分析

采集产物分析模块,此模块将调用采集产物存储模块中的数据,对这些数据进行分析,提炼出用户需要的信息。具体过程如下:

(1)根据采集器配置信息,对采集产物的关系进行分析,生成血缘关系、影响关系、全链关系等信息

8、产生日志

产生日志模块,记录ETL数据采集模块中的每一个操作步骤。具体过程如下:

(1)记录上述步骤中的详细操作日志,内容包括操作动作、操作的时间,操作耗时等信息

(2)日志信息保存到数据库中以及生成日志文件

9、采集产物存储

采集产物存储模块,其作用是将采集产物存储到数据库,具体过程如下:

(1)把ETL处理过程的采集产物存储到数据库

(2)把ETL处理过程的采集产物间的层级关系存储到数据库中

10、Web前端应用录入信息存储

Web前端应用录入信息存储模块,其作用是Web前端应用录入信息存储到数据库,具体过程如下:

(1)将采集器数据源配置信息保存到数据库

(2)将采集器信息配置保存到数据库

(3)将采集任务信息保存到数据库

(4)将采集产物管理保存到数据库

11、日志信息存储,

日志信息存储模块,本模块将web前端应用的操作日志和ETL的采集日志存储到数据库中,具体过程如下:

(1)将web前端应用的操作日志保存到数据库中,并生成日志文件

(2)将ETL的采集日志存储到数据库中,并生成日志文件

12、系统交互

系统交互模块,其作用是开放接口,供其他系统订阅调用数据,具体过程如下:

(1)系统会将采集产物根据业务需求发布为WebService接口,供其他系统订阅调用数据。

采用了本发明的云计算平台下实现异构数据处理功能的ETL系统及其处理方法,采用了该发明中的实现异构数据处理的ETL系统,业务开发人员在实现业务需求时,不再需要开发多个只针对单一数据模式的数据处理系统。而是通过本系统就能处理多种异构数据,从中提取有用的信息,并且在与外部系统的数据交互中,也能减少数据格式转换带来的麻烦,能使有用的数据快速流转,在简化开发工作量的同时提升了业务处理的效率。

在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1