基于大数据的智能异构的ETL方法和装置与流程

文档序号:36315651发布日期:2023-12-08 01:54阅读:43来源:国知局
基于大数据的智能异构的的制作方法

本申请涉及数据库处理,尤其涉及一种基于大数据的智能异构的etl方法和装置。


背景技术:

1、现有基于hadoop(分布式系统基础架构)生态体系的大数据采集技术主要是依托商业化软件产品、免费或开源采集工具,通过连接数据库的数据接口、专用日志信息提取、sql语句查询等途径,完成业务数据库数据表到大数据平台数仓技术框架的数据抽取(extract)、清洗转换(transform)、数据加载(load)过程。

2、数据抽取是从不同数据源抽取到大数据数仓ods(operational data store,操作型数据存储)中,抽取过程或方案以运行效率为重要要素;清洗转换通过逻辑定义将业务数据加工后提炼可靠的、持续的、统一规范的结构化数据,与业务数据库保持对照一致;最后将清洗转换后数据加载到大数据数仓结构中。

3、etl(extract,transform,load)是bi数据分析过程的重要环节,一般bi开发类项目建设etl内容会占整个功能至少1/3的时间,数据清洗转换流程约占etl过程中的2/3时间,而etl设计直接关系到整体大数据服务的质量和能力。

4、现有etl数据采集技术的应用过程中,主要缺陷在于,配套和流程化管理,细节包括:

5、1、商业化产品封闭:商业化公司产品功能较封闭,如oracle goldengate、datastage、kettle等产品,过程基于开放的配置功能,除提供功能外不支持二次开发。

6、2、开源工具功能局限:采集功能单一,仅解决了etl过程中数据提取的执行环节和数据文件加载的写入环节,整体功能缺漏还很多,未形成体系。

7、3、各种类别开源工具功能常有其合适的应用范围、功能较局限,不同场景下效率差异大、综合性架构要组合应用发挥功能,同时也产生大量配置定义管理的问题。

8、4、功能定义、流程配套及迭代过程均很复杂,占用项目人员成本、时间投入成本大,难以满足平台化、高频迭代、快速复用等特点的发展需要。


技术实现思路

1、针对上述问题,根据本申请的第一个方面,提供一种基于大数据的智能异构的etl方法,其特征在于,包括:

2、识别业务数据库的类型;

3、根据所识别的业务数据库的类型,确定所述业务数据库的业务数据字典的检索规则;

4、根据所述检索规则,通过对应的数据接口提取所述业务数据字典中的内容;

5、将所提取的所述业务数据字典中的内容合并到大数据数据仓库表中;

6、根据预设的清理规则,对所述大数据数据仓库表中的所述业务数据字典的内容进行清理,获得与大数据数据仓库对应的元数据字典的信息清单;

7、识别所述元数据字典中与etl任务定义程序相关的参数;

8、对所述与etl任务定义程序相关的参数进行处理,形成所述大数据数据仓库的异构结构映射关系,所述异构结构映射关系包括预设的映射规则;

9、根据所识别与etl任务定义程序相关的参数以及所述异构结构映射关系,获取第一etl采集任务的参数;

10、基于所述第一etl采集任务的参数生成etl任务定义程序;

11、根据所述异构结构映射关系,输出面向数据存储系统的数据结构代码;

12、根据所述etl任务定义程序和所述数据结构代码生成etl任务集合;以及

13、根据所述etl任务集合输出并执行etl执行程序。

14、根据本申请的第二个方面,提供一种基于大数据的智能异构的etl装置,其特征在于,包括:

15、业务数据库业务识别单元,用于识别业务数据库的类型;

16、业务数据字典对接单元,用于根据所识别的业务数据库的类型,确定所述业务数据库的业务数据字典的检索规则,

17、业务数据字典采集单元,用于根据所述检索规则,通过对应的数据接口提取所述业务数据字典中的内容,并将所提取的所述业务数据字典中的内容合并到大数据数据仓库表中;

18、业务数据字典清理单元,用于根据预设的清理规则,对所述大数据数据仓库表中的所述业务数据字典的内容进行清理,获得与大数据数据仓库对应的元数据字典的信息清单;

19、元数据字典内容识别单元,用于识别所述元数据字典中与etl任务定义程序相关的参数;

20、数据结构映射关系输出单元,用于对所述与etl任务定义程序相关的参数进行处理,形成所述大数据数据仓库的异构结构映射关系,所述异构结构映射关系包括预设的映射规则;

21、元数据字典处理单元,用于根据所识别与etl任务定义程序相关的参数以及所述异构结构映射关系,获取第一etl采集任务的参数;

22、etl任务定义程序生成单元,用于基于所述第一etl采集任务的参数生成etl任务定义程序;

23、数据结构代码输出单元,用于根据所述异构结构映射关系,输出面向数据存储系统的数据结构代码;

24、etl任务集合生成单元,用于根据所述etl任务定义程序和所述数据结构代码生成etl任务集合;以及

25、etl执行程序执行单元,用于根据所述etl任务集合输出并执行etl执行程序。

26、根据本申请的第三个方面,提供一种电子设备,包括:

27、处理器;以及

28、存储器,存储有计算机指令,当所述计算机指令被所述处理器执行时,使得所述处理器执行第一个方面所述的方法。

29、根据本申请的第四个方面,提供一种非瞬时性计算机存储介质,存储有计算机程序,当所述计算机程序被多个处理器执行时,使得所述处理器执行第一个方面所述的方法。

30、根据本申请提供的基于大数据的智能异构的etl方法和装置,通过对rdbms业务数据库字典的自动信息收集管理、信息识别及版本分析,基于分析信息判断与大数据系统的etl开发流程的异构需求,并通过对数据结构异构规律、映射关系合理性的总结提炼,实现标准化、规则化、自动化的开发流程,从而实现etl过程智能化、无人化,结合管理模式的提升,实现异构etl功能维护与管理的提升,并实现etl过程持续更新迭代,并通过无人化、智能化的规则管理免于人工成本投入。根据本申请的方案,实现大数据平台异构etl开发的效率提升,从原有日开发量20个/日,提升到5000个/日以上,完成etl目标量从20个/日,提升到3000个/日以上;实现大数据平台异构etl的维护迭代投入的大幅缩减,人员开发成本投入下降98%,迭代开发成本下降98%;实现大数据平台etl数字化水平、过程管理、数据治理的能力提升、条件提升,提升大数据平台相关业务场景的开发与上线能力得到大幅提升。



技术特征:

1.一种基于大数据的智能异构的etl方法,其特征在于,包括:

2.如权利要求1所述的etl方法,其特征在于,还包括:

3.如权利要求2所述的etl方法,其特征在于,所述对所述元数据字典中与etl任务定义程序相关的参数和所述元数据字典的信息清单进行数据校验,确定所述元数据字典与相邻版本的元数据字典的差异,获得差异信息清单,包括:

4.如权利要求2所述的etl方法,其特征在于,所述基于所述第一etl采集任务的参数生成etl任务定义程序,包括:

5.如权利要求1所述的etl方法,其特征在于,还包括:

6.如权利要求5所述的etl方法,其特征在于,所述基于所述第一etl采集任务的参数生成etl任务定义程序,包括:

7.如权利要求1至6任一项所述的etl方法,其特征在于,所述通过对应的数据接口提取所述业务数据字典中的内容,包括:

8.如权利要求1至6任一项所述的etl方法,其特征在于,所述根据所识别与etl任务定义程序相关的参数以及所述异构结构映射关系,获取第一etl采集任务的参数,包括:

9.如权利要求1至6任一项所述的etl方法,其特征在于,还包括:

10.如权利要求9所述的etl方法,其特征在于,还包括:

11.如权利要求1至6任一项所述的etl方法,其特征在于,还包括:

12.如权利要求11所述的etl方法,其特征在于,还包括:监控所述任务日志中的异常,包括:

13.如权利要求12所述的etl方法,其特征在于,还包括:

14.如权利要求1至6任一项所述的etl方法,其特征在于,所述根据所述异构结构映射关系,输出面向数据存储系统的数据结构代码,包括:

15.如权利要求1至6任一项所述的etl方法,其特征在于,还包括:

16.一种基于大数据的智能异构的etl装置,其特征在于,包括:

17.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现如权利要求1至15中任一项所述的方法。

18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至15中任一项所述的方法。


技术总结
本申请涉及一种基于大数据的智能异构的ETL方法和装置,通过对RDBMS业务数据库字典的自动信息收集管理、信息识别及版本分析,基于分析信息判断与大数据系统的ETL开发流程的异构需求,并通过对数据结构异构规律、映射关系合理性的总结提炼,实现标准化、规则化、自动化的开发流程,从而实现ETL过程智能化、无人化,结合管理模式的提升,实现异构ETL功能维护与管理的提升,并实现ETL过程持续更新迭代,并通过无人化、智能化的规则管理免于人工成本投入。根据本申请的方案,实现大数据平台异构ETL开发的效率提升。

技术研发人员:冯若寅,顾永兴,易力,仲跻炜,朱彭生,张志国
受保护的技术使用者:欧冶云商股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1