一种多类型数据源采集入库方法、装置、设备及介质与流程

文档序号:36740891发布日期:2024-01-16 12:57阅读:77来源:国知局
一种多类型数据源采集入库方法、装置、设备及介质与流程

本技术涉及数据处理,提供一种多类型数据源采集入库方法、装置、设备及介质。


背景技术:

1、目前,在进行数据源采集入库时,常采用datax框架或canal框架来进行采集与入库。然而,datax框架只能处理离线数据(批数据源),canal框架只能处理实时数据(流数据源),即无论是datax框架,还是canal框架均不能同时对“批”数据源和“流”数据源进行处理。此外,由于datax框架和canal框架均是针对数据库中的数据源进行处理,而不能api、kafka等这些平台中的数据源进行处理。因此,若想同时处理“批”数据源和“流”数据源,则需要重新开发框架,从而,导致增加了组件的集成难度和开发成本等。

2、因此,如何同时处理“批”和“流”是目前亟待解决的问题。


技术实现思路

1、本技术实施例提供一种多类型数据源采集入库方法、装置、设备及介质,用于解决不能同时处理“批”和“流”的问题。

2、一方面,提供一种多类型数据源采集入库方法,所述方法包括:

3、根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源;其中,所述目标数据源包括多种类型,且所述目标数据源为流或批数据源;

4、根据所述预设计的流批一体多类型数据源采集入库框架中的flink stream模型,对所述目标数据源进行处理,获得处理后的数据源;

5、将所述处理后的数据源存储至目标数据库中。

6、本技术的有益效果为:由于可以通过框架中java restful api接口来对多种类型的数据源进行采集,且该目标数据源可以为流或批数据源,即,相比于传统的datax框架和canal框架,本技术的框架可以对流和批的数据源进行统一处理,因此,可以进一步降低组件的集成难度和框架开发成本。

7、在一种实现方式中,所述根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源的步骤,包括:

8、根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对api数据源、jdbc数据源、cdc数据源、mq数据源以及hudi数据源进行数据源采集。

9、本技术的有益效果为:由于可以采用框架中java restful api接口具体对api数据源和jdbc数据源这类“批”数据源进行采集,对cdc数据源、mq数据源以及hudi数据源这类“流”数据源进行采集,因此,相比于传统的datax框架和canal框架,可以进一步降低组件的集成难度和框架开发成本。

10、在一种实现方式中,所述根据所述预设计的流批一体多类型数据源采集入库框架中的flink stream模型,对所述目标数据源进行处理,获得处理后的数据源的步骤,包括:

11、根据所述flink stream模型中的统一数据模型和统一处理模型,对所述目标数据源进行处理,获得处理后的数据源。

12、本技术的有益效果为:由于可以具体采用框架中的统一数据模型和统一处理模型来对目标数据源进行处理,即,可以采用统一数据模型和统一处理模型来对流和批的数据源进行统一处理,因此,相比于传统的datax框架和canal框架,可以进一步降低组件的集成难度和框架开发成本。

13、在一种实现方式中,在根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源之前,所述方法还包括:

14、在所述预设计的流批一体多类型数据源采集入库框架对应的程序中,设计对批和流进行处理的统一处理模型和统一数据模型、设计http/https对json数据指定层级进行分页采集、设计对cdc数据库进行全量和增量采集、设计对kafka数据库进行全量和增量采集与写入、设计对jdbc driver数据库进行分页采集与批量入库以及设计对hudi数据库进行mor和cow模式采集与入库。

15、本技术的有益效果为:由于在框架对应的程序中,设计了统一处理模型、统一数据模型,因此,相比于传统的datax框架和canal框架,可以进一步降低组件的集成难度和框架开发成本。此外,由于还对各个数据库的数据源采集方式进行了相应设计,因此,可以进一步减少数据抽取的频率和数据量、提高数据抽取的效率、加快数据导入速度。

16、在一种实现方式中,在根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源之前,所述方法还包括:

17、在数据源配置管理页面,配置采集所述目标数据源所需的连接参数与特定信息。

18、本技术的有益效果为:由于可以在数据源配置管理页面直接配置所要采集的目标数据源所需的连接参数与特定信息,即,想要采集什么类型数据源,就可以在架构中配置相应的连接参数与特定信息。因此,相比于传统的datax框架和canal框架,本技术的架构的数据源配置更加方便。

19、在一种实现方式中,在根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源之前,所述方法还包括:

20、根据json数据结构,对json数据源对应的层级与字段,以及所述字段对应的数据类型进行配置。

21、本技术的有益效果为:由于直接对json数据源对应的层级与字段,以及该字段对应的数据类型进行了配置,因此,相比于传统的datax框架和canal框架,基于本技术的架构,可以使所采集的数据源具有更高的可读性、更易于编写,同时也有利于计算机的解析和生成,提高了效率。

22、在一种实现方式中,在根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源之前,所述方法还包括:

23、对mq数据源对应的字段和所述字段对应的数据类型进行配置。

24、本技术的有益效果为:由于对mq数据源对应的字段和该字段对应的数据类型进行了配置,因此,相比于传统的datax框架,本技术的架构中不仅可以处理“批”数据源,还可以处理“流”数据源,因而,降低了框架开发成本。

25、在一种实现方式中,在根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源之前,所述方法还包括:

26、对所述目标数据源的匹配规则进行调整;其中,所述匹配规则用于将所述目标数据源的来源字段与入库字段进行匹配。

27、本技术的有益效果为:由于直接对目标数据源的匹配规则进行调整,因此,基于本技术的框架,无论是“批”数据源,还是“流”数据源,均可以根据入库字段匹配到来源字段,以便在后续的管理和展示中灵活的进行调用。

28、在一种实现方式中,在根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源之前,所述方法还包括:

29、在所述预设计的流批一体多类型数据源采集入库框架对应的程序中,设计执行策略;

30、根据所述执行策略,生成对应的作业实例。

31、本技术的有益效果为:由于直接在框架中设计了执行策略,因此,可以直接根据该执行策略,来生成对应的作业实例,从而,加快后续的数据源的处理效率。

32、在一种实现方式中,所述目标数据库包括ods层、dwd层和dws层;其中,所述ods层用于存储原始数据,所述dwd层用于存储中间细节数据,所述dws层用于存储业务数据。

33、本技术的有益效果为:由于目标数据库可以包括ods层、dwd层和dws层,因此,可以统一数据口径、复杂问题简单化、便于管理使用以及减少重复开发,从而,降低开发成本。

34、一方面,提供一种多类型数据源采集入库装置,所述装置包括:

35、数据源采集单元,用于根据预设计的流批一体多类型数据源采集入库框架中的java restful api接口,对目标数据源进行采集,获得所述目标数据源;其中,所述目标数据源包括多种类型,且所述目标数据源为流或批数据源;

36、数据源处理单元,用于根据所述预设计的流批一体多类型数据源采集入库框架中的flink stream模型,对所述目标数据源进行处理,获得处理后的数据源;

37、数据源存储单元,用于将所述处理后的数据源存储至目标数据库中。

38、一方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法。

39、一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1