批量数据处理方法、装置、电子装置和存储介质与流程

文档序号:37343277发布日期:2024-03-18 18:15阅读:13来源:国知局
批量数据处理方法、装置、电子装置和存储介质与流程

本申请涉及数据处理,特别是涉及一种批量数据处理方法、装置、电子装置和存储介质。


背景技术:

1、许多公司的业务数据通常存储在结构化的数据库中,对于传统的结构化数据库一般只能一次性的全量采集,对于库中变更的数据没法做到实时的处理和计算,不同的业务数据存储的数据不同,例如,某化妆品公司需要统计分析自身的产品在不同消费平台的实时销售数据,进而根据实时销售数据确定不同用户对产品的消费水平。然而不同消费平台的销售数据的储存位置以及存储格式不尽相同,而且随着时间的发展,公司业务的复杂程度不断增加,实时数据分析的需求也越来越高,传统的离线计算已不能满足产品和运营的需求。

2、目前,针对数据库中批量数据的统计分析,通常采用离线计算的方式进行,而离线计算不仅灵活性较低,无法实现准实时计算。

3、针对相关技术中存在数据库中批量数据计算的灵活性较低的问题,目前还没有提出有效的解决方案。


技术实现思路

1、在本实施例中提供了一种批量数据处理方法、装置、电子装置和存储介质,以解决相关技术中在数据库中批量数据计算的灵活性较低的问题。

2、第一个方面,在本实施例中提供了一种批量数据处理方法,包括:

3、基于配置文件将关系型数据库中的实时数据传输至消息队列中,得到消息队列中的待处理数据;

4、基于所述待处理数据的数据格式、所述消息队列的基本信息、所述待处理数据的类别名称以及所述待处理数据的分区数量,构建数据导入任务文件;

5、基于所述数据导入任务文件,将所述待处理数据导入目标数据库中的数据表中,生成数据导入表,所述目标数据库为starrocks数据库;

6、基于数据处理脚本文件对数据导入表中的数据进行数据处理,得到实时数据处理结果。

7、在其中的一些实施例中,所述配置文件包括所述关系型数据库的加密信息以及所述消息队列的基本信息,所述基于配置文件将关系型数据库中的实时数据传输至消息队列中,得到消息队列中的待处理数据,包括:

8、对所述关系型数据库的加密信息进行解密,得到所述关系型数据库的用户名和密码;

9、基于所述关系型数据库的用户名和密码,获取所述关系型数据库中的实时数据;

10、基于所述消息队列的基本信息,将所述实时数据传输至所述消息队列中,得到消息队列中的待处理数据。

11、在其中的一些实施例中,所述基于所述待处理数据的数据格式、所述消息队列的基本信息、所述待处理数据的类别名称以及所述待处理数据的分区数量,构建数据导入任务文件,包括:

12、对所述待处理数据进行预处理,得到预处理后的待处理数据,所述预处理包括数据格式转换、字段筛选以及字段填充中是至少一种;

13、基于所述预处理后的待处理数据的数据格式、所述消息队列的基本信息、所述预处理后的待处理数据的类别名称以及所述待处理数据的分区数量,构建数据导入任务文件。

14、在其中的一些实施例中,所述数据处理脚本文件包括待处理数据导入表的标识信息,所述基于数据处理脚本文件对数据导入表中的数据进行数据处理,得到实时数据处理结果,包括:

15、基于所述待处理数据导入表的标识信息,在配置中心获取所述待处理数据导入表的基本信息;

16、基于所述待处理数据导入表的基本信息,从所述目标数据库中获取所述待处理数据导入表中的待处理数据;

17、对所述待处理数据数据分析,得到实时数据处理结果。

18、在其中的一些实施例中,所述配置中心用于存储数据导入表的加密基本信息,所述基于所述待处理数据导入表的标识信息,在配置中心获取所述待处理数据导入表的基本信息,包括:

19、基于所述待处理数据导入表的标识信息,在配置中心获取所述待处理数据导入表的加密基本信息;

20、对所述加密基本信息进行解密,得到所述待处理数据导入表的基本信息。

21、在其中的一些实施例中,所述方法还包括:

22、基于所述数据导入表的基本信息设置监控任务;

23、基于所述监控任务,对所述数据导入表的导入结果进行监控。

24、在其中的一些实施例中,在所述基于数据处理脚本文件对数据导入表中的数据进行数据处理,得到实时数据处理结果之后,还包括:

25、将所述实时数据处理结果写入结果数据库中。

26、第二个方面,在本实施例中提供了一种批量数据处理装置,包括:

27、数据传输模块,用于基于配置文件将关系型数据库中的实时数据传输至消息队列中,得到消息队列中的待处理数据;

28、文件构建模块,用于基于所述待处理数据的数据格式、所述消息队列的基本信息、所述待处理数据的类别名称以及所述待处理数据的分区数量,构建数据导入任务文件;

29、数据导入模块,用于基于所述数据导入任务文件,将所述待处理数据导入目标数据库中的数据表中,生成数据导入表,所述目标数据库为starrocks数据库;

30、数据分析模块,用于基于数据处理脚本文件对数据导入表中的数据进行数据处理,得到实时数据处理结果。

31、第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的批量数据处理方法。

32、第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的批量数据处理方法。

33、与相关技术相比,在本实施例中提供的一种批量数据处理方法,根据配置文件将关系型数据库中的实时数据传输至消息队列中,得到消息队列中的待处理数据,从而可以实现将各个不同关系型数据库中的实时数据的采集,并根据消息队列中待处理数据的数据格式、消息队列的基本信息以及待处理数据在消息队列中的类别名称和分区数量,构建数据导入任务文件,进而根据数据导入任务文件可以快速地将消息队列中的数据导入目标数据库中的数据表中,从而便于大批量实时数据的任务导入,目标数据库为starrocks数据库,基于starrocks数据库的高性能计算,能够实现大批量的实时数据的秒级计算,进一步地,根据数据处理脚本文件对数据导入表中的数据进行数据处理,从而实现了大批量数据的准实时计算,提高了批量数据计算的灵活性。

34、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。



技术特征:

1.一种批量数据处理方法,其特征在于,包括:

2.根据权利要求1所述的批量数据处理方法,其特征在于,所述配置文件包括所述关系型数据库的加密信息以及所述消息队列的基本信息,所述基于配置文件将关系型数据库中的实时数据传输至消息队列中,得到消息队列中的待处理数据,包括:

3.根据权利要求1所述的批量数据处理方法,其特征在于,所述基于所述待处理数据的数据格式、所述消息队列的基本信息、所述待处理数据的类别名称以及所述待处理数据的分区数量,构建数据导入任务文件,包括:

4.根据权利要求1所述的批量数据处理方法,其特征在于,所述数据处理脚本文件包括待处理数据导入表的标识信息,所述基于数据处理脚本文件对数据导入表中的数据进行数据处理,得到实时数据处理结果,包括:

5.根据权利要求4所述的批量数据处理方法,其特征在于,所述配置中心用于存储数据导入表的加密基本信息,所述基于所述待处理数据导入表的标识信息,在配置中心获取所述待处理数据导入表的基本信息,包括:

6.根据权利要求1所述的批量数据处理方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的批量数据处理方法,其特征在于,在所述基于数据处理脚本文件对数据导入表中的数据进行数据处理,得到实时数据处理结果之后,还包括:

8.一种批量数据处理装置,其特征在于,包括:

9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的批量数据的分析方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的批量数据的分析方法的步骤。


技术总结
本申请涉及一种批量数据处理方法、装置、电子装置和存储介质,其中,该批量数据处理方法包括:基于配置文件将关系型数据库中的实时数据传输至消息队列中,得到消息队列中的待处理数据;基于待处理数据的数据格式、消息队列的基本信息、待处理数据的类别名称以及待处理数据的分区数量,构建数据导入任务文件;基于数据导入任务文件,将待处理数据导入目标数据库中的数据表中,生成数据导入表,目标数据库为StarRocks数据库;基于数据处理脚本文件对数据导入表中的数据进行数据处理,得到实时数据处理结果。通过本申请,解决了数据库中批量数据计算的灵活性较低的问题,提高了批量数据计算的灵活性。

技术研发人员:顾伟涛,曹彩鹏,王跃剑,周游,刘培锴,陈斐
受保护的技术使用者:杭州浮云网络科技有限公司
技术研发日:
技术公布日:2024/3/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1