数据处理方法及装置、可读存储介质及电子设备与流程

文档序号:35117666发布日期:2023-08-14 11:24阅读:21来源:国知局
数据处理方法及装置、可读存储介质及电子设备与流程

本申请涉及计算机,具体涉及一种数据处理方法及装置、可读存储介质及电子设备。


背景技术:

1、随着互联网技术的快速发展,互联网中的数据量呈现爆发式指数级别增长,数据的处理和存储面临着巨大的考验,大数据处理技术也受到了越来越高的关注。由于业务对数据实时性要求越来越高,flink正逐步成为主流技术。

2、然而,flink计算过程中处理的数据是通过消息队列传输,数据保存时间有限,在面临不同的业务场景需求(比如在实时计算的时候需要用到历史数据的情况)时,flink计算会存在历史数据回溯困难的问题,进而导致学习成本高、维护难度大、对状态管控繁琐。


技术实现思路

1、为了解决上述技术问题,提出了本申请。本申请实施例提供了一种数据处理方法及装置、可读存储介质及电子设备。

2、第一方面,本申请一实施例提供了一种数据处理方法,该方法包括:获取目标业务对应的实时流数据;获取目标业务对应的离线流数据;对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端基于输出流数据进行数据应用。

3、结合第一方面,在第一方面的某些实现方式中,对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,包括:对实时流数据和离线流数据进行合并处理,得到合并流数据;对合并流数据进行去重处理,确定目标业务对应的输出流数据。

4、结合第一方面,在第一方面的某些实现方式中,对实时流数据和离线流数据进行合并处理,得到合并流数据,包括:基于预设筛选规则对离线流数据进行筛选,确定离线流数据中与实时流数据相关联的多个历史数据,其中,实时流数据和多个历史数据的数据结构相同;对实时流数据和多个历史数据进行合并处理,得到合并流数据。

5、结合第一方面,在第一方面的某些实现方式中,对合并流数据进行去重处理,确定目标业务对应的输出流数据,包括:基于合并流数据,创建与合并流数据的格式匹配的合并数据表;基于合并数据表的主键信息,对合并流数据进行去重处理,确定目标业务对应的输出流数据。

6、结合第一方面,在第一方面的某些实现方式中,基于合并数据表的主键信息,对合并流数据进行去重处理,确定目标业务对应的输出流数据,包括:基于合并数据表的主键信息,对合并流数据进行分组,得到合并流数据对应的多个数据组,其中,每个数据组对应的主键信息相同;在预设时间范围内,按照预设偏移量规则对多个数据组进行排序,以确定多个数据组中偏移量最大的数据组;将偏移量最大的数据组确定为目标业务对应的输出流数据。

7、结合第一方面,在第一方面的某些实现方式中,获取目标业务对应的实时流数据,包括:利用消息队列拉取目标业务对应的实时流数据;其中,该方法还包括:利用消息队列将输出流数据发送至分布式文件系统,分布式文件系统用于存储输出流数据。

8、结合第一方面,在第一方面的某些实现方式中,对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,包括:基于批流一体方式,将离线流数据写入到实时流数据中进行计算,确定目标业务对应的输出流数据。

9、第二方面,本申请一实施例提供了一种数据处理装置,该装置包括:第一获取模块,用于获取目标业务对应的实时流数据;第二获取模块,用于获取目标业务对应的离线流数据;确定模块,用于对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端基于输出流数据进行数据应用。

10、第三方面,本申请一实施例提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序用于执行上述第一方面所提及的方法。

11、第四方面,本申请一实施例提供了一种电子设备,该电子设备包括:处理器以及用于存储处理器可执行指令的存储器;处理器用于执行上述第一方面所提及的方法。

12、本申请实施例提供的数据处理方法,通过获取目标业务对应的实时流数和离线流数据;并对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端基于输出流数据进行数据应用,能够灵活满足不同业务场景和时效性的需求,尤其针对传统技术中需要人工手动准备历史数据造成任务研发的学习成本高、工期过长且繁琐的问题,通过将获取的实时流与离线流数据进行合并,确定便于客户端进行数据应用的输出流数据,大幅度减少了任务学习难度和开发量,降低了成本,进一步满足了用户对于数据的查询分析需求。



技术特征:

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述实时流数据和所述离线流数据进行合并处理,确定所述目标业务对应的输出流数据,包括:

3.根据权利要求2所述的数据处理方法,其特征在于,所述对所述实时流数据和所述离线流数据进行合并处理,得到合并流数据,包括:

4.根据权利要求2所述的数据处理方法,其特征在于,所述对所述合并流数据进行去重处理,确定所述目标业务对应的输出流数据,包括:

5.根据权利要求4所述的数据处理方法,其特征在于,所述基于所述合并数据表的主键信息,对所述合并流数据进行去重处理,确定所述目标业务对应的输出流数据,包括:

6.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述获取目标业务对应的实时流数据,包括:

7.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述对所述实时流数据和所述离线流数据进行合并处理,确定所述目标业务对应的输出流数据,包括:

8.一种数据处理装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至7任一项所述的方法。

10.一种电子设备,其特征在于,包括:


技术总结
本申请提供了一种数据处理方法及装置、可读存储介质及电子设备,涉及计算机技术领域。该数据处理方法包括:获取目标业务对应的实时流数据,获取目标业务对应的离线流数据,对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端基于输出流数据进行数据应用,能够灵活满足不同业务场景和时效性的需求,尤其针对传统技术中需要人工手动准备历史数据造成任务研发的学习成本高、工期过长且繁琐的问题,通过将获取的实时流与离线流数据进行合并,确定便于客户端进行数据应用的输出流数据,大幅度减少了任务学习难度和开发量,降低了成本,进一步满足了用户对于数据的查询分析需求。

技术研发人员:李兵,王石
受保护的技术使用者:安徽爱学教育科技有限公司
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1