数据流计算异常恢复方法、装置、设备及存储介质与流程

文档序号:35976681发布日期:2023-11-09 19:38阅读:34来源:国知局
数据流计算异常恢复方法、装置、设备及存储介质与流程

本发明涉及数据处理,尤其涉及一种数据流计算异常恢复方法、装置、设备及存储介质。


背景技术:

1、在云计算作业或者大规模数据计算作业中,由于实时计算作业在一个较大的集群服务器中执行,其中,若是硬件故障或者异常都会导致计算作业失败,在传统技术中,一般采用分布式流处理和批处理框架(apache flink)采用周期性保存快照的形式,从而在数据处理过程中出现异常时,可以根据保存的数据重新流计算过程,但是针对大规模的实时计算作业,其保存的作业状态可能非常大,状态的备份和重新处理的周期非常长,容错成本较高,且由于数据状态具有实时性,导致重新进行流计算的结果和正常的计算结果不一致,影响数据的处理效率。

2、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本发明的主要目的在于提供一种数据流计算异常恢复方法、装置、设备及存储介质,旨在解决现有技术中基于flink的实时数据流计算异常时,重新计算的效率较低的技术问题。

2、为实现上述目的,本发明提供了一种数据流计算异常恢复方法,所述方法包括以下步骤:

3、在数据流计算出现异常时,确定异常算子和对应的相邻算子;

4、调用所述异常算子对应的目标算子,并建立所述目标算子与相邻算子之间的连接;

5、基于所述相邻算子读取预写式日志中的重放点数据,并将所述重放点数据下发至所述目标算子;

6、基于所述目标算子对所述重放点数据进行数据流计算。

7、可选地,所述基于所述目标算子对所述重放点数据进行数据流计算,包括:

8、基于所述目标算子读取外部存储数据库中的所述重放点数据对应的状态信息;

9、基于所述目标算子根据所述重放点数据和所述状态信息进行数据流计算。

10、可选地,所述数据流计算异常恢复方法,还包括:

11、将流计算结果写入所述预写式日志;

12、调用外部存储数据库更新所述重放点数据对应的状态信息。

13、可选地,所述相邻算子包括上级算子;

14、所述数据流计算异常恢复方法,还包括:

15、基于所述目标算子向所述上级算子发送确认信息;

16、基于所述上级算子根据所述确认信息调整所述预写式日志中所述重放点数据的数据偏移量,并执行正常数据流计算模式。

17、可选地,基于所述目标算子对所述重放点数据进行流计算,包括:

18、通过所述目标算子基于所述预写式日志中的数据偏移量判断所述重放点数据是否为重复数据;

19、在所述重放点数据不为重复数据时,执行基于所述目标算子对所述重放点数据进行数据流计算的步骤。

20、可选地,所述数据流计算异常恢复方法,还包括:

21、在所述重放点数据为重复数据时,基于所述目标算子生成提醒信息,并向上级算子反馈所述提醒信息;

22、调整所述预写式日志中所述重放点数据的数据偏移量;

23、通过所述上级算子根据所述提醒信息读取外部存储数据库中与调整后的数据偏移量对应的待处理数据,并将所述待处理数据下发至所述目标算子,以执行数据流计算。

24、可选地,所述基于所述相邻算子读取预写式日志中的重放点数据,包括:

25、基于所述相邻算子查询预写式日志中的历史数据偏移量;

26、根据所述历史数据偏移量读取所述预写式日志中的重放点数据。

27、此外,为实现上述目的,本发明还提出一种数据流计算异常恢复装置,所述数据流计算异常恢复装置包括:

28、获取模块,用于在数据处理出现异常时,确定异常算子和对应的相邻算子;

29、调用模块,用于调用所述异常算子对应的目标算子,并建立所述目标算子与相邻算子之间的连接;

30、读取模块,用于基于所述相邻算子读取预写式日志中的重放点数据,并将所述重放点数据下发至所述目标算子;

31、计算模块,用于基于所述目标算子对所述重放点数据进行数据流计算。

32、此外,为实现上述目的,本发明还提出一种数据流计算异常恢复设备,所述数据流计算异常恢复设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据流计算异常恢复程序,所述数据流计算异常恢复程序配置为实现如上文所述的数据流计算异常恢复方法的步骤。

33、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有数据流计算异常恢复程序,所述数据流计算异常恢复程序被处理器执行时实现如上文所述的数据流计算异常恢复方法的步骤。

34、本发明通过在数据流计算出现异常时,确定异常算子和对应的相邻算子;调用所述异常算子对应的目标算子,并建立所述目标算子与相邻算子之间的连接;基于所述相邻算子读取预写式日志中的重放点数据,并将所述重放点数据下发至所述目标算子;基于所述目标算子对所述重放点数据进行数据流计算,本发明通过确定流计算异常时的异常算子和相邻算子,并调用异常算子对应的目标算子,以目标算子代替异常算子建立与相邻算子之间的连接,保证整体数据处理可执行性,同时通过相邻数字读取预写式日志中的重放点数据,下发重放点数据至目标算子,从而目标算子可以根据重放点数据进行流计算,完成异常流计算结果的重新计算,而重新计算所有的数据,避免了现有技术中基于flink的实时数据流计算异常时,重新计算的效率较低的技术问题,减少流计算异常恢复的周期。



技术特征:

1.一种数据流计算异常恢复方法,其特征在于,所述数据流计算异常恢复方法,包括:

2.如权利要求1所述的数据流计算异常恢复方法,其特征在于,所述基于所述目标算子对所述重放点数据进行数据流计算,包括:

3.如权利要求2所述的数据流计算异常恢复方法,其特征在于,所述数据流计算异常恢复方法,还包括:

4.如权利要求3所述的数据流计算异常恢复方法,其特征在于,所述相邻算子包括上级算子;

5.如权利要求1或2中任一项所述的数据流计算异常恢复方法,其特征在于,基于所述目标算子对所述重放点数据进行流计算,包括:

6.如权利要求5所述的数据流计算异常恢复方法,其特征在于,所述数据流计算异常恢复方法,还包括:

7.如权利要求1所述的数据流计算异常恢复方法,其特征在于,所述基于所述相邻算子读取预写式日志中的重放点数据,包括:

8.一种数据流计算异常恢复装置,其特征在于,所述数据流计算异常恢复装置包括:

9.一种数据流计算异常恢复设备,其特征在于,所述数据流计算异常恢复设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据流计算异常恢复程序,所述数据流计算异常恢复程序配置为实现如权利要求1至7中任一项所述的数据流计算异常恢复方法。

10.一种存储介质,其特征在于,所述存储介质上存储有数据流计算异常恢复程序,所述数据流计算异常恢复程序被处理器执行时实现如权利要求1至7任一项所述的数据流计算异常恢复方法。


技术总结
本发明涉及数据处理技术领域,尤其涉及一种数据流计算异常恢复方法、装置、设备及存储介质。本发明通过确定流计算异常时的异常算子和相邻算子,并调用异常算子对应的目标算子,以目标算子代替异常算子建立与相邻算子之间的连接,保证整体数据处理可执行性,同时通过相邻数字读取预写式日志中的重放点数据,下发重放点数据至目标算子,从而目标算子可以根据重放点数据进行流计算,完成异常流计算结果的重新计算,而重新计算所有的数据,避免了现有技术中基于flink的实时数据流计算异常时,重新计算的效率较低的技术问题,减少流计算异常恢复的周期。

技术研发人员:尚晶,武智晖,刘辉,郭志伟,陈卓
受保护的技术使用者:中移动信息技术有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1