落后者任务推测的方法及装置、电子设备和存储介质与流程

文档序号:37045933发布日期:2024-02-20 20:41阅读:16来源:国知局
落后者任务推测的方法及装置、电子设备和存储介质与流程

本公开涉及数据处理,尤其涉及一种落后者任务推测的方法及装置、电子设备和存储介质。


背景技术:

1、随着信息技术的发展以及互联网技术和应用的普及,各行各业均面临行业数字化的转型。如今,社会每天都产生海量的信息数据。在这种背景下,面对海量数据的存储、处理和应用,“大数据”技术得到快速的发展并广泛应用于电子商务、社交媒体、金融等业务领域。当前大数据面临的重要问题之一是如何有效并高效地管理、处理海量的数据, hadoop平台由于其自身在数据存储和处理方面的优势被广泛应用。

2、hadoop采用推测执行机制来解决落后者问题,推测执行算法能显著减少作业完成时间。该方法采用当检测到落后者任务后则在另一个通用节点上同时运行一个落后者任务副本的方式,同时hadoop推测执行算法会默认启动多个备份任务,以此完成落后者任务的执行。因此准确地识别落后者任务可以显著地减少作业完成时间,有效提高资源利用率。

3、hadoop默认调度方式先进先出(first input first output,fifo)技术提供多种推测执行机制,其中最长近似结束时间(longest approximate time to end,late)是一种专为异构集群设计的动态调度技术,该算法中基于任务的当前运行速度进而计算完成任务的预估剩余时间,而完成时间最晚的任务,被确定为落后者,但是仅仅根据任务当前的运行速度确定落后者任务,存在判断结果不够准确的问题。


技术实现思路

1、本公开提供了一种落后者任务推测的方法、装置、电子设备和存储介质。其主要目的在于解决现有技术对落后者任务的推测结果不够准确的问题。

2、根据本公开的第一方面,提供了一种落后者任务推测的方法,其中,包括:

3、获取目标任务运行进度分数及所述目标任务在映射阶段已运行的第一时间;

4、基于所述进度分数和所述第一时间计算所述目标任务在映射阶段剩余运行的第二时间;

5、基于所述目标任务映射阶段与排序阶段的第一目标比值、所述第一时间及所述进度分数进行计算,得到所述目标任务在排序阶段运行的第三时间,所述第一目标比值为系统默认值;

6、根据所述第二时间和所述第三时间确定所述目标任务执行完成所需的总剩余时间;

7、根据所述总剩余时间确定所述目标任务是否为落后者任务。

8、可选的,所述确定所述目标任务执行完成所需的总剩余时间,包括:

9、在确定不存在映射阶段和排序阶段均已完成的历史任务时,基于所述目标任务对应的节点速度和所述目标任务映射阶段数据量进行计算,得到所述目标任务映射阶段第一运行时间;

10、基于所述第一运行时间及所述第一目标比值计算所述目标任务排序阶段的第二运行时间;

11、将所述第一运行时间和所述第二运行时间作为反馈,并结合所述第一时间、所述第二时间、所述进度分数及所述第一目标比值确定所述目标任务执行完成所需的总剩余时间。

12、可选的,所述确定所述目标任务执行完成所需的总剩余时间包括:

13、在确定存在映射阶段已完成且排序阶段未完成的历史任务时,则计算所述历史任务映射阶段运行的目标平均时间;

14、基于所述目标平均时间和所述第一目标比值计算所述目标任务排序阶段的第三运行时间;

15、将所述目标平均时间和所述第三运行时间作为反馈,并结合所述第一时间、所述第二时间、所述进度分数及所述第一目标比值确定所述目标任务执行完成所需的总剩余时间。

16、可选的,在确定存在至少一组映射阶段和排序阶段均已完成的历史任务时,则计算所述历史任务映射阶段运行的第一平均时间及其排序阶段运行的第二平均时间对所述第一目标比值进行调整,得到第二目标比值。

17、可选的,所述确定所述目标任务执行完成所需的总剩余时间包括:

18、将所述第一平均时间和所述第二平均时间作为反馈,并结合所述第一时间、所述第二时间、所述进度分数及所述第二目标比值确定所述目标任务执行完成所需的总剩余时间。

19、可选的,所述根据所述总剩余时间确定所述目标任务是否为落后者任务包括:

20、分别对所有任务进行剩余运行时间的计算,得到各任务运行对应的剩余时间;

21、将所述总剩余时间分别与计算得到的所述剩余时间进行比对;

22、在确定全部的所述剩余时间均小于所述总剩余时间时,确定所述目标任务为落后者任务。

23、根据本公开的第二方面,提供了一种落后者任务推测的装置,包括:

24、获取单元,用于获取目标任务运行进度分数及所述目标任务在映射阶段已运行的第一时间;

25、第一计算单元,用于基于所述进度分数和所述第一时间计算所述目标任务在映射阶段剩余运行的第二时间;

26、第二计算单元,用于基于所述目标任务映射阶段与排序阶段的第一目标比值、所述第一时间及所述进度分数进行计算,得到所述目标任务在排序阶段运行的第三时间,所述第一目标比值为系统默认值;

27、第一确定单元,用于根据所述第二时间和所述第三时间确定所述目标任务执行完成所需的总剩余时间;

28、第二确定单元,用于根据所述总剩余时间确定所述目标任务是否为落后者任务。

29、可选的,所述第一确定单元还用于:

30、在确定不存在映射阶段和排序阶段均已完成的历史任务时,基于所述目标任务对应的节点速度和所述目标任务映射阶段数据量进行计算,得到所述目标任务映射阶段第一运行时间;

31、基于所述第一运行时间及所述第一目标比值计算所述目标任务排序阶段的第二运行时间;

32、将所述第一运行时间和所述第二运行时间作为反馈,并结合所述第一时间、所述第二时间、所述进度分数及所述第一目标比值确定所述目标任务执行完成所需的总剩余时间。

33、可选的,所述第一确定单元还用于:

34、在确定存在映射阶段已完成且排序阶段未完成的历史任务时,则计算所述历史任务映射阶段运行的目标平均时间;

35、基于所述目标平均时间和所述第一目标比值计算所述目标任务排序阶段的第三运行时间;

36、将所述目标平均时间和所述第三运行时间作为反馈,并结合所述第一时间、所述第二时间、所述进度分数及所述第一目标比值确定所述目标任务执行完成所需的总剩余时间。

37、可选的,在确定存在至少一组映射阶段和排序阶段均已完成的历史任务时,则计算所述历史任务映射阶段运行的第一平均时间及其排序阶段运行的第二平均时间对所述第一目标比值进行调整,得到第二目标比值。

38、可选的,所述第一确定单元还用于包括:

39、将所述第一平均时间和所述第二平均时间作为反馈,并结合所述第一时间、所述第二时间、所述进度分数及所述第二目标比值确定所述目标任务执行完成所需的总剩余时间。

40、可选的,所述第二确定单元包括:

41、计算模块,用于分别对所有任务进行剩余运行时间的计算,得到各任务运行对应的剩余时间;

42、比对模块,用于将所述总剩余时间分别与计算得到的所述剩余时间进行比对;

43、确定模块,用于在确定全部的所述剩余时间均小于所述总剩余时间时,确定所述目标任务为落后者任务。

44、根据本公开的第三方面,提供了一种电子设备,包括:

45、至少一个处理器;以及

46、与所述至少一个处理器通信连接的存储器;其中,

47、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。

48、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。

49、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。

50、本公开提供的落后者任务推测的方法、装置、电子设备和存储介质,获取目标任务运行进度分数及所述目标任务在映射阶段已运行的第一时间;基于所述进度分数和所述第一时间计算所述目标任务在映射阶段剩余运行的第二时间;基于所述目标任务映射阶段与排序阶段的第一目标比值、所述第一时间及所述进度分数进行计算,得到所述目标任务在排序阶段运行的第三时间,所述第一目标比值为系统默认值;根据所述第二时间和所述第三时间确定所述目标任务执行完成所需的总剩余时间;根据所述总剩余时间确定所述目标任务是否为落后者任务,与相关技术相比,以所述目标任务在映射阶段已运行的所述第一时间作为原始参数,并根据所述目标任务运行的进度分数及所述第一目标比值结合所述第一时间进行计算,以确定所述目标任务运行完成所需的总剩余时间,从而提高了估算所述目标任务运行总剩余时间的准确率,再通过所述总剩余时间确定所述目标任务是否为落后者任务,进而提高了算法推测落后者任务的准确率。

51、应当理解,本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征,也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1