本说明书一个或多个实施例涉及大数据,尤其涉及一种大数据服务的容灾处理方法及相关设备。
背景技术:
1、大数据服务在金融、物流和/或日常生活等国计民生中占据着越来越重要的位置。因此,大数据服务的稳定性、数据的质量以及关键数据处理应用的产出时效等任何部分发生异常,都会带来巨大的经济、社会影响。为了在故障发生时,保障大数据服务的可用性,需要提供大数据服务的容灾解决方案。然而,大数据服务的基本特点就是数据量庞大,对于计算、存储的资源消耗极多,因此大数据服务的容灾处理带来的成本开销往往比较高。
技术实现思路
1、有鉴于此,本说明书一个或多个实施例提供一种大数据服务的容灾处理方法及相关设备。
2、第一方面,本说明书提供了一种大数据服务的容灾处理方法,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用;所述方法包括:
3、基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;
4、确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;
5、响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。
6、在一示出的实施方式中,所述可用性指标包括数据恢复点目标rpo和/或数据恢复时间rto;
7、所述基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用,包括:
8、如果数据处理应用的rpo小于第一预设阈值,和/或,数据处理应用的rto小于第二预设阈值,则确定所述数据处理应用为需要进行容灾保护的关键数据处理应用。
9、在一示出的实施方式中,所述关键数据处理应用中包括与所述大数据处理任务包含的多个子任务分别对应的多个任务节点;
10、所述确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,包括:
11、从所述关键数据处理应用包括的所述多个任务节点中确定出需要进行容灾保护的至少一个目标任务节点,并确定执行所述至少一个目标任务节点上承载的子任务所使用的目标数据。
12、在一示出的实施方式中,所述至少一个目标任务节点包括:
13、所述多个任务节点中最后输出与其对应的子任务的数据处理结果的末端任务节点,以及与所述末端任务节点之间存在计算依赖关系的上游任务节点。
14、在一示出的实施方式中,所述将所述目标数据备份到所述容灾集群中,包括:
15、启用多个备份线程,通过所述多个备份线程并行地执行将所述目标数据备份到所述容灾集群中的备份处理过程,并在所述备份处理过程中,基于所述生产集群与所述容灾集群之间的带宽情况,调整所述备份线程的数量。
16、在一示出的实施方式中,所述在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务,包括:
17、在所述容灾集群中创建用于承载与所述至少一个目标任务节点相同的子任务的至少一个容灾节点;
18、基于已备份的所述目标数据继续在所述至少一个容灾节点上执行所述大数据处理任务。
19、在一示出的实施方式中,所述方法还包括:
20、响应于所述生产集群的故障恢复,停止在所述容灾集群中执行所述大数据处理任务,并将所述容灾集群执行所述大数据处理任务所产生的数据同步到所述生产集群中,以继续在所述生产集群中执行所述大数据处理任务。
21、第二方面,本说明书提供了一种大数据服务的容灾处理装置,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用;所述装置包括:
22、确定单元,用于基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;
23、数据备份单元,用于确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;
24、第一执行单元,用于响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。
25、相应地,本说明书还提供了一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由所述处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述第一方面所述的大数据服务的容灾处理方法。
26、相应地,本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如上述第一方面所述的大数据服务的容灾处理方法。
27、综上所述,本申请可以基于生产集群中的多个数据处理应用对于可用性的要求,从该多个数据处理应用中筛选出需要进行容灾保护的关键数据处理应用,并将该关键数据处理应用执行对应的大数据处理时所使用到的数据备份到容灾集群中。如此,当生产集群发生故障时,可以在容灾集群中基于该已备份的数据继续执行关键数据处理应用中的大数据处理任务,进而保障关键数据处理应用在故障发生时的可用性。如此,本申请考虑到生产集群中的多个数据处理应用对于可用性有着高低不同的要求,可以优先对要求高可用的关键数据处理应用进行容灾保护,进而实现了在保障大数据服务的容灾诉求的同时,避免不必要的资源开销,极大程度上降低了大数据服务的容灾处理成本。
1.一种大数据服务的容灾处理方法,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用;所述方法包括:
2.根据权利要求1所述的方法,所述可用性指标包括数据恢复点目标rpo和/或数据恢复时间rto;
3.根据权利要求1所述的方法,所述关键数据处理应用中包括与所述大数据处理任务包含的多个子任务分别对应的多个任务节点;
4.根据权利要求3所述的方法,所述至少一个目标任务节点包括:
5.根据权利要求1所述的方法,所述将所述目标数据备份到所述容灾集群中,包括:
6.根据权利要求3所述的方法,所述在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务,包括:
7.根据权利要求1-6任意一项所述的方法,所述方法还包括:
8.一种大数据服务的容灾处理装置,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用;所述装置包括:
9.一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由所述处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的方法。