数据处理方法、装置、设备和系统与流程

文档序号:36553580发布日期:2023-12-30 04:26阅读:21来源:国知局
数据处理方法、装置、设备和系统与流程

本申请涉及数据处理领域,尤其涉及一种数据处理方法、装置、设备和系统。


背景技术:

1、目前,计算机集群中控制节点将作业划分为多个执行阶段,每个执行阶段包括映射(map)任务和归约(reduce),计算节点执行完多个映射任务后,对映射任务的结果数据并行执行多个归约任务,以提高作业处理性能。如果单个归约(或规约)任务的数据量过大,可能由于计算节点的内存不足发生数据溢出(spill)的问题,导致降低归约任务的处理性能。如果单个归约任务的数据量过小,导致启动的归约任务数量过多而产生大量开销。因此,如何设置归约任务的数量来提升归约任务处理性能是一个亟待解决的问题。


技术实现思路

1、本申请提供了数据处理方法、装置、设备和系统,由此通过合理地设置归约任务的数量来提升归约任务处理性能。

2、第一方面,提供一种数据处理方法,数据处理系统包括控制节点和多个计算节点。多个计算节点中多个第二计算节点并行执行数据处理任务,得到结果数据,控制节点预估结果数据的数据量,并获取多个计算节点中执行归约任务的第一计算节点的内存信息。进而,控制节点根据数据量及内存信息确定归约任务的数量,每个第二计算节点按照数量对执行数据处理任务产生的结果数据进行分区,每个分区对应一个归约任务;第一计算节点对多个第二计算节点分区后的数据执行归约处理。

3、相对于预先配置好归约任务的数量,导致归约任务的数据量过大或过小,归约任务的数量的调整难度大及归约任务处理性能较低的问题,本申请提供的方案基于影响归约任务的处理性能的参数对任务的数量进行自动调整优化,即根据数据处理任务被执行后产生的结果数据的数据量,以及执行归约任务的计算节点的内存信息确定归约任务的数量,尽量使执行归约任务的计算节点的内存的存储容量满足归约任务的数据量,从而尽量避免由于单个归约任务的数据量过大,可能发生内存不足数据溢出的问题,以及避免单个归约任务的数据量过小,导致启动的归约任务数量过多而产生大量开销的问题,因此,在执行归约任务之前,灵活动态地设置归约任务的数量,提升归约任务的处理性能。

4、控制节点可以采用多种方式预估当前的数据处理任务被执行后结果数据的数据量。

5、结合第一方面,在一种可能的实现方式中,控制节点可以根据历史数据预估当前的数据处理任务被执行后结果数据的数据量。

6、控制节点预估数据处理任务被执行后产生的结果数据的数据量包括:获取之前已完成的数据处理任务被执行时产生的历史数据,历史数据包括已完成的数据处理任务产生的结果数据的数据量;根据历史数据预估数据处理任务被执行后产生的结果数据的数据量。

7、由于大多数的任务具有周期性运行的特点,根据任务的历史数据的数据量估计当前数据处理任务被执行后结果数据的数据量,既可确保估计的准确性又可降低估计数据量的所占用的资源。

8、结合第一方面,在另一种可能的实现方式中,实时采集数据处理任务的相关数据预估当前的数据处理任务被执行后结果数据的数据量。

9、控制节点预估数据处理任务被执行后产生的结果数据的数据量包括:在多个第二计算节点开始并行执行数据处理任务后的一段时间内,采样多个第二计算节点执行数据处理任务产生的结果数据;根据所采样的结果数据预估数据处理任务被执行完成后产生的结果数据的数据量。其中,一段时间可以是指采样多个第二计算节点执行数据处理任务产生的结果数据所使用的时间。在一些实施例中,在多个第二计算节点开始并行执行数据处理任务的过程中,采样多个第二计算节点执行数据处理任务产生的结果数据。在另一些实施例中,在多个第二计算节点开始并行执行数据处理任务完成后,采样多个第二计算节点执行数据处理任务产生的结果数据。

10、结合第一方面,在另一种可能的实现方式中,控制节点预估数据处理任务被执行后产生的结果数据的数据量包括:在多个第二计算节点执行数据处理任务之前,采样多个第二计算节点中待处理数据,并指示多个第二计算节点处理所采样的待处理数据;根据待处理数据的处理结果预估数据处理任务被执行后产生的结果数据的数据量。

11、如此,控制节点使用较少的数据估计数据处理任务的整体数据量,降低估计数据量所占用的资源。

12、结合第一方面,在另一种可能的实现方式中,内存信息为内存大小,控制节点根据数据量及内存信息确定归约任务的数量包括:用数据量除以内存大小后向上取整得到归约任务的数量。

13、结合第一方面,在另一种可能的实现方式中,第一计算节点的数量与归约任务的数量相等,一个第一计算节点执行一个归约任务。

14、结合第一方面,在另一种可能的实现方式中,第一计算节点的数量小于归约任务的数量,一个第一计算节点执行多个归约任务。

15、结合第一方面,在另一种可能的实现方式中,第一计算节点的内存大小相同。从而,控制节点根据计算节点的内存大小确定每个计算节点处理归约任务的数据量,尽量使执行归约任务的计算节点的内存的存储容量满足归约任务的数据量。

16、第二方面,提供一种控制装置,所述装置包括用于执行第一方面或第一方面任一种可能设计中控制节点的方法的各个模块。

17、第三方面,提供一种控制设备,该控制设备包括至少一个处理器和存储器,存储器用于存储一组计算机指令;当处理器作为第一方面或第一方面任一种可能实现方式中的控制节点执行所述一组计算机指令时,执行第一方面或第一方面任一种可能实现方式中的控制节点的方法的操作步骤。

18、第四方面,提供一种数据处理系统,数据处理系统包括控制节点和多个计算节点;控制节点用于执行第一方面或第一方面任一种可能设计中控制节点的方法;计算节点用于执行第一方面或第一方面任一种可能设计中计算节点的方法。

19、第五方面,提供一种计算机可读存储介质,包括:计算机软件指令;当计算机软件指令在计算设备中运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤。

20、第六方面,提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤。

21、本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。



技术特征:

1.一种数据处理方法,其特征在于,应用于数据处理系统,所述数据处理系统包括控制节点和多个计算节点,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述控制节点预估数据处理任务被执行后产生的结果数据的数据量包括:

3.根据权利要求1所述的方法,其特征在于,所述控制节点预估数据处理任务被执行后产生的结果数据的数据量包括:

4.根据权利要求1所述的方法,其特征在于,所述控制节点预估数据处理任务被执行后产生的结果数据的数据量包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述内存信息为内存大小,所述控制节点根据所述数据量及所述内存信息确定所述归约任务的数量包括:

6.根据权利要求1-5中任一项所述的方法,其特征在于,所述第一计算节点的数量与所述归约任务的数量相等,一个所述第一计算节点执行一个归约任务。

7.根据权利要求1-5中任一项所述的方法,其特征在于,所述第一计算节点的数量小于所述归约任务的数量,一个所述第一计算节点执行多个归约任务。

8.一种控制装置,其特征在于,所述装置应用于数据处理系统中的控制节点,所述数据处理系统还包括多个计算节点,所述装置包括:

9.根据权利要求8所述的装置,其特征在于,所述处理模块预估数据处理任务被执行后产生的结果数据的数据量时具体用于:

10.根据权利要求8所述的装置,其特征在于,所述处理模块预估数据处理任务被执行后产生的结果数据的数据量时具体用于:

11.根据权利要求8所述的装置,其特征在于,所述处理模块预估数据处理任务被执行后产生的结果数据的数据量时具体用于:

12.根据权利要求8-11中任一项所述的装置,其特征在于,所述内存信息为内存大小,所述处理模块根据所述数据量及所述内存信息确定所述归约任务的数量时具体用于:

13.根据权利要求8-12中任一项所述的装置,其特征在于,所述第一计算节点的数量与所述归约任务的数量相等,一个所述第一计算节点执行一个归约任务。

14.根据权利要求8-12中任一项所述的装置,其特征在于,所述第一计算节点的数量小于所述归约任务的数量,一个所述第一计算节点执行多个归约任务。

15.一种控制设备,其特征在于,所述控制设备包括存储器和至少一个处理器,所述存储器用于存储一组计算机指令;当所述处理器执行所述一组计算机指令时,执行上述权利要求1-7中任一项所述的方法中控制节点的操作步骤。

16.一种数据处理系统,其特征在于,所述数据处理系统包括控制节点和多个计算节点;所述控制节点用于执行上述权利要求1-7中任一所述的方法中控制节点的操作步骤,所述计算节点用于执行上述权利要求1-7中任一所述的方法中计算节点的操作步骤。


技术总结
公开了数据处理方法、装置、设备和系统,涉及数据处理领域。该数据处理系统中控制节点预估多个第二计算节点并行执行数据处理任务的结果数据的数据量,根据数据量及执行归约任务的第一计算节点的内存信息确定归约任务的数量,每个第二计算节点按照数量对执行数据处理任务产生的结果数据进行分区,每个分区对应一个归约任务;第一计算节点对多个第二计算节点分区后的数据执行归约处理。如此,尽量使执行归约任务的计算节点的内存的存储容量满足归约任务的数据量,避免由于单个归约任务的数据量过大或过小,从而在执行归约任务之前,通过灵活动态地设置归约任务的数量,提升归约任务的处理性能。

技术研发人员:徐华,包小明,朱策,孙宏伟,王兴隆
受保护的技术使用者:华为技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1