分布式数据的并行计算方法和装置与流程

文档序号:34064006发布日期:2023-05-06 13:56阅读:25来源:国知局
分布式数据的并行计算方法和装置与流程

本发明涉及大数据领域,更具体地,涉及一种分布式数据的并行计算和装置。


背景技术:

1、在机器学习和大数据计算场景中,经常会遇到需要加速数据可分类的计算逻辑,常见的方法是限制计算处理逻辑的描述为特定的语言或框架,然后利用语言和框架层面的处理协同在多机环境(例如,并行计算环境)下对数据和任务进行拆分。而针对不能约束(或限制)计算描述框架的情况,则没有很好的方案。


技术实现思路

1、本发明的目的在于提供一种分布式数据的并行计算方法和装置。

2、根据本发明的一个或多个方面,本发明提供了一种分布式数据的并行计算方法,所述方法包括:根据拆分策略对待处理数据执行数据拆分以获得多个数据切片;将多个数据切片分配给多个计算单元,其中,每个计算单元基于所分配的数据切片执行计算以获得切片计算结果;以及聚合切片计算结果,其中,拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于每个计算单元将分配的数据分区的数量来执行拆分,第二拆分策略为基于每个计算单元将分配的数据行数或多个计算单元的总数来执行拆分。

3、在根据发明构思的示例性实施例中,所述根据拆分策略对待处理数据执行数据拆分以获得多个数据切片的步骤可以包括:根据第一拆分策略执行数据拆分以获得多个初始切片,然后根据第二拆分策略对多个初始切片进行调整以获得多个数据切片。

4、在根据发明构思的示例性实施例中,所述根据第二拆分策略对多个初始切片进行调整的步骤可以通过对多个初始切片进行重新分区来执行。

5、在根据发明构思的示例性实施例中,所述拆分策略还可以包括:第三拆分策略,第三拆分策略为根据资源调度信息来执行拆分,其中,资源调度信息包括计算的期望总运行时长和期望用于执行计算的计算资源中的至少一者。

6、在根据发明构思的示例性实施例中,所述根据拆分策略执行数据拆分以获得多个数据切片的步骤可以包括:根据第一拆分策略和/或第二拆分策略执行数据拆分以获得多个初始切片,然后根据第三拆分策略对多个初始切片进行调整以获得多个数据切片。

7、在根据发明构思的示例性实施例中,执行所述第三拆分策略的步骤可以包括:获取所述资源调度信息;获取运行资源指标和二次拆分指标,其中,运行资源指标用于表征计算资源的使用量,二次拆分指标用于表征执行调整时消耗的时间成本;根据资源调度信息基于所述运行资源指标和所述二次拆分指标来执行拆分。

8、在根据发明构思的示例性实施例中,所述计算资源可以包括正在执行计算的第一计算单元和未执行计算的第二计算单元,第一计算单元包括多个计算单元。所述根据资源调度信息基于所述运行资源指标和所述二次拆分指标来执行拆分的步骤可以包括:基于运行资源指标获取第二计算单元中的待分配计算单元;根据待处理数据或多个初始切片、第一计算单元和待分配计算单元推测预计计算时长;至少基于预计计算时长和二次拆分指标推测总运行时长变化;并且根据资源调度信息基于总运行时长变化来执行拆分。

9、在根据发明构思的示例性实施例中,所述运行资源指标可以包括收集的每个计算单元的cpu利用率、内存利用率及带宽的利用率中的至少一者。

10、在根据发明构思的示例性实施例中,所述推测总运行时长变化的步骤可以包括:基于数据切片读取消耗、预处理消耗中的至少一者以及预计计算时长和二次拆分指标来推测总运行时长变化。

11、根据本发明的一个或多个方面,本发明提供了一种分布式数据的并行计算装置,装置包括:数据拆分单元,被配置为根据拆分策略对待处理数据执行数据拆分以获得多个数据切片;多个计算单元,被配置为基于所分配的数据切片执行计算以获得切片计算结果;以及聚合单元,被配置为聚合切片计算结果,其中,拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于每个计算单元将分配的数据分区的数量来执行拆分,第二拆分策略为基于每个计算单元将分配的数据行数或多个计算单元的总数来执行拆分。

12、在根据发明构思的示例性实施例中,所述数据拆分单元还可以被配置为根据第一拆分策略执行数据拆分以获得多个初始切片,然后根据第二拆分策略对多个初始切片进行调整以获得多个数据切片。

13、在根据发明构思的示例性实施例中,所述数据拆分单元还可以被配置为通过对多个初始切片进行重新分区来执行根据第二拆分策略对多个初始切片进行调整的步骤。

14、在根据发明构思的示例性实施例中,所述拆分策略还可以包括:第三拆分策略,第三拆分策略为根据资源调度信息来执行拆分,其中,资源调度信息包括计算的期望总运行时长和期望用于执行计算的计算资源中的至少一者。

15、在根据发明构思的示例性实施例中,所述数据拆分单元可以被配置为根据第一拆分策略和/或第二拆分策略执行数据拆分以获得多个初始切片,然后根据第三拆分策略对多个初始切片进行调整以获得多个数据切片。

16、在根据发明构思的示例性实施例中,所述装置还可以包括指标获取单元,指标获取单元被配置为获取运行资源指标和二次拆分指标,其中,运行资源指标用于表征计算资源的使用量,二次拆分指标用于表征执行调整时消耗的时间成本。数据拆分单元在根据第三拆分策略执行数据拆分时可以被配置为:获取资源调度信息;从指标获取单元获取运行资源指标和二次拆分指标;根据资源调度信息基于运行资源指标和二次拆分指标来执行拆分。

17、在根据发明构思的示例性实施例中,所述计算资源可以包括正在执行计算的第一计算单元和未执行计算的第二计算单元,第一计算单元包括多个计算单元。所述数据拆分单元还被配置为:基于运行资源指标获取第二计算单元中的待分配计算单元;根据待处理数据或多个初始切片、第一计算单元和待分配计算单元推测预计计算时长;至少基于预计计算时长和二次拆分指标推测总运行时长变化;并且根据资源调度信息基于总运行时长变化来执行拆分。

18、在根据发明构思的示例性实施例中,所述运行资源指标可以包括收集的每个计算单元的cpu利用率、内存利用率及带宽的利用率中的至少一者。

19、在根据发明构思的示例性实施例中,所述数据拆分单元还可以被配置为基于数据切片读取消耗、预处理消耗中的至少一者以及预计计算时长和二次拆分指标来推测总运行时长变化。

20、本发明的另一方面提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的分布式数据的并行计算方法。

21、本发明的另一方面提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的分布式数据的并行计算方法。

22、根据本发明的一个或多个方面,通过根据拆分策略执行数据拆分以获得多个数据切片,通过将多个数据切片分配给多个计算单元分别执行计算以获得切片计算结果,并通过聚合切片计算结果来实现并行计算,从而因提升使用体验并能够优化整体性能。



技术特征:

1.一种分布式数据的并行计算方法,所述方法包括:

2.根据权利要求1所述的并行计算方法,其特征在于,所述根据拆分策略对待处理数据执行数据拆分以获得多个数据切片的步骤包括:根据所述第一拆分策略执行数据拆分以获得多个初始切片,然后根据所述第二拆分策略对所述多个初始切片进行调整以获得所述多个数据切片。

3.根据权利要求2所述的并行计算方法,其特征在于,所述根据所述第二拆分策略对多个初始切片进行调整的步骤通过对所述多个初始切片进行重新分区来执行。

4.根据权利要求1所述的并行计算方法,其特征在于,所述拆分策略还包括:第三拆分策略,所述第三拆分策略为根据资源调度信息来执行拆分,其中,所述资源调度信息包括所述计算的期望总运行时长和期望用于执行所述计算的计算资源中的至少一者。

5.根据权利要求4所述的并行计算方法,其特征在于,所述根据拆分策略执行数据拆分以获得多个数据切片的步骤包括:根据所述第一拆分策略和/或所述第二拆分策略执行数据拆分以获得多个初始切片,然后根据所述第三拆分策略对所述多个初始切片进行调整以获得所述多个数据切片。

6.根据权利要求4或5所述的并行计算方法,其特征在于,执行所述第三拆分策略的步骤包括:

7.根据权利要求6所述的并行计算方法,其特征在于,所述计算资源包括正在执行所述计算的第一计算单元和未执行所述计算的第二计算单元,所述第一计算单元包括所述多个计算单元,

8.一种分布式数据的并行计算装置,所述装置包括:

9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到7中的任一权利要求所述的分布式数据的并行计算方法。

10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到7中的任一权利要求所述的分布式数据的并行计算方法。


技术总结
本发明提供了一种分布式数据的并行计算方法和装置。所述方法包括:根据拆分策略对原始数据执行数据拆分以获得多个数据切片;将多个数据切片分配给多个计算单元,其中,每个计算单元基于所分配的数据切片执行计算以获得切片计算结果;以及聚合切片计算结果,其中,拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于每个计算单元将分配的数据分区的数量来执行拆分,其中,第二拆分策略为基于每个计算单元将分配的数据行数或多个计算单元的总数来执行拆分。

技术研发人员:罗伟锋,方荣,郭朕
受保护的技术使用者:第四范式(北京)技术有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1