用于分布式数据处理的方法、电子设备和计算机程序产品与流程

文档序号:36870276发布日期:2024-02-02 20:50阅读:11来源:国知局
用于分布式数据处理的方法、电子设备和计算机程序产品与流程

本公开的实施例涉及计算机,并且更具体地,涉及用于分布式数据处理的方法、电子设备和计算机程序产品。


背景技术:

1、转换器(transformer)模型是一种主要基于自注意力机制的深度神经网络模型,最初应用于自然语言处理(nlp,natural language processing)。并且由于transformer模型具有强大的表征能力,近年来transformer模型在计算机视觉领域也得到了极大的发展。

2、目前存在的序列处理模型(例如,bert、gpt)主要基于transformer模型。这些序列处理模型需要大的计算设备,例如,用于nlp的bert仅能在64g tpu中进行训练,这使得处理这些处理模型的成本较高。


技术实现思路

1、本公开的实施例提供了一种用于分布式数据处理的方案。

2、在本公开的第一方面,提供了一种用于分布式数据处理的方法。该方法包括:获得用于基于多头注意力机制的数据处理任务的输入,数据处理任务包括第一子任务和第二子任务,第一子任务与多头注意力机制中的第一注意力头相对应,第二子任务与多头注意力机制中的第二注意力头相对应;将输入传输到第一专用计算资源和第二专用计算资源,第一专用计算资源与第一子任务相对应,第二专用计算资源与第二子任务相对应;以及对输入执行第一子任务和第二子任务,以用于获得数据处理任务的输出。

3、在本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及存储有计算机可执行指令的至少一个存储器,至少一个存储器和计算机可执行指令被配置为与至少一个处理器一起使得电子设备执行操作。该操作包括:获得用于基于多头注意力机制的数据处理任务的输入,数据处理任务包括第一子任务和第二子任务,第一子任务与多头注意力机制中的第一注意力头相对应,第二子任务与多头注意力机制中的第二注意力头相对应;将输入传输到第一专用计算资源和第二专用计算资源,第一专用计算资源与第一子任务相对应,第二专用计算资源与第二子任务相对应;以及对输入执行第一子任务和第二子任务,以用于获得数据处理任务的输出。

4、在本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括计算机可执行指令,计算机可执行指令在被执行时使设备:获得用于基于多头注意力机制的数据处理任务的输入,数据处理任务包括第一子任务和第二子任务,第一子任务与多头注意力机制中的第一注意力头相对应,第二子任务与多头注意力机制中的第二注意力头相对应;将输入传输到第一专用计算资源和第二专用计算资源,第一专用计算资源与第一子任务相对应,第二专用计算资源与第二子任务相对应;以及对输入执行第一子任务和第二子任务,以用于获得数据处理任务的输出。

5、提供
技术实现要素:
部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。



技术特征:

1.一种用于分布式数据处理的方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中所述调整在所述第一专用计算资源和所述第二专用计算资源中执行。

4.根据权利要求3所述的方法,还包括:

5.根据权利要求4所述的方法,其中所述数据处理任务还包括第第三子任务,所述第三子任务与所述多头注意力机制中的第三注意力头相对应,所述第三子任务和对所述第三子任务的输出的调整在第三专用计算资源中执行,所述方法还包括:

6.根据权利要求4所述的方法,其中所述数据处理任务还包括第第三子任务,所述第三子任务与所述多头注意力机制中的第三注意力头相对应,所述第三子任务和对所述第三子任务的输出的调整在第三专用计算资源中执行,所述方法还包括:

7.根据权利要求3所述的方法,其中所述数据处理任务还包括第第三子任务和第第四子任务,所述第三子任务与所述多头注意力机制中的第三注意力头相对应,所述第三子任务和对所述第三子任务的输出的调整在第三专用计算资源中执行,所述第四子任务与所述多头注意力机制中的第四注意力头相对应,所述第四子任务和对所述第四子任务的输出的调整在第四专用计算资源中执行,所述方法还包括:

8.根据权利要求1所述的方法,其中每个专用计算资源的类型根据在该专用计算资源上执行的子任务来确定。

9.根据权利要求1所述的方法,其中所述第一子任务包括多个第一子任务,所述第二子任务包括多个第二子任务,并且所述多个第一子任务中的第一子任务的数目等于所述多个第二子任务中的第二子任务的数目。

10.一种电子设备,包括:

11.根据权利要求10所述的设备,所述操作还包括:

12.根据权利要求11所述的设备,其中所述调整在所述第一专用计算资源和所述第二专用计算资源中执行。

13.根据权利要求12所述的设备,所述操作还包括:

14.根据权利要求13所述的设备,其中所述数据处理任务还包括第第三子任务,所述第三子任务与所述多头注意力机制中的第三注意力头相对应,所述第三子任务和对所述第三子任务的输出的调整在第三专用计算资源中执行,所述操作还包括:

15.根据权利要求13所述的设备,其中所述数据处理任务还包括第第三子任务,所述第三子任务与所述多头注意力机制中的第三注意力头相对应,所述第三子任务和对所述第三子任务的输出的调整在第三专用计算资源中执行,所述操作还包括:

16.根据权利要求12所述的设备,其中所述数据处理任务还包括第第三子任务和第第四子任务,所述第三子任务与所述多头注意力机制中的第三注意力头相对应,所述第三子任务和对所述第三子任务的输出的调整在第三专用计算资源中执行,所述第四子任务与所述多头注意力机制中的第四注意力头相对应,所述第四子任务和对所述第四子任务的输出的调整在第四专用计算资源中执行,所述操作还包括:

17.根据权利要求10所述的设备,其中所述专用计算资源的类型根据在该专用计算资源上执行的子任务来确定。

18.根据权利要求10所述的设备,其中所述第一子任务包括多个第一子任务,所述第二子任务包括多个第二子任务,并且所述多个第一子任务中的第一子任务的数目等于所述多个第二子任务中的第二子任务的数目。

19.一种计算机程序产品,所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至9任一项所述的方法的步骤。


技术总结
本公开的实施例提供了用于分布式数据处理的方法、电子设备和计算机程序产品。该方法将基于多头注意力机制的数据处理任务中的各个基于单头注意力机制的子任务分布到不同的专用计算资源上以用于执行操作。这样可以降低对大专用计算资源的成本要求,并且这样的分布式数据处理简单易于实现。

技术研发人员:刘金鹏,王子嘉,贾真,倪嘉呈
受保护的技术使用者:戴尔产品有限公司
技术研发日:
技术公布日:2024/2/1
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1