一种并行化策略优化方法、系统、设备及介质与流程

文档序号:36794247发布日期:2024-01-23 12:15阅读:17来源:国知局
一种并行化策略优化方法、系统、设备及介质与流程

本发明属于深度学习,具体涉及一种并行化策略优化方法、系统、设备及介质。


背景技术:

1、大语言模型是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。

2、随着大语言模型在各个领域变得越来越重要,大语言模型推理的性能对大规模大语言模型应用至关重要。已有很多工作对大语言模型推理进行了优化;如图2所示,由transformer组成的大语言模型可以分为prefill和decode两个阶段,两阶段的主要区别在于输入矩阵q的大小不同,所执行的数据流是相似的,均是多个transformer层组成,其中每一层可以分为线性运算和注意力机制运算,其中注意力机制的运算包括了两次通用矩阵乘法和一次softmax运算。

3、在大语言模型推理过程中,为了提高计算的并行度并减少数据的读取和写回的开销,已有工作flashattention在计算注意力机制的过程中改变了原有的整体计算方式如图3(a)所示,选择了将注意力矩阵进行切分,然后对每一部分进行部分softmax计算如图3(b)所示,所以计算过程中需要完成当前信息和过去信息的同步,并且完成对已有结果的更新操作。

4、目前在大语言模型推理计算流中,注意力机制计算流水线存在的问题为:目前常见的注意力机制计算流水线是采用的部分softmax运算,其是利用部分矩阵数据进行计算结果,而因为每一部分所获取的数据不同,所以需要对每一部分的计算结果之间进行信息同步和结果更新,这种部分softmax同步更新计算会导致近20%的额外开销。

5、因此,预期一种能够提高大语言模型的并行化策略运算效率的并行化策略优化方法。


技术实现思路

1、针对现有技术中存在的问题,本发明提供一种并行化策略优化方法、系统、设备及介质,至少部分解决现有技术中存在的问题。

2、在第一方面,本公开实施例提供了一种并行化策略优化方法,包括以下步骤:

3、将并行化策略中的softmax函数中缩放因子替换为最大预设固定值,得到优化softmax函数;

4、将优化softmax函数并列进行指数运算处理与序列和运算处理,其中指数运算处理完成后进行矩阵乘法运算处理,并利用序列和运算处理结果对矩阵乘法运算处理结果修正,完成并行化策略优化。

5、根据本公开实施例的一种具体实现方式,所述并行化策略中的softmax函数为:

6、

7、其中,x为输入数据;为缩放因子,所述缩放因子为最大预设固定值;r为实数;i为输入数据的数量;xi为第i个输入数据;e为纳皮尔常数;xd为第d个输入数据。

8、根据本公开实施例的一种具体实现方式,得到所述最大预设固定值的过程为:

9、多次执行模型推理记录预处理阶段得到softmax函数的输入数据;

10、分析输入数据的统计分布情况,得到最大预设固定值,所述最大预设固定值满足:

11、该模型统计的大部分的输入数据均不满足:输入数据xi>>最大预设固定值或输入数据xi<<最大预设固定值的情况。

12、根据本公开实施例的一种具体实现方式,所述该模型统计的大部分的输入数据为99.99%的输入数据。

13、根据本公开实施例的一种具体实现方式,所述最大预设固定值的取值范围为:

14、

15、根据本公开实施例的一种具体实现方式,所述利用序列和运算处理结果对矩阵乘法运算处理结果修正后,进行优化softmax函数结果和特征矩阵的内循环运算处理。

16、根据本公开实施例的一种具体实现方式,所述内循环运算处理为对特征矩阵中的每一个样本的特征向量进行优化softmax函数运算处理,得到该样本的概率分布。

17、根据本公开实施例的一种具体实现方式,所述内循环运算处理过程中,优化softmax函数和特征矩阵的输入数据均单独进行异步处理。

18、根据本公开实施例的一种具体实现方式,所述内循环运算处理过程中存在外层累加,且所述外层累加在所有部分向量处理完毕后,进行外部累加处理。

19、根据本公开实施例的一种具体实现方式,所述特征矩阵为v矩阵,所述内循环运算处理的过程为:

20、

21、其中,x为输入数据;为缩放因子,所述缩放因子为最大预设固定值;r为实数;为输入数据x(j)向量的数据第i个维度;xi为输入向量第i个维度;e为纳皮尔常数;xd为输入向量第d个维度;p为输入数据x(j)向量的个数;j为输入数据的第j个向量;d/p为x(j)向量的维度数量;为v矩阵中第j个列向量的第i个维度;为输入数据经过缩放和指数运算的结果。

22、根据本公开实施例的一种具体实现方式,在所述内循环运算处理的过程中,在不失一般性的前提下,假定每个xi的若或时,则终止对xi所属的向量x的异步部分softmax计算,然后使用同步softmax方法重新计算优化softmax函数的值。

23、第二方面,本公开实施例提供了一种并行化策略优化系统,所述系统包括:

24、预处理单元,被配置为

25、将并行化策略中的softmax函数中缩放因子替换为最大预设固定值,得到优化softmax函数;

26、输出单元,被配置为

27、将优化softmax函数并列进行指数运算处理与序列和运算处理,其中指数运算处理完成后进行矩阵乘法运算处理,并利用序列和运算处理结果对矩阵乘法运算处理结果修正,完成并行化策略优化。

28、本公开实施例还提供了一种电子设备,该电子设备包括:

29、至少一个处理器;以及,

30、与所述至少一个处理器通信连接的存储器;其中,

31、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行前述第一方面或第一方面的任一实现方式中的用于并行化策略优化方法。

32、第四方面,本公开实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令当由至少一个处理器执行时使所述至少一个处理器执行前述第一方面或第一方面的任一实现方式中的用于并行化策略优化方法。

33、第五方面,本公开实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行前述第一方面或第一方面的任一实现方式中的用于并行化策略优化方法。

34、本发明实施例的其他可选特征和技术效果一部分在下文描述,一部分可通过阅读本文而明白。

35、与现有技术相比,本发明具有以下有益的技术效果:

36、本发明提供一种并行化策略优化方法、系统、设备及介质,包括以下步骤:将并行化策略中的softmax函数中缩放因子替换为最大预设固定值,得到优化softmax函数;将优化softmax函数并列进行指数运算处理与序列和运算处理,其中指数运算处理完成后进行矩阵乘法运算处理,并利用序列和运算处理结果对矩阵乘法运算处理结果修正,完成并行化策略优化;本技术能够提高大语言模型的并行化策略运算效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1