张量处理方法、装置、电子设备及存储介质与流程

文档序号:36715121发布日期:2024-01-16 12:13阅读:14来源:国知局
张量处理方法、装置、电子设备及存储介质与流程

本申请属于计算机,具体涉及一种张量处理方法、装置、电子设备及存储介质。


背景技术:

1、对于语言模型特别是大语言模型(large language model,llm)的推理部署,一种常用的方法是把模型权重用分组量化的方式从浮点类型量化到4比特整数。由于量化后的权重张量需要与激活张量进行矩阵乘计算,而传统的矩阵乘只支持相同的数据类型的输入,因此需要将量化后的权重张量采用独立的反量化算子进行反量化后再与激活张量进行矩阵乘计算,这使得计算所需要的内存占用显著增加。


技术实现思路

1、鉴于上述问题,本申请提出了一种张量处理方法、装置、电子设备以及存储介质,以实现改善上述问题。

2、第一方面,本申请实施例提供了一种张量处理方法,所述方法包括:获取神经网络的一层输出的激活张量和第一权重张量,所述第一权重张量为定点数据类型的张量,所述激活张量为浮点数据类型的张量;在预设数据维度,按照目标切分尺寸对所述第一权重张量进行切分,得到多个第一张量;对所述多个第一张量进行重排,得到重排后的多个第一张量;基于所述重排后的多个第一张量,确定第二权重张量;对所述激活张量和所述第二权重张量执行矩阵乘计算,得到所述神经网络的一层的输出张量。

3、第二方面,本申请实施例提供了一种张量处理装置,所述装置包括:获取单元,用于获取神经网络的一层的激活张量和第一权重张量,所述第一权重张量为整数数据类型的张量,所述激活张量为浮点数据类型的张量;切分单元,用于在预设数据维度,按照目标切分尺寸对所述第一权重张量进行切分,得到多个第一张量;重排单元,用于对所述多个第一张量进行重排,得到重排后的多个第一张量;确定单元,用于基于所述重排后的多个第一张量,确定第二权重张量;计算单元,用于基于所述激活张量和所述第二权重张量执行矩阵乘计算,得到所述神经网络的一层的输出张量。

4、第三方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。

5、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。

6、本申请实施例提供了一种张量处理方法、装置、电子设备及存储介质。获取神经网络的一层输出的激活张量和第一权重张量,所述第一权重张量为定点数据类型的张量,所述激活张量为浮点数据类型的张量,然后在预设数据维度,按照目标切分尺寸对第一权重张量进行切分,得到多个第一张量,对多个第一张量进行重排,得到重排后的多个第一张量,再基于重排后的多个第一张量,确定第二权重张量,最后对激活张量和第二权重张量执行矩阵乘处理,得到神经网络的一层的输出张量。通过上述方法,直接通过浮点类型的激活张量和整数类型的权重张量进行张量处理,无需额外的反量化计算,可以降低推理时的内存占用大小,同时可以提升矩阵乘的性能。



技术特征:

1.一种张量处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取神经网络的一层输出的激活张量和第一权重张量,包括:

3.根据权利要求1所述的方法,其特征在于,所述在预设数据维度,按照目标切分尺寸对所述第一权重张量进行切分,得到多个第一张量之前还包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述多个第一张量进行重排,得到重排后的多个第一张量,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于预设数据排布方式,对所述多个第一张量进行重排,得到重排后的多个第一张量之前还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一维度、所述第一子维度和所述第二子维度,确定所述预设数据排布方式,包括:

7.根据权利要求1所述的方法,其特征在于,所述对所述激活张量和所述第二权重张量执行张量处理,得到所述神经网络的一层的输出张量之后还包括:

8.一种张量处理装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括一个或多个处理器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-7任一所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行权利要求1-7任一所述的方法。


技术总结
本申请实施例公开了一种张量处理方法、装置、电子设备及存储介质。所述方法包括:获取神经网络的一层输出的激活张量和第一权重张量,所述第一权重张量为定点数据类型的张量,所述激活张量为浮点数据类型的张量;在预设数据维度,按照目标切分尺寸对所述第一权重张量进行切分,得到多个第一张量;对所述多个第一张量进行重排,得到重排后的多个第一张量;基于所述重排后的多个第一张量,确定第二权重张量;对所述激活张量和所述第二权重张量执行矩阵乘计算,得到所述神经网络的一层的输出张量。直接通过浮点类型的激活张量和整数类型的权重张量进行张量处理,无需额外的反量化计算,可以降低推理时的内存占用大小,同时可以提升矩阵乘的性能。

技术研发人员:李路长,袁伦喜
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1