模型运算方法、装置、电子设备和存储介质与流程

文档序号:37506725发布日期:2024-04-01 14:14阅读:13来源:国知局
模型运算方法、装置、电子设备和存储介质与流程

本发明涉及模型运算,尤其涉及一种模型运算方法、装置、电子设备和存储介质。


背景技术:

1、大语言模型参数量较大,而且随着模型规模增大所对应的存储开销也相应增大,从而难以在单卡支持大语言模型。为了尽可能支持大模型,相关技术通常会采用各类量化技术对权重矩阵进行压缩,将高比特的权重矩阵压缩到低比特权重矩阵,从而节省内存存储开销。

2、相关技术中的量化方式包括按行量化或按块量化,但采用上述量化方式进行量化后,在进行矩阵乘运算前需要先将低比特的权重矩阵反量化到压缩前的高比特权重矩阵,然后再进行矩阵乘运算,也就是增加了一次低比特权重矩阵的加载以及反量化时间,对模型的推理速度并无增益效果。


技术实现思路

1、本发明提供一种模型运算方法、装置、电子设备和存储介质,用以解决现有技术中对权重矩阵按行量化或按块量化对模型的推理速度并无增益效果的缺陷。

2、本发明提供一种模型运算方法,包括:

3、确定第一矩阵以及第二矩阵;

4、对所述第二矩阵进行反量化,并将反量化后的结果存储至缓存单元;

5、从所述缓存单元读取所述反量化后的结果,并基于所述第一矩阵和所述反量化后的结果进行模型运算。

6、根据本发明提供的一种模型运算方法,所述对所述第二矩阵进行反量化,并将反量化后的结果存储至缓存单元,包括:

7、对所述第二矩阵进行切块,得到多个切块矩阵,并将待与所述第一矩阵进行运算的切块矩阵作为当前切块矩阵;

8、对所述当前切块矩阵进行反量化,并将反量化后的当前切块矩阵存储至所述缓存单元。

9、根据本发明提供的一种模型运算方法,所述从所述缓存单元读取所述反量化后的结果,并基于所述第一矩阵和所述反量化后的结果进行模型运算,包括:

10、从所述缓存单元读取反量化后的上一切块矩阵,并基于所述第一矩阵和所述反量化后的上一切块矩阵进行模型运算,得到当前运算结果。

11、根据本发明提供的一种模型运算方法,所述得到当前运算结果,之后还包括:

12、采用所述反量化后的当前切块矩阵覆盖所述缓存单元中的所述反量化后的上一切块矩阵。

13、根据本发明提供的一种模型运算方法,所述得到当前运算结果,之后还包括:

14、将所述当前运算结果存储至所述缓存单元。

15、根据本发明提供的一种模型运算方法,所述多个切块矩阵是对所述第二矩阵进行竖切得到的;

16、所述方法还包括:

17、对第三矩阵进行横切,得到多个横切矩阵,并将待运算的横切矩阵作为当前横切矩阵;

18、对所述当前横切矩阵进行反量化,并将反量化后的当前横切矩阵存储至所述缓存单元;

19、从所述缓存单元读取所述当前运算结果以及所述当前横切矩阵,并基于所述当前运算结果以及所述当前横切矩阵进行模型运算。

20、根据本发明提供的一种模型运算方法,所述基于所述当前运算结果以及所述当前横切矩阵进行模型运算,之后还包括:

21、删除所述缓存单元中的所述当前运算结果以及所述当前横切矩阵。

22、本发明还提供一种模型运算装置,包括:

23、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述模型运算方法。

24、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述模型运算方法。

25、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述模型运算方法。

26、本发明提供的模型运算方法、装置、电子设备和存储介质,由于对第二矩阵进行反量化后的结果存储于缓存单元,从而能够直接从缓存单元读取反量化结果,避免从内存读取的延迟,加快了读取速度,进而加快了模型推理运算速度。此外,本发明在存在矩阵连乘的情况下,如前馈神经网络(feed-forward network,ffn)计算,可以对第二矩阵进行竖切,得到多个切块矩阵,以及对第三矩阵进行横切,得到多个横切矩阵,并将第一矩阵与反量化后的当前切块矩阵对应的当前运算结果存储至缓存单元,以基于当前运算结果以及当前横切矩阵进行模型计算,实现加速矩阵乘计算。



技术特征:

1.一种模型运算方法,其特征在于,包括:

2.根据权利要求1所述的模型运算方法,其特征在于,所述对所述第二矩阵进行反量化,并将反量化后的结果存储至缓存单元,包括:

3.根据权利要求2所述的模型运算方法,其特征在于,所述从所述缓存单元读取所述反量化后的结果,并基于所述第一矩阵和所述反量化后的结果进行模型运算,包括:

4.根据权利要求3所述的模型运算方法,其特征在于,所述得到当前运算结果,之后还包括:

5.根据权利要求4所述的模型运算方法,其特征在于,所述得到当前运算结果,之后还包括:

6.根据权利要求5所述的模型运算方法,其特征在于,所述多个切块矩阵是对所述第二矩阵进行竖切得到的;

7.根据权利要求6所述的模型运算方法,其特征在于,所述基于所述当前运算结果以及所述当前横切矩阵进行模型运算,之后还包括:

8.一种模型运算装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述模型运算方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述模型运算方法。


技术总结
本发明提供一种模型运算方法、装置、电子设备和存储介质,所述方法包括:确定第一矩阵以及第二矩阵;对第二矩阵进行反量化,并将反量化后的结果存储至缓存单元;从缓存单元读取反量化后的结果,并基于第一矩阵和反量化后的结果进行模型运算。本发明提供的模型运算方法、装置、电子设备和存储介质,由于对第二矩阵进行反量化后的结果存储于缓存单元,从而能够直接从缓存单元读取反量化结果,避免从内存读取的延迟,加快了读取速度,进而加快了模型推理运算速度。

技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名
受保护的技术使用者:上海壁仞科技股份有限公司
技术研发日:
技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1