模型推理方法、装置、设备、介质和程序产品与流程

文档序号:39283944发布日期:2024-09-06 00:58阅读:39来源:国知局

本发明涉及人工智能,尤其涉及一种模型推理方法、装置、设备、介质和程序产品。


背景技术:

1、随着大型语言模型的发展,如基于transformer架构的模型,在处理文本生成和理解任务方面取得了显著的成就。然而,这些模型在涉及新颖或未曾训练过的领域时,多是直接将背景知识作为提示输入以进行模型推理,但该方法推理开销较大。此外,也有采用检索增强方式进行推理,但该方法需要额外构建知识库,并使用检索算法来获取相关信息,大大增加推理时长。


技术实现思路

1、本发明提供一种模型推理方法、装置、设备、介质和程序产品,用以解决现有技术中存在的缺陷。

2、本发明提供一种模型推理方法,包括:

3、获取当前场景下的当前输入;

4、基于推理模型,从缓存加载所述当前输入对应的历史键值矩阵以及所述当前输入对应的目标键值矩阵进行推理,得到所述当前输入对应的当前推理结果;

5、其中,所述目标键值矩阵是从所述推理模型对目标场景下的基础任务进行推理生成的基础键值矩阵中选取的,所述目标场景包含所述当前场景。

6、根据本发明提供的一种模型推理方法,所述目标键值矩阵基于如下步骤确定:

7、对所述当前输入对应的查询向量以及所述当前输入对应的路由权重进行路由计算,确定路由结果;

8、基于所述路由结果,从所述基础键值矩阵中确定所述目标键值矩阵。

9、根据本发明提供的一种模型推理方法,所述对所述当前输入对应的查询向量以及所述当前输入对应的路由权重进行路由计算,确定路由结果,包括:

10、对所述基础键值矩阵进行分块,并基于所述基础键值矩阵的分块数确定所述路由权重;

11、对所述查询向量以及所述路由权重进行矩阵乘运算,得到所述路由结果。

12、根据本发明提供的一种模型推理方法,所述路由结果为长度与所述基础键值矩阵的分块数相同的向量;

13、基于所述路由结果,从所述基础键值矩阵中确定所述目标键值矩阵,包括:

14、基于所述路由结果中各向量元素的大小,从各分块基础键值矩阵中确定所述目标键值矩阵。

15、根据本发明提供的一种模型推理方法,所述推理模型基于如下步骤训练得到:

16、将所述基础键值矩阵存储至预训练模型的缓存中;

17、冻结所述预训练模型的主体权重,更新所述预训练模型的路由权重,得到推理模型。

18、根据本发明提供的一种模型推理方法,还包括:

19、在存在新的目标场景的情况下,更新所述缓存中的基础键值矩阵以及对所述推理模型的路由权重进行重训练。

20、本发明还提供一种模型推理装置,包括:

21、确定单元,用于获取当前场景下的当前输入;

22、推理单元,用于基于推理模型,从缓存加载所述当前输入对应的历史键值矩阵以及所述当前输入对应的目标键值矩阵进行推理,得到所述当前输入对应的当前推理结果;

23、其中,所述目标键值矩阵是从所述推理模型对目标场景下的基础任务进行推理生成的基础键值矩阵中选取的,所述目标场景包含所述当前场景。

24、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述模型推理方法。

25、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述模型推理方法。

26、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述模型推理方法。

27、本发明提供的模型推理方法、装置、设备、介质和程序产品,目标键值矩阵是从基础键值矩阵中选取的,即目标键值矩阵是与当前场景相关性较大的键值矩阵,从而推理模型在推理时增加了部分少量基础键值矩阵的加载和计算,即采用较小的额外推理代价实现对未接触过的领域任务(即当前输入)进行准确且快速推理,不仅能够避免将背景知识作为提示输入造成推理开销较大的问题,而且能够避免构建知识库进行检索导致推理时长增加的问题。



技术特征:

1.一种模型推理方法,其特征在于,包括:

2.根据权利要求1所述的模型推理方法,其特征在于,所述目标键值矩阵基于如下步骤确定:

3.根据权利要求2所述的模型推理方法,其特征在于,所述对所述当前输入对应的查询向量以及所述当前输入对应的路由权重进行路由计算,确定路由结果,包括:

4.根据权利要求3所述的模型推理方法,其特征在于,所述路由结果为长度与所述基础键值矩阵的分块数相同的向量;

5.根据权利要求1至4任一项所述的模型推理方法,其特征在于,所述推理模型基于如下步骤训练得到:

6.根据权利要求5所述的模型推理方法,其特征在于,还包括:

7.一种模型推理装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述模型推理方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述模型推理方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述模型推理方法。


技术总结
本发明提供一种模型推理方法、装置、设备、介质和程序产品,所述方法包括:获取当前场景下的当前输入;基于推理模型,从缓存加载当前输入对应的历史键值矩阵以及当前输入对应的目标键值矩阵进行推理,得到当前输入对应的当前推理结果;其中,目标键值矩阵是从推理模型对目标场景下的基础任务进行批次推理生成的基础键值矩阵中选取的,目标场景包含当前场景。本发明提供的模型推理方法、装置、设备、介质和程序产品,采用较小的额外推理代价实现对未接触过的领域任务进行准确且快速推理。

技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名
受保护的技术使用者:上海壁仞科技股份有限公司
技术研发日:
技术公布日:2024/9/5
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1