模型推理方法、装置、电子设备及存储介质

文档序号：36967295发布日期：2024-02-07 13:15阅读：11来源：国知局

本发明涉及人工智能，尤其涉及一种模型推理方法、装置、电子设备及存储介质。

背景技术：

1、随着物联网技术的飞速发展，如何将传统深度学习网络部署到物联网设备上成为一个热门研究课题；与此同时，多模态特征融合与任务推理也是近年来深度学习领域的研究热点之一。因此，如何设计更高效、更节能的多模态特征融合网络部署架构是一个较有研究价值的课题。

2、在现有技术中，多模态数据的采集工作往往通过边缘端物联网设备来完成，但是部署特定任务的专用边缘端设备价格昂贵，并且，由于采集多模态数据需要大量边缘设备进行不同数据模态的数据采集，这对边缘设备的能量消耗较大，对边缘网络的能量资源利用带来压力。

3、与此同时，传统多模态特征融合方法所使用模型的大小以及所需计算量往往较大，而任务推理方法也存在模型巨大、训练以及推理过程所需计算量极大、对设备计算能力要求过高的问题。

4、进一步地，即使部分现有算法降低了训练计算量，但又存在数据模态类型的限制，例如仅能实现图像-文字或语音-文字等双模态特征融合推理任务，从而导致推理准确度不高。

5、因此，如何解决现有模型推理方法由于计算量大、数据模态类型存在限制，导致推理速度慢且推理准确度不高的问题，是人工智能领域亟待解决的重要课题。

技术实现思路

1、本发明提供一种模型推理方法、装置、电子设备及存储介质，用以克服现有模型推理方法由于计算量大、数据模态类型存在限制，导致推理速度慢且推理准确度不高的缺陷，有效提升推理速度及推理准确度。

2、一方面，本发明提供一种模型推理方法，包括：根据待推理的目标任务，获取近传感端提取的多模态特征，所述多模态特征包括多个不同数据模态的单模态特征；根据所述多模态特征，生成多模态文本特征序列；将所述多模态文本特征序列输入至预先训练的大语言模型，得到所述目标任务的任务推理结果。

3、进一步地，所述根据待推理的目标任务，获取近传感端提取的多模态特征，包括：根据所述目标任务，采集目标场景中多个不同数据模态的单模态数据；分别对多个不同数据模态的单模态数据进行特征提取，得到多个不同数据模态的单模态特征。

4、进一步地，每一模态的单模态数据对应有预先训练的特征提取网络模型；相应地，所述分别对多个不同数据模态的单模态数据进行特征提取，包括：将每一模态的单模态数据分别输入至对应的特征提取网络模型，得到单模态的单模态特征；基于多个单模态的单模态特征，得到多个不同数据模态的单模态特征；其中，所述特征提取网络模型通过根据多模态数据及其对应的特征提取结果构成的训练样本数据集进行训练优化得到。

5、进一步地，所述特征提取网络模型包括但不限于卷积网络层和展平层，或者，所述特征提取网络模型包括但不限于卷积网络层、展平层以及多头注意力计算层。

6、进一步地，每一模态的单模态特征对应有预先训练的转换网络模型；相应地，所述根据所述多模态特征，生成多模态文本特征序列，包括：将每一数据模态的单模态特征分别输入至对应的转换网络模型，得到单模态文本特征序列；拼接多个单模态文本特征序列，得到所述多模态文本特征序列；其中，所述转换网络模型基于transformer模型构建得到。

7、进一步地，所述单模态数据包括图像数据、音频数据、视频数据以及文本数据中的任意一项。

8、第二方面，本发明还提供一种模型推理装置，包括：多模态特征获取模块，用于根据待推理的目标任务，获取近传感端提取的多模态特征，所述多模态特征包括多个不同数据模态的单模态特征；文本特征序列生成模块，用于根据所述多模态特征，生成多模态文本特征序列；目标任务推理模块，用于将所述多模态文本特征序列输入至预先训练的大语言模型，得到所述目标任务的任务推理结果。

9、第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的模型推理方法。

10、第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的模型推理方法。

11、第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的模型推理方法。

12、本发明提供的一种模型推理方法，通过根据待推理的目标任务，获取近传感端提取的多模态特征，多模态特征包括多个不同数据模态的单模态特征；根据所述多模态特征，生成多模态文本特征序列；将多模态文本特征序列输入至预先训练的大语言模型，得到目标任务的任务推理结果。该方法通过在近传感端完成多模态数据的采集工作和特征提取工作，不仅能够加速前端神经网络运算，减少设备能量消耗，还能降低延迟和通信损耗，减轻多模态数据采集带来的能量压力，分担高算力端的计算压力。在此基础上，通过将多模态特征转换为大语言模型能够处理的多模态文本特征序列，不仅没有数据模态的限制，实现了目标任务的推理，还有效提升了模型推理速度和推理准确度。

技术特征：

1.一种模型推理方法，其特征在于，包括：

2.根据权利要求1所述的模型推理方法，其特征在于，所述根据待推理的目标任务，获取近传感端提取的多模态特征，包括：

3.根据权利要求2所述的模型推理方法，其特征在于，每一模态的单模态数据对应有预先训练的特征提取网络模型；

4.根据权利要求3所述的模型推理方法，其特征在于，所述特征提取网络模型包括但不限于卷积网络层和展平层，或者，所述特征提取网络模型包括但不限于卷积网络层、展平层以及多头注意力计算层。

5.根据权利要求1所述的模型推理方法，其特征在于，每一模态的单模态特征对应有预先训练的转换网络模型；

6.根据权利要求2所述的模型推理方法，其特征在于，所述单模态数据包括图像数据、音频数据、视频数据以及文本数据中的任意一项。

7.一种模型推理装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项中所述的模型推理方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的模型推理方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的模型推理方法。

技术总结
本发明提供一种模型推理方法、装置、电子设备及存储介质，其中的方法包括：根据待推理的目标任务，获取近传感端提取的多模态特征；根据多模态特征，生成多模态文本特征序列；将多模态文本特征序列输入至预先训练的大语言模型，得到目标任务的任务推理结果。该方法通过在近传感端完成多模态数据的采集工作和特征提取工作，不仅能够加速前端神经网络运算，减少设备能量消耗，还能降低延迟和通信损耗，减轻多模态数据采集带来的能量压力，减轻高算力端的计算压力，通过将多模态特征转换为大语言模型能够处理的多模态文本特征序列，不仅没有数据模态的限制，实现了目标任务的推理，还有效提升了模型推理速度和推理准确度。

技术研发人员：乔飞,任二祥,曲成
受保护的技术使用者：清华大学
技术研发日：
技术公布日：2024/2/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔飞,任二祥,曲成
技术所有人：清华大学
我是此专利的发明人

上一篇：项目质量度量报表的生成方法、生成装置及项目管理系统与流程
上一篇：工艺腔室清洁方法及半导体工艺设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。