多模态场景识别方法、装置、计算机设备和存储介质与流程

文档序号:35152873发布日期:2023-08-18 07:28阅读:50来源:国知局
多模态场景识别方法、装置、计算机设备和存储介质与流程

本技术涉及深度学习,特别是涉及一种多模态场景识别方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

1、随着计算机和互联网技术的发展,场景识别的应用越来越广泛,例如,可以对拍摄到的图像或视频进行场景识别,场景识别可以用于为图像或视频添加与场景匹配的文本。

2、传统技术中,可以利用多模态表示模型进行场景识别,多模态表示模型是指机器从图像、文本、视频、语音等多个领域数据提取信息,实现信息的转换和融合,进而提升模型的性能的一种技术。由于通常多模态表示模型的结构复杂,从而可以通过知识蒸馏降低模型的复杂度。

3、然而,多模态表示模型的蒸馏方案,主要是利用教师网络去训练学生网络、多个学生网络之间互蒸馏、单个学生网络的自蒸馏等,采用传统的蒸馏方案得到的模型在准确度上有待提升。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高识别准确度的多模态场景识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本技术提供了一种多模态场景识别方法。所述方法包括:确定预训练的第一多模态场景识别模型;所述预训练的第一多模态场景识别模型包括第一图像编码网络、第一文本编码网络,所述预训练的第一多模态场景识别模型,是基于已训练的第二多模态场景识别模型训练得到的,所述第二多模态场景识别模型包括第二图像编码网络、第二文本编码网络,所述第一图像编码网络的网络复杂程度小于所述第二图像编码网络的网络复杂程度;将样本图像输入到所述第一图像编码网络中进行编码处理,将编码处理的结果输入到预训练的第一辅助分支中进行图像识别,得到第一图像识别结果;将样本图像输入到所述第二图像编码网络中进行编码处理,将编码处理的结果输入到已训练的第二辅助分支中进行图像识别,得到第二图像识别结果;基于所述第一图像识别结果与所述第二图像识别结果之间的差异,调整所述第一图像编码网络,得到已训练的第一多模态场景识别模型;基于所述已训练的第一多模态场景识别模型进行场景识别。

3、第二方面,本技术还提供了一种多模态场景识别装置。所述装置包括:模型确定模块,用于确定预训练的第一多模态场景识别模型;所述预训练的第一多模态场景识别模型包括第一图像编码网络、第一文本编码网络,所述预训练的第一多模态场景识别模型,是基于已训练的第二多模态场景识别模型训练得到的,所述第二多模态场景识别模型包括第二图像编码网络、第二文本编码网络,所述第一图像编码网络的网络复杂程度小于所述第二图像编码网络的网络复杂程度;第一图像识别模块,用于将样本图像输入到所述第一图像编码网络中进行编码处理,将编码处理的结果输入到预训练的第一辅助分支中进行图像识别,得到第一图像识别结果;第二图像识别模块,用于将样本图像输入到所述第二图像编码网络中进行编码处理,将编码处理的结果输入到已训练的第二辅助分支中进行图像识别,得到第二图像识别结果;模型调整模块,用于基于所述第一图像识别结果与所述第二图像识别结果之间的差异,调整所述第一图像编码网络,得到已训练的第一多模态场景识别模型;场景识别模块,用于基于所述已训练的第一多模态场景识别模型进行场景识别。

4、在一些实施例中,所述模型调整模块还用于:基于所述第一图像识别结果与所述第二图像识别结果之间的差异,得到第一损失值;将样本图像输入到所述预训练的第一多模态场景识别模型中的第一图像编码网络中进行编码处理,得到第一编码特征;将所述样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,得到第二编码特征;基于所述第一编码特征与所述第二编码特征之间的特征差异值,得到第二损失值;基于所述第一损失值和所述第二损失值,调整所述预训练的第一多模态场景识别模型中的第一图像编码网络,得到所述已训练的第一多模态场景识别模型。

5、在一些实施例中,所述多模态场景识别装置还包括第一训练模块,所述第一训练模块用于:将样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,将编码处理的结果输入到待训练的第二辅助分支中进行图像识别,得到样本图像的第三图像识别结果;基于所述第三图像识别结果和样本图像的标准图像识别结果之间的差异,调整所述待训练的第二辅助分支,得到所述已训练的第二辅助分支。

6、在一些实施例中,所述第一训练模块还用于:基于所述第三图像识别结果和所述标准图像识别结果之间的差异,调整所述待训练的第二辅助分支,得到初步训练的第二辅助分支;将样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,将编码处理的结果输入到待训练的第二辅助分支中进行图像识别,得到样本图像的第四图像识别结果;基于所述第四图像识别结果和样本图像的标准图像识别结果之间的差异,调整所述初步训练的第二辅助分支,得到所述已训练的第二辅助分支。

7、在一些实施例中,所述多模态场景识别装置还包括第二训练模型,所述第二训练模块用于:将样本图像和样本文本输入到所述已训练的第二多模态场景识别模型中进行相似度计算,生成第一相似度;所述第一相似度,表征样本图像和样本文本之间的相似度;将样本图像和样本文本输入到待训练的第一多模态场景识别模型中进行相似度计算,生成第二相似度;基于所述第一相似度和所述第二相似度之间的差值,调整所述待训练的第一多模态场景识别模型的参数,得到预训练的第一多模态场景识别模型。

8、在一些实施例中,所述场景识别模块还用于:将目标场景图像输入所述已训练的第一多模态场景识别模型的第一图像编码网络中,得到目标图像特征;将候选场景文本输入所述已训练的第一多模态场景识别模型的第一文本编码网络中,得到候选文本特征;在所述目标图像特征与所述候选文本特征之间的相似度大于相似度阈值的情况下,将所述候选场景文本确定为与所述目标场景图像匹配的目标场景文本。

9、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述多模态场景识别方法中的步骤。

10、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述多模态场景识别方法中的步骤。

11、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述多模态场景识别方法中的步骤。

12、上述多模态场景识别方法、装置、计算机设备、存储介质和计算机程序产品,第一多模态场景识别模型包括第一图像编码网络,第二多模态场景识别模型包括第二图像编码网络,且第一图像编码网络的网络复杂程度小于第二图像编码网络的网络复杂程度,已训练的第二多模态场景识别模型经过大量数据的训练,能够计算不同模态的数据之间的相似度实现场景识别并具有较高的识别精度,通过基于第一图像识别结果与第二图像识别结果之间的差异,调整第一图像编码网络,强化了第一图像编码网络的图像表达能力,使得已训练的第一相似度模型具有更高的识别精度,即提高了第一相似度识别模型的识别的准确度,从而提高了场景识别的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1