本技术涉及图像分类,具体而言,涉及一种基于跨模态语义增强的图像分类方法及装置。
背景技术:
1、图像分类旨在让计算机能够自动识别并分类图像中的对象或者场景。图像分类在很多实际应用中具有广泛的应用,如图像检索、自动驾驶、医学图像分析等。跨模态是指涉及多个不同的模态之间的关系和交互,模态通常指不同的数据类型或表示方式,如图像、文本、语音、视频等。
2、目前先进的图文跨模态分类方法采用固定的文本提示,将图像及其文本描述组合在一起,同时将特征空间中不匹配的排除在外。通过大规模的预训练,模型可以学习不同的视觉概念,并且可以很容易地通过提示转移到任何下游任务。
3、虽然这种方法通过图文跨模态的方法实现少样本甚至零样本的图像分类任务,但其中的文本描述并未与图像中的特征进行结合,导致整体分类效果仍旧不理想,因此如何更好地结合文本描述图像中的特征,提升整体分类效果成为本领域技术人员的研究方向之一。
技术实现思路
1、本技术的目的在于,为了克服现有的技术缺陷,提供了一种基于跨模态语义增强的图像分类方法及装置,通过类别概率完成对输入图像的分类,能够有效提升少样本或零样本的图像分类任务的分类准确率。
2、本技术目的通过下述技术方案来实现:
3、第一方面,本技术提出了一种基于跨模态语义增强的图像分类方法,所述方法包括:
4、对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征;
5、使用初始化的文本提示构建多任务跨模态源提示集;
6、根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
7、在一种可能的实施方式中,对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征的步骤,包括:
8、对输入图像进行数据重塑操作得到img图像;
9、利用基础卷积神经网络resnet-18对img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征,并利用基础卷积神经网络swin-b对img图像进行处理得到第五特征、第六特征、第七特征、第八特征;
10、将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征,第一生成特征为将第一特征输入设置的第一卷积层和第二卷积层所得到的;
11、将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征,第二生成特征为将第一融合特征输入第三卷积层所得到的;
12、将第四生成特征和第五生成特征进行特征融合得到第三融合特征,第四生成特征为将第八特征输入第三卷积层所得到的,第五生成特征为将第四特征输入第三卷积层所得到的;
13、将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征,第三生成特征为将第二融合特征输入第三卷积层所得到的;
14、将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征,第六生成特征为将第四融合特征输入第三卷积层所得到的;
15、将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征,第七生成特征为将第五融合特征输入第三卷积层所得到的;
16、将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征,第八生成特征为将第六融合特征输入第三卷积层所得到的;
17、对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征,第九生成特征为将第七融合特征输入第三卷积层所得到的。
18、在一种可能的实施方式中,使用初始化的文本提示构建多任务跨模态源提示集的步骤,包括:
19、利用文本编码器对初始化的文本提示进行编码得到文本编码特征;
20、利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征;
21、对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型;
22、提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。
23、在一种可能的实施方式中,根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类的步骤,包括:
24、通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示;
25、将第一训练提示与图像特征进行求和得到第二训练提示;
26、在第二训练提示中加入类别信息之后送入文本编码器进行编码,得到文本编码信息;
27、通过文本编码信息构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
28、在一种可能的实施方式中,第一训练提示ps的计算公式为:
29、
30、其中pi为多任务跨模态源提示集,softmax()为softmax函数,α为超参数,qtask为任务级查询,qins为实例级查询,kc为关键集合,ki为关键提示。
31、在一种可能的实施方式中,所述类别概率p(y=i|iinfer-f)的计算公式为:其中sim()为余弦相似性计算,iinfer-f为图像特征,τ为可学习参数,g表示预测样本的类别数,ti为文本编码信息。
32、第二方面,本技术提出了一种基于跨模态语义增强的图像分类装置,所述装置包括:
33、图像特征提取模块,用于对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征;
34、提示集构建模块,用于使用初始化的文本提示构建多任务跨模态源提示集;
35、分类模块,用于根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
36、在一种可能的实施方式中,所述图像特征提取模块具体用于:
37、对输入图像进行数据重塑操作得到img图像;
38、利用基础卷积神经网络resnet-18对img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征,并利用基础卷积神经网络swin-b对img图像进行处理得到第五特征、第六特征、第七特征、第八特征;
39、将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征,第一生成特征为将第一特征输入设置的第一卷积层和第二卷积层所得到的;
40、将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征,第二生成特征为将第一融合特征输入第三卷积层所得到的;
41、将第四生成特征和第五生成特征进行特征融合得到第三融合特征,第四生成特征为将第八特征输入第三卷积层所得到的,第五生成特征为将第四特征输入第三卷积层所得到的;
42、将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征,第三生成特征为将第二融合特征输入第三卷积层所得到的;
43、将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征,第六生成特征为将第四融合特征输入第三卷积层所得到的;
44、将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征,第七生成特征为将第五融合特征输入第三卷积层所得到的;
45、将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征,第八生成特征为将第六融合特征输入第三卷积层所得到的;
46、对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征,第九生成特征为将第七融合特征输入第三卷积层所得到的。
47、在一种可能的实施方式中,提示集构建模块,具体用于:
48、利用文本编码器对初始化的文本提示进行编码得到文本编码特征;
49、利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征;
50、对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型;
51、提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。
52、在一种可能的实施方式中,分类模块,具体用于:
53、通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示;
54、将第一训练提示与图像特征进行求和得到第二训练提示;
55、在第二训练提示中加入类别信息之后送入文本编码器进行编码,得到文本编码信息;
56、通过文本编码信息构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
57、上述本技术主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本技术可采用并要求保护的方案;且本技术,(各非冲突选择)选择之间以及和其他选择之间也可以自由组合。本领域技术人员在了解本技术方案后根据现有技术和公知常识可明了有多种组合,均为本技术所要保护的技术方案,在此不做穷举。
58、本技术公开了一种基于跨模态语义增强的图像分类方法及装置,首先对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征,其次使用初始化的文本提示构建多任务跨模态源提示集,最后根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类,能够有效提升少样本或零样本的图像分类任务的分类准确率,使得整体分类效果更加理想。