图像分类方法及装置与流程

文档序号：31701489发布日期：2022-10-01 08:28阅读：来源：国知局

技术特征：
1.一图像分类方法，其特征在于，包括：获取待分类图像，对所述待分类图像进行预处理得到嵌入输入向量序列；将所述嵌入输入向量序列输入至视觉transformer模型的编码器，输出所述待分类图像对应的编码向量序列，其中，所述编码器包括l个transformer编码块，每个编码块包括残差多头自注意力层，第m个编码块的残差多头自注意力层对应的自注意力层输出图与第m-1个编码块的残差多头自注意力层对应的自注意力图之间以残差方式连接，l为正整数，m大于等于2，小于等于l；基于所述编码向量序列确定所述待分类图像对应的特征向量，将所述特征向量输入至视觉transformer模型的分类器，得到所述待分类图像的分类结果。2.根据权利要求1所述的图像分类方法，其特征在于，所述编码块还包括第一归一化层、第二归一化层及前馈层；所述将所述嵌入输入向量序列输入所述编码器，输出所述待分类图像对应的编码向量序列，包括：将所述嵌入输入向量序列输入所述第一归一化层进行归一化处理，生成处理后的嵌入输入向量序列；将所述处理后的嵌入输入向量序列输入所述残差多头自注意力层，生成第一向量序列；将所述第一向量序列输入所述第二归一化层和所述前馈层，生成第二向量序列；将所述第二向量序列输入至所述第一归一化层进行l次循环迭代，得到所述前馈层输出的所述待分类图像对应的编码向量序列。3.根据权利要求2所述的图像分类方法，其特征在于，所述残差多头自注意力层包括第一线性层、加权残差缩放点积注意力层、第二线性层，其中，所述加权残差缩放点积注意力层包括h个自注意力头，第m个加权残差缩放点积注意力层的自注意力层输出图与第m-1个加权残差缩放点积注意力层的自注意力图之间以残差方式连接，h为正整数；所述将所述处理后的嵌入输入向量序列输入所述残差多头自注意力层，生成第一向量序列，包括：将所述处理后的嵌入输入向量序列输入所述第一线性层，生成所述待分类图像对应的索引向量序列、键向量序列、值向量序列；将所述索引向量序列、所述键向量序列、所述值向量序列输入所述加权残差缩放点积注意力层，生成h个自注意力头对应的自注意力结果；将h个注意力头对应的自注意力结果进行拼接，并将拼接结果输入所述第二线性层，生成所述第一向量序列。4.根据权利要求3所述的图像分类方法，其特征在于，将所述索引向量序列、所述键向量序列、所述值向量序列输入所述加权残差缩放点积注意力层，生成h个自注意力头对应的自注意力结果，包括：针对每一个自注意力头，基于所述索引向量序列以及所述键向量序列生成第m层自注意力层输出图；基于第m-1层自注意力图及第m层自注意力层输出图，生成目标自注意力图；基于所述目标自注意力图及所述值向量序列，生成每一个自注意力头对应的自注意力结果。
5.根据权利要求1所述的图像分类方法，其特征在于，所述对所述待分类图像进行预处理得到嵌入输入向量序列，包括：将所述待分类图像拆分为多个图像块，并基于所述图像块生成图像块嵌入向量序列；针对所述图像块嵌入向量序列分别添加一个类别嵌入向量和位置嵌入向量，生成所述嵌入输入向量序列。6.根据权利要求5所述的图像分类方法，其特征在于，所述基于所述编码向量序列确定所述待分类图像对应的特征向量，包括：将所述类别嵌入向量确定为所述待分类图像对应的特征向量。7.根据权利要求1所述的图像分类方法，其特征在于，所述分类器是利用交叉熵损失函数进行训练得到的。8.一种图像分类装置，其特征在于，包括：预处理模块，用于获取待分类图像，对所述待分类图像进行预处理得到嵌入输入向量序列；编码模块，用于将所述嵌入输入向量序列输入至视觉transformer模型的编码器，输出所述待分类图像对应的编码向量序列，其中，所述编码器包括l个transformer编码块，每个编码块包括残差多头自注意力层，第m个编码块的残差多头自注意力层对应的自注意力层输出图与第m-1个编码块的残差多头自注意力层对应的自注意力图之间以残差方式连接，l为正整数，m大于等于2，小于等于l；分类模块，用于基于所述编码向量序列确定所述待分类图像对应的特征向量，将所述特征向量输入至视觉transformer模型的分类器，得到所述待分类图像的分类结果。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像分类方法。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像分类方法。11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像分类方法。

技术总结
本发明提供一种图像分类方法及装置，其中图像分类方法包括：获取待分类图像，对待分类图像进行预处理得到嵌入输入向量序列；将嵌入输入向量序列输入至视觉Transformer模型的编码器，输出待分类图像对应的编码向量序列，编码器包括L个Transformer编码块，每个编码块包括残差多头自注意力层，第M个编码块的残差多头自注意力层对应的自注意力层输出图与第M-1个编码块的残差多头自注意力层对应的自注意力图之间以残差方式连接；基于编码向量序列确定待分类图像对应的特征向量，将特征向量输入至视觉Transformer模型的分类器，得到待分类图像的分类结果。通过上述图像分类方法，能够提高图像分类的准确率。提高图像分类的准确率。提高图像分类的准确率。

技术研发人员：祖宝开李建强王宏远李亚芳白建川
受保护的技术使用者：中国电子科技集团公司第十五研究所
技术研发日：2022.06.15
技术公布日：2022/9/30

完整全部详细技术资料下载

当前第2页1 2