一种细粒度图像分类方法、设备、存储介质

文档序号：37520899发布日期：2024-04-01 14:36阅读：12来源：国知局

本技术涉及图像处理，具体涉及一种细粒度图像分类方法、设备、存储介质。

背景技术：

1、图像分类任务可分为跨物种语义级分类、细粒度图像分类和实例级图像分类。跨物种语义级图像分类是在类别层次上对图像进行分类，存在类间方差大、类内方差小的特点，常用于场景识别和对象识别等任务。跨物种语义级图像分类是在类别层次上对图像进行分类，存在类间方差大、类内方差小的特点，常用于场景识别和对象识别等任务。

2、细粒度图像分类要求准确区分同一物种的具体类别，而不仅是通用类别，例如汽车的型号、动植物的品种和作物的病害等等。同一子类别因形态不同存在很大差异，不同子类别因属于同一物种具有相似性。与传统的视觉分类任务相比，它需要捕捉更精准的细节化特征，以免混肴子类间的相似特性。由于分类的高专业性要求，它的数据集需要相关领域内的专家进行标注，加之图像采集中存在姿态、视角、光照、遮挡、背景干扰等影响，使得这一领域的研究充满挑战性。

3、基于计算机硬件和卷积神经网络的蓬勃发展，针对fgvc的挑战提出了一系列技术方案，从早期的标注框/注释模式到近年来的弱监督方法。前者的方法需要大量人力，是一笔昂贵的开销。而且人工标注存在较多噪声，因此逐渐被弱监督方法代替。基于深度学习的分类方法又可进一步分为基于局部检测的分类方法、基于端到端的分类方法和基于注意力机制的分类方法三个发展阶段。这三个阶段分类方法的创新思路有四个方向，如通过强大的深度模型学习更多有判别性的表示、通过图像对比消除姿态和视角等影响、通过寻找局部特征区域、进行目标对象定位去除背景干扰。

4、然而现有的基于弱监督学习的细粒度方法存在以下局限性：

5、(1)部分方法通过检测定位一个或多个局部区域，然后将这些区域送入网络训练。这些区域往往会有大量重叠，导致模型只关注区域内的信息，提供的特征信息有限，无法保证特征的可鉴别性。

6、(2)部分方法主张训练时一次性输入两张图片，寻找对比或互补线索。成对输入增加线索的同时也增加了干扰因素，其中的得失难以评估。

7、(3)部分方法模型训练过程复杂，需要多次进行特征提取，有训练时间长、浪费计算资源等局限。

8、上述方法存在一定局限性，限制了细粒度分类的方法。

技术实现思路

1、为了解决上述的问题，本技术的实施例中提供了一种细粒度图像分类方法、设备、存储介质，有效定位图像中得特征对象，学习细化特征表示，提高细粒度分类的能力。

2、为此，本技术的一个方面，提供一种细粒度图像分类方法，本方法包括以下步骤：

3、步骤s1、获取原始图像，对所述原始图像进行预处理；

4、步骤s2、对原始图像特征提取，生成细节化特征，所述细节化特征包括特征导向与注意力导向；基于所述特征导向与注意力导向进行特征融合，生成多样化特征；基于细节化特征和多样化特征构建细粒度图像分类网络；

5、步骤s3、基于所述细粒度图像分类网络对经预处理的原始图像进行分类。

6、可选地，结合上述任一方面，在本方面的另一种实现方式中，所述步骤s2具体包括以下步骤：

7、步骤s21、采用预训练网络对所述原始图像进行特征提取，得到图像特征；

8、步骤s22、通过预训练网络第三、第四、第五层提取的图像特征进行特征细化，基于特征导向策略得到特征导向图与基于注意力导向策略得到注意力导向图；

9、步骤s23、所述特征导向图进入所述预训练网络的下一层，所述注意力导向进入多样化阶段与下一阶段的注意力导向；

10、步骤s24、将当前阶段的注意力导向与上一阶段的多样化特征输入多层导向模块，基于多层导向策略得到多样化特征。

11、可选地，结合上述任一方面，在本方面的另一种实现方式中，所述特征导向策略包括：

12、获取原始特征图，根据预设需求设置原始特征图的分割数量与输入通道数；

13、将所述原始特征图按预设方向分割，对原始特征图每个分割特征进行卷积、正则化、激活函数与全局平均池化操作；

14、按预设方向重新拼接所述分割特征，得到第二特征图，对所述第二特征图进行归一化处理，得到重要性矩阵；

15、确定所述第二特征图每个特征中最活跃部分，比较最活跃部分与重要性矩阵，得到弱化矩阵；设置弱化矩阵中的最小值为超参数；

16、将所述弱化矩阵沿预设方向重复，直至与所述原始特征大小相同；将所述弱化矩阵与原始特征的逐元素相乘，得到特征导向图。

17、可选地，结合上述任一方面，在本方面的另一种实现方式中，所述注意力导向策略包括：

18、获取所述预训练网络第三、第四、第五层提取的图像特征，通过上采样操作使得所述图像特征的高度与宽度相同；

19、将所述图像特征进行通道注意力处理，得到注意力特征；

20、将当前阶段的注意力特征与前一阶段的注意力特征进行取均值操作，得到注意力导向图。

21、可选地，结合上述任一方面，在本方面的另一种实现方式中，所述通道注意力处理包括：

22、对所述图像特征进行两次的卷积运算、归一化及激活函数处理。

23、可选地，结合上述任一方面，在本方面的另一种实现方式中，多层导向策略包括：

24、获取当前阶段的注意力导向图与上一阶段的注意力特征图，调整所述注意力导向图与所述注意力特征图，得到所述注意力导向图与所述注意力特征图两个三维张量；

25、交换所述注意力导向图或者所述注意力特征图的三维张量的第二维与第三维，对交换后的三维张量进行双线性运算，得到相似矩阵；

26、取所述相似矩阵的负值作为互补矩阵，对所述互补矩阵进行归一化处理，得到权值矩阵；

27、将权值矩阵映射到所述注意力特征图中，得到多样化特征。

28、可选地，结合上述任一方面，在本方面的另一种实现方式中，所述步骤s3中，分类具体为，

29、将所述多样化特征映射至独立的分类器中，得到预测分数的最大值；

30、其中分类器的损失函数采用交叉熵损失。

31、可选地，结合上述任一方面，在本方面的另一种实现方式中，所述步骤s1中，对所述原始图像进行预处理，包括：

32、步骤s11、设置优化器的训练参数；

33、步骤s12、对所述原始图像进行数据增强及裁剪，构建训练集与测试集。

34、本技术的另一方面，提供一种电子设备，包括多个处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，多个处理器执行所述计算机程序时实现如上任意一项所述的细粒度图像分类方法。

35、本技术的另一方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上任意一项所述的细粒度图像分类方法。

36、如上所述，本技术提出了一种细粒度图像分类方法、设备、存储介质，首先，设计了多向传递结构来多方面聚合各层次、各阶段的特征，潜在地迫使网络学习不同特征信息，提高分类能力。其次，将多个阶段的语义信息进行聚合，丰富特征部分。本发明引入特征导向和注意力导向，以骨干网络阶段性特征作为输入，抑制关键区域的特征表示能力后返回下一层，引导网络找其他突出部分。同时生成一个深化的注意力图，更精准定位特征区域，降低背景噪声的干扰。本发明可以在网络训练中突出特征主体部分，挖掘潜在特征信息，同时使用低级语义信息作为辅助，高级语义信息作为引导，学习综合特征表示，提高fgvc的准确度。

37、提供上述
技术实现要素：
以简化形式介绍一些概念，这些概念将在下面的具体实施方式中进一步详细描述。上述发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。本技术所要求保护的主题不限于解决背景技术中指出的任何或所有缺点的实施方式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨胜英,金瑶,雷景生,周武杰,叶宁
技术所有人：浙江科技学院
我是此专利的发明人

上一篇：用于车辆导航的雷达频谱插值的制作方法
上一篇：氢燃料携同光热联合循环动力装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。