基于图融合多尺度特征学习的细粒度图像识别方法

文档序号:36315675发布日期:2023-12-08 01:58阅读:65来源:国知局
基于图融合多尺度特征学习的细粒度图像识别方法

本发明涉及图像识别,具体地说,尤其涉及一种基于图融合多尺度特征学习的细粒度图像识别方法。


背景技术:

1、弱监督的细粒度图像识别(weakly supervised fine-grained imagerecognition,wsfgir)是计算机视觉领域中正在解决的问题之一,其目标是识别同一基础类别下细化程度更高的子类(如不同种类的鸟:尖头鸊鷉、角鸊鷉和西鸊鷉之间进行识别),并且其仅利用图像类别标签进行训练。区别于普通图像分类任务,其研究的核心难点主要来自于其类间差异小、类内差异大。

2、现有技术的一些端对端的卷积神经网络(convolutional neural networks,cnn)在弱监督的细粒度图像识别(wsfgir)上得到验证。它们从学习到的高阶特征中获取积极的信息,从而达到与普通图像分类任务相近的较高精度。但是,一味地挖掘可辨特征,而缺少考虑特征之间的重要性轻重和上下文关系,制约了这些方法的准确性。一种自然的解决方案是引入注意力机制来突出关注区域,自动聚焦于目标对象。在引入注意力的基础上,一些研究还专门设计了特殊的损失函数来优化网络参数,使特征更具辨别力。

3、此外,或建立一个图像内和跨图像的通道式相互作用模型,或利用类激活图来减少标签噪音。转换器结构也在弱监督的细粒度图像识别(wsfgir)中表现出了优越的性能,例如,或应用对比性特征学习来扩大混淆的子类别之间的表征距离,或通过构建特征级的相互关系和捕捉部件级的判别特征,处理不同子类别之间的微妙差异。但应当注意的是,转换器与注意力机制一样,都只突出最重要的区域,而忽略了其他次重要的区域。

4、为此,在最新的研究中提到先采用区域建议网络来自动选取一系列感兴趣的区域,再输入到设计的主干网络中用于特征提取和分类。这种方法的好处是消除了复杂背景的干扰,使网络能够更好地从图像中提取可辨特征。或设计一个高斯混合模型来精确定位判别区域,或提出一种用于鉴别性零件区域提出的过滤学习方法和一种用于加强基于区域的特征学习的蒸馏学习方法。通过注意力模型,在双向过程中实现了零件定位和特征识别的强化。或设计一个带有递归网络的注意集合,以捕捉不同区域之间的语义相关性。或提出一个基于图形传播的定位阶段的子网络。

5、尽管上述方法已经取得了较好的分类性能,但仍存在不足之处。要克服之前提到的弱监督的细粒度图像识别(wsfgir)的难点,准确地找出可辨区域起着关键作用。然而,除了这一挑战之外,与其他计算机视觉任务类似,弱监督的细粒度图像识别(wsfgir)还存在着尺度及视角多变的问题。模型性能对图像中物体的姿态、视角、位置较敏感。因此,使用标准卷积搭建区域建议网络可能会导致不良的定位结果。同时,不同尺度的区域被实施具有相同尺寸感受野的卷积和池化操作,抑制了尺度信息,而这些尺度信息中仍然会含有目标的有效特征,也就是说现有方法在特征提取时存在显著信息提取不充分的问题。在区域特征融合时,多尺度特征紊乱,导致空间分辨能力退化。


技术实现思路

1、本发明的目的在于解决传统市场调研方法存在的主观性和局限性问题,提供一种基于图融合多尺度特征学习的细粒度图像识别方法,学习多尺度信息,提高模型的判别性能。

2、为了实现上述目的,本发明所采用的技术方案如下:

3、一种基于图融合多尺度特征学习的细粒度图像识别方法,包括以下步骤:

4、s1:构建基于图融合多尺度特征学习的模型,采用多尺度密集块搭建区域建议网络和特征提取网络,确定模型的损失函数;

5、s2:图像输入区域建议网络,得到多尺度特征图,对应不同建议区域的位置信息,生成不同位置不同大小的建议区域集合;

6、s3:特征提取网络引入注意力情境整合模块,拼接和整合当前区域输入特征和上一区域特征,提取不同区域的多尺度特征;

7、s4:特征融合网络采用区域关系图像融合机制,将不同区域的多尺度特征输入特征融合网络进行融合,获得图像联合特征;

8、s5:将图像联合特征输入分类器进行细粒度图像识别,分类器最终输出基于图融合多尺度特征学习的细粒度图像识别结果。

9、优选地,图像输入区域建议网络,得到多尺度特征图,对应不同建议区域的位置信息,生成不同位置不同大小的建议区域集合,具体为:

10、将输入图像的大小调整为448×448,并将调整大小后的图像输入区域建议网络;经过多个多尺度密集块和下采样层后,对学到的带有多尺度信息的高质量特征图进行全局平均池化,然后全连接层通过非线性映射生成4n个值,对应n个建议区域的位置信息,每个区域由4个参数(rx,ry,rw,rh)表示,其中rx和ry分别是区域中心的横纵坐标,rw和rh分别是区域的1/2宽度和1/2高度;裁剪操作通过原始图像和参数化掩模之间的逐元素乘法来实现;通过这种方式,生成了n个位于不同位置的不同大小不同纵横比的建议区域集合r={r1,r2,…,rn}。

11、优选地,特征提取网络引入注意力情境整合模块,拼接和整合当前区域输入特征和上一区域特征,提取不同区域的多尺度特征,具体为:

12、对于区域ri,首先通过双线性池化操作将裁剪的图像大小调整为224×224,然后将其传入特征提取网络,从而获取该区域的多尺度特征向量vi;引入注意力情境整合模块,拼接和整合当前区域和上一区域中的隐藏层特征,学习区域的上下文信息,并通过动态注意力增强关键特征的可辨别度。

13、优选地,多尺度密集块基于多尺度卷积构建,多尺度密集块中使用跳跃连接策略。

14、优选地,多尺度卷积中引入分组操作,将输入通道分成3组,分别采用大小为3×3、5×5、7×7的算子核,把各组的通道维数比设置为4:3:1,在每组通道中,依次进行步长均为1的深度卷积、最大池化和点卷积,最后,将每组的特征通道图进行融合;

15、多尺度卷积表示为:

16、

17、f=concat(f1,f2,f3)

18、式中,xi为第i组的输入特征图;fi为第i组的输出特征图;f为融合后的多尺度特征图;pwconv表示点卷积运算;maxpool表示最大池化;dwconv表示深度卷积运算;ki为第i组的卷积核或池化核大小;k1=3;k2=5;k3=7。

19、优选地,多尺度密集块包括依次连接的3个密集连接单元和1个1×1卷积层,密集连接单元包括依次连接的多尺度卷积层、batchnorm层和prelu层;密集连接单元用于增强多尺度信息的传递,实现特征的尺度多样性,在一定程度上能缓解训练过程中的梯度消失问题;1×1卷积层用于控制输出通道的维数,融合粗粒度和细粒度特征,提取稠密特征图在各个通道上不同尺度的空间信息。

20、优选地,特征提取网络引入注意力情境整合模块,注意力情境整合模块包括两个部分:一是上下文信息提取,它通过不同大小的感受野中挖掘丰富的上下文信息;二是增强上下文依赖的动态注意力;

21、对于区域的特征提取,在获取了当前层的输入特征后,将其与区域建议网络的隐藏层特征图拼接,输入至注意力情境整合模块;将拼接的特征沿着3个路径从不同的感受野获取特征图,自粗粒度至细粒度路径的元素乘法加权;最后,通过1×1卷积来降低通道维数得到ki;

22、区域ri的上下文信息提取的计算过程表示为:

23、

24、

25、

26、

27、式中,pwconv表示点卷积运算;dwconv(7×7)表示卷积核大小为7×7的深度卷积运算;dwconv(5×5)表示卷积核大小为5×5的深度卷积运算;dwconv(3×3)表示卷积核大小为3×3的深度卷积运算;fi为第i组的输出特征图;表示拼接操作;p为区域建议网络的隐藏层特征图;表示相乘操作;tanh表示双曲正切函数;表示由感受野为7×7的卷积运算得到的第i个区域的特征图;表示由感受野为5×5的卷积运算得到的第i个区域的特征图;表示由感受野为3×3的卷积运算得到的第i个区域的特征图;ki为第i个区域的上下文特征。

28、优选地,注意力情境整合模块引入动态注意力,采用可变形卷积变换来适应不同尺度下的目标得到矩阵图,再通过softmax函数得到注意力图,将注意力图与图像特征进行相乘和相加操作,获得加权且精炼的特征图;

29、动态注意力表示为:

30、

31、式中,dfconv为可变形卷积运算;表示相加操作,ei为第i个区域的注意力图。

32、优选地,当多尺度特征v={v1,v2,…,vn},即被构造时,它被表示为一张具有n个dc维节点的图;

33、为了保持其上下文特征,区域关系图像融合基于这些特征的位置关联和信息关联,使用两层图卷积网来融合这些特征,两层图卷积网络表示为:

34、

35、

36、式中,h表示第一层图卷积网络的输出;z表示第二层图卷积网络的输出;w1、w2为可训练图权重,dc、dh、ds分别是矩阵的维度,代表矩阵的行数或列数;a表示第一层图卷积网络不同节点之间位置关联的邻接矩阵,a∈rn×n,i为单位矩阵,i∈rn×n,n为区域提案的数量;为a的度矩阵;g表示第二层图卷积网络不同节点之间信息关联的邻接矩阵,g∈rn×n;为g的度矩阵;prelu为激活函数;

37、第一层图卷积网络不同节点之间位置关联定义为:

38、

39、式中,si∩j为节点i和节点j所代表的两个建议区域的交集区域的像素点个数;si∪j为节点i和节点j所代表的两个建议区域的并集区域的像素点个数;aij为第一层图卷积网络节点i和节点j之间位置关联矩阵;

40、第二层图卷积网络不同节点之间信息关联定义为:

41、

42、式中,we为可训练的参数矩阵;t表示矩阵转置;hi为矩阵h的第i列元素;hj为矩阵h的第j列元素;gij为第二层图卷积网络节点i和节点j之间信息关联矩阵。

43、优选地,采用额外的角差损失作为模型的损失函数,损失函数定义为:

44、

45、式中,xi为归一化后的第i个样本的深度特征,即最后的全连接层的输入特征,wj为归一化后的全连接层的权重矩阵的第j列;yi为第i个样本的真实数据;s为尺度参数;m为边界惩罚;m为样本个数。

46、与现有技术相比,本发明具有如下优点和有益效果:

47、1.本发明设计基于多尺度卷积架构的多尺度密集块(msdb),其可在区域建议网络和特征提取网络中,学习多尺度信息。

48、2.本发明设计注意力情境整合模块(acim),其可捕获上下文信息和增强区域特征的位置依赖信息,使网络包含更多的积极信息,并生成具有较强识别能力的客观特征,有利于提高模型的判别性能。

49、3.本发明提出区域关系图像融合(rrgf),其融合携带丰富空间和语义信息的图像特征,增强特征之间的交互作,提高了模型的判别性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1