基于双流多尺度混合阶特征融合的细粒度图像识别方法

文档序号:37928905发布日期:2024-05-11 00:07阅读:7来源:国知局
基于双流多尺度混合阶特征融合的细粒度图像识别方法

本发明涉及计算机视觉与人工智能、多媒体信号处理领域,特别是涉及基于双流多尺度混合阶特征融合的细粒度图像识别方法。


背景技术:

1、随着人工智能的兴起以及深度学习的提出,计算机视觉得到了长足的发展。计算机视觉是利用机器理解和分析图像的过程,是人工智能的一个重要分支,其领域内存在多种任务,如目标检测、图像识别、目标跟踪、行为识别、图像分割等。其中,图像识别一直是计算机视觉领域中最重要的研究方向之一。作为图像识别技术研究的热点领域之一的细粒度图像分类,也被称为细粒度图像识别、子类别分类,旨在对目标大类比如鸟类、犬类等,进行更加细致的子类识别。细粒度识别任务具有子类之间方差小,子类之内方差大的特点,因此识别难度显著增加。

2、根据模型在训练阶段所依赖监督信息的强弱,基于深度学习的细粒度图像识别技术可进一步分为强监督细粒度图像识别和弱监督细粒度图像识别。强监督细粒度图像识别算法通过引入人工标注的注释框或额外的标记点等信息,实现了较为优异的分类结果。然而人工标注的监督信息获取代价高昂,限制此类技术在大规模真实场景中的应用。

3、弱监督细粒度图像识别在模型训练阶段仅需使用图像级类别标签,具有较强的实用性与可扩展性。近年来,弱监督算法的研究已经取得和强监督方法相匹敌的识别效果,因此成为了现阶段细粒度图像识别研究的主流趋势。弱监督bilinear cnn算法使用两个相互独立的基础网络提取图像特征并通过矩阵外积捕捉特征通道间成对的相关关系,获得了具有原始卷积特征二阶统计信息的双线性特征,使得分类器具有更强的判别能力。boost-cnn借助集成学习的思想将多个分类能力较弱的bilinear cnn通过boosting方式组合起来,求解最小二乘函数确定每一个基学习器的权重系数,共同构建一个强分类器。考虑到卷积神经网络在前向传播过程中存在信息损耗的现象,bilinear cnn及各类变体算法仅对最后一层的特征图进行双线性池化,却忽略了底层的特征信息。此外,上述算法虽然使用卷积特征的二阶统计信息提高了分类器的判别能力,但是这一过程导致了原始特征信息的损失,可能会造成具有判决意义的局部细节信息丢失。因此,针对仅使用图像级标签信息的弱监督细粒度图像识别任务,现有方法存在着特征提取不充分、特征利用不充分的问题。


技术实现思路

1、为了解决现有方法特征提取不充分、特征利用不充分的问题,本发明提供基于双流多尺度混合阶特征融合的细粒度图像识别方法,为达此目的,本发明提供基于双流多尺度混合阶特征融合的细粒度图像识别方法,包括如下步骤:

2、步骤1、对输入图像进行预处理;

3、步骤2、利用双流基础网络提取图像特征,计算混合阶特征以及融合底层特征;

4、步骤3、将双流网络两支路的混合阶特征进行融合,利用融合后的特征预测细粒度类别。

5、所述步骤2中利用双流基础网络提取图像特征:

6、步骤2.1.1:利用双流基础网络提取图像的特征,将预处理后的图片喂入两路卷积神经网络,这里的两路卷积神经网络stream1、stream2分别采用resnet-50网络和vgg-16网络,利用它们作为基础特征的提取网络,这样获得了细粒度图像的特征;所述resnet-50网络是去除全连接层和最后一层池化层的网络,所述vgg-16网络是去除classifier层和最后两层池化层的网络;

7、步骤2.1.2:将stream1支路的输出特征经卷积核大小为1×1,步长为1的卷积层进行线性映射,使其在通道维度上与stream2支路输出特征保持一致。

8、所述步骤2中计算混合阶特征:

9、步骤2.2.1:输入经卷积神经网络提取的基础特征,设其为其中c、h和w分别表示特征的通道数、高度和宽度,将其重组生成图像特征描述矩阵表示实数域;

10、步骤2.2.2:引入常向量其中k>0;将原始特征描述矩阵x和k在通道维度上拼接,得到新的特征描述矩阵,表示为

11、

12、步骤2.2.3:将得到的特征描述矩阵x′与自己的转置x′t进行矩阵外积运算,乘上系数得到混合阶特征描述矩阵m

13、

14、式中是将特征描述矩阵x每一空间位置处的特征信息对应相乘,这一过程称为双线性池化,得到的矩阵可以看做是特征的偏心协方差矩阵(即没有减去均值的协方差矩阵),包含原始卷积特征的二阶统计量;表示特征描述矩阵x在全部空间位置{1,2,…,hw}处的均值信息,即原始卷积特征的一阶统计量;k是常向量k的元素值;所得到的矩阵m同时包含了原始卷积特征的一阶和二阶统计信息,称之为混合阶特征描述矩阵;

15、步骤2.2.4:对m进行矩阵平方根规范化,即计算z=m1/2,采用牛顿迭代法的变体求解方程:z2-m=0;给定y0=m,z0=i,其中i是单位矩阵,迭代公式如下

16、

17、矩阵yk收敛至m1/2,矩阵zk收敛至m-1/2;反向传播过程中的梯度通过解如下方程计算

18、

19、其中l表示损失值loss,表示损失相对于z的梯度,表示损失相对于m的梯度;

20、步骤2.2.5:将矩阵z展开为特征描述向量使用逐元素符号均方根归一化对特征描述向量进行标准化处理

21、

22、步骤2.2.6:使用l2正则化对图像特征描述向量进行标准化处理

23、

24、最终得到的图像特征描述向量ψ(z),即为所要求的混合阶特征。

25、进一步的,所述步骤2中先计算混合阶特征,再融合底层特征具体步骤为:

26、步骤2.3.1:计算底层的混合阶特征,这里的底层混合阶特征利用底层的输出特征进行计算;这里的底层特征分别选取为stream1的conv5_1层即resnet-50layer4第一个bottleneck块的输出特征、stream2的conv5_1层即vgg-16第五个卷积块第一层的输出特征;将这些底层的混合阶特征与高层的混合阶特征进行融合,融合方式为对应元素相加。

27、进一步的,所述步骤1中对图像进行预处理,具体步骤为:

28、步骤1.1:在训练集上使用随机翻折和随机裁剪来增强数据,裁剪的尺寸统一为448×448像素,在测试集上不进行随机翻折,并将随机裁剪替换为中心裁剪,即以图像中心为原点裁剪出448×448像素区域;

29、步骤1.2:基于均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪图像进行标准化处理,保证图像像素值服从均值为0的正态分布。

30、进一步的,所述步骤2中先融合底层特征,再计算混合阶特征,给出了轻便化可选实施方案,能够提升模型识别图像的推理速度,具体步骤为:

31、步骤2.4.1:选取底层特征,这里的底层特征分别选取为stream1的conv5_1层即resnet-50 layer4第一个bottleneck块的输出特征、stream2的conv5_1层即vgg-16第五个卷积块第一层的输出特征;将底层特征与对应支路的高层特征进行融合,融合方式为对应元素相加;使用融合后的特征计算混合阶特征。

32、进一步的,所述步骤3中将双流网络两支路的混合阶特征进行融合,利用融合后的特征预测细粒度类别,具体步骤为:

33、步骤3.1:两支路输出的混合阶特征,是两个特征描述向量,其维度均为(c+1)(c+1),这里的c为512,使用对应元素相加的方式将两路混合阶特征融合;

34、步骤3.2:将融合的特征送入到全连接层进行分类,得到预测的结果;

35、其中用来指导训练和学习过程的损失函数为交叉熵损失函数

36、

37、式中,yi表示真实的类别标签,表示网络预测的类别标签信息,c是训练数据集上的类别总数;损失值可以用于指导网络的参数更新,网络通过减小损失值来优化参数,从而训练出一个优质模型。

38、至此,基于双流多尺度混合阶特征融合的细粒度图像识别方法便分析完毕。

39、本发明提出了一种基于双流多尺度混合阶特征融合的细粒度图像识别方法,有益效果为:利用双流网络提取细粒度图像的混合阶特征,此特征融合了原始卷积特征的一阶和二阶统计信息,在关注图像高阶特征信息的同时也并未忽略原始特征中的信息,因此具有很好的表征能力,解决了现有方法特征提取不充分的问题;使用融合底层混合阶特征、融合双流网络两支路混合阶特征的方法,解决了现有方法特征利用不充分的问题;给出了融合底层特征的轻便化可选实施方案,能够提升模型识别图像的推理速度。经实验验证,本发明提出的基于双流多尺度混合阶特征融合的细粒度图像识别方法在cub-200-2011公开数据集上仅使用弱监督信息达到了较高的识别准确率,领先于目前所存在的大部分算法,且能满足实时性检测任务的要求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1