一种基于图像的飞机目标识别方法

文档序号:31605866发布日期:2022-09-21 10:38阅读:110来源:国知局
一种基于图像的飞机目标识别方法

1.本发明属于目标识别领域,具体涉及一种基于图像的飞机目标识别方法。


背景技术:

2.虽然深度学习在图像分类、目标识别等领域已经取得了极其辉煌的成就,但是对于包含军事场景、民用场景的多场景下的空中飞机目标识别来说,由于空中飞机目标具有两类主要特征,一是场景复杂,同一飞机目标的姿态、背景、观测视角存在较大差异;二是某些特征具有表面相关性,例如同一种机型可能涂装不同而机身构造相同,不同种类的机型可能机身构造层面有微小差异,但涂装相似,而涂装信息可能被分配更多的学习权重,因此这就是一种表面相关性的特征。因此,由于空中飞机目标的特殊性,导致利用现有的深度学习方法对空中飞机目标进行识别时所获得的准确率较低,并不能获得精确的空中飞机目标识别结果。


技术实现要素:

3.本发明的目的是为解决利用现有的深度学习方法对空中飞机目标进行识别时所获得的识别准确率低的问题,而提出的一种基于图像的飞机目标识别方法。
4.本发明为解决上述技术问题所采取的技术方案是:
5.一种基于图像的飞机目标识别方法,所述方法具体包括以下步骤:
6.步骤一、构建空中飞机目标图像的数据集,并对数据集中的飞机目标图像进行标注;
7.步骤二、基于resnet-50构建sdrsc目标识别模型,利用标注后的数据集对构建的sdrsc目标识别模型进行训练;
8.步骤三、采集待识别的空中飞机目标图像,再将待识别的空中飞机目标图像输入步骤二训练好的sdrsc目标识别模型,通过sdrsc目标识别模型输出目标识别结果。
9.进一步地,所述步骤一构建的数据集中包括军事场景下的多机型、多型号飞机目标图像以及民航客机图像。
10.进一步地,所述sdrsc目标识别模型具体为:
11.选取resnet-50作为主干网络,通过在主干网络的平均池化层与线性分类层之间嵌入rsc模块以获得sdrsc目标识别模型。
12.进一步地,所述rsc模块的工作过程为:
13.步骤1、计算平均池化层输出的不同维度特征的梯度,梯度用于表示对应维度特征对分类预测的贡献程度;
14.步骤2、初始化超参数p,将梯度排在前p%的维度特征做静音处理,即构造一个与平均池化层输出特征总维度相同的向量m,向量m中的第i个元素m(i)为:
15.16.其中,g
z(i)
为平均池化层输出的第i个维度特征的梯度,q
p
为梯度排在前p%的维度特征中的梯度最小值;
17.步骤3、将平均池化层输出的特征与向量m做hadamard乘积,得到更新后的特征
[0018][0019]
其中,

表示hadamard乘积;
[0020]
步骤4、计算更新后的特征经过softmax函数的输出结果:
[0021][0022]
其中,为主干网络中用来做类别预测的部分的输出;
[0023]
根据计算出的采用梯度下降公式来更新模型参数,其中,y是样本标签,是交叉熵损失函数,是权重最高的特征的参数。
[0024]
进一步地,所述超参数p的取值为5。
[0025]
进一步地,所述梯度g
z(i)
的表达式如下:
[0026][0027]
其中,z(i)代表平均池化层输出第i个维度的特征,为主干网络中用来做类别预测的部分基于第i个维度特征的输出,是主干网络中用来做类别预测的部分的参数。
[0028]
更进一步地,所述sdrsc目标识别模型采用的损失函数l为:
[0029][0030]
其中,y为输入样本标签的集合,为sdrsc目标识别模型对输入样本的类别预测结果,λ∈[0,∞)为权值衰减系数,|| ||为范数。
[0031]
本发明的有益效果是:
[0032]
本发明针对数据集高复杂度的特点,通过构建rsc模块来对模型训练过程中的特征提取做优化,通过对高梯度特征静音的措施,强制网络学习更多特征完成目标类别预测。针对数据集表面相关性的问题,通过提出一种正则化方法实现了对损失函数的优化,来抑制梯度饥饿现象,进而提升识别准确率。
附图说明
[0033]
图1是sdrsc目标识别模型的训练流程图;
[0034]
图2是构建的数据集中的典型样本图;
[0035]
图3是rsc模块的工作流程图;
[0036]
图4是sdrsc网络的损失函数图;
[0037]
图5是sdrsc网络与resnet-50的识别准确率对比图;
[0038]
图6是本发明的sdrsc网络与现有的selfrag、cdann、dro、mmd和iga五种算法的迭代过程对比图;
[0039]
图7是本发明的sdrsc网络与现有的selfrag、cdann、dro、mmd和iga五种算法的识别准确率对比图。
具体实施方式
[0040]
具体实施方式一、本实施方式所述的一种基于图像的飞机目标识别方法,所述方法具体包括以下步骤:
[0041]
步骤一、构建空中飞机目标图像的数据集,并对数据集中的飞机目标图像进行标注;
[0042]
标注出飞机目标图像的机型和型号后,用于后续目标识别模型的训练集;
[0043]
步骤二、基于resnet-50构建sdrsc目标识别模型,利用标注后的数据集对构建的sdrsc目标识别模型进行训练;
[0044]
步骤三、采集待识别的空中飞机目标图像,再将待识别的空中飞机目标图像输入步骤二训练好的sdrsc目标识别模型,通过sdrsc目标识别模型输出目标识别结果。
[0045]
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一构建的数据集中包括军事场景下的多机型、多型号飞机目标图像以及民航客机图像。
[0046]
本实施方式中的民航客机图像来自于fgvc-aircraft数据集。数据集中典型样本如图2所示。样本图像的拍摄包括高空、低空、海面和地面等不同背景,且飞机处于起飞、降落、巡航、机动等不同状态;样本图像包含正视、仰视、侧视等多种不同角度。
[0047]
其它步骤及参数与具体实施方式一相同。
[0048]
具体实施方式三:结合图1说明本实施方式。本实施方式与具体实施方式一或二不同的是,所述sdrsc目标识别模型具体为:
[0049]
选取resnet-50作为主干网络,通过在主干网络的平均池化层与线性分类层之间嵌入rsc模块以获得sdrsc目标识别模型。
[0050]
sdrsc目标识别模型的训练过程为:输入一张飞机图片,首先进入卷积层进行特征提取,然后进入归一化层对神经元的输出进行优化,使输出结果服从高斯分布,随后进入最大池化层进行降维,最大池化层与平均池化层之间的残差网络保证了网络可以更深而不会导致梯度爆炸和退化问题,降维后的图片经平均池化层输出到rsc模块,旨在提取更全面的特征,网络学习更多元的特征之后将图片送往线性分类器进行分类,最后计算损失以抑制梯度饥饿,实现更好的识别效果。
[0051]
其它步骤及参数与具体实施方式一或二相同。
[0052]
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述rsc模块的工作过程为:
[0053]
步骤1、计算平均池化层输出的不同维度特征的梯度,梯度用于表示对应维度特征对分类预测的贡献程度;
[0054]
步骤2、初始化超参数p,将梯度排在前p%的维度特征做静音处理,即构造一个与平均池化层输出特征总维度相同的向量m,向量m中的第i个元素m(i)为:
[0055]
[0056]
其中,g
z(i)
为平均池化层输出的第i个维度特征的梯度,q
p
为梯度排在前p%的维度特征中的梯度最小值;
[0057]
即如果g中对应的元素是丢弃范围内的梯度最高的元素之一,则m向量的元素设置为0,否则设置为1;
[0058]
步骤3、将平均池化层输出的特征与向量m做hadamard乘积,以静音p范围内分类预测贡献最大的特征,得到更新后的特征
[0059][0060]
其中,

表示hadamard乘积;
[0061]
步骤4、计算更新后的特征经过softmax函数的输出结果:
[0062][0063]
其中,为主干网络中用来做类别预测的部分的输出;
[0064]
根据计算出的采用梯度下降公式来更新模型参数其中,y是样本标签,是交叉熵损失函数,是权重最高的特征的参数。
[0065]
本实施方式中,采用rsc模块对平均池化层输出的特征进行提取优化,提取优化的过程中只包含池化、hadamard乘积等操作,且除了原始网络的权值外不需要学习额外的参数,以达到学习更多特征,防止某些典型特征导致过拟合现象,优化特征提取能力。算法伪代码如表1所示:
[0066]
表1
[0067][0068][0069]
将主干网络的最后一层卷积层的特征张量记为z,将其梯度张量记为g,梯度张量可由预测类别分数进行反向传播计算而来。z和g的大小均为[7
×7×
512]。设置超参数p为要丢弃的特征数量占总特征数量的百分比(此处设置为5),在特征图送往全连接层之前需要降维,这里对其进行通道间的全局池化,该过程会产生一个大小为[7
×
7]的权重矩阵wi,利用权重矩阵wi和参数p将特征z中分类预测贡献最大的若干特征进行静音处理,得到更新的特征张量z,此时的更新的特征张量z大小为[7
×
7],其特征为7
×
7=49个。最后通过反向
传播对整个网络进行更新。工作流程如图3所示。
[0070]
大多神经网络会优先学习最感兴趣的特征而抑制其他特征。rsc模块对这样的特征提取方式做了改进:将与最高梯度相关的特征进行静音处理,这样网络就被迫通过学习其他特征来预测类别标签。通过阻止全连接层以最具代表性的特征进行预测(比如训练数据中最频繁的颜色、边缘或形状),来迫使模型使用剩余信息进行类标签的预测,与常规模型相比,该模型将利用更多的特征来完成目标识别任务。
[0071]
其它步骤及参数与具体实施方式一至三之一相同。
[0072]
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述超参数p的取值为5。
[0073]
其它步骤及参数与具体实施方式一至四之一相同。
[0074]
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述梯度g
z(i)
的表达式如下:
[0075][0076]
其中,z(i)代表平均池化层输出第i个维度的特征,为主干网络中用来做类别预测的部分基于第i个维度特征的输出,是主干网络中用来做类别预测的部分的参数。
[0077]
其它步骤及参数与具体实施方式一至五之一相同。
[0078]
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述sdrsc目标识别模型采用的损失函数l为:
[0079][0080]
其中,y为输入样本标签的集合,为sdrsc目标识别模型对输入样本的类别预测结果,λ∈[0,∞)为权值衰减系数,|| ||为范数。
[0081]
本实施方式中的损失函数通过加入正则化方法,对输出权重的简单惩罚完成了对于强特性和弱特性的隔离,进而缓解了梯度饥饿现象。
[0082]
其它步骤及参数与具体实施方式一至六之一相同。
[0083]
实验结果与分析
[0084]
1、sdrsc网络性能实验
[0085]
本发明中构建的数据集包含训练集图片和测试集图片各8350张。根据经验调整训练参数:batch_size设置为32,最小批量大小设置为256,初始权重为0.001,动量大小设为0.9,迭代次数设为30次,该参数设置与主干网络对比实验中resnet-50的参数设置相同。使用sdrsc网络进行识别,其损失函数如图4所示,记录其准确率并与resnet-50的识别准确率作比较如图5所示。
[0086]
可见,sdrsc收敛速度更快,且其识别准确率相比resnet-50始终保持领先,最终sdrsc的识别准确率为82.91%,而resnet-50的识别准确率为75.67%,可见sdrsc的识别精度较优化前的resnet-50提高了7.24%,网络性能有了较大提升。
[0087]
2、消融实验
[0088]
sdrsc网络通过引入两个优化部分使最终的识别准确率相比于原始网络resnet-50有了较大提升。为了证明每个优化部分都能对数据集的识别准确率提升做出有效贡献,本节进行了消融实验研究。将原始网络、分别单独加入每个优化部分后的网络、加入所有优化部分后的网络在数据集上运行,进行四轮实验并记录每轮实验的识别准确率作为评价指标,设置迭代次数为30次。最终结果如表2所示:
[0089]
表2不同算法分类效果对比
[0090][0091]
由表2可观察到,sdrsc网络的各个优化部分在数据集上的识别效果都得到了一定程度的提升。具体而言,未加入任何优化部分的resnet-50网络在数据集上已经凭借75.67%的识别准确率具有较强竞争力。第ⅱ轮实验是在原始网络resnet-50中加入损失函数优化,网络达到79.65%的识别准确率,相比原始网络resnet-50的准确率提升了3.98%,足以证明通过对于输出权重的惩罚可有效缓解梯度饥饿现象,进而识别性能有较大提升。第ⅲ轮实验是在原始网络resnet-50中加入rsc模块,网络的识别准确率达到79.08%,比未加入该模块时提升了3.41%,证实抑制显著注意力的特征提取策略对于复杂场景下的目标有更好的辨识度。第ⅳ轮实验中同时加入了上述两个优化部分,识别准确率达到了82.91%,相比两个单独的优化部分,识别准确率分别有3.26%、3.83%的提升,说明两个优化部分的结合对网络的性能提升最大。实验证明,本发明提出的sdrsc网络的各优化部分均可提升网络性能。
[0092]
将本发明的sdrsc网络与现有的selfrag、cdann、dro、mmd和iga五种算法进行对比实验,设置迭代次数为30次,在本发明数据集上的迭代过程如图6所示,最终的识别准确率比较如图7所示。
[0093]
(1)selfrag:该算法是一种用于领域泛化的正则化方法,它仅利用正数据对的自监督来对比正则化损失,以减少由负对采样引起的问题。
[0094]
(2)cdann:卷积-去卷积交替神经网络,采用3d的卷积/去卷积层,通过卷积与去卷积层交替连接的方式,重复提炼图像高级、抽象的特征信息,并引入残差学习简化网络。cdann的网络结构设计旨在实现简单高效地完成任务。
[0095]
(3)dro:由阿里云人工智能实验室提出,其本质为一个基于神经网络的端对端深度循环优化器,使一些无法计算梯度的优化问题的求解成为可能。该算法在室外kitti和室内scannet数据集上的识别结果超越了以往所有算法的结果。
[0096]
(4)mmd:最大最小距离算法是模式识别中一种基于试探的聚类算法,它以欧式距离为基础,取尽可能远的样本作为聚类中心。其可根据数据集簇数,快速求取指定的k个聚
类中心,获得距离较远的样本作为初始聚类中心。
[0097]
(5)iga:改进遗传算法是一种仿生学算法,是人类模仿大自然中各生物物种的生存进化现象而提出的一种计算机算法,其最大的特点就是可进行全局范围内的搜索优化,而不易陷入局部极值。
[0098]
从图7中可以看出,所有优化算法相比resnet-50网络的识别精度均有较大幅度的提升,收敛速度也更快;其他五种算法的识别精度和收敛速度差别较小,而本发明算法的识别精度稳定优于其他算法。由图7可知,从最终的识别准确率来看,其他五种算法的准确率均未达到80%,它们的最大精度差距仅为1.33%,而本发明算法取得了准确率82.91%最好的成绩,比五种算法中表现最好的selfreg的准确率高出2.96%,该精度差距超过其他算法最大精度差距的两倍,因此本发明算法相比其他主流算法有更好的辨别能力。
[0099]
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1