一种基于全局上下文信息的机场跑道异物检测方法与流程

文档序号:21366138发布日期:2020-07-04 04:41阅读:1046来源:国知局
一种基于全局上下文信息的机场跑道异物检测方法与流程

本发明属于计算机视觉中的目标检测领域,涉及机场跑道异物检测的问题,针对机场跑道异物的特点设计网络结构,是一种基于全局上下文信息的目标检测方法,相对于目前主流的目标检测方法,在准确率上得到了一定提升。



背景技术:

机场跑道异物给飞机的起飞和降落带来了巨大的影响,许多案例都证明,机场跑道异物可以很容易被吸入到飞机发动机,导致发动机失效,碎片也会堆积在机械装置中,影响起落架、机翼等设备的正常运行。在机场跑道异物中,一些目标偏小,检测难度较大。机场跑道异物中小目标的检测是亟待解决的问题。

随着深度学习的发展,基于深度学习的目标检测算法越来越成熟,在一些领域也得到了很好的应用。目前,现有的目标检测算法可以分为一阶段和两阶段两类。两阶段的算法需要分两步完成,首先需要获取候选区域,然后进行分类;一阶段的算法可以理解为一步到位,不需要单独寻找候选区域。两阶段算法的检测准确率通常比一阶段高,但是检测速率偏慢。目前,检测准确率比较高的两阶段算法有fasterr-cnn、maskr-cnn、cascader-cnn等。对于机场跑道异物检测的问题,直接使用现有的目标检测算法进行检测准确率比较低。



技术实现要素:

本发明针对机场跑道异物中小目标物体难以检测的问题,设计了一种基于全局上下文信息的卷积神经网络,所设计的网络对于小目标的检测具有较高的检测准确率。

本发明采用如下技术方案:一种基于全局上下文信息的机场跑道异物检测方法,该方法使用resnext作为主干网络,通过多个并行路径来增加残差块的宽度,提高网络对小目标检测的准确率;在网络中加入全局上下文模块(gcblock),通过自注意力机制捕捉图像的全局上下文信息;使用级联网络结构,设置三个不同的iou阈值来进行训练,提高网络的泛化能力,进一步提高检测的准确率。

该方法的具体步骤如下:

步骤一:对fod3(foreignobjectdebrisdetectiondataset

即foddd)数据集中的机场跑道异物数据进行预处理,图1为fod3数据集的图片样例。

步骤二:将预处理后的机场跑道异物数据送入到主干网络resnext中,获取机场跑道异物图像的特征图。resnext的基本模块示意图如图2所示。首先将图片输入到网络中,然后进行卷积操作,卷积核大小为1×1,输出的特征图通道数为128;接着将这128个通道平均分成32等份,每份再进行卷积操作,卷积核大小为3×3,然后将这些卷积后的结果串联起来,输出一个128通道的特征图;再将特征图进行卷积操作,卷积核大小为1×1,最后输出通道数为256的特征图。针对机场跑道异物中小目标检测难的问题,在此过程中,加入两层全局上下文模块(gcblock),分别是在resnext的第三层和第四层后面,更好地获取远程依赖项,最后得到包含图像全局上下文信息的特征图,图3为全局上下文模块(gcblock)的主要结构示意图。

步骤三:将提取到的特征图输入到后面的级联网络中,这部分是三个不同iou阈值的级联,三个iou阈值分别为0.5,0.6,0.7,然后进行模型训练。

步骤四:完成模型训练后,加载模型参数,输入任意一张fod3数据集中的图片进行测试,得到预测结果和预测准确率。预测效果图如图4所示。步骤二中的卷积神经网络是在resnext中添加了两层全局上下文模块,添加后的示意图如图5所示,resnext的基本结构如图2所示。

所述步骤二中,在卷积过程中采用分组卷积的方法。在这一部分,进行分组卷积前,输入和输出通道数为128。使用分组卷积,分组数设置为16,每组的输入与输出通道数为8,将每组输出的特征图进行组合得到分组卷积后的输出。

所述步骤二中,采用多尺度特征融合的方式,使用不同特征层特征融合之后的结果来做预测。在训练过程中,每次将图片输入卷积层时都输出一张特征图,将各个卷积层所输出的特征图进行融合。在融合后的特征图上利用滑动卷积核的方式进行预测打分。

所述步骤二中,在主干网络resnext中加入两层全局上下文模块(gcblock),分别加在主干网络resnext的第三层和第四层后面,通过这种方式来提取图片中的全局上下文信息。

本发明提出的方法的整体流程图如图5所示。

(1)基于resnext的主干网络:resnext提出了用一种平行堆叠相同拓扑结构的模块代替原来resnet的三层卷积模块。这样只需要设计一个模板模块就确定一个网络中的所有模块。这样一来便可以极大的缩小计算空间。resnext把inception的优点与resnet的优点进行了结合。残差结构使得模型便于训练,inception对特征层进行了很好的融合。

(2)全局上下文信息的获取

原版的非局部模块(non-localblock)针对每个查询位置,重要联系的区域是同一块区域,也就是每个位置的关注位置几乎是相同的,所以把这些重要的区域特征加在每个位置之后,网络的准确率几乎没有下降,但是计算量却减少了很多。然而单独的非局部(non-local)结构运算量太大了,单独的挤压激励模块(seblock)全局上下文建模不够有效。针对这一问题,本发明融合了非局部模块(non-localblock)和挤压激励模块(seblock)的优点,使用非局部模块(non-localblock),计算量相对来说较小,也很好的融合了全局信息,这样可以提升网络对于小目标检测的准确率。

(3)iou阈值的级联

在训练过程中一般通过iou阈值来判定正负样本,因此iou阈值的选取对训练结果的影响十分重要。如果iou阈值选取的比较高,则得到的正样本更接近目标,因此训练出来的检测器会更加准确。但是如果盲目的提高iou阈值会带来另一些问题:一是正样本数量过少会导致训练的过拟合,二是训练和测试使用不一样的阈值导致评估性能的下降。如果将iou阈值取得偏低,得到的正样本会更为丰富,这样有利于检测器的训练,但会造成测试时出现大量的虚检。根据以上分析,结合机场跑道数据集中小目标的问题,这里采用级联思想,将检测器的部分堆叠成几个级联的模块,采用不同的iou阈值训练,以此来提高网络对于小目标检测的准确率。

本方法的评价指标为平均精度值(map)。在fod3数据集上进行实验,本发明方法取得了不错的实验结果。对于机场跑道异物的检测,本发明方法的检测准确率高于现有的目标检测算法。本发明使用resnext作为主干网络,通过添加全局上下模块捕捉fod3数据集图像中的上下文信息。此外,级联三个不同的iou阈值进行训练,提高对于小目标检测的准确率。

附图说明

图1为fod3数据集的图片样例。

图2为resnext的基本模块示意图。

图3为全局上下文模块(gcblock)主要结构示意图。

图4为本发明在fod3数据集上实验的预测效果图。

图5为本发明提出方法的整体流程示意图。

具体实施方式

以下结合说明书附图,对本发明的算法进行详细说明:

本发明是一种基于全局上下文信息的目标检测算法。如图5所示,算法检测流程为:将图片输入到所设计的卷积网络中,主干网络为resnext,经过主干网络的一系列卷积操作提取目标特征图;在此过程中,加入全局上下文模块(gcblock),通过自注意力机制捕捉图像的全局上下文信息;之后通过级联网络结构,设置三个不同的iou阈值来进行训练,对候选框进行打分,判定正负样本,进行目标的检测;最后输出分类结果和预测准确率。

具体算法介绍如下:

(1)基于resnext的主干网络

将图片输入到resnext主干网络中,进行卷积等操作来提取目标特征图。在此过程中,采用分组卷积的方法进行卷积。采用多尺度特征融合的方式,使用不同特征层特征融合之后的结果来做预测。在目标检测网络中,加深或者加宽网络结构是提高检测准确率的有效途径,但是随着网络参数量的增加,网络的复杂度也会增加,计算成本也会变大。而resnext能够在几乎不增加运算量的前提下,通过并行路径增加残差块的宽度。该网络采用vgg/resnet重复相同网络层的策略,以一种简单的可扩展的方式延续分离-变形-合并(split-transform-merge)策略,整个网络的构建模块都是一样的,不用在每个阶段里对每个构建模块的超参数进行调整,只用一个结构相同的构建模块,重复堆叠即可形成整个网络。

resnext提出了用一种平行堆叠相同拓扑结构的模块代替原来resnet的三层卷积模块。这样只需要设计一个模板模块就可以确定一个网络中的所有模块,这样一来便可以极大的缩小计算空间。

(2)全局上下文信息的获取

在resnext主干网络中加入全局上下文模块(gcblock)来获取图片的全局上下文信息。原版的非局部模块(non-localblock)针对每个查询位置,重要联系的区域是同一块区域,也就是每个位置的关注位置几乎是相同的,所以把这些重要的区域特征加在每个位置之后,网络的准确率几乎没有下降,但是计算量却减少了很多。然而单独的非局部(non-local)结构运算量太大了,单独的挤压激励模块(seblock)全局上下文建模不够有效。针对这一问题,本发明融合了非局部模块(non-localblock)和挤压激励模块(seblock)的优点,使用全局上下文模块(gcblock),计算量相对来说较小,也很好的融合了全局信息,这样可以提升网络对于小目标检测的准确率。(3)iou阈值的级联

将前面主干网络的输出结果输入到级联网络结构中,通过级联三个不同的iou阈值来进行训练。在目标检测的训练过程中iou的阈值选取是一个比较大的问题。目标检测分为分类和回归两个过程,因此检测问题的本质就是一个分类问题,但是检测问题和分类问题又有很大区别,因为在检测问题中是对图像中的所有候选框进行打分,在训练过程中通过iou阈值来判定正负样本。因此,iou阈值的选取是一个很重要的问题。如果iou阈值选取的比较高,则得到的正样本更接近目标,因此训练出来的检测器会更加准确。但是如果盲目的提高iou阈值会带来另一些问题:一是正样本数量过少会导致训练的过拟合,二是训练和测试使用不一样的阈值导致评估性能的下降。如果将iou阈值取得偏低,得到的正样本会更为丰富,这样有利于检测器的训练,但会造成测试时出现大量的虚检。根据以上分析,结合机场跑道异物数据集中小目标的问题,这里采用级联思想,将检测器的部分堆叠成几个级联的模块,级联三个不同的iou阈值来进行训练。

算法的评价指标为平均精度值(map)。为验证算法性能,本方法在自建的fod3数据集上对算法性能进行了测试分析,该数据集建立了高仿真的机场跑道环境,构建了包含4000张多属性结构化标签的机场跑道异物图像数据集,涵盖了多种路面情况、多种光照环境等。这些图片大约一共有一万一千多个目标。所建立的数据集包含结构化的四种标签,分别是机场跑道异物目标的边界框标签、12种类别标签、4种材质标签和3种危险等级标签。在训练过程中,我们使用sigmoid来进行分类,优化算法使用的是随机梯度下降算法(sgd)。在fod3数据集上进行实验,本发明方法取得了不错的实验结果。相比较于其他的算法,本发明算法对于机场跑道异物检测的准确率更高。为了进行对比,选择了其他算法进行实验,表1为实验对比结果。

表1本发明提出的方法检测性能对比结果

如表1所示,在fod3数据集上,验证了本算法的检测性能,本算法的map指标可以达到0.803,相比较于其他的算法都有一定提升。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1