一种多类别交通工具的精细识别方法与流程

文档序号:20841646发布日期:2020-05-22 17:34阅读:347来源:国知局
一种多类别交通工具的精细识别方法与流程

本发明属于航空监视领域,具体是一种多类别交通工具的精细识别方法。



背景技术:

在交通监视任务中,目标识别是常用手段,而现实生活中目标种类具有多样性和相似性,给分类任务带来巨大挑战。对这类目标的分类可以称为精细分类,其在视觉上的细微差异通常存在于局部区域,因而精细视觉分类是一项具有挑战性的工作。通过高度非线性表达来找出具有区分度的局部区域仍然是个未解决的问题。

精细分类问题近几年逐渐受到重视,其主要任务是区分相似度很高的物体类别,比如鸟的物种、汽车的品牌以及飞机的型号等。目前,经典的卷积神经网络在精细分类任务上已经有了很大的进展,但依旧存在很多上升空间。主要的问题还是在于此类数据库的类间差距较小,类内差距较大。一方面,不同种类物体的差距往往体现在局部区域,即便是肉眼也难以区分。另一方面,同类物体间可能差异很大。

为了解决这个问题,目前已经有许多方法被提出,也有了很多进展。如:通过将整个图的各个局部特征进行二阶统计,整合后进行分类,二阶和更高阶的统计方法被应用在许多视觉方法中,已经在许多精细分类任务上达到了较好的效果。但是,这些方法通常需要高维的特征表达,带来较重的计算负担。另一方面,现有的方法也主要是在纵向方向进行编码,没有深入获取图像中空间分布上的信息。



技术实现要素:

针对上述问题,本发明提供了一种多类别交通工具的精细识别方法,结合了核函数的非线性以及神经网络的特征提取能力,改进了特征提取机制,从而提高了网络的非线性表达能力,提升了网络精细分类的准确率,可用于复杂类别的交通工具识别,为后续的安全检测、路线规划、交通管理、情报收集等应用带来了极大的便利。

所述的多类别交通工具的精细识别方法,具体步骤如下:

步骤一、针对某张待分类的目标图像输入vgg19网络中,输出包含网络浅层信息的特征图x;

vgg19网络包括16个卷积层和3个全连接层,其中卷积层都使用的是3x3的卷积和2x2的最大池化层。将vgg19网络中除去卷积模块的部分取缔,卷积模块的输出特征图大小为c×w×h。w代表特征图的宽,h代表特征图的高,c代表特征图的通道数。

步骤二、对具有浅层信息的特征图x加入级联注意力机制,得到重要区域的高亮显示特征图

具体为:

首先,对于特征图x,通过1×1的卷积得到三维的注意力权重图m1(x),然后将注意力权重图m1(x)中每个权重分别与原始特征图x中各自对应的像素进行一一相乘,即并借助残差方法,对逐像素相加,得到第一结果:

同时,采用3×3的卷积对原始特征图x进行特征提取,然后对提取结果进行边界补全,得到和原始特征图x相同尺寸的三维的注意力权重图m2(x)。

然后,将注意力权重图m2(x)中每个权重分别与第一结果中各自对应的像素进行一一相乘,最后借助残差方法,与原始特征图x逐像素相加,得到与原始特征图x尺寸相同的重要区域的高亮显示特征图

步骤三、从纵向和切向两个角度嵌入核函数,提取高亮显示特征图的高维非线性特征,得到两个不同方向的高维非线性特征图x′和y′。

具体是指:

首先,将特征图中的每一个纵向向量看作一维特征向量xi∈rc

同时,将每一个切向向量看作二维特征向量xj∈rw×h,然后把每个二维的切向向量xj∈rw×h变形到长度为w×h的一维特征向量yj。

最后,将两个一维特征向量xi和yj分别接入一个含余弦函数激活的非线性层,得到两个不同方向的高维非线性特征图x′和y′。

含余弦函数激活的非线性层包含一层卷积层和一层余弦激活函数;

两个一维特征向量xi和yj分别与卷积层的卷积核参数w相乘,然后与卷积层的偏置参数b相加,再经过余弦激活函数得到对应位置的高维非线性特征向量x′i,yj′,

计算公式如下:

x′i=cos(wxi+b)

yj′=cos(wyj+b)

将所有切向向量输出x′i,y′j分别组合得到非线性特征图x′,y′。

步骤四、使用平均池化将两个高维非线性特征图x′和y′分别进行特征降维,得到长度为c的两个特征向量,拼接后得到长度为2c的一个特征向量a。

步骤五、对长度为2c的特征向量a使用全连接进行融合,得到一个长度为类别数的特征向量b;

特征向量b中每个分量是对应类别的置信度分数;

类别包括:各种交通工具的分类,同一类交通工具的不同品牌类别,或者同一品牌类的不同型号类别等;

步骤六、使用softmax机制对特征向量b中各类别的置信度分数进行归一化,取分数最大值,得到对应的分类的结果。

本发明的优点在于:

1)、本发明一种多类别交通工具的精细识别方法,通过级联注意力机制将图像中的关键区域进行加强,让识别器将注意力更多地放在有区分度的区域。

2)、本发明一种多类别交通工具的精细识别方法,将核函数近似分解并嵌入到神经网络中,让模型具有更高的非线性。

3)、本发明一种多类别交通工具的精细识别方法,能够有效地区分类别相近的交通工具,达到多类别交通工具的精细识别。

附图说明

图1为本发明一种多类别交通工具的精细识别方法流程图;

图2为本发明提高特征图重要区域时使用的级联注意力机制示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细和深入描述。

交通工具的精细识别问题,对复杂交通场景下的安全检测、路线规划、交通管理和情报收集等应用都具有重大意义。本发明使用一种基于核函数嵌入和注意力机制的编码网络,实现端到端并且具有高度非线性的特征表示,得到最终精细识别结果,效果显著。

所述的多类别交通工具的精细识别方法,如图1所示,具体步骤如下:

步骤一、针对某张待分类的目标图像进行初步处理后输入vgg19网络中,使用卷积模块作为基础特征提取包含网络浅层信息的特征图x;

在分类任务中,神经网络最浅层网络是作为基础特征提取器进行简单的特征提取,对于图像的纹理、形状、颜色等信息进行抽象表达。

目前主流方法都是采用经典的网络前半部分作为基础特征提取器,如resnet50、vgg19等。主要将经典网络的池化层之前的所有网络层加入到分类任务的最底层,之后再进行后续操作。

vgg19网络包括16个卷积层和3个全连接层,其中卷积层都使用的是3x3的卷积和2x2的最大池化层。将vgg19网络中的卷积模块保留,而将剩下的部分取缔,为了这部分浅层卷积模块更好地初始化,预先在imagenet数据库上对vgg19网络进行了预训练。采用浅层卷积模块对输入图像进行处理,提取浅层特征,并初步降低其空间分辨率;vgg19网络输出的特征图大小为n×c×w×h。n代表批处理的样本个数,本实施例为1;w代表特征图的宽,h代表特征图的高,c代表特征图的通道数。

步骤二、对具有浅层信息的特征图x加入级联注意力机制,利用两种尺度的卷积层提取不同尺度的特征,扩大注意力的感受野,得到重要区域的高亮显示特征图

注意力机制是网络的一个可嵌入模块,通过对重要特征赋予高权重,对冗余特征赋予低权重,从而对有分辨力的特征进行强调。可以帮助网络强化最重要的区域,辅助后续特征的提取,同时保持特征图的尺寸不变。

如图2所示,本方法采用一个多尺寸的卷积结构,能够在编码前精细化提取特征图。对于给定的特征图x,通过1×1和3×3两种尺度的卷积层去提取不同尺度的特征,扩大注意力的感受野;生成了两个三维的注意力权重图,分别记为m1(x)和m2(x)。三维特征图的每个像素都有对应的权重。另外借助残差方法,将提取前和提取后的特征逐像素相加。

具体为:

首先,对于特征图x,通过小尺寸1×1的卷积得到三维的注意力权重图m1(x),然后将注意力权重图m1(x)中每个权重分别与原始特征图x中各自对应的像素进行一一相乘,即并借助残差方法,对逐像素相加,得到第一结果:

同时,扩大注意力的感受野,采用更大尺度的3×3的卷积对原始特征图x进行特征提取,然后对提取结果进行边界补全,得到和原始特征图x相同尺寸的三维的注意力权重图m2(x)。

然后,将注意力权重图m2(x)中每个权重分别与第一结果中各自对应的像素进行一一相乘,最后借助残差方法,与原始特征图x逐像素相加,得到与原始特征图x尺寸相同的重要区域的高亮显示特征图

通过两种尺度的卷积层去提取不同尺度的特征区域,具有更高的适应性,残差结构使得网络更好优化,并且给特征图复赋予了含义,即正数权重代表更多注意力,负数权重代表更少注意力。

步骤三、对高亮显示特征图从纵向和切向两个角度嵌入核函数,提取高维非线性特征,得到两个不同方向的高维非线性特征图x′和y′。

核方法在机器学习当中已经有了十分广泛的应用,尤其是在学习非线性数据任务上有较好的性能。然而核方法在卷积神经网络中却没有机会发挥它的优势,本发明利用核函数的非线性表达能力,提出了将核函数嵌入到神经网络中对特征图进行编码。

本方法使用一个有方向性的核函数编码模块,分别从特征图的纵向和切向进行编码。其中一个角度是从纵向嵌入核函数,将输入的特征图的每一个纵向向量看作一个一维的特征向量,记为xi∈rc;另外一个角度是从切向嵌入核函数,将输入的特征图的每一个切向向量看作一个二维特征向量,记为xj∈rw×h,然后把每个二维的切向向量xj∈rw×h变形到长度为w×h的一维特征向量yj;将这两个角度的一维特征向量xi和yj分别接入一个1×1的卷积层,再分别接入一个余弦激活函数,让网络具有很高的非线性,得到两个不同方向的高维非线性特征图x′和y′。

含余弦函数激活的非线性层包含一层卷积层和一层余弦激活函数;

两个一维特征向量xi和yj分别与卷积层的卷积核参数w相乘,然后与卷积层的偏置参数b相加,再经过余弦激活函数得到对应位置的高维非线性特征向量x′i,yj′,

计算公式如下:

x′i=cos(wxi+b)

yj′=cos(wyj+b)

将所有切向向量输出x′i,y′j分别组合得到非线性特征图x′,y′。

步骤四、使用平均池化将两个高维非线性特征图x′和y′分别进行特征降维,融合特征图中的信息,得到长度为c的两个特征向量,拼接后得到长度为2c的一个特征向量a。

池化层具有很强的对特征图特征进行总结和抽象的能力,对得到的两个不同方向的高维非线性特征图进一步使用平均池化,进行特征降维和融合到低维空间,能够过滤掉冗余的噪声特征,综合不同空间位置的特征表示,并且具有很强的平移不变性,在分类网络中是常用的手段。

步骤五、对长度为2c的特征向量a使用全连接层进行特征融合,并对每个类别进行打分,得到一个长度为类别数的特征向量b;

全连接层中神经元的连接十分密集,能够充分利用每个神经元的信息,整合得出更高级的语义信息。对于分类任务,全连接层的输出维度设置成类别数,则输出的特征向量可以直接得到分类结果。

特征向量b中每个分量是对应类别的置信度分数;

类别包括:各种交通工具的分类,同一类交通工具的不同品牌类别,或者同一品牌类的不同型号类别等;

步骤六、使用softmax机制对特征向量b中各类别的置信度分数进行归一化,取分数最大值,得到对应的分类的结果。

本发明将核函数和神经网络结合在一起,同时具有核函数的非线性以及神经网络的特征提取能力,通过进一步加入了双向编码机制以及级联注意力机制,很大程度上提高了特征编码能力,实现了较高的精细分类结果,能识别相同品牌飞机不同型号的细微差别,并准确区分。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1