一种面向智慧交通的图像分类识别方法及其存储介质与流程

文档序号:16539041发布日期:2019-01-08 20:10阅读:162来源:国知局
一种面向智慧交通的图像分类识别方法及其存储介质与流程

本发明涉及图像识别领域,具体的,涉及一种面向智慧交通的图像分类识别方法。



背景技术:

随着智慧交通视频监控技术的迅速发展,交通监控图像和视频的数量飞速增长,对于图像分类识别技术的需求也变得日益迫切。仅仅依靠人工分析海量的交通图像费时耗力,智能地快速检索和有效管理海量的交通图像正面临着巨大的挑战。面向智慧交通的图像分类识别技术旨在利用计算机将交通场景图像自动划分为不同的类别,是智能检索和管理交通图像和视频的基础,也是实现智慧交通中的智能监控要解决的关键技术之一,它的研究具有理论价值和应用价值。

图像分类识别技术是人类利用计算机对现实图像进行分析和理解的技术,图像分类识别的过程即先找出它们外形或颜色的某些特征进行比较分析、判断,然后加以分门别类,同人类识别事物一样,要对事物进行观察、抓住特点、分析比较、去伪存真、加以判断,机器进行图像识别中也要对研究的图像进行信息获取、信息加工、特征抽取和比较判断分类。基于内容的图像分类是根据图像的视觉特征信息对图像进行语义分类,是目前研究的一大热点。在交通领域,随着数据量的增加和图像场景相似性的提高,如何从大规模的数据集中对各类复杂交通场景图像进行高精度的图像分类识别日益成为研究的热点。

传统的图像分类识别方法包括人工特征提取与支持向量机或者浅层神经网络相结合的方式,其本质仍是人工决定要提取的特征,然后再由支持向量机或者浅层神经网络进行分类。由于人类定义特征的局限性以及浅层神经网络在面对大规模问题时的困难,这种方法不能达到人们今天对于精度的要求。深度学习本质上是一种多层的神经网络模型,它不需要人工给定特征,而是自己从大规模数据中逐层进行学习和特征提取,自己去寻找对数据更好的抽象表达方法,通过多个隐含层逐级学习,获得更好的特征,从而在很大程度上提高分类或识别的准确率。卷积神经网络将局部感受野、权值共享及时间或空间亚采样结合起来,获得了某种程度的位移、尺度、平移不变性,降低了网络模型的复杂度,更类似于生物网络结构,而且与传统分类算法不同的是,可以将图像直接作为网络结构的输入,避免了特征提取和数据重建的复杂过程,成为深度学习中的热点。传统的深度神经网络往往网络中的节点数太过庞大,难以训练。人们构造出卷积神经网络,以权值共享的方式减少了节点数量,从而能够加深学习的深度,使系统能学习到更抽象、更深层的特征,从而提高识别正确率。目前较成功的深度学习网络结构有alexnet、googlenet、resnet等。但目前的卷积神经算法仍然存在图像分类准确率不高,图像分类的运算过于复杂的问题。

因此,如何提高图像分类准确率,降低算法的复杂度,加快学习速度成为现有技术亟需解决的问题。



技术实现要素:

本发明的目的在于提出一种面向智慧交通的图像分类识别方法及其存储介质,对传统的卷积神经网络结构进行改进,从而提高了准确率,减少图像分类时间。

为达此目的,本发明采用以下技术方案:

一种面向智慧交通的图像分类识别方法,包括如下步骤:

输入图像数据预处理步骤s110:利用主成分分析(pca),对输入的图像数据进行白化预处理,降低图像数据的维度;

利用改进后的卷积神经网络对图像进行分类步骤s120:对卷积神经网络进行改进,利用改进后的卷积神经网络对图像进行分类,所述改进后的卷积神经网络具体为,依次包括第一卷积层、第一随机池化层、第二卷积层、第二随机池化层、第一响应标准化层、第三卷积层、第四卷积层、第五卷积层、第二响应标准化层、第二随机池化层、第一全连接层、第二全连接层、第三全连接层和softmax层。

可选的,对图像数据进行主成分分析(pca)白化的具体步骤如下:

计算协方差矩阵子步骤s111:

假设使用的输入数据集表示为{x(1),x(2),l,x(m)},计算协方差矩阵∑,

其中:m为样本个数,x(i)为均值为0的样本;

训练样本空间xrot建立子步骤s112:

假设协方差矩阵∑的秩为n,计算协方差矩阵∑的特征向量,并按列排放,组成矩阵u,

其中:u1对应最大的特征值,为主特征向量;u2为次特征向量,依此类推,

向量ui构成了一个新基,uit为样本点i在维度上的投影的长度,令x∈rn为训练样本,得到训练样本空间xrot

xrot=utx;

降维步骤s113:选择主成分个数,对xrot进行降维,利用取不同主成分个数k时,可保留的方差百分比来决定k的取值,令λ1,λ2,…,λn表示∑的由大到小的特征值,则λi为对应于特征向量ui的特征值,取前k个成分时,保留下来的数据与原数据所携带的信息比为r,

当r≥降维阈值时,求取k的最小值,从而选取xrot中的k维向量,舍去n维向量中的(n-k)维,用k维向量来表示数据;

白化子步骤s114:对降维后的向量分别进行白化得到xpcawhite,i

其中,

可选的,所述降维阈值为99%,ε取0.0001。

可选的,在步骤s120中,需要将图像下采样至固定的分辨率。

可选的,所述改进后的卷积神经网络具体为:第一卷积层利用96个大小为11×11×3、步长为4个像素的核,对大小为224×224×3的输入图像进行滤波,然后经过第一随机池化层的降采样,第二卷积层将第一随机池化层降采样后输出作为自己的输入,利用256个大小为5×5×48的核对其进行滤波,其中48对应第一层得到的48个map,即第一层卷积层的所有map卷积生成第二卷积层的一个map图,第二卷积层的输入接入第二随机池化层,然后接入第一响应标准化层,第三、第四和第五卷积层彼此相连,第三卷积层有384个大小为3×3×256的核被连接到第一响应标准化层的输出,第四卷积层拥有384个大小为3×3×192的核,第五卷积层拥有256个大小为3×3×192的核,第五卷积层的输出依次接入第二响应标准化层和第二随机池化层,然后接入三个全连接层,每个全连接层有4096个神经元,最后一个全连接层的输出被送到一个1000-way的softmax层,其产生一个覆盖1000类标签的分布。

可选的,所述改进后的卷积神经网络采用两块gpu组成的并行结构,卷积层都是将模型参数分为两部分进行训练的,所述并行结构包括模型并行与数据并行,所述模型并行是将网络中若干层的模型参数进行切分,然后在两块gpu上使用相同的数据来进行训练,得到的结果直接连接作为下一层的输入,所述数据并行是将训练数据进行切分,然后在两块gpu上使用相同的模型参数,分别训练得到不同的模型,将得到的模型进行融合。

可选的,所述随机池化的步骤为:

(1)求池化区域的统计和

(2)将采样区域的元素值进行归一化:

(3)对采样区域元素按照其概率值随机采样:

sj=al,l~p(p1,…p|rj|),

其中:rj为采样层的窗口大小,ai为采样窗口的元素值,l为采样窗口中按照pi的数值随机选择的值。

可选的,对于所述改进后的卷积神经网络,第二、四、五卷积层只与上一层在同一个gpu上的特征图连接,第三卷积层与第二卷积层的所有特征图连接,所述全连接层的神经元与上一层的所有神经元连接。修正线性单元作为非线性激活函数,在每个卷积层和全连接层都有应用。

本发明还公开了一种存储介质,该存储介质能够被用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行上述的面向智慧交通的图像分类识别方法。

与传统识别技术相比,本发明提出的交通图像分类识别方法具有以下优势:

(1)无需人工设计特征,系统可以自行学习归纳出特征。

(2)识别准确度高,这种基于深度学习的方法在图像识别方面的错误率已经低于人类平均水平,在可预见的将来,计算机将大量代替人力进行与图像识别技术有关的活动。

(3)使用简单,易于工业化,这种基于深度学习的方法由于不需要领域的专家知识,能够快速实现并商业化。

附图说明

图1是根据本发明的面向智慧交通的图像分类识别方法的流程图;

图2是根据本发明的面向智慧交通的图像分类识别方法中改进的卷积神经网络的结构图;

图3是根据本发明具体实施例的图像数据集中示例图片;

图4是根据传统cnn算法的分类结果;

图5是根据本发明的面向智慧交通的图像分类识别方法的分类结果。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

本发明针对传统模式识别方法对复杂场景下大规模交通图像分类精度难以达到实际应用要求的问题,采用基于卷积神经网络的深度学习结构对图像进行特征学习,并完成图像分类识别。具体而言:本发明为了降低输入的冗余性和加快网络的学习速度,对图片进行了基于主成分分析(principalcomponentsanalysis,pca)白化预处理,有效地降低了数据间的相关性;在经典卷积神经网络基础上,构造了特定的神经网络结构,为了提高分类网络的泛化能力在亚采样层采用了随机采样(stochasticpooling)方法,并在输出层采用sofmax分类器,提高了分类准确率、并行分布处理能力强,能充分逼近复杂的非线性关系,且计算量相对较小、训练速度较快。与传统的基于视觉特征的图像表示模型相比,本发明提出的方法有效地提高了图像分类准确率,降低了图像分类的运算复杂度,并且减少了图像分类的运行时间,在实际中具有很好的应用价值。

参见图1,示出了根据本发明的面向智慧交通的图像分类识别方法的流程图,包括如下步骤:

输入图像数据预处理步骤s110:利用主成分分析(pca),对输入的图像数据进行白化预处理,降低图像数据的维度。

由于不同军事图像目标之间的相似度较高,通过白化能够在一定程度上可以降低图像中像素之间的相关联度,加快网络的学习速度,使经过白化处理后的数据具有特征之间相关性较低且所有特征具有相同方差。

具体而言,主成分分析(pca)是一种常用的数据降维方法,在模式识别中经常利用这种方法对数据降维寻找其中的主要成分,同时降低数据中的噪声。由于图像中相邻像素相关性高,输入数据有一定冗余,利用pca,可以将输入向量转换为一个维数低得多的近似向量,而且误差很小。

对图像数据进行主成分分析(pca)白化的具体步骤如下:

计算协方差矩阵子步骤s111:

假设使用的输入数据集表示为{x(1),x(2),l,x(m)}

计算协方差矩阵。

其中:m为样本个数,x(i)为均值为0的样本;

训练样本空间xrot建立子步骤s112:

假设协方差矩阵∑的秩为n,计算协方差矩阵∑的特征向量,并按列排放,组成矩阵u,

其中:u1对应最大的特征值,为主特征向量;u2为次特征向量,依此类推,

向量ui构成了一个新基,uit为样本点i在维度上的投影的长度,令x∈rn为训练样本,

xrot=utx

以二维空间为例,x用(u1,u2)基表达为:

降维步骤s113:选择主成分个数,对xrot进行降维,利用取不同主成分个数k时,可保留的方差百分比来决定k的取值,令λ1,λ2,…,λn表示∑的由大到小的特征值,则λi为对应于特征向量ui的特征值,取前k个成分时,保留下来的数据与原数据所携带的信息比为r,

当r≥降维阈值时,求取k的最小值,从而选取xrot中的k维向量。在一个可选的实施例中,所述降维阈值为99%。

具体而言,即

舍去n维向量中的(n-k)维,用k维向量来表示数据。

白化子步骤s114:对降维后的向量分别进行白化得到xpcawhite,i

其中,

其中:ε是为了避免某些特征值过小,作除数时造成结果上溢或数值不稳定的情况出现,此处ε取0.0001。

在完成图像数据的预处理后,将采用改进后的卷积神经网络对图像进行分类。

卷积神经网络(cnn)是一种多层神经网络,每层由多个二维平面组成,每个平面由多个相互独立的神经元组成,通常为特征提取层和降采样层交替组成,最后为全连接层得到输出。特征提取层的神经元对前一层的局部感受野进行卷积运算提取特征,而降采样层对上一层得到的特征的相邻像素之间进行取平均或求最大值的操作,得到新的特征映射图。然后多次重复上述步骤,并把最后得到的像素值光栅化,连接成一个输入向量输入到一个传统的神经网络中并得到输出。

经典的卷积神经网络包括卷积神经层、rectifiedlinearunits层(relu)、亚采样层(pooling层)和规范化层。卷积神经层是对图像的一个邻域进行卷积得到图像的邻域特征,即对图像的每个点都进行卷积运算,卷积核在此都被看做训练参数;卷积神经层可以看做是对输入图像进行抽象的操作,经过几次处理之后,能够提取出图像的特征值;修正线性单元(relu)作为非线性激活函数用于卷积神经层后面的数据训练;亚采样层就是使用池化(pooling)技术将小邻域内的特征点整合得到新的特征,pooling层即对图像进行二次采样,其目的是为了降低过度拟合;规范化层常用的算法是响应标准化算法,是为了让图像更加具有对比性而设计的神经层,这一神经层的效果类似于对图像进行增加对比度的操作。

卷积神经网络最核心的地方在于卷积和池化操作,卷积思想来源于人眼视觉的感受野概念,即以兴趣点为中心的一小块区域,卷积更符合图像的二维空间的本质,可以学习更有效的特征;而池化可以简单理解为降采样操作,学习图像的空域特征。池化的结果是使得特征减少、参数减少,目的是为了保持某种不变性(旋转、平移、伸缩等),常用的有均值池化(mean-pooling)、最大池化(max-pooling)方法。均值池化方法是对邻域内的特征点求平均,最大池化方法是对邻域内的特征点取最大。一般来说,特征提取的误差主要来自邻域大小受限造成的估计值方差增大、卷积层参数误差造成估计均值的偏移两个方面。均值池化能减小第一种误差,更多地保留图像的背景信息,最大池化能减小第二种误差,更多地保留纹理信息。

随机池化(stochastic-pooling)则介于两者之间,通过对像素点按照数值大小赋予概率,再按照概率进行亚采样,在平均意义上,与均值池化近似,在局部意义上,则服从最大池化的准则。

具体而言,随机池化(stochastic-pooling)的步骤为:

(1)求pooling区域的统计和

(2)将采样区域的元素值进行归一化:

(3)对采样区域元素按照其概率值随机采样:

sj=al,l~p(p1,…p|rj|)

其中:rj为采样层的窗口大小,ai为采样窗口的元素值,l为采样窗口中按照pi的数值随机选择的值。

而softmax分类器是一个单层神经网络分类器,通过构建假设函数,计算输入样本被分到每一类别的概率,通过调整参数使得正确标签对应的概率最大。这种方法分类准确率高、并行分布处理能力强,能充分逼近复杂的非线性关系,且计算量相对较小、训练速度较快,所以输出层采用softmax分类器。

因此,本发明在经典卷积神经网络基础上,构造了特定的神经网络结构,为了提高分类网络的泛化能力在亚采样层采用了随机采样(stochasticpooling)方法,并在输出层采用sofmax分类器,提高了分类准确率、并行分布处理能力强,能充分逼近复杂的非线性关系,且计算量相对较小、训练速度较快。

具体而言,利用改进后的卷积神经网络对图像进行分类步骤s120:对卷积神经网络进行改进,利用改进后的卷积神经网络对图像进行分类,参见图2,所述改进后的卷积神经网络具体为,依次包括第一卷积层、第一随机池化层、第二卷积层、第二随机池化层、第一响应标准化层、第三卷积层、第四卷积层、第五卷积层、第二响应标准化层、第二随机池化层、第一全连接层、第二全连接层、第三全连接层和softmax层。

进一步的,由于一般的图像集都由各种分辨率的图像组成,而改进后的卷积神经网络需要一个恒定的输入维数。因此,将图像下采样至固定的分辨率256×256。

例如给定一张矩形图像,首先重新缩放图像,使得短边长度为256,然后从得到的图像中裁剪出中央256×256的一片,从256×256的图像中提取随机的224×224的碎片以及碎片的水平反射,并在这些提取的碎片上训练该改进后的卷积神经网络。

所述改进后的卷积神经网络具体为:第一卷积层利用96个大小为11×11×3、步长为4个像素(即同一核映射中邻近神经元的感受野中心之间的距离)的核,对大小为224×224×3的输入图像进行滤波,然后经过第一随机池化层的降采样,第二卷积层将第一随机池化层降采样后输出作为自己的输入,利用256个大小为5×5×48的核对其进行滤波,其中48对应第一层得到的48个map,即第一层卷积层的所有map卷积生成第二卷积层的一个map图,第二卷积层的输入接入第二随机池化层,然后接入第一响应标准化层,第三、第四和第五卷积层彼此相连,没有任何介于中间的池化层与归一化层,第三卷积层有384个大小为3×3×256的核被连接到第一响应标准化层的输出,第四卷积层拥有384个大小为3×3×192的核,第五卷积层拥有256个大小为3×3×192的核,第五卷积层的输出依次接入第二响应标准化层和第二随机池化层,然后接入三个全连接层,每个全连接层有4096个神经元,最后一个全连接层的输出被送到一个1000-way的softmax层,其产生一个覆盖1000类标签的分布。

更进一步的,所述改进后的卷积神经网络采用两块gpu组成的并行结构,卷积层都是将模型参数分为两部分进行训练的,所述并行结构包括模型并行与数据并行,所述模型并行是将网络中若干层的模型参数进行切分,然后在两块gpu上使用相同的数据来进行训练,得到的结果直接连接作为下一层的输入,所述数据并行是将训练数据进行切分,然后在两块gpu上使用相同的模型参数,分别训练得到不同的模型,将得到的模型进行融合。

其中,最后一层softmax层组成的输出决策层(输出节点数等于类别数目),输出的每一维都是图片属于该类别的概率,第二、四、五卷积层只与上一层在同一个gpu上的特征图连接,第三卷积层与第二卷积层的所有特征图连接,所述全连接层的神经元与上一层的所有神经元连接。修正线性单元(rectifiedlinearunits,relus)作为非线性激活函数,在每个卷积层和全连接层都有应用。

实施例:

为了验证该图像分类识别方法的有效性,本发明采用包含大量军用交通图片进行验证。该数据集包括军用汽车、坦克、导弹装置、战斗机、装甲车、火炮、居民区、士兵、直升机、丛林和田野10种类别,共10000张图片,图3列出了该数据集中的部分示例图片。在这个数据集中,从每类中随机选择一些图片,共8000张作为训练集,其余的2000张图片作为测试集。

对数据集中的10000个样本进行pca白化处理,并根据经验保留99%的方差。计算得到在保留99%的方差时,k取值为1849,至此,将原数据降低到了1849维。

在使用卷积神经网络处理之前,需要先对图像进行预处理。由于图像的大小直接关系到卷积核的选取,因此不宜太大;如果图像太小,又会引起图像关键细节的丢失。一般选取256×256像素作为图像的标准大小。预处理时,可以将图像的宽或者高之中较小的一个缩放到256像素,之后按比例调节图像大小,然后裁剪出居中的224×224像素的部分作为算法的输入。

为了更清晰地观察和分析每类图像正确分类的个数以及与之易混淆造成错分的类别,实验仿真结果利用混淆矩阵对正确分类的图像个数来进行表征,如图4、5所示。其中混淆矩阵中的x轴和y轴分别表示图像的类别,第i行j列的值表示第i类图像被分类为第j类图像的个数,混淆矩阵对角线上元素的值代表每类图像的正确分类的个数。对于2000幅测试图像,图4给出了基于传统卷积神经网络分类算法的实验结果,图5给出了本文提出的分类算法的实验结果。表1给出了基于不同方法的平均分类正确率比较。

并且,表1示出了基于不同方法的平均分类正确率比较。

表1各种方法的分类结果比较

由表1实验结果可以看出:与采用基于视觉特征的词袋模型分类方法以及传统卷积神经网络分类方法的分类结果进行对比,本发明所提出方法的平均分类正确率有明显的提高。由于交通目标的相似度极高,例如军用汽车和坦克以及装甲车、导弹装置与火炮、直升机与战斗机分别为几种易混淆的类别,对比图4和图5可得出,本发明分类网络结构有着明显的优势,且经pca白化预处理后的图像分类正确率更高,大大提高了卷积神经网络的分类性能。

综上,本发明针对智慧交通系统中大规模交通图像的分类问题,采用基于卷积神经网络的深度学习结构对图像进行特征学习,并完成图像分类识别。为了降低输入的冗余性、提高分类正确率,对图片进行了pca白化预处理,然后将卷积神经网络与softmax分类器相结合,构成深度分类网络,对数据集进行分类研究。该方法识别精度高,该分类网络具有识别精度高,泛化能力强的特点。

与传统识别技术相比,本发明提出的交通图像分类识别方法具有以下优势:

(1)无需人工设计特征,系统可以自行学习归纳出特征。

(2)识别准确度高,这种基于深度学习的方法在图像识别方面的错误率已经低于人类平均水平,在可预见的将来,计算机将大量代替人力进行与图像识别技术有关的活动。

(3)使用简单,易于工业化,这种基于深度学习的方法由于不需要领域的专家知识,能够快速实现并商业化。

本发明还公开了一种存储介质,该存储介质能够被用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的面向智慧交通的图像分类识别方法。

显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1