基于稀疏编码预训练的卷积神经网络图像分类方法与流程

文档序号:16883204发布日期:2019-02-15 22:23阅读:875来源:国知局
基于稀疏编码预训练的卷积神经网络图像分类方法与流程

本发明涉及一种图像分类方法,属于模式识别与机器视觉、图像处理技术领域,特别涉及一种基于稀疏编码(sparsecoding,sc)预训练的卷积神经网络图像分类方法。



背景技术:

图像分类是图像分类识别的一个过程,图像识别是对图像建立识别模型,然后分析并且提取特征,最后采用分类器根据图像特征对图像进行归类识别的一种技术,它把具有相同属性的图像归为同一类。对于图像分类来说,最重要的是图像预处理和特征提取两个过程。特征学习过程是最重要的部分,图像的分类准确性取决于图像的特征表达。

传统图像分类方法一般是对图像底层特征进行研究,采用纹理、颜色和形状等低级特征表示图像信息,然后根据提取到的特征进行图像分类。由于复杂的图像包含的信息量较多,单一的底层特征不能完全描述,导致分类率很低,因此研究人员将多种视觉特征结合来进行图像分类,取得了比单一特征更好地分类效果。传统分类方法是基于底层特征和中层语义的图像分类,图像特征是根据先验知识人工设计的,特征提取效果的好坏很大程度上依赖研究人员的先验知识,且对于不同类型的图像(如地貌、人脸等),同一种底层特征不一定全部适用,需要根据不同的图像类型合理选择或尝试提取不同的底层特征,此外,有些图像的先验知识很难获取,因此图像的底层特征和语义特征识别力低,进而影响图像的分类准确率。

随着深度学习技术的不断发展,利用深度学习的图像分类方法性能远超过传统方法。深度学习(deeplearning,dl),从狭义上理解,就是一种具有一定的结构和训练方法且含有多个隐含层的神经网络;从广义上理解,可以把具有任何层次结构的机器学习方法称为深度学习。在深度学习过程中,从输入图像,经过无监督的逐层训练和学习图像特征,通过有监督的训练更新整个网络参数,最小化损失函数,在输出层实现正确的分类。卷积神经网络(cnn)将权值共享、空间下采样和局部连接结合起来,不仅降低了网络的复杂性,而且保持了对图像的边缘模式信息和空间位置信息强大的检测能力。卷积神经网络中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解,并且能够自动的从图像中抽取出丰富的相关特性。

现有的方法存在的不足:一方面:当cnn层数较多时需要大量样本训练网络,如果样本数量过少网络就会过拟合或者网络训练不充分造成分类率低;另一方面:cnn的卷积核在训练时是随机初始化的,在处理图像内容比较复杂且样本数量少的分类问题时容易陷入局部最优。



技术实现要素:

本发明针对cnn在样本较少时容易陷入局部最优导致图像分类率低的问题,采用的技术方案为基于稀疏编码预训练的卷积神经网络图像分类方法,具体包括以下步骤:

s1:首先对图像数据集中的训练样本进行非下采样contourlet变换,对训练样本中的原图像进行多尺度分解,并选取前两层分解图像来扩充图像数据集。

s2:将图像数据集中的图像裁剪成与卷积核尺寸相同的图像块patches,卷积核尺寸为patchdim{1,3,5},利用稀疏编码算法学习局部特征,得到图像的超完备基向量。

s3:计算s2中基向量灰度平均梯度值,并对特征向量按照灰度平均梯度从大到小进行排序。

s4:选择灰度平均梯度大的特征向量对卷积神经网络的卷积核进行初始化,然后将样本图像输入到cnn网络中进行训练,逐层对图像样本特征学习并得到全局特征响应的待分类图像特征集。

s5:将得到的待分类图像特征集输入到支持向量机,进行图像分类并得到分类准确率。

与现有技术相比较,本发明采用的技术方案具有如下技术优势。

非下采样contourlet变换作为一种多尺度几何分析方法,分解后的各层图像都包含原图像特征信息,能为特征学习提供有用的信息,各子带图像与原图像大小尺寸相同,采用该方法可以对样本量进行扩充。卷积核是影响cnn分类准确率的核心,cnn卷积核一般是随机初始化的,很难通过网络训练得到合适的卷积核。稀疏编码(sc)非监督学习得到的基向量能够最大程度地表示输入图像的局部特征信息,特征基向量作为卷积核初始化值可以获得更好的视觉特征表达和更高的效率,可以防止网络过拟合或陷入局部最优。

根据本发明实施例的基于稀疏编码预训练的卷积神经网络图像分类方法,本方法首先对训练样本进行非下采样contourlet变换,选取前两层分解图像来扩充训练样本,然后随机选择图像采用sc算法学习其局部特征,并将特征按照灰度平均梯度从大到小进行排序,最后选择灰度平均梯度较大的特征值对cnn卷积核初始化。

实验结果表明,采用sc算法学习到原图像具有统计特性的特征对cnn卷积核初始化,获得比传统底层视觉特征更好的分类效果,有效避免了网络训练陷入局部最优;综合高、低频子带对不同场景的识别优势,在训练样本有限的情况下,有效的提高了图像分类准确率,具有良好的泛化能力和适用范围。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明实施例的基于稀疏编码预训练的卷积神经网络图像分类方法流程图。

图2为本发明一个实施例的非下采样contourlet变换的图像分解原理图。

图3为本发明一个实施例的sc预训练的卷积神经网络模型。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

如图1所示,根据本发明基于稀疏编码预训练的卷积神经网络图像分类方法,包括以下几个步骤:

s1:首先对训练样本进行非下采样contourlet变换,对原图像进行多尺度分解,并选取前两层分解图像来扩充图像数据集。

非下采样contourlet变换是由非下采样塔形分解和非下采样方向滤波器分解两部分组成。首先通过非下采样金字塔分解,获得与拉普拉斯金字塔分解类似并且具有平移不变性的滤波器结构,是一个多尺度性的变化过程,通过这组滤波器,图像被分解为一个低频子带和一个高频子带,要实现多级结构,此后每一级对低频子带迭代滤波即可。其次是非下采样方向滤波器组再进行方向上的分解,是将非下采样金字塔产生的高频带通信号分解到多个方向子带上,得到的变换具有多方向性。

s2:将图像数据集中的图像裁剪成与卷积核尺寸相同的图像块patches,其中卷积核尺寸为patchdim{1,3,5},利用稀疏编码算法学习局部特征,得到图像的超完备基向量。稀疏编码算法主要分为以下两个步骤:

s2.1:训练阶段。给定样本图像数据集[x1,x2,....,xn],从这些样本图像中学习的到一组基向量[φ1,φ2,....,φk]。训练过程就是一个重复迭代的过程,为得到超完备基向量,需要使如下公式所示的目标函数最小,方法是通过更替的更改a和φ的值使得目标函数最小。

其中,k是基向量的个数,n是图像样本的个数,且k>n,x为样本图像数据,φ表示的是从样本中学习到的基向量,a为稀疏系数,常量λ是一个变换量,由常量λ来控制这两项式子的相对重要性。

即迭代过程分为以下两步骤:

步骤1)先固定φk,然后不断调整ak,使得目标函数最小。

步骤2)然后固定ak,再不断调整φk,使得目标函数最小。

通过不断迭代即重复步骤1)和步骤2),直到函数收敛,就得到一组表示样本图像的基向量。

s2.2:编码阶段。输入一个新的图像,通过上面的训练阶段得到基向量,然后带入目标函数中,求解目标函数中的稀疏向量,这个稀疏向量就是输入图像的一个稀疏表达。

假设cnn的输入训练图像数据集含有n幅大小为m×s的训练图像,ii表示为输入训练图像数据集中第i副图像,cnn卷积核是大小为k1×k2的二维矩阵,二维矩阵中的数据是对感受野中数据处理的系数,一个卷积核的滤波可以用来提取特定的特征。训练图像ii被分成k1×k2大小的图像块,这些图像块表示为其中,xi,z表示图像ii中第z个图像块。那么,图像ii的图像块数据为:

xi=[xi,1,xi,2,...,xi,ms]

同理,训练图像的图像块数据为:

利用上述公式求出超完备基向量,那么,sc算法学习到特征向量作为cnn初始化的卷积核组wln表示为:

其中,表示将向量映射到φl表示图像块x的l个超完备基向量。

s3:计算步骤2中基向量灰度平均梯度值,并对特征向量按照灰度平均梯度从大到小排序。灰度平均梯度不仅可以用来评价图像的清晰度,还能反映出图像中微小细节反差的变化和纹理特征信息。

如果将sc非监督学习得到的超完备基向量φ中每个基向量φl的p×p数据看作一幅图像,用梯度信息来衡量其特征学习的效果,因为灰度平均梯度值越大,纹理特征越好,表示图像越清晰;反之就越模糊。通过灰度平均梯度值对超完备基向量进行从大到小排序,按照特征边缘性强弱排序,然后再根据实际问题中卷积核大小和数量对基向量进行选择。基向量的灰度平均梯度为:

其中,gmg为图像的灰度平均梯度值,φl(i,j)表示图像矩阵中第i行、第j列的像素灰度值,p表示图像矩阵的行数。

从sc非监督学习的基向量的灰度平均梯度中选择最大值作为这些基向量从大到小排序显示的指标,即将学习的字典中每个基向量按照其灰度平均梯度从大到小的顺序排列,排序指标为:

mgmg(φl)=maxgmg(φl)

s4:选择灰度平均梯度较大的特征向量对卷积神经网络的卷积核进行初始化,然后将样本图像输入到cnn网络中进行训练,逐层对图像样本特征学习并得到全局特征响应。

在深度网络的学习和训练中,如果样本数量过少或者网络层数较多、网络结构复杂,就会导致深度网络训练不充分,网络的整体性能下降,在特征学习时提取的特征不完整,导致分类准确率降低。在训练样本有限的情况下,为了提高图像分类准确率,防止网络过拟合现象的产生,本发明采用的cnn结构模型,包括一个输入层、5个卷积层、3个池化层,4个relu层和一个输出层。为了提取高层语义特征且减少网络的计算量,将采集到的图像大小统一缩放到256×256像素大小,sc预训练的cnn模型参数如下表所示。

网络模型参数

s5:将得到的待分类图像特征集输入到支持向量机,进行图像分类并得到分类准确率。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改替换和变形,本发明的范围有所附权利要求及其等同限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1