基于最优池化卷积神经网络的物体识别方法

文档序号:10553376阅读:399来源:国知局
基于最优池化卷积神经网络的物体识别方法
【专利摘要】本发明涉及一种基于最优池化卷积神经网络的物体识别方法,包括:构建训练集与测试集;搭建卷积神经网络架构,在最后一层加上softmax分类器,设置目标函数;在池化层采用最优池化操作;按经验设置学习率参数,采用后向传播算法,使用整体训练集训练网络模型一次,使用得到的模型去识别测试集数据,统计整体识别率,在此过程中最优池化的模板数值得到最优值,直到目标函数值完全收敛,识别率不再变好为止,此时网络参数训练完毕,最优池化模板得到最终值,得到最优池化卷积神经网络模型,即物体识别系统。本发明可以提升物体识别的性能。
【专利说明】
基于最优池化卷积神经网络的物体识别方法
技术领域
[0001] 本发明涉及人机交互、计算机视觉等领域中高效的物体识别方法,特别是涉及采 用卷积神经网络进行物体识别的方法。
【背景技术】
[0002] 物体识别是计算机视觉中一个十分重要的研究领域,包含人脸识别、手写体数字 识别、手势识别以及物体识别等,可以广泛地用于人机交互、图像分类以及图像检索等领 域。衡量一个物体识别系统好坏的两个主要指标为:识别率和识别速度。一般情况而言,识 别率越高意味着识别速度相对较慢,而识别速度越快意味着识别率相对较低。因此,如何权 衡二者的利弊一直是物体识别领域一个不可回避的问题。
[0003] 近年来,卷积神经网络算法的发展极大地提高了物体识别技术的正确率,从而为 该项技术应用于更多的领域提供了可能。但是,由于存在该算法对计算能力要求相对较高、 计算所需时间相对较长、很多应用要求更高性能的算法等局限,更高端的应用对物体识别 系统的性能以及计算时间提出了更加苛刻地要求。因此,本发明主要研究如何在保持识别 速度略有下降的情况下提高识别率。
[0004] 物体识别系统主要包含特征提取、分类器判定等两个方面。基于卷积神经网络的 物体识别算法中,特征提取占据了物体识别的大部分时间,而且提取特征的好坏决定着算 法的性能。研究人员在基于卷积神经网络的特征提取器设计方面做了许多相关工作,试图 通过优化卷积神经网络的深度架构来提高算法的性能。
[0005] 当前,大部分已存在的卷积神经网络的深度结构改进方法大都趋向于调优网络的 宽度与深度、改进激励函数、设计多样的卷积操作等等。2015年Simonyan和Zisserman[l]提 出VGG卷积神经网络,他们通过研究卷积神经网络的深度与大尺度图片识别精度的关系,提 出了一个更深的卷积神经网络架构。通过调优网络的宽度与深度,达到了当时最好的性能。 2014年Min等人[2]提出了一种深度网络结构叫做NiN卷积神经网络。在该网络结构中,作者 引入了 1X1的卷积操作,通过级联两层这样的卷积层,实现了多层感知器的功能,在拉深网 络深度,调优网络宽度的同时,实现了当时最优的分类性能。2012年Krizhevsky等人[3 ]提 出ReLU非线性操作改进了网络输出神经元节点的激励函数,将激励值非负化,通过将小于0 的激励值设置为〇值,大于〇的值不改变的操作,不仅加快了收敛速度而且提升了性能。2013 年Goodfellow等人[4]提出Maxout卷积神经网络,提出使用maxout操作来改进激励函数,从 而加速收敛,提高网络性能。通过特征图维度上通道间相邻激励值之间提取最大值,当相邻 激励值足够多时,便能拟合任意高次激励函数,从而实现该算法物体识别性能的提升。2014 年Szegedy等人[5]提出一种深度卷积神经网络架构,叫做GoogLeNet卷积神经网络。他们不 仅进一步调优了深度与宽度,而且提出更多样的卷积操作相融合的思想。他们提出在网络 架构中的卷积层,加入多尺度模板卷积操作,丰富了特征,弱化了块效应影响。最后,他们提 出的22层深度架构,在2014年的ILSVRC竞赛中获得了冠军,实现了当时物体识别领域在大 尺度图片上的最优性能。
[0006] 相对于以上网络结构改进方法,近年来,科研人员开始从改进池化操作的角度出 发设计子采样层的池化操作。2013年Zeiler和Fergus[6]提出了一种新的池化手段,叫做随 机池化操作。他们提出的随机池化方法,加入深度卷积神经网络结构中后,最终的物体识别 性能优于最常见的均值池化和最大值池化。该随机池化方法将特征图中每个元素值表示对 应位置处的概率,对特征图中的元素按照其概率值大小随机选择,即元素值大的被选中的 概率也大。基于随机池化卷积神经网络的物体识别方法,高效地提升了算法性能。2015年 Lee等人[7]提出了泛化的池化函数,来组合多类池化操作。他们提出混合最大值池化和均 值池化函数,通过学习一个权值系数来组合不同池化操作得到的特征图,作者进一步又提 出了使用门形函数与树形函数来分别融合不同种类的池化操作,该方法达到了当时最优的 识别性能。
[0007] 参考文献:
[0008] l.K.Simonyan and A.Zisserman.Very deep convolutional networks for large-scale image recognition[J].CoRR,abs/1409.1556,2014.
[0009] 2.M.Lin,Q.Chen,and S.Yan.Network in network[J]CoRR,abs/1312.4400, 2013.
[0010] 3.A.Krizhevsky,I.Sutskever,and G.Hinton.Imagenet classification with deep convolutional neural networks.In Proceedings ofAdvances in Neural Information Processing Systems,2012,pp.11061114.
[0011] 4.I.J.Goodfellow,D.Warde-Farley,M.Mirza,A.Courville,and Y.Bengio.Maxout networks.CoRR,abs/1302.4389,2013.
[0012] 5.C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan, V.Vanhoucke,and A.Rabinovich.Going deeper with convolutions.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015,pp.1-9.
[0013] 6.M.D .Zeiler and R.Fergus.Stochastic pooling for regularization of deep convolutional neural networks[J].CoRR,abs/1301.3557,2013.
[0014] 7.C.Y.Lee,P.ff.Gallagher,and Z.Tu.Generalizing Pooling Functions in Convolutional Neural Networks:Mixed,Gated,and Tree[J].CoRR,abs/1509.08985, 2015.

【发明内容】

[0015] 本发明的目的是克服现有基于卷积神经网络的物体识别过程中,池化层人工设计 滤波模板的局限性,提供一种基于神经网络物体识别方法。本发明采用自学习池化层滤波 模板,得到最优模板值,即池化滤波模板是在端到端的训练过程中,通过自适应自学习的方 法,自动更新滤波模板的每一个滤波值,得到最终的最优池化模板值,进而在识别速度略有 下降的情况下,提高物体识别的精度。本发明的技术方案如下:
[0016] -种基于最优池化卷积神经网络的物体识别方法,包括下列步骤:
[0017] 步骤1:搜集有关识别物体的多类样本图片,并设定每一类别在分类器中的编码, 构建训练集与测试集;
[0018] 步骤2:搭建卷积神经网络架构:即交迭几个卷积层与池化层,设置好网络的深度 与宽度架构,并在最后一层加上softmax分类器,设置目标函数,一般取计算所得值与目标 标签值的差的平方;
[0019] 步骤3:在池化层采用最优池化操作:在训练网络的过程中,使用后向梯度传播算 法不断更新模板参数,直到达到最优值,即网络性能不在提升为止。在端到端的池化模板学 习更新参数的过程中,每个滤波器内的滤波权值在每次循环中都在自学习更新。
[0020] 步骤4:按经验设置学习率参数,采用后向传播算法,使用整体训练集训练网络模 型一次,使用得到的模型去识别测试集数据,统计整体识别率,在此过程中最优池化的模板 数值得到最优化更新。
[0021 ]步骤5:重复步骤4的操作,直到目标函数值完全收敛,识别率不再变好为止,此时 网络参数训练完毕,最优池化模板得到最终值,得到最优池化卷积神经网络模型,即物体识 别系统;
[0022]步骤6:在图像或视频中进行物体识别。
[0023]传统的池化方法都是人工设计有一定意义的池化模板,存在一定的局限性,本发 明提出的最优池化,通过端到端的自学习自适应过程,得到最优的池化模板值。相对于基于 传统池化卷积神经网络的物体识别方法而言,基于最优池化卷积神经网络的物体识别方法 有效地提取了更加高效的特征,进而提升了物体识别的性能。同时,该方法在池化层模板扫 描特征图个数保持不变,能保持计算速度略有下降的情况下,提升识别性能。
【附图说明】
[0024]图1是本发明所提最优池化算法示意原理图 [0025]图2是传统均值池化算法示意原理图 [0026]图3是物体识别流程示意图。
【具体实施方式】
[0027]本发明假设卷积神经网络在池化层上,任意种类的一个滤波器模板扫描一次任意 一个特征图的计算量相同,且都为单位1。公式(1)即是一个计算单位。
[0028]设巧和出分别为卷积神经网络池化层的第i个输入和输出特征图,通常为一个二维 矩阵,1为池化层的滤波器模板,通常为提取最大值模板或者提取均值模板。滤波模板扫描 输入特征图的过程,可以表示为 [0029] Hi = 0iFi \*MERGEF0RMAT (1)
[0030]其中,往是人工设计的模板,在提取特征值时,往往表现出一定的局限性,例 如最大池化相当于提取了高频特征,而均值池化则提取了低频特征。
[0031] 我们提出的最优池化方法,h是通过自学习方法得到的,即通过后向传播算法更 新模板的每一个权重值,如图1中的和Vlj。由图1所示,最优池化层的计算单元数等于输 入特征图的个数,因此与传统池化操作的计算单元数保持一致。
[0032] 下面,将主要针对本发明的最优池化算法与传统池化算法的差异性,进行进一步 说明。如下图所示,图1是本发明所提最优池化算法示意原理图,图2是传统均值池化算法示 意原理图。传统池化算法,主要是均值池化和最大值池化两种。如图2所示,卷积层输出特征 是一张5X5大小的图像, ai谦示图像中第i行,第j列的像素值。池化层输出特征是一张2X2 大小的图像,均值池化操作的模板如图2所示。卷积层输出特征经由公式1的池化操作,再以 2为采样步长,就可以得到池化层输出特征,即出。公式(2)、(3)所示为输出图像上对应像素 的计算过程,可以看到两张输出图像的滤波模板都是1/9的均值模板。
\* MERGEFORMAT (2) MERGEFORiS/IAT (3)
[0035]本发明的方法则与之不同,对不同输入,设计不同的模板,如图1所示。可以看出, 对应第一张输入图像,模板是由Wl遇成,对应第二张输入图像,模板是由Vl姐成,计算过程 如公式(4)、(5)所示。而且,值得注意的是,最优池化方法,即本发明所提算法,设计的池化 滤波模板,并不是像传统池化模板那样,人工设计一个提取最大值操作或者提取均值操作, 而是自学习池化模板的每一个参数。如图1所示,并不是使用一种特定的人工设计,而是采 用一种最优化方法,优化自学习每一个权重值,得到最优结果,得到自学习的池化滤波模 板。
'* MERGEFORMAT (4) Mt:RGHFORMAT(5)
[0038]本发明从改进传统池化层人工设计滤波模板这一思想出发,提出了基于最优池化 卷积神经网络的高效物体识别方法。该最优池化方法通过后向传播算法更新滤波器权重 值,自学习得到滤波器的每一个权值,通过大量数据的训练最终达到最优值。基于最优池化 卷积神经网络的高效物体识别系统的具体步骤如下:
[0039]步骤1:设定数据库样本的训练集与测试集。搜集大量有关识别物体的多类样本, 并设定每一类别在分类器中的编码,例如三类物体汽车、猴子、盆栽分别编码为1〇〇、〇1〇和 001。将数据集分为训练集与测试集两部分。
[0040] 步骤2:搭建高效的卷积神经网络架构。即交迭几个卷积层与池化层,设置好网络 的深度与宽度架构,并在最后一层加上软最大化分类器(softmax分类器),设置合适目标函 数,一般取计算所得值与目标标签值的差的平方。
[0041] 步骤3:将池化层的池化操作设置为最优池化操作,在训练网络的过程中,使用后 向梯度传播算法不断更新模板参数,直到达到最优值,即网络性能不在提升为止。在端到端 的池化模板学习更新参数的过程中,每个滤波器内的滤波权值在每次循环中都在自学习更 新,直达达到最优值。
[0042]步骤4:按经验设置学习率参数,采用后向传播算法,使用整体训练集训练网络模 型一次,使用得到的模型去识别测试集数据,统计整体识别率。在此过程中最优池化的模板 数值得到最优化更新。
[0043] 步骤5:重复步骤4的操作,直到目标函数值完全收敛,识别率不再变好为止。此时 网络参数训练完毕,最优池化模板得到最终值。
[0044] 步骤6:使用训练好的模型进行识别。利用步骤5训练得到的最优池化卷积神经网 络模型,即物体识别系统,在图像或视频中进行物体识别。
【主权项】
1. 一种基于最优池化卷积神经网络的物体识别方法,包括下列步骤: 步骤1:搜集有关识别物体的多类样本图片,并设定每一类别在分类器中的编码,构建 训练集与测试集; 步骤2:搭建卷积神经网络架构:即交迭卷积层与池化层,设置好网络的深度与宽度架 构,并在最后一层加上softmax分类器,设置目标函数,一般取计算所得值与目标标签值的 差的平方; 步骤3:在池化层采用最优池化操作:在训练网络的过程中,使用后向梯度传播算法不 断更新模板参数,直到达到最优值,即网络性能不在提升为止;在端到端的池化模板学习更 新参数的过程中,每个滤波器内的滤波权值在每次循环中都在自学习更新; 步骤4:按经验设置学习率参数,采用后向传播算法,使用整体训练集训练网络模型一 次,使用得到的模型去识别测试集数据,统计整体识别率,在此过程中最优池化的模板数值 得到最优化更新; 步骤5:重复步骤4的操作,直到目标函数值完全收敛,识别率不再变好为止,此时网络 参数训练完毕,最优池化模板得到最终值,得到最优池化卷积神经网络模型,即物体识别系 统; 步骤6:在图像或视频中进行物体识别。
【文档编号】G06K9/62GK105913087SQ201610225818
【公开日】2016年8月31日
【申请日】2016年4月11日
【发明人】孙满利, 庞彦伟
【申请人】天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1