一种基于Gabor特征具有分形结构的极深神经网络的动物分类方法与流程

文档序号:11262159阅读:335来源:国知局
一种基于Gabor特征具有分形结构的极深神经网络的动物分类方法与流程

本发明涉及图像处理、模式识别、深度学习领域,特别是涉及一种基于gabor特征具有分形结构的极深神经网络的动物分类方法。



背景技术:

在整个计算机视觉架构中,物体分类扮演着非常重要的角色,它是视频跟踪和场景描述的基础。比如在场景描述任务中,首先要知道图像中有什么物体,才能进行后续的物体行为分析和图像场景描述。其中分析图像中有什么物体就属于物体分类和识别的范畴。

随着机器学习和人工智能的发展,计算机拥有了越来越强的物体分类能力,虽然物体分类在近几年已经有了快速的发展,但是物体分类仍然是一个具有挑战性的课题,具体的原因如下:

1、外界环境多样性:对于同样一个物体,由于在图像拍摄过程中的不同光照、不同距离、不同拍摄角度以及其他物体不同程度的遮挡影响,所拍得的图片具有多样性,由此增加了计算机物体分类的难度。

2、类别复杂性:类别复杂度来自于两个方面。一是类内之间的差别大,对于同一类物体,比如椅子,不同的椅子可能具有不同的形状和大小,这样会增大识别难度。二是类间的差距小,比如狗与狼,虽然属于两个不同的种类,但是它们在外观表现上却非常相似。

3、语义多样性:对于同一张图,即便用人眼来看,不同的人的语义理解也不尽相同,对于计算机也是如此。

物体分类在过去五十年已经有了快速的发展,目前主要有两种物体分类算法,一种是基于人工特征的物体分类算法,另外一种是基于深度学习的物体分类算法。

其中基于人工特征的物体分类算法是指首先人工提取出原始图像中的底层特征,常见的底层特征提取方法有兴趣点检测和密集的局部特征提取。兴趣点检测能够很好地检测出原始图像中的一些边缘点、纹理性显著的点、角点、区块点,这种检测算法开销相对而言较小,并且能够提取到具有几何不变性的特征点,常见的基于兴趣点检测的算子有fast算子、harris角点检测算子、log算子等。

然而近几年采用更多的是密集的局部特征提取,按照固定的步长和尺度,用密集提取的方式对原始图像提取大量的局部特征,如sift特征、hog特征、lbp特征,其识别率会高于基于兴趣点检测的物体识别算法。提取完底层特征之后,由于密集提取的底层特征具有很大的冗余性,为了消去这些冗余,常常会利用特征编码技术,以便找出更加具有区分性的底层特征。常用的特征编码技术有向量量化编码、稀疏编码、核词典编码、局部线性约束编码、显著性编码、fisher向量编码以及超向量编码等。特征编码后,利用压缩后的特征向量集对原始图像进行表达,生成特征向量直方图表达,直方图的横坐标表示特征向量集的数目,纵坐标表示对应特征向量出现的频率,这种方式可以把原始图像的二维特征表达降为一维的特征向量直方图表达,有效降低了存储空间。得到特征向量直方图之后,再利用支持向量机等分类器对原始图像进行分类,最终识别图像。然而这种方法存在泛化性差、鲁棒性低、局部依赖性强、实现困难、识别率低等缺点。

另外一种方案是基于深度学习模型的物体识别算法,它通过层次化的网络结构自主学习数据集底层到高层的特征,并利用softmax等分类器进行分类。典型的深度学习模型有卷积神经网络(cnn)、深度置信网络(dbn)、自编码器(auto-encoder)和限制玻尔兹曼机(rbm)。当下流行的深度学习神经网络对物体识别都有这样的缺点,包括网络的训练速度慢,不易收敛等。



技术实现要素:

本发明的主要目的在于克服现有技术的缺点与不足,一种基于gabor特征具有分形结构的极深神经网络的动物分类方法,该方法利用了具有分形结构的极深神经网络在物体分类中的优势,通过加入人工提取的gabor特征来加强网络对纹理信息的学习,达到对动物图片进行精准分类的目的。

本发明的目的通过以下的技术方案实现:一种基于gabor特征具有分形结构的极深神经网络的动物分类方法,首先通过单一扩展规则的重复应用生成一个极深的网络(fractalnet),然后通过从imagenet数据集中获取一定数量种类的动物图片,进行gabor特征提取以及归一化等预处理,得到gabor特征伪彩图之后,利用gabor特征伪彩图作为网络输入,然后通过监督学习的方法训练fractalnet网络模型,最后进行动物图片的测试分类。

本发明的工作过程:

一种基于gabor特征具有分形结构的极深神经网络的动物分类方法,其特征在于:对输入图像进行0°、45°、90°三个方向的gabor滤波,并且将这三个方向的gabor特征图合并成一张三通道的gabor特征伪彩图,以得到的gabor特征伪彩图作为分形结构网络的输入进行训练网络。具体包括如下步骤:

s1、下载训练动物图像数据集;

s2、对步骤s1数据集中的图像进行gabor特征提取,以及对数据集中的图像进行0°、45°、90°三个方向的gabor滤波;

s3、对步骤s2获得的gabor特征图合并成三通道的特征伪彩图;

s4、对步骤s3中gabor特征伪彩图进行图像预处理;

s5、训练fractalnet网络模型,采用了单一扩展规则的重复应用生成一个极深网络;

s6、用同样经过gabor滤波生成的gabor特征伪彩图测试图像对步骤s4训练好的网络模型进行测试。

优选的,步骤s1中下载数据集:分别从http://www.image-net.org、http://mscoco.org这两个网站下载imagenet;imagenet数据集分为训练图像集和测试图像集,训练集含有1000个类别的图片,每个类别1300张,测试集含50000张图片;ms-coco数据集(提供训练和测试网络的图片)分为训练图像集合测试图像集,训练图像集包含82783张图片,测试图像集包含40504张图片。

优选的,步骤s2中图像gabor特征提取具体过程:

gabor滤波器能够很好地提取图像的边缘和频率信息,很适合做纹理分离和表达;gabor滤波器可以被定义成一个高斯函数和一个正弦函数的乘积,gabor滤波器的数学表达如下面公式(1-1):

其中,x′=xcosθ+ysinθ,y′=-xcosθ+ysinθ

各个参数的具体含义以及常用的参数配置如下面所述:

x和y:为空间域像素的位置;

标准方差σ:高斯函数沿两个坐标轴的标准方差;

相位偏移:它的取值范围为-180度到180度。其中,0度和180度分别对应中心对称的center-on函数和center-off函数,而-90度和90度对应反对称函数;

波长λ:该参数的设置和滤波器的输入频率有关,一般来说,它的取值要大于等于2,且小于原始图像的五分之一;

方向θ:gabor具有方向性,这个参数指定了gabor条纹的方向,取值范围是0°到360°;

长宽比γ:长宽比γ决定了gabor滤波器形状的椭圆度,它的取值小于等于1,等于1时,gabor滤波器是一个圆形;

其中步骤s2中方向θ为0°、45°、90°,将图像数据集对以上的三个方向进行gabor滤波,提取这三个方向的gabor特征图。

优选的,所述步骤s3中合并成三通道的gabor特征伪彩图,将步骤s2获得的0°、45°、90°三个方向的gabor特征图进行简单的线性叠加合并成三通道的gabor特征伪彩图(即将每个通道的值认为是一个rgb的像素值)。

优选的,所述的步骤s4中的预处理方法,对于imagenet数据集上获得的每一张图像,将步骤s2和s3的gabor特征提取后获得的gabor特征伪彩图缩放到32×32大小。

优选的,所述的步骤s5中训练fractlnet网络模型的采用单一扩展规则的重复应用生成一个极深的网络,其结构布局正是一个截断的分形;网络包含长度不同的相互作用子路径,但不包含任何直通式连接,每个内部信号在被下一层看见之前,都被一个过滤器和非线性部件变换过了;

其中所述的使用路径舍弃方法正则化分形架构里子路径的协同适应。通过这样的正则化,使得分形网络获得一种性质:浅层子网络给出快捷的答案,而深度子网络(有较多延迟)给出更精准的答案;

两种不同的规则产生的分形架构:

1、简单的扩展规则生成分形架构;基础情形f1(z)包含输入输出之间单个选定类型的层;连接层计算了逐元素平均;

2、深度卷积网络周期性地通过汇集来降低空间分辨率;分形版本使用fc(·),其中·为信号的输入,作为汇集层之间的建构单元;把b个这样的块堆起来就得到一个网络,其总深度是b·2c-1(通过卷积层衡量)。

优选的,训练fractlnet网络模型的具体过程为:

令c表示截断分形fc(·)的指标,网络结构、连接以及层类型,通过fc(·)定义;包含单个卷积层的网络是基础情形如公式(1-2):

f1(z)=conv(z)(1-2)

递归定义接下来的分形如公式(1-3):

表示复合,而表示连接操作,z表示输入信号,c对应于列数,或者说网络fc(·)的宽度;深度定义为从输入到输出的最长路径上的conv层的个数,正比于2c-1;用于分类的卷积网络通常分散布置汇集层;为了达到相同目的,使用fc(·)作为构建单元,将之与接下来的汇集层堆叠b次,得到总深度b·2c-1;连接操作把两个特征块合为一个;一个特征块是一个conv层的结果:在一个空间区域为固定的一些通道维持活化的张量;通道数对应于前面的conv层的过滤器的个数;当分形被扩展,把相邻的连接合并成单个连接层;连接层把所有其输入特征块合并成单个输出块;连接层行为的几种选择看起来都是合理的,包括拼接和加法;把每个连接实例化,计算其输入的逐元素平均;这对于卷积网络是恰当的,在那里通道数对一个分形块里的所有conv层是相同的。

优选的,路径舍弃的新正则化规则:dropout和drop-connect通过修改网络层序列之间的相互作用来减弱共同适应(co-adaptation);由于分形网络包含额外的大尺度结构,提出使用一种类似的粗粒度正则化策略来辅助这些技术;

dropout禁止了活化的共同适应,路径舍弃通过随机丢弃连接层的操作数来禁止平行路径的共同适应;这种方式有效防止了网络使用一个路径作为锚标,另一个路径作为修正而可能引起的过拟合行为;采用两个采样策略:

局部:连接层以固定几率舍弃每个输入,但保证至少一个输入保留;

全局:每条路径是为了整个网络选出的,限制这条路径是单列的,激励每列成为有力的预测器。

优选的,步骤s6根据训练好模型测试图像:根据前面步骤s1、s2、s3、s4和s5等步骤训练好的网络,使用经过步骤s2和s3处理的测试gabor特征伪彩图进行测试。

本发明与现有技术相比,具有如下优点和有益效果:

1、传统的图像分类方法存在泛化性差、鲁棒性低、局部依赖性强、实现困难、识别率低等缺点,而使用神经网络对动物图像进行识别具有更强的鲁棒性和泛化能力,并克服了传统图像理解方法局部依赖性强、实现困难等缺点。

2、已有的神经网络对于物体分类,只能够提取到一些通用的特征点,比如边缘点和亮度变化很明显的点,无法对数据集进行更本质的刻画。基于gabor特征的具有分形结构的极深神经网络的动物图像分类算法,通过加入gabor特征来加强网络对纹理信息的学习,提高物体分类准确率。

3、本发明极深网络开发了一种路径舍弃的新正则化规则。无需数据增强,通过dropout和路径舍弃训练的分形网络远远超过了之前神经网络的性能。

附图说明

图1为本发明的一种基于gabor特征具有分形结构的极深神经网络的动物分类方法的具体流程图;

图2为本发明实施例的简单的扩展规则生成分形架构;

图3为本发明实施例的深度卷积网络架构。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

首先通过单一扩展规则的重复应用生成一个极深的网络(fractalnet),然后通过从imagenet数据集中获取一定数量种类的动物图片,进行gabor特征提取以及归一化等预处理,得到gabor特征伪彩图之后,利用gabor特征伪彩图作为网络输入,然后通过监督学习的方法训练fractalnet网络模型,最后进行动物图片的测试分类。

图1为本发明的整体流程图,包括如下步骤:

(1)下载训练数据集:分别从http://www.image-net.org、http://mscoco.org这两个网站下载imagenet。imagenet数据集分为训练图像集和测试图像集,训练集含有1000个类别的图片,每个类别1300张,测试集含50000张图片;ms-coco数据集分为训练图像集合测试图像集,训练图像集包含82783张图片,测试图像集包含40504张图片。

(2)图像gabor特征提取:

gabor滤波器能够很好地提取图像的边缘和频率信息,很适合做纹理分离和表达。

gabor滤波器可以被定义成一个高斯函数和一个正弦函数的乘积,gabor滤波器的数学表达如下面公式(1-1):

其中,x′=xcosθ+ysinθ,y′=-xcosθ+ysinθ

各个参数的具体含义以及常用的参数配置如下面所述:

波长λ:该参数的设置和滤波器的输入频率有关,一般来说,它的取值要大于等于2,且小于原始图像的五分之一。

方向θ:gabor具有方向性,这个参数指定了gabor条纹的方向,取值范围是0°到360°。

长宽比γ:长宽比γ决定了gabor滤波器形状的椭圆度,它的取值小于等于1,等于1时,gabor滤波器是一个圆形。

所述步骤(2)中根据gabor滤波原理分别对方向为0°、45°、90°三个方向进行gabor滤波。

(3)合并成三通道的gabor特征伪彩图:将步骤(2)获得的0°、45°、90°三个方向的gabor灰度特征图进行简单的线性叠加合并成三通道的gabor特征伪彩图。

(4)对图像的预处理方法:

对于imagenet数据集上获得的每一张图像,进行了步骤(2)和(3)的gabor特征提取后获得的gabor特征伪彩图缩放到32×32大小。

(5)训练fractalnet网络模型:

通过单一扩展规则的重复应用生成一个极深的网络,其结构布局正是一个截断的分形。网络包含长度不同的相互作用子路径,但不包含任何直通式连接:每个内部信号在被下一层看见之前,都被一个过滤器和非线性部件变换过了。

使用路径舍弃方法正则化分形架构里子路径的协同适应。通过这样的正则化,使得分形网络获得一种性质:浅层子网络给出快捷的答案,而深度子网络(有较多延迟)给出更精准的答案。

两种不同的规则产生分形架构:

1、简单的扩展规则生成分形架构。具体如图2所示,基础情形f1(z)包含输入输出之间单个选定类型的层。连接层计算了逐元素平均;

2、深度卷积网络周期性地通过汇集来降低空间分辨率。具体如图3所示,分形版本使用fc(·)作为汇集层之间的建构单元。把b个这样的块堆起来就得到一个网络,其总深度是b·2c-1(通过卷积层衡量)。

令c表示截断分形fc(·)的指标,网络结构、连接以及层类型,通过fc(·)定义;包含单个卷积层的网络是基础情形如公式(1-2):

f1(z)=conv(z)(1-2)

递归定义接下来的分形如公式(1-3):

表示复合,而表示连接操作,c对应于列数,或者说网络fc(·)的宽度;深度定义为从输入到输出的最长路径上的conv层的个数,正比于2c-1;用于分类的卷积网络通常分散布置汇集层;为了达到相同目的,使用fc(·)作为构建单元,将之与接下来的汇集层堆叠b次,得到总深度b·2c-1

连接操作把两个特征块合为一个;一个特征块是一个conv层的结果:在一个空间区域为固定的一些通道维持活化的张量;通道数对应于前面的conv层的过滤器的个数;当分形被扩展,把相邻的连接合并成单个连接层;如图3的右侧所示,连接层把所有其输入特征块合并成单个输出块。

连接层行为的几种选择看起来都是合理的,包括拼接和加法;把每个连接实例化,计算其输入的逐元素平均;这对于卷积网络是恰当的,在那里通道数对一个分形块里的所有conv层是相同的。

路径舍弃的新正则化规则:dropout和drop-connect通过修改网络层序列之间的相互作用来减弱共同适应(co-adaptation)。由于分形网络包含额外的大尺度结构,提出使用一种类似的粗粒度正则化策略来辅助这些技术。

dropout禁止了活化的共同适应,路径舍弃通过随机丢弃连接层的操作数来禁止平行路径的共同适应。这压制了网络使用一个路径作为锚标,用另一个作为修正(这可能导致过拟合)的行为。两个采样策略:

局部:连接层以固定几率舍弃每个输入,但保证至少一个输入保留。

全局:每条路径是为了整个网络选出的。限制这条路径是单列的,激励每列成为有力的预测器。

(6)根据训练好模型测试图像:根据前面步骤(1)、(2)、(3)、(4)和(5)等步骤训练好的网络使用经过步骤(2)和(3)处理的测试gabor特征伪彩图进行测试。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1