一种Gabor小波CNN图像分类方法与流程

文档序号:14991453发布日期:2018-07-20 22:18阅读:2710来源:国知局

本发明涉及图像分类领域,尤其是涉及一种gabor小波cnn的图像分类方法。



背景技术:

图像分类是计算机视觉中的重要研究内容。分类的关键任务是如何提取图像特征以及利用特征来识别图像。gabor小波的幅度系数是有效的图像特征并被广泛应用。然而gabor小波特征系数庞大,还需要进一步对这些gabor小波系进行提取。gabor小波由若干不同方向和频率的gabor滤波器组成,用其分解一副图像i(x,y)可以表示为:gl,d(z)=i(x,y)*ψl,d(x,y),其中ψl,d(x,y)是在l尺度和d方向上的gabor滤波器。gl,d(z)是分解后得到的gabor子带,共有l×d个子带。gl,d(z)是复数,它的幅度ml,d(z)表示为:

其中rel,d(z)和iml,d(z)分别是gabor小波的实部和虚部系数。

深度cnn(卷积神经网络)是一种重要图像特征提取与识别技术,也是层次化字典学习模型的提高版,它试图利用深度的cnn来模拟灵长类动物的视觉简单的边线特征到整体物体特征,实现便捷的端到端(end-end)的图像分类和识别。但由于灵长类动物视觉的复杂性和非线性特点,cnn为数不多的非线性操作(如relu、doupout),研究人员们企图增加更多的卷积层和全连接层来模拟视觉的非线性特性,目前cnn已经达到了100层,但还是难以达到预期效果。鉴于此,近年来研究人员们探索将深度学习技术结合传统方法来提升机器视觉方法的性能。



技术实现要素:

gabor小波属于传统的图像特征提取工具,但是它仍然是很好的图像刻画能力。gabor小波将图像分解为若干子带,这些子带可以用协方差矩阵进行拟合来,并以这个协方差矩阵来表示图像。在进行图像分类时需要比较两个协方差模型之间的相似度。通常用黎曼距离(riemanniandistance,rd)来度量两个协方差之间的距离(相似度)。假定两个协方差矩阵分别表示为r1和r2,则它们之间的黎曼距离rd表示为:其中λ(r1,r2)是r1和r2的泛化特征值,ln是自然对数操作。由于涉及矩阵操作,计算两个协方差矩阵的相似度开很销大,更重要的是引入学习机制困难,性能难以得到质的提升。本发明用cnn(卷积神经网络)转换法将协方差矩阵转换为特征向量,并用转换后的特征向量来进行图像分类。

大致分类方案描述为:将图像进行l尺度和d方向的gabor小波分解,将分解后的l×d=m个分解子带看成m维的随机变量产生的观察数据;根据这m维随机向量的观察数据,计算其协方差矩阵。将训练数据库中图像的协方差矩阵当作cnn的输入数据,将图像的类别当作cnn的输出,组合成n个训练样本对(n是训练数据库中图像个数)来进行训练cnn;训练好的cnn便可以用来转换gabor小波域的协方差矩阵;最后分类时根据转换后的特征向量来训练svm(支持向量机),在用svm进行分类图像。

附图说明

图1为本发明将协方差矩阵转换为特征向量的关键步骤。

图2为本发明设计的cnn(卷积神经网络)结构图。

图3为本发明分类图像的流程图。

具体实施方式

本发明先将图像转化为特征向量并保存在图像特征向量数据库(见图1),然后利用支持向量机(svm)进行分类。下面说明具体实施步骤:

步骤1,计算协方差模型库,具体由下列步骤组成(见图1):

步骤1.1,用gabor小波将图像iq(x,y)分解为5尺度8方向的分解子带,并计算其幅度系数(x,y表示图像像素位置)。对彩色图像,假定是rgb图像,则用gabor小波分别在3个颜色通道上执行分解。这些gabor子带表示为g1(x,y),g2(x,y),…,gm(x,y),其中m是分解子带数。对于灰度图像m=40,,对于rgb彩色图像m=120。

步骤1.2,计算gabor小波协方差矩阵。将gabor子带在图像位置(x,y)处组合为维数为m的特征向量zi=[g1(x,y),g2(x,y),…,gm(x,y)]t。对于图像的所有n个像素位置,则有{zi}i=1,…,n。然后根据zi计算协方差矩阵:

其中

步骤1.3,对数据库里面的所有图像进行步骤1.1到1.2操作得到所有图像的协方差矩阵,并保存到协方差模型库。协方差模型库里面是存储每一个图像对应的协方差矩阵及其类别标签。

步骤2,训练cnn。利用步骤1中获得的协方差模型库训练cnn(卷积神经网络)。逐一将每个图像的协方差矩阵当作cnn的输入矩阵,将该图像的标签当作cnn的类别标签来训练cnn。本发明的cnn主体结构(如图2所示)有2个卷积层、2个最大化池层(max-pooling)、2个全连接层,具体设置如下:卷积层1为25个3×3的卷积核;卷积层2为12个3×3的卷积核,最大池化层1与最大池化层2设置为2×2局部滑动窗口,步长为2;全连接层1节点个数为1200;全连接层2节点为k(k等于数据库中类别数);softmax层以图像类别为目标,采用交叉熵损失函数训练网络。此步骤得到用于转换协方差矩阵的cnn模型。

步骤3,计算图像特征向量。用训练好的cnn模型将协方差模型库中所有协方差矩阵化为特征向量,并连同其标签一起存储于图像特征向量数据库。

步骤4,训练svm。根据图像特征向量数据库中的图像特征向量和该图像的标签训练svm,得到svm模型。

步骤5,实现图像分类。设被查询图像为iq其类别未知,则由如下步骤可以识别其类别(见图3):

步骤5.1,用gabor小波分解图像iq(见步骤1.1),得到40个分解分解子带,若是rgb彩色图像则得到120个分解子带。

步骤5.2,根据步骤5.1得到的分解子带,计算其协方差矩阵(见步骤1.2)

步骤5.3,用cnn模型计算图像iq的特征向量。将协方差矩阵输入cnn模型得到iq的特征向量。

步骤5.4,识别图像iq的类别。将图像iq的特征向量输入svm模型便得到分类结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1