基于级联的sift特征和稀疏编码的图像分类方法

文档序号：6397570阅读：331来源：国知局

专利名称：基于级联的sift特征和稀疏编码的图像分类方法
技术领域：
本发明属于图像处理技术领域，涉及图像的分类方法，可用于物体或目标的识别，从而可用于目标的检测和跟踪。
背景技术：
图像的分类与识别一直是图像处理领域和计算机视觉领域研究的重点之一，现阶段国内外关于目标识别与图像分类的研究蓬勃发展，目标识别广泛地应用于图像全景制作、图像水印、机器人全局定位、人脸检测、光学字符识别、制造质量控制、基于内容的图像检索、目标计数及监测、自动车辆停车系统、视觉定位及跟踪和视频去抖动等领域。而图像的分类和识别结果的好坏很大程度上依赖于如何进行图像的有效表示。近年来，随着计算机视觉领域的不断发展，有效的构建图像表示越来越成为该领域内研究者们关注的重点，它直接关系到图像分类与识别的正确率，是对图像进行有效分类的关键步骤。在计算机视觉领域，图像表示，又称为视觉描述子或图像描述子，是对图像、视频中的内容所具有的视觉特征的一种描述。它们描述了图像中的基本特征，比如形状、颜色、纹理或者运动。具体来说，为了找到数字图像中的像素和人们在看了一幅或一系列图像后形成的影像这两者之间的联系，寻找最合适的图像描述子就是建立这种联系的第一步。随着计算机视觉的不断发展，高效的图像描述子在图像处理的各种应用中越来越具有显著的重要性，密切关系到对图像的进一步处理及应用效果的好坏，比如图像分类、目标的检测与跟踪。目前，为了寻求高效的图像描述，在图像分类和目标识别方面，级联的深度网络得到了飞速的发展，其在图像描述方面的应用也得到了进一步的挖掘。当前的图像描述子构建主要分为两大模块基于底层图像特征的构建和基于图像像素的构建。基于底层特征的方法当前主要是和单层网络相结合而存在，例如，J. Yang提出的基于稀疏编码线性空间金字塔匹配方法(Linear Spatial Pyramid MatchingusingSparse Coding)和 A. Coates 和 A. Ng 提出的软域值投票方法(soft thresholdvoting)，其缺点是(1)底层特征存在着冗余，没有进行精简的特征会增加后期图像分类的模糊性；(2)直接使用底层的特征丢失了局部图像块的结构化信息；(3)单层的网络不能有效地模拟人的视觉注意机制。基于图像像素的方法，例如，L. Bo提出的级联匹配追踪(Hierarchical Matching Pursuit)和 K. Yu 提出的级联稀疏编码(HierarchicalSparseCoding),其最显著的缺点是没有局部图像块的结构化信息。综上所述，以上方法存在的不足有一方面没有精简原始的图像特征，导致提取出的图像底层特征具有的冗余信息没有去除，并且原始的图像特征没有捕获到局部图像块的结构化信息；另一方面单层网络构建的图像特征表征的信息没有深度，对图像中局部较显著的细节不能较好的描述，不能较好的模拟人在看到一幅图像后进行深度挖掘图像中的关键信息的能力，比如定位到图像中对比度较强或边缘较显著的部分。由于以上原因导致最终图像分类的正确率相对低。

发明内容
针对以上的不足，本发明提出了一种基于级联的SIFT特征和稀疏编码的图像分类方法，以精简图像原始的SIFT特征，去除相对冗余的部分，提高图像分类的正确率。实现本发明目的的技术思路是从图像的局部到全局，一级一级地构建图像的特征，在第一级图像特征的构建中通过一个三层的空间金字塔最大化池方法精简原始的图像特征，去除相对冗余的部分，并且加入局部图像块的结构化信息；在第二级图像特征构建中通过稀疏编码和空间金字塔最大化池方法相结合，加入图像整体结构化信息，进一步提取出了第一级输出的图像特征中的显著部分，以提高图像分类的准确性。其实现步骤包括如下(I)将Caltech-1Ol数据集中每个图像按8像素的步长分成32X32像素大小的块，提取每个图像块的尺度不变特征SIFT，得到一个512维的原始尺度不变SIFT特征向(2)对每个图像块中的SIFT特征利用空间金字塔最大化池方法得到168维的新特征向量y ；(3)随机从Caltech-1Ol数据集中所有的32X32像素大小的图像块中选取200000块通过K-奇异值分解方法K-SVD训练字典D，其中每一块的特征向量为新特征向量y ；(4)对每一幅图像中所有块的新特征向量y，通过已经训练好的字典D进行稀疏编码，得到稀疏表示X ;(5)对于每一幅图像，对其稀疏表示矩阵X再次运用空间金字塔最大化池方法整合图像块中的显著性特征，得到整幅图像的特征表示I;(6)把图像的特征表示I输入到线性支撑矢量机SVM分类器，经过训练测试，得到图像的最终分类结果。本发明与现有技术相比具有如下优点1、对原始的SIFT特征应用空间金字塔最大化池方法，不仅提取到原始SIFT特征中的显著性部分，去除了冗余的部分，相对降低了图像块的SIFT特征维数，而且三层的空间金字塔模型捕获了局部图像块的结构化信息；2、对空间金字塔最大化池方法处理后的SIFT特征进行稀疏表示，然后再对稀疏表示进行空间金字塔最大化池方法处理，不仅捕获了整幅图像的结构化信息，而且最终得到一个高维的、稀疏的图像特征表示，这就可以利用简单的线性SVM分类器达到甚至优于非线性SVM分类器的效果；3、对原始SIFT特征和稀疏编码采用级联的空间金字塔最大化池方法处理，不仅整合了局部图像块的结构化信息和整幅图像的结构化信息，而且更好的模拟了人在看到一幅图像后深度挖掘局部图像细节的能力；仿真实验表明，本发明的图像分类效果比现有的图像分类效果好。

图1是本发明的实现流程图；图2是本发明构建图像特征表示的示意图；图3是用于仿真实验的Caltech-1Ol数据集图像。
具体实施例方式参照图1，本发明的实现步骤如下步骤1，提取图像的尺度不变SIFT特征向量(Ia)对32X32像素大小的图像块进行高斯滤波，其中高斯滤波块的均值为0，方差为1，大小为5X5 ；(Ib)对高斯滤波后的图像块求出每一个像素点的梯度，包括模值和方向；(Ic)统计每个4X4像素的图像块内每个像素点分别在8个方向上的投影大小之和，产生一个8维的特征向量，其中只统计正值，8个方向分别为O度，45度，90度，135度，180度，225度，270度，315度，对于32X32像素大小的图像块内64个4X4像素的图像块的8维特征向量，提取到的尺度不变SIFT特征向量为512维。步骤2，对提取的尺度不变SIFT特征应用空间金字塔最大化池方法，提取出原始尺度不变SIFT特征中的显著性特征。(2a)对整个32X32像素大小的图像块中64个8维的SIFT特征向量的每一维，求出64个图像块中在该维数上的最大值，得到一个8维的特征向量，即把64个8维的SIFT特征向量写成一个8X64的矩阵，求出矩阵中每一行的最大值，得到一个8维的特征向量；(2b)把32X32像素大小的图像块分成16X16像素的4个图像块，对于每一个16X16像素块应用步骤(2a)所述方法，共计得到4个8维的特征向量；(2c)把32 X 32像素大小的图像块分成8X8像素的16个图像块，对于每一个8X8像素块应用步骤(2a)所述方法，得到16个8维的特征向量；(2d)连接上面得到的21个8维特征向量，得到一个168维的新特征向量y。步骤3，随机从步骤2得到的新特征向量中选取200000个训练字典D (3a)对于Caltech-101数据集中所有的32X32像素大小的块，随机从中选取200000块，其中每一块的特征向量为168维的新特征向量y，用所有200000图像块的新特征向量组成矩阵Y，矩阵Y的大小为168 X 200000，其中每一列表示一个32 X 32像素大小图像块的新特征向量；(3b)从矩阵Y中随机选取1024个新特征向量初始化字典D，即字典D的大小为168X1024,其中每一列表一个新特征向量；(3c)通过K-奇异值分解方法K-SVD训练字典D，即从优化方程Y-DX ||^}，Vi, IxiI I0^ T0, I ^ I ^ 200000中，求出字典D的近似解，其中Xi表示X的第i列；TQ为稀疏度，取值为5 ; I I Xi I I ^表示向量Xi的O范数，即向量Xi中非零元素的个数；Il Y -DXII；表示矩阵Y-DX的F范数的平方，求解步骤如下(3cl)固定字典D不变，通过正交匹配追踪方法解出Y中每一列Ii对应的稀疏表示 Xi，其中200000 ；(3c2)定义式
权利要求
1.一种基于级联的SIFT特征和稀疏编码的图像分类方法，包括如下步骤(1)将Caltech-1Ol数据集中每幅图像按8像素的步长分成32X32像素大小的块，提取每个图像块的尺度不变特征SIFT，得到一个512维的原始尺度不变SIFT特征向量；(2)对每个图像块中的SIFT特征利用空间金字塔最大化池方法得到168维的新特征向量y ；(3)随机从Caltech-1Ol数据集中所有的32X32像素大小的图像块中选取200000块通过K-奇异值分解方法K-SVD训练字典D，其中每一块的特征向量为新特征向量y ；(4)对每一幅图像中所有块的新特征向量y，通过已经训练好的字典D进行稀疏编码，得到稀疏表示X ;(5)对于每一幅图像，对其稀疏表示矩阵X再次运用空间金字塔最大化池方法整合图像块中的显著性特征，得到整幅图像的特征表示I ;(6)把图像的特征表示I输入到线性支撑矢量机SVM分类器，经过训练测试，得到图像的最终分类结果。
2.根据权利要求1所述的基于级联的SIFT特征和稀疏编码的图像分类方法，其中步骤(I)所述的提取每个图像块的尺度不变特征SIFT，按如下步骤进行(Ia)对32X32像素大小的图像块进行高斯滤波，其中高斯滤波块的均值为0，方差为 1，大小为5X5 ；(Ib)对高斯滤波后的图像块求出每一个像素点的梯度，包括模值和方向；(Ic)统计每个4X 4像素的图像块内每个像素点分别在8个方向上的投影大小之和，产生一个8维的特征向量，其中只统计正值，8个方向分别为O度，45度，90度，135度，180 度，225度，270度，315度，对于32 X 32像素大小的图像块内64个4 X 4像素的图像块的8 维特征向量，提取到的尺度不变SIFT特征向量为512维。
3.根据权利要求1所述的基于级联的SIFT特征和稀疏编码的图像分类方法，其中步骤(2)所述的对每个图像块中的SIFT特征利用空间金字塔最大化池方法得到168维的新特征向量y，按如下步骤进行(2a)对整个32X32像素大小的图像块中64个8维的SIFT特征向量的每一维，求出 64个图像块中在该维数上的最大值，得到一个8维的特征向量；(2b)把32X32像素大小的图像块分成16X 16像素的4个图像块，对于每一个16X 16 像素块应用步骤(2a)所述方法，共计得到4个8维的特征向量；(2c)把32X32像素大小的图像块分成8X8像素的16个图像块，对于每一个8X8像素块应用步骤(2a)所述方法，得到16个8维的特征向量；(2d)连接上面得到的21个8维特征向量，得到一个168维的新特征向量I。
4.根据权利要求1所述的基于级联的SIFT特征和稀疏编码的图像分类方法，其中步骤(3)所述的随机从Caltech-1Ol数据集中所有的32X32像素大小的图像块中选取200000 块通过K-奇异值分解方法K-SVD训练字典D，按如下步骤进行(3a)对于Caltech-1Ol数据集中所有的32X32像素大小的块，随机从中选取200000 块，其中每一块的特征向量为168维的新特征向量y，用所有200000图像块的新特征向量组成矩阵Y，矩阵的大小为168X200000 ；(3b)从矩阵Y中再随机选取1024个特征向量初始化字典D，即字典D的大小为168X1024 ；(3c)通过K-奇异值分解方法K-SVD训练字典D，即从优化方程求出字典D的近似解，其中Xi表示X的第i列Jtl为稀疏度，设为5。
5.根据权利要求1所述的基于级联的SIFT特征和稀疏编码的图像分类方法，其中步骤(4)所述的对每一幅图像中所有块的新特征向量y，通过已经训练好的字典D进行稀疏编码，得到稀疏表示X，即x=DTy,其中Dt表示D的转置。
6.根据权利要求1所述的基于级联的SIFT特征和稀疏编码的图像分类方法，其中步骤(5)所述的对于每一幅图像，对其稀疏表示矩阵X再次运用空间金字塔最大化池方法整合图像块中的显著性特征，按如下步骤进行(5a)对整幅图像中所有32X32像素大小的图像块的稀疏表示，求出其各个维度的最大值，得到一个1024维的特征向量；(5b)把整幅图像分为2X2的4个图像块，求出每一个图像块中所有稀疏表示在各个维度的最大值，得到共4个1024维的特征向量；(5c)把整幅图像分为4X4的16个图像块，求出每一个图像块中所有稀疏表示在各个维度的最大值，得到共16个1024维的特征向量；(5d)将步骤(5a)、(5b)、(5c)所得到的共21个1024维的特征向量合成，得到21504维的整幅图像特征表示I ;(5e)对Caltech-1Ol数据集中所有的图像重复步骤(5a) (5d)，得到Caltech-101数据集中所有图像的特征表示。
7.根据权利要求1所述的基于级联的SIFT特征和稀疏编码的图像分类方法，其中步骤(6)所述的把图像的特征表示I输入到线性支撑矢量机SVM分类器，经过训练测试，得到图像的最终分类结果，按如下步骤进行(6a)随机从Caltech-1Ol数据集中每一类图像的特征表示中选取30个作为训练样本，其余的作为测试样本；(6b)将步骤(6a)随机选取的30个特征表示，输入到线性支撑矢量机SVM分类器中进行训练，得到训练好的SVM分类器；(6c)把步骤(6a)中得到的测试样本输入到步骤(6b)训练好的SVM分类器，得到图像的最终分类结果。
全文摘要
本发明公开一种基于级联的SIFT特征和稀疏编码的图像分类方法。其实现步骤为(1)将数据集中每幅图像按8像素步长、32×32像素块，提取512维尺度不变SIFT特征；(2)对每个图像块的SIFT特征应用空间最大化池方法得到168维的向量y；(3)随机从数据集中所有32×32的图像块中选取数块，通过K-奇异值分解方法训练字典D；(4)对每一幅图像中所有块的向量y，通过字典D进行稀疏表示；(5)对于每一幅图像中所有的稀疏表示应用步骤(2)方法，得到整幅图像的特征表示；(6)将图像的特征表示输入到线性SVM分类器，得到图像的分类结果。本发明具有捕获图像局部结构化信息，去除图像底层特征冗余的优点，可用于目标识别。
文档编号G06K9/62GK103020647SQ20131000632
公开日2013年4月3日申请日期2013年1月8日优先权日2013年1月8日
发明者韩红, 韩启强, 张红蕾, 谢福强, 顾建银, 李晓君申请人:西安电子科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩红;韩启强;张红蕾;谢福强;顾建银;李晓君
技术所有人：西安电子科技大学
我是此专利的发明人

上一篇：基于时空兴趣点检测的人体运动识别方法
上一篇：双界面智能卡制作工艺与双界面智能卡的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。