基于空间金字塔稀疏编码的自然场景多标记分类方法

文档序号：9350408阅读：437来源：国知局

基于空间金字塔稀疏编码的自然场景多标记分类方法
【技术领域】
[0001] 本发明属于图像处理技术领域，特别涉及图像平移、旋转、亮度和尺度变化的自然场景分类方法，具体是一种基于空间金字塔稀疏编码的自然场景多标记分类方法，可用于图像的自然场景匹配、分类和识别。
【背景技术】
[0002] 在过去的十年里，自然场景图像分类已经成为图像处理领域里一个很重要的技术问题。自然场景图像分类有很广泛的应用，如目标识别与检测、智能车辆或机器人导航等领域。由于自然场景图像类内差异性、照明条件差异性和图像本身尺度差异性较大，使得自然场景图像分类问题仍然较难处理。早期的一些自然场景图像分类方法大多数是应用低层信息建立模型的，这些方法采用全局统计信息，如运用全局的颜色或者纹理特征直方图表示图像。尽管这些方法的时间复杂性较低，但是它们通常应用于人为场景图像和室内场景图像分类，对自然场景的描述不够完全，并且分类结果较差。
[0003] 多标记学习是针对现实世界中普遍存在的多义性对象而提出的一种学习框架。在该学习框架下，每个对象由一个示例描述，该示例具有多个类别标记，学习的目的是将所有合适的类别标记赋予未标记示例。在自然场景分类问题中，图像可能同时隶属于多个类别，例如同一幅图像中，既有"山"也有"树"，或者既有"沙漠"也有"海洋"，而单标记学习只能对图像标记成一种类别，多标记学习可对图像标记成多个类别。该问题可以很自然地利用多标记学习框架进行建模，且描述较完全。
[0004] 目前已经出现了大量的多标记分类方法，并在自然场景分类领域得到了广泛应用。Boutell等人将自然场景多标记分类问题转化为多个独立的二分类问题，并给出了多种预测准则用于从各个二分类的支持矢量机SVM分类器中确定测试样本的类别。该方法使用颜色信息（colorinformation)作为特征向量来描述图像，在图像平移、旋转、亮度和尺度变化时适应性较差，并且存在对自然场景描述不完全的情况。
[0005] Zhang和Zhou提出了一种基于懒惰学习（lazylearning)技术的多标记学习算法--多标记K近邻（ML-KNN)，该算法直接使用测试样本与训练样本的相似度来对概念标记进行预测。该方法也同样使用颜色信息作为特征向量来描述图像，存在适应性较差的问题。
[0006] 图像的有效信息除了有颜色信息，还有纹理、轮廓、尺度信息等深层涵义信息。上述方法在多标记分类问题中均仅使用颜色信息作为特征向量，因此在图像平移、旋转、亮度和尺度变化时很难获得图像的完整正确分类。

【发明内容】

[0007] 本发明的目的在于针对上述现有技术方法的不足，提出了一种基于空间金字塔稀疏编码的自然场景多标记分类方法，以减少由于图像平移、旋转、亮度和尺度变化带来的误分，且该方法对于光线、噪声、微视角改变、部分物体遮蔽的容忍度也相当高，提高了自然场景多标记分类的正确率和鲁棒性。
[0008] 为实现上述目的，本发明的技术方案包括如下步骤：
[0009] (1)建立自然场景图像多标记类别库；
[0010] (2)对自然场景图像多标记类别库中的每幅图像，提取图像的尺度不变SIFT特征矩阵F:
[0011] 以k像素为步长均匀采样，并提取每个采样点周围16X16像素大小图像块的d维尺度不变特征SIFT，得到图像的SIFT特征矩阵F= {yi，y2，…，yi，…，yn}GRdxn，其中R表示实数集合，表示图像的第i个图像块的SIFT特征向量，i= 1，2,…，n，n表示图像中图像块的个数，d表示SIFT特征维数；
[0012] (3)对所有图像的SIFT特征矩阵，从中随机选取M个特征向量，构成新特征矩阵 Y，将其通过K-奇异值分解方法K-SVD训练字典D，M取值为100000-1000000之间的整数；
[0013] (4)对每幅图像的特征矩阵F，通过已经训练好的字典D进行稀疏编码，得到图像的稀疏矩阵W;
[0014] (5)对每幅图像的稀疏矩阵W，利用空间金字塔最大池化方法，得到图像的稀疏编码向量X;
[0015] (6)将每幅图像的稀疏编码向量X分别通过多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类，通过多分类支持矢量机SVM的分类结果为S，通过排序支持矢量机 Rank-SVM的分类结果为R:
[0016] (6a)把图像的稀疏编码向量X输入到多分类支持矢量机SVM中，通过一对多的正项准则策略，经过训练、测试，得到图像的分类结果S=以，S2，…，S1，…，S丄其中S1表示在该分类策略中第i幅图像的分类结果，m表示测试图像的总数；
[0017](6b)把图像的稀疏编码向量X输入到排序支持矢量机Rank-SVM中，经过训练、测试，得到图像的分类结果R=取，R2，…，R1，…，RnJ，其中民表示在该分类策略中第i幅图像的分类结果；
[0018] (7)通过多分类支持矢量机SVM的分类结果S辅助校正排序支持矢量机Rank-SVM 的分类结果R，得到自然场景图像多标记类别库中图像的最终分类结果C:
[0019] 多分类SVM的分类结果S= (S1,S2，…，S1，…，SJ中找到非零向量的位置为j，j =1，2,. .m，用位置为j的非零向量Sj替换Rank-SVM的分类结果R={RuR2，…，R1，…，RJ 中对应位置j的向量R,，得到自然场景图像多标记类别库中图像的最终分类结果C= (R1,R2，…，Sj，…，R1J，其中Sj为替换向量Rj的非零向量。
[0020] 本发明与现有的技术相比具有以下优点：
[0021] 本发明首先输入自然场景图像多标记类别库中的图像，提取它的尺度不变特征 SIFT。其次，用K-奇异值分解方法K-SVD对初始字典进行学习得到稀疏字典D，利用空间金字塔最大池化方法和稀疏字典对图像进行稀疏编码。最后，通过多标记分类方法和判定准则对自然场景图像进行分类。本发明在不限制分类类别数目的同时，有效地提高了自然场景图像的分类精度和鲁棒性，并且有效的利用了图像的局部信息。与现有的技术相比，本发明具有以下优点：
[0022] 1、本发明提取了自然场景图像的SIFT特征，其作为图像特征有效地获取了图像的局部信息，能适应图像平移、旋转、亮度和尺度变化带来的影响；
[0023] 2、本发明利用K-SVD算法得到较好的稀疏字典，使分类结果有更好的鲁棒性；
[0024] 3、本发明利用多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类，并利用多分类支持矢量机SVM的分类结果辅助校正排序支持矢量机Rank-SVM的分类结果，使得最终的分类结果准确率更高，分类鲁棒性更好。
【附图说明】
[0025] 图1是本发明的实现流程图；
[0026]图2是本发明仿真采用的自然场景图像多标记类别库中的样例图像。
【具体实施方式】
[0027] 以下结合附图对本发明的实施例和效果作进一步详细描述：
[0028]图像分类问题是图像处理技术领域中重要的分支，图像分类问题中普遍存在着一幅图像对应多个类别的情况，图像分类要解决的问题不仅是按照以图为单位进行分类，也要以图的种类进行标注。图像分类可应用于目标识别与检测、智能车辆或机器人导航等领域。目前对于自然场景图像多标记分类方法还存在图像特征提取不充分的问题。本发明是在这一技术领域进行的研究。
[0029] 实施例1
[0030] 本发明是一种基于空间金字塔稀疏编码的自然场景多标记分类方法。参照图1，本发明的具体实施步骤如下：
[0031] 步骤1，建立自然场景图像多标记类别库，将图像作为输入数据。
[0032] 将自然场景图像多标记类别库original作为本发明实验使用图像库，该图像库包含2000幅自然场景图像，所有可能的概念标记为沙漠、山、海洋、落日和树，每幅图像被人工标注了一组概念标记集合。具有两个或两个以上概念标记（例如"海洋+落日"）的图像约占图像库的22 %，每幅图像平均对应于1. 24 ±0. 44个概念标记。
[0033] 步骤2,对自然场景图像多标记类别库中的每幅图像，提取图像的尺度不变SIFT 特征矩阵F。
[0034] 以k像素为步长均匀采样，并提取每个采样点周围16X16像素大小图像块的d 维尺度不变特征SIFT，本例中以8像素为步长均匀采样，并提取每个采样点周围16X16像素大小图像块的d维尺度不变特征SIFT，得到图像的SIFT特征矩阵F=Iy1,y2, -^yi,… ，yJGRdxn，其中R表示实数集合，yi表示图像的第i个图像块的SIFT特征向量，i= 1，2,…，n，n表示图像中图像块的个

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：焦李成;张丹;马文萍;屈嵘;曾杰;刘红英;王爽;侯彪;杨淑媛;尚荣华;
技术所有人：西安电子科技大学;
我是此专利的发明人

上一篇：基于空间正则化流形学习算法的高光谱遥感图像分类方法
上一篇：基于高斯滤波和pso的极化sar地物分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。