基于空间金字塔模型的多特征组合表达的场景图像分类方法与流程

文档序号:12471261阅读:342来源:国知局
本发明属于计算机视觉和场景图像处理领域,具体涉及一种基于空间金字塔模型的多特征组合表达的场景图像分类方法。
背景技术
:根据eMarketer的最新数据,2016年全球智能手机用户数量将超过21亿,随着智能手机和数码照相机等具有拍照功能的移动终端设备的迅速普及,这必将大大促使图像信息资源的急剧膨胀,形成海量的信息环境。海量图像资源在给我们的工作和生活带来极大便利的同时,如何更加有效地管理海量的图像数据以及如何快速准确地检索到我们感兴趣的图像却变得越来越困难。因此,面对浩如烟海的图像资源,如果依靠传统的人工标注的方法不仅耗时费力,而且也存在主观的不确定性,这显然已不符合当今多媒体信息时代快速发展的需求。那么,如何利用计算机等智能设备来完成对图像资源的自动分类和高效管理,成为人们关注的一个重要问题。场景图像分类正是在这样的需求和背景下得到迅速的推动和发展。场景图像分类作为二十世纪九十年代末开始兴起的一个新的研究领域,发展至今形成了很多有价值的研究方法。在以往基于视觉特征提取的场景图像分类研究中,基于单一特征表示图像的研究居多,而基于多特征组合表示图像的研究相对较少。由于场景图像的背景和对象目标往往比较复杂,仅仅使用单一特征往往不足以充分地表述场景图像的完整信息,这限制了场景图像分类的性能。因此,如何更好地组合有效的场景图像特征是一个值得深入研究的领域。经过各方的努力,场景图像分类的研究取得了斐然的成绩,但是相对于人类视觉辨识场景仍然存在较大的差距,实现场景图像的准确分类识别仍然面临着诸多挑战。影响场景图像分类性能的主要因素包括两个方面:(1)形成有效的场景图像特征表达;(2)充分利用场景图像的上下文信息。针对第一个因素,目前大多数的研究是基于单一特征的分类研究,基于多特征组合表达的研究还不太多。而场景图像又往往具有复杂的对象和背景信息,往往会造成信息的缺失。技术实现要素:针对上述场景图像分类性能不佳、识别率低的问题,本发明提出了一种基于空间金字塔模型的密集SIFT(DenseSIFT,Dense-SIFT)特征和局部Gist(LocalGist,L-Gist)特征组合表达图像的分类方法。在空间金字塔模型的基础上,利用多特征组合来表示图像,提高了得场景图像分类的精度。实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:一种基于空间金字塔模型的多特征组合表达的场景图像分类方法,包括以下步骤:步骤1、建立包含多类图像的训练图像集和测试图像集;步骤2、对训练图像集和测试图像集分别进行场景图像视觉特征的提取,并对提取出来的场景图像视觉特征进行归一化处理,场景图像视觉特征包括:图像的局部Dense-SIFT特征和局部L-Gist特征;步骤3、对步骤2中提取的两种局部特征分别采用基于稳定初值的二次k-means++聚类算法,构建这两种局部特征的视觉词典,最后引入权重来构建组合后总的视觉词典;步骤4、分别以多圆形逐层细化训练图像集和测试图像集中的各个场景图像,构建各个场景图像的L层多圆划分的环形空间金字塔,得到1+2+3+……+L个环形子图像块,并对环形空间金字塔的每一层的环形子图像块进行场景图像视觉特征的提取,结合步骤3中构建的两种局部特征的视觉词典,对环形空间金字塔的每一层的环形子图像分别进行每个特征下的图像的向量表示,然后经过加权后级联各层的图像的向量表示分别汇聚成每个特征下的超级量表示,最后对每个特征下的超级向量通过加权并置为一个高维向量,加权系数与构建总视觉词典时的系数保持一致;步骤5、将训练图像集的各图像的高维向量表示送入SVM分类器中进行训练,训练完成后,将测试图像集的各图像的高维向量表示送入训练好的SVM分类器中进行测试,实现场景图像的分类。所述步骤S2中,提取图像的局部Dense-SIFT特征,具体为:采用滑动采样方式,得到一系列图像区块,计算其水平梯度Gx和垂直梯度Gy,如下式(1)所示:g(x,y)=G(x,y,σ)/I(x,y)Gx=g(x+1,y)-g(x-1,y)Gy=g(x,y+1)-g(x,y-1)---(1)]]>其中,I(x,y)表示原始图像,g(x,y)表示滤波后的图像,G(x,y,σ)为高斯核函数;x和y为图像像素点的坐标,σ为核函数的参数。根据式(1)计算其梯度值m(x,y)和方向角θ(x,y),如下式(2)所示:m(x,y)=Gx2+Gy2θ(x,y)=arctanGyGx---(2)]]>将每一个采样得到的图像区块都均匀划分为4×4=16个子块,并在每个字块内以8个方向加权统计方向直方图,然后把这16个子块的梯度直方图依次级联起来,就可以得到了一个16×8=128维的局部区域特征描述子;提取图像的局部L-Gist特征,具体为:采用滑动采样方式,得到一系列图像区块,利用m尺度n方向的Gabor滤波器组对这些图像区块进行多通道卷积来提取场景的Gist特征,Gabor滤波器组是由一个二维母函数扩展形成的,二维母函数如下式(3)所示:其中,x和y表示二维坐标;σx和σy分别是x和y方向高斯分布的方差;是该余弦谐波因子的相位差;f0是滤波器的中心频率;在这个二维母函数的基础上经过多尺度伸缩和多角度旋转变换扩展成一组Gabor滤波器,扩展过程如下式(4)所示:gmn(x,y)=α-mg(x*,y*),α>1x*=α-m(xcosθ+ysinθ)y*=α-m(-xsinθ+ycosθ)θ=nn+1π---(4);]]>其中,m和n分别为Gabor滤波器组的尺度数和方向数,α-m为尺度扩展因子,θ为滤波器的方向旋转角;通过改变m和n就可得到一系列不同的滤波器。所述提取L-Gist特征时,采取4尺度8方向的滤波器组把每个图像块划分为4×4的网格,得到的局部Gist特征的维数是(4×8)×(4×4)=512维。所述步骤3具体为:对步骤2中提取的两种特征都分别采用基于稳定初值的二次k-means++聚类算法,即对于图像集中提取的每一种特征都要进行二次聚类过程,即分别对每一类的图像集单独进行聚类,先得到各个类的视觉词典,也称为第一次聚类的视觉词典,且在第一次聚类时选取各类的聚类系数要一致,然后再对第一次聚类生成的视觉词典的集合进行第二次聚类,分别构建这两种局部特征的视觉词典,最后根引入权重来构建组合后总的视觉词典,分别用WD-SIFT和WL-Gist来表示两种特征的视觉词典,总得视觉词典WMF可用下式(5)表示:WMF={αWD-SIFTβWL-Gist},α+β=1(5)式中,α、β分别代表Dense-SIFT和L-Gist这两种特征在场景分类任务的权重值,WMF表示特征组合后总的视觉词典,α的取值根据实际试验结果选定。所述步骤S3中的K-means++聚类算法按如下步骤进行:3-1、从输入的数据点集合中随机选择一个点作为第一个聚类中心;3-2、对于数据集中的每一个点,计算其与聚类中心的欧式距离;3-3、按照最大距离原则重新选择一个新的数据点作为新的聚类中心,选择的原则是:数据点被选取作为聚类中心的概率与欧式距离的值成正比,即较大的点,被选取作为聚类中心的概率较大,也就是要保证初始聚类中心之间的相互距离要尽可能远;3-4、重复3-2和3-3,直到K个初始聚类中心被选出来;3-5、根据每个聚类群组的聚类中心,计算各数据点与这些聚类中心点的距离,并根据最近邻分配法则重新划分聚类;3-6、重新计算每个有变化群组的聚类中心,反复执行(3-5),直到每个聚类不再变化时,结束聚类过程。所述步骤4中,环形空间金字塔为多级环形空间金字塔,构建方法如下:首先对原始图像用一个大的圆形去划分图像,并标记为环形金字塔的第0层;然后在上一步的圆形内继续划分圆形,并标记为第1层,以此类推,每增加一层,图像就多了一重圆形划分,构建L-1层空间金字塔,并对环形空间金字塔的每一层的图像进行场景图像视觉特征的提取,结合步骤3中构建的两种局部特征的视觉词典,对环形金字塔的每一层的环形子图像分别进行每个特征下的图像的向量表示定义一组权重然后经过加权后级联各层的图像的向量表示分别汇聚成每个特征下的超级向量表示最后每个特征下的向量进行加权组合为一个高维向量表示形式,加权系数与构建总视觉词典时的系数一致。所述步骤5中的SVM分类器,其惩罚参数为C=1000,核函数为非线性径向基核函数,非线性径向基核函数为如式(6)形式:K(x1,x2)=exp(-||x1-x2||22σ2)---(6)]]>式中,x1和x2分别是原始空间中的两个数据点,核函数的参数值σ取所有训练数据集到核函数的距离平均值。本发明的有益效果:(1)本发明采样的特征都是经过密集采样后的特征,这在很大程度上保留了场景图像的信息,在应对复杂的场景图像时,能有效改善场景分类的性能。(2)本发明是加权组合两种特征来表示图像,这两种特征可以互补形成更加有效的图像表示,在复杂场景分类任务中相比传统的分类方法有明显的优势。(3)本发明采样的是二次K-means++聚类算法,相比传统的K-means算法鲁棒性更强。附图说明图1本发明的基于空间金字塔模型的多特征组合表达的场景图像分类方法流程图。图2为利用二次聚类组合多特征的示意图。图3为基于不同权值分布下多特征组合的平均分类正确率。图4(a)为OT-8实验数据集下场景分类的平均正确率。图4(b)为UIUC-Sports数据集下场景分类的平均正确率。图5(a)为OT-8实验数据集下多特征组合表示的混淆矩阵。图5(b)为UIUC-Sports数据集下多特征组合表示的混淆矩阵。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面结合附图对本发明的应用原理作详细的描述。如图1所示,一种基于空间金字塔模型的多特征组合表达的场景图像分类方法,包括以下步骤:步骤1、建立包含多类图像的训练图像集和测试图像集;本发明的训练图像集和测试图像集是从两个经典的实验数据集中随机选取的,这两个实验数据集是MIT的八类(Coast,Forest,Highway,InsideCity,Mountain,OpenCountry,Street,TallBuilding)自然场景的数据集(OT-8SceneCategoriesDataset)和UIUC-Sports八类(Badminton,Bocce,Croquet,Polo,Rock-Climbing,Rowing,Sailing,Snow-Boarding)复杂运动场景数据集。步骤2、对训练图像集和测试图像集分别进行场景图像视觉特征的提取,并对提取出来的场景图像视觉特征进行归一化处理,场景图像视觉特征包括:图像的局部Dense-SIFT特征和局部L-Gist特征;步骤3、对步骤2中提取的两种局部特征分别采用基于稳定初值的二次k-means++聚类算法,构建这两种局部特征的视觉词典,最后引入权重来构建组合后总的视觉词典;步骤4、分别以多圆形逐层细化训练图像集和测试图像集中的各个场景图像,构建各个场景图像的L层多圆形划分的环形空间金字塔,得到1+2+3+……+L个环形子图像块,并对环形空间金字塔的每一层的环形子图像块进行场景图像视觉特征的提取,结合步骤3中构建的两种局部特征的视觉词典,对环形金字塔的每一层的图像分别进行每个特征下的图像的向量表示,然后经过加权后级联各层的图像的向量表示分别汇聚成每个特征下的超级向量表示,最后对每个特征下的超级向量进行加权并置为一个高维向量表示形式,加权系数与构建总的视觉词典的权值系数保持一致;步骤5、将训练图像集的各图像的高维向量表示送入SVM分类器中进行训练,训练完成后,将测试图像集的各图像的高维向量表示送入训练好的SVM分类器中进行测试,实现场景图像的分类。所述步骤S2中,提取图像的局部Dense-SIFT特征,具体为:采用滑动采样方式,得到一系列图像区块,计算其水平梯度Gx和垂直梯度Gy,如下式(1)所示:g(x,y)=G(x,y,σ)/I(x,y)Gx=g(x+1,y)-g(x-1,y)Gy=g(x,y+1)-g(x,y-1)---(1)]]>其中,I(x,y)表示原始图像,g(x,y)表示滤波后的图像,G(x,y,σ)为高斯核函数,x和y为图像像素点的坐标,σ为核函数的参数;根据式(1)计算其梯度值m(x,y)和方向角θ(x,y),如下式(2)所示:m(x,y)=Gx2+Gy2θ(x,y)=arctanGyGx---(2)]]>将每一个采样得到的图像区块都均匀划分为4×4=16个子块,并在每个字块内以8个方向加权统计方向直方图,然后把这16个子块的梯度直方图依次级联起来,就可以得到了一个16×8=128维的局部区域特征描述子;提取图像的局部L-Gist特征,具体为:采用滑动采样方式,得到一系列图像区块,利用m尺度n方向的Gabor滤波器组对这些图像区块进行多通道卷积来提取场景的Gist特征,Gabor滤波器组是由一个二维母函数扩展形成的,二维母函数如下式(3)所示:其中,x和y表示二维坐标;σx和σy分别是x和y方向高斯分布的方差;是该余弦谐波因子的相位差;f0是滤波器的中心频率;在这个母函数的基础上经过多尺度伸缩和多角度旋转变换扩展成一组Gabor滤波器,扩展过程如下式(4)所示:gmn(x,y)=α-mg(x*,y*),α>1x*=α-m(xcosθ+ysinθ)y*=α-m(-xsinθ+ycosθ)θ=nn+1π---(4);]]>其中,m和n分别为Gabor滤波器组的尺度数和方向数,α-m为尺度扩展因子,θ为滤波器的方向旋转角;通过改变m和n就可得到一系列不同的滤波器。所述提取L-Gist特征时,采取4尺度8方向的滤波器组把每个图像块划分为4×4的网格,得到的局部Gist特征的维数是(4×8)×(4×4)=512维。如图2所示,所述步骤3具体为:对步骤2中提取的两种特征都分别采用基于稳定初值的二次k-means++聚类算法,即对于图像集中提取的每一种特征都要进行二次聚类过程,即分别对每一类的图像集单独进行聚类,先得到各个类的视觉词典,也称为第一次聚类的视觉词典,且在第一次聚类时选取各类的聚类系数要一致,然后再对第一次聚类生成的视觉词典的集合进行第二次聚类,分别构建这两种局部特征的视觉词典,最后根引入权重来构建组合后总的视觉词典,分别用WD-SIFT和WL-Gist来表示两种特征的视觉词典,总得视觉词典WMF可用下式(5)表示:WMF={αWD-SIFTβWL-Gist},α+β=1(5)式中,α、β分别代表Dense-SIFT和L-Gist这两种特征在场景分类任务重的权重值,WMF表示特征组合后总的视觉词典,α的值根据实际试验结果选定。即对于图像库中提取的每一种特征都要进行二次聚类过程,分别对每一类的图像集单独进行聚类,先得到各个类的视觉词典,也称为第一次聚类的视觉词典。为了平衡每类图像对最终生成的视觉词典的作用,在第一次聚类时选取各类的聚类系数要一致,然后再对第一次聚类生成的视觉词典的集合进行第二次聚类,得到总的视觉词典。所述步骤S3中的K-means++聚类算法按如下步骤进行:3-1、从输入的数据点集合中随机选择一个点作为第一个聚类中心;3-2、对于数据集中的每一个点,计算其与聚类中心的欧式距离;3-3、按照最大距离原则重新选择一个新的数据点作为新的聚类中心,选择的原则是:较大的点,被选取作为聚类中心的概率较大,也就是要保证初始聚类中心之间的相互距离要尽可能远;3-4、重复3-2和3-3,直到K个初始聚类中心被选出来;K是自己指定的,即想分成多少个聚类群组;3-5、根据每个聚类群组的聚类中心,计算各数据点与这些聚类中心点的距离,并根据最近邻分配法则重新划分聚类;3-6、重新计算每个有变化群组的聚类中心,反复执行(3-5),直到每个聚类不再变化时,结束聚类过程。所述步骤4中,环形空间金字塔为多级环形空间金字塔,构建方法如下:首先对原始图像用一个大的圆形去划分图像,并标记为环形金字塔的第0层;然后在上一步的圆形内继续划分,并标记为第1层,以此类推,每增加一层,图像就多了一重圆形划分,构建L层空间金字塔,并对空间金字塔的每一层的图像进行场景图像视觉特征的提取,结合步骤3中构建的两种局部特征的视觉词典,对环形金字塔的每一层的图像分别进行每个特征下的图像的向量表示定义一组权重然后经过加权后级联各层的图像的向量表示分别汇聚成每个特征下的超级向量表示最后对每个特征下的超级向量进行加权组合为一个高维向量表示形式,加权系数与构建总的视觉词典时的权值系数保持一致。在本发明的优选实施例中,构建3层空间金字塔,每层的加权系数分别为1/4,1/4,1/2。所述步骤5中的SVM分类器,其惩罚参数为C=1000,核函数为非线性径向基核函数,非线性径向基核函数为如下式(6):K(x1,x2)=exp(-||x1-x2||22σ2)---(6)]]>式中,x1和x2分别是原始空间中的两个数据点,参数值σ取所有训练数据集到核函数的距离平均值。在本发明的优选实施例中,采用的是One-Vs-Rest的SVM分类器,One-Vs-Rest的SVM就是对每一类都训练学习得到一个能区分该类和其余所有类的两类分类器,也即是如果将该类看作为+1类,其余所有类都是-1类,那么每个两类的分类器都能将该类别与其他所有的类分开。本发明的分类步骤可以在MATLABR2013b和开源SVM工具库LIBSVM平台上进行参照图3-5,本发明的效果通过以下实施例进一步说明:本实施例中的训练图像集和测试图像集均来自MIT的八类自然场景的数据集和UIUC-Sports八类复杂运动场景数据集,每一类都随机选取100张作为训练样本,另外再选取不同的100张作为测试样本。每个场景图像被划分为3层多圆形划分的环形空间金字塔。图3给出了不同权重下场景分类的平均分类正确率,图中可以看出权重在0.4:0.6时组合效果比较好。所以在本实施例中,我们分配Dense-SIFT特征的词典加权系数为0.4,而L-Gist特征的词典加权系数为0.6,按照贡献不同,权值不同的分配方案,提高了场景图像的平均分类正确率。图4(a)可以看出本发明提出的组合表达的场景图像分类方法在OT-8数据库上平均分类正确率达到了87.79%,比使用单一Dense-SIFT特征的精度提高了6.53%,而比单一使用局部Gist特征的分类正确率也提高了5.65%;如图4(b)所示,本发明的组合表达的场景图像分类方法在UIUC-Sports数据集上表现为71.25%,远高于仅使用单一局部Gist特征的68.2%和单一Dense-SIFT特征的67.70%。可见本发明的特征组合表达的场景图像分类方法在两个经典数据集上都提升明显,所以本发明可以有效地提高场景图像分类的精度。图5(a)和图5(b)分别是在OT-8自然场景数据集和UIUC-Sports数据集下多特征表示图像的混淆矩阵,混淆矩阵的对角线对应每一类的平均分类正确率。对于OT-8自然场景数据集,单一特征下容易混淆的Highway、InsideCity以及OpenCountry类都有显著的提升。而对于复杂的UIUC-Sports数据集,最难分类的Rowing类也提高到了47%。可见,本发明提出的多特征加权组合的方法可以有效提高复杂场景图像的分类性能。通过对比,本发明所采用的组合多特征表达场景图像的方法能有效提高分类的性能,相比传统单一特征表示图像的方法优势明显。以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1