一种基于RGB‑D融合特征与稀疏编码的图像分类方法与流程

文档序号:11476149阅读:247来源:国知局
一种基于RGB‑D融合特征与稀疏编码的图像分类方法与流程
本发明涉及计算机视觉、模式识别等
技术领域
,具体涉及一种基于rgb-d融合特征与稀疏编码的图像分类方法。
背景技术
:当今社会已是信息爆炸的时代,除了大量的文本信息外,人类接触的多媒体信息(图片,视频等)也呈爆炸式增长。为了准确、高效的利用、管理和检索图像,这就需要计算机按照人类理解的方式准确地理解图像内容。图像分类是解决图像理解问题的重要途径,对多媒体检索技术的发展有重要的推动作用。而所获取的图像可能受到视点变化、照明、遮挡与背景等多因素的影响,这使得图像分类一直以来都是计算机视觉、人工智能领域一个具有挑战性的难题,许多图像特征描述和分类技术因此得到迅速发展。当前的图像特征描述和分类技术中,主要算法是基于特征袋(bag-of-feature,bof)的算法,s.lazebnik在文章“spatialpyramidmatchingforrecognizingnaturalscenecategories”中提出了基于bof的空间金字塔匹配(spatialpyramidmatching,spm)框架,该算法克服了bof算法中丢失的空间信息,有效的提高了图像分类的准确率。但是基于bow的算法都是采用矢量量化(vectorquantization,vq)对特征进行编码,而这种硬编码模式并没有考虑视觉字典中视觉单词之间的相互关系,从而导致图像特征编码后的误差较大,进而影响整个图像分类算法的性能。近几年来,随着稀疏编码(sparsecoding,sc)理论的日渐成熟,该理论也成为图像分类领域最为热门的技术。yang在文章“linearspatialpyramidmatchingusingsparsecodingforimageclassification”中提出了一种基于稀疏编码空间金字塔匹配(sparsecodingspatialpyramidmatching,scspm),该模型用稀疏编码的方式替代硬分配模式,能优化视觉字典的权重系数,从而更好地量化图像特征,使得图像分类的准确度和效率都有很大的提升,但由于过完备码书的原因,原本相似度极高的几个特征有可能被截然不同地表示出来,scspm模型的稳定性不好。wang等改进了scspm,在文章“locality-constrainedlinearcodingforimageclassification”中提出了局部约束线性编码(locality-constrainedlinearcoding,llc),指出局部性比稀疏性更加重要,用视觉字典中的多个基表示一个特征描述子,且相似的特征描述子通过共享其局部的基,得到相似的编码,这使得scspm的不稳定性得到极大改善。上述方法都是针对彩色图像的分类,忽略了物体或者场景中的深度信息,而深度信息又是图像分类重要线索之一,因为深度信息根据距离很容易将前景与背景分开,能直接反映物体或者场景的三维信息。随着kinect的兴起,深度图像的获取变的越来越容易,结合深度信息进行图像分类的算法也开始变得流行起来。liefengbo等在文章“kerneldescriptorsforvisualrecognition”提出了从核方法的角度提取图像的特征并进行图像分类,然而这种算法的缺陷在于首先要对物体进行三维建模,这是非常耗时的,算法的实时性不高;n.silberman在文章“indoorscenesegmentationusingastructuredlightsensor”中先用尺度不变特征变化(scaleinvariantfeaturetransform,sift)算法分别提取深度图像(depth图像)和彩色图像(rgb图像)的特征,然后再进行特征融合,之后采用spm编码进行图像分类;a.janoch在文章“acategory-level3dobjectdataset:puttingthekinecttowork”中用方向梯度直方图(histogramoforientedgradient,hog)算法分别对深度图像和彩色图像进行特征提取,在特征融合后实现最终的图像分类;mirdaniesm等在文章“objectrecognitionsysteminremotecontrolledweaponstationusingsiftandsurfmethods”中将提取到的rgb图像的sift特征与深度图像的surf特征进行融合,并将融合后的特征用于目标分类。这些算法都是在特征层进行rgb特征与深度特征的融合,可以有效的提高图像分类的精度。但是这一类算法也同样存在着一定的缺陷,这就是对rgb图像与深度图像提取的特征都是单一的特征,而采用单一特征时存在对图像的信息提取不足,所得到的融合特征并不能充分的表述图像内容,其原因在于:rgb图像易受到光照变化、视角变化、图像几何变形、阴影与遮挡等多方面的影响,深度图像容易受到成像设备的影响,导致图像中出现孔洞、噪声等问题,单一的图像特征提取并不能对图像中所有的因素保持鲁棒性,这势必会丢失图像中的信息。因此,有必要设计一种分类更为准确的图像分类方法。技术实现要素:本发明要解决的技术问题是,针对现有技术的不足,提供了一种集成rgb-d融合特征与稀疏编码的图像分类方法,准确性高,稳定性好。为了解决上述技术问题,本发明所提供的技术方案为:一种基于rgb-d融合特征与稀疏编码的图像分类方法,包括训练阶段和测试阶段:所述训练阶段包括以下步骤:步骤a1、针对每一个样本数据,提取其rgb图像与depth图像(彩色图像与深度图像)的densesift(scale-invariantfeaturetransform,尺度不变特征变换)与phog(pyramidhistogramoforientedgradients,分层梯度方向直方图)特征;样本数据的个数为n;步骤a2、针对每一个样本数据,对其两种图像提取的特征采用两两线性串联的形式进行特征融合,得到四种不同的融合特征;n个样本数据得到的同种融合特征组成一个集合,得到四种融合特征集;通过上述特征提取,rgb图像的densesift和phog特征,以及depth图像的densesift与phog特征;之后对所得到的特征进行归一化,使所有的特征拥有相似的尺度;本发明为了降低特征融合的复杂度,采用两两线性串联的方式对特征进行融合,即:f=k1·α+k2·β(1)其中k1,k2为特征对应的权值,且k1+k2=1,本发明中令k1=k2。α代表rgb图像提取的特征,β代表depth图像提取的特征;最终得到四种不同的融合特征,即:rgbd-densesift特征、rgb-densesift特征+phogd特征、rgb-phog特征+d-densesift特征、rgbd-phog特征;分别表示rgb图像和depth图像的densesift特征产生的融合特征、rgb图像的densesift特征和depth图像的phog特征产生的融合特征、rgb图像的phog特征和depth图像的densesift特征产生的融合特征、rgb图像和depth图像的phog特征产生的融合特征。步骤a3、分别对四种融合特征集中的融合特征进行聚类处理,得到四种不同的视觉字典;步骤a4、在每种视觉字典上,采用局部约束线性编码模型对融合特征进行特征编码,得到四种不同的图像表述集;步骤a5、根据四种不同的融合特征集、图像表述集以及相应的样本数据的类标签构造分类器,得到四个不同的分类器。所述测试阶段包括以下步骤:步骤b1、按照步骤a2~a3中的方法提取和融合待分类图像的特征,得到待分类图像的四种融合特征;步骤b2、在步骤a3得到的四种视觉字典上,采用局部约束线性编码模型分别对步骤b1得到的四种融合特征进行特征编码,得到待分类图像四种不同的图像表述;步骤b3、用步骤a5得到的四个分类器分别对步骤b2得到的四种图像表述进行分类,得到四个类标签(四个类标签中可能包含相同的类标签,也可能都是不同的类标签);步骤b4、基于得到的四个类标签,使用投票决策方法得到该待分类图像的最终类标签,即选取四个类标签中票数最多的类标签作为最终类标签。进一步地,所述步骤a3中,使用k-means++聚类方法针对某种融合特征集中的融合特征进行聚类处理。传统建立视觉字典的k-means算法具有简单、性能高效等优点。但k-means算法自身也存在着一定局限性,算法在对初始聚类中心的选择上是随机的,这就导致聚类结果受初始中心点的影响较大,如果由初始中心点的选择而陷入局部最优解,这对图像正确分类的结果是致命的。所以针对这点不足,本发明使用k-means++算法进行视觉字典建立,采取一种概率选取的方法代替随机选择初始聚类中心。针对任一种融合特征进行聚类处理,得到相应的视觉字典的具体实现方法如下:3.1)将由n个样本数据得到的得到的融合特征组成一个集合,即融合特征集hi={h1,h2,h3,…,hn},并设置聚类数目为m;3.2)在融合特征集hi={h1,h2,h3,…,hn}中随机选择一个点作为第一个初始聚类中心s1;设置计数值t=1;3.3)对融合特征集hi={h1,h2,h3,…,hn}中每一个点hi,hi∈hi,计算它与st之间的距离d(hi);3.4)选择下一初始聚类中心st+1:基于公式计算点hi'被选择为下一初始聚类中心的概率,其中hi'∈hi;选择概率最大的点作为下一初始聚类中心st+1;3.5)令t=t+1,重复步骤(3)和(4),直到t=m,即m个初始聚类中心被选出来;3.6)利用选出来的初始聚类中心来运行k-means算法,最终于生成m个聚类中心;3.7)定义每个聚类中心为视觉字典中的一个视觉单词,聚类数目m即为视觉字典的大小。进一步地,所述步骤a4中,采用局部约束线性编码模型对融合特征进行特征编码,模型表达式如下:式中:hi为融合特征集hi中的融合特征,即待编码的特征向量,hi∈rd,d表示融合特征的维度;b=[b1,b2,b3…bm]是通过k-means++算法建立的视觉字典,b1~bm为视觉字典中的m个视觉单词,bj∈rd;c=[c1,c2,c3…cn]为编码得到的图像表述集,其中ci∈rm为编码完成后一幅图像稀疏编码的表示形式;λ为llc的惩罚因子;表示元素对应相乘;1tci中1表示全部元素为1的向量,那么1tci=1用于对llc进行约束,使其具有平移不变性;di定义为:其中dist(hi,b)=[dist(hi,b1),dist(hi,b2),…dist(hi,bm)]t,dist(hi,bj)表示hi与bj之间的欧式距离,σ用于调整局部位置的约束权重的下降速度。本发明采用局部约束线性编码(locality-constrainedlinearcoding,llc)。因为特征的局部性位置约束必然可以满足特征的稀疏性,而满足特征的稀疏性不一定满足局部性位置约束,所以局部比稀疏更重要。llc使用局部约束代替稀疏约束,能获得良好的性能。进一步地,所述步骤a4中,采用近似的局部约束线性编码模型对融合特征进行特征编码;式(2)中编码模型在求解ci的过程中,待编码的特征向量hi倾向选择视觉字典中距离较近的视觉单词,形成一个局部坐标系统。因此,根据这个规律可以使用一种简单的近似llc特征编码方式来加速编码过程,即不求解式(2),对于任意一个待编码的特征向量hi,使用k邻近搜索选取视觉字典b中距离其最近的k个视觉单词作为局部视觉单词矩阵bi,通过求解规模更小的线性系统来获得编码。其表达式如下:其中,为近似编码得到的图像表述集,其中为近似编码完成后一幅图像稀疏编码的表示形式,根据式(4)解析解,近似llc特征编码能够将计算复杂度从o(n2)降为o(n+k2),其中k<<n,但最后的性能与llc特征编码相差不大。近似llc特征编码方式既可以保留局部特征,又可以保证编码稀疏性的要求,所以在本发明中使用近似llc模型进行特征编码。进一步地,取k=50。进一步地,所述步骤a1中,densesift特征利用网格将图像划分得到大小相等的特征块(block),并且块与块之间采用重叠方式,每个特征块的中心位置作为一个特征点,通过同一个特征块里的所有像素点来形成该特征点的sift特征描述符(与传统sift特征一样的特征描述符:梯度直方图),最后这些基于sift特征描述符的特征点组成整幅图像的densesift特征;phog特征提取的具体步骤如下:1.1)统计图像的边缘信息;利用canny边缘检测算子提取出图像的边缘轮廓,并将此轮廓用于描述图像的形状;1.2)对图像进行金字塔等级分割,图像分割的块数取决于金字塔等级的层数;本发明中将图像分成3层,第1层为整个图像;第2层将图像划分为4个子区域,每个区域的大小一致;第3层是在第2层的基础上对4个子区域进行划分,把每个区域再划分为4个子区域,最终得到4×4个子区域;1.3)在每一层中提取每一个子区域的hog特征向量(histogramoforientedgridients,方向梯度直方图);1.4)最后将图像各个层中子区域的hog特征向量进行级联处理(串联),在得到级联后的hog数据后,进行数据的归一化操作,最终得到整幅图像的phog特征。进一步地,所述步骤a5中,分类器采用线性svm分类器。进一步地,针对所述步骤b4中的投票决策方法会出现不同类标签得到最多且相等票数的问题,对于这种情况,采用随机选择的方法,在这几个相等票数的类标签中随机选择其中一个类标签作为最终的类标签。本发明的有益效果是:本发明选用多个融合特征,可以弥补图像单一的融合特征存在信息量不足的缺点,有效的提高了图像分类的准确率。选用kmeans++算法建立视觉字典,采用概率选取的方法代替随机选择初始聚类中心,可以有效的避免算法陷入局部最优解。最后利用投票决策的方法对每个类结果投票,将差异大的分类结果融合,由投票决策来决定最后的分类性能,保证了结果的稳定性。附图说明图1为集成rgb-d融合特征与稀疏编码的图像分类方法的流程图。图2为本发明训练阶段步骤a5中llc特征编码模型。图3为本发明测试阶段步骤b4中测试图像分类决策模块。图4为本发明在rgb-dscenes数据集上的识别混淆矩阵。具体实施方式下面结合具体实例,并参照详细附图,对本发明进一步详细说明。但所描述的实例旨在于对本发明的理解,而对其不起任何限定作用。图1是集成rgb-d融合特征与稀疏编码的图像分类的系统流程图,具体实施步骤如下:步骤s1:提取rgb图像与depth图像的densesift特征和phog特征;步骤s2:对两种图像提取的特征采用串联的形式进行特征融合,最终得到四种不同的融合特征;步骤s3:使用k-means++聚类方法对不同的融合特征进行聚类处理得到四种不同的视觉字典;步骤s4:在每个视觉字典上进行局部约束线性编码,得到不同的图像表述集;步骤s5:利用线性svm对不同的图像表述集构造分类器,最后通过对这四种分类器的分类结果进行投票决策来确定最终的分类。基于集成rgb-d融合特征与稀疏编码的图像分类方法,本发明利用实验数据对本发明的方法进行验证。本发明采用的实验数据集是rgb-dscenes数据集,该数据集是由华盛顿大学提供的一个多视角的场景图片数据集,该数据集由8个分类场景组成,共5972张图片,图像全部通过kinect摄像机获取,大小均为640*480。在rgb-dscenes数据集中,将全部图像用于实验并将图像尺寸调整为256*256。对于特征提取,本次实验中图像提取的densesift特征采样间隔设置为8像素,图像块为16×16。phog特征提取参数设置为:图像块大小为16×16,采样间隔为8像素,梯度方向设为9。建立视觉字典时,字典大小设为200。svm分类时采用libsvm工具包的libsvm3.12工具箱,数据集中取80%图片用于训练,20%图片用于测试。在此次实验中,从两个方面考虑本发明方法,第一,考察本发明方法跟当前分类准确率较高的一些研究者的方法进行对比;第二,考察不同的rgb-d融合特征与本发明方法的分类效果进行对比。表1rgb-dscenes数据集分类结果比较分类方法准确率/%线性svm89.6%高斯核函数svm90.0%随机森林90.1%hog77.2%sift+spm84.2%本发明方法91.7%分类准确率与其他方法的对比如表1所示。liefengbo在文章“kerneldescriptorsforvisualrecognition”中将三种特征集成,分别用线性svm(linearsvm)、高斯核函数svm(kernelsvm)和随机森林(randomforest)对其进行训练与分类,在此次实验中分别获得89.6%、90.0%和90.1%的准确率。a.janoch在文章“acategory-level3dobjectdataset:puttingthekinecttowork”中使用hog算法分别对深度图像和彩色图像进行特征提取,在特征融合后使用svm分类器实现最终的分类,在本次实验中此方法获得77.2%的准确率。n.silberman在文章“indoorscenesegmentationusingastructuredlightsensor”中先用sift算法分别提取深度图像和彩色图像的特征,然后再进行特征融合,之后采用spm进行特征编码,最后采用svm进行分类,在此次实验中此算法获得84.2%的分类准确率。而本发明提出的算法获得了91.7%的准确率,与之前最好的结果相比提高了1.6%,由此可以看出本发明算法具有良好的分类性能。表2rgb-dscenes数据集不同融合特征分类结果对比从表2可以看出,在联合深度信息进行图像分类时,基于单一融合特征的分类算法准确率低于基于多融合特征的分类算法,而基于多特征融合的图像分类算法可以取得较好的分类准确率,但还是略低于基于多融合特征决策融合的图像分类算法。以上对本发明的具体实施例进行了描述。应当理解的是,本发明并不局限于上述特定实施方式,凡在本发明的精神实质与原理之内所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1