一种新的场景识别方法与流程

文档序号:11458870阅读:314来源:国知局
一种新的场景识别方法与流程

本发明属于计算机视觉、数字图像处理领域,具体涉及一种新的场景识别方法。



背景技术:

场景理解也正是计算机视觉中一个经典话题。场景理解的最早目的在于使得机器能够像人一样能够从视觉信息中理解当前的情况并能够推断出一般性的原则。然而在计算水平落后的时代,这样的愿望只能是空中楼阁。伴随着过去50年间更大,更快,更便宜的计算能力以及大量的各种数据不断得到丰富和提升解决这个经典问题逐渐有了可行性,越来越多的研究人员不断投入并取得了巨大的成功。这些成就使得场景理解逐渐成为了一个热门话题。而且随着发展,场景理解早已不限于当初的目的。

场景分类的一般的做法是采用一种整体性的方法,用一种以一贯制的方式处理进行分类。使用特征然后统计画面中特征的出现频率和分布情况,也就是特征分布直方图,用直方图的分布情况来表征这幅图像。这也是人们常说的词袋模型(bagofword,bow)。整个过程可以大致分为四个部分:从图像中滑动窗口切割出小图像块;在图像块上提取特征;使用聚类算法生成字典;根据图像中的特征分布生成字典词分布直方图池化处理后进行分类。

对于场景识别而言,图像的特征描述方式起着十分关键的作用。在早期的工作中,图像的描述是基于边缘检测或者是角点检测的局部特征。然而,这类的局部特征描述往往缺乏必要的语义信息而且缺乏鲁棒性。因此,将这种特征无法良好的表达整幅图像的信息,用于分类时,这样的数据往往表达含糊。而且,用这种特征描述的时候,所有的图像块都具有相同的权重。然而事实上,在许多案例中,图像中往往有许多的图像块对最终的场景分类并没有任何的贡献,就比如室内场景中的白墙图像块,几乎会出现在所有的室内场景中。

因此,本发明针对以上问题,解决适于图像预处理分割阶段产生图像块语义信息不明确的问题。同时提出了一种与之配合的池化处理方法。



技术实现要素:

本发明的目的在于提供一种新的场景识别方法,该方法采用似物检测提取图像块避免了图像块语义不明确的问题,同时提出了具有代表性和区别性的增强型k-means字典,最后提出了一种适应似物检测的顺序池化方式,提高了分类的准确率。

为实现上述目的,本发明的技术方案是:一种新的场景识别方法,包括如下步骤,

s1、采用似物检测中的选择性搜索方式对场景图像进行图像分割产生图像块;

s2、对各个图像块进行深度特征提取;

s3、采用k-means聚类算法对步骤s2提取的各个图像块的深度特征进行聚类;

s4、对步骤s3的聚类结果进行筛选并生成字典;

s5、场景图像的字典空间表达,并对字典空间表达结果矩阵进行顺序最大池化处理;

s6、进行svm分类,得到结果。

在本发明一实施例中,所述步骤s4的具体实现过程如下,

s41、通过公式来表示场景样本的占比,该占比定义为聚类j对于场景类型i的代表有效性;

s42、统计步骤s3得到的各个聚类结果中场景样本来自目标场景类型占比的分布,得到关于以聚类中心为x轴,场景样本占比为y的直方图;一个场景类型对应有一个直方图;

s43、在每个直方图中,采用大津二值化法的方法找到代表有效性的阈值μt,通过代表有效性的阈值μt,即可将每张直方图内的聚类分为两类;其中来自目标场景类型中占比高于代表有效性阈值μt的聚类为具有代表性的聚类,否则不具有代表性;

s44、由步骤s43得出的具有代表性的聚类进行合并生成字典,具体即:对每个具有代表性的聚类的维度4096进行二值化处理,保留k个最大值为1,其余为0;从到大到小与余下聚类的聚类中心进行比较,为1的位置没有重复,则进行合并,直到比对完所有聚类的聚类中心;已进行合并的聚类中心不再进行任何后续处理;已合并的聚类组按合并聚类中心个数进行排列,同个数情况按聚类组中聚类中心代表有效性大小排列;最后排序取出前x个作为各聚类的字典数。

在本发明一实施例中,所述步骤s43中,采用大津二值化法的方法找到代表有效性的阈值μt的具体方式如下:

定义具有代表性和不具有代表性聚类的两个类的方差的加权和:其中,ωi是权重是被阈值μt分开的两个类的概率,而是这两个类内部各自的方差;通过穷举搜索使类内方差最小的阈值,则最后可得代表有效性的阈值为:μt=ω1μ1+ω2μ2。

在本发明一实施例中,所述步骤s5中,

场景图像的字典空间表达结果矩阵为:

k=h×mt

其中,h为场景图像的表达矩阵,其具有g行,4096列,g即场景图像经似物检测中的选择性搜索方式产生的g个图像块;m为字典的矩阵形式,其具有x×y行,4096列,x即每一个场景类型的字典数,y为场景类型数;k具有g行,x×y列;

对场景图像的字典空间表达结果矩阵进行顺序最大池化处理的结果,则可得最后的表达维度为:x×y×(n+1),其中,n即对g个图像块的分组数,每组均进行最大池化处理。

相较于现有技术,本发明具有以下有益效果:

1、现有图像分割采用滑动窗口进行分割;分割过程死板,图像块语义不明确;而本发明采用似物检测产生图像块;图像块语义信息较为明确,便于后续处理;每幅图的图像块个数灵活好调整,适应性广泛;同时可适用其它图像分类领域;

2、现有k-means聚类算法直接生成字典;而本发明采用代表性和区别性的要求,对k-means聚类中心进行了筛选和合并的处理后才生成字典;在本字典词的空间中各类场景表达线性度更高;

3、现没有针对似物检测的池化算法;而本发明提出针对似物检测的池化算法,有效的加强了图像表达与具体存在物体之间的关系,提升了分类准确率。

附图说明

图1为本发明算法流程图。

图2为本发明聚类效果图,其中a,b为各自不同聚类中心,c为a,b两个聚类中心合并的效果,d为三个聚类合并的效果。

图3为本发明最大顺序池化示意图,假设这时总共有16个似物检测块,则分成4组。

具体实施方式

下面结合附图,对本发明的技术方案进行具体说明。

本发明的一种新的场景识别方法,包括如下步骤,

s1、采用似物检测中的选择性搜索方式对场景图像进行图像分割产生图像块;

s2、对各个图像块进行深度特征提取;

s3、采用k-means聚类算法对步骤s2提取的各个图像块的深度特征进行聚类;

s4、对步骤s3的聚类结果进行筛选并生成字典;

s5、场景图像的字典空间表达,并对字典空间表达结果矩阵进行顺序最大池化处理;

s6、进行svm分类,得到结果。

在本发明一实施例中,所述步骤s4的具体实现过程如下,

s41、通过公式来表示场景样本的占比,该占比定义为聚类j对于场景类型i的代表有效性;

s42、统计步骤s3得到的各个聚类结果中场景样本来自目标场景类型占比的分布,得到关于以聚类中心为x轴,场景样本占比为y的直方图;一个场景类型对应有一个直方图;

s43、在每个直方图中,采用大津二值化法的方法找到代表有效性的阈值μt,通过代表有效性的阈值μt,即可将每张直方图内的聚类分为两类;其中来自目标场景类型中占比高于代表有效性阈值μt的聚类为具有代表性的聚类,否则不具有代表性;

采用大津二值化法的方法找到代表有效性的阈值μt的具体方式如下:

定义具有代表性和不具有代表性聚类的两个类的方差的加权和:其中,ωi是权重是被阈值μt分开的两个类的概率,而是这两个类内部各自的方差;通过穷举搜索使类内方差最小的阈值,则最后可得代表有效性的阈值为:μt=ω1μ1+ω2μ2;

s44、由步骤s43得出的具有代表性的聚类进行合并生成字典,具体即:对每个具有代表性的聚类的维度4096进行二值化处理,保留k个最大值为1,其余为0;从到大到小与余下聚类的聚类中心进行比较,为1的位置没有重复,则进行合并,直到比对完所有聚类的聚类中心;已进行合并的聚类中心不再进行任何后续处理;已合并的聚类组按合并聚类中心个数进行排列,同个数情况按聚类组中聚类中心代表有效性大小排列;最后排序取出前x个作为各聚类的字典数。

所述步骤s5中,

场景图像的字典空间表达结果矩阵为:

k=h×mt

其中,h为场景图像的表达矩阵,其具有g行,4096列,g即场景图像经似物检测中的选择性搜索方式产生的g个图像块;m为字典的矩阵形式,其具有x×y行,4096列,x即每一个场景类型的字典数,y为场景类型数;k具有g行,x×y列;

对场景图像的字典空间表达结果矩阵进行顺序最大池化处理的结果,则可得最后的表达维度为:x×y×(n+1),其中,n即对g个图像块的分组数,每组均进行最大池化处理。

以下为本发明的具体实现过程。

目前大部分基于bow的场景分类算法都是对图像进行滑动窗口分割产生图像块进行处理,从而导致图像块部分语义不明确。本发明采用似物检测提取图像块避免了这个问题,同时提出了具有代表性和区别性的增强型k-means字典,最后提出了一种适应似物检测的顺序池化方式,提高了分类的准确率。

本算法各组成部分如图1所示。1)似物检测产生图像块;2)对各个图像块进行深度特征提取;3)使用k-means聚类算法由各个图像块产生的深度特征进行聚类;4)对k-means聚类结果进行筛选并生成字典;5)场景图像表达;6)顺序最大值池化;7)svm分类

似物识别产生图像块本文图像预处理的过程不同于在之前类似工作中所采用的中最常见的滑动窗口的方式,本文提出了采用似物检测中选择性搜索的方式取代了滑动窗口来产生图像预处理中的图像块。由选择性搜索作为一种似物检测算法,由其产生的图像块因为注重对于具有物体属性的区域选取,因此使得由之产生的图像块相比于滑动窗口在语义信息上的表达更加明确。除了语义上的增强还有一个与之而来的优点,选择性搜索能够使得每张图像产生图像块的数量能够顺随实际需要而任意指定。如果能够利用这点将所有图像都产生相同数量的图像块,那么后续聚类或者是池化处理的复杂度就有可能得到一定程度的降低。

实际上之前的算法为了使用滑动窗口的时候,因为给定的图像的长宽比例不一,却又有着相同的图像块分割大小、步进,因此每个图像可能产生不同数量的图像块。选择性搜索固定每个图像产生的图像块。这点不但避免了后续处理的复杂性,而且保证了每副图像对于k-means聚类时具有相同的权重。

k-means聚类将选择性搜索得到的图像块,输入caffe深度网络的vgg-vd模型,该模型在imagenet进行了预训练并在ilsvrc-2014上取得了极好的效果。在紧接着线性修正单元(rectifiedlinearunit,relu)的第六层fc6(全连接层的第一层)获得非负4096维度的深度特征,然后将这些特征进行了k-means聚类。

选取聚类结果生成字典我们希望字典视觉词能够同时满足两个要求,即区别性和代表性。区别性能够准确的分别不同类别。代表性又希望该词有足够的出现频率。普通的k-means聚类可以直接构建字典,但并无法实现这两个要求,因此要加入这个步骤构建更加有效的视觉字典。

聚类的结果中也往往存在对各个场景类型的偏向。即某个聚类结果中,大多数样本的都是来自同一个类型中的图像块。把这种特定的样本占比定义为这个聚类对于这个类型场景的代表有效性:其中j是聚类序号,i是场景类型。

同时,我们通过定义同一聚类结果中满足一定条件的同一场景的占比要求的样本量,即满足一定要求的代表有效性的聚类才可称之为对该场景具有带代表性的聚类。通过统计各个聚类结果中样本所来自某个特定场景类型占比的分布,得到关于以聚类中心为x轴,该场景样本占比为y的直方图。每个场景类型各有一个直方图。在每个直方图中,采用大津二值化法(otsu)[46]的方法找到代表有效性的门限值,定义为两个类的方差的加权和:其中ωi是权重是被阈值t分开的两个类的概率,而是这两个类内部各自的方差。通过穷举搜索能使类内方差最小的阈值,则最后阈值为:μt=ω1μ1+ω2μ2

由此每张直方图内的聚类分为两类。其中来自某特定场景占比高于代表有效性门限的聚类为具有代表性的聚类,否则不具有代表性。

在具有代表性的基础上再考虑聚类的区别性。具有代表性的聚类中心的也就是可能的字典词,而这些聚类中心同时也是4096维的特征。同时这些特征有着稀疏的特性。往往不同的聚类中心在特征维度上具有很强的互补性。这种关系可以用图2来比拟。

我们希望尽量可能的对各个聚类中心进行合并生成最后的字典。每个聚类的维度4096进行二值化处理,保留k个最大值为1,其余为0;从到大到小与余下的聚类中心进行比较,为1的位置没有重复,则进行合并,直到比对完所有其余聚类中心;已进行合并的聚类中心不再进行任何后续处理。已合并的聚类组按合并聚类中心个数进行排列,同个数情况按聚类组中聚类中心代表有效性大小排列。最后排序取出前x个作为各类的字典数。

这个环节中,我们考虑如何根据上文产生的字典对由选择性搜索产生图像块的cnn特征进行有效的表达。给定单张场景图像l,通过选择性搜索产生g个图像块并进行深度特征提取,我们能够将其表达为li={l1,l2,…,lg}作为矩阵h。此时h的表达具有g行,4096列。通过k-means聚类生成了t个聚类空间/词,并且在聚类选择环节每类选择了最具有区别性和代表性的x个词。字典最终可以表示为矩阵m的形式,具有x×y行(x是每一场景类型的字典数,y是数据库中的场景类型数)和4096列。将原始表达矩阵h向字典空间m的投射的结果是最终表达矩阵k=h×mt。此时,矩阵k具有g行,x×y列。这边我们加入了顺序最大池化的方式进行处理。最后的表达维度为x×y×(n+1)。见图3。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1