专利名称:一种结合多个兴趣点检测子的物体类识别方法
技术领域:
本发明属于模式识别、计算机视觉、图像理解技术领域,具体涉及一种物体类识别方法。
背景技术:
物体类识别是计算机视觉领域中的一个关键问题。物体类模型必须处理好类内变化和类间相似的平衡。人类可以很容易的识别许多的物体类,但是对于计算机和机器人来说,这个任务还是极端有挑战性的。在物体类层面,光照条件的变化,几何变形,遮挡和背景噪声等等都给有效学习和稳健识别带来许多的挑战。除此之外,物体类识别还要克服类内不同实例间的极大差异。一副图像包含许多的信息,怎样特征化一副图像,使之能有效且高效的用来识别。 这个问题是非常困难的,并且是依赖于识别任务的。Bag-of-words模型特征化方法,近来非常流行,因为这种方法简单而又有效。这种方法的基本思想是把图像看成是稀疏兴趣点(兴趣区域,或称为显著性区域)的集合。它来源于文本分析中的语素方法,基本思想是把图像看成是独立块的稀疏集合,从图像中采样一些代表性区域块,然后单独为每块描述特征,使用描述空间的分布来表示图像。兴趣点检测子可以划分成三类基于轮廓的,基于灰度的和基于参数模型的。许多计算机视觉任务依赖于低层特征,结果很大程度上受所使用检测子的影响。在计算机视觉领域中,检测出具有一类变换不变性的区域达到了一定程度的成熟。这些不变性区域检测方法应用在非常不同的领域中,包括基于模型的识别和物体分类领域中。由不同的检测子提取出的兴趣点可能包含有不同的信息内容。本发明提供了一种新颖的方法来结合多个检测子用于分类图像。集成方法提供了一种有效的融合方式来处理不同兴趣点所包含的信息。这种集成构架也匹配了人类视觉系统的机制,即能并行接受多种不同线索来识别不同的物体类。当前对物体类识别研究的共识是第一,物体的形状和外观复杂且同类物体间差异大,所以模型应该是丰富的(包含很多的参数,使用混合描述);第二,类内物体的外观应该是高度变化的,所以模型应该是灵活的(允许参数的变化);第三,为了处理类内物体变化和遮挡,模型应该由特征组成,或者说部分组成,这些特征不必在所有的实例中检测到,这些局部的相互位置构成了进一步的模型信息;第四,使用先验知识来模型化类是困难的,最好是从训练样本中学习模型;第五,必须考虑计算效率。所以利用机器学习的方法来进行物体类识别研究是当前的一种研究趋势。早期的针对特定物体类人工建立一个固定模型的方法局限性非常大,根本不可能推广到多类物体和不同应用场景下。但是目前对物体类识别的学习监督程度普遍比较强,有的要求将图像预先分割,有的要求对目标物体的矩形定位,有的要求对图像给予类标签,除此之外最弱的监督样本也会要求样本中目标物体以绝对优势占有样本的中心位置,而且所有的样本要有同样的大小。监督样本的获取代价非常大,那么这就意味着不可能获取很多的样本,也不可能所有类的样本都能获取到,这就限制了学习的性能和学习的宽度。人类的视觉系统会并行利用多种信息来识别物体,并且对于每种不变性都能学习到一个模型,而这正是集成学习技术的思想。非监督式集成学习技术或者说聚类集成技术近年来得到了一定的发展,为减少物体类识别的监督程度和利用集成学习技术的研究提供了基础。目前存在许多的兴趣点检测子,但哪种兴趣点检测子更适合于当前的任务或者说性能怎样很难做出正确解答。本发明提出使用不同的检测子来获得图像的不同线索。在不同检测子检测出的兴趣点上,建立不同的视觉字典。基于不同的视觉字典,同一个训练图像集能量化得到不同的训练矢量集,它们捕获了图像不同方面的信息,基于不同的训练矢量集上,可以学习得到不同的成员分类器。使用这些学习了不同方面物体模型特征的分类器来分类新的图像时,不同成员分类器给出它们自己的答案,集成它们可以得到性能的提升。本项发明的主要贡献在于提出了一种基于非监督式集成学习技术进行物体类识别的方法。本发明能有效减少物体类识别的监督程度,综合利用多种有效信息,并行学习物体模型,有效提高物体类识别的效率和准确度。
发明内容
为了解决传统物体类识别中存在的模型过于复杂,监督程度过强和鲁棒性差的问题,本发明提供了一种利用字典集体来并行利用图像中存在的多种信息识别物体类的方法。本发明是一种视觉字典方法。它包含从图像中提取兴趣点(或称为显著区域),用局部描述子来描述兴趣点和用学习到的视觉字典标注描述后的兴趣点矢量。就像在文本分类中一样,每个标签出现的次数统计生成一个全局直方图用来表示图像内容。直方图输入到一个分类器来识别图像中的物体类别。视觉字典由对训练数据的兴趣点描述矢量集聚类获得。图像分类对于传统机器学习算法来说是特别困难的,主要原因是图像所包含的信息量太大,维度太高。维度太高导致传统机器学习方法得到很不稳定的模型,且模型的泛化能力很差。本发明将集成学习技术用于图像分类。不同的兴趣点检测子用来形成视觉字典集体。基于视觉字典集体可以得到同一训练数据集的不同量化矢量集。基于包含了不同方面特征的量化训练集,可以训练不同的分类器,从而得到一个分类器集体,每种分类器利用不同的信息来建立物体模型。用学习到的分类器集体来识别新的图像时可以得到意想不到的好效果。集成方法通过结合多个模型的预测来提高现存的学习算法。一个好的集体应该是集体中成员间的差异性较大。如果集体中的成员都一样,那集成它们不会带来性能的提升。 所以成员间的差异性是决定集成学习的泛化误差的一个重要因素。本发明提出了一种生成差异性视觉字典集体和基于视觉字典集体生成相应的分类器集体的技术。本发明的内容阐述如下
I、利用不同的兴趣点检测子生成包含有丰富形状,边轮廓和灰度信息的视觉字典集体视觉字典集体的构建是非监督式的,样本的类标签只有在训练分类器时才会用到。受人类感知的启发,本发明的动机是平行利用多种可用线索来分类图像。就像人类经常使用不同的信息来识别物体,本发明使用不同的兴趣点检测子来提取不同的图像信息内容。利用不同的兴趣点检测子提取出包含有丰富形状,边轮廓和灰度信息的兴趣点,来形成图像的不同表达矢量。基于不同的兴趣点集合上,可以得到一个视觉字典集体,每个成员利用一种不同的图像特征。为了增加生成集体的差异性,在形成成员视觉字典时,先随机从训练图像集中选择一部分图像,在这些图像上使用一种不同的兴趣点检测子得到所有的兴趣点后,随机选择一部分来形成视觉字典。基于视觉字典集体上,可以得到同一图像的不同量化矢量。本方法的过程描述如下
1)采用不同的兴趣点检测子提取兴趣点;
2)使用聚类算法对描述后的兴趣点聚类得到一个视觉字典;
3)重复步骤I到步骤2,直到生成预设大小的视觉字典集体。实验结果表明此方法能融合不同检测子检测到的兴趣点信息,捕获图像不同方面的特征和信息。使用视觉字典集体表达图像比传统的基于单个视觉字典的图像表示方法有更好的识别性能。2、融合不同兴趣点检测子检测到的不同方面图像特征生成分类器集体
在利用不同的兴趣点检测子生成字典集体后,基于每个成员字典可以得到不同的量化训练数据集。在融合了不同信息的量化训练数据集上训练不同的分类器,从而可以得到一个分类器集体。每个成员分类器根据不同方面的特征为物体建立模型。通过构建差异视觉字典集体,可以得到具有高差异性的分类器集体。具有高差异性的集体能有效减少建立一个准确模型所需要的监督程度。本发明并行利用不同检测子检测到的不同方面图像特征来分类图像,使用不同的视觉字典来表示图像不同方面的特点。基于所得到的视觉字典集体得到训练数据集的不同量化矢量集。基于同一训练数据集的不同量化矢量集学习得到分类器集体,集体中的不同模型能捕获不同的特征。具体的步骤如下
1)生成视觉字典集体,每个成员视觉字典融合不同检测子检测到的不同方面图像特
征;
2)基于一个成员视觉字典,对训练数据进行量化;
3)在量化后的训练数据集上学习一个分类器;
4)重复步骤2到步骤3,生成预设大小的分类器集体。3、集成视觉字典集体和相应分类器集体识别物体类
成员视觉字典和对应的成员分类器是独立的,可以并行训练。基于视觉字典集体的分类器集体形成后,分类一个新的测试图像时,同样也包括兴趣点的提取和描述、图像的量化以及应用学到的模型到量化矢量的过程。集成分类器集体的分类结果,输出集成结果用于分类图像。具体的步骤如下
1)利用不同检测子对新图像检测出兴趣点,并利用描述子描述这些兴趣点;
2)基于一个对应成员视觉字典,对新图像进行量化;
3)使用对应成员分类器分类新图像,得到分类结果;
4)重复步骤2到步骤3,直到每个成员分类器得到了自己的分类结果;
5)利用集成技术集成成员分类器的分类结果得到最终物体类标签。综上本发明方法首先使用不同的兴趣点检测子检测到包含训练图像不同方面信息的兴趣点,在描述后的兴趣点集上聚类得到一个能表征一种图像信息的视觉字典。基于此视觉字典对原训练图像集量化,从而得到不同的量化矢量集,在此矢量集上训练得到根据特定信息来分类物体的模型。此过程并行进行,每个处理器使用不同兴趣点检测子捕捉不同的图像信息来学习物体的模型,见图I所示。在提取到新图像的兴趣点后,并行使用视觉字典集体中的成员分别对图像进行量化,然后使用相应的分类器成员进行识别,最后根据所有成员分类器的识别结果进行集成给出最终识别结果,见图2所示。本发明通过生成能表达物体多方面信息的视觉字典集体来识别物体。相对于基于单个视觉字典的物体类识别方法,此方法具有鲁棒性强、实践简单和平均效果好等优点。本方法能将不同检测子检测到的兴趣点信息融合在各个视觉字典中,捕获图像不同方面的特征和信息,从而并行生成一个分类器集体,降低了求解的复杂度,因此这项发明也能够有效提高计算效率、减少计算资源的消耗,快速准确的识别物体。本发明具有在不同领域数据集上的平均性能更好,鲁棒性强的优点,且模型简单, 非常适用于一般操作者。它不需要复杂参数的调整,监督程度低,且对训练数据的要求低。 利用集成学习固有的并行性,可以在多个处理器上利用少量训练数据并行学习,所以本发明的效率也相对较高。
图I是本发明的示例图。图2是用学习到的视觉字典集体和分类器集体对新图像分类的示例图。
具体实施例方式本发明优选的具体实施例
改变图像大小,使得每副图像大约包含40,000个像素(纵横比保留)。因为SIFT描述子是最流行和最有效的描述子,而且大多数的现存相关方法都使用128维SIFT矢量描绘兴趣点。所以优选的具体实施例也使用它来描绘兴趣点。每次挑选60%的图像形成一个新的训练子集。从每副图像中随机选择60个兴趣点,用k-means来构造成员视觉字典。因为k-means算法的固有随机性,所以在形成不同的成员字典时,相当于使用了不同的聚类器。在大多数与“bag-of-words”模型有关的研究中,视觉字典的大小位于100到1000之间,所以这个参数设置成中间值500。线性SVM (Support Vector Machine)在基于每个成员字典的量化矢量集上学习得到一个分类器。这个过程迭代9次形成一个大小为9的分类器集体。当测试新的图像时,分类器集体用来分类图像,一致性函数CSPA用来集成集体结果。CSPA基于分类器集体计算每个图像对被分在同一类中的概率,从而建立一个相似性矩阵。为了检测不同兴趣点,下面的9种不同的兴趣点检测子用来提取图像的不同信息内容,所以可以得到大小为9的集体
1)Harris兴趣点检测子;
2)SUSAN兴趣点检测子;
3)LOG兴趣点检测子;
4)Harris Laplace兴趣点检测子;
5)Gilles兴趣点检测子;
6)SIFT兴趣点检测子设置参数PeakThresh=5 ;
7)SIFT兴趣点检测子设置参数PeakThresh=O ;8)随机选择半径为10到30像素的圆形区域100个;
9)随机选择半径为10到30像素的圆形区域500个。实验结果表明,本发明优选的具体实施例比传统基于单个视觉字典的识别方法具有更好的性能,甚至超过了一些经过精心参数调整的复杂模型的性能。
权利要求
1.一种结合多个兴趣点检测子的物体类识别方法,其特征在于利用不同的兴趣点检测子提取出包含有丰富形状,边轮廓和灰度信息的视觉字典集体,具体步骤如下1)采用不同的兴趣点检测子提取兴趣点;2)使用聚类算法对描述后的兴趣点聚类得到一个视觉字典;3)重复步骤I到步骤2,直到生成预设大小的视觉字典集体。
2.根据权利要求I所述的方法,其特征在于所述兴趣点检测子用如下9种不同兴趣点检测子检测图像的兴趣点DHarris兴趣点检测子;2)SUSAN兴趣点检测子;3)LOG兴趣点检测子;4)Harris Laplace兴趣点检测子;5)Gilles兴趣点检测子;6)SIFT兴趣点检测子设置参数PeakThresh=5 ;7)SIFT兴趣点检测子设置参数PeakThresh=O ;8)随机选择半径为10到30像素的圆形区域100个;9)随机选择半径为10到30像素的圆形区域500个。
3.根据权利要求2所述的方法,其特征在于融合不同检测子检测到的不同方面图像特征生成分类器集体,具体步骤如下1)生成视觉字典集体,每个成员视觉字典融合不同检测子检测到的不同方面图像特征;2)基于一个成员视觉字典,对训练数据进行量化;3)在量化后的训练数据集上学习一个分类器;4)重复步骤2到步骤3,生成预设大小的分类器集体。
4.根据权利要求3所述的方法,其特征在于集成视觉字典集体和相应分类器集体识别物体类,具体步骤如下1)利用不同检测子对新图像检测出兴趣点,并利用描述子描述这些兴趣点;2)基于一个对应成员视觉字典,对新图像进行量化;3)使用对应成员分类器分类新图像,得到分类结果;4)重复步骤2到步骤3,直到每个成员分类器得到了自己的分类结果;5)利用集成技术集成成员分类器的分类结果得到最终物体类标签。
全文摘要
本发明属于模式识别、计算机视觉、图像理解技术领域,具体为一种结合多个兴趣点检测子的物体类识别方法。本发明首先用不同的兴趣点检测子提取出包含有丰富形状,边轮廓和灰度信息的兴趣点,来形成图像的不同表达矢量。基于不同的兴趣点集合上,可以得到一个视觉字典集体,每个成员利用一种不同的图像特征。基于产生的视觉字典集体,得到分类器集体,从而建立物体类的认知模型和模型的学习方法,使之能根据当前的识别任务来自适应选择特征。实验结果表明此方法能融合不同兴趣点检测子检测到的信息,捕获图像不同方面的特征,从而有效提高传统的基于单个视觉字典的物体类识别方法的性能。
文档编号G06K9/62GK102609715SQ20121000454
公开日2012年7月25日 申请日期2012年1月9日 优先权日2012年1月9日
发明者井福荣, 张彩霞, 罗会兰 申请人:江西理工大学