基于短语包模型的图像类别标注方法

文档序号：6603873阅读：177来源：国知局

专利名称：基于短语包模型的图像类别标注方法
技术领域：
本发明属于模式识别与信息处理技术领域，涉及基于短语包模型的图像类别标注方法，具体的是一种图像分类方法。
背景技术：
由于数码相机等数码产品的低廉价格，图片、视频数据可以很方便的拍摄并保存成方便计算机处理的电子形式。同时，互联网资源的迅猛发展，使得广大用户开始面临一个庞大的数据资源。单纯的利用人力来维护和组织这些数据已经变得不现实。因此，开发一种技术来完成图像、视频数据的自动标注，成了一个热点问题。总的来说，如何合理的表示图像比后来用于对这些表示进行分类的分类技术更为重要。道理可以通过一个例子来说两幅不同类别的图像，由于表示策略不好，被表示成了相同的向量；此时，即使使用一个万能的分类器对这种情况也是无能为力的。因此，图像内容表示，是图像类别标注技术中核心的问题之一。最初，人们更喜欢使用从整幅图像抽取的全局特征来表示图像。但是这种全局特征在表示图像方面遇到很多问题，比如它对目标轻微的遮挡以及复杂背景的混淆缺乏鲁棒性。另一方面，基于局部图像块的方法，却受到了越来越多的关注。人体生理学家发现，人类视觉早期分为“留意前”阶段(pre-attentive stage)和“留意”阶段(attentive stage) 0 在“留意前”阶段，一些比较特别的局部特征开始捕获人的注意力；然后，在“留意”阶段，人类视觉器官开始注意这些局部特征之间的关系。在这种思想的影响下，图像内容分类取得了重大进展。对应着“留意前”阶段，大量的局部特征检测子和局部特征描述子被提出，用来捕获图像中比较特别的局部特征。例如，目前的检测子有角点检测子、区域检测子、水滴状形状检测子，边缘检测子等等。而为了对这些检测到的区域进行向量化描述，研究者又提出了大量局部特征描述子，包括基于滤波的描述方法、基于统计的描述方法，基于边缘的描述方法以及基于矩的描述方法等等。这些方法各有优缺点，被广泛的应用于局部特征的提取过程之中。得到上面提到的局部特征以后，如何组织这些特征以利于分类开始提上日程，也即，对应着人类视觉中的“留意”阶段。为了有效地组织这些局部特征，大量的组织模型在过去的几年被先后提出。总的来说，这些模型大致可以分为一下几个大类字包 (bag-of-words)模型、部分-全局(part-structure)模型、轮廓片段相关的模型、语义场景相关的模型、生物感知相关的模型等等。在这些模型当中，字包模型以其计算简单，性能鲁棒等优点，在过去的几年取得了很大的成功。字包模型首先被应用于文本分类领域，它的主要思想是建立一个码本，码本中包含对分类具有判别性的字；然后统计码本中的每个字在当前文本中出现的次数，形成一个出现次数直方图向量。然后这个向量被用作文本的表示向量，输入分类器进行分类。然后，这种思想被引入计算机视觉。其中的文本与字分别对应着计算机视觉领域
4的图像和局部特征(又称视觉字)，码本在计算机视觉领域也成为码本，只是它是由一系列具有代表性的局部特征/视觉字构成；相应的，图像被表示成了码本中的局部特征在图像中出现次数形成的直方图向量。这些向量可以代表图像直接被输入分类器进行分类。但是，正如众多研究者指出的那样，字包模型把图像中重要的位置信息丢掉了。为了引入部分位置信息，有的研究者提出把原图像分块，然后在每个块内分别建立直方图的方式。但是，随着分块的增多，分类结果对目标在图像中的位置变得越来越敏感，使得字包模型对目标在图像中位置鲁棒的优点消失殆尽。

发明内容
为了解决现有字包模型存在的问题，本发明目的是在不影响现有的字包模型鲁棒性的同时引入局部特征点之间的结构位置信息，提高图像表示的质量，进而提高自动标注系统的性能，为此本发明提供一种基于短语包模型的图像类别标注方法。为了达到所述目的，本发明提供一种基于短语包模型的图像类别标注方法，该图像类别标注方法，通过分析字包模型中视觉字之间的位置关系，将视觉字发展为视觉短语，进而提出基于短语包模型的图像内容表示，然后利用短语包模型的表示结果训练分类器以及输入分类器进行类别标注。其中，所述基于短语包模型的图像内容表示包括步骤如下步骤S1 对任意图像Ip利用局部特征点检测子，得到图像中所有的局部特征点Pi ={PiJ}，j = 1，2，...，队，其中队为在图像Ii中检测到的所有局部特征点的个数；步骤S2 对步骤S1得到的局部特征点利用局部特征描述子，描述它周围局部区域的纹理特征，形成局部特征点的向量描述fu，将向量描述作为局部特征点Pij对应的视觉字；步骤S3 对步骤S1得到的局部特征点Pij描述图像Ii中其它特征点piu G Pi，U兴j 在局部特征点周围的分布情况，形成分布向量Sij ；步骤S4 向量描述与分布向量联接，形成局部特征点对应的视觉短语 Zij，Zij — [f"ij，Sij]；步骤S5 在所有图像得到的视觉短语中，选择K个具有代表性的视觉短语，构建码本C ；将码本中的每个视觉短语作为码本短语；步骤S6 将每一幅图像Ii中的所有局部特征点Pij对应的视觉短语Zij按照最近邻原则，映射到码本C中距离它最近的码本短语上面，将该码本短语作为视觉短语Zij的代表；步骤S7 统计码本C中每个码本短语在图像Ii中出现的次数，形成码本短语出现次数直方图向量\，作为图像Ii的基于短语包模型的图像内容表示。其中步骤S1中局部特征点检测子是现有众多局部特征点检测子中任意的一种。其中步骤S2中局部特征点描述子是现有众多局部特征点描述子中任意的一种。其中步骤S3中描述图像Ii中其它特征点piu G Py u兴j在局部特征点Pij周围的分布情况具体方式如下步骤S31 以局部特征点Pij为圆心，分别以巧，r2, . . . , rE为半径画R个同心圆；将得到的每个圆环，按照方向均勻0等分，得到的多个格子，需要注意的是最小的圆不作划
5分；步骤S32 统计图像Ii中其它特征点piu e Pi，u兴j落入每个格子内的个数，未落入格子内的特征点忽略不计；步骤S33 属于同一方向的格子内点的个数相加，选择特征点数量最多的方向，作为局部特征点周围特征点分布的主方向eij;步骤S34 为了使得局部特征点Pij对距离比较近的其它特征点敏感，而随着距离增加，影响减弱，将分别以巧，巧，…，&为半径的R个同心圆为外界的格子内的个数分别除以，S2，...，，作为每个格子内的新的个数；步骤S35 顺次统计每个格子内的个数，形成特征点？。.周围特征点分布直方图 sij;具体统计方式按照从里向外的方式，对处于同一圆环上的方格，从主方向开始，顺时针旋转统计。其中步骤S5中码本C的构建采用K-均值聚类的方式；具体描述如下从所有图像得到的视觉短语中，随机选择M个视觉短语；对这M个视觉短语进行K-均值聚类，形成K 个聚类中心；这K个聚类中心即为我们需要的具有代表性的码本短语，构成码本C。其中，所述分类器是普通的支持向量机分类器。本发明的有益效果与现有的传统基于字包表示模型的图像类别标注方法相比，本发明方法具有如下特点1.与传统的字包模型表示相比，本发明中的短语包模型引入局部特征/视觉字之间的结构位置信息，可以大大提高表示向量的判别性。2.与采用图像分块的方法相比，本发明只是捕获局部特征点与局部范围内其他特征点之间的结构位置信息，对目标在图像中的位移具有很强的鲁棒性。本发明有效的解决了传统字包模型缺乏位置信息导致判别性不足与加入分块的位置信息后对位移敏感的矛盾，使得图像在引入特征点之间的位置信息而增加了判别性的同时，消除了对目标在图像中位移的敏感程度，有效地挺高了图像标注系统的性能。

图1是本发明步骤S31中，R = 5，0 = 12的实例。
具体实施例方式下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。本发明具体实施方式
描述如下步骤S1 对任意图像I”利用基于小波的局部特征点检测子，得到图像中所有的局部特征点Pi = {PiJ}, j = 1,2,...,队，其中队为图像Ii中所有局部特征点的个数，在本发明的实验当中队被设置为1000，也就是在每一幅图像中检测1000个局部特征点；步骤S2 对步骤S1得到的局部特征点pu，利用局部特征描述子尺度不变特征变换(SIFT)，描述它周围局部区域的纹理特征，形成局部特征点Pij的向量描述fu，我们称
为特征点对应的视觉字，在本发明的试验当中，由SIFT描述子得到的向量为128维向量；
步骤S3 :对步骤S1得到的局部特征点Pij，描述图像Ii中其它特征点piu G Pp u卓j在局部特征点周围的分布情况，形成分布向量su，具体描述如下步骤S31 如图1示出，以Pij (红点)为圆心，分别以巧，r2, . . . , rE为半径画R个同心圆；将得到的每个圆环，按照方向均勻0等分，需要注意的是最小的圆不作划分。例如，在本发明的试验当中，R = 5，(ri,r2,r3,r4,r5) = (4，8，14，22，32)，0 = 12。步骤S32 统计图像L中其它特征点piu G Py u兴j落入步骤S31中得到的每个格子内的个数，未落入格子内的特征点忽略不计。步骤S33 属于同一方向的格子内点的个数相加，选择特征点数量最多的方向，作为特征周围特征点分布的主方向步骤S34 为了使得特征点Pij对距离比较近的其它特征点敏感，而随着距离增加，影响减弱，将分别以巧，r2, . . . , rE为半径的R个同心圆为外界的格子内的个数分别除以
S2，...，，作为每个格子内的新的个数。在我们试验中(、，6 2, 6 3, 6 4, 6 5)= (1，2，3，4，5)。步骤S35 顺次统计每个格子内的个数，形成特征点周围特征点分布直方图向量Sij。具体统计方式按照从里向外的方式，对处于同一圆环上的方格，从主方向开始，顺时针旋转统计；在本发明的实验当中，直方图向量Sij的维数为12X4+1 = 49。步骤S4 向量与向量Sij联接，形成局部特征点Pij对应的视觉短语，ZiJ = [&，su]。其中，、的维数为向量&和向量、维数之和；在本发明的实验当中，的维数为 128+49 = 177步骤S5 在所有图像通过步骤S1、步骤S2、步骤S3、步骤S4得到的视觉短语中，选择K个具有代表性的视觉短语，构建码本C。码本中的每个视觉短语我们成为码本短语。码本C的构建具体描述如下从所有图像得到的视觉短语中，随机选择M个视觉短语；对这 M个视觉短语进行K-均值聚类，形成K个聚类中心。这K个聚类中心即为我们需要的具有代表性的码本短语，构成码本。在本发明的试验当中，M = 300, 000, K = 2000。步骤S6 对每一幅图像Ii中的局部特征点Pij对应的视觉短语Zij按照最近邻原则，映射到码本C中距离它最近的码本短语上面。即将码本c中距离视觉短语Zij最近的码本短语作为视觉短语的代表。步骤S7 统计码本C中每个码本短语在图像Ii中出现的次数，形成码本短语出现次数直方图向量Vi，作为图像Ii的短语包模型图像内容表示。在得到图像的短语包模型表示向量以后，这些向量可以被用于训练支持向量机或者在支持向量机分类器训练完成之后输入支持向量机进行标注。本发明的基于短语包模型的图像类别标注方法大致描述如下首先对所有图像，利用局部特征点检测子，得到图像中所有的局部特征点；然后，对得到的局部特征点，利用局部特征描述子，描述它周围局部区域的纹理特征，形成局部特征点的向量描述，即该特征点对应的视觉字；对每一个局部特征点，描述图像中其它特征点在该点周围的分布情况，形成分布向量；然后，把视觉字和描述局部特征点分布的分布向量联接，形成视觉短语；选择一部分具有代表性的视觉短语，称为码本短语，构成码本；对每一幅图像中的每一个视觉短语按照最近邻原则，映射到码本中距离它最近的码本短语上面。统计码本中每个码本短语在某图像中出现的次数，形成码本短语出现次数直方图向量作为该图像的基于短语包模型的图像内容表示；该向量可以被直接送入支持向量机分类器，完成标注。上述基于短语包模型的图像类别标注方法具有高度的实用性和应用价值。以上所述，仅为本发明中的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。
权利要求
基于短语包模型的图像类别标注方法，其特征在于，该图像类别标注方法，通过分析字包模型中视觉字之间的位置关系，将视觉字发展为视觉短语，进而提出基于短语包模型的图像内容表示，然后利用短语包模型的表示结果训练分类器以及输入分类器进行类别标注。
2.如权利要求1所述的基于短语包模型的图像类别标注方法，其特征在于，所述基于短语包模型的图像内容表示包括步骤如下步骤S1 对任意图像I”利用局部特征点检测子，得到图像中所有的局部特征点Pi = {PiJ}, j = 1,2,...,队，其中队为在图像Ii中检测到的所有局部特征点的个数；步骤S2 对步骤S1得到的局部特征点利用局部特征描述子，描述它周围局部区域的纹理特征，形成局部特征点的向量描述fu，将向量描述作为局部特征点对应的视觉字；步骤S3 对步骤S1得到的局部特征点Pij描述图像Ii中其它特征点piu e Py兴j在局部特征点周围的分布情况，形成分布向量Sij ；步骤S4 向量描述与分布向量联接，形成局部特征点对应的视觉短语zu，ZiJ =礼，Sij]；步骤S5 在所有图像得到的视觉短语中，选择K个具有代表性的视觉短语，构建码本C ；将码本中的每个视觉短语作为码本短语；步骤S6 将每一幅图像Ii中的所有局部特征点Pij对应的视觉短语Zij按照最近邻原则，映射到码本C中距离它最近的码本短语上面，将该码本短语作为视觉短语Zij的代表；步骤S7 统计码本C中每个码本短语在图像^中出现的次数，形成码本短语出现次数直方图向量Vi，作为图像Ii的基于短语包模型的图像内容表示。
3.如权利要求2所述的基于短语包模型的图像类别标注方法，其特征在于步骤S1中局部特征点检测子是现有众多局部特征点检测子中任意的一种。
4.如权利要求2所述的基于短语包模型的图像类别标注方法，其特征在于步骤S2中局部特征点描述子是现有众多局部特征点描述子中任意的一种。
5.如权利要求2所述的基于短语包模型的图像类别标注方法，其特征在于步骤S3中描述图像L中其它特征点Piu e Py u兴j在局部特征点周围的分布情况具体方式如下步骤S31 以局部特征点为圆心，分别以r” r2，...，&为半径画R个同心圆；将得到的每个圆环，按照方向均勻0等分，得到的多个格子，需要注意的是最小的圆不作划分；步骤S32 统计图像L中其它特征点piu e Pi，u兴j落入每个格子内的个数，未落入格子内的特征点忽略不计；步骤S33 属于同一方向的格子内点的个数相加，选择特征点数量最多的方向，作为局部特征周围特征点分布的主方向eij;步骤S34:为了使得局部特征点对距离比较近的其它特征点敏感，而随着距离增加，影响减弱，将分别以巧，r2, . . . , rE为半径的R个同心圆为外界的格子内的个数分别除以 S2，...，SK，作为每个格子内的新的个数；步骤S35 顺次统计每个格子内的个数，形成特征点周围特征点分布直方图；具体统计方式按照从里向外的方式，对处于同一圆环上的方格，从主方向9 u开始，顺时针旋转统计。
6.如权利要求2所述的基于短语包模型的图像类别标注方法，其特征在于步骤S5中码本C的构建采用K-均值聚类的方式；具体描述如下从所有图像得到的视觉短语中，随机选择M个视觉短语；对这M个视觉短语进行K-均值聚类，形成K个聚类中心；这K个聚类中心即为我们需要的具有代表性的码本短语，构成码本C。
7.如权利要求1所述的基于短语包模型的图像类别标注方法，其特征在于，所述分类器是普通的支持向量机分类器。
全文摘要
本发明为一种基于短语包模型的图像类别标注方法，该方法在现有的字包模型表示的基础上，引入视觉字之间的位置信息，提出了短语包模型表示策略。本发明有效的解决了传统字包模型缺乏位置信息导致判别性不足与加入分块的位置信息后对目标位移敏感之间的矛盾；使得图像在引入视觉字之间的位置信息而增加了判别性的同时，消除了对目标在图像中位移的敏感性，有效地提高了图像类别标注系统的性能，具有重要的应用价值。
文档编号G06K9/62GK101894264SQ20101019509
公开日2010年11月24日申请日期2010年5月31日优先权日2010年5月31日
发明者张琳波, 惠康华, 王春恒, 肖柏华, 蔡新元, 邵允学申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖柏华;张琳波;王春恒;惠康华;邵允学;蔡新元
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：文档图像分割系统的制作方法
上一篇：针对应用基础支撑平台上应用系统的应用与数据保全方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。