图像分类方法及图像分类装置的制作方法

文档序号：6577909阅读：215来源：国知局

专利名称：图像分类方法及图像分类装置的制作方法
技术领域：
本发明一般地涉及模式识别和多媒体技术领域，特别涉及一种图像分类方法及图像分类装置。
背景技术：
随着多媒体技术的发展和因特网的普及，人们获得各种多媒体信息越来越容易，其中图像是数量最多的一种，如何对图像进行分类或标注以便有效地、快速地从大规模图像数据库中检索出所需要的图像已成为人们日益关注的问题。一种传统的做法是通过关键字对图像进行人工标注。然而，该方法是极其费时的，并且不同的人可能产生不同的标注结果，例如，包含菊花的图像可能被标注为“菊花”或“黄色花”。为了克服人工标注的限制，例如，在T. Kato所著的“Databasearchitecture for content-based image retrieval，，(Image Storage and RetrievalSystems, Proc. SPIE, 1662:112-123,1992) 一文中公开了一种基于内容的图像检索技术(CBIR)，其中提取图像的诸如颜色，纹理，形状等低层视觉特征来推断图像的高层语义。然而，由于图像的低层视觉特征与图像的语义表达之间存在“语义鸿沟”，因此传统的CBIR技术不能满足人们按语义对图像进行分类和检索的需求。对于图像语义信息的提取，上下文关系信息是重要的。具体地说，以对象“老虎”的概念为例，其通常都出现在具有诸如“天空”、“草地”等背景对象的自然风景中。这样，为了改善图像分类和检索性能，一种趋势是在从图像中提取语义概念时既考虑图像的内容信息也考虑其上下文关系信息。例如，在J.Luo等人所著的“Pictures are not taken in a vacuum—an overviewof exploiting context for semantic scene content understanding”(IEEE SignalProcessing Magazine, 23 (2) :101-114,March 2006)—文中公开了在进行用户照片理解时考虑了时间上下文关系和空间上下文关系等。具体地说，基于区域划分结果对空间上下文关系进行建模，并且考虑了区域之间的诸如“上”、“下”等七种空间关系。另外，针对“天空”、“草地”、“树叶”等六个概念的每个空间上下文关系对条件概率矩阵进行训练。实验结果显示了通过考虑空间上下文关系，提高了图像分类性能。但是，由于该空间关系是显式定义的，因此增加了对分类器进行训练所需的人工量，并且限制了该方案的应用范围。

发明内容
在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。但是，应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分，也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念，以此作为稍后给出的更详细描述的前序。鉴于现有技术的上述情形，本发明的目的是提供一种新颖的图像分类方法，其可以有效地利用图像的上下文关系信息来进行图像分类而无需显式定义图像中对象之间的空间关系，从而提高了图像分类性能。为了实现上述目的，根据本发明的一个方面，提供了一种图像分类方法，包括以下步骤图像分割步骤，将输入的图像分割为多个区域；特征提取步骤，提取每个区域的视觉特征；第一分类步骤，对于每个区域，根据所提取的所述区域的视觉特征，利用第一分类器，按照预定的多个类别对所述区域进行多类分类；上下文关系特征生成步骤，根据每个区域的分类结果来生成所述图像的上下文关系特征；以及第二分类步骤，根据所生成的所述图像的上下文关系特征，利用第二分类器，确定所述图像所属的类别。根据本发明的另一个方面，还提供了一种图像分类装置，其包括图像分割单元，其被配置成将输入的图像分割为多个区域；特征提取单元，其被配置成提取每个区域的视觉特征；第一分类单元，其被配置成对于每个区域，根据所提取的所述区域的视觉特征，利用第一分类器，按照预定的多个类别对所述区域进行多类分类；上下文关系特征生成单元，其被配置成根据每个区域的分类结果来生成所述图像的上下文关系特征；以及第二分类单元，其被配置成根据所生成的所述图像的上下文关系特征，利用第二分类器，确定所述图像所属的类别。根据本发明的另一个方面，还提供了用于实现上述图像分类方法的计算机程序产
P
m o根据本发明的另一个方面，还提供了计算机可读介质，其上记录有用于实现上述图像分类方法的计算机程序代码。根据本发明的上述技术方案，可以较为准确地对图像进行分类，从而有效地、快速地从大规模图像数据库中检索出所需要的图像。

本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中图1示出了根据本发明实施例的图像分类方法的总体流程图；图2示出了示例性输入图像；图3示出了按照5X5分割粒度对图2的输入图像进行均分的示意图；图4示意性地示出了利用支持向量机(SVM)多类分类器分别针对老虎、狗........草地N个类别对图2中的输入图像进行分类；图5示意性地示出了通过将图2的输入图像中所有区域的分类结果组合为一个特征向量来生成图像的上下文关系特征以及利用SVM分类器对该图像进行最终的分类；图6示出了根据本发明实施例的图像分类训练方法的总体流程图；图7示出了根据本发明实施例的图像分类装置的框图；图8示出了根据本发明实施例的基于上下文关系的图像分类技术方案与传统的基于内容的图像分类技术方案在图像分类性能上的比较图；以及图9示出了在其中可以实现根据本发明实施例的图像分类方法和/或图像分类装
5置的信息处理设备的示例性结构的框图。本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其它元件放大了，以便有助于提高对本发明实施例的理解。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其它细节。首先将参考附图，特别是图1至图5，描述根据本发明实施例的图像分类方法的一般工作原理。图1示出了根据本发明实施例的图像分类方法的总体流程图。如图1所示，根据本发明实施例的图像分类方法包括图像分割步骤S110、特征提取步骤S120、第一分类步骤S130、上下文关系特征生成步骤S140以及第二分类步骤S150。首先，在图像分割步骤S110，将输入的图像分割为多个区域。优选地，按照诸如 3X3、5X5等预定的分割粒度将输入的图像分割为多个区域。例如，图2示出了示例性输入图像，而图3示出了按照5X5分割粒度对图2的输入图像进行均分的示意图。本领域的技术人员应当理解，根据具体设计，也可以采用其它图像分割方式，例如，将图像的中央区域相对于其它区域设置得较大或较小等等。接下来，在特征提取步骤S120，提取每个区域的视觉特征。优选地，视觉特征可以包括颜色、纹理、形状特征中的一个或多个，其中颜色特征可以包括颜色布局描述符 (CLD)、颜色结构描述符(CSD)、可伸缩颜色描述符(SCD)、颜色相关矢量(CCV)、颜色自相关图(CAC)等中的一个或多个，纹理特征可以包括边缘直方图描述符(EHD)、边缘相关矢量 (CCV)、同质纹理(HT)、局部二值模式(LBP)、TamUra等中的一个或多个，而形状特征包括区域形状描述符(RS)等中的一个或多个。这些视觉特征的含义及其计算方法对于本领域的技术人员而言是公知的，为简洁起见，在此不作详细描述。接下来，在第一分类步骤S130，对于每个区域，根据所提取的该区域的视觉特征，利用第一分类器，按照预定的多个类别对该区域进行多类分类。优选地，在第一分类步骤 S130，利用第一分类器确定该区域属于预定的多个类别中的每一个类别的概率值(也称作置信度)。在此，第一分类器可以是支持向量机(SVM)多类分类器，但不限于此，例如，它还可以是采用神经网络、AdaBoost算法等等的多类分类器。图4示意性地示出了利用SVM多
类分类器分别针对老虎、狗........草地N个类别对图2的输入图像进行分类。从图4中
可以看出，针对老虎、狗........草地N个类别中的每个类别，SVM多类分类器都包括一个
相应的SVM子分类器，其输出了该图像的每个区域属于该类的概率值。
6
接下来，在上下文关系特征生成步骤S140，根据每个区域的分类结果来生成图像的上下文关系特征。如此，可以使得该上下文关系特征隐含图像中各对象的位置及其间的空间关系。优选地，可以通过将所有区域的分类结果组合为一个特征向量来生成该图像的上下文关系特征。图5示意性地示出了通过将图2的输入图像中所有区域的分类结果组合
为一个特征向量来生成图像的上下文关系特征，其中按照老虎、狗........草地这N个类
别，将该图像中的所有区域的分类结果组合成(5X5XN)维特征向量来作为该图像的上下文关系特征。最后，在第二分类步骤S150，根据所生成的图像的上下文关系特征，利用第二分类器对图像进行分类，也就是说，确定该图像所属的类别。在此，第二分类器可以是SVM分类器，但不限于此，例如，它还可以是采用神经网络、AdaBoost算法等等的分类器。图5还示意性地示出了利用SVM分类器对图2的输入图像进行最终的分类，其中该SVM分类器根据所生成的上下文关系特征将该图像分类为例如“老虎”图像。下面将结合附图详细描述根据本发明实施例的与上述图像分类方法相对应的图像分类训练方法。如图6所示，根据本发明实施例的图像分类训练方法包括图像分割步骤S610、特征提取步骤S620、第一分类训练步骤S630、上下文关系特征生成步骤S640以及第二分类训练步骤S650。首先，在图像分割步骤S610，按照与图1的图像分割步骤S110相同的方式，将训练样本图像集中的样本图像分割为多个区域。接着，在特征提取步骤S620，按照与图1的特征提取步骤S120相同的方式，提取每个区域的视觉特征。接着，在第一分类训练步骤S630，针对预定的多个类别中的每个类别，人工标注每个区域属于该类别的概率值，并且根据每个区域的标注结果以及所提取的每个区域的视觉特征，对在图1的第一分类步骤S130采用的第一分类器进行训练。接着，在上下文关系特征生成步骤S640，按照与图1的上下文关系特征生成步骤 S140相同的方式，根据每个区域的标注结果来生成图像的上下文关系特征。最后，在第二分类训练步骤S650，人工标注样本图像所属的类别，并且利用所标注的图像类别以及所生成的图像的上下文关系特征，对在图1的第二分类步骤S150采用的第二分类器进行训练。虽然在上面描述了第一分类器和第二分类器是利用同样的训练样本图像集进行训练的，但是本领域的技术人员应当清楚，对第一分类器和第二分类器的训练可以是相互独立的，也就是说，可以利用不同的训练样本图像集对第一分类器和第二分类器进行训练。在这种情况下，在对第二分类器进行训练时标注每个区域属于各类别的概率值既可以人工地完成，也可以利用训练好的第一分类器自动地完成，或者以两者相结合的方式完成。下面将结合附图描述根据本发明实施例的图像分类装置。图7示出了根据本发明实施例的图像分类装置700的框图，其中，为了简明起见仅仅示出了与本发明密切相关的部分。在图像分类装置700中，能够执行以上参考图1所描述的图像分类方法。如图7所示，图像分类装置700可以包括图像分割单元710、特征提取单元720、第
7一分类单元730、上下文关系特征生成单元740以及第二分类单元750。其中，图像分割单元710可以将输入的图像分割为多个区域。特征提取单元720 可以提取每个区域的视觉特征。第一分类单元730可以对于每个区域，根据所提取的该区域的视觉特征，利用第一分类器，按照预定的多个类别对该区域进行多类分类。上下文关系特征生成单元740可以根据每个区域的分类结果来生成该图像的上下文关系特征。第二分类单元750可以根据所生成的图像的上下文关系特征，利用第二分类器确定该图像所属的类别。通过阅读前面给出的相应处理的描述，图像分类装置700的各个组成部件的功能如何实现就变得很清楚了，所以在此就不再赘述了。在此需要说明的是，图7所示的图像分类装置700的结构仅仅是示例性的，本领域技术人员可以根据需要对图7所示的结构框图进行修改。经过实验证明，与传统的基于内容的图像分类技术方案相比，根据本发明实施例的基于上下文关系的图像分类技术方案显著提高了图像分类性能。在我们的实验中，分别采用根据本发明实施例的基于上下文关系的图像分类技术方案和传统的基于内容的图像分类技术方案，对由近万幅图像构成的图像数据库进行了测试，其中将测试图像最终分类为“狮子”、“老虎”、“马”、“狗”或“猫”。作为实验结果，图8示出了根据本发明实施例的基于上下文关系的图像分类技术方案与传统的基于内容的图像分类技术方案在图像分类性能上的比较图。从图8中可以看出，在相同的召回率下，根据本发明实施例的基于上下文关系的图像分类技术方案的精度基本上都高于传统的基于内容的图像分类技术方案的精度，尤其是在召回率较低的情况下，根据本发明实施例的基于上下文关系的图像分类技术方案的精度远远高于传统的基于内容的图像分类技术方案的精度。以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图9所示的通用个人计算机900安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM) 903的程序执行各种处理。在RAM 903中，也根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901,ROM 902和RAM 903经由总线904彼此连接。输入/输出接口 905也连接到总线904。下述部件连接到输入/输出接口 905 输入部分906，包括键盘、鼠标等等；输出部分907，包括显示器，比如阴极射线管(CRT)、液晶显示器(IXD)等等，和扬声器等等；存储部分908，包括硬盘等等；和通信部分909，包括网络接口卡比如LAN卡、调制解调器等等。通信部分909经由网络比如因特网执行通信处理。根据需要，驱动器910也连接到输入/输出接口 905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器910上，使得从中读出的计算机程序根据需要被安装到存储部分908中。在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。本领域的技术人员应当理解，这种存储介质不局限于图12所示的其中存储有程序、与装置相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘 (DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是 ROM 902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的装置一起被分发给用户。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和 /或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，
由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装
置中还存在另外的相同要素。
权利要求
一种图像分类方法，包括以下步骤图像分割步骤，将输入的图像分割为多个区域；特征提取步骤，提取每个区域的视觉特征；第一分类步骤，对于每个区域，根据所提取的所述区域的视觉特征，利用第一分类器，按照预定的多个类别对所述区域进行多类分类；上下文关系特征生成步骤，根据每个区域的分类结果来生成所述图像的上下文关系特征；以及第二分类步骤，根据所生成的所述图像的上下文关系特征，利用第二分类器，确定所述图像所属的类别。
2.根据权利要求1所述的图像分类方法，其中所述图像分割步骤进一步包括按照预定的分割粒度将输入的图像分割为多个区域。
3.根据权利要求1所述的图像分类方法，其中所述特征提取步骤进一步包括提取每个区域的颜色、纹理、形状特征中的一个或多个作为其视觉特征。
4.根据权利要求1所述的图像分类方法，其中所述第一分类步骤进一步包括对于每个区域，根据所提取的所述区域的视觉特征，利用所述第一分类器，确定所述区域属于所述预定的多个类别中的每一个类别的概率值。
5.根据权利要求1或4所述的图像分类方法，其中所述第一分类器是支持向量机多类分类器。
6.根据权利要求1所述的图像分类方法，其中所述上下文关系特征生成步骤进一步包括通过将所有区域的分类结果组合为一个特征向量来生成所述图像的上下文关系特征。
7.根据权利要求1所述的图像分类方法，其中所述第二分类器是支持向量机分类器。
8.一种图像分类装置，包括图像分割单元，其被配置成将输入的图像分割为多个区域；特征提取单元，其被配置成提取每个区域的视觉特征；第一分类单元，其被配置成对于每个区域，根据所提取的所述区域的视觉特征，利用第一分类器，按照预定的多个类别对所述区域进行多类分类；上下文关系特征生成单元，其被配置成根据每个区域的分类结果来生成所述图像的上下文关系特征；以及第二分类单元，其被配置成根据所生成的所述图像的上下文关系特征，利用第二分类器，确定所述图像所属的类别。
9.根据权利要求8所述的图像分类装置，其中所述图像分割单元按照预定的分割粒度将输入的图像分割为多个区域。
10.根据权利要求8所述的图像分类装置，其中所述特征提取单元提取每个区域的颜色、纹理、形状特征中的一个或多个作为其视觉特征。
11.根据权利要求8所述的图像分类装置，其中所述第一分类单元对于每个区域，根据所提取的所述区域的视觉特征，利用所述第一分类器，确定所述区域属于所述预定的多个类别中的每一个类别的概率值。
12.根据权利要求8或11所述的图像分类装置，其中所述第一分类器是支持向量机多类分类器。
13.根据权利要求8所述的图像分类装置，其中所述上下文关系特征生成单元通过将所有区域的分类结果组合为一个特征向量来生成所述图像的上下文关系特征。
14.根据权利要求8所述的图像分类装置，其中所述第二分类器是支持向量机分类器。
全文摘要
本发明公开了一种图像分类方法及图像分类装置，其中该图像分类方法包括以下步骤图像分割步骤，将输入的图像分割为多个区域；特征提取步骤，提取每个区域的视觉特征；第一分类步骤，对于每个区域，根据所提取的所述区域的视觉特征，利用第一分类器，按照预定的多个类别对所述区域进行多类分类；上下文关系特征生成步骤，根据每个区域的分类结果来生成所述图像的上下文关系特征；以及第二分类步骤，根据所生成的所述图像的上下文关系特征，利用第二分类器，确定所述图像所属的类别。根据上述技术方案，可以有效地利用图像的上下文关系信息来提高图像分类性能，而无需显式定义图像中对象之间的空间关系。
文档编号G06K9/62GK101877064SQ200910135930
公开日2010年11月3日申请日期2009年4月30日优先权日2009年4月30日
发明者吴伟国, 薛向阳, 路红申请人:索尼株式会社;复旦大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴伟国;路红;薛向阳
技术所有人：索尼株式会社;复旦大学
我是此专利的发明人

上一篇：检阅服务器支持功能的方法
上一篇：获取网络配置协议服务端建模文件信息的方法、设备和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。