图像识别装置和图像识别方法

文档序号:6510187阅读:163来源:国知局
图像识别装置和图像识别方法
【专利摘要】本发明提供了一种图像识别装置和图像识别方法。图像识别装置包括第一生成模型创建单元、分类单元以及第二生成模型创建单元。第一生成模型创建单元从属于识别对象类别的识别对象图像组提取特征信息,并且基于特征信息创建用于确定图像属于识别对象类别的概率的第一生成模型。分类单元将第一生成模型应用于属于非识别对象类别的各非识别对象图像组以确定非识别对象图像属于识别对象类别的概率,并且根据该概率将非识别对象图像分类到对应的非识别对象组。第二生成模型创建单元从属于对应的非识别对象组的各非识别对象图像组提取特征信息,并且基于对应的特征信息创建每个非识别对象组的用于确定图像属于对应的非识别对象组的概率的第二生成模型。
【专利说明】图像识别装置和图像识别方法
【技术领域】
[0001]本发明涉及一种图像识别装置和图像识别方法。
【背景技术】
[0002]一些具有学习功能的图像标注系统被利用分类器(例如,支持向量机)来构造。当用作学习模型时,分类器要求很多用作正面示例和反面示例的图像。由于训练图像的自动收集等等导致的错误标注可能显著地降低分类器的识别能力。另一方面,学习图像特征的分布的生成模型不要求大量的训练图像并且允许一定量的噪声(即,错误标注),但是其识别能力常常低于分类器。
[0003]作为与图像识别相关的技术,例如,日本未审专利申请公开N0.2005-149506公开了一种用于通过下述步骤识别图像中的对象的方法:对图像中的对象进行正规化以生成对象表示,从对象表示提取多个特征,并且将特征应用于添加概率模型以确定似然性。
[0004]而且,日本未审专利申请公开N0.2009-295100公开下述装置。该装置从弱分类器中选择目标分类器并且将目标分类器应用于目标图像以输出识别结果。该装置然后将识别结果乘以目标分类器的权重以计算似然值。该装置利用似然值的累积似然值确定是否继续针对该目标图像的处理。
[0005]另外,日本未审专利申请公开N0.2010-97610公开了一种用于通过将原始图像建模为多个参考图像的混合体来对图像进行分类的方法。
[0006]此外,日本未审专利申请公开N0.2008-159056公开了一种系统,其利用用于对应的类别的类别条件概率分布来确定未分类的图像中出现特征的类别条件似然性,并且基于类别条件似然性将未分类的图像分类到类别之一中。

【发明内容】

[0007]用作学习模型的生成模型的图像识别能力会低于用作学习模型的分类器的图像识别能力。
[0008]因此,本发明的目的在于提供一种图像识别装置和图像识别方法,其能够改进用作学习模型的生成模型的图像识别能力。
[0009]根据本发明的第一方面,提供了一种图像识别装置,该图像识别装置包括第一生成模型创建单元、分类单元以及第二生成模型创建单元。第一生成模型创建单元从属于识别对象类别的识别对象图像组提取特征信息,并且基于特征信息创建第一生成模型。第一生成模型用于确定图像属于识别对象类别的概率。分类单元将第一生成模型应用于属于不同于识别对象类别的非识别对象类别的各非识别对象图像组以确定非识别对象图像属于识别对象类别的概率,并且根据该概率将非识别对象图像分类到多个非识别对象组中的对应的组。第二生成模型创建单元从属于多个非识别对象组中的对应的组的各非识别对象图像组提取特征信息,并且基于对应的特征信息创建多个非识别对象组中的每个组的第二生成模型。每个第二生成模型用于确定图像属于多个非识别对象组中的对应的组的概率。[0010]根据本发明的第二方面,根据第一方面的图像识别装置进一步包括第三生成模型创建单元。第三生成模型创建单元从属于由分类单元执行分类之前的非识别对象类别的非识别对象图像组提取特征信息,并且基于该特征信息创建第三生成模型。第三生成模型用于确定图像属于非识别对象类别的概率。分类单元通过将第一生成模型和第三生成模型应用于属于非识别对象类别的各非识别对象图像组并且通过将属于非识别对象类别的非识别对象图像组中通过应用第一生成模型而获得的概率大于或等于通过应用第三生成模型而获得的概率的每个非识别对象图像分类到多个非识别对象组中的第一非识别对象组来将各非识别对象图像组分类到多个非识别对象组中的对应的组。
[0011]根据本发明的第三方面,第三生成模型创建单元从没有被分类到第一非识别对象组中的非识别对象图像组创建新的第三生成模型。分类单元将第一生成模型和新的第三生成模型应用于没有被分类到第一非识别对象组的各非识别对象图像组,并且将通过应用第一生成模型而获得的概率大于或等于通过应用新的第三生成模型而获得的概率的每个非识别对象图像分类到多个非识别对象组中的第二非识别对象组。
[0012]根据本发明的第四方面,识别对象类别包括多个识别对象类别。第一生成模型创建单元从属于多个识别对象类别中的对应的类别的识别对象图像的各组提取特征信息,并且基于识别对象类别的对应的特征信息创建多个识别对象类别中的每个识别对象类型的第一生成模型。分类单元将多个识别对象类别的第一生成模型应用于属于非识别对象类别的各非识别对象图像组以确定非识别对象图像属于各识别对象类别的概率,并且根据该概率将非识别对象图像分类到多个非识别对象组中的对应的组中。
[0013]根据本发明的第五方面,分类单元将从多个识别对象类别的第一生成模型中的同一第一生成模型获得了最大概率的非识别对象图像组分类到多个非识别对象组中的同一非识别对象组。
[0014]根据本发明的第六方面,根据第一方面的图像识别装置进一步包括识别单元。识别单元将第一生成模型和第二生成模型应用于未分类的图像,并且根据通过将第一生成模型和第二生成模型应用于未分类的图像而获得的结果将未分类的图像分类到识别对象类别或非识别对象类别。
[0015]根据本发明的第七方面,提供了一种图像识别方法,其包括下述步骤:从属于识别对象类别的识别对象图像组提取特征信息,并且基于特征信息创建第一生成模型,第一生成模型用于确定图像属于识别对象类别的概率;将第一生成模型应用于属于不同于识别对象类别的非识别对象类别的各非识别对象图像组以确定非识别对象图像属于识别对象类别的概率,并且根据该概率将非识别对象图像分类到多个非识别对象组中的对应的组;以及从属于多个非识别对象组中对应的组的各非识别对象图像组提取特征信息,并且基于对应的特征信息创建多个非识别对象组中的每个组的第二生成模型,每个第二生成模型用于确定图像属于多个非识别对象组中的对应的组的概率。
[0016]根据本发明的第一或第七方面,与没有使用第一或第七方面的构造的情况相比,改进了生成模型的图像识别能力。
[0017]根据本发明的第二方面,与没有使用第二方面的构造的情况相比,改进了用于非识别对象图像的生成模型的图像识别能力,并且因此改进了针对识别对象类别的检测精度。[0018]根据本发明的第三方面,与没有使用第三方面的构造的情况相比,进一步改进了用于非识别对象图像的生成模型的图像识别能力,并且因此,进一步改进了针对识别对象类别的检测精度。
[0019]根据本发明的第四方面,与没有使用第四方面的构造的情况相比,改进了用于各类别的图像的生成模型的图像识别能力。
[0020]根据本发明的第五方面,与没有使用第五方面的构造的情况相比,改进了用于非识别对象图像的生成模型的图像识别能力,并且因此,改进了用于对应的类别的图像的生成模型的图像识别能力。
[0021]根据本发明的第六方面,与没有使用第六方面的构造的情况相比,可以以更高的精度对未分类的图像进行分类。
【专利附图】

【附图说明】
[0022]将基于附图详细描述本发明的示例性实施方式,其中:
[0023]图1是示出根据本发明的示例性实施方式的图像识别装置的示例的框图;
[0024]图2是示出类别的示例的示意图;
[0025]图3是示出特征的分布的图;
[0026]图4是示出根据示例性实施方式的图像识别装置执行的操作的示例的流程图;
[0027]图5是示出根据第一示例的操作的示例的流程图;
[0028]图6A和图6B是示出根据第一示例的类别的分布的示例的示意图;
[0029]图7是示出根据第二示例的操作的示例的流程图;
[0030]图8是示出根据第二示例的类别的分布的示例的示意图;
[0031]图9是示出根据第二示例的特征的分布的图;
[0032]图10是示出根据第三示例的操作的示例的流程图;以及
[0033]图11是示出根据第三示例的类别的分布的示意图。
【具体实施方式】
[0034]图1示出了根据本发明的示例性实施方式的图像识别装置的示例。图像识别装置10包括训练图像收集单元12、学习模型创建单元14、测试评估单元16、分类单元18和识别单元20。图像识别装置10从属于特定识别对象类别的训练图像组创建生成模型。图像识别装置10然后将生成模型应用于属于非识别对象类别的各训练图像组以将属于非识别对象类别的训练图像分类到多个组中的对应的组中。之后,图像识别装置10从属于多个组中的对应的组的各训练图像组创建生成模型。
[0035]训练图像收集单元12收集属于作为识别对象的特定类别(下面,称为“识别对象类别”)的训练图像组和属于除了识别对象类别之外的类别(下面,称为“非识别对象类别”)的训练图像组。为了方便说明,属于识别对象类别的训练图像组可以被称为“识别对象图像组”,而属于非识别对象类别的训练图像组可以被称为“非识别对象图像组”。识别对象图像组包括属于特定识别对象类别的多个训练图像数据项目。非识别对象图像组包括是识别对象图像组的反面示例的多个训练图像数据项目。训练图像收集单元12可以收集分别属于多个识别对象类别中的对应的类别的识别对象图像组和作为多个识别对象类别的公共反面示例的非识别对象图像组。等效于反面示例的训练图像数据项目不属于识别对象类别,而是属于除了识别对象类别之外的类别“其它”(即,非识别对象类别)。而且,识别对象图像组也可以被称为正面示例训练图像组,并且识别对象类别也可以被称为正面示例类别。相反地,非识别对象图像组也可以被称为反面示例训练图像组,并且非识别对象类别也可以被称为反面示例类别。
[0036]例如,当构造对诸如静态图像或动态图像的图像给予与图像相关的标签信息的图像标注系统时,训练图像收集单元12收集分别属于将由图像标注系统识别的对应类别(识别对象类别)的训练图像数据项目组。例如,训练图像收集单元12对于每个类别收集成百上千个训练图像数据项目。可以利用图像检索系统自动地收集训练图像数据项目或者可以利用百科全书等等中包含的图像半自动地收集训练图像数据项目。训练图像收集单元12还收集是识别对象类别的公共的反面示例的训练图像数据项目(属于类别“其它”的训练图像数据项目)。为了抑制偏向的图像选择,训练图像收集单元12可以收集比识别对象训练图像数据项目的数目更多的数目的非识别对象训练图像数据项目。注意的是,属于类别“其它”的图像数据项目可以包含各种训练图像数据项目。例如,属于识别对象类别的训练图像数据项目可以属于类别“其它”。相反地,不属于识别对象类别的训练图像数据项目可能被错误地包含在识别对象类别中。以该方式,训练图像组可能包括噪声。
[0037]图2示出了类别的示例。借助于示例,将描述对四个类别进行识别的情况。每个收集的训练图像数据项目属于四个识别对象类别和非识别对象类别(类别“其它”)中的对应类别,其中非识别对象类别包括针对四个识别对象类别的公共反面示例。图2中所示的示例示出了类别“车”、“狗”、“大海”和“天空”作为识别对象类别。类别“其它”是非识别对象类别,其包括针对类别“车”、“狗”、“大海”和“天空”的公共反面示例。各区域的大小与属于对应的类别的训练图像数据项目的数目成比例。属于类别“其它”的训练图像数据项目的数目大于属于识别对象类别中的对应的类别的训练图像数据项目的数目。而且,各识别对象类别可以与类别“其它”共享某一区域。例如,包括车的图像可以属于类别“其它”,或者不包括“狗”的图像可以属于类别“狗”。为了说明的方便起见,在训练图像数据项目的收集期间创建的类别“其它”在下面可以被称为类别“初始其它”。
[0038]学习模型创建单元14从属于类别的各训练图像组创建各类别的学习模型。在本示例性实施方式中,学习模型是生成模型。学习模型创建单元14为每个类别创建生成模型。具体地,生成模型创建单元14从属于各识别对象类别的各识别对象图像组创建生成模型并且从属于非识别对象类别(类别“其它”)的非识别对象图像组创建生成模型。参考图2中所示的示例,学习模型创建单元14创建针对类别“车”、“狗”、“大海”、“天空”和“其它”的生成模型。某一类别的生成模型用于计算给定图像数据项目属于该类别的概率或者与该概率成比例的分数。例如,高斯混合模型、朴素贝叶斯模型等等是生成模型。注意的是,学习模型创建单元14等效于第一、第二和第三生成模型创建单元的示例。为了描述的方便起见,从属于识别对象类别的识别对象图像组创建的生成模型可以在下面称为“识别对象生成模型”,而从属于非识别对象类别(类别“其它”)的非识别对象图像组创建的生成模型可以在下面称为“非识别对象生成模型”。
[0039]现在,将描述生成模型的创建。学习模型创建单元14对于每个类别c创建生成模型。首先,学习模型创建单元14从各训练图像数据项目D提取特征向量F。特征向量F由图像的一般特征(例如,颜色和渐变)构成,并且是通过以特定间隔对整个图像执行采样获得的局部特征等等。当从各训练图像数据项目提取了η个特征时,特征向量由F=If1, f2,...,4}表示,其中,fk表示在图像的特定位置提取的第k特征向量。学习模型学习对应的类别c的特征的分布。例如,当高斯混合模型执行学习时,分布P (f |c)由多个高斯分布的加权和表示。在本示例性实施方式中,对于类别“其它”创建生成模型。
[0040]图3示出了特征的分布的示例。例如,属于类别“车”的训练图像数据项目的特征的分布在特定位置处具有峰,而属于类别“其它”的训练图像数据项目的特征的分布在整个特征空间上基本上都是平坦的。由于类别“其它”的特征的分布以该方式基本上是平坦的(这表示对于任何特征都给出了较低的事后概率),因此,从特征的这样的分布获得的生成模型对于任何特征都给出了较小的分数。结果,这样的生成模型的图像识别能力趋于较低。
[0041]测试评估单元16使用不同于训练图像数据项目并且预先准备的评估图像数据项目来评估由学习模型创建单元14创建的各生成模型。评估图像数据项目均被分类到类别(识别对象类别和非识别对象类别)中的对应的类别中,与训练图像数据项目一样。基于评估图像数据项目的识别结果,计算再现率、精度等等。测试评估单元16从评估图像数据项目J提取与从训练图像数据项目提取的特征向量相同种类的特征向量。测试评估单元16例如使用下面的等式来对于给定的特征向量计算类别c的条件概率。下面的等式假定各特征向量的条件概率的独立性。
[0042][等式I]
【权利要求】
1.一种图像识别装置,所述图像识别装置包括: 第一生成模型创建单元,所述第一生成模型创建单元从属于识别对象类别的识别对象图像组提取特征信息,并且基于所述特征信息创建第一生成模型,所述第一生成模型用于确定图像属于所述识别对象类别的概率; 分类单元,所述分类单元将所述第一生成模型应用于属于不同于所述识别对象类别的非识别对象类别的各非识别对象图像组以确定非识别对象图像属于所述识别对象类别的概率,并且根据所述概率将所述非识别对象图像分类到多个非识别对象组中的对应的组;以及 第二生成模型创建单元,所述第二生成模型创建单元从属于所述多个非识别对象组中的对应组的各非识别对象图像组提取特征信息,并且基于对应的特征信息创建所述多个非识别对象组各自的第二生成模型,每个第二生成模型用于确定图像属于所述多个非识别对象组中的对应组的概率。
2.根据权利要求1所述的图像识别装置,所述图像识别装置进一步包括: 第三生成模型创建单元,所述第三生成模型创建单元从属于由所述分类单元执行分类之前的所述非识别对象类别的非识别对象图像组提取特征信息,并且基于所述特征信息创建第三生成模型,所述第三生成模型用于确定图像属于所述非识别对象类别的概率, 其中,所述分类单元通过下述步骤将各非识别对象图像组分类到所述多个非识别对象组中的对应组: 将所述第一生成模 型和所述第三生成模型应用于属于所述非识别对象类别的各非识别对象图像组,并且 将属于所述非识别对象类别的非识别对象图像组中通过应用所述第一生成模型而获得的概率大于或等于通过应用所述第三生成模型而获得的概率的每个非识别对象图像分类到所述多个非识别对象组中的第一非识别对象组。
3.根据权利要求2所述的图像识别装置, 其中,所述第三生成模型创建单元由没有被分类到所述第一非识别对象组中的非识别对象图像组创建新的第三生成模型,并且 其中,所述分类单元将所述第一生成模型和所述新的第三生成模型应用于没有被分类到所述第一非识别对象组的各非识别对象图像组,并且将通过应用所述第一生成模型而获得的概率大于或等于通过应用所述新的第三生成模型而获得的概率的每个非识别对象图像分类到所述多个非识别对象组中的第二非识别对象组。
4.根据权利要求1至3中的任一项所述的图像识别装置, 其中,所述识别对象类别包括多个识别对象类别, 其中,所述第一生成模型创建单元从属于所述多个识别对象类别中的对应类别的各识别对象图像组提取特征信息,并且基于所述识别对象类别的对应的特征信息创建所述多个识别对象类别各自的所述第一生成模型,并且 其中,所述分类单元将所述多个识别对象类别的所述第一生成模型应用于属于所述非识别对象类别的各非识别对象图像组以确定所述非识别对象图像属于各识别对象类别的概率,并且根据所述概率将所述非识别对象图像分类到所述多个非识别对象组中的对应组。
5.根据权利要求4所述的图像识别装置, 其中,所述分类单元将从所述多个识别对象类别的所述第一生成模型中的同一第一生成模型获得了最大概率的非识别对象图像组分类到所述多个非识别对象组中的同一非识别对象组。
6.根据权利要求1至3中的任一项所述的图像识别装置,所述图像识别装置进一步包括: 识别单元,所述识别单元将所述第一生成模型和所述第二生成模型应用于未分类的图像,并且根据通过将所述第一生成模型和所述第二生成模型应用于所述未分类的图像而获得的结果将所述未分类的图像分类到所述识别对象类别或所述非识别对象类别。
7.根据权利要求4所述的图像识别装置,所述图像识别装置进一步包括: 识别单元,所述识别单元将所述第一生成模型和所述第二生成模型应用于未分类的图像,并且根据通过将所述第一生成模型和所述第二生成模型应用于所述未分类的图像而获得的结果将所述未分类的图像分类到所述识别对象类别或所述非识别对象类别。
8.根据权利要求5所述的图像识别装置,所述图像识别装置进一步包括: 识别单元,所述识别单元将所述第一生成模型和所述第二生成模型应用于未分类的图像,并且根据通过将所述第一生成模型和所述第二生成模型应用于所述未分类的图像而获得的结果将所述未分类的图像分类到所述识别对象类别或所述非识别对象类别。
9.一种图像识别方法,所述图像识别方法包括下述步骤: 从属于识别对象类别的识别对象图像组提取特征信息,并且基于所述特征信息创建第一生成模型,所述第一生成模型用于确定图像属于所述识别对象类别的概率; 将所述第一生成模型应用于属于不同于所述识别对象类别的非识别对象类别的各非识别对象图像组以确定非识别对象图像属于所述识别对象类别的概率,并且根据所述概率将所述非识别对象图像分类到多个非识别对象组中的对应组;以及 从属于所述多个非识别对象组中的对应组的各非识别对象图像组提取特征信息,并且基于对应的特征信息创建所述多个非识别对象组各自的第二生成模型,每个第二生成模型用于确定图像属于所述多个非识别对象组中的对应组的概率。
【文档编号】G06K9/00GK103927510SQ201310397356
【公开日】2014年7月16日 申请日期:2013年9月4日 优先权日:2013年1月11日
【发明者】福井基文, 尾崎良太, 加藤典司 申请人:富士施乐株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1