索引装置和方法、对象图像检索装置和监视系统与流程

文档序号:14677097发布日期:2018-06-12 21:39阅读:145来源:国知局
索引装置和方法、对象图像检索装置和监视系统与流程

本发明涉及图像检索,具体地涉及例如索引装置和方法、对象图像检索装置和监视系统。



背景技术:

在视频监视期间,为了监视特定位置(例如,机场,超市等)中的特定对象(例如,特定人),通常使用对象图像检索技术,从拍摄的视频帧来检索针对特定对象的对应的对象图像。

通常,对象图像检索技术包括索引处理和检索处理。在JP专利JP05155025中已经公开一种示例性技术,其包括:对于索引处理,基于登记图像中的对象的特征,将从拍摄的视频帧获得的所有登记图像聚类到多个类簇中,并基于类簇的中心生成索引;对于检索处理,基于输入图像和所生成的索引来确定与输入图像(例如,针对特定对象的图像)类似的对应类簇,并通过将输入图像与所确定的类簇内的各个登记图像进行比较来从所确定的类簇检索与输入图像类似的对应的登记图像(即,对应的对象图像)。

然而,在视频监视期间,对应的视频监视系统将总是长时间地拍摄并记录视频。换句话说,在视频监视期间将获得大量的视频帧。也就是说,在上述索引处理期间,需要对大量的登记图像进行聚类。因此,将获得大量的类簇,并且各个类簇将包含大量的登记图像。因此,在上述检索处理期间,为了获得与输入图像类似的对应的对象图像(即,对应的登记图像),需要将所确定的类簇中的大量的登记图像分别与输入图像进行比较,这将增加计算。换句话说,对象图像检索的检索速度将变慢。



技术实现要素:

因此,鉴于上面的背景技术中的记载,本公开旨在解决上述问题。

根据本发明的一个方面,提供一种索引装置,所述索引装置包括:对象图像获得单元,其被构造为获取多个对象图像,其中一个对象图像对应于一个对象;第一类簇确定单元,其被构造为通过基于对象图像中的对象的特征对对象图像进行聚类来确定至少一个第一类簇;第二类簇确定单元,其被构造为确定所述第一类簇中的至少一个内的至少一个第二类簇,其中所述第二类簇内的对象图像具有共同的特性;以及索引获得单元,其被构造为基于所述第二类簇内的对象图像获得索引。

利用本发明,将改进用于对象图像检索的索引,从而将提高对象图像检索的检索速度。

根据以下参照附图的描述,本发明的其他的特性特征和优点将是显而易见的。

附图说明

包含在说明书中并构成本说明书的一部分的附图,示出本发明的实施例,并与具体实施方式一起用于解释本发明的原理。

图1是示意性地示出可以实现根据本发明的实施例的技术的硬件结构的框图。

图2是例示根据本发明的第一实施例的索引装置的结构的框图。

图3示意性地示出根据本发明的示例性对象图像。

图4是例示根据本发明的如图2所示的第二类簇确定单元230的一个结构的框图。

图5是例示根据本发明的如图5所示的第一确定单元2301的一个结构的框图。

图6是例示根据本发明的如图2所示的第二类簇确定单元230的另一个结构的框图。

图7是例示根据本发明的如图2所示的第二类簇确定单元230的另一个结构的框图。

图8示意性地示出根据本发明的第一实施例确定的示例性类簇。

图9示意性地示出根据本发明的第一实施例的索引处理的流程图。

图10是例示根据本发明的第二实施例的索引装置的结构的框图。

图11示意性地示出根据本发明的第二实施例的索引处理的流程图。

图12是例示根据本发明的第三实施例的索引装置的结构的框图。

图13示意性地示出根据本发明的第三实施例的索引处理的流程图。

图14示意性地示出根据本发明的第二实施例和第三实施例确定的示例性类簇。

图15是例示根据本发明的对象图像检索装置的结构的框图。

图16示意性地示出根据本发明的对象图像检索处理的流程图。

图17例示根据本发明的示例性监视系统的布置。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应该注意,下面的描述实质上仅仅是说明性的、示例性的,并且,决不意图限制本发明及其应用或用途。实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围,除了另有具体说明。另外,本领域的技术人员已知的技术、方法和设备可能不会被详细地讨论,但在适当的情形中应当是本说明书的一部分。

请注意,相似的附图标记和字母指示附图中的相似的项目,因此,一旦一个项目在一附图中被定义,它就不必在下面的附图中被讨论。

在上述对象图像检索技术中,各个类簇(即,如本发明所描述的第一类簇)内的登记图像(即,如本发明所描述的对象图像)的量将直接影响对象图像检索的检索速度。

发明人发现,一方面,在索引处理期间,第一类簇中的一些类簇内的一些对象图像具有某些共同特性。其中,共同特性表示这些对象图像对应于同一对象或表示这些对象图像中的对象属于同一对象类型(例如,人类属性类型或人类角色类型)。例如,同一对象是特定的人。例如,人类属性类型是白/黄/黑种族,亚洲人/非洲人/欧洲人,男人/女人,老年人/成人/儿童等。例如,人类角色类型是展览中的指导人员,商店中的销售人员,等等。此外,发明人还发现,在对应的第一类簇内的这些对象图像可以被聚类到新类簇(即,如本发明所述的第二类簇)的情况下,被聚类到对应的第二类簇中的对象图像中的任一个可用于表示对应的共同特性。因此,根据本发明,可以减少用于获得用于对象图像检索的索引的各个类簇内的对象图像的量。也就是说,根据本发明,在索引处理期间,将改进用于对象图像检索的索引。

另一方面,在通过考虑在索引处理期间对应的对象图像中的对象是否对应于同一对象来确定第二类簇的情况下,第二类簇中的各个类簇可以表示特定对象。换句话说,一个第二类簇内的任意一个对象图像可以表示对应的特定对象。因此,在检索处理期间,对于一个第二类簇,在此第二类簇内的对象图像中的一个对象图像被确定为是与输入图像类似的对象图像的情况下,将此第二类簇内的所有的对象图像默认确定为是与该输入图像也类似的对象图像。此外,在通过考虑在索引处理期间对应的对象图像中的对象是否属于同一对象类型来确定第二类簇的情况下,第二类簇中的各个类簇可以表示特定的对象类型。换句话说,一个第二类簇内的任意一个对象图像可以表示对应的特定对象类型。因此,在检索处理期间,对于一个第二类簇,在输入图像中的对象被确定为不属于此第二类簇内的对象图像之一表示的对应的特定的对象类型的情况下,不会将此第二类簇内的对象图像默认确定为是与该输入图像相似的对象图像。

换句话说,根据本发明,在检索处理期间,对于第二类簇中的一个类簇,只需要将输入图像与类簇第二类簇内的仅一个对象图像进行比较。因此,可以减少相应的计算,从而可以提高对象图像检索的检索速度。

(硬件结构)

首先将参照图1描述可以实现下文中描述的技术的硬件结构。图1是示意性地示出可以实现根据本发明的实施例的技术的硬件结构100的框图。

例如,硬件结构100包括中央处理单元(Central Processing Unit,CPU)110、随机存取存储器(RAM)120、只读存储器(ROM)130、硬盘140、输入设备150、输出设备160、网络接口170和系统总线180。此外,硬件结构100可以通过诸如平板计算机、膝上型计算机、桌面型计算机或其他合适的电子设备来实现。

在第一实现方式中,根据本发明的索引处理和检索处理由硬件或固件构成,并且,用作硬件结构100的模块或组件。例如,下面将参照图2详细描述的索引装置200、下面将参照图10详细描述的索引装置1000、下面将参照图12详细描述的索引装置1200和下面将参照图15详细描述的对象图像检索装置1500用作硬件结构100的模块或组件。在第二实现方式中,根据本发明的索引处理和检索处理由在ROM 130或硬盘140中存储的且由CPU 110执行的软件构成。例如,下面将参照图9详细描述的索引装置900、下面将参照图11详细描述的索引装置1100、下面将参照图13详细描述的索引装置1300和下面将参照图16详细描述的对象图像检索装置1600用作在ROM 130或硬盘140中存储的程序。

CPU 110是任意合适的可编程的控制设备(例如,处理器),并且,通过执行在ROM 130或硬盘140中存储的各种应用程序来执行下文中要描述的各种功能。RAM 120用于临时地存储从ROM 130或硬盘140加载的程序或数据,并且也被用作这样的空间,在该空间中CPU 110执行各种过程,例如,实施下文中将参照图9、图11、图13和图16详细地描述的技术以及其他可用功能。硬盘140存储诸如操作系统(OS)、各种应用、控制程序以及由制造商预先存储或预定义的数据的许多种类的信息,其中,例如,该数据可以是将在下文中描述的预定义的对象类型和预定义的阈值(TH)。

在一种实现方式中,输入设备150用于允许用户与硬件结构100交互。在一个实例中,用户可以通过输入设备150来输入图像/视频/数据。在另一个实例中,用户可以通过输入设备150触发本发明的对应的索引处理和/或对应的检索处理。此外,输入设备150可以采用各种形式,例如,按钮、键盘或触摸屏。在另一种实现方式中,输入设备150用于接收从例如数字照相机、摄像机和/或网络照相机等的特殊电子设备输出的图像/视频。

在一种实现方式中,输出设备160用于向用户显示检索结果(例如,用于输入图像的类似对象图像)。而且,输出设备160可以采用各种形式,例如,阴极射线管(Cathode Ray Tube,CRT)或液晶显示器。在另一种实现方式中,输出设备160用于将所生成的索引输出到存储设备(例如,ROM 130、硬盘140或外部服务器),或者用于将所生成的索引输出到后续操作,例如,检索处理。

网络接口170提供用于将硬件结构100连接到网络的接口。例如,硬件结构100可以经由网络接口170与经由网络连接的其他电子设备(例如,图17所示的图像获取装置1710)进行数据通信。作为可选方案,可以为硬件结构100提供无线接口,以进行无线数据通信。系统总线180可以提供用于在CPU 110、RAM 120、ROM 130、硬盘140、输入设备150、输出设备160和网络接口170等彼此之间对数据进行传输的数据传输路径。虽然被称为总线,但是系统总线180并不限于任意特定的数据传输技术。

上述的硬件结构100仅仅是说明性的,并且,决不意图限制本发明、其应用或用途。而且,为了简单起见,在图1中只示出一个硬件结构。但是,也可以根据需要使用多个硬件结构。

(索引处理)

接下来将参照图2至图13描述根据本发明的索引处理。

图2是示出根据本发明的第一实施例的索引装置200的结构的框图。其中,图2中所示的一些块或全部块可以由专用的硬件实现。

如图2所示,索引装置200包括对象图像获得单元210、第一类簇确定单元220、第二类簇确定单元230和索引获得单元240。

首先,图1所示的输入设备150获取由用户输入的或从由至少一个特殊电子设备(例如至少一个摄像机)输出的视频所获得的多个对象图像。在本实施例中,一个获取的对象图像对应于一个对象。以如图3所示的图像300为例,图像310-330是在本发明中提到的对应的对象图像,其中图像300可以被视为视频帧。换句话说,在本发明中,一个对象图像中只存在一个对象。此外,获取的对象图像当中的若干对象图像可以对应于同一对象,或者所获取的对象图像中的若干对象图像中的对象可以属于同一对象类型。如上所述,同一对象可以是特定人(例如,特定人的脸部),并且同一对象类型可以是人类属性类型或人类角色类型。然后,输入设备150经由系统总线180将获取的对象图像传输到对象图像获得单元210。

如图2所示,对象图像获得单元210通过系统总线180从输入设备150获得所获取的对象图像(即,多个对象图像)。

然后,第一类簇确定单元220通过基于对象图像中的对象的特征对对象图像进行聚类来确定至少一个第一类簇。其中,对象图像中的对象的特征是可以从对应的对象图像中直接获得的对象的纹理特征,和/或是可以通过现有的语义分析算法从对应的对象图像中获得的对象的语义特征。例如,对象的纹理特征是Haar特征、局部二值模式(Local Binary Pattern,LBP)特征、尺度不变特征变换(Scale Invariant Feature Transform,SIFT)特征、RGB特征、视觉词袋等。例如,对象的语义特征是人类属性(例如,年龄属性,性别属性,种族属性等)。

在一种实现方式中,第一类簇确定单元220通过将任意两个对象图像中的对象之间的特征的相似性度量(例如,相似性度量1)与预定义的阈值(例如,TH1)进行比较来确定是否将这两个对象图像聚类到同一第一类簇中。更具体地,第一类簇确定单元220首先提取各个对象图像中的对象的特征。其次,对于任意两个对象图像,第一类簇确定单元220通过现有的聚类算法(例如,亲和传播聚类算法,K均值聚类算法)计算这两个对象图像中的两个对象之间的特征的相似性度量1。然后,对于任意两个对象图像,第一类簇确定单元220将相似性度量1与TH1进行比较。例如,在相似性度量1大于或等于TH1的情况下,这两个对象图像将被聚类到同一第一类簇中。

如图2所示,在第一类簇确定单元220确定第一类簇之后,第二类簇确定单元230对至少一个第一类簇内的至少一个第二类簇进行确定,其中第二类簇内的对象图像具有共同的特性。并且,如上所述,共同的特性是指对象图像对应于同一对象(例如,特定人)。

第二类簇确定单元230的一个结构在图4中示出。图4是例示根据本发明的如图2所示的第二类簇确定单元230的一个结构的框图。如图4所示,第二类簇确定单元230包括第一确定单元2301和第一聚类单元2302。其中,对于一个第一类簇内的任意两个对象图像,第一确定单元2301首先确定这两个对象图像是否对应于同一对象。并且,在第一确定单元2301确定这两个对象图像对应于同一对象的情况下,第一聚类单元2302将这两个对象图像聚类到同一第二类簇中。

在一种实现方式中,对于一个第一类簇内的任意两个对象图像,通过将对应于这两个对象图像的对象之间的特征的相似性度量(例如,相似性度量2)与预定义的阈值(例如,TH2)进行比较,第一确定单元2301确定这两个对象图像是否对应于同一对象。类似于上述第一类簇确定单元220,特征也是对象的纹理特征和/或对象的语义特征,并且,也通过现有的聚类算法计算相似性度量2。另外,例如,在相似性度量2大于或等于TH2的情况下,第一确定单元2301确定这两个对象图像对应于同一对象。

如上所述,在视频监视期间,对应的视频将被拍摄并记录很长时间。因此,对于视频中的特定对象(例如,特定人),通常存在用于此特定对象的对应轨迹。并且,在对应的轨迹信息可以用于确定第二类簇的情况下,聚类到对应的第二类簇中的对象图像将更加相互关联,这也可以提高后续检索处理的准确性。因此,在另一种实现方式中,第一确定单元2301的一个结构在图5中示出。图5是例示根据本发明的如图4所示的第一确定单元2301的一个结构的框图。如图5所示,第一确定单元2301包括轨迹检测单元23011和第一判断单元23012。

其中,对于由第一类簇确定单元220确定的一个第一类簇,轨迹检测单元23011通过现有的轨迹检测方法(例如,头部跟踪方法,ω跟踪方法)检测与此第一类簇内的对象图像相对应的对象的轨迹。然后,对于此第一类簇内的任意两个对象图像,在与这两个对象图像相对应的对象的轨迹属于同一轨迹的情况下,第一判断单元23012判断这两个对象图像对应于同一对象。例如,对于一个第一类簇,轨迹检测单元23011将为各个检测到的轨迹给出标签(例如,跟踪ID)。并且,在两个检测到的轨迹具有相同的标签(例如,相同的跟踪ID)的情况下,这两个检测到的轨迹将被认为属于同一轨迹。

如图5所述,将基于对应对象的检测到的轨迹确定一个第一类簇内的对象图像中的任意两个对象是否对应于同一对象。在一些情况下,特定对象(例如,特定人)会仅出现在由一个照相机长时间拍摄的视频的若干分开的秒(例如,第一秒和第四秒)中,其中与对应于这些分开的秒的视频帧中的此特定对象相对应的对象图像可以被认为是不同的对象图像。在这些情况下,从这些对象图像检测到的此特定对象的轨迹会被视为属于不同的轨迹。因此,第一确定单元2301会确定这些对象图像对应于不同的对象。换句话说,在这些情况下,实际上对应于同一对象的这些对象图像会被确定为对应于不同的对象。因此,实际上对应于同一对象的这些对象图像将无法被聚类到同一第二类簇中。此外,在其他情况下,特定对象会同时出现在由多于一个的照相机拍摄的若干视频的同一秒(例如,第一秒)中,其中与对应于此同一秒的视频帧中的此特定对象相对应的对象图像也可以被认为是不同的对象图像。在这些情况下,从这些对象图像检测到的此特定对象的轨迹也会被视为属于不同的轨迹。因此,第一确定单元2301也会确定这些对象图像对应于不同的对象。

因此,对于第一类簇之一内的对象图像,为了尽可能将对应于同一对象的对象图像聚类到同一第二类簇中,在图6中示出了第二类簇确定单元230的另一结构。图6是例示根据本发明的如图2所示的第二类簇确定单元230的另一结构的框图。如图6所示,第二类簇确定单元230包括第一确定单元2301、第一聚类单元2302、第二判断单元2303和组合单元2304。由于图6所示的第一确定单元2301和第一聚类单元2302与图5所示的第一确定单元2301和第一聚类单元2302相同,所以这里将不再重复对应描述。

如图6所示,对于从第一聚类单元2302获得的任意两个第二类簇,第二判断单元2303通过将这两个第二类簇的相似性度量(例如,相似性度量3)与预定义的阈值(例如,TH3)进行比较,来判断与这两个第二类簇内的对象图像相对应的对象是否对应于同一对象。例如,在相似性度量3大于或等于TH3的情况下,第二判断单元2303判断与这两个第二类簇内的对象图像相对应的对象对应于同一对象。然后,在与这两个第二类簇内的对象图像相对应的对象对应于同一对象的情况下,组合单元2304组合这两个第二类簇,并将组合的类簇视为第二类簇。

在一种实现方式中,对于从第一聚类单元2302获得的任意两个第二类簇,如下地确定这两个第二类簇的对应的相似性度量3。首先,对于这两个第二类簇中的各个内的任意一个对象图像,通过将对应于这两个对象图像的对象之间的特征的相似性度量(例如,相似性度量4)与预定义的阈值(例如,TH4)进行比较,第二判断单元2303判断这两个对象图像是否对应于同一对象。其中,如上所述,特征也是对象的纹理特征和/或对象的语义特征,并且,也通过现有的聚类算法计算相似性度量4。并且,例如,在相似性度量4大于或等于TH4的情况下,第二判断单元2303判断这两个对象图像对应于同一对象。然后,基于对这两个第二类簇中的各个内的所有对象图像的上述判断,第二判断单元2303对作为这两个第二类簇的对应的相似性度量3的值(例如,统计值,统计权重值)进行确定。

如上所述,在检索处理期间,对于一个第二类簇,只需要将输入图像与此第二类簇内的仅一个对象图像进行比较。此外,如图6所示,对于一个第一类簇,此第一类簇内的实际对应于同一对象的更多的对象图像可以尽可能地被聚类到同一第二类簇中。因此,在检索处理期间,可以进一步减少相应的计算,从而可以进一步提高对象图像检索的检索速度。

另外,如上所述,对于一个第二类簇,共同特性是对象图像中的对象属于同一对象类型(即,预定义的对象类型之一,例如,上述的人类属性类型或上述的人类角色类型)。

第二类簇确定单元230的另一个结构在图7中示出。图7是示出根据本发明的如图2所示的第二类簇确定单元230的另一个结构的框图。如图7所示,第二类簇确定单元230包括第二确定单元2311和第二聚类单元2312。其中,对于一个第一类簇中的任意一个对象图像,第二确定单元2311确定此对象图像中的对象是否属于预定义的对象类型之一。并且,在此对象图像中的对象属于预定义的对象类型之一的情况下,第二聚类单元2312将此对象图像聚类到与此预定义的对象类型相对应的第二类簇中。其中,预定义的对象类型至少包括上述的人类属性类型或上述的人类角色类型。

如上所述,例如,人类角色类型是展览中的指导人员,商店中的销售人员,等等。通常,展览中的指导人员和商店中的销售人员是在特定时间段内总是属于特定位置范围的人类角色。因此,在预定义的对象类型是人类角色类型的情况下,对于一个第一类簇内的任意一个对象图像,如果在此对象图像中的对象的位置属于预定义的位置范围,并且对象在此预定义的位置范围的时间段大于或等于预定义的阈值(例如,TH5),则第二确定单元2311将确定此对象图像中的对象属于人类角色类型。

如图2所示,在第二类簇确定单元230确定对应的第二类簇之后,索引获得单元240基于第二类簇内的对象图像获得索引。此外,为了在检索处理期间通过使用所获得的索引来检索与输入图像类似的更多的对象图像,索引获得单元240基于第二类簇内的对象图像、没有被聚类到对应的第二类簇中的对应的第一类簇内的对象图像以及其中没有确定对应的第二类簇的第一类簇内的对象图像来获得索引。

其中,基于第二类簇中的任意一个内的对象图像获得的索引包括以下之一:通过上述聚类处理直接获得的此第二类簇的中心,此第二类簇内的对象图像中的至少一个,此第二类簇内的与此第二类簇的中心相邻的对象图像中的至少一个。例如,此第二类簇内的与第二类簇的中心之间的距离最近的一个对象图像将被认为是与此第二类簇的中心相邻的对象图像之一,其中,对象图像与第二类簇的中心之间的距离是,例如,欧几里德距离和余弦距离。

基于在没有被聚类到对应的第二类簇中的、第一类簇中的任意一个内的对象图像所获得的索引包括,由这些对象图像形成的第三类簇的中心。例如,通过上述现有的聚类算法进一步对没有被聚类到对应的第二类簇中的、一个第一类簇内的对象图像进行聚类,以形成第三类簇。然后,通过对应的聚类处理直接获得此第三类簇的中心。作为另选方案,基于第三类簇中的任意一个内的对象图像所获得的索引包括此第三类簇内的与此第三类簇的中心相邻的对象图像中的一个。

基于其中未确定对应的第二类簇的、第一类簇中任意一个内的对象图像所获得的索引包括此第一类簇的中心。其中,此第一类簇的中心也通过上述的聚类处理直接获得。作为另选方案,基于此第一类簇内的对象图像所获得的索引包括此第一类簇内的与此第一类簇的中心相邻的对象图像中的一个。

另外,在一种实现方式中,由索引获得单元240获得的索引只包括一层。在这种情况下,通过从对应的类簇(即,第一类簇,第二类簇和第三类簇)确定的上述中心和/或对象图像直接形成索引。在另一种实现方式中,由索引获得单元240获得的索引包括两层。在这种情况下,索引的第二层由通过上述现有的聚类算法对从对应的类簇(即,第一类簇,第二类簇和第三类簇)确定的上述中心和/或对象图像进行聚类而获得的第六类簇形成。并且,索引的第一层由通过对应的聚类处理直接获得的第六类簇的中心形成。

图8示意性地示出根据本发明的第一实施例确定的示例性类簇。如图8所示,区域810-830示意性地示出若干示例性第一类簇。其中,区域810/820/830中的三角形811/821/813表示对应的第一类簇的中心,并且,区域810/820/830中的黑点表示聚类到对应的第一类簇中的对应的对象图像。

在区域810中,区域812-813示意性地示出在对应的第一类簇中确定的对应的第二类簇,区域814示意性地示出上述的第三类簇。其中,区域812/813中的菱形815/816表示对应的第二类簇的中心,并且,区域812/813中的黑点表示聚类到对应的第二类簇中的对应的对象图像。区域814中的菱形817表示对应的第三类簇的中心,并且,区域814中的黑点表示聚类到对应的第三类簇中的对应的对象图像。

在区域820中,区域822示意性地示出在对应的第一类簇中确定的对应的第二类簇,并且,区域823示意性地示出上述第三类簇。其中,区域822中的菱形824表示对应的第二类簇的中心,并且,区域822中的黑点表示聚类到对应的第二类簇中的对应的对象图像。区域823中的菱形825表示对应的第三类簇的中心,并且,区域823中的黑点表示聚类到对应的第三类簇中的对应的对象图像。

换句话说,如图8所示,在区域810中确定两个第二类簇,在区域820中确定一个第二类簇,并且,在区域830中确定没有第二类簇。因此,如上所述,对于仅具有一层的索引,对应的索引例如包括中心815-817、中心824-825和中心831。

最后,在索引获得单元240获得对应的索引之后,索引获得单元240将所获得的索引经由系统总线180传输到图1所示的输出设备160,以将获得的索引输出到存储设备(例如,ROM 130,硬盘140或外部服务器)或用于将所获得的索引输出到后续操作,例如,检索处理。

将参照图9描述由图2所示的索引装置200的结构执行的整体处理。图9示意性地示出根据本发明的第一实施例的索引处理的流程图900。

如上所述,首先,图1所示的输入设备150获取多个对象图像。其中,在本实施例中,一个获取的对象图像对应一个对象,并且,获取的对象图像当中的若干对象图像可以对应于同一对象(例如特定人),或者获取的对象图像当中的若干对象图像中的对象可以属于同一对象类型(例如,人类属性类型或人类角色类型)。其次,输入设备150经由系统总线180将获取的对象图像传输到对象图像获得单元210。

然后,如图9所示,在对象图像获得步骤S910中,对象图像获得单元210通过系统总线180从输入设备150获得所获取的对象图像(即,多个对象图像)。

在第一类簇确定步骤S920中,第一类簇确定单元220通过基于对象图像中的对象的特征对对象图像进行聚类来确定至少一个第一类簇。

在第二类簇确定步骤S930中,第二聚类确定单元230确定第一类簇中的至少一个内的至少一个第二类簇,其中第二类簇内的对象图像具有共同的特性。

如上所述,共同的特性是指对象图像对应于同一对象。因此,在一种实现方式中,第二类簇确定步骤S930包括第一确定步骤和第一聚类步骤。其中,对于一个第一类簇内的任意两个对象图像,在第一确定步骤中,如图4至图6中的任意一个所示的第一确定单元2301确定这两个对象图像是否对应于同一对象。然后,在第一聚类步骤中,如果这两个对象图像对应于同一对象,则如图4或图6所示的第一聚类单元2302将这两个对象图像聚类到同一第二类簇中。

另外,如上所述,共同的特性是指对象图像中的对象属于同一对象类型(即,预定义的对象类型之一)。因此,在另一种实现方式中,第二类簇确定步骤S930包括第二确定步骤和第二聚类步骤。其中,对于一个第一类簇中的任意一个对象图像,在第二确定步骤中,如图7所示的第二确定单元2311确定此对象图像中的对象是否属于预定义的对象类型之一。然后,在第二聚类步骤中,在此对象图像中的对象属于预定义的对象类型之一的情况下,如图7所示的第二聚类单元2312将此对象图像聚类到对应于此预定义的对象类型的第二类簇中。

然后,如图9所示,在索引获得步骤S940中,索引获得单元240基于第二类簇内的对象图像获得索引。此外,为了在检索处理期间通过使用所获得的索引来检索与输入图像类似的更多的对象图像,在索引获得步骤S940中,基于①第二类簇内的对象图像、没有被聚类到对应的第二类簇中的对应的第一类簇内的对象图像,以及②其中没有确定对应的第二类簇的、第一类簇内的对象图像,来获得索引。

为了进一步减少计算使得可以进一步提高对象图像检索的检索速度,根据本发明的索引处理的另一结构在图10中示出。图10是例示根据本发明的第二实施例的索引装置1000的结构的框图。其中,图10所示的一些块或全部块也可以由专用的硬件实现。

比较图10和图2,图10所示的索引装置1000的主要区别在于,除了对象图像获得单元210、第一类簇确定单元220、第二类簇确定单元230和索引获得单元240之外,索引装置1000还包括第四类簇确定单元1010和对象图像选择单元1020。其中,在本实施例中,由图10所示的第二类簇确定单元230确定的第二类簇内的对象图像的共同特性表示第二类簇内的对象图像对应于同一对象。换句话说,图10所示的第二类簇确定单元230可以根据如图4至图6所示的结构来实现。另外,由于图10所示的对象图像获得单元210、第一类簇确定单元220和索引获得单元240与图2所示的对象图像获得单元210、第一类簇确定单元220和索引获得单元240相同,因此,这里将不再重复详细描述。

如图10所示,在对象图像获得单元210获得多个对象图像之后,第四类簇确定单元1010从对象图像中确定至少一个第四类簇,其中第四类簇中的任意一个内的对象图像对应于同一对象。在一种实现方式中,第四类簇确定单元1010根据与由如图4至图6所述的第二类簇确定单元230的结构所执行的处理相同的处理来确定第四类簇。因此,这里将不再重复第四类簇确定单元1010的详细描述。

在第四类簇确定单元1010确定第四类簇之后,对于第四类簇中的至少一个,对象图像选择单元1020选择此第四类簇内的与此第四类簇的中心相邻的对象图像中的至少一个。例如,此第四类簇内的与此第四类簇的中心之间的距离最近的一个对象图像将被认为是与此第四类簇的中心相邻的对象图像之一,其中,对象图像和第四类簇的中心之间的距离是,例如,欧几里德距离和余弦距离。

然后,如图10所示,在对象图像选择单元1020选择对应的对象图像之后,第一类簇确定单元220通过基于所选择的对象图像中的对象的特征对所选择的对象图像进行聚类来确定第一类簇。

将参照图11描述图10所示的索引装置1000的结构执行的整体处理。图11示意性地示出根据本发明的第二实施例的索引处理的流程图1100。

比较图11和图9,图11所示的流程图1100的主要区别在于,除了流程图900中所示的步骤S910-S940之外,流程图1100还包括第四类簇确定步骤S1110和对象图像选择步骤S1120。其中,在图11所示的第二类簇确定步骤S930中确定的第二类簇内的对象图像的共同特性表示第二类簇内的对象图像对应于同一对象。换句话说,在第二类簇确定步骤S930中,图10所示的第二类簇确定单元230可以根据如图4至图6所示的结构来实现。另外,由于图11所示的步骤S910-S940与图9所示的步骤S910-S940相同,所以这里将不重复详细描述。

如图11所示,在对象图像获得步骤S910中对象图像获得单元210获得多个对象图像之后,在第四类簇确定步骤S1110中,第四类簇确定单元1010从对象图像确定至少一个第四类簇,其中第四类簇中的任一个内的对象图像对应于同一对象。

在对象图像选择步骤S1120中,对于第四类簇中的至少一个,对象图像选择单元1020选择此第四类簇内的与此第四类簇的中心相邻的对象图像中的至少一个。

然后,如图11所示,在对象图像选择步骤S1120中对象图像选择单元1020选择对应的对象图像之后,在第一类簇确定步骤S920中,第一类簇确定单元220通过基于所选择的对象图像中的对象的特征对所选择的对象图像进行聚类来确定第一类簇。

此外,为了进一步减少计算,使得可以进一步提高对象图像检索的检索速度,根据本发明的索引处理的另一结构在图12中示出。图12是例示根据本发明的第三实施例的索引装置1200的结构的框图。其中,图12中所示的一些块或全部块也可以由专用的硬件实现。

比较图12和图10,图12所示的索引装置1200的主要区别在于,除了对象图像获得单元210、第一类簇确定单元220、第二类簇确定单元230、索引获得单元240、第四类簇确定单元1010和对象图像选择单元1020之外,索引装置1200还包括第五类簇确定单元1210。

如图12所示,在第四类簇确定单元1010确定第四类簇之后,对于至少一个第四类簇,第五类簇确定单元1210通过对此第四类簇内的对象图像进行聚类来确定此第四类簇内的至少一个第五类簇。例如,第五类簇确定单元1210根据与由第一类簇确定单元920执行的聚类处理类似的聚类处理来确定对应的第五类簇。

然后,如图12所示,在第五聚类确定单元1210确定对应的第五类簇之后,对于第五类簇中的至少一个,对象图像选择单元1020选择此第五类簇内的与此第五类簇的中心相邻的对象图像中的至少一个。

另外,由于图12所示的对象图像获得单元210、第一类簇确定单元220、第二类簇确定单元230、索引获得单元240、第四类簇确定单元1010和对象图像选择单元1020与图10所示的对象图像获得单元210、第一类簇确定单元220、第二类簇确定单元230、索引获得单元240、第四类簇确定单元1010和对象图像选择单元1020相同,因此这里将不再重复详细描述。

将参照图13描述图12所示的索引装置1200的结构执行的整体处理。图13示意性地示出根据本发明的第三实施例的索引处理的流程图1300。

比较图13和图11,图13所示的流程图1300的主要区别在于,除了流程图1100中所示的步骤S910-S940和步骤S1110-S1120之外,流程图1300还包括第五类簇确定步骤S1310。

如图13所示,在第四类簇确定步骤S1110中第四类簇确定单元1010确定第四类簇之后,对于第四类簇中的至少一个,在第五类簇确定步骤S1310中,第五类簇确定单元1210通过对此第四类簇内的对象图像进行聚类来确定此第四类簇内的至少一个第五类簇。

然后,在第五类簇确定步骤S1310中第五类簇确定单元1210确定对应的第五类簇之后,对于第五类簇中的至少一个,在对象图像选择步骤S1120中,对象图像选择单元1020选择此第五类簇内的与此第五类簇的中心相邻的对象图像中的至少一个。

另外,由于图13所示的步骤S910-S940和步骤S1110-S1120与图11所示的步骤S910-S940和步骤S1110-S1120相同,所以这里将不重复详细描述。

图14示意性地示出根据本发明的第二实施例和第三实施例确定的示例性类簇。如图14所示,区域1410中的对象图像是由对象图像获得单元210获得的对象图像,并且这些对象图像对应于三个特定对象。区域1420-1440示意性地示出若干示例性第四类簇,并且,区域中的一个内的对应的对象图像对应于特定对象中的一个。

在区域1420中,区域1421-1424示意性地示出在对应的第四类簇中确定的对应的第五类簇。在区域1430中,区域1431-1432示意性地示出在对应的第四类簇中确定的对应的第五类簇。在区域1440中,区域1441-1442示意性地示出在对应的第四类簇中确定的对应的第五类簇。另外,例如,对象图像1425-1428、1433-1434和1443-1445是所选择的对象图像。

如上所述,在本发明中,对于对应的第一类簇内的具有上述共同特性(例如,同一对象或同一对象类型)的对象图像,将这些对象图像聚类到对应的第二类簇中。换句话说,在对应的第一类簇内彼此更加相互关联的对象图像将被聚类到对应的第二类簇中。因此,可以减少用于获得用于对象图像检索的索引的各个类簇内的对象图像的量。也就是说,在索引处理期间,将改进用于对象图像检索的索引。

此外,根据如本发明的第二实施例和第三实施例中描述的对应的聚类处理,将从最初获取的对象图像(即,登记的对象图像)中进一步选择可用于确定第一类簇的对象图像。换句话说,在确定第一类簇和第二类簇之前,将从最初获取的对象图像中选择典型的对象图像。因此,可以减少可用于确定第一类簇和第二类簇的对象图像的量。因此,可以进一步减少用于获得用于对象图像检索的索引的各个类簇内的对象图像的量。

(检索处理)

接下来将参照图15描述根据本发明的检索处理。

图15是例示根据本发明的对象图像检索装置1500的结构的框图。其中,图15中所示的一些块或全部块可以由专用的硬件实现。

如图15所示,对象图像检索装置1500包括对象检测单元1510、候选类簇确定单元1520和对象图像确定单元1530。

另外,图15所示的存储设备1540存储参照图2至图14根据本发明获得的索引。在一种实现方式中,存储设备1540是图1所示的ROM 130或硬盘140。作为另选方案,存储设备1540是经由网络(未示出)与对象图像检索装置1500连接的服务器或外部存储设备。

首先,图1所示的输入设备150获取由用户输入的图像。其次,输入设备150经由系统总线180将获取的图像(即,输入图像)传输到对象检测单元1510。

如图15所示,对象检测单元1510从输入图像中检测对象。例如,对象检测单元1510通过使用诸如脸部检测方法、人体检测方法等现有的对象检测方法从输入图像中检测对象。

候选类簇确定单元1520通过系统总线180从存储设备1540获取上述索引,并且基于检测到的对象以及索引来确定至少一个候选类簇。其中,候选类簇包括以下中的至少一种:上述第一类簇中的至少一个,上述第二类簇中的至少一个,上述第三类簇中的至少一个。

如上所述,在一种实现方式中,根据本发明获得的索引可以仅包括一个层,并且索引由从第一类簇、第二类簇和第三类簇确定的中心和/或对象图像直接形成。也就是说,此索引中的项目对应于从第一类簇、第二类簇和第三类簇确定的中心和/或对象图像。在这种情况下,候选类簇确定单元1520如下地确定候选类簇。首先,对于索引中的各个项目,候选类簇确定单元1520计算检测到的对象与此项目之间的相似性度量。然后,候选类簇确定单元1520基于相似性度量选择前N个类簇作为候选类簇,其中N是预定义的值。

其中,如上所述,基于第一类簇内的对象图像获得的索引是第一类簇的中心,并且基于第三类簇内的对象图像获得的索引是第三类簇的中心。因此,通过检测到的对象与第一类簇的中心和第三类簇的中心之间的距离来测量检测到的对象与对应于索引中的第一类簇的项目和第三类簇的项目之间的相似性度量,其中,例如,该距离是欧几里德距离和余弦距离。

其中,如上所述,基于第二类簇内的对象图像获得的索引是第二类簇的中心、第二类簇内的对象图像中的至少一个、或第二类簇内的与第二类簇的中心相邻的对象图像中的至少一个。因此,在对应于索引中的第二类簇的项目是第二类簇的中心的情况下,还通过检测到的对象与第二类簇的中心之间的距离(例如,欧几里德距离和余弦距离)来测量检测到的对象与项目之间的相似性度量。在对应于索引中的第二类簇的项目是第二类簇内的选择的对象图像的情况下,通过检测到的对象的特征向量与选择的对象图像中的对象的特征向量之间的距离(例如,欧几里德距离和余弦距离)来测量检测到的对象与项目之间的相似性度量。

此外,如上所述,在另一种实现方式中,根据本发明获得的索引将包括两个层。其中,索引的第二层由通过对从第一类簇、第二类簇和第三类簇确定的中心和/或对象图像进行聚类而获得的第六类簇形成。并且,索引的第一层由第六类簇的中心形成。在这种情况下,候选类簇确定单元1520如下地确定候选类簇。首先,对于索引的第一层内的第六类簇的各个中心,候选类簇确定单元1520计算检测到的对象与此中心之间的相似性度量。例如,也通过检测到的对象与第六类簇的中心之间的距离(例如,欧几里德距离和余弦距离)来测量检测到的对象与第六类簇的中心之间的相似性度量。然后,候选类簇确定单元1520基于相似性度量从索引的第二层选择前T个第六类簇,其中T是预定义的值。并且,候选类簇确定单元1520将其中心或对象图像在前T个第六类簇中的类簇(即,第一类簇,第二类簇和第三类簇)视为候选类簇。

然后,如图15所示,对象图像确定单元1530基于检测到的对象与由候选类簇确定单元1520确定的候选类簇内的对象图像中的对象之间的相似性度量来从这些对象图像确定用于检测到的对象的对象图像。其中,在本实现方式中,例如,将参照图16在下文中详细描述由对象图像确定单元1530执行的对应处理。

如上所述,在一种实现方式中,可以通过在索引处理期间考虑对应的对象图像中的对象是否对应于同一对象来确定第二类簇,也就是说,可以根据上面参照图4至图6进行的描述来确定第二类簇。因此,在这些第二类簇中的一个被确定为候选类簇中的一个的情况下,如果将此第二类簇内的对象图像中的一个确定为用于检测到的对象的对象图像,则对象图像确定单元1530将此第二类簇内的所有对象图像确定为用于检测到的对象的对应的对象图像。

此外,如上所述,在另一种实现方式中,可以通过在索引处理期间考虑对应的对象图像中的对象是否属于同一对象类型来确定第二类簇,也就是说,可以根据上面参照图7进行的描述来确定第二类簇。因此,在这些第二类簇中的一个被确定为候选类簇中的一个的情况下,如果检测到的对象不属于由此第二类簇表示的预定义的对象类型,则对象图像确定单元1530不将此第二类簇内的对象图像确定为用于检测到的对象的对应的对象图像。

最后,在对象图像确定单元1530确定用于检测到的对象的对象图像之后,对象图像确定单元1530将用于检测到的对象的对象图像经由系统总线180传输到图1所示的输出设备160,以例如向用户输出用于检测到的对象的对象图像。

将参照图16描述由图15所示的对象对象检索装置1500的结构执行的整体处理。图16示意性地示出根据本发明的对象图像检索处理的流程图1600。

如上所述,首先,图1所示的输入设备150获取由用户输入的图像。其次,输入设备150经由系统总线180将获取的图像(即,输入图像)传输到对象检测单元1510。

然后,如图16所示,在步骤S1610中,对象检测单元1510从输入图像中检测对象。

在步骤S1620中,候选类簇确定单元1520通过系统总线180从存储设备1540获取上述索引,并且基于检测到的对象以及索引来确定至少一个候选类簇。

在步骤S1630中,对象图像确定单元1530对候选类簇是上述第一类簇、上述第二类簇或上述第三类簇进行判断。在候选类簇是第一类簇和/或第三类簇的情况下,处理进入步骤S1640。在候选类簇是第二类簇的情况下,处理进入步骤S1650。

在步骤S1640中,对于这些候选类簇内的各个对象图像,对象图像确定单元1530计算检测到的对象与此对象图像中的对象之间的相似性度量。例如,通过检测到的对象的特征向量与此对象图像中的对象的特征向量之间的距离(例如,欧几里得距离和余弦距离)来测量检测到的对象与一个对象图像中的对象之间的相似性度量。

在步骤S1650中,对象图像确定单元1530判断通过考虑对应的对象图像中的对象是否对应于同一对象来确定第二类簇,还是通过考虑对应的对象图像中的对象是否属于同一对象类型来确定第二类簇。在通过考虑对应的对象图像中的对象是否对应于同一对象来确定第二类簇的情况下,处理进入步骤S1660。在通过考虑对应的对象图像中的对象是否属于同一对象类型来确定第二类簇的情况下,处理进入步骤S16100。

在步骤S1660中,对于第二类簇内的任意一个,对象图像确定单元1530计算检测到的对象与此第二类簇内的一个对象图像中的对象之间的相似性度量。并且,在步骤S1670中计算的相似性度量大于或等于预定义的阈值(例如,TH)的情况下,在步骤S1680中,对象图像确定单元1530将计算的相似性度量设置为检测到的对象与此第二类簇内的对象图像中的对象之间的相似性度量。否则,在步骤S1690中,对象图像确定单元1530停止对此第二类簇的后续处理。也就是说,在这种情况下,对于此第二类簇,只需要将输入图像与此第二类簇内的仅一个对象图像进行比较。

在步骤S16100中,对于第二类簇中的任意一个,对象图像确定单元1530判断检测到的对象是否也属于由此第二类簇表示的对应的对象类型。其中,在一种实现方式中,根据上面图7进行的描述执行详细处理。并且,在检测到的对象不属于由此第二类簇表示的对应的对象类型的情况下,对象图像确定单元1530在步骤S1690中停止对此第二类簇的后续处理。也就是说,在这种情况下,对于此第二类簇,只需要将输入图像与此第二类簇内的仅一个对象图像进行比较。

并且,在检测到的对象属于由此第二类簇表示的对应的对象类型的情况下,在步骤S16110中,对于此第二类簇内的各个对象图像,对象图像确定单元1530计算检测到的对象与此对象图像中的对象之间的相似性度量。

然后,在步骤S16120中,对象图像确定单元1530基于对应的相似性度量从所确定的候选类簇内的对象图像选择前M个对象图像作为检测到的对象的对象图像,其中M是预定义的值。

如上所述,在本发明,在检索处理期间,对于第二类簇中的一个,只需要将输入图像与此第二类簇内的仅一个对象图像进行比较。因此,可以减少相应的计算,从而可以提高对象图像检索的检索速度。

(监视系统)

作为上述索引装置200/1000/1200和上述对象图像检索装置1500的示例性应用,接下来将参照图17描述示例性监视系统。图17例示根据本发明的示例性监视系统1700的布置。

如图17所示,根据本发明的监视系统1700是在线监视系统,并且包括至少一个图像获取装置1710(例如,网络照相机)、图像处理装置1720、上述索引装置200/1000/1200和上述对象图像检索装置1500。在一个实例中,图像获取装置1710、图像处理装置1720、索引装置200/1000/1200和对象图像检索装置1500经由系统总线彼此连接。在另一个实例中,图像获取装置1710、图像处理装置1720、索引装置200/1000/1200和对象图像检索装置1500经由网络彼此连接。

对于特殊监视区域,首先,图像获取装置1710即时地拍摄/获取图像。

然后,图像处理设备1720从所获取的图像获取对象图像,其中一个对象图像对应于一个对象。在一种实现方式中,图像处理装置1720包括对象检测单元1721和对象图像确定单元1722。其中,对于一个所获取的图像,对象检测单元1721从此获取的图像中检测至少一个对象。然后,对于一个检测到的对象,对象图像确定单元1722从此获取的图像确定此检测到的对象的对应的对象图像。

在图像处理装置1720获取对象图像之后,索引装置200/1000/120根据上面参照图2至图14进行的描述基于所获取的对象图像获得索引。

然后,在图像被输入到对象图像检索装置1500的情况下,对象图像检索装置1500从索引装置200/1000/1200获取上述索引,并且根据上面参照图15至图16进行的描述基于上述索引确定输入图像内的对象的对象图像。

最后,对象图像检索装置1500输出所确定的对象图像。

上述的所有的单元都是用于实现本公开中所述的处理的示例性的和/或优选的模块。这些单元可以是硬件单元(例如,现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(例如,计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而,当存在进行某一处理的步骤时,可以存在用于实现该同一处理的对应的功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤的所有组合和对应于这些步骤的单元的技术方案被包括在本申请的公开中,只要它们所构成的技术方案是完整的、适用的即可。

可以通过很多方式来实施本发明的方法和装置。例如,可以通过软件、硬件、固件或其任意组合来实施本发明的方法和装置。本方法的步骤的上述顺序仅旨在是说明性的,并且,本发明的方法的步骤不局限于上述具体描述的顺序,除非另有具体说明。此外,在一些实施例中,本发明还可以被实施为在记录介质中记录的程序,其包括用于实现根据本发明的方法的机器可读指令。因此,本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示本发明的一些具体实施例,但是本领域的技术人员应该理解,上述示例仅旨在是说明性的,而不限制本发明的范围。本领域的技术人员应该理解,上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1