使用大型数据库进行对象识别的系统及方法

文档序号:6360464阅读:227来源:国知局
专利名称:使用大型数据库进行对象识别的系统及方法
使用大型数据库进行对象识别的系统及方法
相关申请
本申请要求根据美国法典35U.S.C. § 119(e)于2010年5月14日提交的名称为“使用超大型数据库进行对象识别的系统及方法(System and Method for Object Recognition with Very LargeDatabases)” 的美国临时申请序列号 No. 61/395,565 的权益,该申请的全部内容通过引用结合在此。技术领域
本公开内容的领域一般涉及用于对象识别的系统及方法,并且更具体但非排他性地涉及管理包含相对大量已知对象模型的数据库。
背景技术
在过去的几年,视觉对象识别系统已经变得越来越流行并且它们的用途一直在扩展。典型的视觉对象识别系统依赖于使用从图像提取的多个特征,其中每个特征具有与其相关联的多维描述符向量,该向量是高度可区分的并且能够对特征进行区分。某些描述符的计算方式完全不管样本图像中对象的比例、定向或照度,对象的同一特征在所有样本图像中具有非常相似的描述符向量。这样的特征被认为是和比例、定向和/或照度的变化无关。
在识别一个目标对象之前,建立一个数据库,该数据库包括从人们希望识别的多个已知对象提取的不变特征。为了识别目标对象,从目标对象提取不变特征,并且针对目标对象的每一个所提取的不变特征在数据库中找到最相似的不变特征(称为“最近邻”)。最近邻检索算法已经被开发了很多年,使得检索时间相对于数据库的大小而言是对数的,因此识别算法具有实际价值。一旦在数据库中找到最近邻,就将这些最近邻用于投票选择它们来自其中的已知对象。如果将多个已知对象鉴别为目标对象的候选匹配对象,则可以通过确定哪一个候选匹配具有最高的最近邻投票数来鉴别目标对象的真实已知对象匹配。在名称为“用于鉴别图像中的比例不变特征的方法及设备以及其用于定位图像中的对象的用途 (Method and apparatus for identifyingscale invariant features in an image and use of same for locating an objectin an image)”的美国专利序列号No. 6,711,293 中描述了这样一种已知的对象识别方法。
然而,典型方法的困难是当数据库的大小增加时(B卩,随着希望识别的已知对象的数量增加),更加难以找到最近邻,因为用于最近邻检索的算法是概率性的。这些算法不能确保找到精确的最近邻但是可以以高概率确保找到最近邻。当数据库的大小增加时,该概率降低,当数据库足够大时,该概率趋近于零。因此,本发明人认识到需要甚至当数据库含有大量(例如,上千个、好几万、好几百万或好几千万个)对象时高效可靠地进行对象识别。发明内容
本公开内容描述了改进的对象识别系统及相关联的方法。
一个实施方案针对一种对存储在对象识别系统的数据库中的已知对象的识别模 型集进行组织的方法。为这些已知对象中的每一个对象确定一个分类模型。将这些已知对 象的分类模型分组为多个分类模型组。每个分类模型组鉴别该数据库的一个对应部分,该 部分包含具有是该分类模型组的成员的分类模型的已知对象的识别模型。为每个分类模型 组计算一个代表性分类模型。每个代表性分类模型是从是该分类模型组的成员的分类模型 得出或导出的。当尝试识别目标对象时,将目标对象的分类模型与这些代表性分类模型进 行比较从而使得能够选择识别模型子集,用于与目标对象的识别模型进行比较。
参考附图从优选实施方案的以下详细描述中其他的方面及优点将是显而易见的。


图1是根据一个实施方案的对象识别系统的框图。
图2是根据一个实施方案的包含已知对象的模型的图1系统的数据库的框图。
图3是根据一个实施方案的在图1的系统的数据库中形成的一个小型数据库的框 图。
图4是根据一个实施方案的用于将图2的数据库分为多个小型数据库的方法的流 程图。
图5是根据一个实施方案的用于生成对象的分类签名的方法的流程图。
图6是根据另一个实施方案的用于生成对象的分类签名的方法的流程图。
图7是根据另一个实施方案的用于生成对象的分类签名的方法的流程图。
图8是根据一个实施方案的用于计算从对象的图像得出的向量的精简维度表示 的方法的流程图。
图9是展示一个简化的2维分类签名空间的图,已知对象的分类签名位于该空间 中并被分组为多个分类签名组。
图10是根据一个实施方案的用于识别目标对象的方法的流程图。
图11是根据一个实施方案的用于将图2的数据库分为多个小型数据库或箱的方 法的流程图。
图12是使用根据图11的方法进行分割的数据库来识别目标对象的方法的流程 图。
图13是根据一个实施方案的选择特征从而包括在图1的系统的分类数据库中的 方法的流程图。
具体实施方式
参考上面列出的附图,本节将描述具体实施方案及其详细构造和操作。在此描述 的这些实施方案是仅通过示例而不是限制来阐述的。本领域的普通技术人员根据本文的传 授内容将认识到存在在此描述的示例实施方案的很多等效物。最值得注意的是,其他实施 方案也是可能的,可以对在此描述的这些实施方案作出改变,并且可以存在构成在此描述 的这些实施方案的组件、部分或步骤的等效物。
为了清晰简明的目的,在此展示某些实施方案的部件或步骤的某些方面,而没有 过多地描述对于本领域的普通技术人员根据本文的传授内容显而易见的细节和/或某些容易混淆这些实施方案的更相关方面的理解的细节。
本领域的技术人员将认识到在此使用的不同术语。然而,以下为某些术语提供了示例定义。
几何点特征、点特征、特征、特征点、关键点几何点特征也称为“点特征”、“特征”、 “特征点”或“关键点”,是在对象的图像表示中被可靠地检测和/或鉴别的对象上的一个点。 特征点是使用特征检测器(又称为特征检测器算法)检测的,该特征检测器对图像进行处理从而检测满足特定属性的图像位置。例如,Harris角点检测器检测在图像中边缘边界交叉的位置。这些交叉点通常对应于在对象上存在角点的位置。术语“几何点特征”强调的是在图像中特定点处对特征进行定义并且在图像中找到的特征的相对几何关系对于对象识别过程而言是有用的。对象的特征可以包括关于对象的信息集,如标识符,从而鉴别该特征所属于的对象或对象模型;特征的X和y位置坐标、比例以及定向;以及特征描述符。
对应特征、对应、特征对应如果当从两个不同的视点查看两个特征时(即,当在可能在比例、定向、平移、透视效果及照度方面不同的两个不同的图像中成像时),两个特征表示一个对象的同一物理点,则将其称为“对应特征”(还称为“对应”或“特征对应”)。
特征描述符、描述符、描述符向量、特征向量、局部片描述符“特征描述符”(也称为“描述符”、“描述符向量”、“特征向量”或“局部片向量”)是一个用于鉴别一个特征并从其他特征区分该特征的已检测特征的某些质量的量化测量值。通常,特征描述符可以采用基于特征位置周围的一片像素的像素值的高维度向量(特征向量)的形式。一些特征描述符对于共同的图像变换(如比例、定向以及照度的变化)而言是不变的,从而使得在对象的多幅图像中观察到的该对象的对应特征(即,在图像比例、定向及照度不同的对象的若干幅图像中检测到的对象上的同一物理点)具有类似的(如果不是相同的)特征描述符。
最近邻给定一个已检测特征的集合V,该集合V中的一个具体特征V的最近邻是具有最类似于V的特征向量的特征W。可以将这个相似性计算为特征向量V和W之间的欧几里德距离。因此,如果除集合V中的所有特征之外,其特征向量具有距特征向量V的最小欧几里德距离, 则w是V的最近邻。理想地,两个对应特征的特征描述符(向量)应当是相同的,因为这两个特征对应于对象上的同一物理点。然而,由于图像之间的噪音和其他不同之处,两个对应特征的特征向量可能不相同。在这种情况下,特征向量之间的距离应当相比于任意特征之间的距离而言相对较小。因此,最近邻特征(也称为最近邻特征向量)的概念可以用于确定两个特征是否对应(因为和任意的特征对相比,对应特征更可能是最近邻)。
k-D树k_D树是一个高效检索结构,其应用不在单一维度(如在二进制树中)中而是在k个维度中的数据的连续二等分方法。在每个分支点,将一个预定的维度用作分裂方向。如二进制检索一样,k-D树高效地缩小了检索空间如果存在N个条目,则其通常仅采取log (N)/log (2)个步骤来得到单个元素。这个高效率的缺点是如果正在检索的元素不是精确的复制元素,则噪音有时可能会导致检索下行到错误的分支,因此某种跟踪替代的可能分支以及回溯的方法可能是有用的。k-D树是一种用来从对象模型图像的一组特征在检索图像中找到特征的最近邻的常见方法。对于检索图像中的每个特征,k-D树被用来在这些对象模型图像中找到最近邻特征。这个可能特征对应列表用作确定这些模型化对象中的哪一个(如果有的话)存在于检索图像中的基础。
向量量化向量量化(VQ)是一种基于来自空间的样本数据将一个η维向量空间分区为多个不同区域的方法。所获取的数据可能不均匀地覆盖该空间,而是某些区域可以被 密集地表示,而其他区域则可能是稀疏的。同样,数据可能倾向于存在于多个聚类中(占据 空间的子区域的多个小数据组)。良好的VQ算法将倾向于保留数据的结构,使得被密集填 充的区域包含在一个VQ区域内,而VQ区域的边界沿稀疏填充的空间出现。每个VQ区域 可以由一个代表性向量(通常是该区域内数据的向量的均值)表示。VQ的常见用途是作为 数据的有损压缩的形式——单独的数据点由其所属的枚举区域表示,而不是由其自身的 (通常是非常长的)向量表示。
码本、码本条目码本条目是表示空间的VQ的区域的代表性枚举向量。VQ的“码 本”是所有码本条目的集合。在某些数据压缩应用中,初始数据被映射到对应的VQ区域上, 然后由对应码本条目的枚举来表示。
由粗到精由粗到精的总体原则是一种通过首先找到最接近的解决方案然后细化 该解决方案来解决问题或进行计算的方法。例如,高效的光流算法使用图像金字塔,其中图 像数据是由具有不同分辨率的一系列图像来表示,并且两个连续帧之间的运动首先是使用 最低金字塔级别在低分辨率确定的,然后该低分辨率运动估计被用作初始猜测从而更加精 确地在下一更高分辨率金字塔级别对运动进行估计。
1.系统概览
在一个实施方案中,描述一种使两步骤方法来识别对象的对象识别系统。例如,可 以将一个大型数据库分为许多个较小型的数据库,其中相似的对象被分组到同一小型数据 库中。可以进行第一粗分类从而确定对象有可能在哪一个小型数据库中。然后可以对在粗 分类中鉴别的单个小型数据库或小型数据库子集进行第二精细检索,从而找到精确匹配。 通常,仅可以检索多个小型数据库中的一小部分。然而,如果直接应用到整个数据库,常规 的识别系统可能会返回差的结果,通过结合具有合适分类系统的识别系统,当前的识别系 统可以应用到大得多的数据库并且仍然以高度的精确度和实用性起作用。
图1是根据一个实施方案的对象识别系统100的框图。一般而言,系统100被配 置为实施一个两步骤方法来进行对象识别。例如,系统100可以避免将一个已知的对象识 别算法直接应用到整个已知对象集上来识别一个目标对象(由于该已知对象集的大小的缘 故,这个算法的结果可能较差),而是系统100可以通过基于对象相似性的某测量值来将这 些已知对象分组到多个子集中。然后,系统100通过进行以下步骤来实施该两步骤方法 (O鉴别目标对象与哪个已知对象子集相似(例如,对象分类),以及(2)然后使用该已知对 象子集(小得多)的已知对象识别算法来获得高度精确且有用的结果(例如,对象识别)。
系统100可以用在不同的应用中,如互联网上的商品结帐和基于图像的检索应用 (例如,识别由用户通过移动平台(例如,蜂窝电话)捕获的图像中的对象)。系统100包括图 像捕获装置105 (例如,照相机(静态图像照相机、录像机))来捕获有待识别的目标对象110 的图像(例如,黑白图像、彩色图像)。图像捕获装置105产生表示图像捕获装置105的视野 内的一个场景的一个或更多图像的图像数据。在替代实施方案中,系统100不包括图像捕 获装置105,而是通过一种或更多种不同的信号传输媒质(例如,无线传输、有线传输)接收 由远离系统100的图像捕获装置(例如,来自智能电话的照相机)产生的图像数据。将这些 图像数据传递到系统100的处理器115。处理器115包括各种处理模块,这些模块对这些图 像数据进行分析从而确定目标对象110是否表示在由图像捕获装置105捕获的图像中并且识别目标对象110。
例如,处理器115包括一个可选的分类模块120,该分类模块被配置成为目标对象 110生成一个分类模型。任何类型的分类模型可以由分类模块120生成。一般而言,分类模块120使用分类模型来对属于已知对象集的一个子集的对象进行分类。在一个示例中,分类模型包括一个分类签名,该分类签名是从目标对象110的一个或更多个方面的测量值得到的。在一个实施方案中,分类签名是一个η维向量。本公开内容详细描述了利用分类签名来对对象进行分类的用途。然而,本领域的技术人员将认识到可以修改在此描述的不同实施方案从而实施能够对属于一个已知对象子集的对象进行分类的任意分类模型。分类模块120可以包括多个子模块,如特征检测器,从而检测对象的特征。
处理器115还包括一个识别模块125,该识别模块可以包括一个特征检测器。识别模块125可以被配置为从图像捕获装置105接收图像数据并且从该图像数据产生目标对象 110的对象模型信息。在一个实施方案中,目标对象110的对象模型包括一个识别模型,该识别模型使得能够对目标对象110进行识别。在一个示例中,识别是指确定目标对象110 对应于某个已知对象,并且分类是指确定目标对象110属于一个已知对象子集。识别模型可以对应于在常规的对象识别系统中使用的任意类型的已知识别模型。
在一个实施方案中,识别模型是对应于从目标对象110的图像得到的特征集的特征模型(B卩,基于特征的模型)。每个特征可以包括与该特征及目标对象110相关联的不同类型的信息(如标识符)从而鉴别该特征属于目标对象110 ;该特征的X和y位置坐标、比例及定向;以及特征描述符。这些特征可以对应于片、角及边缘中的一个或更多个,并且可以是比例、定向和/或照度不变的。在一个示例中,目标对象110的特征可以包括不同特征中的一个或更多个,比如但不限于在美国专利6,711,239号中描述的比例不变的特征变换 (SIFT)特征;在 Herbert Bay 等人的 Computer Vision and Image Understanding (CVIU) 第 110 卷,第 3 期,第 346 至 359 页(2008)中的“SURF:Speeded UpRobust Features ” 中描述的加速鲁棒特征(SURF);在KrystianMikolajczyk和Cordelia Schmid的“局部描述符的性倉泛评估,,(Aperformance evaluation of local descriptors" , IEEE Transactions on PatternAnalysis & Machine Intelligence 第 10 期,第 27 卷,第 1615 至 1630 页(2005)) 中描述的梯度位置及定向直方图(GLOH)特征,;在EnginTola等人的“DAISY:An Efficient Dense Descriptor Applied to WideBaseline Stereo,,,IEEE Transactions on Pattern Analysis & MachineIntelligence (2009)中描述的 DAISY 特征;以及对目标对象 110 的局部外观进行编码的任意其他特征(例如,产生类似结果而不管如何捕获目标对象110的图像的特征(例如,照度、比例、位置及定向的变化))。
在另一个实施方案中,识别模型是基于外观的模型,其中目标对象110是由表示对象110的不同视点及照度的一组图像表示的。在另一个实施方案中,识别模型是表示目标对象110的轮廓的基于形状的模型。在另一个实施方案中,识别模型是表示目标对象110 的颜色的基于颜色的模型。在另一个实施方案中,识别模型是表示目标对象110的3维形状的3维结构模型。在另一个实施方案中,识别模型是以上鉴别的不同模型中的两个或更多个模型的组合。可以使用其他类型的模型用于识别模型。处理器115使用分类签名和识别模型来识别目标对象110,如以下更详细描述的。
处理器115可以包括其他可选模块,如分割模块130以及图像标准化模块135,该分割模块将来自由图像捕获装置105捕获的场景的图像的目标对象110的图像分割,图像 标准化模块135将目标对象110的图像转换为标准化规范形式。以下将详细描述模块130 和135的功能。
系统100还包括一个数据库140,该数据库存储用于识别对象的各种形式的信息。 例如,数据库140包含与系统100被配置为对其进行识别的已知对象集相关联的对象信息。 该对象信息被传递到处理器115并且与目标对象110的分类签名和识别模型进行比较,从 而目标对象110可以被识别。
数据库140可以存储与相对大量的(例如,上千个、上万个、数十万个或数百万个) 已知对象相对应的对象信息。因此,将数据库140组织为能够高效并可靠地检索对象信 息。例如,如图2所示,数据库140被分为表示小型数据库(例如,小型数据库(DB)1、小型DB2、......、小型DB N)的多个部分。每个小型数据库包含相似的已知对象的子集的对象信息。在一个示例中,已知对象之间的相似性是通过测量表示这些已知对象的分类模型向量 之间的欧几里德距离来确定的,如本领域的普通技术人员将理解的。在一个图解性示例中, 数据库140包含大约50,000个对象的对象信息,并且数据库140被分为50个小型数据库, 每个小型数据库包含大约1,000个对象的对象信息。在另一个图解性示例中,数据库140 包含大约五百万个对象的对象信息,并且数据库140被分为1,000个小型数据库,每个小型 数据库包含大约5,000个对象的对象信息。数据库140可选地包括一个码本142,该码本存 储与小型数据库中的多个以及以下将更详细描述的分类签名组中的多个关联的组签名145 (例如,组签名I与小型DB I相关联)。每个组签名145是从包含在其关联的小型数据库中 的对象信息得到的。小型数据库的组签名145是该小型数据库的代表性分类模型的一个示 例。
图3是数据库140的小型DB I的框图表示。每个小型数据库可以包括其组签名 145的表示。小型DB I包括M个已知对象的对象信息,并且小型DB I的组签名145是从 包含在该小型DB I中的M个已知对象的对象信息得到的。在一个示例中,组签名145是存 储在如图2所示的数据库140中的码本142的码本条目。在尝试识别目标对象110的过程 中,小型数据库的组签名145被传递到处理器115,并且分类模块120对目标对象110的分 类签名与组签名145名进行比较从而选择一个或更多个小型数据库以便找到目标对象110 的匹配对象。以下将更详细描述组签名145。
包含在小型DB I中的M个已知对象的对象信息对应于该M个已知对象的对象模 型。每个已知对象模型包括关于该已知对象的不同类型的信息。例如,已知对象I的对象 模型包括已知对象I的一个识别模型。这些已知对象的识别模型与目标对象110的识别模 型是相同类型的模型。在一个示例中,这些已知对象的识别模型是对应于从这些已知对象 的图像得到的特征集的特征模型。每个已知对象的每个特征可以包括与该特征及其相关联 的已知对象相关联的不同类型的信息,如用于鉴别该特征属于其已知对象的标识符;该特 征的X和y位置坐标、比例及定向;以及特征描述符。这些已知对象的特征可以包括一个或 更多个不同的特征,如SIFT特征、SURF、GLOH特征、DAISY特征和对对象的局部外观进行编 码的其他特征(例如,产生相似结果而不管如何捕获图像的特征(例如,照度、比例、位置及 定向的变化))。在其他实施方案中,这些已知对象的识别模型可以包括基于外观的模型、基 于形状的模型、基于颜色的模型以及基于3维结构的模型中的一个或更多个。这些已知对象的识别模型被传递到处理器115,并且识别模块125将目标对象110的识别模型与这些已 知对象的识别模型进行比较从而识别目标对象110。
每个已知对象模型还包括其已知对象的一个分类模型(例如,分类签名)。例如,已 知对象I的对象模型包括对象I的一个分类签名。这些已知对象的分类签名是通过对用于 获取目标对象110的分类签名的已知对象进行测量来获得的。这些已知对象的已知对象模 型还可以包括一个小型DB标识符,该标识符指示这些已知对象的对象模型是其对应的小 型数据库的成员。通常,具体的小型数据库中的这些已知对象模型的小型DB标识符是相同 的并且区别于其他小型数据库中的已知对象模型的小型DB标识符。这些已知对象的对象 模型还可以包括对于具体应用有用的其他信息。例如,对象模型可以包括已知对象的UPC 号码、已知对象的名称、已知对象的价格、地理位置(例如,如果对象是地标或建筑物)以及 与对象相关联的任意其他信息。
系统100包括用于识别目标对象110的两步骤方法。一般而言,目标对象110的分 类模型与小型数据库的代表性分类模型进行比较从而确定目标对象110是否有可能属于 一个或更多个具体的小型数据库。在一个特定示例中,使用目标对象110的分类签名以及 组签名145来确定多个小型数据库中的哪一个有可能包括对应于目标对象110的一个已知 对象模型,完成第一粗分类。然后可以对在粗分类中鉴别的单个小型数据库或一个小型数 据库子集进行第二精细检索,从而找到精确匹配。在一个示例中,与其他常规的方法相比, 可能仅需要检索多个小型数据库中的非常小的部分。系统100可以提供高识别速率而不要 求线性增加计算时间或硬件使用。
I1.数据库划分
图4是根据一个实施方案的将数据库140分为表示小型数据库的多个部分的方 法200的流程图,每个小型数据库包含在数据库140中表示的已知对象集的子集的识别模 型。优选地,在识别目标对象之前划分数据库140。对于每个已知对象,该已知对象的分类 模型(如分类签名)是通过对该已知对象进行测量而生成的(步骤205)。在一个示例中,分 类签名是将已知对象的一个或更多个方面量化的N维向量。该测量的区别性应当足以使得 能够将数据库140分割为包括类似已知对象的对象模型的多个小型数据库,并且使得能够 鉴别目标对象可能属于的小型数据库。例如,对象的分类签名可以是一个标准化100维向 量,并且可以通过计算两个分类签名的差异的范数(例如,计算这两个分类签名之间的欧几 里德距离)来计算两个对象之间的相似性。如果对于任意给定的对象,相比于分类签名距所 有对象的平均距离(例如,平均欧几里德距离是O. 7),存在具有距该分类签名的短距离(例 如,仅1%的其他对象具有〈O.1的欧几里德距离范数)的其他对象的一个小子集,则可以认 为该分类签名是足够区别性的。然而,在一个示例中,测量无需是如此区别性的从而使得能 够排他性地基于目标对象110和已知对象的分类签名来匹配目标对象/已知对象(例如,对 象识别)。被认为是足够区别性的内容是由用户确定的并且可以基于包括系统100在其中 实施的具体应用的不同因子而变化。
若干对象参数可以用于测量。一些对象参数可以是已知对象的物理属性,并且一 些对象参数可以是从所捕获的图像中的已知对象的外观提取的。可能的测量包括
·重量和/或惯矩;
·形状;
大小(高度、宽度、长度或其组合);
·几何矩;
·体积(即使它不是盒子的形状);
·曲率测量;
·检测平的V弯曲的对象;
·电磁特征(磁导率、电感、吸收率、透射率);
·温度;
已知对象的图像测量;
·颜色测量、颜色统计和/或颜色直方·纹理和/或空间频率测量;
·形状测量;
·曲率、离心率;
·照度不变的图像属性(例如统计);
·照度不变的图像梯度属性(例如统计);
·与已知对象的图像的整个区域或一大部分相对应的特征(例如类SIFT特征);
·已知对象的图像内的多个感兴趣区域上的累计测量和/或统计;
· SIFT特征或其他局部特征的累计测量和/或统计(例如,这些特征的位置、比例及定向中的一个或更多个的分布的直方图或统计);以及
·向量量化的SIFT特征描述符或其他局部特征描述符的频率的直方图。
以下参考图5至8提供特定的测量示例。
图5是根据一个示例的用于确定已知对象的分类签名的方法210的流程图。方法 210使用从已知对象的图像获得的外观特性。已知对象的图像是由分割模块130从一个场景的图像分割而来的,从而使得背景或其他对象的表示不影响已知对象的分类签名(步骤 215)。换言之,场景的图像被分割从而产生已知对象的一幅分离的图像。步骤215是可选的。例如,已知对象可以占据图像的一大部分,使得背景的效果是可以忽略不计的或者有待从图像提取的特征可以不存在于背景中(例如,通过设计特征检测过程或通过设计背景)。 可以使用各种技术来分割已知对象的图像。例如,合适的分割技术包括但不限于
稀疏立体匹配;
基于来自多个照相机的图像进行分割;
3维结构估计;
基于当对象移动时所捕获的已知对象的连续图像进行分割;
移动/模糊点跟踪;
密集立体匹配;
密集光流;
基于已知对象的视频序列进行分割;
移动/模糊点跟踪;
密集立体匹配;
密集光流;
背景减法;
已知对象上的允许对其进行定位(但没有必要识别)的特定标记;以及
使用与前景中的已知对象区别的简化或已知背景。
一旦分割了已知对象的图像,就在已知对象的分割后图像中检测几何点特征(步骤 220)。为每个几何点特征计算局部片描述符或特征向量(步骤225)。合适的局部片描述符的示例包括但不限于SIFT特征描述符、SURF描述符、GLOH特征描述符、DAISY特征描述符和对对象的局部外观进行编码的其他特征描述符(例如,产生相似结果而不管如何捕获图像的描述符(例如,照度、比例、位置及定向的变化))。在一个优选实施方案中,在方法 210之前,将局部片描述符定位在其中的特征描述符向量空间划分为多个区域,并且为每个区域分配一个代表性描述符向量。在一个实施方案中,这些代表性描述符向量对应于第一水平VQ码本的第一水平VQ码本条目,并且这些第一水平VQ码本条目将该特征描述符向量空间量化。在计算了已知对象的局部片描述符之后,每个局部片描述符与这些代表性描述符向量进行比较从而鉴别最近邻代表性描述符向量(步骤230)。最近邻代表性描述符向量鉴别该局部片描述符属于哪一个区域。然后,通过为每个代表性描述符向量列表显示其被鉴别为局部片描述符的最近邻的次数从而创建一个直方图(步骤235)。换言之,直方图将属于该特征描述符向量空间的每个区域的局部片描述符数量量化。直方图用作已知对象的分类签名。
图6是根据另一个示例的用于确定已知对象的分类签名的方法240的流程图。方法240使用从已知对象的图像获得的外观特性。已知对象的图像是从一个场景的图像分割而来的,使得背景或其他对象的表示不影响已知对象的分类签名(步骤245)。步骤245是可选的,如以上参考方法210的步骤215所描述的。以上参考方法210描述的分割技术中的一种或更多种可以用来分割已知对象的图像。
接下来,图像标准化模块135对已知对象的分割后图像应用几何变换从而产生已知对象的标准化规范图像(步骤250)。步骤250是可选的。例如,已知对象被成像的比例及定向可以被配置为使得分割后的图像以所希望的比例和定向表示该已知对象,而无需应用几何变换。可以使用不同的技术来生成已知对象的标准化图像。在一个实施方案中,标准化技术的希望结果是获得已知对象的相同或近似相同的图像表示,而不管已知对象被成像的初始比例和定向。以下将描述合适的标准化技术的各种示例。
在一种方法中,应用一个标准化缩放过程,然后应用一个标准化定向过程,从而获 得已知对象的标准化图像。该标准化缩放过程可以取决于已知对象的形状而变化。例如, 对于具有矩形面的已知对象而言,可以在X和y方向上分开缩放已知对象的图像,使得所产 生的图像具有预定的像素大小(例如,400x400像素)。
对于不具有矩形面的已知对象而言,可以估计图像中对象的最大轴线和最小轴 线,其中最大轴线表示对象的最大范围的方向并且最小轴线垂直于最大轴线。然后可以沿 着最大和最小轴线来缩放该图像,使得所产生的图像具有预定的像素大小。
在应用了标准化缩放过程之后,可以通过测量在四个轴线方向上的边缘梯度的强 度并且旋转缩放后的图像来调整缩放后的图像的定向,使得正X方向具有最强的梯度。或 者,可以在沿缩放后图像的平面的360°的规则间隔处对梯度进行采样,并且最强梯度的方 向变为正X轴线。例如,可以将梯度方向分到15个度增量内,并且对于缩放后图像的每个 小片(例如,其中将图像再划分为10x10格栅片),可以确定主梯度方向。与主梯度方向相对 应的箱增大,并且在对每个格栅片应用了该过程之后,具有最大计数的箱变为主定向。然 后,可以旋转缩放后的对象图像,使得这个主定向与图像的X轴线对齐,或者可以隐式地将 主定向考虑在内,而无需旋转图像。
在将已知对象的分割后图像标准化之后,其整个标准化图像或一大部分用被作从 其生成特征(例如,单个特征)的片区域(步骤255)。该特征可以是一个或更多个各种特征的 形式,例如但不限于SIFT特征、SURF、GLOH特征、DAISY特征和对对象的局部外观进行编码 的其他特征(例如,产生相似结果而不管如何捕获图像的特征(例如,照度、比例、位置及定 向的变化))。当整个已知对象由单个特征描述符表示时,可能有益的是扩展特征描述符从 而更详细地并且以更多维度来表示已知对象。例如,虽然典型的SIFT描述符提取方法将一 个片分区为4x 4格栅从而生成具有128维的SIFT向量,但是方法240可以将该片区域分 区为更大的格栅(例如,16x16元素)从而生成具有更多维度(例如,2048个元素)的类SIFT 向量。特征描述符被用作已知对象的分类签名。
图7是根据另一个示例的用于确定已知对象的分类签名的方法260的流程图。方 法260使用从已知对象的图像获得的外观特性。已知对象的图像是从一个场景的图像分割 而来的,使得背景或其他对象的表示不影响已知对象的分类签名(步骤265)。步骤265是可 选的,如以上参考方法210的步骤215所描述的。以上参考方法210描述的分割技术中的 一种或更多种可以用来分割已知对象的图像。
接下来,对已知对象的分割后图像应用几何变换从而产生已知对象的标准化规范 图像(步骤270)。步骤270是可选的,如以上参考方法240的步骤250所描述的。以上参 考方法240描述的图像标准化技术可以用来生成已知对象的标准化规范图像。对标准化图 像应用预定的格栅(例如,10x10块)从而将图像划分为多个格栅部分(步骤275)。然后,为 每个格栅部分生成一个特征(例如,单个特征)(步骤280)。这些格栅部分的特征可以是一 个或更多个各种特征的形式,例如但不限于SIFT特征、SURF、GLOH特征、DAISY特征和对对 象的局部外观进行编码的其他特征(例如,产生相似结果而不管如何捕获图像的描述符(例 如,照度、比例、位置及定向的变化))。能够以一个预定的比例与定向、以多个比例和/或 多个定向、或以将特征检测器的响应最大化(保持特征X和I坐标固定)的比例及定向来计 算每个特征。然后对这些格栅部分的特征描述符集进行组合从而形成已知对象的分类签名(步骤285)。可以用多种方式来组合特征描述符。在一个示例中,将这些特征描述符连结为一个长向量。可以使用主成分分析(PCA)或某种其他的降维技术将该长向量投影到一个更低维度的空间上。该PCA技术对于本领域的普通技术人员而言是已知的,但是可以在 Matthew Turk 和 Alex Pentland 的“使用特征脸进行表面识别(Facerecognition using eigenfaces),,, Proc.1EEE Conference on ComputerVision and Pattern Recognition 第 586至591页(1991)中找到将PCA应用到图像分析中的一个示例。
另一种组合格栅部分的特征的方法是使用在方法210中描述的直方图方法的多个方面。具体而言,根据特征空间的向量量化分区来将这些格栅部分的特征量化,并且将表示来自格栅部分的多少个量化特征属于该特征空间的每个分区的直方图用作分类签名。在一个示例中,可以将这些特征的特征空间再划分为400个区域,因此要用作已知对象的分类签名的直方图会具有400个条目。在该方法以及在其中描述直方图或装箱过程的本公开内容的其他部分中,可以应用软装箱方法。在软装箱中,未将一个样本(例如,特征描述符) 的全部投票完全分配给单个箱,而是成比例地分布在附近箱的子集中。在该具体的示例中, 可以根据特征描述符与每个箱(在特征描述符空间中)的中心之间的相对距离来确定比例, 其确定比例的方式为使得总和等于I。
图8是根据另一个示例的用于确定已知对象的分类签名的方法290的流程图。方法290使用从已知对象的图像获得的外观特性。已知对象的图像是从一个场景的图像分割而来的,使得背景或其他对象的表示不影响已知对象的分类签名(步骤295)。步骤295是可选的,如以上参考方法210的步骤215所描述的。以上参考方法210描述的分割技术中的一种或更多种可以用来分割已知对象的图像。
接下来,对已知对象的分割后图像应用几何变换从而产生已知对象的标准化的规范图像(步骤300)。步骤300是可选的,如以上参考方法240的步骤250所描述的。以上参考方法260描述的图像标准化技术可以用来生成已知对象的标准化规范图像。从其整个标准化图像或一大部分得到一个向量(步骤305)。例如,连结标准化图像的像素值从而形成该向量。然后,计算该向量的子空间表示(例如,将该向量投影到更低的 维度上)并且将其用作已知对象的分类签名(步骤310)。例如,可以实施PCA从而提供子空间表示。在一个示例中,可以通过以下方式来为PCA表示创建基
·使用在数据库140中表示的所有已知对象的标准化图像来得到已知对象的向
将这些向量标准化(移除均值、以及对所有向量应用恒定缩放因子或者将每个向量标准化为单位范数);以及
·计算这些向量的奇异值分解(SVD),并且将N个右上向量用作基。
本领域的普通技术人员理解PCA和SVD的进一步细节。对于有待识别的任何新的已知对象或目标对象,将该新对象的标准化向量投影到PCA基上从而生成可以用作该新已知对象的分类签名的N维向量。
在另一个确定已知对象的分类签名的示例中,已知对象的一个或更多个物理属性测量值被用于分类签名。为了获得这些物理属性测量值,系统100可以包括一个或更多个可选传感器315,从而测量例如已知对象的重量、大小、体积、形状、温度和/或电磁特征。或者,系统100可以与远离系统100的传感器通信,从而获得这些物理属性测量值。传感器315产生传感器数据,该传感器数据被传递到分类模块120并由其使用从而得到分类签名。 如果基于图像的深度或3维结构估计被用来从背景分割对象,如在方法210、240、260和290 的步骤215、245、265和295中描述的,则大小(和/或体积)信息是可获得的(以已度量校准 的单位或任意单位,这取决于捕获已知对象的图像的照相机系统是否是度量校准的),用于 与基于外观的信息组合,而无需专用的大小或体积传感器。
传感器数据可以与表示已知对象的外观特性的基于外观的信息组合从而形成分 类签名。在一个示例中,在传感器数据中表示的物理属性测量值与使用参考图5至8描述的 方法210、240、260和290中一个或更多个获得的基于外观的信息连结,从而形成一个向量。 可以缩放或加权该向量的分量,从而控制该向量的每个子部分的相对效果或重要性。以此 方式,可以在一个齐次步骤中将数据库140分为多个小型数据库,这同时考虑了物理属性 测量值以及基于外观的信息。
不是将传感器数据与基于外观的信息进行组合从而形成已知对象的分类签名,而 是基于外观的信息可以被用作用来初始地将数据库140分为多个小型数据库的分类签名 (以下将参见图4详细描述),并且传感器数据可以被用来进一步划分这些小型数据库。或 者,传感器数据可以用来形成用于初始地将数据库140划分为多个小型数据库的分类签 名,然后使用基于外观的信息来进一步划分这些小型数据库。
参见图4,一旦生成这些已知对象的分类签名,可以将这些分类签名分组到多个分 类签名组中(步骤320)。分类签名组是更通用的分类模型组的一个示例。图9是表示已知 对象的分类签名定位在其中的简化的2维分类签名空间322的任意图。点325、330、335、 340、345、350、355、360以及365表示9个已知对象的分类签名在分类签名空间322中的位 置。点325、330、335、340、345、350、355、360以及365被分组到具有由虚线表示的边界的三 个不同分类签名组370、375和380中。具体而言,由点325、330和335表示的分类签名是 分类签名组370的成员;由点340和345表示的分类签名是分类签名组375的成员;并且由 点350、355、360以及365表示的分类签名是分类签名组380的成员。本领域的技术人员将 认识到图9是一个简化的示例。通常情况下,系统100可以被配置为识别比9个已知对象 显著更多的对象,特征空间具有两个以上的维度并且分类签名空间322可以被划分为三个 以上的组。
可以使用多种不同的技术来进行分组。在一个示例中,可以使用聚类算法将分类 签名聚类到多个分类签名组中。可以实施任何已知的聚类算法。合适的聚类算法包括VQ 算法以及k均值算法。另一个算法是基于分类签名在分类签名空间中的分布的混合高斯模 型的期望值最大算法。本领域的技术人员理解聚类算法的细节。
在一个示例中,可以在聚类分类签名之前选择分类签名组的数目。在另一个示例 中,聚类算法在聚类过程中确定要形成多少分类签名组。步骤320还可以包括软聚类技术, 其中在距相邻分类签名组的边界的所选距离内的分类签名是那些相邻的分类签名组的成 员(即,分类签名与一个以上的分类签名组相关联)。例如,如果一个分类签名距一个相邻 组的距离小于距其自身的组的中心的距离的两倍,则可以将该分类签名也包括在该相邻组 中。
如图4所示,一旦形成多个分类签名组,这些分类签名组可以被用来鉴别形成小 型数据库的数据库140的对应部分(步骤400)。在图9的过分简化的示例中,数据库140的三个部分被鉴别为对应于分类签名组370、375和380。换言之,从数据库140形成三个小型数据库。对应于分类签名组370的这些小型数据库中的第一个包含其分类签名由点325、 330和335表示的已知对象的对象模型;对应于分类签名组375的这些小型数据库中的第二个包含其分类签名由点340和345表示的已知对象的对象模型;并且对应于分类签名组 380的这些小型数据库中的第三个包含其分类签名由点350、355、360以及365表示的已知对象的对象模型。在一个示例中,鉴别数据库的各部分(即,形成这些小型库)对应于为已知对象模型生成小型DB标识符(图3中所示)。
为每个分类签名组或者换言之为每个数据库部分(S卩,小型数据库)计算一个组签名145(步骤405)。无需在鉴别这些数据库部分之后计算组签名145,而是可以在鉴别这些数据库部分之前或期间计算组签名145。组签名145是更通用的代表性分类模型的一个示例。组签名145是从这些分类签名组中的分类签名得到的。在图9的过分简化的示例中,分类签名组370、375和380的组签名145分别由星410、415和420表示。由星410表示的组签名145是从由点325、330或335表示的分类签名得到的;由星415表示的组签名145是从由点340和345表示的分类签名得到的;并且由星420表示的组签名145是从由点350、 355、360以及365表示的分类签名得到的。在一个示例中,组签名145对应于这些分类签名的均值(例如,由星410表示的组签名145是由点325、330或335表示的分类签名的均值)。 在另一个示例中,可以将组签名145计算为与所计算的均值签名最接近的已知对象的实际分类签名。在另一个示例中,可以通过列出在将所有已知对象包含在组中的凸壳的边界上的组的已知对象的所有分类签名(即,定义该凸壳的分类签名)来表示分类签名145。在该示例中,可以将新的目标对象确定为属于一特定组,其分类签名在该组的凸壳内。组签名145 可以用作在目标对象110的识别过程中检索的码本142的码本条目。
II1.目标对象识别
图10是根据一个实施方案的用于利用已经如上所述被划分的数据库140来识别目标对象110的方法500的流 程图。处理器115接收对应于目标对象110的信息(步骤 505)。该信息包括表示目标对象110在其中被表示的图像的图像数据。该信息还可以包括传感器数据(例如,重量数据、尺寸数据、温度数据、电磁特征数据)。在某些情况下,其他对象可以表示在目标对象110的图像中,并且人们可能希望识别这些其他对象。在这种情况下,可以可选地使用以下方法中的一种或更多种通过分割模块130将图像分割为多个分离的对象(步骤510)
·实现范围/深度传感器并且检测范围/深度传感器数据以及分段的连续段中的不连续性;
·使用具有多个视点的多个照相机,并且挑选在相关联的范围/深度传感器数据中不具有不连续性的一个照相机;以及
·基于多个观察值来构建对象的3维体积模型(使用单个照相机或多个照相机以及多个基于视野或运动的结构估计,使用一个或更多个范围传感器、或者使用照相机与范围传感器的组合),然后对该3维体积模型进行分段连续分割。
还可以从图像的背景中分割目标对象110的图像并且使用以上描述的标准化技术中的一种或更多种将其标准化。根据由处理器115接收的目标对象信息,分类模块120通过对在目标对象信息中表示的目标对象的一个或更多个方面进行测量来确定目标对象110的分类签名(步骤515)。可以用来确定已知对象的分类签名的测量值及上述的相对应方法 (例如,对应于图5至8的方法)中任意一者还可以被用来确定目标对象110的分类签名。优 选地,用来获得目标对象110的分类签名的这个(或这些)测量值与用来获得已知对象的分 类签名的这个(或这些)测量值是相同的。在步骤515之前、之后或同时,识别模块125使用 表示目标对象110的图像的图像数据来生成目标对象110的识别模型(步骤520)。在一个 示例中,识别模型是一个特征模型,并且以上描述了可以为目标对象110的特征模型生成 的不同类型的特征。
在确定了目标对象110的分类签名之后,分类模块120将目标对象110的分类签 名与数据库140的小型数据库的组签名145进行比较(步骤525)。进行该比较从而选择一 个小型数据库用于检索。在一个示例中,该比较包括确定目标对象110的分类签名与每个 组签名145之间的欧几里德距离。如果分类签名的分量和组签名145的分量是从目标对象 110和已知对象的不相干属性得到的,则可以使用加权距离来强调或去强调这些签名的具 体分量。选择用于检索的小型数据库可以是具有产生在比较中的最短欧几里德距离的组签 名的小型数据库。在替代实施方案中,不是找到单个小型数据库,而是选择一个小型数据库 子集。一种选择小型数据库子集的方式是获得来自步骤525的靠前的结果。另一种方式是 具有预定义的混淆表(或相似性表),给定任意一个所选的小型数据库,其可以提供具有相 似的已知对象的小型数据库的列表。
在选择(多个)个小型数据库之后,识别模块125检索这个(或这些)小型数据库从 而找到与目标对象110的识别模型相匹配的已知对象的识别模型(步骤530)。匹配表示目 标对象110对应于具有匹配特征模型的已知对象。步骤530还被称为精细识别。一旦已经 在步骤525中将检索空间的大小减小到单个数据库或数据库的小子集,则可以使用任意可 行的、可靠的、有效的对象识别方法。例如,某些识别方法可能在检索相对大型数据库时是 不可行的,但是可以在步骤530中实施,因为已经减小了检索空间。在此描述的许多的已知 对象识别方法(如在美国专利号6,711,293中描述的针对SIFT的方法)使用特征模型,但是 还可以使用采用不同于特征模型的模型(例如,基于外观的模型、基于形状的模型、基于颜 色的模型、基于3维结构的模型)的其他类型的对象识别方法。因此,在此描述的识别模型 可以对应于能够在已经减小检索空间之后找到匹配的任意类型的模型。
在替代实施方案中,不是将目标对象110的分类签名与组签名145进行比较从而 选择一个或更多个小型数据库,而是将目标对象110的分类签名与已知对象的分类签名进 行比较,以选择最相似于目标对象110的已知对象。然后,可以创建包含最相似已知对象 的识别模型的一个小型数据库,并且使用精细识别来检索该小型数据库从而找到目标对象 110的匹配。
在另一个替代实施方案中,来自多个图像捕获装置的信息可以被用来识别目标对 象110。例如,为了使得目标对象110的分类签名的测量值更具有区别性,可以缝合/追加 来自多个图像捕获装置的不同视野的区域从而覆盖目标对象110的更多个侧面。在另一个 示例中,来自多个图像捕获装置的图像可以单独地用来多次尝试识别目标对象110。在另一 个示例中,来自多个图像捕获装置的每幅图像可以用来进行单独的识别尝试,其中允许来 自每次识别的多个可能的答案。然后,组合多个可能的答案(通过投票、逻辑AND运算或另 一种统计或概率方法)从而确定最可能的匹配。
以下将参见图11和12来描述识别目标对象110的另一个替代实施方案。在该替 代实施方案中,目标对象110的标准化图像以及这些已知对象的标准化图像被用来执行识 别。
数据库140由一组箱表示,这些箱覆盖找到已知对象的标准化图像中的特征时的 X和y位置、定向及比例。图11是填充数据库140的一组箱的方法600的流程图。首先,为 数据库140创建多个箱,其中每个箱对应于一个标准化图像的特征的所选X位置、y位置、 定向及比例(步骤602)。将这些特征的X位置、y位置、定向及比例量化或分区从而创建箱。 对于每个有待识别的已知对象,从该已知对象的图像中提取这些特征(步骤605)。对于每个 特征,确定其在标准化图像中的比例、定向及X和y位置(步骤610)。每个特征存储在表示 其比例、定向及X和y位置的数据库140的一个箱中(步骤615)。存储在箱中的这些特征可 以包括各种类型的信息,这些信息包括特征的特征描述符、鉴别其从中导出的已知对象的 标识符以及特征的实际比例、定向及X和I位置。
在一个示例中,比例可以被量化为具有1. 5倍缩放放大率的几何间距的7个 比例部分;定向可以被量化为具有20度的宽度的18个部分,并且X和y位置各自可以 被量化为具有标准化图像的宽度以及高度的1/20的多个部分。这个示例将给出总共 7*18*20*20=50,400个箱。因此,每个箱平均存储数据库140的所有特征的近似1/50,000。 比例、定向及X和y位置可以被量化为不同于以上展示的不同数目的部分(例如,更多数目、 更少数目)从而产生不同总数的箱。而且,为了抵消分箱产生的离散化效应,可以将一个特 征分配给多于一个箱(例如,其中通过一个步骤将箱参数(即,X位置、y位置、定向及比例) 中的一个或更多个的值分离的相邻箱)。在这种软分箱方法中,如果一个特征的箱参数将其 放置在相邻箱之间的边界附近(在X位置、y位置、定向及比例空间中),则该特征可以在多 于一个箱中,从而使得不会在检索目标对象的过程中错过该特征。在一个示例中,由于图像 中的噪音和其他差异,特征的X位置、y位置、定向及比例可以在所观察到的图像之间不同, 并且软分箱可以补偿这些差异。
每个箱可以用来表示一个小型数据库,并且针对目标对象110的特征的最近邻检 索可以根据在图12的流程图中展示的方法620来进行。获取目标对象110的图像并且将 其传递到处理器115 (步骤625)。分割模块130使用上述分割技术中的一种或更多种从图 像的剩余部分分割目标对象110的图像(步骤630)。步骤630是可选的,如以上参考方法 210的步骤215所描述的。图像标准化模块135使用上述标准化技术之一将目标对象的分 割后图像标准化(步骤635)。步骤630是可选的,如以上参考方法240的步骤250所描述 的。识别模块125从该标准化图像中提取目标对象110的特征(步骤640)。可以提取包括 SIFT特征、SURF、GLOH特征和DAISY特征的各种类型的特征。
识别模块125确定每个特征的比例、定向以及X和y位置,并且基于其比例、定向 以及X和y位置为每个特征鉴别相关联的箱(步骤645)。如上所示,可以将比例空间量化为 具有1. 5倍缩放放大率的几何间距的7个比例部分;定向空间可以被量化为具有20度的宽 度的18个部分,并且X和y位置空间可以被量化为具有标准化图像的宽度和高度的1/20 的多个箱,这给出了总共7*18*20*20=50,400个箱。
对于目标对象110的每个特征,检索为该对象鉴别的箱从而找到最近邻(步骤 650)。然后,对应于所鉴别的最近邻的每个已知对象接收一个投票(步骤652)。因为每个箱包含来自整个数据库140的特征总数(例如,在上述示例中是大约50,000个)的一小部分, 所以可以可靠地完成最近邻匹配,并且当数据库140包含的已知对象模型是如果未将已知 对象特征分离到箱中时的可能已知对象模型的50,000倍时,整个方法620可以导致可靠的 识别。可能有益的是检索多于一个最近邻并为其投票,因为多个不同已知对象可以包含相 同的特征(例如,由一个公司产生的并且包括相同标志的多个不同已知对象)。在一个示例 中,为在距最近邻的选定比率距离内的所有最近邻投票。该所选比率距离可以由用户确定 从而为具体的应用提供所希望的结果。在一个示例中,该所选比率距离可以是最近邻的距 尚的因子1. 5倍。
在找到目标对象的特征的最近邻后,为已知对象的投票数制表从而鉴别具有最多 投票数的已知对象(步骤655)。具有最多投票数的已知对象很有可能对应于目标对象110。 可以使用可选的验证步骤660来测量识别的置信度(例如,进行标准化图像关联、基于边缘 的图像关联测试中的一者或多者,并且计算将目标对象的特征映射到匹配的已知对象的对 应特征上的几何变换)。或者,如果存在具有显著投票数的多于一个已知对象,则可以基于 验证步骤660选择正确的已知对象。
作为步骤650的替代方案,为了减少整个数据库140所需的存储空间量,每个箱包 括一指示,即哪些已知对象具有属于该箱的特征,而实际上不将已知对象的特征或特征描 述符存储到箱中。而且,不是进行已知对象的特征的最近邻检索,而是步骤650会包括为具 有属于由目标对象110的特征标识的箱的特征的所有已知对象投票。
作为步骤650的另一个替代方案,可以通过为对象的特征使用更低维度的较粗略 特征描述符来减少数据库140所需的存储空间量。例如,不是SIFT特征的典型的128维(表 示为存储器的128个字节)特征向量,可以生成具有例如仅5个或10个维度的更粗略的特 征描述符。可以通过各种的方法来生成该更粗略的特征描述符,如SIFT特征的PCA分解、 或其中心在特征点位置附近的一个小图像片的照度、比例及定向不变属性的整个分离测量 (如SIFT、GLOH、DAISY、SURF以及其他特征方法所做的)。
在方法620的某个变体中,该方法可以产生单个的匹配结果,或者候选对象匹配 的一个非常小的子集(例如,少于10个)。在这种情况下,可选的验证步骤660可能足以识 别具有更高置信度水平的目标对象110。
在方法620的另一变体中,该方法可以产生更多数目的可能候选匹配(例如,500 个匹配)。在这种情况中,可以将候选已知对象集形成为一个小型数据库,用于后续的精细 识别过程,如在方法500的步骤530中描述的一个或更多个过程。
以下将描述识别目标对象110的另一个替代实施方案。可以在不从其对应的图像 分割目标对象110和已知对象的表示的情况下实施该替代实施方案。在该实施方案中,使 用数据库140中已知对象的所有识别模型的特征的一个子集来从数据库140创建一个粗数 据库。可以结合粗数据库使用精细识别过程(如在方法500的步骤530中描述的一个或更 多个过程)来选择识别模型子集以便用于进一步的分析或者立刻识别目标对象110。在一 个示例中,如果粗数据库平均使用识别模型的特征的1/50,则可以在是其他可能情况的50 倍的数据库上进行识别。
可以通过以不同方式选择特征子集来创建该粗数据库,比如(I)选择每个已知对 象的识别模型的最鲁棒或者最具代表性的特征以及(2)选择对于已知对象的多个识别模型而言相同的特征。
可以根据在图13的流程图中展示的方法665来选择最鲁棒的或者最具代表性的特征。对于每个已知对象,捕获该已知对象的一幅原始图像,并且从该原始图像中提取特征 (步骤670)。从不同的视点获取已知对象的多个样本图像(具有变化的比例、面内或面外定向及照度),或者可以通过对已知对象的原始图像应用各种几何变换来合成地生成已知对象的不同视点从而获取样本图像(步骤675)。
对于已知对象的每个样本图像,提取特征并且在样本图像和原始图像之间进行精细识别(步骤680)。为从原始图像提取的每个特征建立投票计数,该计数表示该特征是识别匹配的一部分的样本图像数目(步骤685)。
一旦已经匹配了已知对象所有样本图像并且已经记录了所有匹配的特征投票,则选择具有最高投票数的原始图像的靠前特征,用在粗数据库中(步骤687)。例如,可以选择已知对象的前2%的特征。
上述系统及方法可以用在各种不同的应用中。一种商业应用是用于零售商品结账的隧道系统。在于2005年2月28日授权的名称为“用于商品自动结账的系统及方法 (System and Method for MerchandiseAutomatic Checkout)” 的共同拥有的美国专利号 7, 337, 960中描述了隧道系统的一个示例,该专利的内容通过引用结合在此。在这种系统中,机动带将待购买的对象(例如,物件)传送到壳体(隧道)内并从其传送出。在隧道内存在尝试用其进行对象识别的各种传感器,从而使得可以适当地对顾客收费。
所使用的传感器可以包括
·针对对象的不同侧面的条形码读取器(基于激光的、或基于图像的);
.RFID 传感器;
重量传感器;
用来捕获对象的所有侧面的图像的多个照相机(2维成像器、以及I维“推扫”成像器或者使用对对象进行扫描的带的运动的行扫描成像器);以及
·能够生成与一个或更多个照相机/成像器对齐的深度图的范围传感器。
尽管条形码读取器是高度可靠的,但是由于对象在带上的放置位置不正确或者自我遮挡或者被其他对象遮挡,则可能有很多对象不能被条形码读取器鉴别。对于这些情况, 可能有必要的是尝试基于其视觉外观来识别对象。
因为典型的零售店可能具有成千上万的物件有待销售,所以用于视觉识别的大型数据库可能是有必要的,并且使用大型数据库识别对象的上述系统及方法可能是有必要的从而确保高度的识别准确性以及令人满意的低失败率。例如,一种实现方式可以具有待识别的50,000个物件,这些物件可以被组织为每个具有250个物件的大约200个小型数据库。
由于隧道的相对受控环境,所以可靠地对所获取图像中的单独对象进行分割(使用来自多个成像器的3维结构重构和/或范围传感器及深度图)的各种方法是可以设想的并且是实际的。
另一种应用包括使用具有内置图像捕获装置(例如,照相机)的移动平台(例如,蜂窝电话、智能电话)。移动平台用户可以对其进行拍照从而尝试识别的对象的数目可以是上百万个,所以可以遇到在大型数据库中存储上百万的对象模型引入的某些问题。
如果移动平台具有单个照相机,则通过以下方式来实现上述的对象分割
检测场景中最突出的对象;
·使用各向异性扩散和/或边缘检测来确定在图像中心处对象的边界;
获取对象的多幅图像(或短的视频序列),并且使用光流和/或结构以及运动估计来从背景中分割图像中心处的前景对象;
·交互地引导用户促使照相机运动从而能够进行对象分割;
·应用皮肤颜色过滤器从而从握持对象 的手中分割该对象;以及
·实施图形用户界面(GUI),该界面使用户能够手动地分割对象,或者提供有关感兴趣对象的位置的一个指示建议,从而帮助上述列出的一些方法。
一些移动平台可以具有多于一个成像器,其中多个视野立体深度估计可以被用来从背景中分割中心前景对象。一些移动平台可以具有多个范围传感器,这些传感器产生和所获取的图像对齐的一个深度图。在这种情况下,该深度图可以用来从背景分割中心前景对象。
对本领域的普通技术人员而言将明显的是,可以对上述实施方案的细节作出改变,而不背离分方面的基础原理。因此,本发明的范围仅由权利要求确定。
权利要求
1.一种对存储在对象识别系统的数据库中的已知对象的识别模型集进行组织的方法,该方法包括 为所述已知对象中的每一个确定分类模型; 将所述已知对象的分类模型分组为多个分类模型组,这些分类模型组中的每一个分类模型组对所述数据库的对应部分进行鉴别,所述对应部分包含具有是该分类模型组的成员的分类模型的所述已知对象的识别模型;以及 为所述分类模型组计算代表性分类模型,其中分类模型组的代表性分类模型是从是该分类模型组的成员的分类模型中得到的,并且其中当识别目标对象时将所述代表性分类模型与该目标对象的分类模型进行比较从而能够选择这些已知对象的一个识别模型子集以便与该目标对象的识别模型进行比较。
2.如权利要求1所述的方法,其中确定已知对象的分类模型包括根据该已知对象的图像对外观特性进行测量。
3.如权利要求2所述的方法,其中该外观特性与颜色、纹理、空间频率、形状、照度不变的图像属性以及照度不变的图像梯度属性中的一个或更多个相对应。
4.如权利要求2所述的方法,其中该已知对象的分类模型是通过以下方式确定的 对由图像捕获装置捕获的场景的图像进行分割从而产生该已知对象的一幅分离图像; 根据该已知对象的所述图像计算局部特征描述符向量,其中这些局部特征描述符向量是在特征描述符向量空间内; 将该特征描述符向量空间分为多个区域; 确定这些局部特征描述符向量属于哪些区域;以及 创建直方图,该直方图量化有多少局部特征描述符向量属于这些区域中的每一个区域,该直方图对应于所述分类模型。
5.如权利要求4所述的方法,进一步包括 为所述区域中的每一个区域分配一个代表性描述符向量;以及将所述局部特征描述符向量与所述代表性描述符向量进行比较从而确定所述局部特征描述符向量属于哪个区域。
6.如权利要求2所述的方法,其中该已知对象的分类模型是通过以下方式确定的 对由图像捕获装置捕获的场景的图像进行分割从而产生该已知对象的一幅分离图像; 对该已知对象的分割后图像应用几何变换从而获得该已知对象的标准化图像;以及为该已知对象的标准化图像生成单个特征描述符,所述分类模型包括该单个特征描述符的表示。
7.如权利要求6所述的方法,其中该单个特征描述符是使用该已知对象的标准化图像的整个范围生成的。
8.如权利要求2所述的方法,其中该已知对象的分类模型是通过以下方式确定的 对由图像捕获装置捕获的场景的图像进行分割从而产生该已知对象的一幅分离图像; 对该已知对象的分割后图像应用几何变换从而获得该已知对象的标准化图像;将该已知对象的标准化图像划分为多个预定的格栅部分;以及为已划分图像的每一个格栅部分生成一个特征描述符向量,所述分类模型包括所述格栅部分的特征描述符的表不。
9.如权利要求2所述的方法,其中该已知对象的分类模型是通过以下方式确定的 对由图像捕获装置捕获的场景的图像进行分割从而产生该已知对象的一幅分离图像; 对该已知对象的分割后图像应用几何变换从而获得该已知对象的标准化图像,其中向量表示该标准化图像;以及 计算表示该标准化图像的向量的主元分析表示,所述分类模型包括该向量的主元分析表不的一种表不。
10.如权利要求1所述的方法,其中确定已知对象的分类模型包括对该已知对象的物理属性进行测量。
11.如权利要求10所述的方法,其中该物理属性是高度、宽度、长度、形状、质量、几何矩、体积、曲率、电磁特征以及温度中的一个或更多个。
12.如权利要求10所述的方法,进一步包括根据该已知对象的图像测量外观特性,其中该已知对象的分类模型包括该已知对象的物理属性的表示以及该已知对象的外观特性的表示。
13.如权利要求1所述的方法,其中所述分类模型组是通过对所述分类模型应用聚类算法而形成的。
14.如权利要求13所述的方法,其中所述已知对象的分类模型是使用k-均值聚类算法聚类的。
15.如权利要求13所述的方法,其中在聚类之前确定所述分类模型聚类到其中的分类模型组的数量。
16.如权利要求13所述的方法,其中在聚类过程中确定所述分类模型聚类到其中的分类模型组的数量。
17.如权利要求1所述的方法,其中所述聚类包括软聚类,其中已知对象的分类模型被聚类到所述分类模型组中的一个或更多个中,并且该已知对象的识别模型被包括在该数据库的所述部分中的一个或更多个中。
18.如权利要求1所述的方法,其中分类模型组的代表性分类模型对应于是该分类模型组的成员的分类模型的均值。
19.如权利要求1所述的方法,其中所述分类模型包括表示η维向量的分类签名。
20.一种从包含已知对象集的识别模型的数据库中识别目标对象的方法,该数据库被分为多个部分,并且每个部分包含已知对象子集的识别模型,该方法包括 接收表示该目标对象的图像的图像数据; 为该目标对象确定分类模型; 为该目标对象生成从该目标对象的所述图像得出的识别模型; 将该目标对象的分类模型与同该数据库的所述部分相关联的代表性分类模型进行比较,该数据库的一个部分的代表性分类模型从已知对象子集的分类模型得出,所述已知对象子集的分类模型具有包含在该部分中的识别模型;选择该数据库的一个部分从而基于所述比较进行检索;以及 检索该数据库的选定部分从而鉴别与该目标对象的识别模型相匹配的已知对象的识别丰吴型。
21.如权利要求20所述的方法,其中确定该目标对象的分类模型包括根据该目标对象的图像对外观特性进行测量。
22.如权利要求21所述的方法,其中该外观特性与颜色、纹理、空间频率、形状、照度不变的图像属性以及照度不变的图像梯度属性中的一个或更多个相对应。
23.如权利要求21所述的方法,其中该目标对象的分类模型是通过以下方式确定的 对由图像捕获装置捕获的场景的图像进行分割从而产生该目标对象的一幅分离图像; 根据该目标对象的图像计算局部特征描述符向量,其中所述局部特征描述符向量是在一个特征描述符向量空间内; 将该特征描述符向量空间分为多个区域; 确定所述局部特征描述符向量属于哪些区域;以及 创建直方图,该直方图将有多少局部特征描述符向量属于该特征描述符向量空间的所述区域中的每一个进行量化,该直方图对应于该目标对象的分类模型。
24.如权利要求23所述的方法,进一步包括 为所述区域中的每一个区域分配代表性描述符向量;并且 将所述局部特征描述符向量与所述代表性描述符向量进行比较从而确定所述局部特征描述符向量属于哪个区域。
25.如权利要求21所述的方法,其中该目标对象的分类模型是通过以下方式确定的 对由图像捕获装置捕获的场景的图像进行分割从而产生该目标对象的一幅分离图像; 对该目标对象的分割后图像应用几何变换从而获得该目标对象的标准化图像;以及为该目标对象的标准化图像生成单个特征描述符,该分类模型包括所述单个特征描述符的表示。
26.如权利要求21所述的方法,其中该目标对象的分类模型是通过以下方式确定的 对由图像捕获装置捕获的场景的图像进行分割从而产生该目标对象的一幅分离图像; 对该目标对象的分割后图像应用几何变换从而获得该目标对象的标准化图像; 将该目标对象的标准化图像划分为多个预定的格栅部分;以及为已划分图像的每一个格栅部分生成一个特征描述符向量,该分类模型包括所述格栅部分的特征描述符向量的表不。
27.如权利要求21所述的方法,其中该目标对象的分类模型是通过以下方式确定的 对由图像捕获装置捕获的场景的图像进行分割从而产生该目标对象的一幅分离图像; 对该目标对象的分割后图像应用几何变换从而获得该目标对象的标准化图像,其中向量表示该标准化图像;以及 计算表示该标准化图像的向量的主元分析表示,所述分类模型包括该向量的主元分析表不的一种表不。
28.如权利要求20所述的方法,其中确定该目标对象的分类模型包括对该目标对象的物理属性进行测量。
29.如权利要求28所述的方法,其中该物理属性是高度、宽度、长度、形状、质量、几何矩、体积、曲率、电磁特征以及温度中的一个或更多个。
30.如权利要求28所述的方法,进一步包括根据该目标对象的图像测量外观特性,其中该目标对象的分类模型包括该目标对象的物理属性的表示以及该目标对象的外观特性的表示。
31.如权利要求20所述的方法,其中该目标对象的分类模型以及所述数据库的所述部分的代表性分类模型是向量并且所述比较包括确定该目标对象的分类模型与所述代表性分类模型之间的欧几里德距离,其中最短的欧几里德距离鉴别被选择用于检索的所述数据库的部分。
32.如权利要求20所述的方法,其中该目标对象的识别模型以及所述已知对象的识别模型包括特征描述符。
33.如权利要求32所述的方法,其中这些特征描述符是比例不变的特征变换特征描述符。
34.如权利要求20所述的方法,其中所述数据库的所述部分中的多个部分是基于将该目标对象的分类模型与这些部分的代表性分类模型进行比较而选择的。
35.一种用于识别目标对象的对象识别系统,包括 数据库,该数据库包含已知对象集的识别模型,该数据库被分为多个部分,每个部分包含已知对象子集的识别模型,其中这些部分具有代表性分类模型,并且其中一个部分的代表性分类模型是从具有包含在该部分中的识别模型的已知对象子集的分类模型得出的;以及 处理器,该处理器包括 分类模块,该分类模块被配置成为该目标对象生成分类模型,该分类模块被配置为将该目标对象的分类模型与该数据库的所述部分的代表性分类模型进行比较从而选择一个部分;以及 识别模块,该识别模块被配置为接收表示该目标对象的图像的图像数据并且从该图像数据产生该目标对象的识别模型,该识别模块被配置为检索由所述分类模块选择的所述数据库的部分从而鉴别包含在该部分中与该目标对象的识别模型匹配的一个识别模型。
36.如权利要求35所述的系统,其中该分类模块被配置为接收表示该目标对象的图像的图像数据并且根据该图像数据中表示的外观特性生成该目标对象的分类模型。
37.如权利要求36所述的系统,其中该外观特性是颜色、纹理、空间频率、形状、照度不变的图像属性以及照度不变的图像梯度属性、从量化的局部特征描述符向量得出的直方图、从该目标对象的标准化图像得出的单个特征描述符表示、与该目标对象的标准化图像的预定格栅部分相对应的特征描述符向量以及主元分析表示中的一个或更多个。
38.如权利要求35所述的系统,其中该目标对象的分类模型包括该目标对象的物理属性的表不。
39.如权利要求38所述的系统,其中该物理属性是高度、宽度、长度、形状、质量、几何矩、体积、曲率、电磁特征以及温度中的一个或更多个。
40.如权利要求35所述的系统,其中 该目标对象的分类模型以及该数据库的所述部分的代表性分类模型是向量; 该分类模块被配置为确定该目标对象的分类模型与所述代表性分类模型之间的欧几里德距离;以及 最短的欧几里德距离鉴别该数据库的所述部分,以进行选择。
41.如权利要求35所述的系统,其中该目标对象的识别模型以及所述已知对象的识别模型包括特征描述符。
42.如权利要求41所述的系统,其中所述特征描述符是比例不变的特征变换特征描述符。
43.如权利要求35所述的系统,进一步包括图像捕获装置,用于产生表示该目标对象的图像的图像数据。
全文摘要
一种对存储在对象识别系统(100)的数据库(140)中的已知对象的识别模型集进行组织的方法(200)包括为这些已知对象确定分类模型并且将这些分类模型分组为多个分类模型组。每个分类模型组鉴别该数据库的一个部分,该部分包含具有是该分类模型组的成员的分类模型的已知对象的识别模型。该方法包括为每个分类模型组计算一个代表性分类模型。每个代表性分类模型是从是该分类模型组的成员的分类模型导出的。当将要识别一个目标对象(110)时,将这些代表性分类模型与该目标对象的分类模型进行比较从而使得能够选择这些已知对象的一个识别模型子集,用于与该目标对象的识别模型进行比较。
文档编号G06F17/00GK103003814SQ201180024104
公开日2013年3月27日 申请日期2011年5月13日 优先权日2010年5月14日
发明者L·贡考尔维斯, J·奥斯特洛夫斯基, R·伯曼 申请人:数据逻辑Adc公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1