图像中的对象的自动分类的制作方法

文档序号:6455689阅读:124来源:国知局
专利名称:图像中的对象的自动分类的制作方法
图像中的对象的自动分类
站旦 冃豕
图像的自动分类随着由网页提供的图像数量的日益增长而变得愈发重要。 图像的分类具有许多不同的应用。例如,提供图像搜索的搜索引擎服务可试图 对图像进行分类以使得搜索更高效且更有效。该搜索引擎服务可以将图像分类 成图像分类的分层结构(例如,地理、北美、美国等等)。该图像搜索引擎服 务可允许用户同时指定搜索请求(或査询)和感兴趣的图像分类(例如,查询 "日落"和分类"北美")。该图像搜索引擎服务然后能够将其搜索限于所指
定的分类中的图像。其中图像的分类可能是有用的另一示例是web市场。web 市场系统可允许许多不同的零售商为其产品作广告并销售其产品。零售商可提 供其产品的数据库,其可包括对于每一产品的定价信息、产品描述和产品图像。 不同的零售商可以按不同的方式来描述产品以使得市场系统难以正确地对可 销售产品进行分类。如果该市场系统能够通过分析产品图像来有效地标识分 类,则该市场系统就能够使用该分类来帮助对产品进行分类。
许多不同的技术已被应用于对图像进行分类。某些技术基于图像附近的文 本来对图像进行分类。例如,网页可包括图像的标题和描述性文本。这些技术 的准确性不仅取决于正确地标识标题及相关联的描述性文本的能力,而且取决 于该标题和描述性文本在表示该图像方面的准确性。由于各种各样的网页格 式,可能难以标识关于图像的文本。同样,关于图像的文本可能给出有助于分 类的非常少的信息。而且,这些技术在各零售商使用不完整的、有歧义的、及 不正确的描述时对于市场系统并不是特别有用。其他技术基于图像本身的内容 来对图像进行分类。这些技术被称为基于内容的图像检索("CBIR")系统。 CBIR系统试图基于诸如颜色、形状和纹理等特性来对图像进行分类。不幸的 是,CBIR系统的精度并不令人满意,因为难以从图像的低级特性中标识分类。
概述
提供了一种用于对目标图像的对象进行分类的系统。分类系统提供分类图
6像集合以及图像的主要对象的分类。分类系统试图基于目标图像与分类图像的 相似性来对目标图像的对象进行分类。为了对目标图像进行分类,分类系统标 识与目标图像最相似的分类图像。分类系统将目标图像和分类图像的显著点之 间的相似性作为相似性的基础。分类系统通过特征向量来表示每一个显著点并 且使用距离度量来确定特征向量之间的相似性。分类系统使用从特征向量的距 离度量中导出的相似性度量来确定目标图像和分类图像之间的相似性。分类系 统将与同目标图像最相似的分类图像相关联的分类选为对目标图像的对象的 分类。
提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一 些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨 在用于帮助确定所要求保护的主题的范围。
附图简述


图1是示出在一个实施例中的分类系统的组件的框图。
图2是示出在一个实施例中的特征向量/分类图像存储的逻辑表示的框图。
图3是示出在一个实施例中的分类系统的标识图像分类的在线组件的总 体处理的流程图。
图4是示出在一个实施例中的分类系统的在线组件的找出匹配图像组件 的处理的流程图。
图5是示出在一个实施例中的分类系统的在线组件的找出候选图像组件 的处理的流程图。
图6是示出在一个实施例中的分类系统的在线组件的计算相似性组件的 处理的流程图。
图7是示出在一个实施例中的分类系统的在线组件的选择分类组件的处 理的流程图。
详细描述
提供了一种用于自动对目标图像中的对象进行分类的系统。在一个实施例 中,分类系统提供图像集合以及图像的主要对象的分类。"对象"指的是能够
7在图像中描绘的任何东西(例如,汽车、膝上型计算机、狮子、独角兽等)且 尤其是物理对象。图像集合("分类图像")可以按各种方式来生成,诸如通
过提供图像的分类手动生成、或者通过从具有已知是准确的产品描述的图像中 导出分类来自动生成等。例如,图像集合可包括用于销售的电吉他的图片以及 吉他的分类、和山地自行车的图片以及自行车的分类。分类系统试图基于目标 图像与集合中的图像的相似性来对目标图像的对象进行分类。为了对目标图像 进行分类,分类系统标识集合中与目标图像最相似的图像。例如,目标图像可 包含经典吉他的图像。分类系统可以将集合中包含经典吉他和电吉他的图像标
识为最相似。分类系统然后将与集合中所标识的图像相关联的分类选为对目标 图像的对象的分类。例如,如果所标识的图像中的大多数都具有吉他分类,则 分类系统将为目标图像的对象选择吉他分类。以此方式,分类系统能够自动对 图像的对象进行分类而不必依赖于或者提取图像周围的相关文本的准确性或 者描述图像的文本本身的准确性。
在一个实施例中,分类系统包括离线组件和在线组件。离线组件预处理分 类图像以便于标识与目标图像相似的图像。离线组件标识分类图像的显著点并 生成分类图像的相似显著点与包含这些显著点的分类图像之间的映射。为了对 目标图像进行分类,在线组件标识目标图像的显著点、标识具有相似显著点的 分类图像、并且基于所标识的分类图像的分类来选择目标图像的分类。
离线组件通过首先标识分类图像的显著点来预处理分类图像。显著点指的 是可被自动检测为包含可用于将一个图像与另一个图像区分开来的内容的图 像区域。例如,吉他图像中的显著点可包括沿着其琴颈的各点(例如,音品和 调音弦轴)和琴身的各点(例如,琴马和护板)。如以下所描述的,许多公知 的技术都可用于标识这些显著点。离线组件生成特征向量来表示每一个显著点 的特征。特征向量因此是显著点的多维表示。例如,特征向量可包括基于显著 点的颜色或对比度的特征(或条目)。分类系统基于显著点的特征向量的相似 性来确定显著点之间的相似性。离线组件生成特征向量到包含相应显著点的分 类图像的映射。离线组件还可生成对相似的特征向量进行分组的索引。离线组 件可使用聚合技术来生成该索引。相似的特征向量的聚合帮助在线组件快速标 识分类图像中类似于目标图像的显著点的显著点。在线组件使用由离线组件生成的索引和映射来对目标图像的对象进行分 类。在线组件接收包括对象的目标图像、标识该目标图像的显著点、并为每一 个显著点生成一特征向量。在线组件然后使用索引和映射来标识候选分类图 像,例如,基于其特征向量的相似性包含类似于目标图像的显著点的一个或多 个显著点的分类图像。例如,在线组件可标识20个候选分类图像。当目标图
像的对象是电吉他时,则这20个候选分类图像可包括电吉他、经典吉他和网 球拍的图像。在线组件评估目标图像和候选分类图像之间的相似性来丢弃其相 似性低于阈值的那些候选分类图像。例如,在线组件可丢弃网球拍的图像,因 为电吉他的目标图像和网球拍的分类图像可能只具有少许相似的显著点。在线 组件然后可过滤掉其相似显著点不同于(例如,不一致)目标图像的相应显著 点排列的候选分类图像。例如,目标图像可具有对齐成一条线的若干显著点(例 如,横穿吉他颈部的音品的弦),而对比的分类图像可具有按网格排列的相应 的相似显著点(例如,网球拍的交叉绳)。在这种情况下,在线组件可由于不 一致的排列而忽略该候选分类图像。剩下的候选分类图像被认为是匹配的分类 图像,即,匹配的分类图像的对象被认为是匹配目标图像的对象的。在线组件 分析匹配的分类图像的分类并选择对目标图像的对象的分类。例如,如果大多 数匹配的分类图像都具有相同的分类,则在线组件就将该分类标识为对目标图 像的对象的分类。相反,如果每一个匹配的分类图像的分类都与大致相同数量 的匹配的分类图像相关联,则在线组件可报告它无法将目标图像的对象分类到 单个分类中。如果分类是分层的,则在线组件可进一步分析多个分类以确定其 是否表示相关分类(例如,祖先和子孙分类或兄弟分类)。例如,如果匹配的 分类图像的分类是在兄弟分类经典吉他和电吉他之间均分的,则在线组件可将 目标图像的对象分类为父分类吉他。同样,如果匹配的分类图像的分类是在父 分类吉他和子分类电吉他之间均分的,则在线组件可将目标图像的对象分类为 子分类电吉他。
图1是示出在一个实施例中的分类系统的组件的框图。分类系统100包括 离线组件110和在线组件120。离线组件包括分类图像存储111、提取特征向 量组件112、通过特征向量来索引分类组件113、以及特征向量/分类图像存储 114。分类图像存储包含分类图像的集合及其分类。提取特征向量组件标识分类图像的显著点并生成这些显著点的特征向量。离线组件可使用各种类型的检 测器来标识分类图像的显著点。这些检测器可包括高斯差分("DoG")区域 检测器、赫赛仿射(Hessian-affme)区域检测器、哈里斯仿射(Harris-affine) 区域检测器、极大稳定极值区域("MSER")检测器、基于强度的极值区域
("IBR")检测器、或者基于边缘的区域("EBR")检测器。分类系统可 以使用包括除了以上所列出的之外的任何类型或类型组合的检测器来实现。 在一个实施例中,离线组件(以及在线组件)标识显著点并使用比例不变
(scale-invariant)特征变换技术来提取其特征。比例不变特征变换("SIFT") 技术在Lowe, D.的"Distinctive Image Features from Scale-Invariant Keypoints(来 自比例不变的关键点的不同的图像特征)",International Journal of Computer Vision (计算机视觉国际期刊),第60巻,第2册,第91-110页,2004年中 描述,其通过引用结合于此。SIFT技术使用DoG区域检测器来标识显著点。 Lowe描述的SIFT技术将显著点标识为可在不管图像比例和图像的许多不同变 换(例如,不同的透视角度和距离)的情况下准确标识的图像位置。SIFT技 术使用级联过滤方法来标识候选显著点。SIFT技术通过搜索在所有可能的比 例上都稳定的特征来标识能够在相同对象的不同视图下重复定位的位置。SIFT 技术然后对于每一候选显著点的位置、比例和主曲率比执行对附近数据的详细 拟合。SIFT技术拒绝具有低对比度以及沿着边缘较差定位的候选显著点。SIFT 技术然后生成每一个显著点的本地图像描述符(即,"特征")。SIFT fe术 通过首先计算显著点周围区域中的每一图像样本的梯度大小和方向来生成方 向不变的特征。SIFT技术然后将这些样本累积成概括了 4X4区域上的内容的 方向直方图。每一个直方图都可具有表示不同方向的八根柱(bin),从而导致 特征由128 (4X4X8)个特征向量来表示。本领域的技术人员可以理解,可以 使用其他技术来标识图像的显著点和显著点的特征。
离线组件的通过特征向量来索引分类组件生成特征向量到其相应的分类 图像的映射以及对特征向量的索引。离线组件可使用各种类型的索引机制,诸 如基于树的机制(例如,R树、SS树和SR树)、基于散列的机制(例如,本 地敏感散列("LSH"))和基于扫描的方法(例如,VA文件和VA+文件) 等。在一个实施例中,离线组件使用如Fritzke, B.的"Growing Cell Structures—ASelf-Organizing Network for Unsupervised and Supervised Learning (神经元增长 结构一用于无监督和监督学习的自组织网络)",Neural Networks (神经网络), 7(9), 1994年,第1441-1460页中所描述的基于聚类的索引技术,其通过引用 结合于此。离线组件可根据以下公式来计算两个特征向量之间的距离(或两个 显著点之间的相似性)
其中J=U, ...A,…X,)和f(乃,…几…乃28)表示特征向量,而IU口
Pl表示特征向量I和7的L2范数。
在线组件接收目标图像,标识匹配的分类图像,并基于同该匹配的分类图 像相关联的分类来选择该目标图像的对象的分类。在线组件包括提取特征向量 组件121;找出匹配图像组件122,其包括找出候选图像组件123、排列候选图 像组件124和过滤候选图像组件125;以及选择分类组件126。提取特征向量 组件标识目标图像的显著点并生成显著点的特征向量,如以上参考离线组件的 提取特征向量组件112所描述的。找出匹配图像组件使用特征向量/分类图像存 储来标识匹配目标图像的分类图像。找出候选图像组件标识具有类似于目标图 像的显著点的显著点的候选分类图像。排列候选图像组件排列候选分类图像与 目标图像的相似性并丢弃其相似性低于阈值的候选分类图像。在一个实施例 中,排列候选图像组件可根据以下公式来表示候选分类图像和目标图像之间的 相似性
<formula>formula see original document page 11</formula>
其中/(X,…,X)表示目标图像的特征向量,/(K, ..., K)表示分类图像 的特征向量,而carH《,K)表示测量特征向量之间的对应性的度量。例如, 对应性在数值上可被计算为《.和K的反向L2距离(invertedL2 distance)。 在一个实施例中,排列候选图像组件使用二进制值1或0 (1为相似而0为不 相似)来标识相似的特征向量。排列候选图像组件可另选地丢弃除了固定数量 或固定百分比的候选分类图像之外的全部候选分类图像,或者丢弃并非几乎与其他数据分类候选图像一样相似的候选分类图像。过滤候选图像组件过滤掉其 显著点并非与目标图像的相应显著点相一致地排列的候选分类图像。在一个实
施例中,过滤候选图像组件使用随机抽样一致性(Random Sample Consensus) ("RANSAC")算法来过滤掉噪声,这可具有验证显著点的几何关系的效果。 过滤候选图像组件可基于该RANSAC分析来重新排列候选图像。选择分类组 件输入候选分类图像并基于最大数量的候选分类图像的分类来选择对目标图 像的对象的分类。然而,如果数量未超出特定阈值或百分比,则选择分类组件 可指示无法确定分类。或者,选择分类组件可以在选择对目标图像的对象的分 类时将候选分类图像的相似性计算在内。例如,如果存在100个候选分类图像, 且其中50个具有吉他分类而另50个具有电吉他分类,但是具有电吉他分类的 候选分类图像具有与目标图像高得多的相似性,则选择分类组件可以为目标图 像的对象选择电吉他分类。
图2是示出在一个实施例中的特征向量/分类图像存储的逻辑表示的框图。 特征向量/分类图像存储可包括聚类索引210和聚类表220。聚类索引包含对应 于分类图像的显著点(由其特征向量来表示)的每一个聚类的条目。每一个条 目可包含对于该聚类的代表性特征向量和指向相应的聚类表的指针。代表性特 征向量可以是聚类中的特征向量的平均值、聚类的中间特征向量、聚类的形心 特征向量等。每一聚类表都包含对应于该聚类中的每一个显著点的条目。聚类 表的每一条目都包含该显著点的特征向量以及对包含该显著点的分类图像的 引用。为了标识候选分类图像,在线组件将目标图像的显著点的特征向量与聚 类索引中的代表性特征向量进行比较。在线组件可选择与显著点的特征向量最 接近的代表性特征向量并且然后将相应的聚类表中具有与目标图像的显著点 最接近的显著点的分类图像选为候选分类图像。
其上可以实现分类系统的计算设备可以包括中央处理单元、存储器、输入 设备(例如,键盘和定点设备)、输出设备(例如,显示设备)和存储设备(例 如,盘驱动器)。存储器和存储设备是可包含实现分类系统的指令的计算机可 读介质。此外,指令、数据结构和消息结构可被存储或经由诸如通信链路上的 信号之类的数据传送介质发送。可以使用各种通信链路,如因特网、局域网、 广域网或点对点拨号连接。分类系统可以在各种操作环境中实现,包括个人计算机、服务器计算机、 手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子 产品、网络PC、小型计算机、大型计算机、包括上述系统或设备中的任一个 的分布式计算环境等。
分类系统可以在由一个或多个计算机或其他设备执行的诸如程序模块等 计算机可执行指令的通用上下文中描述。 一般而言,程序模块包括执行特定的
任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。 通常,程序模块的功能可以在各个实施例中按需进行组合或分布。例如,离线 组件和在线组件可以在不同的计算系统上实现。此外,在线组件可以在一个计 算系统上实现,而使用该在线组件的应用程序可以在另一计算系统上实现。应 用程序可包括搜索引擎服务、产品标识系统、图像分类系统、机器人系统等。
搜索引擎服务可使用该在线组件来协助对在爬行(crawling) web时遇到的图 像的自动分类。搜索引擎服务还可使用在线组件来对作为查询的一部分的图像 输入进行分类。产品标识系统可使用该在线组件来协助按照包括产品图像的产 品描述对产品进行分类。图像分类系统可使用该在线组件来对图像集合中的图 像进行分类。例如,对历史路标进行分类的图像分类系统可将图像分类到诸如 中国长城和华盛顿纪念碑等分类中。机器人系统可对图像进行分类以帮助标识
该系统遇到的对象。例如,机器人系统可能需要在所标识的对象周围导航、移 动所标识的对象、定位感兴趣的对象等。
图3是示出在一个实施例中的分类系统的标识图像分类的在线组件的总 体处理的流程图。向该组件传递对象的目标图像并且该组件基于该目标图像与 先前分类的图像的相似性来标识对该目标图像的对象的分类。在框301中,该 组件标识目标图像的显著点并生成每一个显著点的特征向量。在框302中,该 组件调用找出匹配图像组件来标识与目标图像最佳匹配的分类图像。在框303 中,该组件调用选择分类组件来基于匹配的分类图像的分类选择对目标图像的 分类。该组件然后返回所选分类作为对目标图像的对象的分类。
图4是示出在一个实施例中的分类系统的在线组件的找出匹配图像组件 的处理的流程图。向该组件传递目标图像的显著点的特征向量并且该组件基于 这些特征向量与分类图像的显著点的相似性来返回对该目标图像的对象的分类。在框401-403中,该组件循环标识具有类似于目标图像的显著点的显著点 的候选分类图像。在框401中,该组件选择目标图像的下一个显著点(由其特 征向量来表示)。在判定框402中,如果已经选择了目标图像的所有显著点, 则该组件在框404处继续,否则该组件在框403处继续。在框403中,该组件 调用找出候选图像组件来标识具有类似于目标图像的所选显著点的显著点的 分类图像。该组件然后循环至框401以选择目标图像的下一个显著点。在框 404-406中,该组件循环选择候选分类图像并计算候选分类图像与目标图像的 相似性。在框404中,该组件选择下一个候选分类图像。在判定框405中,如 果已选择了所有候选分类图像,则该组件在框407处继续,否则该组件在框406 处继续。在框406中,该组件调用计算相似性组件来计算所选候选分类图像与 目标图像之间的相似性。该组件随后循环至框404以选择下一候选分类图像。 在框407中,该组件忽略具有与目标图像的低相似性的候选分类图像。在框 408-411中,该组件循环过滤掉其显著点排列与目标图像的相应显著点的排列 不一致(例如,几何上)的候选分类图像。在框408中,该组件选择下一个候 选分类图像。在判定框409中,如果已经选择了所有候选分类图像,则该组件 返回还未被忽略的候选分类图像作为匹配的分类图像,否则该组件在框410处 继续。在框410中,该组件应用过滤(例如,RANSAC)来标识其显著点与目 标图像的相应显著点不一致地排列的候选分类图像。在框411中,该组件忽略 所标识的候选分类图像并且然后循环至框408以选择下一个候选分类图像。
图5是示出在一个实施例中的分类系统的在线组件的找出候选图像组件 的处理的流程图。向该组件传递目标图像的显著点并且该组件标识候选分类图 像。该组件返回候选分类图像及其类似于目标图像的显著点的显著点的指示。 对于目标图像的每一个显著点,该组件标识分类图像的显著点的最相似的聚 类。该组件然后标识该聚类中与目标图像的显著点最接近的显著点。该组件可 使用各种算法来标识最接近的显著点。该组件可使用N-N算法,其标识N个 最接近的显著点而不管包含最接近的显著点的分类图像。N-N算法由此可标识 单个分类图像的多个显著点。或者,该组件可使用N-1算法,其标识最接近的 显著点,但只从每一个分类图像中标识一个显著点。该组件还可使用模糊拒绝 (Ambiguity Rejection) ( "AR")算法,该算法在分类图像的显著点在该分类图像的另一显著点附近时拒绝该显著点为相似的。AR算法基于目标图像的 每一个显著点在候选分类图像中只具有一个相应的显著点的假设。在框
501-503中,该组件循环计算所传递的显著点与每一个聚类之间的距离。在框 501中,该组件选择下一个聚类。在判定框502中,如果已选择了所有聚类, 则该组件在框504处继续,否则该组件在框503处继续。在框503中,该组件 计算所传递的显著点到所选聚类的距离并且然后循环至框501以选择下一个聚 类。在框504中,该组件选择具有与所传递的显著点的最短距离的聚类。在框 505-509中,该组件循环标识所选聚类中在所传递的显著点附近的显著点。在 框505中,该组件选择聚类的下一个显著点。在判定框506中,如果已经选择 了该聚类的所有显著点,则该组件在框510处继续,否则该组件在框507处继 续。在框507中,该组件计算从所传递的显著点到所选显著点的距离。在判定 框508中,如果该距离低于一阈值,则该组件在框509处继续,否则该组件循 环至框505以选择所选聚类的下一个显著点。在框509中,该组件将聚类的所 选显著点标记为接近的显著点并且然后循环至框505以选择所选聚类的下一个 显著点。在框510-513中,该组件使用N-l算法来循环标记接近的显著点并且 将分类图像标记为候选分类图像。在框510中,该组件按距离次序选择下一个 接近的显著点。按距离次序的选择确保选择了每一个分类图像中最接近所传递 的显著点的显著点。在判定框511中,如果已经选择了所有接近的显著点,则 该组件返回被标记为候选分类图像的分类图像及其各自的标记的显著点,否则 该组件在框512处继续。在线组件使用所标记的显著点来确定目标图像与候选 分类图像之间的相似性。在判定框512中,如果所选的接近的显著点的分类图 像对应于先前被标记为候选图像的分类图像,则该组件循环至框510以选择下 一个接近的显著点,否则该组件在框513处继续。在框513处,该组件将所选 显著点及其分类图像标记为候选分类图像。该组件然后循环至框510以选择下 一个接近的显著点。
图6是示出在一个实施例中的分类系统的在线组件的计算相似性组件的 处理的流程图。向该组件传递目标图像和候选分类图像并计算这些图像之间的 相似性。在框601中,该组件将相似性初始化为0。在框602-607中,该组件 循环选择目标图像的显著点并基于候选分类图像的标记的显著点来累加相似性。即使在使用N-l算法时,候选分类图像也可具有多个标记的显著点。例如, 当候选分类图像与目标图像相同时,它可具有对应于目标图像的每一个显著点
的标记的显著点。在框602中,该组件选择目标图像的下一个显著点。在判定 框603中,如果已经选择了目标图像的所有显著点,则该组件返回所累加的相 似性,否则该组件在框604处继续。在框604中,该组件选择候选分类图像的 下一个标记的显著点。在判定框605中,如果己经选择了候选分类图像的所有 标记的显著点,则该组件循环至框602以选择目标图像的下一个显著点,否则 该组件在框606处继续。在框606中,该组件计算目标图像和候选分类图像的 所选显著点之间的相关。在框607中,该组件将对应性聚集成相似性分数并且 然后循环至框604以选择候选分类图像的下一个标记的显著点。
图7是示出在一个实施例中的分类系统的在线组件的选择分类图像组件 的处理的流程图。向该组件传递匹配的分类图像并且该组件或者选择对目标图 像的对象的分类(即,主分类)或者指示无法确定分类。在框701-704中,该 组件对于每一分类累加对匹配的候选图像的数量的计数。在框701中,该组件 选择下一个匹配的分类图像。在判定框702中,如果已选择了所有匹配的分类 图像,则该组件在框705处继续,否则该组件在框703处继续。在框703中, 该组件递增对所选匹配的分类图像的分类的计数。在框704中,该组件递增匹 配的分类图像的总计数并且然后循环至框701以选择下一个匹配的分类图像。 在框705中,该组件通过将每一分类的计数除以匹配的分类图像的总计数来将 各分类的计数转换成百分比。在判定框706中,如果最高百分比高于一阈值, 则该百分比的分类是对目标图像的候选分类并且该组件在框707处继续,否则 该组件返回无法确定对目标图像的对象的分类的指示。在判定框707中,如果 一分类的最高百分比与一分类的次高百分比之间的距离高于一阈值,则该组件 能够唯一地标识一分类并且返回具有该最高百分比的分类作为对目标图像的 对象的分类,否则该组件返回无法确定对目标图像的对象的分类的指示。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解, 所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体 特征和动作是作为实现权利要求的示例形式公开的。分类系统可通过使用不同 的组件,改变组件的处理次序等来实现。例如,可互换排列候选图像组件和过滤候选图像组件的排序。同样,离线组件的各组件可取决于计算系统的处理能力和分类问题的特性另选地在线实现。例如,特征向量/分类图像存储可以在线增量式更新以反映新的图像分类。同样,分类系统可使用学习算法来训练分类器以便基于目标对象的显著点来对目标对象进行分类。该分类可以将特征向量/分类图像存储的数据用作训练数据来训练该分类器。因此,本发明只由所附权利要求来限制。
权利要求
1. 一种在计算设备中用于对目标图像的对象进行分类的方法,所述方法包括提供分类图像以及对于每一个分类图像的相关联的分类(114),所述相关联的分类指示由所述分类图像表示的对象的分类;标识与所述目标图像最相似的分类图像(122);以及基于所标识的分类图像的分类来选择对所述目标图像的对象的分类(126)。
2. 如权利要求1所述的方法,其特征在于,包括 标识所述分类图像的显著点;以及生成从相似的显著点到包含这些显著点的分类图像的映射; 其中所述分类图像的标识使用所生成的映射来标识包含与所述目标图像 的显著点相似的显著点的分类图像。
3. 如权利要求2所述的方法,其特征在于,每一个显著点都使用高斯差分 技术来标识并且由特征向量来表示。
4. 如权利要求2所述的方法,其特征在于,所述映射使用聚合技术来生成。
5. 如权利要求4所述的方法,其特征在于,所述聚合技术基于神经元增长 结构算法。
6. 如权利要求1所述的方法,其特征在于,标识与所述目标图像最相似的 分类图像包括基于相似的显著点将分类图像标识为匹配图像;以及 基于所述目标图像和所述匹配图像的相似的显著点来计算所述目标图像 与所述匹配图像之间的相似性。
7. 如权利要求6所述的方法,其特征在于,所述相似性是根据以下公式来计算的<formula>formula see original document page 3</formula>
8. 如权利要求6所述的方法,其特征在于,包括当匹配图像的匹配显著点 之间的排列与所述目标图像的相应的相似显著点的排列不一致时过滤掉所述 匹配图像。
9. 如权利要求6所述的方法,其特征在于,所述过滤包括应用基于 RANSAC的算法。
10. 如权利要求1所述的方法,其特征在于,包括 标识所述分类图像的显著点;以及生成从相似的显著点到包含这些显著点的分类图像的映射; 其中所述分类图像的标识使用所生成的映射来标识包含与所述目标图像的显著点相似的显著点的分类图像,并且其中所述分类图像的标识基于相似显著点将所述分类图像标识为匹配图像,并且基于所述目标图像和所述匹配图像的相似显著点来计算所述目标图像与所述匹配图像之间的相似性。
11. 一种用于对目标图像的对象进行分类的计算机系统,包括 包含对象的分类图像和所述对象的分类的分类图像存储(111); 生成将所述分类图像的显著点的特征向量映射到所述分类图像的索引的组件(112、 113);生成所述目标图像的显著点的特征向量的组件(121); 基于所述目标图像和所述分类图像的显著点的特征向量之间的相似性来 从所生成的索引中标识匹配所述目标图像的分类图像的组件(122);以及 基于匹配的分类图像的分类来对所述目标图像的对象进行分类的组件 (126)。
12. 如权利要求11所述的计算机系统,其特征在于,所述生成索引的 组件包括标识所述分类图像的显著点并生成所述显著点的特征向量的组件以 及生成相似的特征向量的聚类的组件。
13. 如权利要求12所述的计算机系统,其特征在于,所述显著点使用高斯差分算法来标识。
14. 如权利要求12所述的计算机系统,其特征在于,所述聚类使用神 经元增长结构算法来标识。
15. 如权利要求11所述的计算机系统,其特征在于,所述标识匹配的 分类图像的组件包括丢弃其相似性不在阈值相似性之内的匹配图像的组件。
16. 如权利要求15所述的计算机系统,其特征在于,所述标识匹配的 分类图像的组件包括当匹配图像的匹配显著点之间的排列与所述目标图像的 相应显著点的排列不一致时过滤掉所述匹配图像的组件。
17. 如权利要求11所述的计算机系统,其特征在于,所述对目标图像 的对象进行分类的组件基于相似显著点的数量来选择匹配的分类图像的分类。
18. —种包含用于控制计算设备通过一种方法来对目标图像的对象进 行分类的指令的计算机可读介质,所述方法包括提供将分类图像的显著点的特征向量映射到所述分类图像及其分类的索引(114);生成所述目标图像的显著点的特征向量(121);基于所述目标图像和所述分类图像的显著点的特征向量之间的相似性来 从所提供的索引中标识匹配所述目标图像的分类图像(122);以及基于匹配的分类图像的分类来选择对所述目标图像的对象的分类(126)。
19. 如权利要求18所述的计算机可读介质,其特征在于,标识匹配的分类图像包括基于所述目标图像和所述匹配的分类图像的相似显著点来计算 所述目标图像与所述匹配的分类图像之间的相似性。
20. 如权利要求19所述的计算机可读介质,其特征在于,选择分类包 括选择所述匹配的分类图像的主分类。
全文摘要
提供了一种用于自动对目标图像的对象进行分类的系统。分类系统提供分类图像集合以及图像的主要对象的分类。分类系统试图基于目标图像与分类图像的相似性来对目标图像的对象进行分类。为了对目标图像进行分类,分类系统基于目标图像与分类图像的显著点之间的相似性来标识集合中与目标图像最相似的分类图像。分类系统将与同目标图像最相似的分类图像相关联的分类选为对目标图像的对象的分类。
文档编号G06F17/30GK101506843SQ200780030380
公开日2009年8月12日 申请日期2007年6月28日 优先权日2006年8月14日
发明者H·李, M·贾, W-Y·马, X·谢, Z·陈 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1