检测和跟踪图像中的物体的制作方法

文档序号:6566787阅读:194来源:国知局
专利名称:检测和跟踪图像中的物体的制作方法
技术领域
本发明涉及图像处理,更具体地涉及检测图像中的物体。
背景技术
对图像中的物体进行的检测和识别通常涉及图像滤波和图形识别技术。 检测和识别包含成百上千或者成千上百的像素的图像中的物体需要很强的 处理能力,并且可能很费时间。因此,在处理图像以检测和识别图像中的物 体之前减少图像的维数会有帮助。 一种已知的减少数据维数的技术是主成分
分析法(PCA)。 PCA记载在例如Joliffe I.T., Principal Componnet Analysis, Springer-Verlag, New York ( 1986 )中。
PCA利用数据组的协方差矩阵的特征值和特征向量作为数据组的可求 值(valueable)特征的代表。
已有很多种方法和机制使得人类能够与计算机交互。计算机图像技术可 以允许计算机检测由照相机捕捉到的图像中的物体。能够检测和识别图像中 的物体的计算机为用户提供了通过用户的手势与计算机交互的能力。
计算机-用户界面可以显示在表面或屏幕上。 一个或多个照相机可以监 视该表面或屏幕附近的活动并且捕捉屏幕附近的活动的图像。计算机然后可 以处理这些图像,检测图像中的一个或者多个物体,并发觉用户正在使用手 势与显示在表面或屏幕上的计算机-用户界面交互。
一些系统试图发觉用户在使用手势与显示在表面或屏幕上的计算机-用 户界面交互。这些系统中的一些仅发觉图像中亮度最大的物体,并将该物体 作为手或手指。因此,即使在所述物体既非手也非手指的情况下,这些系统 可能将该物体认作手或手指。

发明内容
为了更为准确地标识图像中的手或手指,从而提高人机交互的能力和效 率,若干公开的系统(1)识别触摸表面或屏幕或在表面或屏幕附近移动的作为手或手指的物体,并(2)排除未被识别为手或手指的物体。
本发明提供了用于检测和识别触摸表面或屏幕或在表面或屏幕附近移 动的手指的方法和装置。图像被处理以检测手指的出现并跟踪检测到的手指 的位置。手指的位置可被计算机用于例如控制计算机鼠标指示器。所提供的 方法可允许以比使用传统的鼠标及/或键盘更自然的方式进行人机交互。
在一种实现方式中,创建沿一个或多个取向定位的一个或多个手指的模 型。具体而言,利用照相机捕捉一个或多个手指的一组训练图像。应用PCA 技术,创建该组训练图像的模型。确定该组训练图像的协方差矩阵并选择该 协方差矩阵的 一定数量的特征向量来定义所述一组训练图像的特征空间。所 述一组训练图像中的每个图像被投影到由选定的协方差矩阵的特征向量定 义的特征空间中。在特征空间中,每个训练图像由单个训练点表示。因此, 将每个训练图像投影到特征空间中可以在特征空间中生成训练点云团。然后 在特征空间中用几何模型(例如表面或线)对训练点云团建模。
然后利用模型来检测、识别和跟踪图像中的手指。在一种系统中,在表
面或屏幕的后方设置照相机和红外(IR)照明器。触摸表面或屏幕或在表面 或屏幕附近移动的手指反射IR照明器投射的部分IR辐射。部分被反射的IR 辐射被照相机捕捉在图像中。然后对该图像进行如下所述的处理,以检测和 识别图像中手指的存在与否及其位置。
所述处理包括从图像中抽取可能是手指的一个或多个物体。每个抽取的 物体被投影到为所述一组训练图像所定义的特征空间中。在特征空间中,所 抽取物体的投影由单个图像点表示。将单个图像点的坐标与训练点云团的模 型比较,以确定该单个图像点是否匹配或接近匹配所述模型。如果单个图像 点匹配或接近匹配模型,则确定该物体是手指。如果确定该物体是手指,则 计算手指相对于屏幕或表面的位置(例如(x,y)坐标)并将其输入例如计算 机和/或软件应用程序。
根据一个概括的方面,确定相应于多维空间中图像点的坐标,该图像点 表征一特定物体。提供描述多维空间中的模型的方程式,该模型表现一个或 多个其它物体的一组训练图像的特征。将所述坐标代入所述方程式以确定图 像点与模型之间的距离,并且基于所确定的距离,确定所述特定物体是否匹 配所述一个或多个其它物体。
上述概括的方面的实现方式可以包括一个或多个其它特征。例如,可以
6接收特定物体的图像。该图像可以具有若干数据元素,而所述多维空间的维 数可以d、于该数据元素的数量。确定图像点坐标的步骤可以包括将图像投影 到所述多维空间以产生相应于多维空间中的图像点的坐标。
所述模型可以是多维空间中一组训练点的模型,所述组中的每个训练点 对应于所述一 系列训练图像中的 一个或多个图像。
所述特定物体的图像可以在被接收之前被归一化。归一化特定物体的图 像的步骤可以解决亮度变化的问题。归 一化物体的图像的步骤可以包括对特 定物体的图像应用直方图均衡化技术。
所述方程式可以描述双曲面、圆锥、线或圆锥和线的组合。特定物体可 以包括从由手指、笔和基本上柱形的物体构成的组中选出的 一个物体。
提供所述方程式的步骤可以包括从第 一方程式和第二方程式中选择所 述方程式,所述第一方程式描述表现第一组训练图像的特征的第一模型,第 二方程式描述表现第二组训练图像的特征的第二模型。
根据另一个概括的方面,接收特定物体的图像,该图像具有若干数据点。 将该图像投影到维数小于所述数据点数量的多维空间中,以产生相应于所述 多维空间中的图像点的坐标,其中图像点表征所述特定物体。提供描述多维 空间中的一模型的方程式,该模型是多维空间中一组训练点的模型,并且所 述组中的每个训练点对应于一个或多个其它物体的 一组训练图像中的 一个 或多个图像。将所述坐标代入所述方程式以确定图像点与模型之间的距离, 并基于所确定的距离,确定所述特定物体是否匹配所述其它物体。
上述概括方面的实现方式可以包括以下的一个或多个特征。例如,提供 所述方程式的步骤可以包括从第一方程式和第二方程式中选择所述方程式, 所述第 一方程式描述表现第 一组训练图像的特征的第 一模型,第二方程式描 述表现第二组训练图像的特征的第二模型。
根据另 一个概括的方面, 一种系统包括照相机和耦接至照相机的处理装 置。该处理装置构造成确定相应于多维空间中图像点的坐标,所述图像点表 征特定物体。所述处理装置还构造成提供描述所述多维空间中的一模型的方 程式,所述模型表现一个或多个其它物体的一组训练图像的特征。所述处理 装置还构造成将所述坐标代入所述方程式以确定图像点与模型之间的距离, 并基于所确定的距离,确定所述特定物体是否匹配所述一个或多个其它物 体。上述概括的方面的实现方式可以包括以下的一个或多个特征。例如,所
述照相机可以是IR照相机。所述系统可以包括IR源。该系统可以包括设置 在照相机前方的屏幕。该屏幕可以至少是半透明的,使得位于与照相机相反 的屏幕的一侧的物体所反射的光能够透过屏幕并被照相机所接收。
根据另一个概括的方面,提供了一种工具,用于确定相应于多维空间中 特定图像点的坐标,所述特定图像点表征一特定物体。所述工具还提供描述 多维空间中的一模型的方程式,该模型表现一个或多个其它物体的一组训练 图像的特征。所述工具还用于将所述坐标代入所述方程式以确定所述特定图 像点与模型之间的距离,并基于所确定的距离,确定特定物体是否匹配所述 一个或多个其它物体。
上述概括的方面的实现方式可以包括以下的一个或多个特征。例如,所 述一组训练图像可以被接收,所述组中的每个图像具有若干数据元素。所述 多维空间可以基于所述一组训练图像来确定,并且所述多维空间的维数可以 小于所述数据元素的数量。通过将所述一组训练图像中的每个图像投影到所 述多维空间中可以生成一组训练点,从而产生相应于多维空间中的对应训练 点的坐标。所述一组训练点中的每个训练点可以对应于所述一组训练图像中 的至少一个图像。可以确定描述多维空间中表现所述一组训练图像的特征的 模型的方程式。
所述一组训练图像中的每个图像可以在被接收之前被归一化。归一化所 述一组训练图像中的每个图像可以解决亮度变化的问题。归一化所述一组训 练图像中的每个图像的步骤可以包括对所述一组训练图像中的每个图像应 用直方图均衡化技术。
各个方面、实现方式和特征可以利用例如方法、装置、用于执行方法、 程序或其它指令集的装置或工具或处理装置、包括程序或指令集的装置、以 及计算机可读介质中的一个或多个来实现。计算机可读介质可以包括例如指 令、软件、图像和其它数据。
附图和以下描述中详细说明了 一个或多个实现方式。其它特征将从说明 书和附图,以及从权利要求中显见。


本专利或申请文件包含至少一幅彩色图片。在提出请求并交纳必要的费
8用的情况下,官方将提供带有彩色图片的本专利或申请公报的副本。 图1是用于识别和跟踪手指的一个系统的图解。 图2(a)为一示样图像,示出图像的两个物体。
图2 (b)为示样阴影矩阵,显示了从图2 (a)的图像中抽取的两个物体。
图3示出了确定从图像中抽取的物体是否太大而不会是感兴趣的物体的 示图。
图4( a )是示出用于训练手指识别和跟踪系统的第一处理的处理流程图。 图4 (b)是示出用于执行图4 (a)中操作410的处理的处理流程图。 图5是手指的示样图像。
图6是三维特征空间(eigenspace)中的训练点云团的图示。 图7 U)是手指的另一个示样图像。
图7 (b)是与图7 (a)中的手指相同但方向不同的手指的示样图像。 图8 (a)是手指的另一个示样图像。
图8 (b)是与图8 (a)中的手指相同但方向不同的手指的示样图像。 图9 (a)是三维特征空间中的训练点云团的图示。
图9 (b)是图9 (a)的三维特征空间中图8 (a)和8 (b)所示的示样 图像的投影的图示。
图10 (a)是图9 (a)的训练点云团和对应于图像点云团的三维模型的 图示。
图10 (b)是图10 (a)的彩色版。
图11 (a)是对应于图9 (a)的训练点云团的截头模型的图示。
图11 (b)是图11 (a)的截头模型和对应于该模型的训练点云团的图示。
图11 (c)是图11 (b)的彩色版。
图12是使用利用图4 (a)所示处理训练的系统识别图像中的手指的处
理的处理流7艮图。
图13是示出用于训练手指识别和跟踪系统的第二处理的处理流程图。 图14是三维特征空间中的另 一训练点云团的图示。 图15是形成圆锥形状的图14所示训练点云团的第一子组的图示。 图16是形成线形形状的图14所示训练点云团的第二子组的图示。图17(a)是图15所示训练点的第一子组以及对应于训练点的第一子组 的垂直圓锥模型的图示。
图17(b)是图15所示训练点的第一子组以及对应于训练点的第一子组 的截头垂直圓锥模型的图示。
图17 (c)是图17 (a)的彩色版。
图17 (d)是图17 (b)的彩色版。
图18(a)是图16所示训练点的第二子组以及对应于训练点的第二子组 的线形模型的图示。
图18 (b)是图18 (a)的彩色版。
图19是图示使用通过图13所示处理训练的系统来识别图像中的手指的 处理的处理流程图。
图20是图示识别图像中的物体的另 一处理的处理流程图。
具体实施例方式
本发明公开了用于检测和识别触摸表面或者在表面附近移动的手指的 系统和方法。这些系统和方法还可以用来检测和识别触摸表面或者在表面附 近移动的其他物体。此外,这些系统和方法还可以用来在没有表面的情况下, 检测和识别视场中的物体。更广泛地说,这些系统和方法可以用来检测和识 别图像中的物体。
图1是用于识别和跟踪一个或者多个手指的示例性系统100的图示。设 置在表面104后方的红外(IR)照明器102照亮延伸于表面104的后方和前 方的区域106。装备有红外滤波器110的照相机108设置在表面104的后方 并捕捉例如表面104及其附近的图像。照相机108所捕捉的图像可以通过数 据元素(例如,像素)以数码方式显示。设置在表面104后方的投影器112 可以将计算机-用户界面投射在表面104上。投射在表面104上的计算机-用户界面可以是传统的计算机显示。投影器112除了可见光之外还可以投射 IR光。因此,投影器112可以装备有可选的IR滤波器120以减少或消除投 影器112所投射的IR光。
所公开的技术和装置可以允许用户利用手势与计算机_用户界面交互。 例如,可以对用户手指114的位置进行跟踪,允许用户通过用其手指114 触摸表面104或者通过将其手指114在表面104附近移动来控制鼠标指示器在计算机-用户界面上的位置。用户手指114的位置可以用来例如表示鼠标
指示器的希望位置。在一些实现方式中,为了准确确定用户手指114的位置, 希望区分用户的手指114与用户的手掌118。
图1所示系统100仅仅是一种实现方式的示例,其他的构造也是可能的。 照相机108所捕捉的图像是通过捕捉物体所反射的光而产生的。光可以包括 IR光、可见光、紫外光或任何其他形式的电磁辐射。因此,可以不需要IR 照明器102。其他光源可以用来替代IR照明器。在一种替代的实现方式中, 可以不需要光源。作为替代,系统IOO可以仅仅依靠所反射的周围的光。此 外,照相机108不需要设置在表面104的后面。例如,照相机108可以设置 在系统100中的认为有利的其他任何位置。另外,系统100不需要被实现为 有利于人机交互。作为替代,在某一实现方式中,系统100可以用来检测照 相机108所捕捉的图像中的物体。在这种实现方式中,可以不需要表面104。
总的来说,在检测和识别图像中作为手指的物体的过程中会涉及很多处 理操作。例如,系统100首先经过训练,以识别作为手指的物体。该训练阶 段可以涉及捕捉以 一个或多个取向定位的 一个或多个手指的一组训练图像, 以及建立该组训练图像的模型。在识别阶段,系统100可以捕捉图像,从捕 捉的图像中抽取物体,并将所抽取的物体与在训练阶段生成的 一组训练图像 的模型比较,从而确定所抽取的物体是否是手指。以下将更加详细地描述在 检测和识别图像中的作为手指的物体的过程中可能涉及的处理。
图像中感兴趣的区域(ROI) 116可以定义为包括表面104的图像的一 部分。可以对图像的ROI 116进行检查以检测和识别一个或多个手指114。 照相机108捕捉的图像可以包括由IR照明器102产生并被R01 116中的一 个或多个手指反射的IR映像,或者所述IR可被ROI 116中的一个或多个其 他物体反射。例如,表面104可以反射IR。
为了说明表面104或ROI 116中的其他物体始终反射的IR,可以创建表 面104或R01116中的其他物体始终反射的IR的背景模型(BGM),并从照 相机108捕捉的每一图像中减去该背景模型。从照相机108捕捉的每一图像 中减去BGM可以有效排除或至少减少从所捕捉的图像中处理得到的由于背 景物体造成的IR。因此,从每一图像中减去BGM可以提高ROI 116中感兴 趣的物体与表面104及/或ROI 116中一直存在的其他物体之间的对比度。
BGM的创建可以通过捕捉若干没有出现感兴趣物体的ROI 116的图像,
ii然后逐像素地对捕捉的图像进行平均化,从而建立新的平均的图像或BGM。 这样,可以从照相机108捕捉的每一图像中减去BGM。该处理可以通过以 下方程式来描述
、否则 (1)
其中,I是图像,B是BGM, s是可调节阈值(例如,可调节常数),J 是得到的图像。BGM可以例如随机地、周期地或根据触发事件的发生而更 新。
参照图2 (a)、 2 (b)和3,其中示出用于检测图像中是否存在物体和 初始确定该物体是否是感兴趣的物体的处理的示例。
具体而言,图2 (a)示出示样图像200 (a)中的两个物体202 (a)、 204 (a)。如图2 (a)所示,物体202 ( a )和204 U )被示为比背景206 (a) 更暗。但是,在由两个物体202 (a)、 204 (a)反射的光形成的图像200 (a) 中,两个物体202 (a)、 204 (a)有可能比背景206 (a)更亮。因此,可以 理解,图2 (a)中的图像200 (a)仅仅是图像200 (a)中的两个物体202 (a)、 204 (a)的示例,图像200 (a)并不意图表示图像中的物体会比图像 的背景更暗。
为了从图像200 (a)中抽取物体202 (a)、 204 (a),可以采用斑点分 才斤(blob-analysis )算;去,1"列长口 Grassfire算;去。在侈'B口文南史Pitas I., Digital Image Processing Algorithms, Prentice-Hall, New York ( 1993 )中描述了 Grassfire算 法。也可以使用用于检测图像中是否存在物体并从图像中抽取该物体的其他 算法。
Grassfire算法可以在图像中搜索物体并用共同的标记表示其所检测到的 每一物体中的每一像素。具体而言,在物体比背景更亮的、通过物体反射光 形成的图像中,Grassfire算法可以确定图像中最亮的像素。例如,图像可以 是灰度图像,每个像素具有256个可能的值。也就是说,每个像素可以被分 配0- 255中的一个值,其中零表示可能的亮度最小的像素(例如,完全黑 的),而255表示可能的最亮的像素(例如,完全白的)。图像中的最亮的像 素可以具有值220。 Grassfire算法可以将图像中的每个像素与相对于图像中 最亮像素的可调阔值常数比较,从而确定该像素是否对应于物体。例如,可 调阈值可以为50。因此,Grassfire算法可以将图像中比最亮像素暗50级以内的所有像素视为表示一个物体。也就是说,具有可接受范围170-220内 的值的所有像素可以视为表示一个物体。这样,Grassfire算法可以将落入所 述可接受范围内的任何一组相邻像素视为构成一个物体。
Grassfire算法可以产生被称为阴影矩阵的矩阵,其大小与原始图像相同。 阴影矩阵中对应于被标识为表示原始图像中的一个物体的像素的元素可以 用共同的标记标识。图2 (b)示出对应于图2(a)中所示示样图像200 (a) 的阴影矩阵200 (b)。示样图像200 U)中的物体202 (a)用阴影矩阵200 (b)中的物体202 (b)表示,物体202 (b)的每个元素用共同的标记"l" 标识。类似地,示样图像200 (a)中的物体204 (a)用阴影矩阵200 (b) 中的物体204 (b)表示,并且物体204 (b)的每个元素用共同的标记"2"标 识。如图2 (b)所示,Grassfire算法可以有效地从示样图像200 (a)中抽 耳又物体202 ( a)和204 ( a )。
再次参照图1,理想情况下,如果手指114触摸表面104或在表面104 附近移动,则手指114会在图像中产生最亮物体。然而,触摸表面104或在 表面104附近移动的手指114并不总是产生图像中最亮的物体。例如,当用 户用其手指114触摸表面104时,用户的手掌118可能反射足够多的IR辐 射,从而在图像中表现为一个亮的物体。例如长袖之类的其他物体也会反射 足够多的IR辐射从而在图像中表现为亮的物体。 一些物体会比用户的手指 114反射更多的IR辐射,从而在图像中表现为比用户手指114更亮的物体。
因此,在一种实现方式中,可从图像中抽取到图像中的若干物体,并非 仅仅是最亮物体。但是,处理图像中的很多物体以进行识别会需要很强的处 理能力,并且会很费时。因此,会采取一些技术来减少所抽取的用于识别的 物体的数量。所抽取的物体可能表现出一些特征,表示它不可能是手指并因 此可以被放弃。用于挑选所抽取的物体的一种标准是尺寸。例如,所抽取的 物体可能太大而不会是手指。类似地,所抽取的物体可能太小而不会是手指。
图3是示图301,示出用于确定从图像中抽取的物体300是否太大而不 会是手指的处理的一个示例。可以在所抽取物体300中心302周围的四个采 样区304、 306、 308、 310中釆样一个或多个像素。所抽取物体300的中心 302与采样区304、 306、 308、 310之间的距离可以是例如可调常数。如图3 所示,所抽取物体300的中心302周围的两个采样区304、 308可以位于经 过所抽耳又物体300的中心302的垂直线312上。类似地,所抽取物体300的
13中心302周围的两个采样区306、 310可以位于经过所抽耳又物体的中心302 的水平线上。
由于手指114的图像有时会包括一尾部(例如参见图5),采样区304、 306、 308、 310可以成对考虑。例如,位于经过所抽耳又物体300的中心302 的水平线上的两个采样区306、 310可以作为第一对进行考虑。类似地,位 于经过所抽取物体300的中心的垂直线312上的两个釆样区304、 308可以 作为第二对进行考虑。
如果第一对采样区306、 310中的像素值总和超出可接受阈值水平,则 可以确定采样区306、 310是所抽取物体300的一部分。如果第一对采样区 306、 310中的像素值总和超出可接受阈值水平,则可以将第二对采样区304、 308中的像素值总和与可接受阈值水平比较。
如果第二对采样区304、 308中的像素值总和超出可接受阈值水平,可 以确定釆样区304、308是所抽取物体300的一部分。如果第一对采样区306、 310中的像素值总和超出可接受阈值水平并且第二对采样区304、308中的像 素值总和超出可接受阁值水平,则可以确定所述物体太大而不会是手指,从 而可以i文弃该物体。
类似地,从图像中抽取的物体可能太小而不会是手指。可以对表示每个 被抽取物体的像素的数量计数。如果表示一个物体的像素数量小于阈值常 数,则该物体可以确定为噪声或其他一些物体,从而可以放弃该物体。
识别图像中作为手指的物体可能涉及训练阶段和识别阶段。在训练阶 段,可以通过使系统100接触一大组要识别的物体的训练图像,以训练系统 100识别物体。所述一组训练图像可以包括各种不同取向的被识别物体的图 像。在识别阶段,系统100可以检测图像中的物体,并将该物体与所述一组 训练图像比较,或与所述一组训练图像的模型比较,从而确定该物体是否是 所要识别的物体。
在一种实现方式中,在训练阶段,捕捉各种不同取向的一个或多个手指 的大量图像。确定所述一组训练图像的协方差矩阵,并使用协方差矩阵的选 定的一组特征向量来定义特征空间。可以选择任意数量的特征向量来定义特 征空间。特征空间的维数由被选来定义特征空间的特征向量的数量决定。例 如,三维特征空间通过选择三个特征向量来定义,所述三个特征向量例如为 对应于三个最大特征值的特征向量。来自所述一组训练图像的每个训练图像被投影到三维特征空间中,在该特征空间中生成三维点的集合。特征空间中 三维点的集合利用能够用多项式解析表达的三维集合模型(例如,二次表面
或线)来建模。例如,所述一组训练图像的投影可以形成双曲面形或圆锥形 表面。另外或者作为替代,所述一组训练图像的投影可以在特征空间中形成 线形几何形式。在三维空间中,双曲面、圓锥和线可以用多项式解析表达。 因此,几何形式(也称为几何模型)可以用来在特征空间中对这样的一组训 练图像进行建模。
在该实现方式的识别阶段,从图像中抽取的物体被投影到训练阶段定义 的特征空间中。特征空间中标识对应于被投影图像的三维点的三坐标被代入 在特征空间中定义所述一组训练图像的模型的多项式中,从而确定特征空间 中被投影图像与模型之间的距离。如果被投影物体位于例如所述模型的界定 距离之内,则被投影物体可以确定为手指。
现参照图5 _ 20更详细地描述训练和识别阶段的实现方式。 图4 (a)是一处理流程图,示出了用于训练系统100识别图像中作为手 指的物体的示例性处理400。处理400从创建被表面104或ROI 116中的其 他物体始终反射的IR的BGM (操作402 )开始。然后通过照相机108捕捉 各种不同取向的手指114的大量输入图像(操作404)。然后,从每个输入图 像减去BGM (操作406 )。然后,每个图像的表示手指114的部分被从图像 中抽取出来,并转换成标准的nxn图像尺寸(操作408 )。每个图像中表示 手指114的部分可以利用斑点分析算法,如Grassfire算法来抽取,或者每个 图像中表示手指114的部分可以根据图像的视觉表现手动抽取。所抽取的图 像中表示手指的部分可以包括大量像素。为了降低处理图像中表示手指的该 部分所需的计算能力,可能希望减少用来表示手指的像素的数量。因此,所 抽取的图像中表示手指的部分的分辨率可以降低。例如,原始图像中表示手 指的部分可以是64x64像素的。在图像中表示手指的该64x64的部分从图像 中被抽取之后,所抽取的手指的分辨率可以降低至该手指用16x16的图像表 示。
图5示出手指502的示例性的nxn图像500。
然后定义一组nxn训练图像的特征空间(操作410 )。图4 ( b )中更详 细地示出了操作410。首先,确定所述一组训练图像的协方差矩阵C (操作 410(a))。如果整形之后的nxn图像I(,)用向量V(m)表示,其中m-n2,则所述一组t个训练图像",12,...,It}的协方差矩阵C可以定义为 C=GTG ( 2 )
其中G是具有元素Gu= ( Vi,j卞i)的txm的矩阵,其中Vj,j是向量V,的 第j个元素,Vi是所述训练组的整形之后的图像Ii的向量,m是向量Vi的中 值。因此,协方差矩阵C是mxm矩阵。然后,可以确定协方差矩阵的特征 值和特征向量(操作410 (b))。协方差矩阵的特征值和特征向量可以通过解 以下方程而获得
A = OrCC) ( 3 )
其中A是协方差矩阵C的一组特征值,O是协方差矩阵C的一组特征向 量。美国专利No.5710833中描述这种处理。mxm的协方差矩阵可以具有m 个特征值和m个特征向量,每个特征向量对应于一个特征值。因此,用于一 组16x16的训练图像的256x256的协方差矩阵会具有256个特征值和256个 对应的特征向量。另外,每个特征向量会是长度256的列向量。
协方差矩阵C的所有特征向量彼此垂直。因此,通过选择协方差矩阵C 的一组特征向量并利用每个所选择的特征向量定义空间中的一个方向(即, 维度),可以定义一组训练图像的特征空间(操作410(c))。对应于协方差 矩阵C的最大特征值的特征向量指示所述一组图像表现出最大变化的方向。 因此,所述一组训练图像中包含的数据的大部分可以通过选择协方差矩阵C 的对应于若干最大特征向量的一组特征向量来表征。在一种实现方式中,协 方差矩阵C的对应于三个最大特征值的特征向量被选择用于定义三维特征 空间。
在定义了特征空间之后,将来自所述一组训练图像的每个训练图像投影 到特征空间中(操作410(d))。每个nxn的图像I(^,被转换成向量V(m,, 其中m-n2。例如,如果图像I,nxn)是16x16的图像,则向量V(m,是长度为 256 (m = n2= 16x16 = 256)的行向量。特征空间可由一个mxq的矩阵来定 义,其中,q是被选择用来定义特征空间的特征向量的数量,矩阵的q列中 的每一个表示被选来定义特征空间的特征向量中的一个。然后向量V(w可 以乘以定义特征空间的mxq矩阵,得到一个lxq的矩阵或行向量,其中该 行向量的每个元素标识特征空间中的一个对应坐标。例如,16x16的图j象I U6M6)可以用256X1的列向量V,256x"表示。如果所述一组训练图像的特征 空间用三个特征向量定义,则图像向量V(256x,)的转置可以乘以定义特征空间的256x3的矩阵,以得到定义被投影图像在所述三维特征空间中的三坐标 的1x3的行向量。
这样,图像在特征空间中的投影可以有效减少图像的维数。图像在特征 空间中的投影是有着与特征空间的维数相同多的坐标的单个点。例如,图像 在三维特征空间中的投影是一个三维点(即,该点由三个坐标定义)。因此,
当nxn的图像投影到三维特征空间中时,图像从由n2个像素定义转变为由三 个坐标标识的单个点。
图6示出用于各种取向的一个或多个手指的所述一组训练图像的三维特 征空间600的示例。所述一组训练图像中的每一图像的投影用特征空间600 中的一个三维点表示。因此,如图6所示,将所述一组训练图像投影到特征 空间600中可以在特4正空间600中生成训练点云团602。该片训练点602可 以表现出可识别的几何形状。例如,图6中的训练点云团602表现出双曲面 形或圓锥形形状。
所述训练点云团602的形状可以是手指的特定特征的函数。 当手指114垂至于表面104时,手指114可以在照相机108捕捉的图像 中表现为基本上圆形的物体。即使用户旋转他/她的手,手指114可以在照相 机108捕捉的图像中继续表现为基本上圓形的物体,只要手指114保持垂至 于表面104。换句话说,如果手指114保持垂至于表面104,则即使手发生 旋转,手指114在照相机108捕捉的一系列图像中的形状也可仅有略微变化。 无论相对于照相机108手指114指在表面104上的什么位置上,都可以保持 仅有略微变化。
然而,如果用户的手指114不垂至于表面104,手指114在照相机108 捕捉的图像中会表现为带有尾部的亮点。尾部可以是被手指114的主体反射 的IR。因此,如果手发生旋转,则尾部的角度旋转。
图7 (a)和7 (b)是说明性的。图7 (a)是带有尾部702 (a)的手指 114的nxn图像700 ( a )。在图7 (a)中,尾部702 (a)朝向图像700 (a) 的左上角。图7 (b)是带有尾部702 (b)的同一手指114的n^n图像。在 图7 (b)中,尾部702 (b)朝向图像700 (b)的右上角。尾部702 (a)、 702 (b)的不同取向可以解释为在两个图像700 (a)、 700 (b)中手指114 相对于照相机108的方向不同。图像700 (a)中的手指114和图像700 (b) 中的手指114与表面104形成相同的非垂直角度。但是,图像700 (b)中的
17手指相对于图像700 ( a)中的手指114的位置发生了旋转,使得图像700 ( a ) 中的手指114和图像700(b)中的手指114相对于垂直于表面104的表面(未 示出)具有形成不同角度。
由于两个图像700 (a)、 700 (b)不同的事实,它们可由特征空间600 中的训练点云团602中的不同点来表示。但是,因为将图像投影到特征空间 600的处理是线性处理,所以带有长度基本上相同但旋转角度不同的尾部的 捕捉手指114的一组图像的投影可以在特征空间600中得到排列成基本上圆 形图形(未示出)的一组点。因此,尽管两个图像700 (a)、 700 (b)在特 征空间600中的训练点云团602中会以不同的点表示,^f旦是它们在特征空间 中会沿基本上圆形的图形排列。
图像中手指的尾部的长度也会影响图像在特征空间600中的投影位置。 如以上就图7 (a)和7 (b)所示,尾部长度基本上相同但旋转角度不同的 手指的图像的投影在特征空间600中会排列成基本上圓形的图形。相比于尾 部同样长但旋转角度不同的手指114的一组图像的投影,尾部同样短但旋转 角度不同的手指114的一组图像的投影可以排列成具有相对较小半径的基本 上圆形的图形。
图6、 8 (a)、 8 (b)、 9 (a)和9 (b)是说明性的。图6中形成训练点 云团602的顶点604的训练点可以与其中手指114表现为尾部很小或没有的 基本上圆形形状的训练图像相关联。相反,图6中形成训练点云团602的基 部606的训练点可以与其中手指114跟有一较长尾部的训练图像相关联。
图8 (a)示出手指114的训练图像800 (a),其具有由于手指114与表 面104之间的相对较小的角度引起的相对较长的尾部802 (a)。图8 (b)示 出手指114的训练图像800 (b),其具有由于手指114与表面104之间的较 大的角度而引起的相对较短的尾部802 (b)。
图9 (a)和9 (b)示出两个图像800 (a)、 800 (b)在三维特征空间 600中的投影800 (a) ,、 800 (b),。如图9 (a)所示,具有较长尾部802 (a)的手指114的图像800 (a)投影到所述训练点云团602的基部附近的 点800 (a),,因为其具有相对较长的尾部802 ( a)。相反,具有较短尾部 802 (b)的手指114的图像800 (b)被投影到所述训练点云团602的顶点 604附近的点800 (b),上,因为其具有相对较短的尾部802 ( b )。
图9(b)示出从所述训练点云团602隔离出来的两个图像800 (a)、 800(b)在三维特征空间600中的投影800 (a) ,、 800 (b),。如图9 (b)所 示,投影800 (a),与表现出同样的相对较长尾部但是旋转角度不同的手指 图像的投影一起排列成基本上圓形的图形902。类似地,投影800 (b),与 表现出同样的相对较短尾部但是旋转角度不同的手指图像的投影 一起排列 成基本上圆形的图形904。
所述训练点云团602可以表现出可识别的几何形状,因此训练点云团 602可被修改以由能够用多项式解析表达的几何模型建模。为了方便用几何 模型拟合训练点云团602,可以对每个训练点应用被称为"转移至中心(TTC, Transfer-to-Centre ),,的4支术(操作412)。在例如文献Shamaie A. et. al" "International Journal of Scientia I服ica", 6 ( 1 ), ( 1999 )中描述了 TTC技 术。TTC技术将数据组转移至特征空间的中心。换句话说,数据组的中心被 移到特征空间的原点。
在对一组训练点应用TTC技术之后,用模型拟合训练点云团602 (操作
414)。三维二次表面的通用方程式为
F ^ =ax2+6_y2+cz2+(ix_y+exz"l^z+gz+/z_y+/z+l ( 4 )
如果训练点云团602定义了一个理想的二次表面,则可以对云团602中
的每个点成立以下方程式
F 6cj,zX) (5)
其中xj;和z是训练点云团602中的每个点的坐标。方程式4中的未知
参数为^= U力,c乂e,/g力,/)。为了将训练点云团602拟合为二次表面,确定
方程式4中的未知参数的值,使得对于训练点云团602中的一组点,误差函
数被最小化。误差函数由以下方程式定义
J]F2(x,y,z) (6)
其中TS是所述一组被投影训练点。误差函数可以展开为
19<formula>formula see original document page 20</formula>
误差函数可以利用准牛顿(quasi-Newtonian)方法最小化。但是,线性 优化方法,如准牛顿方法,可能停留在局部的最小值,原因是误差函数是二 次的。但是,在最小化误差函数之前对所述一组训练点应用TTC技术可以 减少准牛顿最小化方法停留在局部最小值的风险。因此,如果在利用准牛顿 方法最小化误差函数之前对所述一组训练点应用TTC技术,误差函数可以 更快地收敛。最小化误差函数产生所述一组未知参数T的值。通过最小化误 差函数确定的^的值被代入方程式4以定义训练点云团602的模型。
图10 (a)示出与训练点云团602的示例性模型(空心圓)重叠的训练 点(黑色点)云团602。图10 (b)是图10 (a)的彩色版。模型1000可以 通过将由最小化误差函数确定的一组参数^的值代入方程式4而定义得到。 如图10 (a)和10 (b)所示,该^t型具有第一表面1002和第二表面1004, 两个表面都表现为双曲面形形状,分别具有顶点1002 (a)和1004 (a),两 顶点彼此面对,同时两个表面位于同一轴(未示出)上。在一种实现方式中, 仅第一表面1002被用来对训练点云团602建模。如图10 (a) -10 (b)所 示,训练点云团602并不完全覆盖第一表面1002,而且根本不覆盖第二表面 1004。
图11 (a)是用于对特征空间600中的训练点云团602建模的模型1000 的第一表面1002的图示。图11 (a) - (c)没有包括第二表面1004。图11 (b)示出与模型(空心圆)IOOO的第一表面1002重叠的训练点(黑色点) 云团602。图11 (c)是图11 (b)的彩色版。
图12是流程图,示出利用通过处理400训练的系统识别图像中作为手指的物体的示例性处理1200。处理1200从创建被表面104或ROI 116中的 其他物体始终反射的IR的BGM开始(搡作1202 )。然后用照相机108捕捉 表面104及其附近的输入图像(操作1204),并从该输入图像中减去BGM (操作1206 )。
如以上就图2 (a)和2 (b)详细描述的,斑点分析算法,如Grassfire 算法,被用来从输入图像中抽取物体(操作1208 )。如以上就图3详细描述 的,从输入图像抽取的每个物体被处理,以标识和放弃那些要么太大要么太 小而不会是手指的物体(操作1210)。剩余的物体经排序而形成按总面积的 降序排列的列表(操作1212)。
然后,列表中的第一物体被转换成nxn的图像,并且改变大小之后的nxn 图像^y殳影到一组训练数据的特征空间600中,以获得图像点(操作1214)。 模仿在训练阶段400对训练点云团602中的点应用TTC技术,对图像点应用 TTC技术(操作1216)。可以在操作1216中使用与操作412中所用相同的 TTC 4争才吳丫直。
利用图像点的坐标计算定义训练点云团602的模型1000的二次多项式 的值(操作1218)。如果图像点位于模型1000中,则图像点的坐标代入多项 式会得到零值。相反,如果图像点不位于模型1000中,将图像点的坐标代 入多项式中会得到非零的实数。通过将图像点的坐标代入多项式而得到的值 表示图像点与模型IOOO之间的距离。
对应于特征空间600中靠近模型1000的图像点的图像会表现出与包括 所述一组训练点的图像相似的特征。因此,图像点越靠近模型1000,则对应 于图像点的图像越可能是手指。所以,对应于被发现位于模型1000上的图 像点或落入模型1000的最大阈值距离之内的图像点的图像可被确定是手指。
因此,计算通过将图像点的坐标代入二次多项式而得到的值,以确定其 是否小于所限定的阈值距离(操作1220)。如果通过将图像点的坐标代入二 次多项式而得到的值小于该阈值距离,则对应于该图像点的物体被视为手指 (操作1222)。如果通过将图象点的坐标代入二次多项式而得到的值大于最 大阈值距离,则对应于该图像点的图像被放弃,并前进到操作1214以处理 列表中的下一个物体(操作1224)。
通过将物体投影到特征空间而减小图像中捕捉的物体的维数使得可以 在不用比较所捕捉图像的每个像素与模型的每个像素的情况下将物体与训练物体的图像的模型比较。从而,可以节省处理能力和资源以及/或者提高比 较速度。
现在参照图13 - 19描述训练和识别阶段的其他实现方式。
图13是流程图,示出训练手指识别和跟踪系统100识别作为手指的物 体的处理1300的示例。处理1300包括对各个训练图像应用直方图均ff化 (histogram equalization ) 4支术的才喿4乍。
处理1300从创建被表面104或ROI 116中的其他物体始终反射的IR的 BGM开始(操作1302)。利用照相机108捕捉各种不同取向的一个或多个手 指的大量输入图像(操作1304),并从每个输入图像中减去BGM(操作1306)。 图像中表示手指的部分被从图像中抽取出来并转换成标准的nxn的图像尺 寸(操作1308 )。对每个nxn图像应用直方图均衡化技术(操作1310)。
直方图均衡化技术被应用于nxn的图像,以解决照明条件变化的问题。 对nxn图像应用直方图均衡化技术涉及生成nxn图像中像素光强的直方图, 对nxn图像的直方图进行归 一化以及基于归 一化的图像直方图对nxn图像中 的像素重新赋值。因此,个体的像素保持了它们的亮度序位(例如,它们保 持比其他像素更亮或更暗)。
创建对应于所述一组nxn的手指训练图像的特征空间,并将每个训练图 像投影到特征空间中(操作1312)。
如图14所示,被投影的训练图像在特征空间1400中形成训练点云团 1402。对训练点云团1402应用TTC技术,以便将训练点云团1402的中心 转移到特征空间1400的原点(操作1314)。图14所示训练点云团1402的形 状表现为不同于图6所示训练点云团602的形状。具体而言,图14所示训 练点云团1402在圆锥形形状1404的顶点1408处带有一尾部1406。两个训 练点云团1402、 602在形状上的差异可以归因于对训练点图^^且应用了直方 图均衡化技术(操作1310),因为直方图均衡化技术减小了由于照明条件变 化造成的所述一组训练图像中的变化。因此,当训练图像被投影到特征空间 1400中时,获得更为统一的形状。图6中的训练点云团602的形状反映了训 练图像组中照明条件的变化以及手指形状和取向的变化。相反,图14所示 训练点云团1402的形状主要反应的是训练图像组中手指形状和取向的变化。
处理1300包括用一个或多个模型拟合转移之后的训练点云团1402 (操 作1316)。为了对训练点云团1402建模,形成圓锥形形状1404的训练点子组和形成尾部1406的训练点子组被分开考虑。图15示出形成没有尾部1406 的圆锥形形状1404的训练点子组。图16示出没有圆锥形形状1404的形成 尾部1406的训练点子组。
可以为形成圆锥形形状1404的训练点子组创建一^t型,并为形成尾部 1406的训练点子组创建第二模型。如上所述,方程式4给出了三维二次表面 的通用公式。因此,通过首先确定方程式4中的未知参数^,可以确定形成 圓锥形形状1404的一组训练点的模型,所述参数使方程式7相对于形成圆 锥形形状1404的训练点子组中的一组点的误差函数被最小化。通过最小化 误差函数确定的^的值被插入方程式4中以定义训练点云团1402的模型。
或者,可以用垂直圆锥来对形成圓锥形形状1404的训练图像的子组进 行建模。如图15所示,圓锥形训练点云团1404表现出沿垂直轴1500的最 大变化量,所述垂直轴1500表示特征空间1400的第一主分量。换句话:沈, 圓锥形云团1404的高度维度平行于特征空间1400的第一主分量。所观察到 的圆锥形训练点云团1404沿特征空间1400的第一主分量方向表现出最大变 化量的情况与对应于第一主分量的协方差矩阵的特征向量代表一组训练图 像显示出最大变化的方向的事实相符。因此,可以使用垂直圆锥来对形成圆 锥形形状1404的训练点子组进行建模。 一般垂直圆锥用以下方程式描述
其中x和y表示特征空间1400的水平轴1502、 1504,z表示垂直轴1500。 方程式8中的未知参数为Q- (a》,c,《e/)。为了用垂直圆锥拟合形成圓锥形 形状1404的训练图像的子组,确定使方程式8相对于形成圆锥形形状1404 的训练点子组中的一组点被最小化的未知参数Q的值。方程式8所示误差函 数可以通过以下方程式定义
5X",") (9)
可以使用准牛顿方法来最小化方程式9所示误差函数。对方程式9所示
误差函数的最小化产生所述一组未知参数n的值。这些值被插入方程式8以
定义形成圆锥形形状1404的训练点子组的垂直圆锥模型。
图17 ( a)示出与圆锥形形状1404的训练点云团的示例性垂直圆锥模型 (空心圆)1700重叠的圆锥形形状的训练点(黑色菱形)云团。图17 (c) 是图17 (a)的彩色版。如图17 (a)和17 (c)所示,垂直圆锥模型1700既有底表面1702又有顶表面1704。每个表面1702和1704形成的两个圓锥 形状在共同的顶点1706处相遇。两个圆锥形状位于同一轴(未示出)上。 形成圆锥形形状1404的训练点云团不完全覆盖表面1702,同时根本不覆盖 表面1704。在一种实现方式中,仅圓锥1700的下表面1702被用来对圓锥形 形状1404的训练点云团建模。图17 (b)示出与圆锥形形状1404的训练点 云团的示例性垂直圆锥^f莫型(空心圓)1700的下表面1702重叠的圓锥形形 状(黑色菱形)1404的训练点云团。图17 (d)是图17 (b)的彩色版。
尾部1406的一种模型是垂直线。尾部1406的垂直线模型通过计算尾部 1406的训练点沿水平轴1602、 1604的中值来确定。图18 (a)示出与形成 尾部1406的训练点云团的示例性垂直线模型(黑线)1800重叠的尾部(黑 点)1406的训练点云团。形成尾部1406的训练点云团在线1800的底部1810 周围密集成群,并在更靠近线1800顶部1820处逐渐采用基本上线形的形状。 图18 (b)是图18 (a)的彩色版。在一种可替代的实现方式中,线1800可 以不是垂直的。作为替代,线1800可以具有最好地匹配形成尾部1406的一 组训练点的方向。
图19是流程图,示出了识别图像中手指的处理1900的一个示例。处理 1900使用由处理1300训练的系统。
处理1900从创建被表面104或ROI 116中的其它物体所始终反射的IR 的BGM (操作1902 )开始。利用照相机108捕捉表面104及其附近的输入 图像(操作1904),从输入图像中减去BGM(操作1906)。如以上就图2(a) 和2 (b)详细描述的,斑点分析算法,如Grassfire算法,被用来从输入图 像中抽取物体(操作1908 )。如以上就图3所讨论的,从输入图像抽取的每 一物体被处理以标识并放弃要么太小要么太大而不会是手指的物体(操作 1910)。剩余的物体被排序成按照总面积的升序排列的列表(操作1912)。然 后将列表中的第一个物体转换成nxn的图像(操作1914)并对改变大小之 后的图像应用与处理1300所应用的相同的直方图均衡化技术(操作1916)。 在对图像应用直方图均衡化技术之后,将图像投影到一组训练图像的特征空 间中,并模仿训练阶段1300中对训练点云团1402应用TTC技术,对图像 点应用TTC技术(操作1918 )。
如上所述,两个才莫型,即垂直线1800和垂直圆锥1700的下表面1702 构成,被用来对训练点云团1402建模。因此,可以确定图像点的垂直坐标是在垂直圆锥模型1700的下表面1702的定点1706的上方还是下方(操作 1920)。
如果图像点的垂直坐标位于垂直圆锥模型1700的顶点1706的下方,则 由操作1920进入"否"分支。利用图像点的坐标计算定义圓锥形训练点云团 1404的垂直圓锥模型1700的方程式8(操作1922)。如果投影点位于垂直圆 锥模型1700的表面,则将投影点的坐标代入方程式8会得到零值。相反, 如果图像点不位于垂直圆锥模型1700的表面上,则通过将图像点的坐标代 入方程式8会得到非零的实数值。通过将图像点坐标代入方程式8得到的值 代表图像点与垂直圓锥模型1700之间的距离。
对应于特征空间1400中邻近垂直圆锥模型1700的下表面1702的图像 点的图像会表现出与包括所述一组训练点的图像类似的特征。因此,有可能 图像点越靠近垂直圆锥模型1700的下表面1702,则对应于图像点的图像越 有可能是手指。对应于位于垂直圆锥模型1700的下表面1702上的图像点或 落入垂直圆锥模型1700的下表面的最大阈值距离之内的图像点的图像可以 被确定是手指。
因此,计算通过将图像点坐标代入方程式8得到的值来确定该值是否小 于限定的阈值距离(操作1924 )。如果通过将图像点坐标代入方程式8得到 的值小于该阚值距离(操作1924的"是"分支),则对应于该图像点的图像被 视为手指(操作1926)。如果通过将图像点坐标代入方程式8得到的值大于 阈值距离(操作1924的"否"分支),则放弃对应于该图像点的图像,并可进 入操作1914以处理列表中下一个物体(操作1928 )。
如果图像点的垂直坐标位于垂直圆锥模型1700的顶点1706上方,则由 操作1920进入"是"分支。利用图像点的坐标来评价定义垂直线模型1800的 方程式(操作1930)。如果图像点位于线1800上,则将图像点坐标代入定义 所述线的方程式中会得到零值。相反,如果图像点不位于线1800上,通过 将图像点坐标代入定义线1800的方程式中会得到非零的实数值。通过将图 像点坐标代入定义线1800的方程式而得到的值代表图像点与线1800之间的 距离。
对应于特征空间1400中邻近垂直线模型1800的图像点的图像会表现出 与包括一组训练点的图像相似的特征。因此,有可能图像点越靠近垂直线模 型1800,对应于图像点的图像越可能是手指。对应于位于垂直线模型1800上的图像点或落入垂直线模型1800的最大阈值距离之内的图像点的图像可 以确定是手指。
因此,计算通过将图像点坐标代入定义所述线的方程式而得到的值,以
确定该值是否小于阈值距离(操作1932)。如果通过将图像点坐标代入定义 所述线的方程式而得到的值小于阈值距离(操作1932的"是"分支),则对应 于该图象点的图像被视为手指(操作1926)。如果通过将图像点坐标代入定 义所述线的方程式而得到的值大于阈值距离(操作1932的"否"分支),则放 弃对应于该图像点的图像,并可进入操作1914而处理列表中下一个物体(操 作1928)。
存在各种技术可用于调节阈值距离。例如, 一种用于调节阔值距离的技 术涉及将训练点坐标代入训练点模型。在一种实现方式中,包纳90%的训练 点的阈值距离被认为是阈值距离的合理选择。当然,也可以选择其它的阈值 距离或百分比。
图20是流程图,示出用于识别图像中的物体的处理2000的一个示例。 该处理从确定多维空间中表征物体的图像点的坐标(操作2002)开始。在一 种实现方式中,利用照相机捕捉特定物体的图像,该图像由计算机或软件应 用接收作为输入。所述图像点表征图像中所捕捉的该特定物体。
提供描述表现训练图像特征的多维空间中的几何模型的方程式(操作 2004 )。将图像点的坐标代入描述几何模型的方程式中,以确定图像点与几 何模型之间的距离(操作2006 )。
基于所确定的图像点与几何模型之间的距离,确定图像点所表征的物体 是否匹配训练图像(操作2008)。具体而言,无论训练图像所捕捉的物体类 型如^f可,确定该物体是否匹配。
在一种实现方式中,确定图像点坐标涉及将图像投影到不同的多维空间 中。该多维空间可以是例如特征空间。在这种实现方式中,表现训练图像特 征的几何模型也在该多维空间中。
以上已经描述了实现方式。但是,应该理解,可以做出各种变型。例如, 光盘(CD)、处理装置或其它计算机可读介质可以包含用于实现这里所公开 的任何一种方法的程序、指令或代码段。此外,可以提供用于实现所公开任 何一种方法的工具。该工具可以包括例如计算机可读介质、处理装置、照相 机、投影仪或它们的组合以及其它可能的部件。处理设备可以包括例如处理器、计算机、可编程逻辑装置或集成电路。
设备和特征至少可以部分实现为各种装置。例子包括如上所述的计算 机,包括便携式计算机或其它处理装置。例子还包括便携式电话、个人数字
助理、诸如例如传真机或便携式e-mail装置(如Blackberry )之类的消息 接发装置、例如1 0(1@之类的便携式音乐播放器、或其它电子便携式消息接 发、娱乐、组织或游戏装置。
另外,尽管已经就识别图像中作为手指的物体的情况描述了所一般性公 开的系统和方法,但是识别其它图像中其它物体的能力也已在考虑之内。这 里描述的系统和方法可以用来识别可以用空间(例如特征空间)中的几4可;f莫 型建^^的任何物体。例如,所描述的系统和方法可以用来识别图像中作为笔 或罐的物体。另外,可以组合、替换、改变或去除不同实现方式中的元素以 获得其它的实现方式。
尽管方法被描述为包括多个操作,但是也可以在所公开的方法中添加其 它操作。此外,并不是每个操作必须执行,因此可以跳过一些操作。另夕卜, 所公开的操作并不必须按照描述的顺序来执行。
最后,可以使用、组合和改变不同的技术来得到一种实现方式,所述技 术包括例如各种硬件、软件、固件、集成部件、独立部件、处理装置、存储 器或存储装置、通信装置、滤波器、显示装置和投影装置。因此,其它实现 方式落入所附权利要求的范围内。
权利要求
1.一种方法,其包括确定多维空间中图像点的坐标,所述图像点表征一特定物体;提供描述所述多维空间中的一模型的方程式,所述模型表现一个或多个其它物体的一组训练图像的特征;将所述坐标代入所述方程式以确定所述图像点与所述模型之间的距离;以及基于所确定的距离,确定所述特定物体是否匹配所述一个或多个其它物体。
2. 如权利要求l所述的方法,其中,还包括接收所述特定物体的图像,所述图像具有多个数据元素,所述多维空间 的维数低于所述数据元素的数量;并且其中确定坐标的步骤包括将所述图像投影到所述多维空间以产生所述 多维空间中的所述图像点的坐标。
3. 如权利要求2所述的方法,其中,所述模型是一组训练点在所述多 维空间中的模型,所述组中的每个所述训练点对应于所述一系列训练图像中 的一个或多个图像。
4. 如权利要求2所述的方法,其中,所述特定物体的图像在被接收之 前一皮归一化。
5. 如权利要求4所述的方法,其中,归一化所述特定物体的图像的步 骤用于处理亮度变化。
6. 如权利要求4所述的方法,其中,归一化所述物体的图像的步骤包 括对所述特定物体的图像应用直方图均衡化技术。
7. 如权利要求l所述的方法,其中,所述方程式描述双曲面。
8. 如权利要求l所述的方法,其中,所述方程式描述圆锥。
9. 如权利要求l所述的方法,其中,所述方程式描述线。
10. 如权利要求1所述的方法,其中,所述方程式描述圓锥与线的组合。
11. 如权利要求l所述的方法,其中,所述特定物体包括由手指、笔和 基本上柱形物体构成的组中的 一个物体。
12. 如权利要求l所述的方法,其中,提供所述方程式的步骤包括从第一方程式和第二方程式中选择所述方程式,所述第一方程式描述表现第一组 训练图像特征的第 一模型,所述第二方程式描述表现第二组训练图像特征的 第二模型。
13. —种方法,其包括接收特定物体的图像,所述图像具有若千数据点;将所述图像投影到维数小于所述数据点数量的多维空间中,以产生所述 多维空间中的图像点的坐标,所述图像点表征所述特定物体;提供描述所述多维空间中的模型的方程式,所述片莫型是所述多维空间中 一组训练点的模型,所述组中的每个所述训练点对应于一个或多个其它物体 的 一组训练图像中的 一个或多个图像。将所述坐标代入所述方程式以确定所述图像点与所述模型之间的距离;以及基于所确定的距离,确定所述特定物体是否匹配所述其它物体。
14. 如权利要求13所述的方法,其中,提供所述方程式的步骤包括从 第一方程式和第二方程式中选择所述方程式,所述第一方程式描述表现第一 组训练图像特征的第 一模型,所述第二方程式描述表现第二组训练图像特征 的第二模型。
15. —种系统,其包括 月泉相才几;和耦接到所述照相机的处理装置,该处理装置被构造成确定多维空间中的图像点的坐标,所迷图像点表征一特定物体; 提供描述所述多维空间中的一模型的方程式,所述模型表现一个或多个其它物体的 一组训练图像的特征;将所述坐标代入所述方程式以确定所述图像点与所述模型之间的3巨离;以及基于所确定的距离,确定所述特定物体是否匹配所述一个或多个其 它物体。
16. 如权利要求15所述的系统,其中
17. 如权利要求16所述的系统,其中
18. 如权利要求15所述的系统,其中 的屏幕。3,所述照相才几包括IR照相才几。 ,还包括IR源。,还包括设置在所述照相机前方
19. 如权利要求18所述的系统,其中,所述屏幕至少是半透明的,使得位于与照相机相反的所述屏幕的一侧上的物体所反射的光透过屏幕并被 所述照相一几所接收。
20. —种方法,其包括 提供一种工具,该工具用于确定多维空间中特定图像点的坐标,所述特定图像点表征一特定物体;提供描述所述多维空间中的一模型的方程式,所述模型表现一个或 多个其它物体的 一组训练图像的特征;将所述坐标代入所述方程式以确定所述特定图像点与所述模型之 间的距离;以及基于所确定的距离,确定所述特定物体是否匹配所述一个或多个其 它物体。
21. 如权利要求20所述的方法,其中,还包括 接收所述一组训练图像,所述组中的每个图像具有若干数据元素; 基于所述一组训练图像,确定维数小于所述数据元素的数量的所述多维空间;通过将所述一组训练图像中的每个图像投影到所述多维空间来生成一 组训练点,产生所述多维空间中的对应训练点的坐标,所述一组训练点中的 每个训练点对应于所述一组训练图像中的至少一个图像;以及确定描述表现所述一组训练图像的特征的所述多维空间中的模型的所 述方程式。
22. 如权利要求21所述的方法,其中,所述一组训练图像中的每个图 像在被接收之前被归 一化。
23. 如权利要求22所述的方法,其中,归一化所述一组训练图像中的 每个图像的步骤处理亮度变化。
24. 如权利要求23所述的方法,其中,归一化所述一组训练图像中的 每个图像的步骤包括对所述一组训练图像中的每个图像应用直方图均衡化 技术。
全文摘要
根据公开的一种方法,相应于表征特定物体的图像点确定多维空间中的坐标。提供描述该空间中的模型的方程式。该模型表现一个或多个其它物体的一组训练图像的特征。所述坐标被代入所述方程式以确定图像点与模型之间的距离。基于所确定的距离,确定特定物体是否匹配所述一个或多个其它物体。可以接收一组训练图像。基于该组训练图像可以确定一多维空间(例如,特征空间)。通过将该组训练图像投影到所述空间可以生成一组训练点。可以确定描述表现所述一组训练点的特征的所述空间中的一模型的方程式。
文档编号G06K9/00GK101622630SQ200680007568
公开日2010年1月6日 申请日期2006年1月6日 优先权日2005年1月7日
发明者阿提德·沙梅 申请人:格斯图尔泰克股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1