用于通过图象处理而不用三维建模来指示目标的设备和方法

文档序号：6462225阅读：423来源：国知局

专利名称：用于通过图象处理而不用三维建模来指示目标的设备和方法
技术领域：
本发明涉及图像识别，尤其是不用场景三维建模，用于指示平面上的目标点的指示手势(pointing gesture)的识别。
背景技术：
有许多能够从手势识别中获益的应用。例如，这是一个用于控制照相机瞄准的自然机械装置。另一个应用是利用手势移动屏幕上的光标。例如，可以想象通过以用户的手指简单地指向屏幕上的目标，在将来的灵敏电视上进行选择。不再需要鼠标。
利用场景图象来解释手势(如指示目标的指示手势)的基于视频的系统是一个迅速增长的领域。计算机的速度和图象处理的速度很快，以至于能够提供用于瞄准和重新瞄准照相机的非常方便的机械装置。例如，在视频会议系统中，用户能够指向感兴趣的目标来在PT基底上放置能够缩放的照相机。这样的自动系统比需要像语音命令(“命令控制”，基本上是基于语音的符号处理器，其中每个号令对应于一个指令，例如“向左摇摄”、“向上摇摄”、“向下摇摄”等)、操纵杆控制和连续目标跟踪这样的明确命令的常规系统更直观并且更容易控制。在这样的系统中，经常结合多角度视图来生成场景三维模型确定用户指向的目标。
在标题为“用于通过利用基于照相机的手势输入的虚拟现实环境来准许三维导航的系统和方法”的12/23/97申请的US专利申请系列号NO.08/996,677中描述了使用这样的“灵敏”技术来允许控制照相机的一个系统。这个专利申请讨论了一种设备，其中照相机利用图象处理技术从背景中区别人类主体的轮廓。图象处理技术是为了从背景中区别主体。然后能够通过摇射倾斜/缩放(PTZ)照相机跟随主体。这样的系统能够在目标上重复地定位、缩放和聚焦，以便于目标相对保持在屏幕的中心。
像在US专利NO.5,187,574中所述的另一种技术被称为虚拟或者电子缩放。电子地处理来自一个或者多个固定照相机的视频信息，以便于感兴趣的目标在输出视频信号中保持可见，尽管物体可能不在任何单个照相机的视野的中心。通过提取和插补操作，能够用通常比PTZ照相机更便宜的固定照相机完成跟踪处理。
在Masaaki Fukumoto、Yasuhito Suenga和Kenji Mase的文章“‘手指指针’通过图象处理指示接口”中详细描述了另一个系统。在这个文章中，作者描述了通过定位在系统的视野中的指向目标的操作者来指示照相机聚焦在目标上的系统。系统扫描和处理指示照相机在那个总方向中瞄准的操作者的手指的图象。文章还描述了利用指示手势和语音命令的组合的系统。通过使用简单语音和手势命令，操作者能够指示照相机执行简单的功能，例如放大或者缩小，或者清屏。这篇文章通过参考而合成一体好像在其中完全阐明。
用于指示目标的先前的技术通常需要在视频场景的三维结构的计算机中的创作和目标区域，以便于确定用户正在指示什么。这对于装配来说很麻烦，因为这需要多个照相机和通常相当复杂的三维推理和计算加强器。
在US专利NO.5,454,043中描述了没有这个限制的一种已有技术。在‘043专利中，通过摄像机捕获手的移动，通过图象处理将定向和移动的模式分解成指令。当用户像在先前技术的三维建模方法中那样站在不同位置的时候，不能用这个技术指示目标，但是它具有允许用户例如以限制的方式控制在显示屏上的鼠标的优点。
给出技术的当前状态，对于能够解释像指示手势这样的方向指示的系统来说是必要的，但它避免了对于场景设备和元件的定位和与场景的三维建模相关联的密集计算的需要。

发明内容
三维目标的单个子集是位于预先已知形状的表面上的那些。例如，投影屏的平面能够包含说话者可以指向的目标。另一个实例是在观众可以指向的或者通过一些其他定向指示(如用棒、手指、手移动等指示)来指示的显示屏上的子图象。依据本发明，能够在场景的图象中识别例如所描述的目标而不用定位照相机或者目标所在表面的位置的任何信息。必需先验的唯一信息是关于表面形状的最低限度的一些信息。
依据一个实施例，确定用户指示的目标的方法使用至少两个包含指示器和目标区域的场景的图象。在这个实例中，我们假定目标位于包含有在两个照相机的场景图象中都可见的定位标记或者基准的平面上。在两个场景中也可以捕获指示手势。处理指示手势并且分解成必需的范围，以便于在场景自身的X-Y坐标中确定线。在两个照相机场景中都这样做。例如，可以利用用户的右眼和手指指尖重合的点(在象素单位的X-Y坐标中)。或者，可以定义线以便于表示由手势指示的方向，且能够通过在线上的两个任意点来定义这条线。映射这些来自两个场景的瞄准点对。
通过定位标记来定位各图象，以便于它们准确地模拟与目标相符的平面的外形。这样允许完全绕过三维推理而只利用二维推理来确定目标。定位每个图象，以便于在可以被称为参考平面的目标平面上的所有点像它们出现在参考平面上的位置一样准确地出现在图象中。如我们将在后面描述的那样，如果在图象和参考平面上确定4个相应点，则能够计算线性定位变换。该变换中，在参考平面上的点以与下面位置相同的相对位置显示在照相机图象中，即，如果直视参考平面，它们将显示的位置。也就是，如果在参考平面上具有在正方形图案中排列的四个基准，然后，将定位倾斜观察这四个基准的照相机图象，以便于它们在定位的图象中再一次形成正方形。通过平面投影变换来进行定位，所以在场景中的所有点最终被扭曲，在原始图象中的任意直线上的所有点仍然在直线上。类似地定位第二个图象，并且对准两个图象，以便于在每个图象的参考平面上的基准在单个图象中重合。最好，从基本不同的角度来拍摄两个图象以便于用户在一个照相机视野中出现在与在另一个照相机的视野中不同的位置处。在用户的右眼和每个图象的指尖之间画直线，它们交叉的地方是目标的位置。当然，上述描述是纯粹象征性的。数字上要做实际的处理并且只有有关的点被变换。这些点是在连接用户的眼和指尖的图象的两个图象中的点。
在许多变化中能够使用这个方法。最好考虑两个变化。第一，以用户指向照相机来在用户面前定位照相机，它尤其适于像在显示屏或者监视器上指示选择这种人/机交互作用。第二，朝着每个照相机都可视的平面表面指示，它能够用在如视频会议这样的多媒体应用中。
可以想象称为“一瞥通过”结构的第一个变化将用于通过电视或者计算机监视器来通信，例如，从菜单中选择选项或者玩计算机游戏。在这个设计中，具有一个或者两个多边形孔隙(并排放置)的垂直不透明平面放置在计算机或者电视监视器的顶端，大约与屏幕共面。另一个可能性是使用透明的扩展平面，其中用4个特征点替换每个孔隙。包括屏幕和孔隙扩展的扩展平面被称为“参考平面”。
一个或者两个照相机放置在扩展平面之后，从两个孔隙之后观察用户；每个孔隙(或者4个标记点)在各自的图象周围常是完全可见的。(或者，可以用2个镜子替代两个照相机，用1个照相机记录并排的2个图象)。最初(而且只有一次)，在非常窄的视野(大约为正投影)中拍摄参考平面(屏幕+附加的孔隙或者标记)前面的图象，以表示参考平面的二维未失真外形。这个图象成为用于计算目标位置的参考系。
为了计算必需的图象记录(定位)变换，在每个分别的图象和参考系中检测孔隙边界。记录包括将2D线性变换应用到图象，之后，图象中的孔隙边界准确表现出与它们在参考系中相同的关系。如在说明中的其他地方的详细描述，四个点足够计算这个变换。
在这个设计中，指向照相机，给用户照相。为了定位指示目标，必需检测用户的眼睛和指尖。为了帮助指尖的检测，用户可以戴上明亮颜色的顶针。顶针可以替代其他互动设备，例如远程控制器。除了使指尖的检测更容易以外，耐磨的鼠标对用户一接口目的有其它优点，如提供在多个用户的指示手势之中识别的能力。因此，戴着不同颜色顶针的多个用户能够同时指示相同或者不同的目标。
可以想象，第二个变化“直接观察结构”，对于例如有大屏幕或者在照相机装置是临时或可携带的情况下的演示或者视频会议的目的是最有用的。在这个装置中，从两个照相机中都可见到目标平面或者参考平面和用户。如在“一瞥通过的结构”中一样，记录仅仅以图象数据为基础。在每个图象中用记录来识别在参考平面上的四个点，记录与二维线性变换到图象的应用同时出现。因为参考平面是典型的投影屏幕或者白板，所以能够容易地检测到点。这些能够从具有高对比度且暂时用于捕获装置并在此之后从屏幕上消除的投影中形成。或者，可以用两组平行线代替基准标记。甚至能够使用屏幕或者白板的边界。
在最后的一步中，可以选择一个图象作为参考系。记录变换映射4个识别点，以便于它们在第二个图中出现在如它们在第一个图中相同位置上。相对于参考系而不是参考平面进行记录，这足以识别指示目标。
参考下列示意图，连系特定的优选实施例，描述本发明，以便于可以更完全的理解它。参考这些图，强调所示的详细资料是作为示例的并且只用于本发明的优选实施例的示意性讨论，并且为了提供据信最有用且容易理解原理的描述和本发明的概念方面而给出。在这点上，没有比本发明的基本理解所必需的意图更详细显示发明的结构细节的意图了，用图进行的描述对于本领域的技术人员来说，很清楚在实践中如何使用本发明的几种形式。

图1是依据本发明的一个实施例的用于利用第二个照相机投影来识别在一个照相机场景的投影(或者参考投影)上的目标位置的装置的象征表示。
图2是用于给出关于依据图1的实施例的一个照相机获得的投影的定义的场景的象征表示。
图3是由图2的照相机进行的场景投影的象征表示。
图4是用于给出关于图1的实施例中的另一个照相机获得的投影的定义的场景的象征表示。
图5是由图4的照相机进行的场景投影的象征表示。
图6显示来自图5的方向指示选择点经平面投影变换映射到图3的场景，所映射的以便于获得目标的坐标。
图7是依据本发明的另一个实施例的具有包含指示目标的方向矢量的场景的设置的象征表示，它用于利用来自两个照相机的图象识别在参考投影上的目标投影。
图8和9是来自图7的实施例中照相机图象的图象的投影的象征表示。
图10图解说明结合在参考图象上投影单方向矢量的平面投影变换以便于识别方向矢量指示的目标。
图11图解说明可以用来应用本发明的设备和过程。
具体实施例方式
参考图1，用户30指示位于像电视或者投影屏幕10或者墙(没有显示)这样的平面中/上的目标25。以下面描述的方式结合来自两个照相机35和40的图象，能够在两个照相机35和40中的任意一个中识别目标位置。插图显示用户30利用指示手势来指向目标25。已经用试验方法确定用户用于指向目标的手势是用户的指尖、用户的右(左)眼和目标连成直线。这意味着在任意一个照相机的视野中的目标的平面投影沿着用户的眼和指尖定义的直线平面投影进行。在本发明中，两个平面投影被变换成普通的平面投影，可以是任意一个照相机35和40或者任意的第三平面。
参考图2，瞄准照相机以便于它们每一个都捕获指示设备，在这样的情况下，用户的指尖80与用户的眼睛90结合。同样的，每个照相机的视野45和50使得在其中/其上定位有目标的平面上能够看见四个基准点20。照相机35和40的准确位置或者瞄准除了影响目标定位的精确度以外对于本发明的实行不是重要的，这在本发明的进一步说明以后将很明显。对于精确度，有利于保证照相机图象最大使用照相机图象的分辨率和精确度(表示真正的平面投影)。
参考图2和3，用户30的眼90和指尖80的位置用三维矢量85表示，在照相机35的图象中它的平面投影被表示为二维矢量76。在其余场景平面投影中，通常方式下缩短视线使平面11的图象显得失真。矢量76的延长线6 1显示为足够长以通过目标25的位置，这在上下文中是未知的。定位标记20(图1)的坐标投影在图3的图象中识别为x1，y1，...x4，y4。矢量85的投影76的终点确定为x5，y5和x6，y6。
再参考图4和5，用户30的眼90和指尖80的位置用三维矢量86表示。在照相机40的图象中矢量86的平面投影表示为二维矢量87。而且，通常方式下缩短视线使屏幕12的图象显得失真，当然，失真因为照相机40的位置和定向而不同。矢量86的延长线62显示为足够长以通过目标25的位置。在63处指示延长线62的平面投影。而且，目标位置的投影预先是未知的。定位标记20(图1)的坐标投影在图5中确定为p1，q1，...p4，q4。矢量85投影87的终点确定为p5，q5和p6，q6。
参考图6，以在图5的投影叠加投影87矢量87的变形形式87’来显示它。变形的投影87’源于二维线性变换操作，它映射图5的投影以便于点p1，q1，...p4，q4分别准确地映射到坐标x1，y1，...x4，y4。目标的位置与两条延长线的交点重合。
这个变换可以表示为w*xiw*yiw=M·piqi1]]>这表示除比例之外的变换。因为每个点在M上提供了两个约束条件，且因为M是3×3矩阵，不用标尺定义，所以它包含8个未知量，因此能够利用4个独立的点来确定它。这就是为什么使用4个定位点20。M定义如下t11t12t13]]>w*xiw*yiw=t11t12t13t21t22t23t31t321piqi1]]>因为给定四个点p1，q1，...p4，q4，所以通过解下列线性系统方程能够获得在M中的全部未知量。一旦识别一个目标，就能够将信息用于提供各种特征。例如，能够通过指示来控制投影在屏幕上的物体。例如这个例子，两个照相机图象能够被变换成屏幕10的平面。给定目标在屏幕10上的坐标，任何计算机程序都能使用这个信息。例如，有多个玩家的游戏，通过指示手势控制每个玩家。不同玩家能够戴上/使用不同颜色的套管来控制在屏幕上给出的物体。能够用指示手势来执行目前用鼠标、光笔、触摸屏等执行的任何任务。
尽管在上述的实施例中，以特定的方式(眼到指尖)通过指示手势来指示目标，但不能推理为以其他方式不能衍生出这样的指示。例如，可以使用瞄准器或者指挥棒。同样，不仅是在屏幕上的目标，目标可以是直接位于普通平面上的任何物体或者图象。而且，物体或者目标不需要位于单独的平面上，而是能够位于多个平面上，每个都有各自的一组定位标记。也可以利用其他变换来扩展本发明，以便于目标能位于除了平面表面的表面上。还有另一个变形是以手势的方式来指示方向。可以使用图象的时间序列来得出方向，例如在很短时间间隔内手或者手指扫过的方向，作为指示方向的移动手势。同样的，另一个适合的应用是白板应用。而且，定位标记20不必是在屏幕上的标记，但可以是屏幕10的角。同样的，定位标记可以在安装期间投影在屏幕上的一点，然后删除。然后直到改变安装可以利用定位点坐标来计算变换而不用再参考定位标记。这个技术的另一个应用是用照相机瞄准目标。一旦已知在参考图中的坐标，两个照相机中的一个或者第三照相机能够重新瞄准和缩放以便于获得目标。在本文的自动视频会议系统中这将是很有用的。
现在参考图7，在相应于本发明的另一个实施例的设置中，矢量200指示目标226。延长线205沿着矢量200的轴线指向目标。如前述的实施例，矢量200表示许多不同指示设备中的任意一个，例如指示手势。又如在另一个实施例中，目标226位于平面上/平面中，在这个例子中，是例如大屏幕电视的屏幕270。照相机235和240通过各自的参考系260和265来瞄准。参考系简单提供了在照相机235的视野中的1-4定位点和在照相机240的视野中的定位点5-8。瞄准每个照相机235和240，以便查看各自组的定位点和矢量200。因此，例如，该设置可包括坐在电视机前面的椅子上的用户，在电视机顶部有照相机并且用照相机瞄准用户。
在这个实施例中，定位点只是框架260和265的角1-8。最好基于框架的边，通过外推轮廓装配来确定这些角的坐标，以便于获得具有给定照相机的限定分辨率的最大精确度的位置，尤其是摄像机。这样的技术在工艺中是已知的。
参考图8和9，照相机240和235的图象分别包括各自指示矢量200的投影210和220。还图解说明了由矢量投影210和220指示的方向确定的轮廓线215、225。图7用于图解说明三维场景，但它的排列还表示从指向平面270的视野中获得的投影。在这个实施例中，这样的图象用作参考图象，两个照相机图象的矢量变换成这个图象，以便在参考图象中确定目标的坐标。
参考显示了图7的场景投影的图10，在利用二维线性变换将矢量图象变换成参考系之后，轮廓线215、225分别变换成轮廓线285和280。该变换将图9的图象中的点1-4映射到图10的图象的对应点。然而，只有需要被变换的点是定义向量投影210和220的点。参考图象(系260、265和图7或者图10的参考图象)在每次安装中只需进行一次，确定参考点的坐标。
参考图11，在方框图中图解说明可以用于实现本发明应用的设备和过程。图象处理器305接收来自照相机301和302的图象数据。图象和坐标数据可以存储在存储器310或者非易失性存储器320中。例如，变换数据一经计算，可以存储在用于来自照相机301和302的图象计算中的非易失性存储器320和存储器310中，以便得出可应用于应用过程330的目标坐标x，y。然后应用过程330生成输出，例如在白板上的痕迹线或者用于游戏化身的控制数据。
注意，到由照相机301和302收集的投影数据还能够从其他信号源中得来，例如声纳、无线电、超声波医疗设备或者任何能够形成平面投影的其他设备。
对于在本领域中的技术人员来说，很明显，本发明不仅限于前示意性实施例的详细资料，在不背离本发明的精神和基本特征的情况下，本发明可以其他特殊形式体现。因此本实施例在各方面被认为是示意性的且没有限制，因此其中包含由附加的权利要求而不是由前面的描述指示的本发明的范围，和来自与权利要求等效的意义和范围中的全部变化。
权利要求
1.用于在平面上定位目标的设备，包括生成表示场景的第一投影(5)的第一信号的第一图象收集设备(35)；上述场景包括目标(25)的指示器(85)；生成表示上述场景的第二投影的第二信号的第二图像收集设备(40)；和计算机设备(305)，连接它，以便于接收上述第一和第二信号，且编程，以便于将线性变换应用到上述第一和第二信号中至少一个的至少一部分上，和将上述线性变换的结果与上述第一和第二信号中的另一个相结合，以便于得出在上述场景的参考投影上的上述目标的位置，上述参考投影是上述场景的第三、上述第一和上述第二投影中的一个。
2.图象处理器，包括编程以便获得场景的第一和第二平面投影的处理器(305)；上述处理器被编程，以便于从每个上述第一和第二平面投影中识别各自的轨迹(61，63)；上述处理器还被编程，以便于计算上述第一和第二平面投影轨迹中的至少一个的变换，产生一个变换的轨迹(63’)；和上述处理器还被编程，以便于从上述至少一个变换轨迹中计算位置，该位置是在上述场景的上述第一和第二平面投影或者第三普通平面投影中的一个上的位置，和计算上述第一和第二平面投影轨迹的上述至少一个对准的三维平面(11)上的目标(25)的坐标。
3.定位目标的方法，包括以下步骤收集位于平面上的目标指示器的第一和第二图象；执行上述第一和第二图象中至少一个的平面投影变换，以便确定上述目标的坐标。
4.如权利要求3中的方法，其中上述收集步骤包括形成各自表示场景的平面投影的第一和第二图象。
5.如权利要求3中的方法，其中上述执行步骤包括识别人类指示手势的特征。
6.如权利要求3中的方法，其中上述执行步骤包括从位于上述平面的四个点的图象中的坐标来确定上述平面投影。
7.确定位于平面中的目标的方法，包括以下步骤计算来自第一平面投影的至少四个点和来自第二平面投影的至少四个点的线性变换；将在相应于上述第一平面投影的平面中的第一轨迹变换到上述第二平面投影；确定上述第一轨迹的变换和相应于上述第二平面投影的平面中轨迹的交点。
8.如权利要求7的方法，其中每个上述第一和第二平面投影的上述至少四个点是全部位于参考平面中的至少四个点的单组投影。
9.识别平面中目标的方法，包括以下步骤通过从各自角度成像位于参考平面中的点来计算线性变换，并得出有效的变换，将来自上述各自角度的上述点映射到上述参考平面的相应点；利用一种上述线性变换来变换三维轨迹的第一图象；利用另一种上述线性变换来变换上述轨迹的第二图象；确定作为上述变换步骤结果的上述轨迹各自变换的交点，确定在上述轨迹指示的目标的上述参考平面中的坐标，上述目标位于上述参考平面中。
10.识别位于参考表面中的目标点的方法，包括在上述参考平面中形成至少第一和第二点的表面投影，通过上述参考表面的形状来确定许多上述点，至少一部分；得出响应上述表面中上述点的上述投影的变换，上述变换将每个上述点变换成在作为结果投影表面上的相应点，结果投影表面可以是上述第一和第二投影表面或者第三表面中的一个，以便于在上述参考表面上的每个给定点的投影与在上述结果投影表面上的相同坐标相符合；利用上述变换来变换至少一个轨迹的投影以便于确定上述目标。
全文摘要
用一对照相机,可以获得用户所指向的目标的平面坐标,而无需三维建模,且近使用从个图象得出的数据,而不用三维场景数据。每个照相机查看平面上的至少4个记录点和沿目标所在方向上的指示器。第一图象线性变换将方向指示的平面投影映射到第二图象中。在第二图象中,目标的坐标取决于第二图象投影方向交点和第一图象的变换投影。在另一实施例和总,通过各自的线性变换,将方向映射到第三参考系或图象。该系统的应用允许用户使用固定指示手势来指示投射或电视屏幕上的位置。因为不要求关于照相机位置的信息,所以该系统可快速建立。
文档编号G06F3/041GK1380996SQ01801285
公开日2002年11月20日申请日期2001年5月8日优先权日2000年5月17日
发明者D·魏恩沙尔, M·S·李申请人:皇家菲利浦电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.魏恩沙尔;M.-S.李
技术所有人：皇家菲利浦电子有限公司
我是此专利的发明人

上一篇：因特网收费系统的制作方法
上一篇：信息提供方法及信息提供系统及构成该系统的装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。