响应三维显示对象的用户选择姿势的方法和系统的制作方法

文档序号：6485252阅读：298来源：国知局

响应三维显示对象的用户选择姿势的方法和系统的制作方法
【专利摘要】本发明涉及一种用于对以三维显示的对象的用户选择姿势进行响应的方法。该方法包含：使用显示器显示至少一个对象；使用图像捕获设备来对所捕获的用户选择姿势进行检测；基于图像捕获设备的输出，随着用户眼睛位置而变地并且随着用户姿势和显示器之间的距离而变地，来确定所述用户是否选择所述至少一个对象之中的对象。
【专利说明】响应三维显示对象的用户选择姿势的方法和系统
【技术领域】
[0001]本发明涉及用于对用户在3D系统中的点击操作进行响应的一种方法和一种系统。更具体地，本发明涉及使用响应概率值来对用户在3D系统中的点击操作进行响应的一种容错方法和系统。
【背景技术】
[0002]在20世纪90年代早期那样久远的时候，用户通过诸如微软的MS-DOSTM操作系统和UNIX多种变形中的任意一种之类的字符用户界面(CUI)来与大多数计算机进行交互。基于文字的界面为了提供完整的功能通常包含晦涩的命令和选项，所述命令和选项对于没有经验的用户而言是很不直观的。键盘如果不是唯一的设备，也曾是用户向计算机发出命令的最重要的设备。
[0003]大多数当前计算机系统使用二维图形用户界面。这些图形用户界面(⑶I)通常使用窗口以管理信息并且使用按钮以录入用户的输入。该新范例连同鼠标的引入一起变革了人们使用计算机的方式。用户不再需要记忆神秘的关键词和命令。
[0004]尽管图形用户界面比字符用户界面更为直观和便利，但是用户仍然受诸如键盘和鼠标之类的设备的束缚。触摸屏幕是使得用户可以直接与所显示的内容进行直接交互而无需任何需要手持的中间设备的关键设备。然而，用户仍然需要触摸屏幕，这限制用户的活动。
[0005]最近,提升感知现实(perceptual reality)已经成为驱动下一代显示器的主要力量之一。这些显示器使用三维(3D)图形用户界面，以提供更为直观的交互。相应地设计多种概念性的3D输入设备，使得用户可以便利地与计算机进行交流。然而，由于3D空间的复杂性，这些3D输入设备通常并不如传统的诸如鼠标之类的2D输入设备便利。此外，用户仍然受束缚于使用一些输入设备，该事实极大地降低了交互的性质。
[0006]请注意，语音和姿势(gesture)是人之间交流最常使用的方式。随着3D用户界面，例如虚拟现实和增强现实的发展，存在对于语音和姿势识别系统的真实需求，所述语音和姿势识别系统使得用户能够便利地并且自然地与计算机进行交互。尽管语音识别系统正在应用到计算机中，但是对于典型的家庭或商业用户，当用户除了他们的手之外并不依赖任何设备时，姿势识别系统在提供鲁棒的、准确的并且实时的操作上遇到很大的困难。在2D图形用户界面中，尽管可以通过简单的鼠标设备来便利地实施点击命令，但点击命令可能是最重要的操作。可惜的是，由于很难准确地获取手指相对于用户正在观看的3D用户界面的空间位置，点击操作可能是在姿势识别系统中最难的操作。
[0007]在具有姿势识别系统的3D用户界面中，很难准确地获取手指相对于用户正在观看的按钮的3D位置的空间位置。因此，可能是在传统计算机中最重要操作的点击操作很难被实施。本发明提供解决该问题的一种方法和一种系统。
[0008]作为相关领域，GB2462709A公开一种用于确定复合姿势输入的方法。
【发明内容】

[0009]根据本发明的一个方面，提供一种用于对三维显示对象的用户选择姿势进行响应的方法。所述方法包含:使用显示设备显示至少一个对象，对使用图像捕获设备所捕获的用户选择姿势进行检测以及随着用户眼睛位置而变地并且随着用户姿势和显示设备之间的距离而变地，基于图像捕获设备的输出来确定所述用户是否选择在所述至少一个对象中的对象。
[0010]根据本发明的另一方面，提供一种用于对三维显示对象的用户选择姿势进行响应的系统。所述系统包含:用于使用显示设备显示至少一个对象的部件，对使用图像捕获设备所捕获的用户选择姿势进行检测的部件，以及随着用户眼睛位置而变地并且随着用户姿势和显示设备之间的距离而变地，基于图像捕获设备的输出来确定所述用户是否选择在所述至少一个对象中的对象的部件。
【专利附图】

【附图说明】
[0011]从下面结合附图的描述中，本发明的这些和其他方面、特征和优点将会变得显而易见，其中，
[0012]图1是示出根据本发明的交互系统的基本计算机终端实施例的示例图；
[0013]图2是示出在图1的示例性的交互系统中所使用的一组姿势的示例的示例图；
[0014]图3是示出双眼视觉(binocular vision)的几何模型的示例图；
[0015]图4是示出两个相机图像上的场景点(scene point)的透视投影的几何表示的示例图；
[0016]图5是示出在屏幕坐标系和3D真实世界坐标系之间的关系的示例图；
[0017]图6是示出如何通过屏幕坐标和眼睛位置来计算3D真实世界坐标的示例图；
[0018]图7是示出用于根据本发明实施例对在3D真实世界坐标系中的用户点击操作进行响应的方法的流程图；
[0019]图8是根据本发明实施例的计算机设备的示例性方框图。
【具体实施方式】
[0020]在下面的描述中，将描述本发明的实施例的不同方面。为了解释的目的，陈述特定的配置和细节，以提供深入的理解。然而，对于本领域技术人员而言也明显的是，不具有在此呈现的特定细节也可以实现本发明。
[0021]本实施例公开一种对用户在3D系统中的点击姿势进行响应的方法。该方法定义了显示的按钮应当对用户点击姿势进行响应的概率值。根据当触发点击时手指的位置、依赖于用户眼睛位置的按钮位置和按钮大小来计算概率值。具有最高点击概率的按钮将被激活，作为对用户点击操作的响应。
[0022]图1图示根据本发明实施例的计算机交互系统的基本配置。两个相机10和11分别位于监视器12(例如60英寸对角屏幕尺寸的TV)的上表面的每一侧。相机连接至PC计算机13 (相机可以集成至监视器中)。用户14通过佩戴一副红蓝眼镜(red-blue glasses) 15、快门眼镜或其他类型的眼镜或者如果监视器12是自动立体显示器则无需佩戴任何眼镜，来观看监视器12上显示的立体内容。[0023]在操作中，用户14通过在相机10和11的三维视场内做姿势来控制计算机13上运行的一个或多个应用。使用相机10和11来捕获姿势，并将姿势转换成视频信号。计算机13然后使用任何被编程以便对用户14做出的特定手势进行检测和识别的软件来处理视频信号。应用对控制信号进行响应并且将结果显示在监视器12上。
[0024]系统可以容易地运行在配备有廉价相机的标准家用或商业计算机上，并且因此对于大多数用户而言比其他已知系统更容易获得。此外，该系统可以使用于需要3D空间交互的任何类型的计算机应用。示例应用包含3D游戏和3D TV0
[0025]尽管图1结合传统的独立计算机13示出了交互系统的操作，但是该系统当然可以应用于其他类型的信息处理设备，例如膝上型便携电脑、工作站、平板电脑、电视、机顶盒等。如在此使用的术语“计算机”意欲包含这些设备和其他基于处理器的设备。
[0026]图2示出在示例性实施例中由交互系统所识别的一组姿势。所述系统使用识别技术(例如以手的边界分析为基础的那些识别技术)和跟踪技术以识别姿势。所识别的姿势可以被映射至诸如“点击”、“关门”、“向左滚动”、“向右翻”等的应用命令。容易识别诸如推、左挥、右挥之类的姿势。点击姿势也容易设别，但是比较难识别点击点相对于用户观看的3D用户界面的准确位置。
[0027]理论上，在双相机系统中，若给定相机的焦距和两个相机之间的距离，则可以通过在两个相机上的点的图像的位置来获得任何空间点的位置。然而，对于在场景中的相同对象，如果用户观看在不同位置上的立体内容，则用户可以认为对象位置在空间上是不同的。在图2中，使用右手来图示姿势，但是我们可以替代地使用左手或身体其它部分。
[0028]参考图3，使用针对远距点在屏幕平面上的左视图和右视图，来示出双眼视觉的几何模型。如在图3中所示，点31和30分别是在左视图和右视图中相同场景点的图像点。换言之，点31和30是在场景中的3D点在左屏幕平面和右屏幕平面上的投影点。当用户站在其中点34和35分别是左眼和右眼的位置时，用户将认为场景点位于点32的位置处，尽管左眼和右眼分别从点31和30处看到它。当用户站在其中点36和37分别是左眼和右眼的另一位置时，他将认为场景点位于点33的位置处。因此，对于相同的场景对象，用户将发现，所述场景对象的空间位置已经随着用户位置的变化而变化。当用户试图使用其手来“点击”对象时，他将在不同的空间位置处点击。结果，姿势识别系统将认为用户在不同的位置进行点击。计算机将识别出，用户正在在应用的不同项目上点击，并且因此将向应用发出不正确的命令。
[0029]解决该问题的常见方法是，系统显示“虚拟手”以向用户告知系统认为用户的手所处的位置。明显地，虚拟手将损坏裸手交互的逼真度(naturalness)。
[0030]另一解决该问题的常见方法是，用户每次改变其位置时，他将请求姿势识别系统重新校正它的坐标系，使得系统可以将用户的点击点正确地映射至界面对象(interfaceobject)处。有时这是非常不方便的。在很多情况下，用户仅仅轻微地改变身体的姿态，而不改变用户的位置，并且在更多的情况下，用户仅仅改变其头部的位置，而他并没有意识到该改变。在这些情况下，每次用户眼睛的位置改变时都重新校正坐标系是不现实的。
[0031]此外，即使用户不改变其眼睛的位置，他也经常发现他不能总是准确地点击到对象上，尤其是当他点击相对小的对象时。原因是，在空间中点击是困难的。用户可能不是足够灵巧得能够精确地控制其食指的方向和速度，他的手可能颤抖，或者他的手指或手可能隐藏对象。姿势识别系统的准确性也影响点击命令的正确性。例如，手指可能过快地移动，而无法由相机跟踪系统准确地识别，尤其当用户远离相机时。
[0032]因此，存在强烈的需求，即，交互系统是容错的以使得用户眼睛位置的小变化和姿势识别系统的不准确性不会频繁地导致不正确的命令。也就是说，即使系统检测到用户没有在任何对象上点击，在一些情况下，系统对用户点击姿势进行响应以确定对象的激活也是合理的。明显地，点击点越靠近对象，对象对点击(例如激活)姿势做出响应的概率越高。
[0033]此外，明显的是，用户至相机的距离极大地影响姿势识别系统的准确性。如果用户远离相机，那么系统倾向于不正确地识别点击点。另一方面，按钮的大小或更一般地在屏幕上待激活的对象的大小也对正确性具有较大的影响。较大的对象更容易被用户点击。
[0034]因此，基于点击点与相机的距离、点击点与对象的距离和对象的大小来确定对象的响应度。
[0035]图4图示在相机2D图像坐标系(430和431)和3D真实世界坐标系400之间的关系。更具体地，3D真实世界坐标系400的原点被定义在在左侧相机节点A410和右侧相机节点B411之间的线的中心。分别用APJX, Ρ1，Υ, ρ1)44(^ΡΡ2(Χ" Ρ2，Υ" Ρ2)441，来表示3D场景点P (ΧΡ, Yp, Zp) 460在左图像和右图像上的透视投影。点P1和P2的视差被定义为
[0036]dXP = X" P2-Xi P1 等式(I)
[0037]和
[0038]dYP = Y" ρ2-Υ; P1 等式(2)。
[0039]在实践中，以这样的方式布置相机，使得视差之一的值始终被认为是零。不失一般性地，在本发明中，图1中的两个相机10和11被水平地布置。因此，dYP = O。假设相机10和11是相同的并且因此具有相同的焦距￡450。左图像和右图像之间的距离是两个相机的基线b420。
[0040]分别用点C (Xp, O, Zp) 461 和 D (XP，O, O) 462，来表示 3D 场景点 P (XP, YP，Zp) 460 在 XZ平面和X轴上的透视投影。观察图4，点？1和己之间的距离是b-dxp。观察三角形PAB，我们可以得到:
【权利要求】
1.一种用于对以三维显示的对象的用户选择姿势进行响应的方法，包含: 在显示设备上显示至少一个对象(701)；使用图像捕获设备来对所捕获的用户选择姿势进行检测(702)；基于图像捕获设备的输出，随着用户眼睛位置而变地并且随着用户选择姿势的位置和显示设备之间的距离而变地，来确定所述用户是否选择所述至少一个对象之中的对象。
2.根据权利要求1所述的方法，所述确定步骤包含: 计算用户选择姿势的位置的3D坐标(703)；计算用户眼睛位置的3D坐标(704)；随着用户眼睛的位置而变地，计算至少一个对象的位置的3D坐标(705)；计算用户选择姿势的位置到图像捕获设备的距离、用户选择姿势的位置到每个对象的距离和每个对象的大小(706)；使用用户选择姿势的位置到图像捕获设备的距离、用户选择姿势的位置到每个对象的距离和每个对象的大小，来计算针对每个对象对用户选择姿势进行响应的概率值(707)；选择具有最大概率值的一个对象(708);以及对所述一个对象的用户选择姿势进行响应(709)。
3.根据权利要求2所述的方法，其中，所述图像捕获设备包含水平布置的并且具有相同焦距的两个相机。
4.根据权利要求3所述的方法，其中，基于选择姿势的左和右图像的2D坐标、相机的焦距和相机之间的距离，来计算3D坐标。
5.根据权利要求4所述的方法，其中，基于用户右眼和左眼的位置的3D坐标和对象在左和右视图中的3D坐标，来计算对象位置的3D坐标。
6.一种用于对以三维显示的对象的用户选择姿势进行响应的系统，包含: 用于在显示设备上显示至少一个对象的部件(814)；用于使用图像捕获设备(812)来对所捕获的用户选择姿势进行检测的部件(811)；用于基于图像捕获设备的输出，随着用户眼睛位置而变地并且随着在用户选择姿势的位置和显示设备之间的距离而变地，来确定所述用户是否选择所述至少一个对象之中的对象的部件(811)。
7.根据权利要求6所述的系统，用于确定的部件包含: 用于计算用户选择姿势的位置的3D坐标的部件(811)；用于计算用户眼睛位置的3D坐标的部件(811)；用于随着用户眼睛的位置而变地，计算至少一个对象在屏幕上的位置的3D坐标的部件(811)；用于计算用户选择姿势的位置到图像捕获设备的距离、用户选择姿势的位置到每个对象的距离和每个对象的大小的部件(811)；用于使用用户选择姿势的位置到图像捕获设备的距离、用户选择姿势的位置到每个对象的距离和每个对象的大小，来计算针对每个对象对用户选择操作进行响应的概率值的部件(811)；用于选择具有最大概率值的一个对象的部件(811);以及用于对所述一个对象的用户选择姿势进行响应的部件(811)。
8.根据权利要求7所述的系统，其中，所述图像捕获设备包含水平布置的并且具有相同焦距的两个相机。
9.根据权利要求8所述的系统，其中，基于选择姿势的左和右图像的2D坐标、相机的焦距和相机之间的距离，来计算3D坐标。
10.根据权利要求9所述的系统，其中，基于用户右眼和左眼的位置的3D坐标和对象在左和右视图中的3D坐标，来计算对象位置的3D坐标。
【文档编号】G06F3/01GK103999018SQ201180075374
【公开日】2014年8月20日申请日期:2011年12月6日优先权日:2011年12月6日
【发明者】宋建平, 杜琳, 宋文娟申请人:汤姆逊许可公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋建平;杜琳;宋文娟
技术所有人：汤姆逊许可公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。