利用单个感测系统的基于多模式姿势的交互系统及方法

文档序号:10663526阅读:624来源:国知局
利用单个感测系统的基于多模式姿势的交互系统及方法
【专利摘要】本文描述了一种用于提供与计算机化系统进行高效且互补的基于自然多模式姿势的交互的方法及系统,该计算机化系统将视觉反馈信息显示在交互表面(120)上的图形用户界面上。交互表面(120)位于包括单个感测系统(170)的成像装置的截头锥体内。该系统使用单个感测系统(170)来同时检测用户的手(240a,240b)所执行的、与交互表面(120)进行的触摸姿势交互以及在交互表面(120)上方的区域或体积(230a,230b)中的三维无接触姿势交互。当姿势已经被检测到时,这两种类型的交互与用于控制计算机化系统的交互命令在情境上相关联。该系统优选地包括投影系统(160),该投影系统(160)用于将图形用户界面和视觉反馈显示在交互表面(120)上,投影系统可位于交互表面(120)相对于感测系统(170)的相同侧或者相对侧。
【专利说明】
利用单个感测系统的基于多模式姿势的交互系统及方法
技术领域
[0001]本发明涉及多模式人-计算机交互系统的改进或者涉及多模式人-计算机交互系统,并且更具体地涉及一种用于利用单个感测装置(例如,被操作用于进行姿势识别的三维成像系统)来提供两种互补的交互模式的方法及系统,所述两种交互模式分别为触摸姿势交互和三维无触摸姿势交互。
【背景技术】
[0002]传统的人-计算机接口包括硬件控制系统接口,诸如,键盘、鼠标、遥控器、触摸板(pads)、触摸屏和指向设备。使用这些接口,需要在硬件设备自身上通过这些设备接口所允许的方式来执行物理动作(例如,触摸、移动、握住、指向、按压、移动、点击或者甚至是按照顺序或同时一起执行的多个这些动作),使得控制命令(诸如,所触发的二进制事件或连续值)可以被发送计算机系统,所述接口意图与该计算机系统进行交互。
[0003]计算机系统通常包括图形用户界面(GUI),该⑶I包括窗口、按钮以及其他项目或元素,所有上述项一起被称为参数,这些参数被显示在屏幕上用于根据所触发并执行的控制命令来向用户提供视觉反馈;这些参数是根据传统人-计算机硬件接口的可用性和人类工程学以及针对主流显示系统的二维能力而被设计的。例如,操作系统具有基本的二维GUI窗口,该二维GUI窗口通常包括用于允许在媒体内容(诸如,地图、图像或文本框)内进行导航的滚动条,所述媒体内容的尺寸可能大于由显示屏尺寸自身的尺寸所限定的区域内所显示的图像的尺寸。使用鼠标硬件设备上的轮子或者将鼠标光标的运动与握住点击动作结合起来对与滚动条的交互进行优化。此外,传统的GUI通常包括二维按钮,当鼠标光标表示正指向所具体确定的按钮区域时,用户使用鼠标按钮点击该二维按钮以将GUI中的内容放大或缩小。
[0004]此外,传统的二维⑶I还可以包括地图导航⑶I交互,该地图导航⑶I交互通常需要与连续的鼠标移动结合的点击,以使得地图根据鼠标移动进行滚动或者从一个地图区域变化到另一个地图区域。
[0005]近来,已经对传统的二维⑶I进行了开发以便于能够通过触摸和/或多重触摸控制接口(诸如,能够进行多重触摸的表面和显示屏)来进行操作。这些第二代基于触摸姿势的接口的控制命令已经被设计成允许用户使用至少一只手的至少一部分(例如,手指)来进行交互、点击、滚动或者放大和缩小,并且可以基于不同类型的硬件技术,诸如,基于电容、电阻、红外线网格、光学成像、分散的信号或声波的技术。
[0006]甚至近来,已经可以获得第三代控制系统接口。这一代控制系统接口包括无接触式交互系统。这些系统还可以基于电容式运动跟踪传感器并且可以包括一种包含有电极和接口电路的系统。在现有的控制系统中使用这样的电容式传感器的主要优点是:这些电容式传感器的功耗低、能够提供无缝集成以及成本低。然而,电容式传感器仅能够进行非常近距离的无接触式交互,例如,在距离于电极的平面的Ocm至1cm之间的距离内,并且仅能够同时分辨并跟踪数量非常有限的兴趣点或端点,诸如,人类的手指,通常仅能分辨并跟踪一个或两个手指。这些电容式运动跟踪传感器通常与第一代或第二代控制接口的另一交互系统(诸如,触摸屏系统)相关联,以便于能够同时进行触摸和无触摸或无接触式姿势交互。然而,这样的传感器不足以作为高效地将触摸三维姿势识别与无接触式三维姿势识别的补充,其中,控制姿势是用户在距离于交互表面接口Ocm与150cm之间的不同距离处通过例如双手和多个手指(例如,6根手指)在空中执行的。
[0007]这些第三代无接触式交互系统还可以基于成像系统(例如,二维或三维相机装置)的,该成像系统用于关于时间连续地捕获场景的图像,以及这些第三代无接触式交互系统还可以是基于用于确定用户在所捕获的场景内所执行的三维姿势的方法的。这样的无接触式交互系统是兼容的,以与现有的传统的硬件接口结合(诸如,触摸屏显示器)进行使用,或者可选地通过如下方式单独地使用:通过触发与所述传统硬件接口相同、但是来自于一组经组织的三维姿势(即,在连续捕获的场景的图形内的静态姿势或动态姿势)的控制命令。
[0008]在10-六-2013/104681中描述了一种这样的多模式交互系统,该多模式交互系统利用了与另一种硬件设备交互系统的结合的基于3D相机的无触摸姿势识别系统。在该WO-A-2013/104681中,描述了一种新型手持无线远程控制设备系统。该系统可以用于提供传统的基于硬件的远程控制信号,用于和与姿势识别系统所提供的基于三维姿势的控制信号相关联的计算机系统交互。该手持无线远程控制设备包括壳体,该壳体包括感测单元并且具有能够针对相关联的计算机化系统生成或触发控制信号的至少一个控制按钮。该计算机化系统以多模式方式使用从控制设备获取的信息和从姿势识别系统获取的信息一起来解决任何歧义(例如,由于执行姿势的手或者在与该计算机化系统相关联的成像系统的视野之外的手出现遮蔽的情况)并且触发与基于姿势的交互系统的交互。按照多种模式进行操作,结合地高效使用两种不同的交互系统,并且每个交互系统都递送被用于增强来自另一方的信号,从而能够增强人计算机交互,这种情况在仅使用两种交互系统之一时不能实现。
[0009]在W0-A-99/40562中描述了另一种无接触式交互系统,该无接触式交互系统使用了摄像机和计算机屏幕系统。该系统包括类似触摸屏的数据录入系统,该数据录入系统是根据包括与接近计算机屏幕的物体有关的数据的视频图形来确定的。摄像机系统被安装在计算机屏幕上方用于监测紧靠在屏幕前方的区域。图像的处理使得通过使用常见的背景移除技术能对屏幕的前景内的笔或用户的手进行探测和跟踪。使用校准处理,在校准处理中,校准点被定位成使得这些校准点覆盖大部分屏幕,校准处理利用类似于线性插值和线性外推的方法通过对所跟踪的手的位置进行虚拟空间坐标转换来生成了屏幕空间坐标。
[0010]在W0-A-02/03316中,无源电容式触摸屏至少与基于立体视觉相机的无接触式交互系统相关联。通过相机所检索出的信息提高了低分辨率、温度和湿度依赖性以及低可伸缩性的电容式触摸系统的数据。基于立体视觉相机的无接触式交互系统包括具有重叠视野的至少两个相机,所述相机包括电容式触摸屏表面。这些相机从不同的位置获取触摸表面的图像,并且当在相机所获取的图形中捕获到了指示器时,这些相机确定该指示器相对于触摸表面的精确位置。校准程序用于便于通过使用三角测量并且考虑到相机关于触摸表面的偏移角度来进行物体定位确定。这使得能够增强确定:指示器是否在给定的点处与触摸表面接触或者盘旋在接触表面上方。
[0011]然而,尽管现有的人计算机交互系统能够基于触摸接口以及无触摸三维姿势接口通过与具有不同技术的至少两个感测系统(例如,与使用来自三维相机的深度信息进行操作的三维无触摸姿势识别系统相关联的电容式触摸屏)相关联的方式进行多模式交互,但是仍然没有一种用于通过与利用不同的现有技术的组合的系统相同的方式控制计算机化系统的准确、可靠、高效并且节约成本的基于多模式触摸和无触摸三维姿势的接口。
[0012]此外,具有不同技术的两种感测系统与图形用户界面的集成通常受限于这些技术之一。例如,当使用用于进行触摸姿势交互的电容式显示屏时,所使用的屏幕具有主图形用户界面,并且附加的另一图形用户界面(例如,可以具有可伸缩的属性,诸如,投影系统)需要增加现有系统的复杂度和成本。同样地,将多个显示屏与多个感测系统相关联并不能提供完整的多功能且可嵌入的、能够使得交互系统可在任何地方并且在任意表面进行操作的系统。
[0013]最后但并非最不重要的,由于将多个感测系统集成是受限的并且对多个感测系统的集成会使得仅需要一个感测系统的显示系统更复杂,使用用于以自然的方式操作多模式人机(或计算机)接口的触摸和无触摸组合的三维姿势的综合的自然交互会在应用、可用性上以及交互过程的人类工程学上相当有限。

【发明内容】

[0014]因此,本发明的目的在于提供一个通用的多模式交互系统,该多模式交互系统克服了与使用多个感测系统相关联的问题,从而允许进行可靠的简化且可用的多模式。具体地,本发明包括一种新颖的方法,该方法要么单独地使用单一传感系统或者将单个感测系统与单个通用显示系统联合一起使用,以提供一种具有图形用户界面的、基于触摸和无触摸姿势的交互系统,该方法是通用的并且在人类工程学上足以在不同的交互表面上被操作,这些不同的交互表面可以不同于单个感测系统自身所施加的表面。
[0015]因此,本发明的目的还在于提供一种新颖的自然多模式交互系统,其中,可以要么按照顺序或同时将不同的交互模式轻易地关联起来或者彼此结合,以允许使用用户的至少一只手的至少一部分来进行人-计算机交互,或者本发明的另一目的在于,同时能够足够通用以允许使用一个或多个用户的一只手或双手或者更多手的至少两部分来进行人-计算机的自然交互。
[0016]因此,本发明的目的特别在于:提供一种用于与图形用户界面交互的通用系统,该系统包括:显示系统,三维成像系统以及计算机系统,其中,显示系统用于将图形用户界面显示到交互表面;三维成像系统被操作成至少对在所述三维成像系统的截头锥体内的、至少一个物体的至少一个部分或用户的至少一只手的至少一部分进行跟踪;以及计算机系统被配置成:对显示系统和三维成像系统进行控制,以及基于来自三维成像系统的数据输出来确定基于姿势的交互控制。
[0017]有利地,此外,该交互系统的特征进一步在于:用于显示图形用户界面的显示表面位于成像系统的截头锥体的一部分中并且还大体上与成像系统对准,以便于将校准问题和约束最小化。本文所使用的术语“大体上对准的”指代显示或交互表面从相机的视点来看的角度,即,交互表面的X-Y平面位于相对于成像系统的X-Y平面的预定角度范围内,例如,在O和45度之间。
[0018]有利地,当考虑到嵌入式系统时,显示系统将包括作为三维成像装置的投影仪元件,投影仪元件位于交互表面的同一侧上,图形用户界面被显示到交互表面上。当考虑到诸如写字台、桌子或窗户的交互表面时,交互系统将优选地被配置成使得三维成像系统和投影仪元件分别位于交互表面的相对侧上,图形用户界面被投影到交互表面上,交互表面对优选地被操作成对波长范围大体上与电磁波谱的可见部分相对应的辐射进行漫射,并且以有限的漫射对波长范围大体上与电磁波谱中红外部分相对应的辐射进行透射。交互表面的透射系数高于50%,并且在IR域具有低于20度的有限漫射。
[0019]因此,本发明的另一目的在于提供一种可由交互系统操作的方法,该方法被存储在非暂时性计算机介质中并且作为由交互系统可执行的指令来被操作。
[0020]该方法是提供用于控制计算机化系统的多模式触摸和无触摸交互,其中所述多模式触摸和无触摸交互是使用来自单个感测系统的数据信息来进行检测并识别的。该单个感测系统优选地为三维成像装置,并且该方法包括如下步骤:对三维成像装置的截头锥体内的至少一个物体的至少一部分进行检测并跟踪;
[0021]通过确定正被跟踪的至少一个物体的至少一部分是否正在执行下列项中的至少一项来启动交互:在交互表面的预定交互区域上的预定触摸姿势,以及在沿着预定交互区域的法线向量轴线上的预定交互体积中的预定无触摸三维姿势;
[0022]通过对所述至少一个物体的所述至少一部分在三维成像装置的截头锥体内所执行的姿势的检测和识别来与计算机化系统进行交互,并且,其中,所检测和识别的姿势是下列项中的至少一项:在交互表面的预定交互区域上的预定触摸姿势,以及与预定交互区域垂直的向量轴线上的预定交互体积的预定无触摸三维姿势。
[0023]有利地,对交互表面的预定交互区域上的触摸姿势的执行的检测对应于检测正被跟踪的所述至少一个物体的所述至少一部分何时在三维空间中与交互表面上的预定交互区域位于空间中的同一位置。
[0024]在一种优选的实施例中,对是否已经执行触摸姿势的检测可以对应于确定在三维空间中正被跟踪的至少一个物体的至少一部分距交互表面的距离何时低于预定阈值。
[0025]类似地,该方法还包括:通过检测正被跟踪的所述至少一个物体的至少两个部分在空间中的位置何时到达属于交互表面的至少两个预定交互区域来确定是否执行了多重触摸姿势。
[0026]该方法进一步包括根据触摸姿势和多重触摸姿势中的至少之一的多个相继位置和持续时间来确定触摸姿势交互控制命令。
[0027]此外,本发明还包括根据被正被跟踪的所述至少一个物体的所述至少一部分所执行的三维姿势来检测三维无触摸姿势交互并且在情境上确定控制命令。通过情境上意味着何时、多长时间并且在空间上相对于交互表面的交互区域和体积的位置。
[0028]在一种优选的实施例中,该方法还包括如下步骤:当预定事件被触发时,结束基于姿势而启动的交互,所述预定事件为下列项中的至少一项:过了预定时间段、在交互表面上的预定触摸姿势的识别、在三维成像装置的截头锥体中的预定三维无触摸姿势的识别、以及所述至少一个物体从三维空间中的预定交互体积中离开。
[0029]该方法可以使用至少一个第一物体的至少一个第一被检测和跟踪的部分来启动交互,以及使用所述至少一个第一物体的至少一个第二被检测和跟踪的部分来执行交互。该方法还使用一个物体的单个被检测和跟踪的部分来执行姿势交互的启动和姿势交互本身。该方法还可以使用来自一个或多个物体中的所检测和跟踪的多个物体来确定是否为触摸姿势、多重触摸姿势或三维姿势,三维姿势是静态的(例如,手的姿势)或者动态的(例如,手的姿势,手的姿势具有手上的被检测和跟踪的至少一个部分在空间中的至少布置的变化)。
[0030]有利地,该方法包括将预定视觉反馈显示在交互表面的至少一部分上的图形用户界面上,该视觉反馈与下列项中的至少一项相关:所述至少一个物体的所述至少一部分的位置,以及正被跟踪的所述至少一个物体的所述至少一部分的被识别出的姿势。
[0031]具体地,本发明的目的在于提供一种方法,其中,与图形用户界面的交互被显示在交互表面上,该方法还包括操作如下步骤:
[0032]使用三维成像装置确定交互表面的拓扑结构以及在空间中的位置;
[0033]根据交互表面的拓扑结构和尺寸确定交互表面上的预定的一组交互区域;以及
[0034]将至少一个触摸姿势交互控制与每个交互区域相关联。
[0035]将更有利地,该方法还包括如下步骤:
[0036]将至少一个交互体积与这组预定的交互区域相关联,每个交互体积位于所述交互区域的上方并且沿着该交互区域的法向量;以及
[0037]将每个交互体积与预定的三维无触摸姿势交互控制相关联。
[0038]最后,该方法包括如下步骤:根据前述实施例中的任意实施例将预定视觉反馈显示在交互表面上的图形用户界面上,该步骤还可以使用下列项中的至少一项来进行操作:用户的身体的一个部位、写字台、墙、红外半透明表面以及物体,所述图像用户界面被投影到所述交互表面上。
【附图说明】
[0039]为了更好地理解本发明,现在将通过示例来参考附图,在附图中:
[0040]图1示出了根据本发明的交互系统的示意性侧视图,该交互系统包括其上投影有图形用户界面的交互表面、附加的显示屏、以及具有顶部安装组件的投影和深度感测元件;[0041 ]图2示出了图1中的交互系统的示意性正视图;
[0042]图3示出了与图1和图2中的交互系统相关联的表面的平面图,其中,在交互表面的表面内嵌入有交互区域;
[0043]图4示出了用于利用本发明的交互系统来控制三维交互的所跟踪的要素的四种不同位置,其中,所跟踪的要素的位置是根据交互表面确定的,并且,其中,四种不同的位置分别确定一种触摸姿势交互控制和三种三维姿势交互控制;
[0044]图5示出了本发明的交互系统的一种实施例,其中,彩色漫射表面显示了后部投影图形用户界面,并且所跟踪的第一手的触摸姿势交互与所跟踪的第二手的三维姿势交互相结合来使用;以及
[0045]图6示出了本发明的交互系统的另一种实施例,其中,彩色漫射表面显示了后部投影图形用户界面,并且紧接着根据所跟踪的第二手的一部分所确定的另一单个触摸姿势交互,使用所跟踪的第一手的至少两个部分的多重触摸姿势交互。
【具体实施方式】
[0046]将针对特定实施例并参考某些附图对本发明进行描述,但本发明并非被限定于此。所描述的附图仅为示意性的而非限制性的。在附图中,出于示意性目的,一些要素的尺寸可能被扩大而没有按比例绘制。
[0047]本发明提供了一种方法及系统,该方法及系统用于使能:与具有用于显示视觉反馈信息的至少一个图像用户界面(GUI)的计算机化系统进行基于多模式触摸和无触摸人类姿势的交互。图形用户界面可以显示如下参数,诸如:按钮、滚动条、旋钮、指针、窗口、媒体内容或现有技术所公知的那些参数中的任何其他参数。控制命令可以与所显示的每个参数相关联、用于对交互系统进行操作。每个控制命令可以与触发事件相关联,并且所述触发事件受到至少一个预定特定姿势的检测和识别的控制。
[0048]所述预定特定姿势可以是触摸或无触摸人类姿势。基于触摸姿势的交互形成多模式姿势交互中的第一模式,以及基于无触摸姿势的交互形成多模式姿势交互中的第模式。按照顺序或同时使用这两种模式的交互形成基于多模式姿势的交互系统,该基于多模式姿势的交互系统是根据单个感测系统所获得的信息数据进行操作的。
[0049]例如,预定的特定姿势可以是所跟踪的手的基于三维姿态的姿势,其中,成像系统所捕获的手的三维(3D)点云具有与特定姿态相对应的特定布置。该姿态的确定是使用用于图像处理和计算机视觉的分类器和机器学习技术来执行的。神经网络、SVM分类器或随机森林分类器(或其他合适的分类器)中的任意一个都表现良好,即,对于一组预定义的特定三维姿势和专用的描述符具有高于85%的检测率。
[0050]预定的特定姿势可以是所跟踪的手的基于三维运动的姿势,其中,成像系统所捕获的该手的3D点云或者至少一个相关联的兴趣点(诸如,但不限于,与手掌中心点或者指尖相对应的点)表明了空间中特定动态移动的性能,与所述特定动态移动相关联的三维路径被统计地分析以根据一组描述符确定执行了哪种形状。每个形状都可以与三维姿势相关联。例如,如果所跟踪的移动的手的运动在成像系统的截头锥体中的预定区域内执行圆周运动,则可以相应地检测到圆圈姿势。应当注意的是,描述符的质量很关键。高质量的相关物体运动描述符可以是时间上的平均速度、一组位置(在这些位置处的移动表明沿着坐标系统的轴线之一的方向发生变化)、加速度、持续时间、运动的大小等。
[0051]基于三维运动的姿势和基于三维姿态的姿势在下文中一起被称为三维姿势。可以同时执行基于三维运动的姿势和基于三维姿态的姿势从而同时对他们进行检测,并且如果交互系统启用了这些姿势,则这些姿势可以触发控制命令。实际上,针对每种类型的交互,可以具体地预定一种姿势或另一种姿势。例如,如果被应用程序所启用,则在场景内从左到右快速地移动手可以触发向右“猛击”的控制命令。在这种情况下,例如,可以使用另一种内容代替媒体内容。在另一示例中,如果在图形用户界面(GUI)显示的滚动条或按钮的特定位置处进行了基于“抓取”三维姿态的姿势的检测并且当手的位置沿着GUI的滚动条的轴线移动时一直保持着该“抓取”姿势,则滚动条或按钮的显示将相应地移动并且所显示的内容(诸如,地图)将相应地滚动直到检测到“抓取”姿势被释放或者不在执行“抓取”姿势为止。
[0052]对触摸姿势的执行的检测是相对于交互表面上的预定交互区域进行的。多个触摸姿势是以相同的方式确定的,但是是相对于交互表面的多个交互区域的。该检测包括对所跟踪的至少一个物体的至少一部分关于时间或者随着时间的变化的三维位置进行跟踪。该检测还包括如下步骤:不断地确定物体的每个被跟踪的部分(可以是手的指尖)距离交互表面上所预定的最近的交互区域的距离。该检测还包括如下步骤:当所跟踪的物体的至少一部分与交互区域的距离低于预定阈值时,在每个交互区域处触发触摸姿势或多重触摸姿势,例如,阈值可以是0.1mm,或者如果距离等于零(O)。每个单个触摸姿势根据与该触摸姿势相关联的或者所归属的交互区域来触发控制命令。
[0053]例如,使用显示有键盘的GUI可以进行利用多重触摸姿势的同时控制,其中,在该GUI上的三种同时触摸姿势以及其相关联的交互区域对应于:“控制(CTRL)”按钮、“更改(ALT)”按钮、以及“删除(DEL)”按钮,当这三个按钮被一起执行时,这些按钮运行控制命令以显示新的菜单。
[0054]也可以使用相同模式或不同模式的至少两种姿势的组合来进行同时控制,例如,一只手执行多重触摸控制,而另一只手执行基于三维运动的姿势。还可以使能不同的姿势交互模式的顺序组合。
[0055]本发明的特征在于:其使用了一种交互系统,该交互系统仅包括作为计算装置或处理器的数据信息提供方的一个感测系统,该感测系统确定两种不同的交互模式两者,即,触摸姿势交互和无触摸姿势交互。无触摸姿势交互在下文中还可以被称为“无接触姿势”、“三维(3D)姿势”或“三维(3D)无触摸姿势”。
[0056]如上所述,所显示的⑶I可以包括多个参数,这些参数可以与至少一个交互控制装置在情境上相关联。交互控制方法是计算机化系统指令,当所述计算机化系统指令被触发时,将执行预定计算。该预定计算的结果可以通过至少利用来自GUI的图形视觉反馈根据计算机化系统的反馈方式来任选地被渲染为反馈信息,或者,任选地,如果多模式交互系统中包括有音频渲染系统时,被渲染为音频反馈。例如,用户界面上的按钮可以与计算机化系统将操作的“关闭窗口”操作或“读取媒体”动作相关联。如果用户交互触发所述操作的启动,则计算机化系统将操作成关闭所打开的窗口并且关闭其在GUI内的渲染,并且发起媒体播放器以通过音频系统生成音频反馈,同时GUI将显示并更新媒体播放器进程栏的状态。
[0057]要由用户交互所控制的每个参数都可以与交互表面的表面处的至少一个预定交互区域相关联,所述至少一个预定交互区域是用户打算与之进行交互的区域。
[0058]每个如此定义的交互区域意欲被用于进行触摸姿势交互。优选地,与参数相关联的区域的尺寸与该参数在交互表面经渲染的表示相对应。这可以防止:如果参数相互靠得太近,造成触发本属于邻近参数的基于姿势的交互。然而,为了便于使用,一些参数可以在情境上具有不同尺寸的交互区域,这些交互区域要么大于或要么小于这些参数在交互表面上的图形表示。
[0059]类似地,由用户交互所控制的每个参数或该参数的子参数可以与至少一个预定交互体积相关联,即,三维交互区域,该三维交互区域的位置优选地位于交互表面上所渲染的视觉反馈的交互区域的顶部。交互体积的大小、位置和形状可以是根据应用程序所支持的交互而在情境上进行定义的。交互体积控制优选地意图结合三维姿势交互一起使用。
[0060]例如,交互体积可以与音频系统的音量的控制相关联。交互体积可以位于GUI上所显示的扬声器表示的顶部上。当用户使用他的手的至少一部分来与交互表面上与扬声器表示相关联的交互区域执行触摸交互时,计算机化系统被指示开始音量控制交互,其中,交互区域的尺寸为扬声器表示的尺寸。用户的手在触摸交互之后的位移构成了连续的三维姿势交互控制,对于该连续的三维姿势交互控制,手的至少一部分(例如,手掌或一个预定的手指)之间的距离确定了音频音量调节(或控制)参数的值,即,手距离交互表面越远(或越高),则音频音量越大,以及手距离交互表面越近(或越低),则音频音量越小。
[0061]在另一种实施例中,音频音量的值可以根据手向上移动直到从与交互区域相关联的交互音量(因此,为音频音量控制)离开为止的移动来持续地被调节。在另一种实施例中,可以根据手与交互表面的距离连续地设置音频音量,并在预定时间段之后将音频音量固定。在另一种优选的实施例中,可以根据手与交互表面的距离来连续地设置音频音量,并且当交互体积内的所述跟踪的手执行预定的三维姿势,即,静态姿势或姿势(诸如,“捏”或“抓”姿势)时,将音频音量固定,其中,预定的手指(例如,但不限于食指和拇指)在彼此接近并且其距离低于预定距离阈值时被检测。在一种实施例中,距离阈值可以低至1mm。
[0062]在后一示例中,应当理解的是,GUI上的扬声器表示是与开始“音频音量控制”交互操作相关联的交互区域的GUI参数,其中,当触摸交互被检测到时,所述开始“音频音量控制”交互操作被触发,并且应当理解的是,音频交互与“音频值控制”子参数相关联,“音频值控制”子参数是根据预定后续的三维姿势交互来进行操作的。
[0063]如本文所描述的,本发明包括一种方法,该方法包括对三维成像系统的截头锥体内的至少一个物体的至少一部分进行跟踪。物体可以是手,以及物体的一部分可以是手指或指尖。应当理解的是,感兴趣点的检测和跟踪并不是本发明的目的,以及多个技术可以被应用于获取所请求的类似的输入。例如,一旦设定了交互系统设置,就可以应用静态背景学习技术来注册所捕获的场景背景,以及可以在运行时应用背景移除技术(诸如,形态数学深度图像减法(morpho-mathematical depth image subtract1n))以一帧一帧地将所捕获的场景中的前景中的移动的感兴趣物体从静态背景分离。考虑到成像传感器装置的深度图像采集,可以获取用户的手的3D点云。然后可以将至少受限于群集大小的3D点云群集技术应用于与手对应的前景点以及邻近的图形,所述邻近的图形用于通过检测哪些群集仅与另一个群集连接来确定端点。可以使用分类技术(诸如,随机森林分类器)来高效地执行物体或物体的部分的识别和跟踪,如果使用例如K均值和领导-随从聚类的混合来将分类技术应用于经合适分段的数据。将背景移除技术与聚类和分类技术的结合提供了一种方式来对每个已知物体的每个部分进行检测、跟踪以及识别,该已知物体具有意在用于交互的已知或学习到的3D形状。
[0064]如果交互方法符合任意类型的具有至少一个显示屏的显示系统,则可以结合多种显示器一起使用,诸如,如图1所示,其中,传统的显示屏110(诸如LCD屏)与交互表面120相关联,可以使用投影装置将GUI投影到交互表面120上。基于姿势的交互使得用户能够将参数(诸如,媒体内容)从一个显示屏的⑶I递送至另一个显示屏的⑶I。更精确地,在第一⑶I上显示过参数的位置处已经检测到触摸姿势之后,递送命令可以被触发,随后将被允许并且执行的交互的启动是通过检测朝向第二GUI的方向的“抓-滑动-释放”的姿势序列的执行,内容参数要被递送至第二⑶I。
[0065]在本发明的优选实施例中,由于使用了投影装置(诸如,投影仪或微投影仪),因此可以使用单个显示系统显示GUI,在交互期间,投影装置向用户提供视觉反馈。这在下面参考图5和图6进行了说明和描述。
[0066]所述投影可以被操作到各种各样的表面和材料上。本文中所使用的术语“表面”指代可以将图像投影到其上的任意表面。合适的表面包括但不限于:屏幕、平坦表面、曲面以及透明表面。
[0067]在本发明的最简化的实施例中,GUI可以被投影到平坦的桌面或平坦的墙上,该平坦的桌面或平坦的墙可以被用作限定人-计算机交互表面的显示支持物。然而,GUI还可以被投影到非平面的表面(诸如,具有圆形形状的物体,例如,气球)或者用户的身体的一部分(诸如,前臂或手掌的内侧部分)。
[0068]在一种优选的实施例中,同时用作显不屏和交互表面的材料可以表露出对于波长位于电磁波谱的(人类)可见部分内的电磁辐射的实质性的漫射属性。实质性的漫射属性意味着:该材料漫射入射光的至少百分之十(10%)以使得待被显示的视觉反馈能够被适当地渲染。可以相应地调节投影系统光功率输出。
[0069]优选地,可以通过“朗伯(Lambertian)”方式,S卩,对于当用户位于与投影装置相对于交互表面的相同侧时的所有可能的反射角度以及对于当用户位于投影装置相对于交互表面的相对侧时所有可能的透射角度都是一样的,来对属于波长范围介于400nm至680nm之间的入射光束的电磁辐射进行漫射。
[0070]“朗伯”反射率是一种定义理想的“无光”或漫射地反射表面的属性。不管观察者的视角如何,这样的表面的视亮度(apparent brightness)都是一样的。更具体地,该表面的亮度是等方向性的,并且发光强度遵循朗伯余弦定律。
[0071]在本发明的甚至更优选的实施例中,具有大于680nm的波长的(S卩,在红外域中)入射的投影光束的电磁辐射可以被传送,具有高透射系数比率(例如,大于20%)并且没有实质性的漫射,即,当用户位于交互表面相对于三维相机的相对侧时,位于小于20度的立体角内。当用户位于交互表面相对于三维相机的相同侧时,优选地使用具有低于20%的低红外(IR)发射系数比率的材料,而表露了具有高于60度的立体角的实质性高漫射比率以避免IR镜面反射进入成像系统,IR镜面反射进入成像系统能够对深度测量值的可靠性造成破坏。
[0072]用于使得能够与计算机化系统进行基于多模式触摸和无触摸人类姿势的交互的本系统的特征在于:该系统包括单个感测系统。本文所使用的作为数据信息提供方的单个感测系统包括三维感测系统,例如,三维感测系统可以是三维(3D)成像系统或相机。优选地,该基于多模式触摸和无触摸人类姿势的交互的计算机化系统将利用3D相机,该3D相机使用场景的IR照明来获得更好的深度测量。无源IR 3D相机(诸如,立体视觉或结构化光3D相机)可以适合于计算机化系统,然而,优选的是基于有源照明的3D相机,诸如,深度感测或飞行时间(ToF)相机。甚至更优选地,成像系统还可以被嵌入到3D相机以及具有相似的或更高的分辨率的彩色相机中。深度感测或ToF相机以及彩色相机中的每一个具有截头锥体(frustum),该截头锥体至少彼此重叠,并且使得能够对整个交互表面进行捕获,在该交互表面中,可以对至少一只手或物体的至少一部分的移动或姿势进行检测、跟踪并且用于确定所投影的GUI的控制参数。
[0073]本文所使用的术语“截头锥体”指代成像元件的视野,S卩,从镜头向表面延伸的棱锥体体积。该术语“截头锥体”还指代来自投影仪的图像的被投影的视图,例如,从投影仪镜头到表面延伸的棱锥体。在每种情况下,如果投影是同样准直的,则表面上的区域可以由椭圆、圆或矩形来定义。
[0074]本文所使用的术语“三维相机”、“深度感测相机”或“飞行时间(ToF)相机”指代为所捕获的场景中的图像中的每个像素提供三维坐标的摄像机或静物照相机。两个维度(X和Y)是由与相机的轴线垂直的X-Y平面来确定的,以及第三维度(Z)是从相机到所成像的表面的像素的距离。这样的相机产生了三维点云,其中,在云中的每个点对应于具有三维坐标的像素。当使用了来自现有技术中的校准方法来应用转换矩阵以将数据值从一个坐标系统投影到另一个坐标系统时,3D点云或相对应的深度图像提供了与相机坐标系统相关联的和与交互表面(或世界)坐标系统相关联的值。
[0075]此外,本文所使用的术语“彩色相机”或“RGB相机”指代可以提供所捕获的场景的彩色图像的摄像机或静物照相机。这样的相机针对所捕获的场景中的每个像素产生了二维彩色图像。当使用现有技术中的图形配准技术时,彩色相机和三维相机将每个深度测量值(如果参考相机坐标系统的话)或3D点(如果参考世界坐标系统的话)与颜色相关联。在一种实施例中,成像系统至少包括用于从场景中提取深度信息的三维相机以及具有更高分辨率的彩色相机。相对于对同一场景进行成像的深度感测单元,具有更高分辨率的彩色感测单元可以用于对用于显示图形用户界面的交互表面上触摸姿势进行精确地定位和确定。传统的图像配准技术可以用于将每个深度感测像素与每个颜色感测像素相关联,高分辨率的彩色感测单元被用于对从较低分辨率深度感测相机所获得的原始X-Y位置进行提炼以在也具有高分辨率的显示表面上提供更精确的X-Y位置。
[0076]现在将针对图1至图6对本发明进行更详细的描述,图1至图6与包括本发明的保护范围的具体实施例有关。
[0077]本发明的方法包括:对在触摸表面上相对于预定交互表面的触摸姿势的执行进行检测。该方法还包括如下步骤:利用待被显示的图形用户界面和被使能用于与之交互的控制命令在情境上预先确定交互区域。在预备的步骤中,对交互表面进行检测,并且对交互表面的位置、形状以及拓扑结构中的至少一个,即表面的建模,进行配准。
[0078]根据用于操作该方法的系统,例如,当交互表面是固定的(S卩,不移动)并且具有已知的形状,诸如,平板、桌子或者表面时,可以在基于多模式姿势的交互系统的启动时,执行一次对交互表面的检测,可以手动地或自动地执行检测过程。当交互表面能够移动并且具有可变的形状时,例如,当交互表面是用户的前臂时,必须自动地实时执行该检测。
[0079]在第一实施例中,其中,在该系统中检测是通过手动执行的并且静态平面被设置在空间中使得该静态平面位于成像系统的截头锥体内,在第一步骤中,交互系统的用户使用位于表面的顶部的简单的白纸片,该白纸片的尺寸被限定为交互表面的尺寸。该白纸片对来自有源IR深度感测相机(例如,ToF三维相机)的IR照明进行反射。然而,如果在没有白纸片的情况下,表面的IR反射属性足够强,即,为入射光的至少20%,则白纸片并非强制性的。
[0080]在第二步骤中,使用感测系统对所指定的交互表面与感测系统之间的距离进行测量。所获取的深度数据可以用于第三步骤,在第三步骤中,使用计算机视觉方法来确定所获取的3D数据集合、3D点云或深度映射内的平面。可以使用平面检测方法,诸如,传统的平面拟合算法(例如,3D最小二乘平面、随机抽样一致性算法(Ransac)或者任何其他基于线性代数的方法)。确定平面的几何属性所需要的输入必须包括在交互表面的表面上分布的至少四个点。优选地,如果被限制到这四个点,则这些点必须被选取为交互表面的拐角。一旦平面被确定,则可以根据每个点与成像系统的距离以及根据成像系统中的截头锥体内的任意点来对平面的每个点进行定位。提供实时距离测量的深度测量可以用作确定被用于在后续的步骤中的姿势识别目的的阈值的准则。
[0081]类似地,可以自动地执行同样的交互表面检测和确定步骤,静态平面被设置在系统的空间中使得它的表面位于成像系统的截头锥体内。如图3所示,平坦的交互表面可以包括对于IR照明具有高度反射性的四个点的集合,这四个点代替在手动检测和确定步骤中的白纸片上所测量的至少四个点,每个点再次位于被限定为交互表面的区域的拐角处。
[0082]在交互表面检测和确定步骤的另一个手动实现中,对于IR照明具有高反射性的四个点的集合可以不在交互表面上。用户可以使用他的手指按照顺序及时地找准交互表面的四个拐角。此外,成像系统将被操作成检测并跟踪特定的指尖,或者按照顺序对四个拐角中的每个拐角在空间中的三维位置进行配准。
[0083]在任意先前所描述的实现中,可以在沿着与交互表面垂直的垂直方向(Z)上施加例如3mm的偏移量。这为3D成像装置的深度测量精确问题提供了补偿,并且确保被感测为几乎与交互区域接触的移动物体(例如,在2mm的距离处)仍然能够在可能的情况下触发姿势事件。
[0084]在本发明的另一实施例中,其中,已知投影仪的三维位置是相对于三维相机的位置的,例如,如果投影仪和三维相机都位于交互区域的同一侧,并且被静态地嵌入到硬件系统(诸如,膝上型计算机、头盔)上,或者被嵌入到智能眼镜中,则投影参数设置,即,焦点、梯度调节(keystone)、缩放以及图形用户界面布局尺寸可以通过提取与潜在的移动交互表面有关的距离、拓扑结构和几何信息来自动地进行修改,以适用于图形用户界面布局尺寸的渲染。这可以通过使用三角测量方法恢复几何失真来进行。
[0085]可以连续地对交互表面以及显示表面进行检测和确定,甚至当显示表面随着时间移动时也是如此。例如,当显示表面是特定的物体或用户的身体的一部分(例如,上臂或手掌的内侧)时,并且如果三维相机和投影仪被安装到头盔上或者智能眼镜中,则使用图像处理方法(诸如,模式识别和分类器技术),提供对用作三维空间内的交互表面的前臂的可靠的检测和跟踪。所跟踪的前臂的位置和方位可以通过逐步地使用任何同时位置和映射算法(SLAM)来对所跟踪的移动物体进行拓扑建模来进一步地确定,该拓扑模型是交互表面的三维表示,所述三维表示的精确位置和方位可以一帧一帧地被确定,并且可以使用简单的三维几何计算(诸如,三角测量)来确显示表面的任何位置。
[0086]首先参考图1,示出了根据本发明的交互系统100的示意性侧视图。系统100包括位于表面120上的屏幕110以及与该屏幕110相关联的成像单元130。该屏幕110可以是能够与数据源(未示出)连接的、用于显示图像的任意合适的屏幕。成像单元130被设置成具有延伸至支撑表面120的截头椎体140。
[0087]在图1所示的实施例中,成像单元130被直接地安装在屏幕110上。然而,应当理解的是,可以以任意其他合适的方式安装成像单元130使得该成像单元130具有相同的截头锥体,相对于屏幕,成像单元要么被嵌入要么被单独安装。此外,所示出的屏幕110受表面120的支撑。此外,应当理解的是,还可以通过其他方式来支撑屏幕。
[0088]在图2中,示出了交互系统100的示意性正视图。成像单元130包括三个独立的成像元件150、160、170。尽管成像元件150、160、170被示出为集成到单个成像单元130中,但是应当理解的是,这些元件中的每个元件可以分别相对于屏幕110以及相对于表面120进行设置,同时提供如下面所更详细描述的相同功能。
[0089]成像元件150可以包括彩色或RGB相机,该彩色或RGB相机可以捕获该成像元件150的截头锥体180(由两条划-点-点-划线表示)内的场景的二维彩色图像。成像元件150产生了用于与成像元件170的图像进行图像配准的图像,成像元件150、170都位于本发明的交互系统内,并且将在下面被更详细地描述。
[0090]成像元件170可以包括深度感测或ToF相机,该深度感测或ToF相机可以捕获该成像元件170的截头锥体190(由两条划-点-划线表示)内的场景的三维图像。成像元件170所产生的图像经处理后可以提供成像元件170的截头锥体190内的物体的三维位置信息,如下面将更详细描述的,该三维位置信息可以用于与被投影到表面120上的图像用户界面(GUI)的交互。
[0091]成像元件160包括与计算机化系统连接的投影仪。该投影仪可以将与被提供至屏幕110的相同的图像投影至表面120上。成像元件160将图像投影至截头锥体200(由两条虚线表示)中。在一种实施例中,所投影的图像是彩色图像,该彩色图像包括被显示到表面120上的具有至少一个参数的⑶I。
[0092]如图2所示,成像元件150的截头锥体180、成像元件160的截头锥体190以及成像元件170的截头锥体200在表面120上具有重叠。
[0093]图3示出了表面120的平面图,其指示出成像元件150、170的截头锥体内的各个区域以及区域200,其中,成像元件160将图像投影到该区域200上。如图所示,通过图2所示的相同类型的线描绘了每个区域的轮廓,并且每个区域包括例如矩形。自然地,截头锥体可以是不同的,例如,椭圆形或圆形,这取决于特定的成像元件。
[0094]如图3所示,区域210是截头锥体180、190、200的公共区域。交互区域或区220还被示出在公共区域210内。该交互区域或区有效地包括沿着朝向ToF成像系统的方向从交互表面延伸出的体积。一旦交互系统已经被校准,则交互区220内的任意物体的移动都可以用于控制屏幕上的图像。
[0095]在本发明的一种实施例中,其中,平面表面(诸如,桌面)被用作交互表面,交互区220的校准是通过对与公共区域内的表面上的矩形的拐角相对应的四个点220A、220B、220C、220D的子集进行限定来实现的。校准过程可以是预备步骤,其中,只有当用户按照顺序将至少一只手的至少一部分(例如,手指)放置在每个拐角以限定表面120上的交互区域时,用户才可以执行该预备步骤,其中,图形用户界面(GUI)通过成像元件或投影仪160被投影到所述交互表面上。在校准过程中,按照顺序针对四个点中的每一点记录手指在三维空间中的位置,并且通过几何计算将一个平面确定为由四个点所限定的表面。任意位置都属于所确定的表面,即,这些位置具有与该表面相同的高度,并且,在表面的限制内的横坐标和纵坐标是形成交互表面以及其相关联的交互区域的点。
[0096]在本发明的另一实施例中,其中,平面(诸如,桌面)被用作交互表面,交互区220的校准可以在启动时根据自动过程来实现。该自动过程可以包括:使用模式识别技术来检测先前粘在交互表面上的四张贴纸的模式以在物理上确定交互表面的界限。模式识别可以包括使用这四张贴纸的下列项中的至少一项:形状、颜色以及纹理。一旦利用每个成像系统检测到这些贴纸,则所述校准包括将来自每个成像系统的位置数据变换成另一个成像系统的位置数据。例如,来自彩色相机的横轴X数据和纵轴Y数据可以通过使用常规图像配准变换模型(诸如,简单线性变换或优选地为薄板或曲面样条函数变换)被投影到三维相机坐标系中。
[0097]彩色相机、3D相机以及投影仪的X-Y位置相对于彼此被配准使得来自这些坐标系中任意坐标系的参数的任意X-Y位置可以与深度信息相关联。将参数的X-Y 二维(2D)坐标与第三坐标(第三坐标与深度信息相关)相关联形成了 3D坐标。因此,该校准,相对于形成交互区域220的一部分的所确定的交互表面上的任意位置,使得来自成像系统130的每个参数能够与空间中的三维位置相关联并且与颜色相关联。
[0098]如上所述,在本发明的一种实施例中,GUI可以包括至少一部分,在该至少一部分上,物体相对于该至少一部分沿着与表面120的平面垂直的方向的移动可以控制诸如音频音量控制的参数。在图4中,音量控制的实现的示例被示出并且将在下面更加详细地被描述。
[0099]交互区220内的物体的识别是通过使用成像元件170,即,深度感测或ToF相机来确定的。首先对三维点云进行处理以识别出物体,然后一帧一帧地跟踪物体的移动。跟踪物体提供了用于控制GUI的交互;物体240远离于表面120且沿着与该表面120垂直的方向的移动被跟踪,从而为音量控制器提供控制信号。
[0100]更精确地,GUI的一部分230,即,与⑶I参数的位置对应的交互区域,可以被认为是控制器,并且,当物体240(诸如,手指或手)被放置成与该部分230上方的表面接触并且沿着远离于表面120的方向移动时,控制器被操作成改变与所投影的图像相关联的音量的级别,其中,GUI按照预定方向被投影到表面120上。在由0%表示的位置处,音量为O或者被关闭。当物体240从0%位置移动至距离部分230的第一预定距离的时候,则音量增大至最大音量的25%。当物体240移动至距离部分230的第二预定距离的时候,则音量增大至最大音量的50%。当物体240移动至距离部分230的第三预定距离的时候,则音量增大至最大音量。自然地,尽管在图4中仅通过示例的方式示出了三个级别,但是应当理解的是,可以根据距离于表面的其他预定距离来实现任意合适数量的级别。
[0101]尽管可以描述物体沿着垂直于表面的方向上的移动,但是应当理解的是,相对于表面的任意其他移动也可以被用来控制GUI,例如,当考虑到用户的手时,可以根据一组至少三个兴趣点(可以是拇指尖、食指尖以及手腕的中间点)的位置的变化来检测动态移动,诸如,旋转。兴趣点的检测和跟踪可以根据多种方法来执行,诸如,对手或任意其他合适的肢体检测的遮蔽进行的主成分分析(principal component analysis)。
[0102]在图5中,本发明的交互系统的实施例包括后部投影显示器,该后部投影显示器用于使用投影仪160来漫射图形用户界面的颜色。交互表面120用于结合三维姿势交互来在第一所跟踪的手240a的情境上预定的触摸姿势交互区域230a处进行触摸姿势交互,该三维姿势交互是根据第二所跟踪的手240b所确定的并且发生在预定尺寸的交互体积中,交互体积在第二在情境上确定的交互区域230b上沿着交互表面120的法线延伸,所述跟踪使用前置深度感测相机170来实现,感测相机170位于交互表面120顶部并且相对于交互表面120在投影仪的相对侧上。
[0103]在图5所示的实施例中,交互表面必须表明针对光的特定属性。该表面必须漫射电磁波谱中的可见部分中的波长,使得所投影的图形用户界面可以被用户看到,但是对于红外线是透明的以避免在使用有源IR深度感测相机(诸如,ToF 3D相机)时由于来自制成交互表面的材料的镜面反射或高反射对IR传感器造成多深度测量的饱和和干扰。
[0104]这样的表面的这样的光子属性很难获得,并且仅能提供几个方案。例如,这些方案包括但不限于:使用玻璃窗口或聚碳酸酯窗口,这些窗口具有可以将涂层施加至其上的表面。该涂层可以由硫化锌(ZnS)颜料颗粒或硫酸锌(ZnS04)颗粒制成,硫化锌(ZnS)颜料颗粒或硫酸锌(ZnSO4)颗粒占用于施加涂层的物质的1 %的比例。硫酸钡(BaSO4)颜料也可以是适合的,硫酸钡(BaSO4)颜料被认为是最好的可见波谱的光漫射器,并且,因为当硫酸钡(BaS04)颜料在被用作以朗伯(Lambertian)方式均勾地反射电磁波谱中的可见光部分中的波长的物质时,硫酸钡(BaSO4)颜料不会产生任何色差。
[0105]—种实施例将包括被涂覆至玻璃或聚碳酸酯窗口上的涂层,将使用该物质来喷印该窗口以形成涂覆到窗口上的涂层物质的网格。可以根据所预期的颜色漫射属性来调整窗口上所涂覆的小区域之间的距离(P i tch)以及所涂覆的小区域的尺寸和布置。
[0106]在图6中,本发明的交互系统的另一实施例包括后部投影显示器,该后部投影显示器用于使用投影仪160来漫射图形用户界面的颜色。所确定的交互表面120被用于在情境上预先确定的触摸姿势交互区域230处进行触摸姿势交互。第一被跟踪的手240c执行单个触摸姿势交互,同时第二被跟踪的手240d正在执行向两个不同的交互区域230上执行多重触摸姿势交互,所述跟踪是使用深度感测相机170来执行的,该深度感测相机170具有位于交互表面120的顶部的截头锥体140。
[0107]更适合于使能鲁棒且强大的多重触摸姿势的优选实施例应当是具有以下成像感测装置,该成像感测装置位于用户相对于交互表面的一侧的相对侧上。这样的实施例可以提供一种系统,其中,用户的手的主要交互部位(用于触摸姿势),即,指尖,绝不会被掩盖。
[0108]尽管已经参考具体实施例对本发明进行了描述,但是应当理解的是,本发明并不被限定于这些实施例,并且可以按照其他方式来实现本发明。
【主权项】
1.一种用于与计算机化系统进行多模式触摸和无触摸交互的方法,其中,所述多模式触摸和无触摸交互是使用来自单个感测系统的数据信息来执行的,所述单个感测系统是三维成像装置,所述方法包括如下步骤: a)对所述三维成像装置的截头锥体内的至少一个物体的至少一部分进行检测和跟踪; b)通过确定正被跟踪的所述至少一个物体的所述至少一部分是否正在执行下列项的至少一项来启动所述交互:在交互表面的预定交互区域上的预定触摸姿势,以及在与预定交互区域垂直的向量轴线上的预定交互体积中的预定无触摸三维姿势; c)通过对所述至少一个物体的所述至少一部分在所述三维成像装置的截头锥体内所执行的所述姿势进行检测和识别来与所述计算机化系统进行交互,所检测和识别的姿势为下列项中的至少一项:在所述交互表面的预定交互区域上的预定触摸姿势,以及在与预定交互区域垂直的向量轴线上的预定交互体积中的预定无触摸三维姿势。2.根据权利要求1所述的方法,其中,对所述交互表面的预定交互区域上的触摸姿势的执行进行检测对应于检测正被跟踪的所述至少一个物体的所述至少一部分何时在三维空间中与所述交互表面上的预定交互区域位于空间中的同一位置。3.根据权利要I或2所述的方法,其中,检测是否已经执行触摸姿势是确定在三维空间中正被跟踪的所述至少一个物体的所述至少一部分距所述交互表面的距离何时低于预定阈值。4.根据权利要求1至3中任一项所述的方法,其中,当正被跟踪的所述至少一个物体的至少两个部分在空间中的位置到达属于所述交互表面的至少两个预定交互区域时,则确定执行了多重触摸姿势。5.根据权利要求1至4中任一项所述的方法,还包括如下步骤:根据触摸姿势和多重触摸姿势的至少之一的多个相继位置和持续时间来确定触摸姿势交互控制。6.根据权利要求1至5中任一项所述的方法,还包括如下步骤:根据由正被跟踪的所述至少一个物体的所述至少一部分所执行的所述三维姿势来确定三维无触摸姿势交互控制。7.根据权利要求1至6中任一项所述的方法,其中,步骤c)还包括如下步骤:当预定事件被触发时结束所述交互,所述预定事件包括下列项中的至少一项:过了预定的时间段、识别所述交互表面上的预定触摸姿势、识别所述三维成像装置的所述截头锥体中的预定三维无触摸姿势,以及所述至少一个物体从所述三维空间中的预定体积中离开。8.根据权利要求7所述的方法,其中,步骤b)包括使用所述至少一个物体的第一被检测和跟踪的部分,以及步骤c)包括使用所述至少一个物体的第二被检测和跟踪的部分。9.根据权利要求7所述的方法,其中,通过使用一个物体的单个被检测和跟踪的部分来按照顺序控制步骤b)和C)。10.根据权利要求1至9中任一项所述的方法,还包括:将预定视觉反馈显示在所述交互表面的至少一部分上的图形用户界面上,所述视觉反馈与下列项中的至少一项有关:所述至少一个物体的所述至少一部分的位置,以及正被跟踪的所述至少一个物体的所述至少一部分的被识别出的姿势。11.根据权利要求10所述的方法,其中,将与所述图形用户界面的交互显示在所述交互表面上还包括操作如下步骤: d)使用所述三维成像装置来确定所述交互表面的拓扑结构以及在空间中的位置; e)根据所述交互表面的拓扑结构和尺寸来确定所述交互表面上的预定的一组交互区域;以及 f)将至少一个触摸姿势交互控制与每个所述交互区域相关联。12.根据权利要求11所述的方法,还包括如下步骤: g)将至少一个交互体积与所述预定的一组交互区域相关联,其中,每个交互体积位于所述交互区域的上方并且沿着所述交互区域的法向量;以及 h)将预定的三维无触摸姿势交互控制与每个交互体积相关联。13.根据权利要求11或12所述的方法,其中,所述交互表面为下列项中的至少一项:用户的身体的一个部位、写字台、墙、红外半透明表面以及物体,所述图形用户界面被投影到所述交互表面上。14.一种用于与图形用户界面交互的系统,所述系统包括: 显示系统,其用于将所述图形用户界面显示到交互表面上; 三维成像系统,其被操作用于至少对在所述三维成像系统的截头锥体内的、用户的至少一只手的至少一部分进行跟踪;以及 计算机系统,其被配置成:对所述显示系统和所述三维成像装置进行控制,以及使用来自所述三维成像装置的数据输出来确定基于姿势的交互控制; 所述系统的特征在于,用于显示所述图形用户界面的显示表面包括所述三维成像装置的所述截头锥体的至少一部分并且所述显示表面大体上与所述成像系统对准。15.根据权利要求14所述的系统,其中,所述显示系统包括作为所述三维成像装置的投影仪元件,所述投影仪元件位于所述交互表面的同一侧上,所述图形用户界面被显示到所述交互表面上。16.根据权利要求14所述的系统,其中,所述三维成像系统和所述投影仪元件分别位于所述交互表面的相对侧,所述图形用户界面被投影到所述交互表面上,所述交互表面可操作用于:对波长范围大体上与电磁波谱的可见光部分相对应的辐射进行漫射,以及以有限的漫射对波长范围大体上与所述电磁波谱中的红外部分相对应的辐射进行透射,所述交互表面的透射系数高于50%,并且所述有限的漫射低于20度。17.根据权利要求14至16中任一项所述的系统,所述系统可操作用于执行根据权利要求I至13中任一项所述的方法。18.—种非暂时性计算机介质,所述非暂时性计算机介质可操作用于存储可执行指令,所述可执行指令用于执行根据权利要求1至13中任一项所述的方法。
【文档编号】G06F3/01GK106030495SQ201580003683
【公开日】2016年10月12日
【申请日】2015年1月30日
【发明人】阿历山大·卡莫维彻, J·托洛, 劳伦特·季格斯
【申请人】索弗特凯耐提克软件公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1