使用标记物的基于姿态的人机接口的制作方法

文档序号:12513090阅读:268来源:国知局
使用标记物的基于姿态的人机接口的制作方法与工艺

本公开总地涉及用于人机接口的姿态识别领域。更特别地,本公开涉及使用标记物的使用直观姿态的人机接口。



背景技术:

背景描述包括了可能对理解本发明有用的信息。并非承认在此提供的任何信息是现有技术或与当前所要求保护的发明相关,或者并非承认任何具体地或者隐含地引用的出版物是现有技术。

姿态长期以来用于人类之间的沟通。姿态可源自于任何身体运动或状态,但是通常源自于面部或手部。人类长期以来使用面部表情来解释情感。使用手部的最简单的姿态是使用图形指出方向或人或物体。更先进的变化是符号语言,据知人类在学习使用口头语言之前已经使用过符号语言。后来,使用手部姿态的符号语言已经演进,为语言/听力障碍者使用。

通常,使用符号/姿态的沟通包括一组符号/姿态和其中每个符号/姿态所传达的一组对应的含义/思想/动作。因此,使用符号/姿态沟通所涉及到的人们必须记住并识别这些姿态/符号。学习这些的过程可能很难,但是通过使用直观姿态变得容易。例如,用于传达方向/人/物体的指着沿一方向的图形或人或物体的姿态是直观的,并且能够容易地被两方使用和理解。

随着计算技术的进步,姿态已经获得相当大的重要性,因为认识到现在我们所能自行支配的计算能力和其它能力可被利用来捕获和解释用于有意义的目的的姿态,例如用于语言障碍者的沟通或者用于与机器的人类接口,尤其是对于缺乏计算机教育的人。当前姿态识别领域的焦点包括来自具体地在资源受约束的嵌入式系统中的面部和手部姿态识别情感识别。姿态最常用于输入命令到机器中。

姿态识别被看作是一种便于计算机理解人体语言从而与基于朴素文本的用户接口或者甚至图形用户接口相比构建机器与人类之间的更丰富的桥梁的方式,基于朴素文本的用户接口或者甚至图形用户接口仍将大部分输入限于键盘和鼠标。因此,姿态识别能力应使人类能够与机器沟通及自然地交互。

将姿态识别为输入使得身体有残疾的人更易于使用计算机且能够使得在游戏或3D虚拟世界环境内的交互更自然。该识别技术还能够帮助使得例如在村庄或农村地区的人们(他们通常不适应例如键盘/鼠标的其它I/O设备以及其它类似的设备)对计算机的使用简易化。

姿态识别能力通常包括诸如照相机的图像捕获设备以及处理器能够用来处理所捕获的图像、识别和/或解释具体的姿态的软件。例如,挥手可以解释成表示“结束程序”。基于2D照相机的手势识别技术可以划分成两个模块,即手势定位以及手势识别,其中在手势定位中,在整个图像中确定手部的各个部分,并且一旦用户的手部已经进行分段,其姿势利用诸如隐马尔科夫模型、哈尔变换、豪斯多夫匹配方法、模糊逻辑、神经网络、模板匹配等各种技术中的一种来识别。全部这些都是非常复杂的技术且要求相当大的处理速度。

手部分段本身可以通过两种技术即肤色技术和手部移动技术中的任一种来完成。在基于肤色的技术中,不得不从图像中确定肤色区域,比如通过直接将阈值保持为RGB图像中的红色、绿色和蓝色。其还可以可替代地通过将RGB颜色空间转换成YCbCr或HSV颜色或者保持阈值来完成。在良好光照情况下,这些基于肤色的技术给出了正确的肤色区域,但是利用差的光照条件,在图像中不能确定不同的皮肤区域。此外,肤色从一个人到另一个人发生变化。由于从一个人到另一个人的肤色的变化以及不同的光照条件的变化的局限性,因此难以确定手部的分段。

其它用于手部分段的技术基于手部移动。基于移动的手部分段的局限性在于,仅一只手应移动,背景部分不应移动。如果背景部分(例如,头部)正在移动,则其速度应当比用于向机器传达姿态的手部的速度慢。

因此,需要一种姿态识别方法,比如模仿用于实现人机接口的鼠标,该姿态识别不依赖于手部分段且在不同的光照条件下工作,改善了识别精度,对肤色是中立的,而且适用于复杂背景。

发明目的

本公开的一个目的是克服与现有的使用手部分段技术进行姿态识别的方法相关联的问题。

本公开的另一目的是提供用于实现人机接口的姿态识别方法。

本公开的另一目的是提供利用离散鼠标移动来进行鼠标模仿的姿态识别方法。

本公开的另一目的是提供一种用于姿态识别的方法,使用标记物作为人机接口,以使得计算机和网站易于任意用户借助网页项智能以及为避免标记物从照相机场景中消失而对用户的音频/视觉反馈的使用/访问。

发明概述

本公开的方面涉及用于实现人机接口的、用于姿态识别的系统和方法,比如通过模仿用于人机接口的鼠标,其中光标的位移、位移方向以及鼠标的双击动作能够利用标记物通过手势来模仿。应当理解的是,虽然已经参考鼠标模仿解释说明了本公开的大部分,任何其它I/O硬件如操纵杆等能够通过所提出的姿态识别技术来实现,全部都完全包含在本公开的范围内。

在本公开的方面中,系统和方法提供了标记物的使用,该标记物被配置在用户的手部上/与用户的手部一起配置且用作通过使显示光标/指针移动到期望的位置而模仿比如鼠标功能的姿态接口,该期望位置可以基于来自图像捕获单元所捕获的标记物移动的多个连续图像帧的数据和当前的显示/网页内容来计算出。由于所提出的标记物被配置成模仿一个I/O设备或I/O设备的组合,所以期望的/可应用的模仿的I/O设备的任意功能可以通过所提出的姿态识别技术实现。例如,鼠标模仿可以包括诸如滚动、屏幕上指针的移动、光标位置的变化、打开/关闭/重定尺寸窗/屏幕/对象的功能以及本领域已知的其它功能。

本公开的另一方面提供一种通过手部姿态来显示指针/光标移动的方法,其中光标/指针移动被限制在接口单元的监视器/屏幕上所显示的各选项内,使得用户更易于做出选择。例如,在显示监视器向用户呈现网页上的三个选项的情况下,其中一个必须选择,所提出的基于标记物的姿态识别技术可以包含仅在三个选项之间的标记物的受限制移动,而不是在显示器上任何其它地方,或者即使显示屏上的指针/光标/物体移出三个选项,可以完成计算以将当前位置近似于最近的可应用选项。类似地,在当前网页上选择了一个选项时,下一网页可以显示出,具有比如五个选项,并且因此指针/光标移动可仅限制在这五个选项之间。

在本公开的另一方案中,一个或多个可配置手段可以向用户警告/告知手部/标记物移出图像捕获单元的范围之外,使得用户能够在诸如照相机的图像捕获单元所能识别的范围内收回他的手。

因此,本公开有助于人机接口,通过使用易于理解以及实现/并入的直观手势,没有任何I/O硬件,如鼠标。而且,所提出的姿态识别技术没有与其它技术相关联的缺点,其它技术依赖于手部分段且需要借助适当光照的适当的环境、一个人到一个人的肤色均匀以及无噪声背景。所提出的技术还提高了姿态识别的效率/精度。

通过下面对优选实施方案的详细说明以及附图,本发明主题的各种目的、特征、方面和优点将变得更明显,在附图中相似的标记表示相似的部件。

附图说明

包含了附图来提供对本公开的进一步理解,并且附图并入该说明书中且构成该说明书的一部分。附图图示说明了本公开的示范性的实施方案,并且与说明书一起用来解释本公开的原理。

图1示出了依照本公开的实施方案的表示用于模仿鼠标的姿态识别系统的构造的示范性的示意图。

图2示出了依照本公开的实施方案的与用于模仿鼠标的姿态识别系统一起使用的示范性的标记物。

图3示出了依照本公开的实施方案的用于模仿鼠标的姿态识别系统的功能模块的示意图。

图4示出了依照本公开的实施方案的用于姿态接口的、使用标记物的姿态识别方法的示范性的过程流程图。

图5示出了依照本公开的实施方案的用于确定标记物的质心的图像处理的示范性的流程图。

图6示出了依照本公开的实施方案的用于位移确定和双击解释的示范性的流程图。

图7示出了依照本公开的实施方案的用于计算和处理帧间标记物质心的位移来解释机器显示器上的动作的另一示范性的流程图。

发明详述

除非上下文要求,否则在下面的说明书和权利要求书通篇,词语“包括(comprise)”及其变化形式,如“包括了(comprises)”和“包括有(comprising)”应以开放的、包含的含义解释,即解释为“包含,但不限于”。

在该说明书中通篇提到“一个实施方案”或“实施方案”意指与实施方案相结合所描述的特定的特征、结构或特性包含在至少一个实施方案中。因此,在该说明书各处出现的措辞“在一个实施方案中”或者“在实施方案中”不一定都是指同一实施方案。此外,特定的特征、结构或特性可以任何适当的方式组合在一个或多个实施方案中。

如该说明书和随附的权利要求书中所使用的,除非上下文明确规定,否则单数形式“一(a)”、“一个(an)”和“该(the)”包含了复数指代物。还应当注意的是,除非内容明确规定,否则术语“或”一般以其包含“和/或”的含义来使用。

本文所提供的公开的标题和摘要仅为了方便,而不解释实施方案的范围或含义。

现在具体参考本公开的示范性的实施方案,其实施例图示于附图中。在尽可能的情况下,相同的附图标记在附图和说明书中用来指代相同或相似的部件。

下面的论述提供了发明主题的许多实施例的实施方案。虽然每个实施方案代表了发明元素的单一组合,但是发明主题被视为包含公开的元素的全部可能的组合。因此,如果一个实施方案包括元素A,B和C,而第二实施方案包括元素B和D,则即使没有明确公开发明主题也视为包括A,B,C或D的其它的其余组合。

本公开的实施方案描述了用于没有物理设备的人机接口的系统和方法,其中姿态识别技术用于输入命令。

在实施方案中,本公开的系统和方法描述了用于模仿用于人机接口的鼠标的姿态识别技术,其中显示设备上的光标和/或指针的位移、位移方向以及其它期望的/已知的功能如鼠标的双击动作能够通过手势来模仿。

在又一实施方案中,本公开的姿态识别技术包含了标记物,该标记物可以用适当的方式配置在用户的手上/与用户的手一起配置并且能够使用户做出用于与机器/计算机/计算设备接口的直观的姿态,其中技术/姿态易于理解和实现。例如,用户能够沿他想要光标和/或鼠标指针移动的方向移动他的手,并且还能够保持他的手固定/静止/静态达限定量的时间来实现比如双击动作。

在实施方案中,公开进一步提供了在做姿态期间随着标记物与手一起移动而捕获标记物的图像以及处理这些图像以定位和跟踪标记物的质心的方法。在又一实施方案中,本发明的公开提供了解释标记物质心的移动以确定光标移动的位移和方向以及用户的双击动作的方法。

在又一实施方案中,公开提供了限制光标和/或指针的移动在接口单元的监视器/屏幕上所显示的各个选项内。

图1示出了姿态识别系统100的示范性的实施方案,其具有被配置成捕获用户的手108的图像的图像拾取/捕获设备102。图像捕获设备102诸如照相机可以配置成在手做姿态时以预定速率(每秒帧数)在多个帧内捕获手108的图像。姿态识别系统100的图像捕获设备102可以是商业方式可得到的网络照相机或任何其它摄像机。图像捕获设备102可以与处理器104通信且可以配置成将所捕获的图像实时地传输给处理器104。处理器104可以配置成处理所发送来的图像且解释姿态且将相应的命令馈送到机器106,处理器104与机器106可操作地耦合。机器106可以是用户想要利用直观手势输入命令而与之交互的计算机。

根据一个实施方案,标记器可以配置在用户的手108上以充当用于姿态识别的接口。标记物110可以固定到用户所佩戴的手环108a上或者直接固定到手掌108b上。在可替代的方法中,标记物110可以固定到适当尺寸的能伸张的带子上,用户可以将适当尺寸的能伸张的带子绕他/她的手掌放置。在又一将标记物110配置在用户上的方法中,标记物可以固定到帽状物上,类似用于佩戴在指尖上的适当大小的结构,在该情况下,用户可以在图像捕获设备102前方移动手指以做姿态和与机器交互。应当意识到,标记物110的任何其它模式/方法/构造可被想到且配置成可操作地耦合到用户上/与用户可操作地耦合/可操作地耦合到用户。

在本申请的实施方案中,用户可以隐藏标记物,例如弯折他的手指在放置于手掌上的标记物之上,或者当标记物配置在手指上时使其不在图像捕获设备102的视野内,以阻止姿态识别操作且暂停向机器106输入命令。

应当理解的是,图1的图示仅为示范,其中所示的各个设备可以根据机器、用户的方便或者所使用的装备的类型而以多种不同的方式来配置。例如,将图像捕获设备102和处理器104配置在机器内而使得系统100更紧凑且能够通过姿态与用户交互是可能的。在机器内,图像捕获设备102可以配置在右侧和/或左侧以符合右手或左手用户的不同要求。再另外的配置可以具有可拆除的图像捕获设备,其能够根据用户的方便和偏好而固定在不同的地方。

图2示出了依照本公开的实施方案的用作姿态接口的示范性的标记物200。标记物200可以是矩形形状并且可以包含不同颜色的任何图案。标记物可以具有适当的尺寸以适合于配置在用户的手上的方法。标记物还可以直接绘制在手环上或者印刷或绘制在布料/纸张上,布料/纸张可以固定到弹性带上以便佩戴于手掌上。应当理解的是,标记物200的各种构造是可能的,而不限制形状或尺寸或材料或颜色或者配置在用户的手上的方法,所有都在本公开的范围内。

图3示出了用于进行姿态识别和发送命令到机器的系统300的各种功能模块。图像捕获单元302能够在连续流中以预定义间隔捕获图像。图像捕获单元302可以是商业方式可得到的网络照相机或任何其它摄像机。图像捕获单元302与帧捕获模块304通信且实时地发送捕获的图像到帧捕获模块304。

在本公开的实施方案中,帧捕获模块304可以配置成存储来自图像捕获单元302的连续流中的连续图像帧集合,并且实时地/或以周期性的间隔发送它们到图像处理模块306。在可替代的实施方案中,帧捕获模块304还可以配置成根据需要/定义/配置以及当需要/定义/配置时存储帧。集合可以包括N帧数。在本公开的另一实施方案中,图像处理模块306可以配置成处理在这些帧内所包含的图像以确定标记物200的质心的位置。处理模块306能够依照图像处理算法来处理这些图像,其细节将在后续段中公开。N个帧的质心的位置可以被保存且传送给跟踪模块308。在实现方式中,质心的位置可以存储,使得能够忽略标记物的可忽略的移动。

在本公开的另一实施方案中,跟踪模块308可以配置成基于标记物200的质心的位置来计算标记物200的位移。N个帧的质心的位置可以在位移确定模块310中进行处理,用来确定标记物的位移的范围。根据一个实施方案,每个当前帧距前一帧的位移能够被确定,其中在位移大于第一定义阈值比如DTH1的情况下,机器显示器上的指针/光标可以相应地变化。另一方面,在位移小于第一定义阈值的情况下,光标/指针不移动。在比如N帧或任何其它定义的帧数的最后,可以在第1帧与第N帧之间计算总位移,其中在总位移小于第二定义阈值比如DTH2的情况下,能够确定双击动作,或者在总位移大于第二定义阈值比如DTH2的情况下,得到另一帧且重复该过程。

机器接口模块314在得到位移数据时能够与机器106通信以便依照用户的姿态进行机器显示的变化。在本申请的实施方案中,机器接口模块314能够将光标的移动限制在可用的可选选项内。例如,在显示语言列表以供用户选择的网页或任何软件显示器中,光标/指针移动可以限制到指示这些语言的框或窗口内。因此,即使用户的手沿没有选择框的方向移动,显示器指针也不会沿该方向移动,从而使得人机接口简易。即使指针移动,指针也可以接近最近的可选选项,以借助提出的标记物来简易化软件应用的工作。

在另一实施方案中,由于位移和方向的计算基于N数量的图像帧,所以显示器指针的移动会以离散(空间上)的方式发生,即,指针/光标能够根据帧中的标记物位置在屏幕上的特定位置处移动。

图4示出了依照本公开的实施方案的用于姿态接口的使用标记物的姿态识别方法的过程流程图400。在步骤402中,标记物200可以与用户一起配置,其中标记物可以固定到用户佩戴的手环108a上或者可以直接固定到手掌108b上,或者可以使用任何其它手动来将标记物与用户/手可操作地耦合。在可替代的方法中,标记物可以固定到适当尺寸的可伸张带上,用户可以将该适当尺寸的可伸张带绕他的手掌放置,或者标记物可以固定到帽状物上,类似用于佩戴在指尖上的适当尺寸的结构,在该情况下用户能够将手指在图像捕获设备102的前方移动以做姿态且与机器交互。标记物200可以为矩形/圆形/方形/任何其它期望的/配置的/定义的形状,并且可以不同的颜色包含任意图案。标记物可以具有适当的尺寸以适合于配置在用户的手上的方法。标记物可以直接绘制在手环或指尖帽状物上或者印刷/绘制在布料/纸张上,布料/纸张可以固定到弹性带上以便佩戴在手掌上。

在步骤404中,随着用户做出直观的手势来与机器沟通,图像捕获单元102捕获标记物的连续的图像帧。例如,如果用户想要将光标上移,他/她能够将他的手上移,反之亦然。同样,如果他想要将光标向右移,则他可以将他的手向右移。因此,作为姿态的部分的手的移动与期望的光标移动方向为同方向,使其直观。图像捕获设备102可以是商业方式可得到的网络照相机或任何其它摄像机,其能够以预定间隔/帧率(帧/秒)捕获配置在用户的手上的用户的手/标记物的图像。

在步骤406中,捕获的图像可以经过处理以为接下来的标记物200确定标记物200在这些帧中的每一帧内的质心。在实施方案中,可以依照图像处理算法来处理图像,这将在下面的段中进行解释。

在步骤408中,当前帧距前一帧的位移能够与阈值位移值DTH1进行比较,其中在位移小于DTH1的情况下,光标不移动,否则光标会移动,在实现方式中,还可以删除质心历史。在另一实施方案中,在标记物对于N个帧数移动不多于第二阈值位移值DTH2的情况下,可以理解并实现/合并双击。应当意识到,在做出关于是否将动作解释为双击动作的决策之前,可以考虑到任意帧。此外,除了静止的手之外的任意动作也可以解释/实现以便解释为双击动作。

在步骤410中,所确定的光标位置能够用来选择显示器上的相应的项。可以使用乘法因子来映射照相机分辨率和监视器分辨率而使得姿态覆盖整个监视器。因此,在发送命令到机器以改变机器显示器之前,乘法因子可以应用以计算质心位置。

图5示出了依照本公开的实施方案的计算标记物200的质心的图像处理流程图500。在步骤502中,标记物200的彩色/黑白图像可由图像捕获设备102捕获到且转换成灰度图像,其中在步骤504中灰度图像可以转换成仅含有0和1的二进制图像,此后,在步骤506中,二进制图像可以用来确定标记物200的边界或周边。此后,在步骤508中,可以参考所定义的/给定的阈值来验证边界。在步骤510中,可以评估矩形性和/或凸性,其中如果满足验证要求,则在步骤512中可以定位矩形轮廓的2D框,并且因此,在步骤514中,能够定位多边形的四个角,在下一步骤516中,该多边形的四个角能够用于确定由矩形多边形所限定的标记物200的中心和/或质心。

图6示出了依照本公开的实施方案的用于位移确定和双击识别的示范性的流程图600。在步骤602中,可以记录并保存N个帧的质心位置。在步骤604中,可以基于第1帧和第N帧中的质心位置来计算所计算出的质心的位移。在步骤606中,检查标记物在第1帧和第N帧之间的总位移是否低于所定义的双击阈值,比如DTH2,其中在步骤608中,如果位移低于阈值DTH2,则其能够解释为双击姿态且对应的命令可以送到机器。另一方面,在步骤610中,在位移大于阈值DTH2的情况下,其能够解释为正常标记物移动,并且能够实现该位移,如参考图4所说明的。应当意识到,用于解释双击或位移的条件本质上完全是示范性的,可以并入任何其它条件。例如,不是在对于N个帧没有预定义位移后评估/确定/确认双击,该双击可以在对于2N个帧、3N个帧或4N个帧或任何其它所需的时间段没有预定义位移后进行确认。诸如定义的手指以规定方式的移动的任何其它条件也可以视为双击。类似地,食指以定义的方式的移动可以解释为滚动动作。因此,任何其它动作及其使用所提出的标记物200的检测方式完全在本公开的范围之内。

图7示出了依照本公开的实施方案的用于计算和处理标记物质心在帧之间的位移以解释机器显示器上的动作的另一示范性的流程图700。在步骤702中,用户所要使用的基于web的应用可以被选定/执行以提取必要的/期望的网页项。在步骤704中,来自照相机的图像帧可以被取回,在步骤706中,能够就标记物是否存在于所取回的帧中对该图像帧进行评估,其中在不存在标记物的情况下,在步骤708中,可以生成声音警告,并且方法700可以返回到步骤704来取回另一图像帧。

在步骤710中,在标记物存在的情况下,标记物的质心可以计算出和/或任选地存储在日志变量内。在步骤712中,质心距前一帧的标记物质心的位移可以计算出,在步骤714中,判定该位移是否大于第一定义阈值DTH1。在步骤716中,在判定出位移大于DTH1的情况下,可以计算新的光标/指针坐标,并且在步骤718中,可以找到最近的网页项位置。在步骤720中,光标可以移动到所找到的网页项位置,并且在步骤722中,可以清除质心日志/历史。

在步骤714中判定出位移低于DTH1的情况下,在步骤724中判定质心日志尺寸是否大于或等于N,其中在质心日志尺寸不大于或等于N的情况下,该方法可以返回到步骤704,在质心日志尺寸大于或等于N的情况下,在步骤726中,在最后N个帧内计算位移。在步骤728中,判定在步骤726中计算出的位移是否低于第二定义阈值DTH2而使得如果位移大于第二定义阈值DTH2,则该方法可以返回到步骤704,否则在步骤730中,可以在当前光标位置执行双击动作,在步骤732中,任选地,质心日志可以被清除,并且该方法返回到步骤702或者可以结束。

在本公开的实施方案中,乘法因子用来映射照相机分辨率和监视器分辨率而使得姿态覆盖整个监视器。因此,乘法因子可以在发送命令到机器以改变机器显示之前应用于计算出的质心位移。

上面的说明仅代表了本发明的示范性的实施方案,而无意将本发明的范围限于此。基于本发明的各种等价的变化、改动或修改因此都视为由本发明的范围所涵盖。

如本文所使用的,除非上下文规定,否则术语“耦合到”旨在包含直接耦合(其中彼此耦合的两个元件相互接触)和间接耦合(其中至少一个附加的元件位于两个元件之间)。因此,术语“耦合到”和“与…耦合”同义使用。在该文档的上下文内,术语“耦合到”和“与…耦合”也用来委婉地意指经由网络“与…通信耦合”,其中两个或更多个设备能够经由网络相互交换数据,可能经由一个或多个中间设备。

本领域技术人员应当明了,除在此已经描述的之外的更多的修改是可能的,而不偏离本文的发明构思。因此,除了在随附权利要求的主旨内,发明主题不受限制。而且,在解释说明书和权利要求时,所有术语应当以与上下文一致的可能最宽泛的方式来解释。特别地,术语“包括”和“包括有”应当解释为以非穷尽方式提及元件、部件或步骤,表明所提及的元件、部件或步骤可以与其它未明确提及的元件、部件或步骤一起存在、或使用或组合。在说明书权利要求提到从由A,B,C…和N构成的组选出的至少一个某物的情况下,该文本应当解释为仅需要来自组中的一个元件,不是A加上N,或者B加上B,等等。

本发明的优点

本公开克服了与使用手分段技术的姿态识别方法相关联的问题。

本公开提供了用于人机接口的用于鼠标模仿的姿态识别方法。

本公开提供了利用仅到屏幕上的指定位置的离散光标移动进行用于鼠标模仿的姿态识别的方法。

本公开提供了利用标记物作为姿态识别接口的姿态识别方法。

本公开提供了使用向用户提供适当反馈的直观标记物姿态的用于人机接口的鼠标模仿方法。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1