人机交互系统和方法

文档序号:6490776阅读:167来源:国知局
人机交互系统和方法
【专利摘要】本发明提供了一种人机交互系统和人机交互方法,所述人机交互系统包括:图像获取设备,用于获取图像数据;人机交互处理设备,根据从图像数据检测的用户的多种类型的动作和姿态来确定用户想要进行的交互操作;显示设备,显示与交互操作的结果对应的显示屏幕。本发明可以利用多种运动检测方式的组合来进行人机交互操作,从而在不需要额外的输入装置的情况下,降低人机交互操作识别的模糊度,提高人机交互操作的准确性。
【专利说明】人机交互系统和方法
【技术领域】
[0001]本发明涉及计算机视觉和模式识别领域,更具体地,涉及一种非接触的、自然的远距离人机交互(HCI)系统和方法。
【背景技术】
[0002]基于计算机视觉技术的人机交互方式可通过各种图像获取和处理方法来视觉地获取用户输入。基于计算机视觉技术的人机交互方式成为了新一代人机交互技术的热门话题,尤其在休闲娱乐的人机交互方面得到了广泛的应用。在这种交互方式下,可通过用户的身体姿态、头部姿态、视线或人体动作来与计算机进行交互,从而可以使用户从传统的键盘、鼠标等的输入方式中解脱,得到前所未有的人机交互体验。
[0003]目前提出了多种基于计算机视觉的人机交互方式。在一种现有的人机交互方式中,可通过使用触摸输入和三维(3D)手势输入来产生、修改和操作3D物体。在另一种方法中,可通过人体姿态检测来与虚拟用户界面进行交互。
[0004]然而,现有的人机交互设备和方法所利用的运动检测的类型较为单一,通常需要基于触摸的输入装置并且需要用户记住大量的规定动作来执行交互。由于手势、姿势以及深度感应范围的原因,通常需要进行预处理或各种手动操作,例如,需要校准各种传感器,预先定义交互空间等。这使用户感到不方便。因此,需要一种能够利用多种运动检测方式且不依赖于附加的输入装置的人机交互方式。

【发明内容】

[0005]根据本发明的一方面,提供了一种人机交互系统,包括:图像获取设备,用于获取图像数据;人机交互处理设备,根据从图像数据检测的用户的多种类型的动作和姿态来确定用户想要进行的交互操作;显示设备,显示与交互操作的结果对应的显示屏幕。
[0006]根据本发明的一方面,人机交互处理设备包括:运动检测模块,从图像数据中检测用户的多种类型的动作和姿态;交互确定模块,根据运动检测模块检测的用户的多种类型的动作和姿态来确定用户想要将要进行的交互操作,并向显示控制模块发出相应的显示操作指令;显示控制模块,根据交互确定模块确定的指令控制显示设备在显示屏幕上显示相应的交互操作。
[0007]根据本发明的一方面,运动检测模块包括:视线捕捉模块,用于从图像数据中检测用户的视线方向;姿态追踪模块,用于在图像数据中追踪和识别用户身体各部分的姿态和动作。
[0008]根据本发明的一方面,视线捕捉模块通过从图像数据中检测用户的头部的俯仰方向和偏转方向来确定用户的视线方向。
[0009]根据本发明的一方面,姿态追踪模块在图像数据中追踪和检测用户的手的节点以确定用户的手的运动和手势,并检测用户的身体骨骼节点以确定用户身体各部分的姿态动作。[0010]根据本发明的一方面,交互确定模块根据视线捕捉模块检测的用户的视线方向和姿态追踪模块识别的用户的手的姿态来确定是否开始交互操作。
[0011]根据本发明的一方面,如果确定用户的视线方向和用户的手的指示方向均指向显示屏幕上的显示项超过预定时间,则交互确定模块确定开始对该显示项进行交互操作。
[0012]根据本发明的一方面,如果确定用户的视线方向和用户的手的指示方向均未指向显示项,则交互确定模块确定停止对该显示项进行交互操作。
[0013]根据本发明的一方面,当用户靠近图像获取设备时,姿态追踪模块追踪和识别用户的手指动作以识别用户的手势,当用户远离图像获取设备时,姿态追踪模块追踪和识别用户的手臂的动作。
[0014]根据本发明的一方面,人机交互处理设备还包括:自定义姿势注册模块,用于注册与用户自定义的姿势动作对应的交互操作命令。
[0015]根据本发明的另一方面,提供了一种人机交互方法,包括:获取图像数据;根据从图像数据检测的用户的多种类型的动作和姿态来确定用户想要进行的交互操作;显示与交互操作的结果对应的显示屏幕。
[0016]根据本发明的另一方面,确定交互操作的步骤包括:从图像数据中检测用户的多种类型的动作和姿态;根据检测的用户的多种类型的动作和姿态来确定将要进行的交互操作,并发出与交互操作对应的显示操作指令;根据确定的指令控制显示设备在显示屏幕上显示相应的交互操作。
[0017]根据本发明的另一方面,检测用户的多种类型的动作和姿态的步骤包括:从图像数据中检测用户的视线方向;追踪和识别用户身体各部分的姿态动作。
[0018]根据本发明的另一方面,通过从图像数据中检测用户的头部的俯仰方向和偏转方向来确定用户的视线方向。
[0019]根据本发明的另一方面,通过在图像数据中追踪和检测用户的手的节点以确定用户的手的运动和手势,并通过从图像数据中检测用户的身体骨骼节点以确定用户身体各部分的姿态动作。
[0020]根据本发明的另一方面,根据检测的用户的视线方向和姿态追踪模块识别的用户的手的姿态来确定是否开始交互操作。
[0021]根据本发明的另一方面,如果确定用户的视线方向和用户的手的指示方向均指向显示屏幕上的显示项超过预定时间,则确定开始对该显示项进行交互操作。
[0022]根据本发明的另一方面,如果确定用户的视线方向和用户的手的指示方向均未指向显示项,则确定停止对该显示项进行交互操作。
[0023]根据本发明的另一方面,当用户靠近图像获取设备时,追踪和识别用户的手指动作以识别用户的手势,当用户远离图像获取设备时,识别用户的手臂的动作。
[0024]根据本发明的另一方面,确定交互操作的步骤还包括:确定与注册的用户自定义的姿势动作对应的交互操作。
【专利附图】

【附图说明】
[0025]通过下面结合示例性地示出实施例的附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:[0026]图1是示出根据本发明实施例的人机交互系统和用户进行互动的示意图;
[0027]图2是示出根据本发明实施例的人机交互系统的人机交互处理设备的结构框图;
[0028]图3是示出根据本发明另一实施例的开始或停止人机交互操作姿态的示意图;
[0029]图4是示出根据本发明实施例的人机交互方法的流程图;
[0030]图5是示出根据本发明实施例的人机交互方法进行菜单操作的流程图;
[0031]图6是示出根据本发明实施例的人机交互方法进行3D显示目标的交互操作的流程图;
[0032]图7是示出根据本发明实施例的人机交互方法进行手写操作的流程图。
【具体实施方式】
[0033]现将详细描述本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
[0034]图1是示出根据本发明实施例的人机交互系统和用户进行互动的示意图。
[0035]如图1所示,根据本发明实施例的人机交互系统包括图像获取设备100、人机交互处理设备200和显示设备300。图像获取设备100用于获取图像数据,图像数据可具有深度特征和颜色特征。图像获取设备100可以是能够拍摄深度图像的装置,例如,深度相机。
[0036]人机交互处理设备200用于对图像获取设备100获取的图像数据进行分析,从而识别出用户的姿态和动作并对用户的姿态和动作进行解析。然后,人机交互处理设备200根据解析的结果控制显示设备300进行对应的显示。显示设备300可以是诸如电视机(TV),投影仪的设备。
[0037]这里,如图1所示,人机交互处理设备200可根据检测到的用户的多种类型的动作和姿态来确定用户想要进行的交互操作。例如,用户可在注视显示设备300所显示的内容中的多个对象(例如,图1中所示的0BJ1、0BJ2和0BJ3)中的某个特定对象(0BJ2)的同时,用手指指向该特定对象,从而开始交互操作。也就是说,人机交互处理设备200可检测用户的视线方向、手势和身体各部分的动作和姿势。用户还可通过移动手指来对显示的某个特定对象进行操作,例如,改变该对象的显示位置。同时,用户还可移动身体的某个部位(例如,手臂)或者移动整个身体来进行交互操作的输入。应理解,虽然图像获取设备100、人机交互处理设备200和显示设备300被显示为分离的设备,但是这三个设备也可以任意地组合为一个或两个设备。例如,图像获取设备100和人机交互处理设备200可以在一个设备中实现。
[0038]下面将参照图2来对根据本发明实施例的人机交互系统中的人机交互处理设备200的结构进行详细说明。
[0039]如图2所示,根据本发明实施例的人机交互处理设备200包括运动检测模块210、交互确定模块220和显示控制模块230。
[0040]运动检测模块210用于检测用户的多种类型的动作和确定用户的姿态。例如,运动检测模块210可检测和确定用户的视线方向的运动、身体部件的运动、手势动作和身体姿态动作。交互确定模块220可根据运动检测模块210检测的用户的多种类型的动作和姿态来确定将要进行的交互操作。将在下面对运动检测模块210的操作过程进行详细描述。
[0041]根据本发明的一个实施例,运动检测模块210可包括视线捕捉模块211和姿态追踪模块213。
[0042]其中,视线捕捉模块211用于从图像数据中获取用户的视线方向。可通过从图像数据中检测用户的头部姿势来获得用户的视线方向。头部的姿势主要由头部俯仰和头部偏转来体现。相应地,可在深度图像中的头部区域分别估计头部的俯仰角和偏转角,从而基于所述俯仰角和偏转角来合成相应的头部姿势,从而得到用户的视线方向。
[0043]姿态追踪模块213用于追踪和识别用户身体各部分的姿态动作。例如,姿态追踪模块213可从获取的图像数据中追踪和识别用户的指示方向和手指的动作。姿态追踪模块213可追踪手的运动轨迹和速度。另外,姿态追踪模块213还可追踪和识别用户身体各个部件(例如,手臂)的动作。优选地,在用户靠近图像获取设备100的模式下,姿态追踪模块213可通过密集、可靠的图像数据对用户的手部的节点进行追踪,从而确定用户的手指的指向方向和动作(即,手势)。而在用户远离图像获取设备100的模式下,由于获取的图像数据比较粗略、噪声较多且手部区域小,姿态追踪模块213可通过追踪人体的骨骼节点来对用户的上臂(即,腕节点和肘节点之间的骨骼)进行追踪,从而追踪和识别用户的手臂指向方向和动作。
[0044]为此,根据本发明的实施例,姿态追踪模块213可基于皮肤颜色特征和/或3D特征来识别和追踪用户的手的运动。具体地,姿态追踪模块213可包括基于皮肤颜色或3D特征训练的分类器。对于采用皮肤颜色分类器的情况,可利用概率模型(例如,高斯混合模型(GMM))来通过手部皮肤的颜色分布以区分一个可能的像素是否属于手部。对于深度特征,可如 “Real-Time Human Pose Recognition in Parts from Single Depth Images.JamieShotton et al.1n CVPR 2011”中介绍的方式产生深度比较特征,或将局部深度块(小的矩形块)与已知手部模型上的块进行比较并测量相似度。然后,将不同的颜色特征和深度特征组合,可使用通用的分类器(诸如,Random Forest或AdaBoosting决策树)来执行分类任务以确定图像数据中的手部。然后,通过逐帧的检测手部,姿态追踪模块213可追踪和计算手部的运动轨迹/速度,以在2D图像和3D空间域中定位手部。特别地,通过将深度数据与3D手部模型进行比对,可追踪手部关节的位置。然而,如果手部远离图像获取设备100,则当图像数据中的手部区域小于预定阈值时,考虑数据可靠性,可通过追踪用户的身体骨骼的方式来确定手臂的运动。
[0045]交互确定模块220可根据由运动检测模块210检测到的用户的多种动作来确定将要进行的交互操作。例如,交互确定模块220可根据由姿态追踪模块211确定的用户视线方向和姿态追踪模块213确定的用户指示方向来确定是否进入交互操作姿态,并根据后续的用户的姿态动作和视线方向确定将要执行的交互操作。也就是说,交互确定模块220可根据用户视线方向和用户的指示方向来确定交互操作的开始或结束。具体地,当姿态追踪模块211确定用户的视线方向和姿态追踪模块213确定的用户指示方向均指向在显示设备300上显示的某个目标(即,视线方向和手指的指示方向的交汇之处具有特定的显示目标)超过预定时间时,交互确定模块220可确定用户想要开始进行交互以对显示目标进行操作。在对显示目标进行操作的过程中,交互确定模块220确定用户视线和指向方向中的至少一个是否仍然保持在该显示目标上。当用户视线和指向方向均未保持在该目标之上时,交互确定模块220可确定用户停止与该显示目标的交互操作。通过以上的方式,可更加准确地确定用户是否开始或者结束交互操作,从而提高了交互操作的准确性。[0046]应理解,以上仅是根据检测到的用户的动作和姿态来确定是否开始或结束交互操作状态的一个示例。还可根据其它预设的方式来确定是否开始或结束交互操作状态。例如,可根据用户的视线方向和预定的手势来开始交互操作姿态。如图3所示,当运动检测模块210从图像数据中确定用户的手指张开且视线方向指向显示设备300的显示屏幕上的特定项时,则交互确定模块220可确定用户想要对该特定项进行交互操作。接下来,当运动检测模块210确定用户的手指并拢且手开始移动时,交互确定模块220可确定用户想要拖动特定项。如果运动检测模块210确定用户的手握成拳头,则交互确定模块220可确定用户想要停止交互操作。
[0047]在进入交互操作状态之后,交互确定模块220还根据用户的动作和姿态来确定用户想要进行的交互操作。根据本发明的一个实施例,交互确定模块220可根据用户的手的指示方向来确定移动指针的交互操作。根据姿态追踪模块213确定的用户的手的指示方向,交互确定模块220可计算出该指示方向与显示屏幕的交点,从而获得指针在显示屏幕上的位置。当用户的手移动时,交互确定模块220可发出相应的命令,指示显示控制模块230控制显示设备300的显示,使得指针也随着手的移动而在屏幕上移动。
[0048]根据本发明的一个实施例,交互确定模块220还可根据姿态追踪模块213确定的用户的手部动作来确定按钮的交互操作。根据姿态追踪模块213确定的用户的手的指示方向,交互确定模块220可计算出该指示方向与显示屏幕的交点,如果在该位置存在诸如按钮的显示项,则交互确定模块220可确定用户按下该按钮。或者,如果姿态追踪模块213确定用户的手指/拳头沿着其指示方向快速移动,则交互确定模块220确定按钮被按下。
[0049]应理解,这里仅仅给出了交互确定模块220根据视线追踪模块210所确定的视线方向和姿态追踪模块213确定的用户的姿态动作来确定用户想要进行的交互操作的几个示例。但本领域的技术人员应理解,本发明的交互操作不限于此。还可根据用户的姿态动作和/或用户的视线方向来进行更多的交互操作,例如可通过移动手来拖动显示目标、旋转显示目标,通过手指的运动单击或双击显示目标等。
[0050]另外,根据本发明的实施例,用户还可自定义与特定的动作姿势对应的交互操作。为此,人机交互处理设备200还可包括一自定义姿势注册模块(未示出),用于注册与用户自定义的姿势动作对应的交互操作。自定义姿势注册模块可具有一数据库,用于将记录的姿势和动作映射到对应的交互操作命令。例如,在进行2D或3D目标显示的情况下,可通过追踪两个手的运动方向来缩小或放大2D或3D显示目标。特别地,为了注册新的姿势动作,自定义姿势注册模块测试用户自定义的姿势动作的可再现性和模糊性,并返回一个可靠性分数,以指示用户自定义的交互操作命令是否有效。
[0051]在交互确定模块220确定了用户想要进行的交互操作之后,交互确定模块220向显示控制模块230发出相应的指令,显示控制模块230根据指令控制显示设备300在显示屏幕上显示相应的交互操作。例如,可控制显示设备300显示指针被移动、相应的显示项被移动、按钮被按下等操作的屏幕画面。
[0052]下面将参照图4来描述根据本发明实施例的人机交互方法的具体过程。
[0053]如图4所示,在步骤S410,首先由图像获取设备100获取图像数据。
[0054]接下来,在步骤S420,人机交互处理设备200分析图像获取设备100获取的图像数据中的多种类型的用户姿态和动作,以确定是否进入交互操作状态和用户想要进行的交互操作。这里,例如,人机交互处理设备200可从图像数据检测和识别用户的视线方向和人体的各个部分的动作和姿态,以确定用户想要进行的交互操作。根据本实施例,人机交互处理设备200可根据检测的视线方向和用户的指示方向来确定是否进入交互操作状态。具体地,当人机交互处理设备200确定从图像数据中检测出用户的视线方向和手的指示方向指向显示设备300的显示屏幕上所显示的某个显示项超过预定时间时,人机交互处理设备200进入交互操作状态,并根据用户后续的姿态动作来确定将要对显示目标执行的交互操作。
[0055]然后,在步骤S430,根据确定的交互操作控制显示设备300显示对应的显示屏幕或者更新显示屏幕。例如,可根据用户的手的指示方向确定用户想要移动显示的指针的位置、拖动显示项、单击显示项、双击显示项等等。
[0056]在步骤S420中,如果在执行交互操作期间,人机交互处理设备200确定用户的指示方向和视线方向均离开了显示目标,则确定用户想要停止对显示目标的交互操作,并显示停止对显示目标进行操作的显示屏幕。应注意,还可通过其它的方式来确定用户是否想要停止交互操作。例如,可根据用户的特定手势(如上所述的握紧拳头)来停止交互操作。
[0057]下面将参照图5-图7来说明利用根据本发明的人机交互方法执行各种交互操作的示意流程。
[0058]图5示出的是根据本发明实施例的人机交互方法进行菜单操作的流程图。
[0059]在图5的实施例中,假设预设菜单被显示在显示设备300的显示屏幕上,并且预设菜单包括若干项供用户进行交互操作。
[0060]在步骤S510,当从捕捉的图像数据中检测到的人体姿态表现出用户的手的指示方向和视线方向均指向显示屏幕上的某个特定菜单项时,确定进入对菜单的交互操作状态。
[0061]接下来,在步骤S520,可追踪用户的手的运动轨迹和速度以确定用户的手的动作和手势,并根据手的动作和手势确定用户想要执行的交互操作。例如,可根据用户的手的动作来模拟鼠标的交互操作。当确定用户的食指做出单击的动作时,可选中手指指示方向上的菜单的特定项。当确定用户的中指做出单击的动作时,可显示与鼠标右键动作对应的内容,例如,显示与该项相关的附加菜单选项等。然后,在步骤S530,控制显示设备显示或更新与确定的交互操作对应的菜单内容。
[0062]图6是根据本发明实施例的人机交互方法进行3D显示目标的操作的流程图。这里,显示设备300是可以显示3D内容的显示设备。
[0063]首先,在步骤S610,当从捕捉的图像数据中检测到的人体姿态表现出用户的手的指示方向和视线方向均指向显示屏幕上的特定3D显示目标时,确定进入对3D显示目标的交互操作状态。接下来,在步骤S620,可追踪用户的手的运动轨迹和速度以确定用户的手的动作和手势,并根据手的动作和手势确定用户想要执行的交互操作。例如,可将手的指示方向和视线方向的交汇点上的3D显示目标拾取起来,并可根据手的移动而移动3D显示目标。另外,还可根据手的动作来拖动、放大或缩小选中的3D显示目标。最后,在步骤S630,控制显示设备根据确定的交互操作重新渲染交互操作之后的3D显示目标。
[0064]图7是根据本发明实施例的人机交互方法进行文本输入操作的流程图。这里,假设显示设备300所显示的显示屏幕上的预定区域可作为文本输入区域。
[0065]首先,在步骤S710,当从捕捉的图像数据中检测到的人体姿态表现出用户的手的指示方向和视线方向均指向显示屏幕上的手写输入区域时,确定进入手写输入的交互操作状态。接下来,在步骤S720,可追踪用户的手的运动轨迹和速度,并根据用户的手的运动轨迹确定用户想要输入的文本。可根据基于学习的识别方法来确定用户想要输入的文本,并将文本解释为对应的交互操作命令。最后,在步骤S730,控制显示设备显示交互操作命令执行之后的结果的显示屏幕。
[0066]应理解,以上实施例虽然根据视线方向和手的指示方向来确定是否开始或结束交互操作以及用户的后续的交互操作,但是本发明不限于此。可根据检测其它类型的运动检测的组合来确定是否开始或结束交互操作以及后续的交互操作。
[0067]根据本发明,可以利用多种运动检测方式的组合来进行人机交互操作,从而在不需要额外的输入装置(例如,触摸屏输入装置)的情况下,降低人机交互操作识别的模糊度,提高人机交互操作的准确性。例如,在不采用触摸屏输入装置的情况下,可以实现显示目标的放大、缩小的交互操作。这样,充分利用了计算机视觉技术的运动检测方式,为用户带来了更好地交互操作体验。
[0068]虽然已经参照本发明的若干示例性实施例示出和描述了本发明,但是本领域的技术人员将理解,在不脱离权利要求及其等同物限定的本发明的精神和范围的情况下,可以在形式和细节上做出各种改变。
【权利要求】
1.一种人机交互系统,包括: 图像获取设备,用于获取图像数据; 人机交互处理设备,根据从图像数据检测的用户的多种类型的动作和姿态来确定用户想要进行的交互操作; 显示设备,显示与交互操作的结果对应的显示屏幕。
2.如权利要求1所述的人机交互系统,其中,人机交互处理设备包括: 运动检测模块,从图像数据中检测用户的多种类型的动作和姿态; 交互确定模块,根据运动检测模块检测的用户的多种类型的动作和姿态来确定用户想要将要进行的交互操作,并向显示控制模块发出相应的显示操作指令; 显示控制模块,根据交互确定模块确定的指令控制显示设备在显示屏幕上显示相应的交互操作。
3.如权利要求2所述的人机交互系统,其中,运动检测模块包括: 视线捕捉模块,用于从图像数据中检测用户的视线方向; 姿态追踪模块,用于在图像数据中追踪和识别用户身体各部分的姿态和动作。
4.如权利要求3所述的人机交互系统,其中,视线捕捉模块通过从图像数据中检测用户的头部的俯仰方向和偏转方向来确定用户的视线方向。
5.如权利要求4所述的人机交互系统,其中,姿态追踪模块在图像数据中追踪和检测用户的手的节点以确定用户的手的运动和手势,并检测用户的身体骨骼节点以确定用户身体各部分的姿态动作。
6.如权利要求3所述的人机交互系统,其中,交互确定模块根据视线捕捉模块检测的用户的视线方向和姿态追踪模块识别的用户的手的姿态来确定是否开始交互操作。
7.如权利要求3所述的人机交互系统,其中,如果确定用户的视线方向和用户的手的指示方向均指向显示屏幕上的显示项超过预定时间,则交互确定模块确定开始对该显示项进行交互操作。
8.如权利要求7所述的人机交互系统,其中,如果确定用户的视线方向和用户的手的指示方向均未指向显示项,则交互确定模块确定停止对该显示项进行交互操作。
9.如权利要求3所述的人机交互系统,其中,当用户靠近图像获取设备时,姿态追踪模块追踪和识别用户的手指动作以识别用户的手势,当用户远离图像获取设备时,姿态追踪模块追踪和识别用户的手臂的动作。
10.如权利要求1所述的人机交互系统,其中,人机交互处理设备还包括: 自定义姿势注册模块,用于注册与用户自定义的姿势动作对应的交互操作命令。
11.一种人机交互方法,包括: 获取图像数据; 根据从图像数据检测的用户的多种类型的动作和姿态来确定用户想要进行的交互操作; 显示与交互操作的结果对应的显示屏幕。
【文档编号】G06K9/00GK103809733SQ201210440197
【公开日】2014年5月21日 申请日期:2012年11月7日 优先权日:2012年11月7日
【发明者】孙迅, 陈茂林 申请人:北京三星通信技术研究有限公司, 三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1