用于识别姿势的方法和姿势检测器的制造方法

文档序号:6497558阅读:140来源:国知局
用于识别姿势的方法和姿势检测器的制造方法
【专利摘要】本发明涉及用于识别在会议情况等类似情形中使用的二维视频流(3)中的姿势的方法,包括步骤:执行所述视频流(3)的屏幕中的皮肤识别以识别皮肤部分(13);确定所识别的皮肤部分(13)中的至少一个身体部位(19,20);监测关于所述至少一个身体部位(19,20)的至少一个预定屏幕区域(23)的状态;以及基于状态的变化的检测提供指示检测到的姿势的控制信号。本发明还涉及适合于执行上述方法的姿势检测器(5)、包括上述姿势检测器(5)和包括视频摄像机(2)与上述姿势检测器(5)的视频摄像设备(24)的呈现系统(1)。
【专利说明】用于识别姿势的方法和姿势检测器
【技术领域】
[0001]本发明涉及一种用于识别在会议情况等类似情形中使用的二维视频流中的姿势的方法。本发明还涉及包括用于接收视频流的输入,以及适合于提供指示所检测的姿势的控制信号的信号输出,其中,所述姿势检测器适合于执行上述方法。本发明也涉及包括用于生成视频流的视频摄像机、用于运行包括适合接收用于控制呈现的控制信号的信号输入的呈现的呈现设备,以及上述姿势检测器,其中,姿势检测器的输入被连接至由视频摄像机生成的视频流,且姿势检测器的信号输出被连接至呈现设备的信号输入,且呈现设备适合于基于接收来自姿势检测器的控制信号,控制呈现。最后,本发明涉及包括视频摄像机和上述姿势检测器的视频摄像设备。
【背景技术】
[0002]在当今世界,姿势检测变得越来越重要,因为姿势检测能够使用户基于简单的和甚至天生的人类姿势而无需使用特定输入设备如键盘、轨迹球、游戏控制器或其他设备来操作IT系统,例如台式计算机、笔记本电脑、PDA、智能电话、游戏机,或其他系统。该等输入设备要求用户使其行为适应特定输入设备的需要,这甚至可能因不同输入设备而不同。尽管识别姿势的方法和姿势检测器在本领域中是已知的,姿势识别仅很少应用在特殊情况。特定硬件需求和对执行姿势检测的高的计算工作量妨碍了姿势控制的广泛应用。
[0003]用于检测姿势的一个该系统是基于为姿势检测特定设计的立体摄像机和麦克风硬件配件的。该技术是对终端用户已知的举例,如与微软X-Box360游戏机一起使用的Kinect0通常,用户可通过姿势方式控制使用上述硬件的IT系统,如为控制增强的现实环境。该解决方案的缺陷是其依赖于专用硬件,这使得很难将姿势识别应用于任何IT系统。而且,Kinect技术需要明确定义的环境,在该环境中用户可确保姿势会被Kinect系统识另O。此外,对每一用户,Kinect系统的校准是需要的。Kinect系统的另一缺陷是为识别姿势的计算量是很高的,这使得不可能在具有低计算性能的IT系统上使用姿势识别,这样的系统通常应用于移动设备。例如,在视频会议情况下,例如在公共场所中办公室之外使用公共接入方式参与该视频会议的参与者,由于缺少合适的硬件和对于姿势检测的不合适的公共环境,被排除在姿势检测之外。这同样适用于在呈现系统中使用姿势检测以控制呈现设备。

【发明内容】

[0004]因此本发明的一个目的是提供一种用于识别姿势的方法和姿势检测器,该姿势检测器可与允许具有低计算量的强大且可靠的姿势检测的标准硬件组件一起使用。此外,本发明的一个目的是提供一种用于姿势检测的视频摄像系统,该系统简单易用,允许具有低计算量的强大且可靠的姿势检测且是有成本效益的。最后,本发明的一个目的是提供一种呈现系统,该系统可由人类姿势容易地控制,独立于硬件需求并允许具有低计算量的强大且可靠的姿势检测。[0005]该目的通过独立权利要求实现。有利实施例在从属权利要求中被给出。
[0006]具体地,本发明提供一种用于识别在会议情况等类似情形中使用的二维视频流中姿势的方法,包括步骤:执行视频流屏幕中的皮肤识别以识别皮肤部分,确定所识别的皮肤部分中的至少一个身体部位,监测关于所述至少一个身体部位的至少一个预定屏幕区域的状态,以及基于状态变化的检测提供指示所检测的姿势的控制信号。
[0007]本发明还提供包括用于接收视频流的输入,以及适合提供指示所检测的姿势的控制信号的信号输出的姿势检测器,其中,所述姿势检测器适合执行上述方法。
[0008]基本思想是基于状态机执行姿势检测,因此相比于预定屏幕区域,至少一个身体部分的状态可被监测。状态机可以容易地被且实现且仅需用于识别姿势的低的计算量。姿势识别是基于状态机,例如,姿势的识别由当前状态以及视频帧的当前场景中的皮肤部分和身体部位的识别确定。
[0009]场景在此是指视频流的瞬间视频信息。优选地,场景是基于视频流的帧。场景历史或之前场景的特定数据是不需要的并因此不被本发明的姿势检测考虑。
[0010]身体部位的检测基于事先的皮肤检测。皮肤识别通常是基于视频流的场景中具有某颜色的某区域的检测。基本上,视频流的帧中的每一像素的颜色与在特定颜色空间诸如RGB、YUV或HSV中定义的规则集进行比较。在数学上,每一规则定义将颜色空间分为不相交区域的平面。由所有平面的交叉在颜色空间中确定的体积对应于皮肤。
[0011]优选地,在HSV和RGB颜色空间上定义的规则的混合被应用于皮肤识别。通过将颜色像素表示为分别用RGB颜色空间中[R,G,B]和HSV颜色空间中[H,S,V]表示的矢量,如下的符合规则被用于将像素标记为皮肤:
[0012](R-G>29)且(R-B>29)且(H<27)且(S〉= 0.188)
[0013]皮肤识别工作如下。上述规则被应用于帧中的每一像素,对于皮肤返回真否则返回错误。接着,与输入帧相同大小的二进制皮肤掩膜(mask)被用于皮肤像素的数值I和用于非皮肤像素的数值O填充。相应地,二进制皮肤掩膜也称作皮肤图像,包含所识别的皮肤部分。
[0014]皮肤识别在假设某些前提的会议情况等类似情形中可被容易地实现。在该等会议情况等类似情形中,假设仅人的上半身是可见的且一个人的身体的皮肤部分基本上位于相同位置。而且,会议情况等类似情形通常由坐在摄像机前面且使其自己朝向摄像机的人定义,例如新闻发言人的方式。这尤其是指举行演讲的人,由此视频摄像机聚焦于该人。
[0015]会议情况等类似情形中的身体部位的识别也是相当简单的,因为人的上半身的可见性暗示人的脸和/或手是可见的。尤其当特定着装要求被保持时,可假设人的身体和双臂被覆盖,剩下脸和手待被确定。关于会议情况等类似情形的假设给定的越多,所识别皮肤部分中的身体部位的识别越容易。
[0016]控制信号可指示适合通过上述方法和姿势检测器识别的任何类型姿势,例如,简单姿势如举手,或者组合姿势例如举起右手和左手。例如,举手姿势由将手举起确定,例如将放置在预定的屏幕区域中,在该情形中预定的屏幕区域是位于屏幕区域的上半部分。另一姿势可由双举手来定义,例如,举起手,将手降低在预定屏幕区域外,并再次举起手。关于不同身体部位的不同屏幕区域的状态的改变也可被合并为单个姿势,例如,举起右手和左手。[0017]姿势检测器基本上可位于独立于视频流源的任何位置。视频流的输入可以是视频输入,例如模拟或数字视频输入,或用于通过IP网络例如LAN连接器传输视频流的任何类型的数据输入。姿势检测器通过内部处理单元,或使用位于姿势检测器外部的处理装置执行上述方法。相应地,姿势检测甚至可通过具有一个或多个位于姿势检测器外部的处理单元的云计算来执行。
[0018]本发明还提供包括视频摄像机和上述姿势检测器的视频摄像设备。
[0019]视频摄像机根据上述方法和姿势检测器提供视频流。视频摄像设备可被提供为单个设备或包括与视频摄像机相对应的一个独立装置和与姿势检测器相对应的一个独立装置。视频摄像机和姿势检测器通过网络连接例如有线或无线LAN连接器,或任何类型的合适视频连接,相连接。优选地,视频摄像设备的姿势检测器可使用云服务,如关于姿势检测器的以上描述。云服务的使用能够提供非常简单且便宜的姿势检测器。
[0020]本发明还提供包括用于生成视频流的视频摄像机,用于运行呈现的呈现设备的呈现系统,其中,呈现设备包括适合于接收用于控制呈现的控制信号的信号输入、上述姿势检测器,其中,姿势检测器的输入被连接至由视频摄像机生成的视频流,且姿势检测器的信号输出被连接至呈现设备的信号输入,其中,呈现设备适合于基于对来自姿势检测器的控制信号的接收来控制呈现。
[0021]对于呈现系统,呈现设备可位于任何位置。信号输入为例如网络输入,其与姿势检测器的网络输出相连接。因此,呈现系统的所有组件可彼此远离地分布。呈现设备可以是例如本地计算机,其从姿势检测器接收控制信号,或是使用计算机网络定位的中心服务器。呈现设备甚至可以是由云服务提供的任何虚拟设备。优选地,视频摄像设备通过网络连接被连接至姿势检测器。优选地,呈现系统是视频会议系统的一部分。因此,视频摄像机是呈现系统也是视频会议系统的一部分。姿势检测器可位于沿从视频摄像机到视频会议的其他参与者的显示设备的视频流传输路由的任何位置。呈现设备可用视频会议系统的任何类型的服务器整体地提供,或可位于任何其他位置,如以上详细说明的。
[0022]根据一个优选实施例,本方法适合于对视频流的每一视频帧执行所有方法步骤。视频流的简单处理允许对每一帧执行皮肤识别,以确定身体部位并监测关于身体部位的预定于屏幕区域。相应地,姿势检测的精确度可被提高。
[0023]一个优选实施例包括预定义关于一身体部位的位置的预定屏幕区域的步骤。这允许容易地将该方法适应于具有关于屏幕的不同测量和/或不同位置的不同用户,因此,对于在所有位置的所有这些用户,姿势的检测同样是可靠的。相应地,所检测的皮肤部分的相对位置可被用于确定不同身体部位,例如,在假设手位于屏幕的较低右侧和左侧区域下。
[0024]优选地,预定的屏幕区域被连续地适应,因此当用户在屏幕中移动时,姿势可被可靠地检测。即使用户的改变是可能的,例如从高用户到低用户,其中,对于这两种用户,姿势检测可被可靠地执行。作为一个举例,预定的屏幕区域可被定义为与手的位置相关。相应地,手的相对运动可被检测为姿势。在不同的实施例中,预定屏幕区域是屏幕的固定区域,其能够对视频流非常有效的处理。
[0025]在修改的实施例中,对预定的屏幕区域进行预定的步骤包括预定义关于脸的位置的屏幕区域,以及监测关于至少一个身体部位的至少一个预定屏幕区域的状态的步骤包括监测手。脸通常以屏幕中的最大皮肤部分为特征,这使得检测相当简单。而且,脸在屏幕中并不频繁地移动。相反,手被频繁地使用和移动,例如,通过做公众知晓的姿势、指示形式或指向方向,来支持演讲。由于相对固定的位置,脸是定义姿势的合适基础。同样,手相对头的移动范围受限于手臂,并因此是容易可检测的。优选地,各身体部位相对于头的角位置被监测以确定状态。
[0026]在优选实施例中,确定所识别的皮肤部分中的至少一个身体部位的步骤包括确定具有最大尺寸属于人脸的皮肤部分。此外或可选地,同样当前可用的脸检测器,例如HAAR特征分类器,可被用于人脸识别。
[0027]在优选实施例中,确定所识别的皮肤部分中的至少一个身体部位的步骤包括确定具有第二最大尺寸属于人手的皮肤部分。尤其在会议情况等类似情形中,身体部位的该等确定是很可靠的,因屏幕中的可用身体部位的数量是有限的。背景人物,若出现,通常在屏幕上将具有合理的较小的尺寸,因此对于姿势检测,他们可被可靠地丢弃。优选地,手可被确定为右手或左手基于他们相对人脸的位置。因此,位于人脸右侧的手被确定为右手,反之,位于人脸左侧的手被确定为左手。即使均位于人脸的相同侧的两个手可被可靠地识别,因他们的距离人脸的不同距离。因此,右手和左手的识别可具有高可靠性地被执行。
[0028]在修改的实施例中,确定所识别的皮肤部分中的至少一个身体部位的步骤包括使用黄金比例度量。黄金比例定义了人身体部位尤其是人脸的宽度和高度之间的特定关系,其通常可应用于几乎任何人脸。相应地,具有根据黄金比例的尺寸的皮肤部位可容易地被确定为身体部位。
[0029]在优选实施例中,监测关于至少一个身体部位的至少一个预定屏幕区域状态的步骤包括检测至少一个身体部位的中心位置。中心位置可由在本领域中通常被称为那些指向发现物体的“质量中心”的任何不同算法来估计。身体部位的中心的识别有便利于预定区域和所确定的身体部位的监测。基于中心位置,监测身体部位是否进入预定屏幕区域也是相当简单的。优选地,皮肤部分周围的额外边界框被使用,其提供了屏幕中的皮肤部分的估计。因不需要用于进一步处理的详细屏幕信息,这进一步有便利了姿势检测。
[0030]在优选实施例中,基于状态的变化的检测提供指示所检测的姿势的控制信号的步骤包括确定预定时间的状态的变化。相应地,平均化被执行,其允许状态的更可靠的检测,并因此姿势的更可靠的检测。视频错误和噪声,其可阻止成功的皮肤识别和/或身体部位的确定,但不是永久的,因此将不会降低姿势检测的可靠性。根据特定需求,例如根据待被识别的姿势的类别、帧速率,或一个人的个体行为,预定时间段可被指定。
[0031]在优选实施例中,监测关于至少一个身体部位的至少一个预定屏幕区域状态的步骤包括监测至少一个预定屏幕区域中的至少一个身体部位的运动状态。对于运动状态,由运动定义的姿势,也被称为扫动(sweeping)姿势或滑动(swiping)姿势,可被容易地检测。运动状态可被定义为各身体部位的运动的指示。优选地,运动状态包括监测位置,其允许获得运动的方向。相应地,滑动姿势的方向也可被检测。甚至更优选地,运动状态可通过角速度来监测。
[0032]在优选实施例中,姿势检测器包括用于监测关于至少一个身体部位的至少一个预定屏幕区域的每一状态的一个实体。每一实体独立地监测状态,这使得大多数可能的姿势能够被识别。优选地,对每一实体,预定屏幕区域和身体部位均被独立地检测,即预定屏幕区域中的身体部位的检测可被用于检测不同姿势,例如,当除左臂之外右臂抬高,或者右臂独立地被抬闻而左臂没有抬闻。
【专利附图】

【附图说明】
[0033]通过仅示例方式,并参考附图,根据本发明的装置和/或方法的一些实施例现在被描述,其中:
[0034]图1为根据示例性实施例的呈现系统的示意图;
[0035]图2为根据示例性实施例的指示用于检测举手姿势的方法的视频帧的示意图;以及
[0036]图3是根据示例性实施例的指示用于将手运动检测为刷出姿势的方法的视频帧的示意图。
【具体实施方式】
[0037]图1示出根据示例性实施例的呈现系统I的示意图。呈现系统包括视频摄像机2,其生成包括多个单个视频帧4的视频流3,其中,视频帧4是指根据本发明的屏幕。不同的视频帧4如图2和3所示。
[0038]呈现系统I还包括姿势检测器5,其中,姿势检测器5的输入6经由LAN连接7被连接至由视频摄像机2生成的视频流3。姿势检测器5还包括信号输出8,其通过另一 LAN连接9被连接至呈现系统I的呈现设备11的信号输入10。呈现设备11适合于运行呈现并基于从姿势检测器5接收到控制信号来控制呈现。
[0039]姿势检测器5包括皮肤分割单元12,其适合于执行视频流3中的皮肤识别以识别皮肤部分13,这在图2和3中被示出。皮肤分割单元12中的皮肤识别是基于具有与皮肤相关联的特定颜色的帧4的特定区域的检测。皮肤分割单元12提供作为输出的皮肤图像14,其包含视频帧4中的皮肤部分13的确定。
[0040]在该实施例中,皮肤识别是基于具有视频帧4中的特定颜色的帧4的特定区域的检测。实质上,视频流的视频帧4中的每一像素的颜色与在特定颜色空间诸如RGB、YUV或HSV中定义的规则集进行比较。在数学上,每一规则定义将颜色空间分为不相交区域的平面。由所有平面的交叉在颜色空间中确定的体积对应于皮肤。
[0041 ] 在该实施例中,在HSV和RGB颜色空间上定义的规则的混合被应用于皮肤识别。通过将颜色像素表示为分别用RGB颜色空间中[R,G, B]和HSV颜色空间中[H,S,V]表示的矢量,如下的符合规则被用于将像素标记为皮肤:
[0042](R-G>29)且(R_B>29)且(H<27)且(S〉= 0.188)
[0043]皮肤识别工作如下。上述规则被应用于视频帧4中的每一像素,对于皮肤返回真否则返回错误。接着,与视频帧4相同大小的皮肤图像14作为二进制文件被用于皮肤像素的数值I和用于非皮肤像素的数值O填充。相应地,皮肤图像14包含所识别的皮肤部分13。
[0044]对于每一所识别的皮肤部分13,也被称为场景对象SO (scene object),其质量中心15也被称为CM,以距离已被标记为皮肤的所有对象像素点的中心位置做计算。质量中心15为图像坐标对〈X,Y〉并被用于计算帧4中不同皮肤部分13之间的相对位置和角度。此夕卜,每一皮肤部分13接收关联的边界框15 (也被称为BB),其由其极限的左侧、右侧、上部和底部皮肤像素坐标确定并被表示为〈左,上,右,下〉四重。
[0045]姿势检测器5还包括作为输入接收皮肤图像14的场景对象确定单元17。场景对象确定单元17适合于确定皮肤图像14中的皮肤部分13之外的身体部位19、20。场景对象确定单元17首先通过确定具有最大尺寸如人脸19的皮肤部分13来执行身体部位19、20 (也被称为场景对象S0)的基础确定。具有第二最大尺寸的所识别的皮肤部分14被确定为手20。具体地,位于人脸19左侧的手20被确定为左手,反之位于人脸19右侧的手20被确定为右手。
[0046]相应地,场景对象确定单元17通过将黄金比例度量应用于所识别的皮肤部分13来执行第二确定步骤。相应地,若皮肤部分13的宽和高被确定为身体部位满足黄金比例,可靠性检查被执行。场景对象确定单元17提供作为输出的具有所确定的身体部位19、20的身体图像21,其中,每一身体部位19、20根据皮肤图像14中的皮肤部分13的表征而被表
/Jn ο
[0047]姿势检测器5还包括一组三个姿势检测器实体(gesture detectorinstance) 22 (也被称为⑶I),其适合于监测关于一个身体部位19、20的一个预定屏幕区域23的状态。预定屏幕区域23通过如图2和3所示的角位置在关于头19的每种情形中被定义。每一姿势检测器实体22检测关于手20的一个预定屏幕区域23的状态。
[0048]基于在其输入接收到身体图像21,每一姿势检测器实体22计算也被称为HSO的头19的位置与对应的也被称为LHSO的左手20的位置或也被称为RHSO的右手20的位置之间的相对角度和位置。每一姿势检测器实体22对该数据应用时空规则集,其意思是相对位置被衡量且该位置的变化随时间被监测以更新其当前内部状态。当姿势检测器实体22的当前内部状态表明成功检 测时,姿势事件被该姿势检测器实体22触发且指示特定姿势的各个控制信号在姿势检测器5的信号输出8处被提供。
[0049]现在详细描述举手姿势的检测。用于检测举手姿势的姿势检测器实体22,也被称为HRGD,是围绕2-状态机被建立的。在空闲状态,HRGD基于如下详细说明的条件(I)搜索当前身体图像21,其触发关于举手姿势的控制信号:
[0050](I) (CMs0.Y>BBhs0.BOTTOM)且(α〈 a min)
[0051 ]其中,SO = LHSO 或 RHSO
【权利要求】
1.用于识别在会议情况等类似情形中使用的二维视频流(3)中的姿势的方法,包括步骤 执行所述视频流(3)的屏幕中的皮肤识别以识别皮肤部分(13); 确定所识别的皮肤部分(13)中的至少一个身体部位(19,20); 监测关于所述至少一个身体部位(19,20)的至少一个预定屏幕区域(23)的状态;以及 基于状态的变化的检测提供指示检测到的姿势的控制信号。
2.根据权利要求1所述的方法,特征在于 所述方法适用于对所述视频流(3)的每一视频帧(4)执行所有方法步骤。
3.根据权利要求1所述的方法,包括对关于一个身体部位(19,20)的位置的所述预定屏幕区域(23)进行预定的步骤。
4.根据权利要求3所述的方法,特征在于 对所述预定屏幕区域(23)进行预定的步骤包括预定义关于脸(19)的位置的屏幕区域(23);以及 监测关于所述至少一个身体部位(20)的至少一个所述预定屏幕区域(23)的状态的步骤包括监测手(20)。
5.根据权利要求1所述的方法,特征在于 确定所识别的皮肤部分(13)中的至少一个身体部位(19,20)的步骤包括确定具有最大尺寸如人脸的所述皮肤部分(13)。
6.根据权利要求1所述的方法,特征在于 确定所识别的皮肤部分(13)中的至少一个身体部位(19,20)的步骤包括确定具有第二最大尺寸如人手(20)的所述皮肤部分(13)。
7.根据前述权利要求1所述的方法,特征在于 确定所识别的皮肤部分(13)中的至少一个身体部位(19,20)的步骤包括应用黄金比例度量。
8.根据任何前述权利要求1所述的方法,特征在于 监测关于所述至少一个身体部位(19,20)的至少一个预定屏幕区域(23)的状态的步骤包括检测所述至少一个身体部位(19,20)的中心位置。
9.根据任何前述权利要求1所述的方法,特征在于 基于状态的变化的检测提供指示检测到的姿势的控制信号的步骤包括确定预定持续时间的状态的变化。
10.根据前述权利要求1所述的方法,特征在于 检测状态变化的步骤包括确定状态的后续变化。
11.根据前述权利要求1所述的方法,特征在于 监测关于所述至少一个身体部位(19,20)的至少一个预定屏幕区域(23)的状态的步骤包括监测所述至少一个预定屏幕区域(23)中的所述至少一个身体部位(19,20)的运动状态。
12.一种姿势检测器(5),包括 用于接收视频流(3)的输入(6);以及 适合于提供指示检测到的姿势的控制信号的信号输出(8);其中,所述姿势检测器(5)适合于执行根据权利要求1的所述方法。
13.一种呈现系统(1),包括 用于生成视频流(3)的视频摄像机(2); 用于运行呈现的呈现设备(11),其中,所述呈现设备(11)包括适合于接收用于控制所述呈现的控制信号的信号输入(10); 根据前述权利要12的姿势检测器(5),其中,所述姿势检测器(5)的输入(6)被连接至由视频摄像机(2)生成的所述视频流(3),且所述姿势检测器(5)的信号输出(8)被连接至所述呈现设备(11)的信号输入(10); 其中,所述呈现设备(11)适合于基于对来自所述姿势检测器(5)的控制信号的接收来控制所述呈现。
14.根据权利要求13所述的呈现系统(1),其中,所述视频摄像机(2)经由网络连接 (7)被连接至所述姿势检测器(5)。
15.一种包括视频摄像机(2)和根据权利要求12的姿势检测器(5)的视频摄像设备(24)。
【文档编号】G06F3/01GK104011628SQ201280060051
【公开日】2014年8月27日 申请日期:2012年11月26日 优先权日:2011年12月5日
【发明者】米哈伊·法戈塔-科斯马, 穆莱·法蒂里 申请人:阿尔卡特朗讯
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1