手部姿态与空间位置的感知方法

文档序号:6422855阅读:315来源:国知局
专利名称:手部姿态与空间位置的感知方法
技术领域
本发明大体上涉及改进的手部姿态与位置的感知方法。更具体地,本发明指示基于多摄像头系统、利用红外光照进行手部姿态与位置的感知的方法,用于提供改进的人机交互技术。
背景技术
多年来,随着多媒体技术的普及与发展,人们在对新型人机交互技术进行着不懈的探索。使用肢体、手势等直观的方式完成计算机的操纵,成为一个技术热点。人的手部是一种复杂的执行机制,其灵活度高、表现力丰富且可以完成精细的操作,但这些特性也使其姿态的识别与跟踪成为计算机研究中的重大挑战。对手部运动的识别,可以通过多种方法实现。来自微软公司的 US20100199228A1(
公开日2010年8月5日)提供了利用深度摄像头捕获并分析用户的身体姿态,并将其解释为计算机命令的方案。来自Nintendo公司的US20080291160A1 (
公开日2008年11月27日)提供了利用红外传感器和加速度传感器捕获用户手部位置的方案。 此外,现有技术中还有利用数据手套来辅助对手部姿态的识别的方案。这些方案实现了对手部运动的识别,但也存在着各种不足。缺点之一是价格昂贵。来自松下电器产业株式会社的CN1276572A提供了使用摄像头对手部进行拍照, 然后对图像进行归一化分析,并将归一化得到的图像进行空间投影,并将所得的投影坐标与预先存储的图像的投影坐标进行比较。该方法比较直观,但需要经过复杂的数学计算过程,且无法对手的空间位置进行识别与跟踪。此外,在手部运动感知领域,还存在着几大技术挑战首先,如何从获取的图像中有效的提取出手部的区域。一些技术方案通过识别人的皮肤颜色进行分割处理,但受到环境光照条件的影响很大,而且对于不同人种的肤色需特别处理。另一些方案,在手上佩戴一些具有颜色的标识,或彩色手套,但同样也受到一定的环境光照影响,且降低了使用设备的舒适程度与方便程度。其次,图像中的手部图像存在严重的自遮挡现象,即是说,在一副图像中,手指、手掌之间可能互相遮盖,使得计算机难以凭借图像中的信息判断出手指的具体姿态。

发明内容
本发明综合考虑了现有技术中存在的多方面问题,并以较低成本、较低计算复杂度和较低的系统的复杂度为代价,实现了对手部姿态与位置的有效识别。本发明具有以下几个重要的特点(a)可适用于多种复杂环境。使用该设备,无需特定的光照环境,无需对使用者及使用环境做过多的约束,也无需在使用者的身体上佩戴任何标志与传感器。也就是说,无论白天、夜晚;室外、室内;使用者的肤色;设备处于静态还是移动中,设备都不用进行改造或特别的设置,即可使用。
(b)可以全面的感知手部的运动。其既包括手在任意瞬时的位置与姿态,也包括手部以及手指的运动。(c)不使用复杂、造价昂贵或对生产工艺要求过高的设备。比如高速摄像头、深度摄像头、复杂传感器。(d)无需进行图像归一化处理、图像空间投影等复杂计算过程。根据本发明的一种用于多摄像头系统的手部姿态与位置的感知方法,所述多摄像头系统包括数据库,以及处于不同位置的第一摄像头与第二摄像头,所述数据库中有多个数据条目,每个数据条目包括一手部姿态与空间位置信息、与所述第一摄像头相对应的第一手部图像模板,以及与所述第二摄像头相对应的第二手部图像模板;所述手部姿态与位置的感知方法包括(1)利用第一摄像头捕获第一幅图像;利用第二摄像头捕获第二幅图像;(2)处理所述第一摄像头所捕获的第一图像,提取出第一手部区域的图像;处理所述第二摄像头所捕获的第二图像,提取出第二手部区域的图像;(3)对于所述数据库中的每一条数据条目,将第一手部区域的图像,与所述第一手部图像模板相比较,得到第一差值,将第二手部区域的图像,与所述第二手部图像模板相比较,得到第二差值,累加第一差值与第二差值,得到对应于所述数据库中的每一条数据条目的综合差值;(4)选取综合差值最小的一条数据条目的手部姿态与空间位置信息,作为手部姿态与空间位置测量结果;基于所述手部姿态与空间位置测量结果,在屏幕上绘制虚拟手图标或光标。


当连同附图阅读时,通过参考后面对示出性的实施例的详细描述,将最佳地理解本发明以及优选的使用模式和其进一步的目的和优点,其中附图包括图1绘制了根据本发明的用于手部姿态与位置感知的多摄像头系统的整体结构图;图2展示了根据本发明的多摄像头系统的控制电路的框图;图3展示了根据本发明所使用的手部模型的示意图;图4示出了根据本发明的实施例的数据库条目的生成方法;图5展示了根据本发明的手部姿态与位置识别方法的流程图;图6展示了根据本发明的实施例的手部图像提取的示意图;图7展示了根据本发明的实施例的手部图像匹配过程的示意图;图8展示了根据本发明的实施例的识别静态手势的示意图。
具体实施例方式图1是绘制了根据本发明的用于手部姿态与位置感知的多摄像头系统的整体结构图。如图1所示,根据本发明的手部姿态/位置感知系统包含计算机主机101、多摄像头系统的控制电路102、多个摄像头103、使用者手部104、运行于计算机主机101的应用程序105、应用程序105中的被操作对象106与虚拟手光标107,该多摄像头系统还包括在图1中未示出的用于照明使用者手部104的红外照明光源以及放置于每个摄像头前的红外滤光片。图1中的多个摄像头103包括处于不同空间位置的多个摄像头,用于从不同角度拍摄使用者手部104的图像。多个摄像头103具有红外感光能力。可以使用多个红外发光二极管作为系统的照明光源。为了获得稳定的照明效果,增加在图像中提取手部区域的成功率,可设立两类光源。一类为使用红外二极管直接照明,其照明的特点为光强集中,使得被照壳物体的边缘清晰可辨,但可能产生明显的阴影;另一类为在红外二极管上罩有散射材料,使其成为散射光源,其可将一个区域的照明亮度整体提高,但会造成一定的模糊。配合使用两种光源,可以达到较佳的照明效果。红外滤光片,覆于摄像头的镜头外侧,将可见光过滤,保证射入多个摄像头103的光线为红外光源的反射光线。使用滤光片后,多个摄像头103捕获的图像为灰度图像,且不受到外界光源环境的影响。图2展示了根据本发明的多摄像头系统的控制电路102的框图。图2展示了一个控制电路102的范例实现。包括存储器管理器201、内部存储器 202、只读存储器203、电源管理模块204、协处理器205、微处理器206、输入输出控制器207、 摄像头控制器208与209、USB控制器210。微处理器206是整个控制电路的核心,可采用 RISC类嵌入式处理器。协处理器205专职处理图像处理相关的任务,具有大规模并行处理能力,可采用DSP(数字信号处理器)或者其他嵌入式向量处理器,也可以采用定制开发的 ASIC(应用专用集成电路)或FPGA(现场可编程逻辑阵列)。微处理器206与协处理器205 之间用中断方式、GPIO(通用输入输出管脚)方式、或者双端口存储器方式进行通讯。微处理器和协处理器通过存储器管理器201访问存储设备,通过输入输出控制器207访问外接设备。存储器管理器201连接了内部存储器202和只读存储器203。内部存储器202承载了控制电路102在运行中的运算数据。由于只读存储器203是非易失性存储设备,可以用来储存控制电路102的启动程序和系统程序。输入输出控制器207是处理器和外部设备的桥梁。处理器通过输入输出控制器 207与外部设备进行通讯。在这个范例实现中,输入输出控制器207主要连接了两类设备, 摄像头控制器208/209和USB(通用串行总线)控制器210。其中,USB控制器210将控制电路102与计算机主机101 (可以是PC (个人计算机),也可以是其他嵌入式系统、电子设备或者游戏平台)连接,传达计算机主机101给控制电路102的命令,并且将手势识别的数据发回给计算机主机101。在多种实施例中,控制电路102和计算机主机之间的链接也可以通过其他方式连接,例如有线、无线网络连接等。摄像头控制器208/209的数量可变。根据具体应用环境中对手势识别的精度需求不同,可以部署一个到多个摄像头控制器208/209。 摄像头的数量越多,能够获得的识别精度越高。摄像头控制器208/209连接外部摄像头,将捕捉到的视频图像通过输入输出控制207器传达给微处理器206和协处理器205。在控制电路102的工作过程中,摄像头控制器208/209为控制电路102提供了手势识别的原始数据,微处理器206和协处理器205对原始数据进行处理,最终处理结果通过 USB控制器210传递给计算机主机101。值得注意的是,协处理器205是可选的部件,它的存在目的是加速图像处理相关的算法,提高手势识别的速度和精度。如果微处理器206的计算能力已经能够达成应用环境的识别效率的需求,那么完全可以去掉协处理器205,以节省成本。而对于某些应用环境,我们还可以将手势识别的算法计算过程转移到主机101上, 这样的话整个控制电路102可以进行更进一步的裁剪。剪裁后的控制电路用于接收摄像头控制器208/209传进来的原始数据,将其整合并传输到主机101。用户使用依据本发明的手部姿态与位置感知系统时,用户的手部104处于红外照明光源提供的红外光环境中。从摄像头103的视角来看,用户的手部104处于视野的前景,较明亮。因此,从摄像头103捕获的灰度图像中,可容易地通过一些已知的图像处理算法将手部区域分割出来。例如可以用J. Sauvola and Μ. Pietikainen, "Adaptive document image binarization,,,Pattern Recognition 33 (2), pp.225-236, 2000.论文中提到的自适应阈值的图像“二值化”方法将手的区域分割出来,或者采用 T.Horprasert, D.Harwood, and L. S. Davis, "AStatistical Approach forReal-Time Robust Background Subtraction and Shadow Detection,,,Proc. IEEE Int' 1 Conf. Computer Vision,99FRAME-RATE Workshop, 1999.论文中提到的基于统计的方法将摄像头视野内的前景和背景分离。在一个实施例中,还可以根据经验设定亮度阈值,将图像中亮度低于阈值的区域识别为背景区域,从而实现手部图像区域的分割。将从多摄像头103得到的一组分割后的手部图像,与手部姿态数据库中的预先存储的模板进行对比,以确定当前的手部姿态。下面结合图3、4说明创建手部姿态数据库的方法。图3示出了根据本发明而采用的虚拟手部模型。模型中的关节具有1个或2个自由度,自由度指表述关节运动的独立参数。远端指间关节304、近端指间关节305、拇指指间关节301、拇指掌指关节302都只具有1个自由度;拇指腕掌关节303、掌指关节306都具有 2个自由度。所以整个手部模型共有20个关节自由度。再加上表述手部空间位置的3个自由度(即手部的空间坐标)与表述手部朝向的3个自由度(即手部的俯仰角、横摆角与扭转角),本方法中采用的手部模型的姿态共涉及26个自由度。其可以由一个沈维向量表
7J\ ο在使用根据本发明的实施例而感知手部姿态或位置之前,首先构建存储手部姿态信息以及与该手部姿态信息相对应的手部图像模板的数据库。为构建数据库,测量要在真实的系统应用场景中放置的多个摄像头各自的位置与姿态。然后,使用虚拟现实图形渲染工具,构建虚拟场景403,并将虚拟摄像头402 (如图4所示)按照真实的系统应用场景中的位置放置于虚拟现实场景403中。并使用虚拟现实图形渲染工具,对在虚拟现实场景中的不同位置与姿态的虚拟手部404与红外光源进行模拟,生成虚拟光源401下的虚拟手部 404在各虚拟摄像头视角观测得到的灰度图像(411,412)。所生成的虚拟手部,符合在图3中所示出的手部模型。根据具体应用需求,所属领域技术人员可以对图3中的手部模型的一些自由度进行增加或删减,以改变手部姿态数据库的规模,来满足具体工程复杂度和手部感知精度的要求。所生成的数据库包括多个条目。每个条目中(图4中的数据库条目405),存储了条目序号406,一个手部姿态与位置的自由度信息(空间位置与朝向、以及各手指关节的角度)407,以及通过虚拟现实工具渲染得到的多个虚拟摄像头的每个所拍摄到的对应手部的灰度图像(408,409)。在一个实施例中,虚拟手部模型具有沈个自由度,在一个数据库条目
8405中,用一个沈维向量表示。在每个条目中,还存储有同该沈维向量相对应的多个手部灰度图像,其中该多个手部灰度图像的一个对应于多个虚拟摄像头中的一个,如表1所示。表1数据库条目表
权利要求
1.一种用于多摄像头系统的手部姿态与空间位置感知方法,所述多摄像头系统包括数据库,以及处于不同位置的第一摄像头与第二摄像头,所述数据库中有多个数据条目,每个数据条目包括一手部姿态与空间位置信息、与所述第一摄像头相对应的第一手部图像模板,以及与所述第二摄像头相对应的第二手部图像模板;所述手部姿态与空间位置感知方法包括(1)利用第一摄像头捕获第一幅图像;利用第二摄像头捕获第二幅图像;(2)处理所述第一摄像头所捕获的第一图像,提取出第一手部区域的图像;处理所述第二摄像头所捕获的第二图像,提取出第二手部区域的图像;(3)对于所述数据库中的每一条数据条目,将第一手部区域的图像,与所述第一手部图像模板相比较,得到第一差值,将第二手部区域的图像,与所述第二手部图像模板相比较, 得到第二差值,累加第一差值与第二差值,得到对应于所述数据库中的每一条数据条目的综合差值;(4)选取综合差值最小的一条数据条目的手部姿态与空间位置信息,作为手部姿态与空间位置测量结果。
2.根据权利要求1的手部姿态与空间位置感知方法,其中在利用第一和第二摄像头捕获图像中,使用红外光源作为照明光源,并在所述第一摄像头和所述第二摄像头的镜头前端覆盖红外滤光片,以过滤可见光。
3.根据权利要求1或2的手部姿态与空间位置感知方法,其中基于图像的亮度阈值,从所述第一图像和所述第二图像中去除背景,以提取第一手部区域的图像和第二手部区域的图像。
4.根据权利要求1的手部姿态与空间位置感知方法,其中在数据库中预先存储的多个数据条目通过以下步骤来生成(11)测量第一摄像头与第二摄像头的位置与姿态信息;(12)生成在第一位置与第一姿态的第一手部姿态与空间位置信息;生成在红外光照下,在第一摄像头的视野内的在所述第一位置与所述第一姿态的手的手部模拟图象,作为第一手部图像模板,以及在第二摄像头的视野内的在所述第一位置与所述第一姿态的手的手部模拟图象,作为第二手部图像模板;将第一手部姿态与空间位置信息、第一手部图像模板与第二手部图像模板作为一条数据条目存储在数据库中;(13)对于对应多个位置和多个姿态的多个手部姿态与空间位置信息,重复上述步骤 (12)。
5.根据权利要求1-4的手部姿态与空间位置感知方法,对以时间顺序生成的多个手部姿态与空间位置测量结果进行平滑处理,得到处理后的手部姿态与空间位置测量结果。
6.根据权利要求1的手部姿态与空间位置感知方法,进一步包括基于所述手部姿态与空间位置测量结果,在屏幕上绘制虚拟手图标或光标。
7.根据权利要求1的手部姿态与空间位置感知方法,进一步包括,基于在一连续时间段上得到的多个手部姿态与空间位置测量结果,识别由多个位置和/或姿态的手部区域的图像所构成的运动模式,并得到由所述运动模式所表示的操作类型。
8.一种用于多摄像头系统的手部姿态与空间位置感知方法,所述多摄像头系统包括数据库,以及处于不同位置的多个摄像头,所述数据库中有多个数据条目,每个数据条目包括一手部姿态与空间位置信息、与所述多个摄像头一一对应的多个手部图像模板;所述手部姿态与空间位置感知方法包括(1)利用所述多个摄像头的每个各捕获一幅图像;(2)处理步骤(1)中所述多个摄像头的每个所捕获的图像,去除每一图像的背景,以提取出多个手部区域的图像,每个所述手部区域的图像对应于所述多个摄像头之一;(3)对于所述数据库中的每一条数据条目,将与所述多个摄像头相对应所述多个手部区域的图像的每个,与跟每个手部区域图像相对应的摄像头相对应的手部图像模板相比较,并得到对应于所述数据库中的每一条数据条目的综合差值;(4)选取综合差值最小的一条数据条目的手部姿态与空间位置信息,作为手部姿态与空间位置测量结果;基于所述手部姿态与空间位置测量结果,在屏幕上绘制虚拟手图标或光标。
9.一种用于包含摄像头的系统的手部姿态与空间位置感知方法,所述系统包括数据库,以及第一摄像头,所述数据库中有多个数据条目,每个数据条目包括一手部姿态与空间位置信息以及与所述第一摄像头对应的手部图像模板;所述手部姿态与空间位置感知方法包括(1)利用第一摄像头捕获第一幅图像;(2)处理所述第一摄像头所捕获的第一图像,去除第一图像的背景,以提取出第一手部区域的图像;(3)对于所述数据库中的每一条数据条目,将第一手部区域的图像,与同所述第一摄像头相对应的手部图像模板做比较,得到对应于所述数据库中的每一条数据条目的综合差值;(4)选取综合差值最小的一条数据条目的手部姿态与空间位置信息,作为手部姿态与空间位置测量结果;基于所述手部姿态与空间位置测量结果,在屏幕上绘制虚拟手图标或光标。
10.一种用于多摄像头系统的手部姿态与空间位置感知装置,所述多摄像头系统包括数据库,以及处于不同位置的第一摄像头与第二摄像头,所述数据库中有多个数据条目,每个数据条目包括一手部姿态与空间位置信息、与所述第一摄像头相对应的第一手部图像模板,以及与所述第二摄像头相对应的第二手部图像模板;所述手部姿态与空间位置感知装置包括图像捕获模块,用于利用第一摄像头捕获第一幅图像;以及用于利用第二摄像头捕获第二幅图像;手部区域图像提取模块,用于处理所述第一摄像头所捕获的第一图像,提取出第一手部区域的图像;以及用于处理所述第二摄像头所捕获的第二图像,提取出第二手部区域的图像;比较模块,用于对于所述数据库中的每一条数据条目,将第一手部区域的图像,与所述第一手部图像模板相比较,得到第一差值,将第二手部区域的图像,与所述第二手部图像模板相比较,得到第二差值,累加第一差值与第二差值,得到对应于所述数据库中的每一条数据条目的综合差值;结果选择模块,用于选取综合差值最小的一条数据条目的手部姿态与空间位置信息,作为手部姿态与空间位置测量结果。
全文摘要
本发明提出了一种利用红外光源、基于可变数多摄像头的手势识别人机交互技术。本方法不需要用户佩戴任何辅助器具,且具有适用环境范围广、运动感知能力全面、造价低廉、计算复杂度低等突出特点。本发明使用虚拟现实的方法对手部姿态与位置进行建模,并生成模板数据库。在实际使用时,将去除背景的多摄像头输入图像与模板数据库中的条目进行对比,以对比差值最小的数据库条目作为手部姿态初步识别结果。为了使识别结果更稳定,本发明使用平滑滤波方法对初步识别结果进行修正,给用户提供更平稳的识别数据。除此之外,本发明还能够对一段连续时间手部动作的序列进行识别,为人机交互提供更丰富的选择。
文档编号G06K9/00GK102156859SQ20111010053
公开日2011年8月17日 申请日期2011年4月21日 优先权日2011年4月21日
发明者党建勋, 刘津甦 申请人:党建勋, 刘津甦
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1