三维手势识别方法及系统与流程

文档序号:12595248阅读:675来源:国知局
三维手势识别方法及系统与流程

本公开一般涉及计算机技术领域,具体涉及虚拟现实和增强现实技术领域,尤其涉及一种三维手势识别方法及系统。



背景技术:

手势交互能在不同场景下为用户提供自然交互的可能,其广泛应用于游戏、房地产、教育、旅游、影视等众多领域,用户无需穿戴任何设备,便可以实现如同人手跟自然世界一样的交互动作。同时,该技术是虚拟现实和增强现实应用领域中最为关键的人机交互技术之一,是实现更好的交互体验或更为复杂功能的基础。通过手势交互技术,可以极大地增强用户在使用虚拟现实(VR)/增强现实(AR)设备时的真实感和沉浸感。当前,精准捕捉、低延时、低功耗、便于携带、低成本的手势交互系统是该领域研究发展的重点方向。

从交互上看,手势作为是一种输入模式,其通过相关的外部设备获取模拟手部动作的输出。人机交互是指人与机器之间的互动方式,这种互动方式经历了鼠标、物理硬件、屏幕触控、远距离的体感操作的逐步发展的过程。传统的手势交互方式具体如下:

1)利用鼠标、光标的轨迹模拟手势交互。通过手部握住鼠标在显示屏上下左右滑动,来近似模拟手部方位运动。该方案缺点为,鼠标的动作非常单一,只有二维而没有三维信息,无法模拟手部的真实动作。

2)使用触摸板进行单指或多指等多种手势交互。例如,使用笔记本外置的触摸板设备,通过单指或多指的滑动,近似模拟手部的方位运动。这类方法与鼠标光标的手势交互相同,无法模拟手部的真实动作。

3)触摸屏上的手势交互。移动端(平板、手机)使用触摸屏的手势交互,主要有长按、轻触、滑动、拖动、旋转、缩放、摇动这八种手势,其优点是增加了可便携性,简单模拟了手势交互动作,其缺点是手势交互动作过于单一,无法模拟手部的真实动作。

由此可见,目前的手势交互方式大部分无法完全模拟手部的真实动作,而且无法应用在虚拟现实和增强现实领域中。然而,针对此问题,现有技术并没有提供一种有效的解决方案。



技术实现要素:

鉴于现有技术中的上述缺陷或不足,期望提供一种能够在虚拟现实和增强现实领域中模拟手部真实动作,从而实现便携式智能移动设备与虚拟现实/增强现实设备之间的手势交互实的技术方案。

第一方面,本申请提供了一种三维手势识别方法,所述方法包括:获取用户手部的第一三维位置信息,所述第一三维位置信息是用户手部上第一位置点的位置信息;使用预先定义的手势预测算法对所述第一三维位置信息进行预测计算,得到用户手部的第二三维位置信息和姿态信息,所述第二三维位置信息是用户手部上第二位置点的位置信息;以及将所述第二三维位置信息和所述姿态信息输入预先构建的三维手部模型,得到用户手部对应的三维手势。

第二方面,本申请提供了一种三维手势识别系统,包括穿戴式设备和终端设备,所述穿戴式设备包括:用于置于用户头部的头部固定结构;深度传感器,用于获取用户手部及周围环境的深度图像信息;接口传输结构,设置在所述深度传感器上,通过所述接口传输结构,所述深度传感器能够将所述深度图像信息发送给能够拆卸式安装在所述穿戴式设备上的终端设备;所述终端设备包括:提取模块,用于根据预置的手部形状和深度特征值,从所述深度图像信息中提取出所述第一三维位置信息;计算模块,用于使用预先定义的手势预测算法对所述第一三维位置信息进行预测计算,得到用户手部的第二三维位置信息和姿态信息,所述第二三维位置信息是用户手部上第二位置点的位置信息;处理模块,用于将所述第二三维位置信息和所述姿态信息输入预先构建的三维手部模型,得到用户手部对应的三维手势。

根据本申请实施例提供的技术方案,通过先由深度传感器获取用户手部的三维位置信息,再由终端设备根据预先设置的手势预测算法和预先构建的三维手部模型对用户手部的三维位置信息进行处理,从而得到用户手部对应的三维手势,最终达到了在虚拟现实和增强现实领域中模拟手部真实动作的效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是根据本申请的三维手势识别方法流程图;

图2A是根据本申请的三维手势识别系统的结构示意图;

图2B是根据本申请的三维手势识别系统中终端设备的结构框图;

图3是根据本申请的三维手势交互过程示意图;以及

图4是根据本申请的使用VR/AR设备与终端设备进行三维手势交互的效果示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

相较于传统的几种手势交互方式,现有技术中也存在可以实现真实模拟手部动作的手势交互方式,例如:方式1,通过在手部固定至少一个传感器设备,从而对手部的动作进行捕捉,这种手势交互方式能够真实模拟手部的动作,但是其严重依赖外部的传感器设备,成本高、体积大,便携性差,更为关键的是,还需要在用户手部上固定传感器,这给用户操作带来不好的体验。方式2,通过使用双目摄像头或者深度摄像头获取手部的三维信息,将手部的三维姿态重建出来,从而模拟真实的手部动作,虽然这种手势交互方式无需在手部增加额外的传感器设备,但是这种方式需要结合PC才能完成,这是由于模拟过程的算法过于复杂对处理芯片的要求过高,因此严重依赖于PC的硬件性能,导致其无法集成在注重便携性的智能移动设备上来实现。

可以看出,这两种方式虽然可以模拟用户手部的动作,但是其由于各自的缺陷导致无法应用在日渐成熟的虚拟现实和增强现实技术领域,从而无法为用户提供一种较好用户体验的三维手势交互方案。

而本申请提供的实施例提供的技术方案着重从虚拟现实和增强现实领域,提出一种可以实现虚拟现实/增强现实等头戴式设备与智能移动设备之间的三维手势交互方案,整个交互过程对硬件性能大大降低,只需要在头戴式设备上增设处理芯片或者采用智能移动设备自带的处理芯片,即可完成整个三维手势交互过程。

请参考图1,图1是根据本申请的三维手势识别方法流程图,如图1所示,该流程包括以下步骤(步骤S102-步骤S106):

步骤S102、获取用户手部的第一三维位置信息,所述第一三维位置信息是用户手部上第一位置点的位置信息;

步骤S104、使用预先定义的手势预测算法对所述第一三维位置信息进行预测计算,得到用户手部的第二三维位置信息和姿态信息,所述第二三维位置信息是用户手部上第二位置点的位置信息;以及

步骤S106、将所述第二三维位置信息和所述姿态信息输入预先构建的三维手部模型,得到用户手部对应的三维手势。

通过上述步骤,可以实现虚拟现实/增强现实等头戴式设备与智能移动设备之间的三维手势交互方案,整个交互过程对硬件性能大大降低。

在上述步骤S102,对于获取用户手部的第一三维位置信息的过程,可以通过这样的方式来实现:先通过深度传感器获取用户手部及周围环境的深度图像信息,再根据预置的手部形状和深度特征值,从所述深度图像信息中提取出所述第一三维位置信息。

作为一个较佳的实现方式,深度传感器上的芯片或处理模块只负责采集深度图像信息,然后可以将该深度图像信息发送给智能手机等终端设备,借助终端设备上的处理芯片(如CPU或GPU)的强大处理功能,负责根据预置的手部形状和深度特征值,从所述深度图像信息中提取出所述第一三维位置信息。

在本申请实施例中,所述第一位置点为用户手部的轮廓点,所述第二位置点为用户手部的关节点,所述姿态信息为用户手部的骨骼之间的角度。

也就是说,先借助深度传感器获取其图像采集范围(当然包含用户手部)的深度图像,在实际应用中,可以预先采集多个手部样本数据而得到用户手部的形状,但是总体而言,用户手部基本都是包含一个手掌部和五个手指的形状,而且,手的各个部位(例如,手掌部边缘、五个指尖)等对应到深度传感器的特征值是不同的,不同的深度特征值可以作为区分可各个部位的空间位置,因此,再根据预先设置的手部形状及深度特征值就可以将手从深度图中分割出来,得到手的大概轮廓,并进一步确定大概轮廓上预置点(即所述第一位置点)的位置信息,也即上述第一三维位置信息。

在实际应用中,可以将深度传感器设置在头戴式设备的前面,使用户手部位于其图像采集范围内,当然,对于目前的VR设备来说,很多采用智能手机等移动设备作为其场景提供设备,由于考虑到制作成本和技术成熟度,目前的移动设备大多采用普通的摄像头而非深度传感器,但随着智能技术的发展,未来的智能移动设备很大可能就会采用深度传感器,如果这样,头戴式VR设备上也可以不设置深度传感器,而直接利用智能移动设备上自带的深度传感器。

也就是说,深度传感器设置在头戴式VR设备上还是设置在智能移动设备上都是可行的技术方案。

其中,对于深度传感器的种类并不作出限定,例如,本申请中,所述深度传感器可以采用结构光相机、也可以采用飞行时间(Time of Flight,简称为TOF)相机。

在本申请实施例中,所述手势预测算法是根据预先定义的深度学习算法对多个深度训练数据进行学习后得到的深度训练模型。在得到上述第一三维位置信息之后,就可以根据手势预测算法,获取手部的姿态信息及关键点(用户手部上第二位置点,例如手指上的各个关节点)的位置信息(即所述第二三维位置信息),最后将这两种信息输入到预先构建的三维手部模型,从而驱动三维手部模型,输出与当前用户手部对应的三维手势。

对于传统VR/AR设备而言,由于用户手部的三维手势与用户所要执行的操作指令是存在预设的对应关系的,例如,手指的拿捏动作代表着拉大虚拟显示画面,手指的单指点击动作代表着打开画面内容等等。

因此,只要识别出当前用户手部对应的三维手势,也就相当于获得了当前用户手部所要表达的操作指令。在实际应用中,只要设置了处理能力的设备(如智能手机)对操作指令进行分析并执行,即可实现用户与VR/AR设备之间进行交互的目的。

对应于上述三维手势识别方法,本申请实施例还提供了一种三维手势识别系统,如图2A(图2A是根据本申请的三维手势识别系统的结构示意图)所示,该三维手势识别系统包括穿戴式设备1和终端设备2,其中:

所述穿戴式设备1包括:

用于置于用户头部的头部固定结构11;

深度传感器12,用于获取用户手部及周围环境的深度图像信息;

接口传输结构13,设置在所述深度传感器12上,通过所述接口传输结构13,所述深度传感器12能够将所述深度图像信息发送给能够拆卸式安装在所述穿戴式设备1上的终端设备2;

请同时参考图2B,图2B是根据本申请的三维手势识别系统中终端设备的结构框图,如图2B所示,所述终端设备2可以进一步包括:

提取模块21,用于根据预置的手部形状和深度特征值,从所述深度图像信息中提取出所述第一三维位置信息;

计算模块22,用于使用预先定义的手势预测算法对所述第一三维位置信息进行预测计算,得到用户手部的第二三维位置信息和姿态信息,所述第二三维位置信息是用户手部上第二位置点的位置信息;

处理模块23,用于将所述第二三维位置信息和所述姿态信息输入预先构建的三维手部模型,得到用户手部对应的三维手势。

本申请实施例中,所述手势预测算法是根据预先定义的深度学习算法对多个深度训练数据进行学习后得到的深度训练模型。所述第一位置点为用户手部的轮廓点,所述第二位置点为用户手部的关节点,所述姿态信息为用户手部的骨骼之间的角度。

本申请实施例中,所述深度传感器可以采用结构光相机、也可以采用飞行时间(Time of Flight,简称为TOF)相机。当然,对于深度传感器的种类并不作出限定,实际应用中,还可以采用其他深度传感器或者其它具有类似效果的传感器。

在三维手势识别系统的工作流程中,对于所述深度传感器,其可以获取精确的深度图数据,其可以采用结构光相机,结构光相机可以采用成熟的CMOS传感器,应用了特殊红外波段打光,加入了对应波段的红外窄带带通滤光片,通过双目摄像头的标定之后,结合特征匹配计算深度值,也可以采用TOF相机,TOF相机是一个激光正面,通过发射和接收光信号的相位差,直接算出深度值。

本申请实施例中,采用一个深度摄像头与智能移动设备(即上述终端设备)固定并相连接,提供深度点云数据,智能移动设备读取数据,并进行实时的手部姿态和位置的估计。

对于所述手势预测算法,在设定首先由人工标注大量手部的不同视角不同姿态的基于深度的训练数据,然后利用深度学习算法训练数据,得到一个深度训练模型(即为所述手势预测算法),通过该手势预测算法,即可输出手部骨骼的姿态信息(即所述姿态信息)和关节点的三维位置信息(即所述第二三维位置信息)。

另外,还为用户手部虚拟出一个三维手部模型,在使用过程中,将真实数据(即实时获取到的姿态信息和第二三维位置信息)输入三维手部模型,即可得到用户手部的三维手势,进而产生与真实世界一直的手部动作,从而确定用户的手部动作对应的操作指令。

本申请实施例中,智能移动设备等终端设备的功能除了为手势预测算法提供CPU/GPU计算支持以完成上述计算和处理操作之外,还要产生VR/AR的场景内容。

对于所述穿戴式设备,例如VR/AR头戴式设备等,主要用于借助智能移动设备等提供的二维视频画面生成全景的视频画面,增强了虚拟现实和增强现实应用的沉浸感体验。

进一步地,VR/AR应用场景部分,可以将交互技术与全景视频相结合,进一步增强了虚拟现实和增强现实应用的沉浸感体验。

在使用过程中,由智能移动设备接入VR/AR头显,生成全景的实时视频内容,使用前面提到的虚拟手模型,完成在VR/AR应用场景中的交互。

为进一步理解三维手势识别系统中各部部分的工作过程,可以参考附图3(图3是根据本申请的三维手势交互过程示意图),由于各部分的工作原理已经在前面进行了介绍,此处不在结合附图3进行进一步的说明。

为便于理解三维手势识别系统中穿戴式设备与终端设备之间进行交互的过程,以及呈现在用户眼前的虚拟现实效果,可以参考图4(图4是根据本申请的使用VR/AR设备与终端设备进行三维手势交互的效果示意图),以下对用户使用三维手势识别系统的过程进行简单介绍:

首先,将深度摄像头固定在VR/AR头戴式显示设备上,然后将智能移动设备(如智能手机)挂载或嵌入VR/AR头戴式显示设备中,进行固定,并用数据线将深度摄像头与智能手机相连接。从智能手机中打开VR/AR应用,进入VR/AR应用场景,将手部伸入到深度摄像头的视场以内,即可在应用场景中出现对应数目的手的三维模型。通过手部姿态估计算法模拟真实世界中手的不同姿态,从而触发不同的手势交互动作。实现在VR/AR应用场景中的裸手凌空操作,从而提高VR/AR应用的真实感和沉浸感。

本申请实施例提供的技术方案中,使用硬件包含一个VR/AR头戴式设备、智能移动设备和与之固定连接的一个深度传感器(该传感器采用结构光相机或TOF相机),利用深度传感器获取手部的深度点云数据,再通过手部姿态估计算法,能够精确估计出手部的骨骼自由度信息和关节点的三维位置信息,最终实现在虚拟现实和增强现实应用中的交互动作。由于手部不需要增加额外的传感器设备,并且整个算法的运算都只依赖于手机和深度传感器的硬件单元,因此可以满足移动设备对算法效率、精度、便携式的要求。

本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1