基于双手手指之间动作的智能电子设备手势捕获与识别技术的制作方法

文档序号:18074347发布日期:2019-07-03 04:07阅读:481来源:国知局
基于双手手指之间动作的智能电子设备手势捕获与识别技术的制作方法

本发明总体地涉及智能电子便携设备的输入技术和交互技术,特别是涉及通过设置镜面装置使得智能电子设备如手机能够捕捉新手势以及构建双目视觉系统的技术。



背景技术:

目前手机上摄像头的视野范围有限且固定,如前置摄像头,只能获取手机正上方60*80度左右空间范围中的图像信息,(2)手机现有摄像头基本上都是单目摄像头,单目摄像头只能获取其视野范围内物体的rgb信息,无法获取其三维信息。

由于手机现有的现有摄像头的缺陷,我们无法使用手机获得用户自然使用手机时的手部信息,许多对与手机交互有价值的手部信息被忽略。

目前手机上的输入通道还是有限的,大部分信息都是依靠手机电容屏读到的数据,即用户的手与触摸屏之间的直接接触而产生的,因此会出现一些操作繁琐或操作不自然等现象。



技术实现要素:

鉴于上述情况,提出了本发明。

根据本发明的一个方面,提供了一种智能电子设备,部署有摄像头,所述摄像头能够捕获用户持握设备的持握手的图像智能电子设备基于所获得的用户的持握手的图像,识别持握手的手势,基于识别的持握手的手势,智能电子设备执行相应的控制操作。

可选地,所述识别持握手的手势包括跟踪电子设备周围握持手指的位置,以及以不同持握手指的抬起、移动或敲击智能电子设备的动作作为交互的信息输入。

可选地,所述持握手势模型包括手持智能电子设备拍照的手势,称此为拍照手势,当智能电子设备识别到拍照手势时,智能电子设备自动启动拍照的应用,并自动拍摄一张照片。

可选地,智能电子设备,还还能够操作来:识别用户是用哪只手进行持握;基于识别结果,对图形用户界面布局进行调整,使得用户的持握手的手指能够相比于调整前更容易地点击到目标部件。

可选地,摄像头在智能电子设备的边缘。

可选地,摄像头是在屏幕下方的鱼眼摄像头。

可选地,智能电子设备还包括与摄像头结合使用的红外照明和红外滤光片,以增大信噪比。

可选地,摄像头是深度摄像头。

可选地,智能电子设备还包括倾斜于智能电子设备的屏幕布置的光学反射装置,该光线反射装置能够反射平行于电子设备屏幕表面的光使其被摄像头捕捉,从而在用户持握电子设备时,摄像头能够捕获到屏幕上方的、用户在握持电子设备时的手部的图像;智能电子设备基于所获得的用户的手部图像,识别此时用户的手部动作和/或姿态,作为用户的输入信息,并与用户交互。

可选地,所述光线反射装置是镜片、三棱镜、凸面镜以及多镜片之一或者其组合。

可选地,所述摄像头为广角摄像头。

可选地,所述广角摄像头被置于屏幕中央,其光轴方向垂直于电子设备触摸屏,具有170度到190度视角。

可选地,所述摄像头为可升降摄像头和/或可调整角度摄像头。

可选地,所述可升降摄像头和/或可调整角度摄像头的视野范围为其视野范围以平行于电子设备平面纵向轴的视线为零度线、在电子设备平面的横向轴的法平面内至少-40度到40度的范围。

可选地,所述智能电子设备为智能手机、智能车载电子设备、智能平板电脑中的任一个。

根据本发明的另一方面,提供了一种所述智能电子设备部署有摄像头,所述摄像头能够捕获用户持握设备的持握手的图像,所述人机交互方法包括:基于所获得的用户的持握手的图像,识别持握手的手势,基于识别的持握手的手势,电子设备执行相应的控制操作。

可选地,智能电子设备具有摄像头和倾斜于电子设备屏幕表面布置的光线反射装置,所述人机交互方法包括:摄像系统在用户持握电子设备时捕获到屏幕上方的、用户在使用电子设备时的手部的图像;智能电子设备基于所获得的用户的手部图像,识别此时用户的手部动作和/或姿态,作为用户的输入信息,并基于此输入信息与用户交互。

根据本发明的另一方面,提供了一种智能电子设备,具有传感器,所述传感器能够感测到屏幕上方的、用户在使用电子设备时的手部的信息,其中所述智能电子设备处理传感器感测的数据、识别双手手指之间的动作,作为用户针对智能电子设备的手势输入,并进行相应的控制操作。

可选地,所述传感器为安装在智能电子设备上的摄像系统,能够捕获到屏幕上方的、用户在使用电子设备时的手部的图像。

可选地,还包括基于所获得的用户持握电子设备时的手部的图像,识别此时用户的持握状态下的手势,作为用户的输入信息,并与用户交互,其中,智能电子设备进行下述手势识别中的至少一项:智能电子设备识别单手持握姿势,以及识别另一只手对持握手的触碰动作,作为与智能电子设备的手势输入,来进行与用户的交互;智能电子设备识别双手持握姿势,以及识别双手拇指之间的动作,作为针对智能电子设备的手势输入,来进行与用户的交互。

可选地,所述摄像系统包括前置摄像头和倾斜于电子设备屏幕表面布置的镜片或三棱镜,该镜片或三棱镜反射平行于电子设备屏幕表面的光,使其被前置摄像头捕捉,前置摄像头捕获到经镜片或三棱镜反射的光,从而捕获到用户持握电子设备时,屏幕上方的、用户在使用电子设备时的手部的图像;智能电子设备基于所获得的用户持握电子设备时的手部的图像,识别此时用户的持握状态下的手势,作为用户的输入信息,并与用户交互,其中,智能电子设备进行下述手势识别中的至少一项智能电子设备识别单手持握姿势,以及识别另一只手对持握手的触碰动作,作为与智能电子设备的手势输入,来进行与用户的交互智能电子设备识别双手持握姿势,以及识别双手拇指之间的动作,作为与智能电子设备的手势输入,来进行与用户的交互。

可选地,智能电子设备通过识别侧面突出的四指以及出现在电子设备上方或侧面的一个拇指,来识别单手持握姿势。

可选地,智能电子设备通过识别出现在智能电子设备两侧的拇指指根和屏幕上方的两个拇指指头,来识别双手持握姿势。

可选地,在单手持握的情况下,另一只手对持握手的触碰动作包括:手指按钮和手指滑动条手势,其中手指按钮手势中,以持握手的手指作为按钮,另一只手对其进行触摸,在手指滑动条手势中,以持握手的手指作为滑动条,另一只手在其上滑动或点击。

可选地,所述双手拇指之间的动作包括下面中的一个或多个:拇指相触;拇指轮转;拇指分别按一定路径动作;拇指相触之后按一定路径动作。

根据本发明的另一方面,提供了一种智能电子设备的人机交互方法,智能电子设备具有传感器,所述传感器能够捕获到屏幕上方的、用户在使用电子设备时的手部的图像,其中所述人机交互方法包括:所述智能电子设备识别双手手指之间的动作,作为用户针对智能电子设备的手势输入,并进行相应的控制操作。

可选地,所述传感器为安装在智能电子设备上的摄像系统,能够捕获到屏幕上方的、用户在使用电子设备时的手部图像。

可选地,人机交互方法还包括基于所获得的用户持握电子设备时的手部图像,识别此时用户的持握状态下的手势,作为用户的输入信息,并与用户交互其中,识别此时用户的持握状态下的手势包括进行下述手势识别中的至少一项:识别单手持握姿势,以及识别另一只手对持握手的触碰动作,作为与智能电子设备的手势输入,来进行与用户的交互;识别双手持握姿势,以及识别双手拇指之间的动作,作为针对智能电子设备的手势输入,来进行与用户的交互。

可选地,所述摄像系统包括前置摄像头和倾斜于智能电子设备屏幕表面布置的镜片或三棱镜,该镜片或三棱镜反射平行于电子设备屏幕表面的光,使其被前置摄像头捕捉,前置摄像头捕获到经镜片或三棱镜反射的光,从而捕获到用户持握电子设备时,屏幕上方的、用户在使用电子设备时的手部的图像。

可选地,智能电子设备通过识别侧面突出的四指以及出现在智能电子设备上方或侧面的一个拇指,来识别单手持握姿势。

可选地,智能电子设备通过识别出现在智能电子设备两侧的拇指指根和屏幕上方的两个拇指指头,来识别双手持握姿势。

可选地,在单手持握的情况下,另一只手对持握手的触碰动作包括:手指按钮和手指滑动条手势,其中手指按钮手势中,以持握手的手指作为按钮,另一只手对其进行触摸,在手指滑动条手势中,以持握手的手指作为滑动条,另一只手在其上滑动或点击。

可选地,所述双手拇指之间的动作包括下面中的一个或多个:拇指相触拇指轮转;拇指分别按一定路径动作;拇指相触之后按一定路径动作。

根据本发明的另一方面,提供了一种智能电子设备,具有前置摄像头和倾斜于电子设备屏幕表面布置的光线反射装置,所述光反射装置使得平行于电子设备屏幕方向的光能够经其反射进入前置摄像头,从物体一点发出的光经由棱镜、便携设备的屏幕的反射,会通过两条光路进入摄像头,由此产生两个虚拟的摄像头,搭建出虚拟的双目摄像头,进而获得物体的空间三维信息。

可选地,智能电子设备还配备有红外发光装置,所述摄像头为红外摄像头。

可选地,所述光反射装置是三棱镜。

可选地,所述光反射装置是平面镜或凸面镜。

可选地,所述双目摄像头能够捕获以电子设备底部为起始点的左右横向至少各5厘米、纵向向上至少10厘米范围内的物体的图像。

可选地,两条光路之一为物体一点发出的光直接射到光反射装置,然后经光反射装置反射后进入前置摄像头;另一光路中的另一个为物体该点发出的光首先经过电子设备屏幕反射后、射到光反射装置,然后被光反射装置反射后进入前置摄像头。

可选地,前置摄像头捕获到的图像中存在相对较暗的区域带,称之为暗带,所述棱镜相对于前置摄像头的位置能够被调整,以减小暗带的范围。

可选地,前置摄像头捕获到的图像中存在相对其他区域较暗的区域,称之为暗带,智能电子设备在计算立体视觉信息之前使用亮度补偿方法来去除暗带。

可选地,所述智能电子设备基于获得的图像,识别图像中的物体,并基于识别的结果,来进行交互。

可选地,在识别到物体是一支笔的情况下,估算笔身与电子屏幕表面之间的角度,并基于所估算的角度,来控制智能电子设备的交互操作。

可选地,对于捕获的双目rgb图像,执行下述处理来进行手势识别:

(1)进行校正处理,得到标准化的单目rgb图像;

(2)使用肤色分割方法得到手部皮肤遮罩图像;

(3)基于两个标准化的单目rgb图像,逐个像素计算深度,得到深度图;

(4)组合皮肤遮罩图像和深度图,得到手部区域的分割图像;

(5)基于得到的手部区域的分割图像,进行手势识别。

可选地,所述校正处理包括使用像素颜色方程output=input*r+l来进行颜色校正,其中output为输出的图像中的每个像素的颜色,input为输入的图像中的每个像素的颜色,r为反射因子,仅取决于屏幕表面的物理性质,l为电子设备的自发光。

可选地,设置所述l为零,以通过采用该智能电子设备采集白色墙面的图像,拟合得到参数r。

可选地,所述肤色分割算法包括两个模块,一个模块利用图像中的色调和饱和度的阈值用以分割皮肤区域,另一个模块每隔预定数目帧动态地校准这些阈值。

根据本发明的另一方面,提供了一种智能电子便携设备的人机交互方法,智能电子便携设备具有前置摄像头和倾斜于电子设备屏幕表面布置的光反射装置,光反射装置为平面镜片或三棱镜,所述人机交互方法包括反射装置使得平行于电子设备屏幕方向的光能够经其反射进入前置摄像头,从物体一点发出的光经由棱镜、便携设备的屏幕的反射,通过两条光路进入摄像头,得到两个平面图像便携设备处理此两个平面图像,得到深度信息结合深度信息进行物体识别,基于识别的物体进行人机交互。

可选地,智能电子便携设备还配备有红外发光装置,所述摄像头为红外摄像头。

可选地,所述光反射装置是三棱镜。

可选地,所述光反射装置是平面镜或凸透镜。

可选地,所述双目摄像头能够捕获以电子设备底部为起始点的左右横向至少各5厘米、纵向向上至少10厘米范围内的物体的图像。

可选地,两条光路之一为物体一点发出的光直接射到光反射装置,然后经光反射装置反射后进入前置摄像头;另一光路中的另一个为物体该点发出的光首先经过电子设备屏幕反射后、射到光反射装置,然后被光反射装置反射后进入前置摄像头。

可选地,前置摄像头捕获到的图像中存在相对较暗的区域带,称之为暗带,所述棱镜相对于前置摄像头的位置能够被调整,以减小暗带的范围。

可选地,前置摄像头捕获到的图像中存在相对其他区域较暗的区域,称之为暗带,智能电子便携设备在计算立体视觉信息之前使用亮度补偿方法来去除暗带。

可选地,所述智能电子设备基于获得的图像,识别图像中的物体,并基于识别的结果,来进行交互。

可选地,在识别到物体是一支笔的情况下,估算笔身与电子屏幕表面之间的角度,并基于所估算的角度,来控制智能电子设备的交互操作。

可选地,人机交互方法还包括结合深度信息识别用户的手部动作和/或姿态,作为用户的输入信息,并基于此输入信息与用户交互。

可选地,在捕获的图像为单目rgb图像的情况下,还包括对于捕获的特定两个单目rgb图像,执行下述处理来进行手势识别:(1)进行校正处理,得到标准化的单目rgb图像;(2)使用肤色分割方法得到手部皮肤遮罩图像(3)基于两个标准化的单目rgb图像,逐个像素计算深度,得到深度图;(4)组合皮肤遮罩图像和深度图,得到手部区域的分割图像;(5)基于得到的手部区域的分割图像,进行手势识别。

可选地,所述校正处理包括使用像素颜色方程output=input*r+l来进行颜色校正其中output为输出的图像中的每个像素的颜色,input为输入的图像中的每个像素的颜色,r为反射因子,仅取决于屏幕表面的物理性质,l为电子设备的自发光。

可选地,设置所述l为零,以通过采用该智能电子设备采集白色墙面的图像,拟合得到参数r。

可选地,所述肤色分割算法包括两个模块,一个模块利用图像中的色调和饱和度的阈值用以分割皮肤区域,另一个模块每隔预定数目帧动态地校准这些阈值。

根据本发明的另一方面,一种智能电子设备,包含一个可触摸表面,具有传感器,所述传感器能够捕获到与可触摸表面接触时的手部图像,其中所述智能电子设备识别在手触碰到可触摸表面时的手的状态,包括识别手碰触可触摸表面的具体部位、识别碰触可触摸表面的是哪根手指、手指相对于可触摸表面的角度中的一个或多个。

可选地,其中识别手的具体部位包括识别手指尖、指腹、大鱼际、指关节中的一个或多个,不同的手指部位对可触摸表面上同一位置的同一动作表示对不同物件进行相应的操作。

可选地,所述传感器包括摄像头,对于手的具体部位检测,利用摄像头捕获的图像信号,基于形态检测的图像处理完成。

可选地,其中识别相关手指是哪根手指包括:识别拇指、食指、中指、无名指以及小指的一个或多个,不同手指对同一界面目标的同一动作表示对此界面目标进行不同操作。

可选地,对于使用手指的识别,使用深度神经网络完成。

可选地,其中识别手指相对于的角度包括:识别手指相对于可触摸表面所成处于0到90度范围中的各种角度,以及识别这些手指对可触摸表面不同角度的点击,或点击后的手指角度调节,均作为信息输入。

可选地,在检测到手指触碰音量/亮度调节按钮的情况下,基于检测到手指相对于屏幕的角度的变化,调节音量/亮度大小。

可选地,所述识别手指相对于屏幕的角度包括:根据屏幕电容信号的位置,通过坐标变换确定手部点击点在图像中的位置,进而在图像中确定点击区域,使用线性回归预测的方法,对深度图中指尖区域的点云进行拟合,进而确定点击手指的角度,所述点击区域包括点击位置及点击位置上方的特定区域。

可选地,对于手的具体部位检测,结合屏幕电容信号和摄像头捕获的图像信号,基于形态检测的图像处理完成。

可选地,电子设备是智能手机,触摸板、车载设备中的一种。

本发明一个实施例的方案能够利用一块镜子(包括平面镜、三棱镜或凸镜等),改变手机现有摄像头的视野范围。传统手机上摄像头的视野范围有限且固定,如前置摄像头,只能获取手机正上方60*80度左右空间范围中的图像信息,无法使用手机获得用户自然使用手机时的手部信息,许多对与手机交互有价值的手部信息被忽略。本方案通过增加一个低成本的镜子配件和相应的算法,改变前置摄像头的视野范围,使得通过镜面的反射,现有摄像头能够捕获用户(在自然使用手机时的)手部图像信息,大大拓宽了手机摄像系统的视野范围。

本发明另一实施例的方案为手机提供了一个低成本的(仅需一块镜子)双目视觉系统,通过这块镜子与手机现有摄像头配合产生的两条光路,构造出一个虚拟的双目摄像头,还原出空间中物体的三维信息。

本发明另一实施例还提供了基于握持手的交互手势,与传统手机的基于触摸屏的信息输入方式相比,基于持握手的手势交互能够丰富手机的输入方式,将一些交互变得更加便捷。此外,由于人体的自我感知,用户能轻松地定位自己的身体部位,因此用户可以在无需视觉关注的情况下照到持握手的特定部位进行交互。本发明实施例的这种交互方式更加符合用户自然使用手机时的使用习惯,不需要刻意地将使用手抬起,在空间中做出不自然的手势。实际的用户使用体验实验表明这些交互设计方式能够很好地被用户所接受,同时具有趣味性、易学性以及便利性。

附图说明

从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:

图1、图2示出了根据本发明实施例的利用倾斜于手机屏幕放置的镜子摄像头的捕获范围被改变为涵盖与手机屏幕平行的贴近手机屏幕的空间的示意图。

图3示出了根据本发明实施例的放置有斜置镜子的手机的人机交互方法的一个示例性操作过程。

图4示出了手机中广角摄像头置于屏幕中央的示意图,图5示出了这种情况下的视野范围的示意图。

图6示出了手机顶部安装可升降摄像头的情况的示意图。

图7示出了手机边缘安装可调整摄像头的情况的示意图

图8示出了图6和图7中的摄像头安装方式与手机的传统前置摄像头的视野范围对比的示意图。

图9示出了根据本发明一个实施例的用户食指点击手机侧面,屏幕中出现光标以方便用户对远处物体进行点击的场景示意图。

图10示出了当用户用拍照的手势拿起手机时,相机app应该自动识别打开,并自动拍摄一张照片的场景示意图。

图11示出了在识别了用户是用哪只手进行持握后,就可以对ui布局进行调整,使得用户更好地点击到目标部件的示意图。

图12示出了手指滑动条和手指按钮的应用示意图。

图13示出了双手握持手机时的双手拇指手势示意图。

图14示出了镜子与手机已有摄像头配合搭建虚拟双目摄像头的光学原理示意图。

图15示出了在使用三棱镜的情况下手机前置摄像头捕获到的图像中会出现相对较暗的区域带的示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。

在介绍之前,解释一下有关术语在本文中的含义。

镜子,本文中的镜子为广义含义,为具有光反射功能的装置,例如平面镜片、三棱镜、凸镜等。

手部皮肤遮罩图像,图像中只有手部区域存在,其他背景被去除的图像。与其他图片结合时,可以区分并遮盖住不想要的部分。

本文中的“屏幕上方的、用户在使用电子设备时的手部”,指的是屏幕上方5厘米内的用户在使用电子设备时的手部,这样的手部用传统手机的前置摄像头是基本拍摄不到的。

一、基于持握手的人机交互

现有的手机上的手势交互不考虑在使用手机时的用户姿态特征,他们需要刻意地将使用手抬起,在空间中做出不自然的手势。

发明人考虑到持握手是距离手机最近的身体部分,基于持握手的交互更加符合用户自然使用手机时的行为习惯,能够丰富手机的信息输入方式,有更多新的便捷且自然的交互可能。

发明人进一步想到,手机要想捕获持握手,传统的传感器使用起来不够便利。想要感知用户在使用手机时的手部信息,当前技术大多为使用手机内置传感器,如加速度传感器、重力传感器等等,有些研究会在手机上外接超声波传感器进行信息获取。这些方法只能获取特定的、简单的手部信息,如手是否接近手机、手的移动方向、是否摇晃手机等,无法获得持握手的信息。

根据本发明的一个实施例,提出了基于持握手的交互技术,在手机上安装能够捕获用户在使用手机时的持握手图像的摄像头,对持握手的图像进行捕获,用计算机视觉的技术获取持握手的手势信息,不仅能够识别握持姿势,还能够跟踪手机周围握持手指的位置。通过获取持握手的这些信息,手机执行相应的控制操作。这种基于持握手的交互方式,既能丰富手机的信息输入方式,也能让许多操作变得更加智能与快捷。

关于摄像头的形式,可以是现有摄像头配有额外配置的镜子,或者为鱼眼摄像头。

根据本发明一个实施例,利用斜放在手机现有摄像头上方的一块镜子,改变现有摄像头的捕获空间。因此,该摄像头能通过镜面的反射,获得用户(在自然使用手机时的)手部图像信息,此时摄像头的捕获范围被改变为涵盖与手机屏幕平行的贴近手机屏幕的空间,如图1、图2所示。现有手机中的前置摄像头主要用于捕捉手机前向或后向的物体图像,而不能捕捉到人手部对手机的操作,例如不能捕捉的握持手机的手,也不能捕捉到手对手机的操作,其视野范围约以垂直手机线为中轴的80度范围,如图5中的上图所示;相对比,本发明实施例通过在手机侧面与手机屏幕倾斜的布置一即能够反射平行于手机屏幕表面的光使其被摄像头捕捉,从而在用户持握手机时,摄像头能够捕获到涉及与手机屏幕平行方向上的光线的、屏幕上方的、用户在使用手机时的手部的图像,并基于此识别用户的手势,来基于来手势进行反馈。

根据本发明实施例的放置有斜置镜子的手机的人机交互方法的一个示例性操作过程如图3所示:在步骤110中,捕获用户持握手机时的手部图像;在步骤120中,使用计算机视觉的算法对手势进行识别;在步骤130中,手机执行对应的操作。

优选地,摄像头的位置在手机边缘(包括手机顶部以及侧面)。替代地,摄像头还可以手机表面内等各种位置,最终实现的目的是能够捕获用户在使用手机时双手的图像信息。摄像头的视野可能是固定的,专门用来拍摄用户双手;也可能能够进行调整,在需要的时候将视野调整到用户双手上。下面列出几种可能情况:

(1)摄像头安装在手机屏幕内,广角的摄像头能够捕获用户在使用手机时的大部分手部动作:

所述广角摄像头被置于屏幕中央,如图4所示,其视野范围以平行于手机平面纵向轴的视线为零度线、在手机平面的横向轴的法平面内的0度到180度的范围,如图5中的下面的图所示。

(2)安装在手机上的可升降摄像头,图6示出了安装在手机顶部的可升级摄像头示意图。

(3)安装在手机边缘的可调整摄像头,图7示出了安装在手机顶部的可调整摄像头的示意图。

图8示出了上述第(2)、(3)种安装方式与手机的传统前置摄像头的视野范围对比的示意图,其中图8中的上图为手机传统前置摄像头的视野范围示意图,图8中的下图为本发明实施例的第(2)、(3)种安装方式的视野范围示意图。

在一个示例中,智能电子便携设备上还配置与摄像头结合使用的红外照明和红外滤光片,以增大信噪比。

在一个示例中,智能电子便携设备上还布置有深度摄像头,从而能够获取深度信息,后续将对配置深度摄像头获取深度信息的方法进行详细描述。

在一个示例中,智能电子便携设备配置有倾斜于智能电子便携设备的屏幕布置的光学反射装置,该光线反射装置能够反射平行于电子设备屏幕表面的光使其被摄像头捕捉,从而在用户持握电子设备时,摄像头能够捕获到屏幕上方的、用户在使用电子设备时的手部图像;智能电子便携设备基于所获得的用户的手部图像,识别此时用户的手部动作和/或姿态,作为用户的输入信息,并与用户交互。

可选的,所述光线反射装置是镜片、三棱镜、凸面镜以及多镜片之一或者其组合。

可选的,所述摄像头为广角摄像头。

可选的,所述广角摄像头被置于屏幕中央,其光轴方向垂直于电子设备触摸屏,具有170度到190度视角。

可选的,所述摄像头为可升降摄像头和/或可调整角度摄像头。

可选的,所述可升降摄像头和/或可调整角度摄像头的视野范围为其视野范围以平行于电子设备平面纵向轴的视线为零度线、在电子设备平面的横向轴的法平面内至少-40度到40度的范围。

可选的,所述智能电子便携设备为智能手机、智能车载电子设备、智能平板电脑中的任一个。

通过摄像头捕获到的手部信息,不仅能够识别握持姿势,还能够识别瞬时或者持续的握持手势,包括跟踪手机周围握持手指的位置,从而能有下列应用:

(1)获取持握手的手指位置和动作,当用户单手持握手机时,他用以持握手机的手指仍然具有移动的空间和灵活性。不同手指的抬起、移动或敲击手机的动作均可以作为交互的信息输入。例子如下:用户食指点击手机侧面,屏幕中出现光标以方便用户对远处物体进行点击,如图9所示。

(2)识别持握手势。持握手势能为手机带来许多有价值的输入,如各种app的快捷打开方式:当用户用拍照的手势拿起手机时,相机app应该自动识别打开,并自动拍摄一张照片,如图10所示。

(3)识别用户持握手。当前智能手机的屏幕尺寸通常不适合单手使用,特别是在点击屏幕较远处的内容时。例如:在识别了用户是用哪只手进行持握后,就可以对ui布局进行调整,使得用户更好地点击到目标部件,如图11。

二、基于双手手指之间动作的新手势

根据本发明一个实施例,提供了一种智能电子设备,具有传感器,所述传感器能够感测到屏幕上方的、用户在使用电子设备时的手部的信息,其中所述智能电子设备处理传感器感测的数据、识别双手手指之间的动作,作为用户针对便携设备的手势输入,并进行相应的控制操作。

这里的传感器能够检测手指位置,例如为图像传感器(摄像头)或电容传感器。

在一个示例中,所述传感器为安装在智能电子设备上的摄像系统,能够捕获到屏幕上方、用户在使用电子设备时的手部图像。

需要说明的是,传感器不限于是图像传感器(摄像头),还可以是其它类型的传感器,例如触摸屏幕上的电容传感器。

根据本发明的一个实施例,基于手在手机上的持握动作的特点,设计了一类手势交互方式。

持握动作分为单手持握和双手持握。

在单手持握时,持握手抓握在手机上会自然出现侧面突出的四指以及出现在手机上方或侧面的拇指,将这些突出的持握手作为可感应的触摸部件,通过对持握手的触碰,与手机进行交互。图12示出了手指滑动条和手指按钮的应用示意图,一只手持握手机,另一只手进行触摸,这是与手机交互的典型姿势。在这种情况下,我们认为持握手可以被当作用于触摸的界面。图12中,左图为持握手的手指作为按钮的情况,我们称之为手指按钮(fingerbutton),手指按钮允许用户以手指点击持握手的手指作为操控应用的交互方式(例如,切换画笔颜色)。图12中的右图示出了持握手的手指作为滑动条的情况,我们称之为fingerbar,手指滑动条允许用户在持握手的拇指上进行滑动以向一维控制条提供输入(例如,控制音量)。

fingerbutton和fingerbar这两种技术都减少了原本的交互方式所需的操作步骤,并增加了可用于手机输入的媒介,从而提高了交互效率。

在双手持握时,两只手都是持握手,双手拇指会同时出现在手机屏幕上方,我们将双手拇指之间的触碰(如拇指相触)与动作(如拇指轮转)作为与手机进行交互的方式,我们称之为thumb-to-thumb手势,作为模式切换或触发第二视图的简单且快速的操作。如图13所示,说明了增强打字输入交互体验的示例用法:当在邮件中进行重要信息填写时,用户可能希望查阅另一应用页面以获得电话号码或地址。在当前的使用方式中,用户必须切换回上一个应用程序,努力记下这些关键信息字符串并返回到输入页面,过程较为繁琐。利用thumb-to-thumb手势,一旦检测到两个拇指接触,系统可以将上一应用的屏幕移至当前应用的上一层,以便用户可以容易地参考内容,在尝试记忆后,他/她可以松开两个拇指回到当前页面继续进行文本输入。这提供了一种在智能手机上进行模式切换的非常有效且轻量的方法。

与触摸屏相比,基于持握手的手势交互能够丰富手机的输入方式,将一些交互变得更加便捷。此外,由于人体的自我感知,用户能轻松地定位自己的身体部位,因此用户可以在无需视觉关注的情况下照到持握手的特定部位进行交互。

与手机上的手势交互相比,这种交互方式更加符合用户自然使用手机时的使用习惯,不需要刻意地将使用手抬起,在空间中做出不自然的手势。

此外,还可以识别持握手机所用握姿、持握手机时的手指动作等等,例如手在手机延伸平面上的点击、滑动、缩放、选择等基本手势;手在手机屏幕上方的手指相触、捏拳、张手、手指沿特定路径移动(如手指画圈等)等特殊动作。

在一个示例中,智能便携设备中的摄像系统包括前置摄像头和倾斜于电子设备屏幕表面布置的镜片或三棱镜,该镜片或三棱镜反射平行于电子设备屏幕表面的光,使其被前置摄像头捕捉,前置摄像头捕获到经镜片或三棱镜反射的光,从而捕获到用户持握电子设备时,屏幕上方的、用户在使用电子设备时的手部图像;智能电子设备基于所获得的用户持握电子设备时的手部图像,识别此时用户的持握状态下的手势,作为用户的输入信息,并与用户交互,其中,便携设备进行下述手势识别中的至少一项:便携设备识别单手持握姿势,以及识别另一只手对持握手的触碰动作,作为与便携设备的手势输入,来进行与用户的交互;便携设备识别双手持握姿势,以及识别双手拇指之间的动作,作为与便携设备的手势输入,来进行与用户的交互。

在一个示例中,电子便携设备通过识别侧面突出的四指以及出现在电子设备上方或侧面的一个拇指,来识别单手持握姿势。

在一个示例中,考虑到双手持握时两个拇指在电子便携设备的位置,电子便携设备通过识别出现在智能电子设备两侧的拇指指根和屏幕上方的两个拇指指头,来识别双手持握姿势。

在一个示例中,在单手持握的情况下,另一只手对持握手的触碰动作包括:手指按钮和手指滑动条手势,其中手指按钮手势中,以持握手的手指作为按钮,另一只手对其进行触摸,在手指滑动条手势中,以持握手的手指作为滑动条,另一只手在其上滑动或点击。

在一个示例中,所述双手拇指之间的动作包括下面中的一个或多个:拇指相触、拇指轮转、拇指分别按一定路径动作、拇指相触之后按一定路径动作。关于拇指按预定路径动作,例如拇指弯曲。

三、基于虚拟摄像头的手机双目系统

我们将光反射装置例如一块镜面(包括镜片、三棱镜、凸面镜或多面镜片组合等)放置在手机摄像头上方,通过摄像头与镜子的组合,能够为手机提供一个低成本的(仅需一块镜子)双目视觉系统,通过这块镜面与手机现有摄像头配合产生的两条光路,构造出一个虚拟的双目摄像头(虚拟摄像头1和虚拟摄像头2),还原出被捕获的空间中物体的三维信息。

在典型的立体视觉系统中,一般会有两个摄像头对同一个场景进行拍摄。我们将镜子与手机已有摄像头配合,使用图14所示意的光学原理,搭建出一个虚拟的双目摄像头,从而还原其视野范围内物体的三维信息。

这里的镜子可以是平面镜子、三棱镜、凸镜等,优选使用三棱镜,因为三棱镜具有内部全反射的能力,因此使得相比于使用平面镜子,使用三棱镜相关联的成像质量更高。

如图14所示,手机现有摄像头通过镜面与手机屏幕的反射,构成了两个虚拟的摄像头,物体发出的光会通过两条光路分别进入现有摄像头。

其中,光路1表示物体产生的一道光路直接通过镜面反射进入摄像头;光路2表示物体产生的另一道光路先通过手机屏幕的反射再进入镜面,最后进入摄像头。进一步地,虚拟摄像头1略高于触摸屏,这是棱镜镜斜面(光路1)的一次反射的结果。虚拟摄像头2是由两次反射光(光路2)产生的,第一次反射发生在三棱镜底部或是手机屏幕上,再反射至三棱镜斜面镜面。两个虚拟摄像头平行于手机屏幕,共同形成了立体视觉系统。

这两道不同光路向手机提供了双目视图,构建了一个双目系统,从而能够通过计算机视觉的算法进行空间中物体的深度信息计算,获取空间中物体的三维信息。

在一个示例中,智能电子设备基于获得的图像,识别物体,并基于识别的结果,来进行交互。

例如,智能电子设备在识别到物体是一支笔的情况下,估算笔身与电子屏幕表面之间的角度,并基于所估算的角度,来控制智能电子设备的交互操作;或者跟踪笔尖在桌面上移动的轨迹,并基于所识别的笔尖的轨迹,来控制智能电子设备的交互操作,例如笔尖在桌面上在特定位置进行点击或沿一定轨迹移动时,表示对智能电子设备的屏幕进行相应位置的点击或沿相应轨迹滑动。

智能电子设备可以基于识别到用户的体型或衣着,判断用户的身份,并控制与该用户的交互操作。例如设备识别到该用户为设备所有者或管理者,则对该用户进行更多的授权;若识别到用户为非设备常用用户,则开启较少的功能或对设备所有者进行通知。

在一个示例中,智能电子设备还识别用户的周围环境,并判断此时所处场合,来调整智能电子设备对应设置。例如此时用户正在会议室或电影院,设备判断用户处于会议环境,能够自动将设备音量降低或调制静音,以免打扰他人;若用户处于驾驶环境,电子设备关闭所有娱乐软件等。

根据本发明一个实施例,所述虚拟双目摄像头能够捕获以手机底部为起始点的左右横向至少各5厘米、纵向向上至少10厘米范围内的物体的图像。

本发明实施例针对手机的现有前置摄像头,与单个棱镜相结合,设计出了适用于手机的光路结构,用单个棱镜镜和手机屏幕、手机前置摄像头配合提供了立体视觉,并同时成功地“旋转”了前置摄像头用于拍摄与屏幕平行的视图。

我们创造出了两个虚拟摄像机,但得到的图像质量却不是相同的。对于进入虚拟相机1(光路1)的光路,在棱镜的斜面进行了全反射,因此能得到与摄像头直接捕获到的图像没有区别的图像质量。

而虚拟摄像头2情况比较复杂。这条光路的第一次反射发生三棱镜底部或是手机屏幕上,对于发生在三棱镜底部的情况,由于棱镜玻璃的折射率高于空气,这导致“全内反射”现象的出现,即光难以穿过棱镜与屏幕的接触面(接触面中间必有空气的存在),而是在三棱镜内部被完全反射。因此,该部分产生具有与虚拟摄像头1中的图像相同的亮度和锐度的高质量图像。对于后者,即第一次反射发生在手机屏幕上的情况,第一次反射发生在手机屏幕上的光由于反射率低而会产生衰减。这导致前置摄像头捕获到的图像中会出现相对较暗的区域带,如图15所示。通过调整棱镜与摄像头的相对位置,我们可以使暗带的宽度最小化。在后文中,我们将介绍如何在进行立体视觉算法之前使用亮度补偿函数去除暗部。

根据本发明一个实施例,对于捕获的双目图像(同时获得的两个单目rgb图像),可以执行下述处理:

(1)进行校正处理,其中使用亮度补偿函数来去除暗部,得到标准化的单目rgb图像;

(2)使用肤色分割方法得到手部皮肤遮罩图像;

(3)基于两个标准化的单目rgb图像,逐个像素计算深度,得到深度图;

(4)组合皮肤遮罩图像和深度图,得到手部区域的分割图像;

(5)基于得到的手部区域的分割图像,进行手势识别。

在一个示例中,校正处理可以包括:

(1)使用像素颜色方程output=input*r+l来进行颜色校正,

(2)其中其中output为输出的图像中的每个像素的颜色,input为输入的图像中的每个像素的颜色,r为反射因子,仅取决于屏幕表面的物理性质,l为手机的自发光。

在一个示例中,设置所述l为零(这样的设置是合理的,这是由于我们的摄像头非常接近手机表面,所以在正常照明条件下,l的数值几乎为零),以及通过采用该智能电子设备采集白色墙面的图像,拟合得到参数r。更具体示例中,用原型机采集了一些白色墙面的图像,并对于每个像素使用最小二乘拟合模型中的参数r,并用它去除每帧图像中的黑色区域。

关于皮肤分割技术,我们的任务是在不同的照明条件,以及一定的色调和饱和度范围内,尽可能消除获取图像中的背景区域。虽然前人对皮肤检测已经进行了广泛的研究,但是现有的解决方案(例如文献1,用于基于颜色的像素分类的研究)不能满足在我们这个特殊场景下的需求。他们的目的是检测在同一图像中所有可能的人类皮肤颜色,而我们只需满足一个用户的手部皮肤检测。此外,我们的皮肤检测模块要求实时交互的高计算效率。

基于以上考虑,发明人提出了一套皮肤检测算法,这个算法分为两个模块:一个模块简单地利用图像中的色调和饱和度的阈值用以分割皮肤区域,另一个模块每隔几帧动态地校准这些阈值。特别地,我们利用文献1和文献2、3、4提供的数据集训练例如文献5中介绍的卷积神经网络来识别作为语义分割任务的用户手部皮肤像素。利用本发明实施例的皮肤检测算法,在不同的照明条件以及一定的色调和饱和度范围内,适合于实时高效地进行一个用户的手部皮肤检测,尽可能消除获取图像中的背景区域。。

引用的文献列表如下:

文献1:s.l.phung,a.bouzerdoum,andd.chai.2005.skinsegmentationusingcolorpixelclassification:analysisandcomparison.ieeetrans-actionsonpatternanalysisandmachineintelligence27,1(jan2005),148–154.https://doi.org/10.1109/tpami.2005.17。

文献2:tomaszgrzejszczak,michalkawulok,andadamgaluszka.2016.handlandmarksdetectionandlocalizationincolorimages.multimediatoolsandapplications75,23(2016),16363–16387.https://doi.org/10.1007/s11042-015-2934-5

文献3:michalkawulok,jolantakawulok,jakubnalepa,andbogdansmolka.2014.self-adaptivealgorithmforsegmentingskinregions.eurasipjournalonadvancesinsignalprocessing2014,170(2014),1–22.https://doi.org/10.1186/1687-6180-2014-170

文献4:jakubnalepaandmichalkawulok.2014.fastandaccuratehandshapeclassification.inbeyonddatabases,architectures,andstruc-tures,stanislawkozielski,dariuszmrozek,pawelkasprowski,bozenamalysiak-mrozek,anddanielkostrzewa(eds.).communicationsincomputerandinformationscience,vol.424.springer,364–373.https://doi.org/10.1007/978-3-319-06932-6_35

文献5:ahundt,aurora95,unixnme,andpavlosmelissinos.2018.keras-tensorflowimplementationoffullyconvolutionalnetworksforse-manticsegmentation.https://github.com/aurora95/keras-fcn.

配备了深度信息获得和处理功能的智能电子便携设备能够结合深度信息更有效地识别用户的手部动作和/或姿态,例如识别持握电子设备所用握姿;持握电子设备时的手指动作;点击屏幕时所用的手部部位;点击屏幕所用手部姿势;手在电子设备延伸平面上的点击、滑动、缩放、选择;手在电子设备屏幕上方的手指相触、捏拳、张手、手指沿特定路径移动的动作。

在一个示例中,智能电子便携设备识别单手持握姿势,以及识别另一只手对持握手的触碰动作,作为与便携设备的手势输入,来进行与用户的交互。

在一个示例中,智能电子便携设备通过识别侧面突出的四指以及出现在电子设备上方或侧面的一个拇指,来识别单手持握姿势。

在一个示例中,便携设备识别双手持握姿势,以及识别双手拇指之间的动作,作为与便携设备的手势输入,来进行与用户的交互。

双手拇指之间的动作可以包括下面中的一个或多个:拇指相触;拇指轮转;拇指分别按一定路径动作;拇指相触之后按一定路径动作。

四、识别操作屏幕的手的智能电子设备

根据本发明的一个实施例,提供了一种智能电子设备,包含可触摸表面(比如触摸屏幕或者触摸板,比如笔记本的触摸板),具有传感器,所述传感器能够捕获到屏幕上方的、用户在使用电子设备时的手部图像,其中智能电子设备识别触碰到屏幕上的手的状态,包括识别手的具体部位、识别相关手指是哪根手指、手指的方向中的一个或多个。

所谓的“屏幕上方的、用户在使用电子设备时的手部图像”是指传统电子设备在手部正对电子设备的屏幕进行操作时,电子设备上配置的摄像机是无法捕捉到操作屏幕的手部的图像的,而本发明实施例配置的摄像头系统(这里的系统可以包括传统前置摄像头和配置的辅助器件,例如平面镜、三棱镜等)能够捕获到操作屏幕的手部的图像。

这里的传感器可以是普通摄像头即单目摄像头,或者是双目摄像头,或者是红外的摄像头。

这里的传感器可以在可触摸表面的侧面,下面,或者上面。

识别手的具体部位可以包括:识别手指尖、指腹、大鱼际、指关节。不同的手指部位对同一位置的同一动作表示对不同物件进行相应的操作。

作为示例,手指尖触碰表示对文字、画笔等精细目标的操作,如:在文字上用指尖滑动,表示选中这块区域内文字进行操作;用指尖使用画笔工具,则将当前画笔笔刷改为小笔刷。

作为示例,指腹触碰表示正常的用户操作,如操纵设备屏幕上的图标或菜单选项,以选择命令、调用文件、启动程序或执行其它一些日常任务。

作为示例,大鱼际触碰表示应用层之间的操作,如:大鱼际在屏幕上长按,表示返回主页面;大鱼际在屏幕上左右滑动,表示切换当前应用。

作为示例,指关节触碰表示截图操作,如:指关节双击屏幕代表截取当前屏幕;指关节在屏幕上画圈表示截取圈内的图像。

作为示例,对于手的具体部位检测,结合屏幕电容信号与摄像头捕获的图像信号,通过形态检测等传统图像处理技术完成。具体地,例如可以如下进行:首先根据屏幕电容信号的位置,通过坐标变换确定手部点击点在图像中的位置,进而在图像中确定点击区域(包括点击位置及点击位置上方的一小块区域),根据该区域内手指的几何特征(深度信息,例如倾角、关节位置、关节弯曲方向等),以及电容信号特征(如接触面积,接触椭圆的倾斜度)等多模态信息,确定手用于点击的具体部位。

作为示例,识别相关手指是哪根手指可以包括识别拇指、食指、中指、无名指和小指。

作为示例,不同手指对同一对象的同一动作可以代表对同一物件的不同操作,例如中指点击文件表示复制,无名指点击表示粘贴;食指点击微信图标表示打开微信,中指点击微信图标表示打开微信中的扫一扫应用。

例如不同手指长按主页面可以表示快捷键,打开相应应用:例如食指长按可以表示打开微信,中指长按可以表示打开支付宝等。

此外,不同手指可以表示不同的工具,例如食指表示画笔,中指表示橡皮擦等。

作为示例,识别手指的角度可以包括:识别手指相对于屏幕成0到90度的各种角度。这些对屏幕不同角度的点击,或点击后的手指角度调节,均可成为信息输入。如:手指触碰音量/亮度调节按钮后,通过调整手指相对于屏幕的角度,调节音量/亮度大小。

作为示例,识别手指的角度可以如下进行:根据屏幕电容信号的位置,通过坐标变换确定其在图像中的位置,进而在图像中确定点击区域(包括点击位置及点击位置上方的一小块区域),使用线性回归预测的方法,对深度图中指尖区域的点云进行拟合,进而确定点击手指的角度。

本发明的方案能够利用一块镜面(包括镜片、三棱镜等),改变手机现有摄像头的视野范围。传统手机上摄像头的视野范围有限且固定,如前置摄像头,只能获取手机正上方60*80度左右空间范围中的图像信息,无法使用手机获得用户自然使用手机时的手部信息,许多对与手机交互有价值的手部信息被忽略。本方案通过增加一个低成本的镜子配件和相应的算法,改变前置摄像头的视野范围,使得通过镜面的反射,现有摄像头能够捕获用户(在自然使用手机时的)手部图像信息,大大拓宽了手机摄像系统的视野范围。

本发明的方案为手机提供了一个低成本的(仅需一面镜片)双目视觉系统,通过这块镜面与手机现有摄像头配合产生的两条光路,构造出一个虚拟的双目摄像头,还原出空间中物体的三维信息。

本发明还提供了基于握持手的交互手势,与传统手机的基于触摸屏的信息输入方式相比,基于持握手的手势交互能够丰富手机的输入方式,将一些交互变得更加便捷。此外,由于人体的自我感知,用户能轻松地定位自己的身体部位,因此用户可以在无需视觉关注的情况下照到持握手的特定部位进行交互。本发明实施例的这种交互方式更加符合用户自然使用手机时的使用习惯,不需要刻意地将使用手抬起,在空间中做出不自然的手势。实际的用户使用体验实验表明这些交互设计方式能够很好地被用户所接受,同时具有趣味性、易学性以及便利性。

前文以手机作为智能电子便携设备的例子,不过也可以是其他能够手握持的智能电子便携设备产品,例如智能车载电子设备、智能平板电脑等。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1