一种双手三维动态手势识别方法与流程

文档序号:11153816阅读:1329来源:国知局
一种双手三维动态手势识别方法与制造工艺

本发明涉及人机交互技术领域,尤其涉及一种动态手势识别方法及系统。



背景技术:

随着各方面技术的进步,人们希望得到更好的人机交互体验,对交互的实时性、识别率等硬性指标的要求也越来越苛刻,甚至开始希望通过一些自身的微小信息,例如手指信息、声波信息、眼珠信息、脑电波信息、肌肉信息等来实现与机器的沟通。这促使许多专家学者不断地寻找挖掘更便捷、更快速、更准确、更自然的人机交互方式,并开始关注利用人类自身的身体语言来实现机器控制,而其中手势作为变化方式最多、最能够表达人们意愿的方式之一,成为了关注的重点。在脑电波控制世界的时代来临之前,手势是最有可能改变传统人机交互方式的研究切入点。因为双手是身体姿态最多变、最具有表达性的一项,它可以最大可能地表达人们的想法和意愿。不通过任何媒介,直接利用一个简单的手势动作就可以操控生活,是目前人们所追求的理想人机交互方式。这种全新的操作方式,使得人类在这个物物相连的互联智能时代,真正实现用自己的手来掌控自己的生活。手势也会将人机交互方式从传统的平面二维识别技术扩展到了空间三维识别技术,实现更多技术发展的可能性。本发明所要做的基于IOS移动端的双手三维动态手势识别技术,利用人们生活中越来越普及的IOS智能移动端直接作为手势采集和识别的工具,来与PC端或其他终端实现友好的人机交互方式。

手势识别技术的发展过程中产生过几种主流的解决方案,例如:

1)基于数据手套的方案:起步最早,也是最直接处理问题的一种方案。该方案具有数据量小、速度高、受环境影响较小和能够直接获取手势数据等诸多优点。但是要求用户穿戴复杂的手套,大大降低了用户体验,并且对附着其上的传感器披覆较高硬度的保护层在技术上有一定难度,而相对脆弱的设备在携带上也存在不方便。

2)基于机器视觉的处理方案:当前最热门的手势识别技术解决方案,也就是摄像头图像处理,比如说微软的Kinect。最大的优点是用户无需佩戴任何设备,人机交互性好。但是这种技术对于空间、环境有比较大的限制性,因此除了一些大型的体感游戏使用,在生活中的推广度并不高。

3)基于SEMG的方案:处在多学科交叉的领域,除了和数据手套方案一样需要用户佩戴电极外,和机器视觉的方案类似,该方案也容易受外部环境和用户等因素的干扰。外部环境的干扰包括电磁环境的干扰和环境湿度变化造成的测量电极接触电阻的变化。同时,用户的身体和精神状态在不同的情况下具有不同的基准值,导致系统难以标定。

现有的人机交互技术存在以下缺点:

(1)机械键盘交互是最成熟,但同时也是最低效的交互方式,因其成本、损耗、低效等各种原因,正在被移动设备慢慢淘汰;

(2)触摸屏操作作为近几年新兴的人机交互方式,以其操作简洁、符合用户习惯、学习成本低、可多点触控等优点,成为新一代移动设备有效的交互方式。但是,触控技术不可避免的需要用户在触模板上进行操作,限制了触控技术的应用场景和范围。

(3)语音识别目前也是一种非常成熟的交互方式,识别率较高,尤其是随着iPhone中Siri的出现,基于自然语音的识别技术使得语音交互方式迈上了一个新的台阶。然而,语音交互方式会受到地区语言差异以及个人语音差异的影响,同时,自然语音识别需要时刻联网、能耗高的缺点,大大限制了语音技术在可穿戴设备中的应用。

鉴于上述问题,本案的发明人在专利文献1(中国专利公开号CN105929940A)中提出了一种基于细分特征值法的快速三维动态手势识别方法及系统,针对现有技术中存在的问题,设计了一个外观小巧的硬件平台,用加速度计来采集用户手势的3轴加速度,陀螺仪来采集用户手势的3轴角速度,磁力计来采集用户手势的3轴磁感应强度,使用滤波算法来消除数据误差之后再进行姿态解算,求出实时的三个姿态角(航向角、横滚角、俯仰角),然后将这些信息数据通过所提出的特征分析算法,在确保一定的精确度和实时性的基础上,分别对移动、旋转、打钩、画叉、晃动、敲击等自身具有一定区分度的三维动态手势进行识别,从而实现相应的应用。但是,专利文献1后仅针对单手手势识别,因此,亟需一种双手三维动态手势识别方法。



技术实现要素:

本发明的目的在于克服双手手势识别不准确、不方便等问题,提供一种双手三维动态手势识别方法及系统。

为达上述目的,本发明通过以下技术方案实现:

一种双手三维动态手势识别方法,利用两台移动终端,两台移动终端设备采用主从模式,将其中一台移动终端作为主机,称之为主移动终端,另一台移动终端作为从机,称之为从移动终端;两台移动终端分别跟踪左手和右手的手势;主移动终端向外界扫描可连接的外部设备,与从移动终端建立无线数据连接;主移动终端采集手势数据;从移动终端采集手势数据,并通过无线数据连接将手势数据实时的发送给主移动终端进行数据处理、同步及双手手势识别;主移动终端将主移动终端与从移动终端获得的手势数据所识别的结果发送给待控制设备。

进一步地,所述移动终端设备上集成了9轴传感器模块,其中,3轴加速度计测量加速度、3轴陀螺仪测量角速度和3轴磁力计测量磁场。

进一步地,所述同步的过程包括:利用移动端操作系统的键值检测KVO,监听两台移动终端设备是否完成手势的采集和识别,若一方完成,进入等待状态,外界操作对其无效;直到另一方也完成采集识别过程时,将数据指令打包发送给待控制设备,接着使两台移动终端设备设备进入就绪状态,等待下一次的双手手势。

进一步地,在手势截取时,通过一个较强的阀值Ats来检测手势的运动,在此基础之上通过两个较小值的阀值Atb、Atf来判断手势的开始和结束,其中,Ats>Atf、Ats>Atb;需要限定Ats与Atf、Atb与两者时间差的大小,从而避免将一个手势的连续动作划分为多个手势;此外,需要限定Atf与Atb时间差的大小,避免将用户手部偶然的抖动识别为手势的开始;为了保证手势数据的完整性,Atb和Atf两处截取的时间序列数据需要往两端适当扩展时间长度Te。

具体地,首先检测到Ats的时间序列点,然后在Ats的基础之上通过向前、向后搜索,找到Atf和Atb的时间序列点,在此之上,适当扩展时间Te长度,获得手势的完整加速度数据。

另一方面,本发明还提出了一种双手三维动态手势识别系统,所述系统包括两台移动终端、以及待控制设备;所述移动终端的每一台都包括手势数据采集单元、无线数据通信单元,两台移动终端设备采用主从模式,将其中一台移动终端作为主机,称之为主移动终端,另一台移动终端作为从机,称之为从移动终端;两台移动终端分别跟踪左手和右手的手势;主移动终端向外界扫描可连接的外部设备,与从移动终端建立无线数据连接;主移动终端的手势数据采集单元采集手势数据;从移动终端的手势数据采集单元采集手势数据,并通过无线数据通信单元将手势数据实时的发送给主移动终端进行数据处理、同步及双手手势识别;主移动终端通过无线数据通信单元将主移动终端与从移动终端获得的手势数据所识别的结果发送给待控制设备。

进一步地,所述无线数据通信单元为蓝牙模块、WiFi模块或者RF模块。

进一步地,所述待控制设备为PC机、游戏机、无人机或者VR头盔。

进一步地,所述主移动终端为智能手机,所述从移动终端为可穿戴设备。或者,所述主移动终端和从移动终端都为智能手机。或者,所述主移动终端和从移动终端都为可穿戴设备。

本发明的有益效果是:本发明的双手手势识别方法直接以人手作为对智能设备的输入端,人机间的交互不再需要其他的媒介,提高了交互的效率并避免了因中间媒介所导致的各种误识别;扩展了智能设备的应用场合,使得人机交互不再局限于设备的特定部位,可以让用户在不方便讲话或不方便拿出设备的情况下可以进行一定的操作,比如在洗衣服时通过一定手势来接听手机来电;丰富了智能设备的应用场景,比如可以将双手手势操作与虚拟场景相结合,丰富了手持设备的操作性、娱乐性;双手手势输入提供了一种机器人示范学习的新思路,手势输入中重要的一环就是用户自定义手势;IOS智能移动端中的9轴传感器有效地增加了识别的精准度,丰富了实现的功能;采用蓝牙等无线通信技术进行数据传输,功耗低,并支持多用户同时使用。

附图说明

图1是本发明的方法所基于的双手势识别系统的硬件框图;

图2是双手手势数据同步示意图;

图3是移动设备的手势识别系统实现方案流程图;

图4(a)是基于FBGD的手势数据截取示意图;

图4(b)是基于FBGD的手势数据截取后的数据。

具体实施方案

下面通过具体实施方式结合附图对本发明作进一步详细说明。

智能移动端设备已经全面普及,基于移动终端平台开发手势识别,将会让更多的人使用上手势识别的便利。移动终端设备上集成了9轴传感器模块(3轴加速度计测量加速度、3轴陀螺仪测量角速度和3轴磁力计测量磁场),并且拥有较高的识别精度,可以实现对于复杂手势的有效识别。本发明利用手机与手表或手环二者配合交互,实现数据的交互,实现双手手势交互,极大的丰富了单一手势的功能。

本发明的方法所基于的双手势识别系统的硬件框图如附图1所示,包括两个移动终端设备、以及待控制设备,如PC机、游戏机、无人机等。三方之间的通信通过蓝牙技术实现。两个移动终端设备采用主从模式,将其中一台移动终端(如iPhone)作为主机,称之为主移动终端,另一台移动终端(如iWatch)作为从机,称之为从移动终端;两台移动终端分别跟踪左手和右手的手势(例如,左手手握iPhone,右手佩戴iWatch)。主移动终端向外界扫描可连接的外部设备,与从移动终端建立蓝牙数据连接;从移动终端采集手势数据,并通过蓝牙将手势数据实时的发送给主移动终端进行数据处理、同步及双手手势识别;接着,将主移动终端与从移动终端获得的手势数据所识别的结果发送给待控制设备的蓝牙接收模块;最后,待控制设备根据所述识别结果进行对应的控制操作。

由于双手手势存在动作先后的顺序,当一方采集到手势时,也许另一方还未开始,或者也还在识别中。这样就造成了双手数据的不同步的问题,因此必须制定一套数据完成协议来控制手势的异步问题。本发明提出利用移动端操作系统的键值检测(KVO),监听两台设备是否完成手势的采集和识别。若一方完成,进入等待状态,外界操作对其无效。直到另一方也完成采集识别过程时,将数据指令打包发送给待控制设备,接着使设备进入就绪状态,等待下一次的双手手势。其运行原理如附图2所示。

手势识别的本质是根据手势模型利用手势识别算法将手势动作分类。手势识别方法的优劣直接关系到手势识别的效率和精度。常用的手势识别方法包括:

(1)DTW算法是把时间规整和距离测度计算结合起来的一种非线性规整技术,具有非线性时间归一化效果。使用某种指定属性的非线性规整函数对时间轴上的波动近似建模,通过伸缩其中一个模式的时间轴使之跟另一个模式达到最大程度的重叠,使残差距离最小,从而消除两个时空表示模式之间的时间差别。实际上它是,隐马尔可夫模型的简化,对于比较简单的时间序列,他们两者是等价的。方法允许在测试模式和参考模式之间有充分的弹性,从而实现分类。

(2)隐马尔可夫模型是马尔可夫模型的扩展。马尔可夫模型描述的是一个随机过程与状态之间的转移。隐马尔可夫模型描述两个随机过程一个随机过程描述输出与状态间的概率关系,即输出是状态的随机过程函数另一个随机过程描述状态之间的转移关系。观察者能够看到输出,却不能看到状态之间的转移,也就是状态之间的转移是隐含的。由于隐马尔可夫模型拓扑结构的特殊性,导致其在分析手势信号时过于复杂,使得训练和识别的计算量大,尤其是在连续的隐马尔可夫模型中,需要计算大量的状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢。

(3)人工神经网络,在手势识别领域,人工神经网络是一种应用非常广泛的工具。人工神经网络具有自组织和自学习能力,抗噪声能力强,具有很强的容错性和鲁棒性。人工神经网络是通过把大量的简单处理单元广泛连接起来而构成一种复杂的信息处理网络,其中处理单元及其相互连接模式是借鉴人脑神经元的结构及连接机制设计的。这种网络具有与人脑相类似的学习记忆能力、知识概括和输入信息特征抽取能力。经过多年的发展,人工神经网络已经具有很多模型,例如模糊神经网络和BP神经网络。目前应用比较广泛的是以反向传播学习算法为基础的BP神经网络。

(4)机器学习,常见的基于机器学习的分类方法有K_最邻近方法和支持向量机的方法。K_最邻近方法的基本思想是根据传统的向量空间模型,将文本内容形式化为特征空间中的加权特征向量,对于一个测试对象,计算其与训练样本集中的每个样本相似度,找出个K最相似的文本,根据加权距离判断测试对象所属的类别。支持向量机以训练误差作为优化问题的约束条件,以置信范围值最小化作为目标,是一种基于结构风险最小化准则的学习方法。支持向量机的计算复杂度取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数空间”。而且在该方法中,增删非支持向量样本对模型没有影响,对函数的选择也不是很敏感。此外,支持向量样本集有一定的鲁棒性。

除此之外,还有HMM和阀值比较结合的方法,HMM与神经网络相结合的方法,贝叶斯网络和支持向量机相结合的方法,利用手势倾斜特性等特征的识别方法。

因为对手势识别速度要求较高,本发明采用E_DTW动态时间模板匹配法与特征粗分类相互结合的方法。因此在选择手势动作时,需要对手势进行大量的样本观察和分析,通过样本采集和波形观察,获取手势识别的标准模板,同时构建自定义手势识别数据库实现,实现动态的手势模板匹配。目前暂时采用以下的8类手势作为系统默认的手势。如表1所示:

表1手势集定义

上述的手势动作之间具有一定的区分度,它们各自的传感器信息所构成的特征量之间具有比较高的可识别性,因此可以根据不同手势的特征值建立不同的分类器。首先根据计算出来的特征值对八大类手势进行预分成3类,识别出其所在的类别,再设计算法针对旋转类和移动类动作进行细划分,识别出运动的方向,从而是想利用细分特征值分析法快速高效地实现手势的分类和识别。

移动设备的手势识别系统实现方案流程如附图3所示。

DTW模板匹配识别技术,其核心思想是将输入的原始数据与预先存储的模板进行匹配,通过测量两个模板之间的相似度来完成识别任务。常用的距离相似度计算方法有加权欧氏距离法、相关系数法以及对数距离法。模板匹配需要解决输入数据与预先存储模板时间序列长度不一致的问题,因为即使是同一个手势,其持续时间都会随机的改变。为了解决这个时间校准问题,典型的时序模板匹配是DTW。

针对手势数据的长度特征进行预分类,依据不同手势的长度和其能量的大小,来实现对于差异较大的手势进行预分类。因此该前提是对手势数据有效的截取,即从所有读取到的原始数据中截取从手势的起点到终点的段落,然后再对截取得来的数据段进行坐标系的转换。进行了切割和坐标系转换之后的手势数据段才能用来提取特征进行手势识别,接下来,将对手势切割、坐标系转换和特征识别法进行详细介绍。

由于用户移动或者在手势过程中手不可避免的抖动以及传感器本身精度的影响,加速度传感器采集的手势动作数据不可避免地受到噪声干扰,出现上下抖动的情况。平稳去噪主要是对环境噪声等干扰数据进行处理,尽量将影响降至最低。我采用,简单移动平均线滤波器的方法对获取的加速度数据进行平稳去噪处理。SMA能在保持快速响应的基础上滤去随机噪声。SMA滤波器的推导公式如下所示:

SMAnow=(Xi+Xi-1+....+Xi-n+1)/n;n=1,2,3,4,.......

上式中n表示数据序列的长度。n的大小关系到平滑的效果。n太小,平稳效果不明显n过大,平稳效果好,但是容易导致手势信息丢失。参照经验,视不同的情况,n一般取5至15。

计算的时候,可以直接使用下式

SMAnow=SMAprevious-Xi-n/n+Xi/n。

手势动作的开始和结束的判定在手势识别中起着至关重要的作用。本文前述部分已经提及大多数基于加速度传感器的手势识别在手势执行的过程中需要按钮等额外的操作来告知手势识别系统手势的开始和结束。通过按按钮这种方式来判定手势的开始和结束,确实可以保证手势识别系统对手势动作准确采样,但是其存在以下不足一是用户在按按钮的过程中,由于手部的抖动,必然会对手势数据带来噪声干扰二是用户在按按钮的过程中,需要通过眼睛来确定按钮的位置,分散了用户的注意力,降低了用户的体验度,不利于更加自由、自然的人机交互三是对于盲哑人或者手指不灵活的人,按按钮等操作对其比较困难,不利于手势识别系统的推广普及。

在基于门限值的手势动作判定中,阀值的设置很大程度上决定了判定的准确性。如果阀值过低,用户不经意之间的细微动作都会判定为手势的开始,引起误判如果阀值过高,则会错过对正常手势的判定。为此,结合手势动作的特点,发明采用FBGD的手势判定方法。通过一个较强的阀值Ats来检测手势的运动,在此基础之上通过两个较小值的阀值Atf、Atb来判断手势的开始和结束,Ats、Atf、Atb为时间T内,手势加速度数据序列的最大值和最小值之差的阀值。同时,我们限定Ats与Atf、Atb与两者时间差的大小,从而避免将一个手势的连续动作划分为多个手势。此外,需要限定Atf与Atb时间差的大小,避免将用户手部偶然的抖动识别为手势的开始。为了保证手势数据的完整性,Atb和Atf两处截取的时间序列数据需要往两端适当扩展时间长度Te。如附图4(a)和附图4(b)所示,当手势的数据经平滑后,送入手势检测时,首先检测到Ats的时间序列点,然后在Ats的基础之上通过向前、向后搜索,找到Atf和Atb的时间序列点,在此之上,适当扩展时间Te长度,获得手势的完整加速度数据。

不同手势数据数据长度各不相同,幅度也不相同。即便是同一个人的同一种手势间,也存在差异,因此必须将数据归一化到同样幅度范围,采样到相同的长度,这样的优点有:1.统一手势量化标准,避免幅度过大或者过小的手势被误判;2.在保证波形不失真前提下,固定采样点,实际上是减少了运算复杂度,提高识别速度。

本发明所采用的手势识别算法包括但不限于上述算法,也可以采用专利文献1中记载的基于细分特征值法的快速三维动态手势识别方法。

实施例1

传统的无人机飞行控制,一般是采用RF射频遥控器。它外部拥有一个长的天线,遥控指令都是通过机壳外部的控制开关和按钮,经过内部电路的调制、编码,再通过高频信号放大电路由天线将电磁波发射出去。目前常用的遥控发射机有三种类型:盒式按键手持式、便携杆式遥控、手持枪式遥控。例如遥控杆式发射机有两个操纵杆,左边杆用来控制无人机的上升和下降,右边杆控制无人机飞行方向。中央配有液晶显示屏幕,显示工作状态和功能。其优点是通信距离远,功能集成度高,能适应无人机在不同环境下的飞行控制。但其对人员操作要求较高,一般需要进行专业培训。

随着手势识别的深入研究,可将手势识别与无人机控制相结合,实现手势控制无人机飞行轨迹。通过移动端设备对空间手势轨迹进行识别,将识别结果通过无线设备向无人机发送控制指令。在保障无人机稳定安全飞行的前提下,用户可以自定义无人机的飞行轨迹。本发明是基于MEMS传感器的动态手势轨迹识别。对有效的轨迹样本进行训练,并对输入手势的质心轨迹进行识别,从而达到控制无人机飞行轨迹的需求。将手势与飞行器的系统进行整合,在系统中实现了对无人机飞行轨迹的手势控制。

实施例2

第一人称视角的游戏中,结合手势识别,将手势识别设备平台当做游戏手柄来使用。此外,目前市面上流行的基于机器视觉的体感游戏灵敏度仍不够,体验效果不佳。如果能在智能终端上集成摄像头利用视觉和硬件平台,相结合,就能确定硬件平台的位置,再进一步通过硬件平台上的陀螺仪等数据进行精细定位,在很大程度上提高了识别精度和灵敏度。由于双手的识别,能运用于许多的大型竞技格斗的游戏中,提供更加良好的人机交互体验。

实施例3

双手设备,结合VR头盔,实现沉浸式的用户游戏体验,利用头盔投影出3D影像,结合移动设备,就可以实现身历其境的游戏体验。因为双手的扩展性,能实现众多的交互方式,能给用户一般的操作手柄所不能提供的丰富功能。

实施例4

PC端广泛存在需要方向性控制的操作,如视频的播放、图片的切换、网页的上下滑动等,传统的鼠标控制在距离上限制较大,操控性低,影响人与PC端的友好交互。

目前PC端看视频时快进和后退,基本上是通过鼠标和键盘实现,然而对于使用者来说并不是十分的便利,因此提出使用,便携式的移动设备,利用手势识别,来控制视频的播放,或者图片查看器的缩放,切换的功能。可以定义了四种手势,分别与这四种命令相对应,最终通过手势就达到了控制播放器播放的目的,且由于手势识别设备的普及性,进一步满足大多数的用户。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1