一种手势的多语义识别方法与流程

文档序号:11920677阅读:350来源:国知局

本发明属于手势识别领域,具体涉及一种手势的多语义识别方法。



背景技术:

在手势交互中,人们往往会按照自己的操作习惯来进行交互。因此,经过观察会发现对于相同的一种手势会应用于不同的交互语义中,即手势具有语义多样性。本发明提出了以手势的多语义为出发点,找出相同手势的不同语义下的运动规律,结合手势识别和上下文情境得到用户的意图。这样可以达到一种手势表示不同的功能的目的以减少用户的记忆负担。



技术实现要素:

本发明的目的在于解决上述现有技术中存在的难题,提供一种手势的多语义识别方法,找出相同手势的不同语义下的运动规律,结合手势识别和上下文情境得到用户的意图。这样可以达到一种手势表示不同的功能的目的以减少用户的记忆负担。

本发明是通过以下技术方案实现的:

一种手势的多语义识别方法,包括:

步骤1:捕获操作者的手部运动并得到手势图像,对所述手势图像进行处理,然后判断是否为开始的手势,如果是,则转到步骤2,如果否,则转向步骤1;

步骤2:判断手势是否为平移,若是,则转向步骤3,若否,则转向步骤4;

步骤3:记录并计算每隔10帧的手势的质心的位移和时间,求出速度的均值,转向步骤5;

步骤4:记录手势张开与闭合的角速度变化的时间,获得角速度,转向步骤7;

步骤5:若速度的方向出现变化,即左右交替移动,则判定该手势的语义为为扫动物体,转向步骤1;否则,转向步骤6;

步骤6:判断该手势的语义为拖移物体还是快速滑动物体,判断完毕后转向步骤1.

步骤7:判断该手势的语义是抓取物体还是缩小物体,判断完毕后转向步骤1。

所述步骤1中采用Kinect来捕获操作者的手部运动,所捕获的真彩色图像采用RGB格式,以原数据方式存储,在捕获真彩图像的同时将其转换为灰度图像并保存,形成所述手势图像。

所述步骤1中的判断是否为开始的手势是这样实现的:

如果手势为张开并保持不动,则判定为开始,否则,判定为不开始。

所述步骤1中对手势图像进行处理是这样实现的:对手势图像进行手势分割,将人手从背景中分割出来。

所述步骤2判断手势是否为平移是这样实现的:

计算两帧之间的手的质心点移动的距离,如果该距离超过设定的阈值,则为平移,否则不是平移。

所述步骤4是这样实现的:

记录从手势张开的第一帧到手势闭合的最后一帧之间的时间t,从手势张开到手势闭合的角度差jiaodu为90度,利用w=jiaodu/t即可得到角速度w。

所述步骤6中的判断该手势的语义为拖移物体还是快速滑动物体是这样实现的:

如果速度小于等于20cm/s,则判定该手势的语义为拖移物体,如果速度大于等于60cm/s,则判定该手势的语义为快速滑动物体。

所述步骤7中的判断该手势的语义是抓取物体还是缩小物体是这样实现的:

如果角速度变化的时间大于等于3500ms或者手势深度为30cm,则判定该手势的语义为抓取物体,如果角速度变化的时间小于等于2000ms或者手势深度小于20cm,则判定该手势的语义为缩小物体。

与现有技术相比,本发明的有益效果是:本发明将人手的自然运动规律考虑其中,使得操作者更自然,更友好的交互,因此减少了用户的记忆负担,同时一种手势表示多种语义的情况下,手势也是自然常用的,减少了用户的操作负担。

附图说明

图1本方面方法的步骤框图。

具体实施方式

下面结合附图对本发明作进一步详细描述:

(1)实验平台

本发明在Intel P 4 2.8GHz CPU,4GB RAM PC机上采用C++语言在VS2008平台上实现了手势交互原型系统.该手势交互原型系统主要包括场景构建、手势捕获与分割、手势跟踪及用户意图表达4个模块。

本发明采用Kinect来捕获操作者的手部运动,在自然光照条件下,Kinect摄像头夹在显示屏上边的中央,交互距离显示屏约1~1.5m.所捕获的真彩色图像采用RGB格式,以原数据方式存储,为便于后续实时处理,在捕获真彩图像的同时将其转换为灰度图像并保存。

(2)实验方法

本发明以OpenGL绘制三维场景中的交互为研究背景。不同的语义下,操作者的操作习惯也会有不同的运动特征,所以采取了两种习惯性的手势并以调查问卷的形式进行统计分析,实验对象:不同性别,不同年级,不同年龄,不同生活经验的大学生。

(3)实验设计

根据调查问卷的结论,由于手势多语义,要研究相同手势在不同语义下的运动特征来加以区分。因此,要设计实验来研究其中的规律。为了得到更准确和更具普遍统计的实验数据,实验对象:选取100名不同年龄,不同专业,不同学历的人;实验平台:基于Kinect的智能教室控制。实验操作:实验者要进行两种手势的操作,完成五种语义功能,即手势分别为平移手势和五指闭合手势,五种语义分别为拖移几何体,消失几何体,几何体染色以及缩小几何体和抓取几何体。五种语义操作完成即结束。实验基础:手势分割和手势识别;

实验过程(记录每个实验者在操作过程中的人手的运动特征(速度,加速度和时间)):

步骤1:获取摄像头所捕获的帧图像;

步骤2:对视频帧图像进行手势分割,将人手从复杂背景中分割出来;

步骤3:开始根据提示框(比如“开始抓取物体”等)进行操作,根据Kinect得到的手势的质心点来判断手势是否进行平移变化(两帧之间的质心点移动超过阈值则认为手势移动),若是,则转到步骤4;否,则转向步骤1;

步骤4:若手势在设定的移动阈值(直线距离,比如X=10或者30)内,则为平移并记录下手势的速度和加速度图,并计算每隔10帧的速度和加速度,求出速度和加速度的均值和标准差;直到进行平移的三种语义(即拖移几何体,消失几何体,几何体染色)操作完毕(对每种语义都重复步骤1到步骤4,求的每种语义的速度和加速度的均值和标准差),转向步骤5;

步骤5:根据提示框进行五指张闭操作,利用手势识别方法,判断手势是否进行闭合(开始时手势为五指,直到手势识别后变为包袱,即为手势闭合);若是,记录此时的时间T1,然后转到步骤6;否,则转到步骤5;

步骤6:当检测到手势完成闭合时,记录下此时的时间T2,并计算此次操作时间(设T1为开始的帧,T2为结束的帧,T2-T1为两者之差,所得的操作时间);直到进行五指闭合的两种语义(即缩小几何体和抓取几何体)操作完毕,结束,转向步骤1.

(4)手势多语义柔性映射算法

如图1所示,本发明方法包括:

步骤1:判断摄像头是否检测到开始的手势(手张开并保持不动);

步骤2:是,开始计算手势的变化,转到步骤3;否,转向步骤1;

步骤3:利用手势识别方法,计算每帧的手势图像变化(从Kinect采集的手的质心,比较两帧之间的变化是否超过阈值),若手势为平移(超过阈值则为平移),则转向步骤4;否则转向步骤5;

步骤4:若手势质心变化,记录并计算每隔10帧的位移和时间,求出速度的均值和标准差,利用各模型(由实验得出的语义模型)进行判断,转向步骤6;

步骤5:若手势质心不变,计算手掌张开与闭合的角速度的变化(从包袱手势变化的第一帧开始到一开始检测到的拳头手势作为结束,中间的时间即为角速度变化的时间),转向步骤7;如果质心变化,则转到步骤4;

步骤6:利用模型(由实验得出的语义模型)的速度方向判断手势是否为扫动,若速度的方向出现变化即左右交替移动,则为轻扫,此时已经判断出语义,转向步骤1;否则,转向步骤7;

步骤7:计算手势的速度大小,根据模型判断拖移还是快速滑动(拖移速度较慢,大约为20,快速滑动速度较快大约为60);判断出语义结束,转向步骤1.

步骤7:对于手势的角速度,由得到图像识别后的分类(利用DDF手势识别方法,识别包袱手势和拳头手势)的第一帧和最后一帧,记录时间t,利用jiaodu=wt(角度为90度,就是手势张开和闭合的角度差),得到w(W=jiaodu/t,已知角度和时间t即可得到角速度W).根据模型,若有(手势为包袱变为拳头)则判断为抓放物体还是缩小物体(抓取物体时时间大约35ms,缩小物体时间大约为20ms),判断出语义即为结束,转向步骤1。

这样,本发明利用映射方式减少了用户的记忆负担。

上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1