一种手势语义自动分类方法与流程

文档序号:11231164阅读:1367来源:国知局
一种手势语义自动分类方法与流程

本发明属于计算机手势识别领域,具体涉及一种手势语义自动分类方法。



背景技术:

在手势交互中,人们往往会按照自己的操作习惯来进行交互。因此,经过观察会发现对于相同的一种手势会应用于不同的交互语义中,即手势具有语义多样性。寻找手势各语义的特征,计算机自动进行手势语义的分类,进而减少用户的记忆负担。现在手势识别基于静态手势进行语义分类,用户必须做出一定的手势动作来识别语义,进行分类。



技术实现要素:

本发明的目的在于解决上述现有技术中存在的难题,提供一种手势语义自动分类方法,自动得出用户意图,从而减少记忆负担。

本发明是通过以下技术方案实现的:

一种手势语义自动分类方法,包括:

s1:建立手势语义库中各语义的高斯模型和物体功能库;

s2:从kinect的摄像头读取当前帧的图像,开始获取训练样本的观察变量{s,c},并等概率初始化参数集合θ={μ1,σ1,...,μn,σn};其中s表示观察样本即手势,c表示手势语义类别集合,θ表示该次手势运动的平均速度和速度方差;

s3:判断摄像头是否检测到开始的手势;若||x[i]-x[i-1]|>threshhold,则转到s4;否则转向s2;

s4:利用手势分割方法得出手势,记录每5帧的位移和时间,求出速度v的均值μ和方差σ,进行高斯统计模型拟合,同时利用加入各模型依次进行判断得到新的θ[i]'={μ1',σ1',...,μn',σn'},若|θ’[i]-θ|<threshhold,即匹配模型i,则转向s5;否则,转向s6;

s5:进行更新:θ=θ’[i],判断是否达到最大迭代次数或未收敛时,如果达到,转到s7,如果未达到,则进行em迭代;

s6:将本次语义i删除,即保持θ不变,进行下一次的语义分类,转向s4;

s7:得出手势语义i,调用物体功能库,表达用户选择物体的功能。

所述s3中所述开始的手势是指手势张开并保持不动。

所述s4中进行高斯统计模型拟合是这样实现的:

将均值μ和方差σ代入高斯公式y=(1/σ√2π)e^-(x-u)^2/2σ中,得出此次手势运动的高斯公式。

所述s5中的em迭代是这样实现的:

(ⅰ)进行e过程:计算隐变量的后验概率;

(ⅱ)进行m过程:寻找最优参数保证对数似然概率的最大值。

与现有技术相比,本发明的有益效果是:本发明将人手的自然运动规律考虑其中,使得操作者更自然,更友好的交互,因此减少了用户的记忆负担,同时一种手势表示多种语义的情况下,手势也是自然常用的,减少了用户的操作负担。本发明提出的方法是基于概率统计模型的,稳定性有保证。

附图说明

图1返回原始界面速度统计分布

图2快速滑动物体速度统计分布

图3拖移物体速度统计分布

图4本发明方法的步骤框图。

具体实施方式

下面结合附图对本发明作进一步详细描述:

实验者为随机抽取的各种专业的学生(190名实验者,100名男生,90名女生,来自计算机各专业和电子信息各专业的大一大二大三的学生,具有不同的生活经验)

实验交互平台为:软件环境为microsoftvisualstudio2008,opengl库和mfc框架,硬件环境为intelp42.8ghzcpu,4gbrampc机,和微软提供的kinect.

实验场景:基于kinect的三维几何体交互场景.

实验操作:让操作者在自由发挥的状态下,进行平移手势的操作,完成三种语义功能。三种语义分别为拖移几何体,快速滑动几何体使其消失,返回几何体原始位置。

实验数据处理:记录每个实验者的操作数据,并且将这些实验数据放入matlab中进行分析,得出对三种语义建立高斯统计模型,如图1、图2、图3所示。

实验结果分析:

对于平移手势,实验选取了用户常用的三种手势语义:拖移物体,快速滑动几何体使其消失以及返回几何体原始位置。

进行高斯模型公式(1)拟合:

y=(1/σ√2π)e^-(x-u)^2/2σ(1)

由实验数据放入matlab的高斯拟合函数normpdf(x,mean(s),std(s))可得其高斯公式(2)(3)(4)分别为:

拖移几何体:

y=(1/(7.1*√2π))e^-(x-22.7)^2/(2*7.1)(2)

快速滑动物体:

y=(1/(11.96*√2π))e^-(x-47.96)^2/(2*11.9)(3)

返回几何体原位置:

y=(1/(12..95*√2π))e^-(x-0.87)^2/(2*12.95)(4)

操作者进行自由操作的状态下,同一种手势的不同的语义具有不同的特征。因此,可以利用同一种手势的不同语义的特征,进行手势语义分类。同时,由于操作者是自由操作,因此可以利用这一个算法实现降低用户记忆负荷的目标。

本发明方法基于手势分割获得手势图像,对图像每隔5帧进行读取手势位置和时间,得出速度,将速度代入各语义统计模型中,进行计算,若前后的θ变化不大,则为该语义;反之,进行下一次计算,用户使用自然的手势,进行操作,之后利用高斯统计模型进行判断,满足条件得出语义,就可以自动得出用户意图,从而减少记忆负担。

具体步骤如下:

高斯统计模型下手势语义分类方法的基本步骤:

输入:kinect传入的图像帧

输出:手势语义

s1:建立手势语义库中各语义的高斯模型和物体功能库;

s2:从kinect的摄像头读取当前帧的图像,开始获取训练样本的观察变量{s,c},s表示观察样本即手势,c表示手势语义类别集合),并等概率初始化参数集合θ={μ1,σ1,...,μn,σn};该次手势运动的平均速度和速度方差;

s3:判断摄像头是否检测到开始的手势;若||x[i]-x[i-1]|>threshhold,(x[i]表示此刻的手势质点位置,如果两帧之间的手势质点变化大于设定的阈值,只认为开始运动),开始计算手势的变化,转到s4;否则转向s2;所述开始的手势是指手势开并保持不动,x[i]表示每帧手势所在的位置

s4:利用手势分割方法得出手势,记录每5帧的位移和时间,求出速度v的均值μ和方差σ,进行高斯统计模型拟合(代入高斯公式y=(1/σ√2π)e^-(x-u)^2/2σ中,得出此次手势运动的高斯公式),同时利用加入各模型依次进行判断得到新的θ[i]'={μ1',σ1',...,μn',σn'}(对于各组模型的均值和方差进行比较,找出相差最小的模型),若|θ’[i]-θ|<threshhold,即匹配模型i,则转向s5;否则,转向s6;

s5:进行更新θ=θ’[i],判断是否达到最大迭代次数或未收敛时,如果达到,转到s7,如果未达到,则进行如下步骤:

(ⅰ)进行e过程(e过程估计参数后验概率的均值),计算隐变量的后验概率;

(ⅱ)进行m过程(m过程寻找最优参数保证对数似然概率的最大值),进行模型参数更新;

e过程、m过程具体如下:

期望最大化算法用来进行密度估计,假设给定的训练样本是﹛x(1),...x(m)﹜,将隐含类别标签用z(i)表示。首先认为z(i)是满足一定的概率分布的,这里我们认为满足多项式分布,z(i)有k个值﹛1,...k﹜可以选取。而且认为在给定z(i)后,x(i)满足多值高斯分布,即(x(i)|z(i)=j)~n(μj,σj)。由此可以得到联合分布p(x(i),z(i))=p(x(i)|z(i))p(z(i))。整个模型简单描述为对于每个样例x(i),先从k个类别中按多项式分布抽取一个z(i),然后根据z(i)所对应的k个多值高斯分布中的一个生成样例x(i)。整个过程称作混合高斯模型。注意的是这里的z(i)仍然是隐含随机变量。模型中还有三个变量φ,μ和σ。最大似然估计为p(x,z)。对数化后如下式(5.1):

这个式子的最大值是不能通过前面使用的求导数为0的方法解决的,因为求的结果不是closeform。但是假设我们知道了每个样例的z(i),那么上式可以简化为式(5.2):

这时候再来对φ,μ和σ进行求导得到如下式(5.3):

φj就是样本类别中z(i)=j的比率。μj是类别为j的样本特征均值,σj是类别为j的样例的特征的协方差矩阵。

实际上,当知道z(i)后,最大似然估计就近似于高斯判别分析模型(gaussiandiscriminantanalysismodel)了。所不同的是gda中类别y是伯努利分布,而这里的z是多项式分布,还有这里的每个样例都有不同的协方差矩阵,而gda中认为只有一个。之前是假设给定了z(i),实际上z(i)是不知道的。考虑之前提到的em的思想,第一步是猜测隐含类别变量z,第二步是更新其他参数,以获得最大的最大似然估计。用到这里就是:

循环下面步骤,直到收敛:{

(e步)对于每一个i和j,计算如下式(5.4)

(m步),更新参数如下式(5.5):

}

在e步中,将其他参数φ,μ,σ看作常量,计算z(i)的后验概率,也就是估计隐含类别变量。估计好后,利用上面的公式重新计算其他参数,计算好后发现最大化最大似然估计时,值又不对了,需要重新计算,周而复始,直至收敛。

的具体计算公式如下式(5.6):

这个式子利用了贝叶斯公式。这里我们使用代替了前面的l{z(i)=j},由简单的0/1值变成了概率值。

s6:将本次语义i删除,即保持θ不变,进行下一次的语义分类,转向s4;

s7:得出手势语义i,调用物体功能库,表达用户选择物体的功能。

因此,在对新手势进行分类判断的过程中,通过计算若干语义类别下隐参的后验概率,选取最大后验概率对应的手势类别作为最终分类结果。从而形成了完整的高斯概率模型下的手势语义分析机制和执行方法。

上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1