一种面向立体电视的手势操控方法

文档序号:7804343阅读:176来源:国知局
一种面向立体电视的手势操控方法
【专利摘要】一种面向立体电视的手势操控方法,利用基于运动信息、基于运动模板、基于颜色或深度信息或基于特定检测硬件的方法获取手部的坐标,检测手部在操控距离的范围内,则开始进行手势的识别;通过模板匹配或滤波算法校正手部坐标的误差;然后采用后续的手势识别算法完成手势含义的识别,手势识别采用基于人工神经网络ANN、基于概率统计模型(HMM)、基于支持向量机SVM或基于动态时间规划DTW的方法;将识别的结果交由控制算法进行立体电视的操作。
【专利说明】一种面向立体电视的手势操控方法
【技术领域】
[0001 ] 本发明涉及手势识别的方法,尤其是应用于立体电视操控的手势识别的方法。
【背景技术】
[0002]人机交互是研究人与计算机之间交互的研究领域,大部分时候,识别某个手势对于人类来说是毫不费力的,但是对于机器来说,这是一个及其复杂的过程,这个过程涉及信号处理、机器视觉、统计分析、行为学、心理学、机器学习以及认知科学等多个领域。
[0003]近年来,基于智能技术的人机交互技术得到巨大的发展,传统的显示器遥控器、键盘、鼠标、触摸屏等已经越来越不能新的需求,迫切的需要对空间约束性小、更为舒适、自然易懂的新型交互技术,用户识别、触摸屏、语音输入、手势控制、体感控制和眼球鼠标等新一代智能交互技术都已经用于成熟产品,特别是利用语音、手势、表情进行人机交互的方式得到越来越认同和研究。对手势识别而言,早期人们采用专用的收据手套或者触摸屏等辅助设备,但是这些设备不可避免都要与身体接触,并且存在空间等限制,于是基于视觉的手势识别出现并迅速发展。
[0004]基于视觉的手部坐标的获得的方法有很多种,其中基于运动信息的手部坐标的获得,主要通过相邻图像差分来检测手势;而基于运动模板的方法,依靠模板匹配与待检测图片的匹配来完成手部图像的提取;基于颜色信息的手部坐标的获取,主要是依赖对手部肤色的检测判别来分割出手部的图像;而基于特定硬件的方法,以Kinect为例,Kinect是微软开发的一种3D体感摄影机,通过彩色摄像头、红外线发射器、红外线CMOS摄像头构成的3D结构光深度感应器,来获得人体关节点的位置并连接关节点获得人体的骨架,包括获得人手部,头部的位置,由此进行应用的开发。
[0005]现有技术涉及手势识别方法已经公开较多,其中典型的有基于人工神经网络ANN的方法、基于概率统计模型(HMM)的方法、基于支持向量机SVM的方法、基于动态时间规划DTff的方法。
[0006]基于人工神经网络ANN是一种基于决策理论方法的识别方法,能进行大规模分布式并行信息处理,是一种模仿生物神经网络的结构和功能的数学模型。结合机器学习,这种数学模型能够在外界信息的基础上改变内部结构,是一种自适应的、非线性的数据拟合工具。一个人工神经网络由若干计算节点构成,每个节点代表一定的“激励函数”,从而每个节点可以拟合出一个超平面将多维空间分成两部分。同时,两个节点之间的连接被赋予权重值以衡量相互连接的两个节点之间的刺激程度。
[0007]基于概率统计模型(HMM)中,每一个状态的转移只依赖于其之前的那一个状态。HMM是一个双重的随机过程,一方面,隐马尔科夫模型具有一条由隐含状态构成的马尔科夫链;另一方面隐马尔科夫模型还具有一个由隐含状态概率决定的观察向量,所以HMM是一个含有隐含未知参数的马尔可夫过程。它能很好的解决不同手势间时间上的非线性波动问题,提供了时间尺度不变形。
[0008]基于支持向量机SVM是通过把特征向量映射到高维空间,使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题,并通过一个线性超平面实现多维空间的分类,在构造分类超平面时不是基于训练样本空间最小化经验风险,也不是基于泛化性最小化置信区间,而是最小化两者的和——期望风险。因此,经过SVM机器学习得到的分类超平面可以有效的避免陷入局部最优解而得到全局最优解,从而在保证具有优秀的分类性能的同时具有良好的泛化性。
[0009]基于动态时间规划DTW的方法,基于动态优化的思想,目标是使模板和测试序列达到最大程度的重叠,测试序列上的采样点被映射到参考序列上,通过弯曲其中一个模式的时间轴,消除模式之间的时间差别。

【发明内容】

[0010]本发明的目的是:提出一种面向立体电视的手势操控系统,该方法利用基于运动信息、基于运动模板、基于颜色或深度信息或基于特定检测硬件的方法获取手部的坐标,通过手势的识别,快速而有效地理解操作者的意图,实现实时的手势的识别与理解。其中,方法中用到了分段检测、编码识别、模板匹配和滤波运算有效地保证了最后识别的精确性和实时性。
[0011]本发明的技术解决方案如下:面向立体电视的手势操控方法,利用基于运动信息、基于运动模板、基于颜色或深度信息或基于特定检测硬件的方法获取手部的坐标,检测手部在操控距离的范围内,则开始进行手势的识别;通过模板匹配或滤波算法校正手部坐标的误差;然后采用后续的手势识别算法完成手势含义的识别,手势识别采用基于人工神经网络ANN、基于概率统计模型(HMM)、基于支持向量机SVM或基于动态时间规划DTW的方法;将识别的结果交由控制算法进行立体电视的操作。
[0012]进一步,采用优化手部坐标的方法采用跟踪算法对定位出的手部位置进行跟踪;或采用模板匹配的方法提高手部定位的稳定性。
[0013]进一步,使用分段检测、编码识别的方法识别复杂手势:首先选取出一些简单操作的基本手势模型,系统中使用的复杂手势都由这些基本的手势模型通过不同的排列顺序组合而成;通过将简单的手势通过编码本的方式组成复杂手势,简化了检测的复杂度;将检测手部的连续视频序列中的手部坐标量化为特征向量,针对此特征向量,采用分段检测、编码识别的方法,选取出一些简单操作的基本手势模型,系统中使用的复杂手势都由这些基本的手势模型通过不同的排列顺序组合而成。
[0014]进一步,手势操控系统用于立体电视装置,可置于立体电视装置的某一位置。
[0015]本发明的有益效果:首先提出一种面向立体电视的手势操控方法与系统,如完成对音量增减、频道升降或图象偏转的手势控制,与现有的手势识别方法与装置相比,使用了分段检测、编码识别的方法,提高了复杂手势识别的鲁棒性和实时性;在手部定位阶段可以采用滤波算法或模板匹配算法提高了手部定位的精确性。
【专利附图】

【附图说明】
[0016]图1是本发明方法的流程图;
[0017]图2a、b是本发明二种方向编码的示意图;
[0018]图3a是本发明中采集的用户(包含手部)的图像;[0019]图3b是本发明中手势轨迹转换为方向编码后的效果图;
[0020]图4是本发明用于立体电视的实施实例结构示意;
[0021]图5a是本发明中隐马尔可夫模型中的状态转移图;
[0022]图5b是本发明中关系图;
[0023]图6是本发明用于操控立体电视中立方体旋转(a_e)的效果图。
[0024]具体实施方法
[0025]图1面向立体电视的手势操控的算法流程图如下所示:本发明的流程中,从摄取或输入图像后进行处理,具体如下述:
[0026]面向立体电视的手势操控方法中,在立体显示器的屏幕的上部放置Kinect,采用其作为图像输入装置。
[0027]以22寸的液晶显示器面板为例,各部件之间的相对布置尺寸如图4所示。22寸的液晶板,长510毫米,宽286毫米,厚度2.2毫米。加上四周的边框长约600毫米,宽约360毫米,厚度190毫米。当人手出现在允许操作的距离范围内,开始进行手势的采集。采集的用户(包含手部)的图像如图3所示。
[0028]采用机器学习的方法,对装置获得的坐标进行分析,识别区分不同手势的含义,其过程如图1所示,主要包括如下方面: [0029]1、手部位置坐标的获取。利用基于运动信息、基于运动模板、基于颜色或深度信息或基于特定检测硬件的方法获取手部的坐标,以Kinect为例,系统使用MicrosoftSDKs通过KinectSensor获取连续视频帧中图像的骨骼模型。从而用户的手部坐标值就可以在骨架的数据输出流中获取,并作为手势识别部分的原始输入数据。
[0030]2、坐标的滤波。由于视频图像本身存在很多干扰和噪声,且人身体也会有很多变化,为了要保证人体手部坐标定位的准确,避免手部位置的跳变,方法根据当前帧及前若干帧定位到的手部位置,采用模板匹配或者滤波方法,进行检测值得校正,常用的滤波和运动估计算法有Kalman滤波算法,模板匹配算法等。
[0031]以Kalman滤波为例,该算法只涉及状态更新、相关计算和计算参数更新三种运算,只有5步,运算速度很快,因此是一种在真正场合中应用广泛的数据优化算法。每一步运算测的递推流程为:
[0032](I).在 t = k-Ι 时刻,计算.沿 I^-') = A{k)x{k -11 /c -1);
[0033]⑵.计算预测误差的协方差矩阵P(k I"-1) = A{k)P{k-\\k-\)Ar{k) + al.[0034](3)计算增益矩阵夂(/<-) =-1JMJi_”(、.(人)——-
TT异曰M則牛、’ C(k)P{k\k-\)C! (k) + a:
[0035](4).计算对当前时刻状态的估计值:
[0036]KO = W< /<-\) + K{l< ){y{/<) - C{/< ).1(/( | /c -1)).[0037](5).计算估计误差 P (k I k) = (1-K(k)C(k))P(k|k_l);
[0038]3、将坐标序列转化为方向特征向量。方向特征是指图2中分别依次编号为I到η的方向编码。在手势识别系统,它代表连接两个相邻手势坐标点的向量的角度量化并编码到这η个方向的结果。[0039]4、简单手势的识别。简单手势的识别采用基于人工神经网络ANN、基于概率统计模型(HMM)、基于支持向量机SVM或基于动态时间规划DTW的方法。
[0040]以基于概率统计模型(HMM)为例,采集不同的样本训练每个手势对应的HMM模型,识别时,使用每个模型对采集的样本进行概率计算,得到概率最高的就是待检测序列对应的手势。具体的计算过程为:
[0041]假设3中获得的观察序列为O = O1, 02,...,οτ,根据隐马尔可夫模型,产生此观察序列的状态序列为Q = qi,q2,...,qT,并且状态序列并不唯一,则由如q2,...,qT产生观察
序列O1, O2,..., O1的联合概率为:'A(O1) K (?)...\_? K1 (。,)其中,' 是初始状态
时处在Q1状态的概率,气(S)是在Q1状态下产生观察值O1的概率,a,1A是由状态qi转移到状态q2的概率。
[0042]利用前向递推法计算生成给定观察序列的概率Ρ(0/λ),λ = (Ji , A, B);令七时刻为前、后向算法的分界点。t时刻之前的过程采用向前递推的方式。
[0043]在给定HMM参数λ时,定义a i是qt = Si条件下该隐马尔可夫模型产生观察序列O1, O2,..., Ot的可能性,即部分概率。记作:
[0044]a t(i) =P (O1, o2,...,ot, qt = Si/ λ )
[0045]如图5 所示,可以得到 a t+1(j) = P(C)1, o2,..., otot+1, qt+1 = Sj/ λ )与 a t(i)的关系:
【权利要求】
1.面向立体电视的手势操控方法,其特征是利用基于运动信息、基于运动模板、基于颜色或深度信息或基于特定检测硬件的方法获取手部的坐标,检测手部在操控距离的范围内,则开始进行手势的识别;通过模板匹配或滤波算法校正手部坐标的误差;然后采用后续的手势识别算法完成手势含义的识别,手势识别采用基于人工神经网络ANN、基于概率统计模型(HMM)、基于支持向量机SVM或基于动态时间规划DTW的方法;将识别的结果交由控制算法进行立体电视的操作。
2.根据权利要求1所述的面向立体电视的手势操控方法,其特征是优化手部坐标的方法采用跟踪算法对定位出的手部位置进行跟踪或采用模板匹配的方法提高手部定位的稳定性。
3.根据权利要求1所述的面向立体电视的手势操控方法,其特征是使用分段检测、编码识别的方法识别复杂手势:首先选取出一些简单操作的基本手势模型,系统中使用的复杂手势都由这些基本的手势模型通过不同的排列顺序组合而成;通过将简单的手势通过编码本的方式组成复杂手势,简化了检测的复杂度。
4.根据权利要求1所述的面向立体电视的手势操控方法,其特征坐标的滤波与跟踪:为保证人体手部坐标定位的准确,避免手部位置的跳变,根据当前帧及前若干帧定位到的手部位置,采用模板匹配或者滤波方法,进行检测值的校正,常用的滤波和运动估计算法Kalman滤波算法和模板匹配算法。
5.根据权利要求4所述的面向立体电视的手势操控方法,其特征是将手部坐标序列转化为方向特征向量;方向特征是分别依次编号为I到η的方向编码;在手势识别系统,它代表连接两个相邻手势坐标点的向量的角度量化并编码到这η个方向的结果;简单手势的识别采用以基于概率统计模型(HMM)的方法,采集不同的样本训练每个手势对应的HMM模型,识别时,使用每个模型对采集的样本进行概率计算,得到概率最高的就是待检测序列对应的手势。
6.根据权利要求1所述的面向立体电视的手势操控方法,其特征是手势操控系统用于立体电视装置,可置于立体电视装置的某一位置。
【文档编号】H04N21/422GK104038799SQ201410217498
【公开日】2014年9月10日 申请日期:2014年5月21日 优先权日:2014年5月21日
【发明者】王元庆, 徐柳婧 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1