一种应用于复杂背景场景的快速运动手势识别方法与流程

文档序号：13934719阅读：1229来源：国知局

本发明属于人机交互技术领域，特别是涉及一种应用于复杂背景场景的快速运动手势识别方法。

背景技术：

人机交互的发展过程就是从人适应计算机到计算机逐步适应人的过程,人机交互的发展经历了早期的手工操作阶段、作业控制语言及交互命令语言阶段、图形用户界面(gui)阶段、网络用户界面阶段、多通道与多媒体智能人机交互阶段。手作为身体上最灵活的部位，是最早用来进行人与人之间肢体交流的工具。动态手势识别是人机交互领域中的重要研究课题，具有重要的理论研究意义以及广泛的应用前景。

国外对基于视觉的动态手势识别技术的研究起步比较早，在该领域的研究中有着丰富的经验，并取得了一定的研究成果。m.elmezain等人通过融合camshift算法和kalman滤波算法来提高动态手势跟踪的效果，然后对相应的动态手势轨迹特征进行提取，最后通过hmm算法识别数字0～9的轨迹，识别率达到95.87％。m.al-rousan和k.assaleh对动态手势识别做了深入研究，他们首先从视频中分割出手部，然后采用hmm模型对阿拉伯手语进行识别，最终该手势识别系统的在线识别率达到90.6％。r.shrivastava利用hu矩和手势轨迹方向角作为特征进行提取，然后使用hmm算法进行手势轨迹的识别，提高了识别速度，并且平均识别率达到了90％以上。rl.vieriu等人利用hmm算法对手势轮廓的序列点进行判断分类，实现了9个不同角度手势的识别。华南理工大学的常亚南在经典hmm算法的基础上，提出了一种基于hmm的阈值模型的动态手势识别方法，最终完成了动态手势轨迹的识别，并且对典型动态手势轨迹的识别率达到97.87％。国内大连理工大学的杨青通过定位手势指尖的方法提取轨迹特征，最终利用hmm算法实现26个英文字母的动态手势轨迹的识别，其识别率可达85％以上。电子科技大学的杜晓川提出了一种基于外接椭圆中心距离的跟踪算法，并通过hmm算法进行轨迹的识别，平均识别率达到87％。中科院自动化研究所的单彩峰等人开发出了基于动态手势识别的智能轮椅控制系统，通过改进的粒子滤波算法实现对动态手势的实时跟踪，并在提取动态手势轨迹特征后，利用训练好的手势轨迹模型对待识别手势轨迹进行识别，最后将识别结果转化为控制轮椅的指令，从而实现对轮椅的运动控制。近年来，随着人工智能、模式识别、机器学习技术的快速发展。越来越多手势识别方法应用了人工神经网络和svm等技术。马风力提出了一种基于mlp神经网络的手势识别方法。

从上述介绍可以知道，基于手势识别的人机交互方法已经吸引了国内外众多学者的兴趣并取得了比较丰富的成果，但是已有的基于机器学习的算法在效率及通用性等方面仍存在许多亟待解决的问题。

技术实现要素：

本发明目的在于针对现有基于机器学习的手势交互方法的缺陷，提供一种运算速度较快，应用于复杂背景场景的快速运动手势识别方法。

本发明为实现上述目的，采用如下技术方案：

一种应用于复杂背景场景的快速运动手势识别方法，其特征在于包括下述步骤：

(1)训练神经网络：

1.1从视频库中获取一段手势动作帧序列，假设总帧数为n；

1.2获取第i帧图像ii转换为ycrcb色彩模型，对原图像每个像素点，执行以下公式运算，得到每个像素点的y、cr、cb通道值：

其中r、g、b分别表示像素点的红绿蓝通道值；

1.3在ycrcb模式下的图像ii去掉y通道内容，以cr通道信息为主，cb通道信息为辅，把cr，cb通道合并为一个通道图像iig，公式如下值：

iig＝α*cr+(1-α)*cb

其中α＝0.92；

1.4通过以下公式计算出图像iig的均值μig和方差σig：

1.5参照一维正态分布的概率密度分布表，得到在[μ-2.9δ,μ+2.9δ]范围内的概率非常接近1，将像素值处于该范围内的像素点看作肤色点，执行以下公式把图像变成灰度图像iib：

1.6如果第i帧是最后一帧，则执行步骤1.7，否则，则i＝i+1，跳转到步骤1.2；

1.7对所有灰度图像iib执行通道求和操作，得到求和图像ib；

1.8把图像ib输入到深度置信网络中进行训练，输入下个视频，跳转到步骤1.1；

1.9对训练库里的所有视频执行步骤1.1-1.7后，得到训练好的神经网络；

(2)手势判断：

2.1通过摄像头拍摄获取到一段手势动作帧序列，假设总帧数为n；

2.2执行训练神经网络步骤中的1.2-1.7步骤，得到图像s；

2.3把图像s输入到训练好的深度置信网络中，判断出输入的手势动作属性什么类型手势；

2.4输出结果，进行相应手势操作。

其进一步特征在于：在步骤1.1和步骤1.2之间对图像ii进项中值滤波去噪操作，提高鲁棒性。

所述步骤1.3中α值根据1000张图像测试得到。

本发明通过去除ycrcb模式下的图像的亮度干扰，并转换为灰度模式图像进行手势分割。因此运算速度较快，易于在复杂背景下识别快速运动的物体。深度置信网络作为一种深度学习模型，在特征选择与特征学习方面有着显著的优势，并能够进行分类特征学习，充分挖掘灰度求和图像的特征信息。

附图说明

图1为本发明方法流程示意图。

具体实施方式

如图1所示一种应用于复杂背景场景的快速运动手势识别方法，主要分为训练神经网络和手势交互识别两个步骤。

一、训练神经网络的步骤如下：

1.从视频库中获取一段手势动作帧序列，假设总帧数为n。

2.对帧序列内的所有图像进项中值滤波去噪，提高鲁棒性。

3.获取第i帧图像ii转换为ycrcb色彩模型，对原图像每个像素点，执行以下公式运算，得到每个像素点的y、cr、cb通道值：

其中r、g、b分别表示像素点的红绿蓝通道值。

4.由于要排除亮度的干扰，在ycrcb模式下的图像ii可以简单的通过去掉y通道内容以实现，因此去掉y通道内容。由于人的肤色信息主要集中在cr通道中，因此以cr通道信息为主，cb通道信息为辅方式，把cr，cb通道合并为一个通道图像iig以减少计算量。公式如下：

iig＝α*cr+(1-α)*cb

其中α＝0.92(根据1000张图像测试得到的结果)。

5.通过以下公式计算出图像iig的均值μig和方差σig：

6.参照一维正态分布的概率密度分布表，可以得到在[μ-2.9δ,μ+2.9δ]范围内的概率非常接近1，所以像素值处于该范围内的像素点基本上可以被看作肤色点。执行以下公式把图像变成灰度图像iib：

7.如果第i帧是最后一帧，则执行步骤8，否则，则i＝i+1，跳转到步骤3；

8.对所有灰度图像iib执行通道求和操作，得到求和图像ib；

9.把图像ib输入到深度置信网络中进行训练，输入下个视频，跳转到步骤1；

10.对训练库里的所有视频执行步骤1-8后，得到训练好的深度置信网络结构。

二、手势判断的步骤如下：

1.通过摄像头拍取到一段手势动作帧序列，假设总帧数为n。

2.执行训练步骤一中的2-8小步骤，得到图像s。

3.把图像s输入到训练好的深度置信网络中，判断出输入的手势动作属性什么类型手势。

4.输出结果，进行相应手势操作。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨滨
技术所有人：江南大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。