一种基于Kinect的动态手势识别方法与流程

文档序号:16882506发布日期:2019-02-15 22:18阅读:3293来源:国知局
一种基于Kinect的动态手势识别方法与流程

本发明属于计算机视觉领域,更具体地,涉及一种基于kinect的动态手势识别方法。



背景技术:

随着机器人和虚拟现实等技术的不断发展,传统的人机交互方式逐渐难以满足人与计算机之间自然交互的需求。基于视觉的手势识别作为一种新颖的人机交互技术,得到了国内外研究人员的普遍关注。然而,彩色相机受限于其光学传感器的性能,难以应对复杂的光照条件和杂乱的背景。因此,具有更多图像信息的深度相机(如kinect)成为研究者们研究手势识别的重要工具。

尽管kinect传感器已经成功应用于人脸识别,人体跟踪和人体动作识别等方面,但使用kinect进行手势识别仍是一个悬而未决的问题。因为相比于人体或者人脸,人手在图像上目标更小,导致更难以定位或跟踪,而且人手有着复杂的关节结构,运动时手指部分容易发生自遮挡,这也会导致手势识别更容易受到分割错误的影响,因此总体来说识别手势仍然是非常具有挑战性的问题。



技术实现要素:

针对现有动态手势识别方法的不足,本发明提出了一种基于kinect的动态手势识别方法:通过卷积神经网络提取动态手势的空间特征,通过卷积长短时记忆网络提取动态手势的时间特征,用动态手势的空-时特征实现手势分类,并且融合彩色图像和深度图像的分类结果提高手势识别准确率。

本发明提供了一种基于kinect的动态手势识别方法,包括以下步骤:

(1)用kinect摄像头采集动态手势的图像序列,包括彩色图像序列和深度图像序列;

(2)对彩色图像序列和深度图像序列进行预处理操作,分割出图像序列中的人手;

(3)设计由4组卷积层-池化层构成的2维卷积神经网络,用于彩色图像序列或深度图像序列中动态手势的空间特征提取器,并将提取的空间特征输入两层卷积长短时记忆网络以提取动态手势的时序特征,并输出相应的动态手势的空-时特征;

(4)将卷积长短时记忆网络输出的彩色图像序列或深度图像序列的空-时特征输入简单的卷积神经网络来提取更高层的空-时特征,并将提取的空-时特征输入到相应的彩色图手势分类器或深度图手势分类器,得到当前动态手势图像序列属于各类别的概率;

(5)按照步骤(3)和(4)分别训练彩色图手势分类器和深度图手势分类器,并使用随机森林分类器进行多模型融合,将随机森林分类器输出的结果作为最终的手势识别结果。

优选地,步骤(2)包括以下子步骤:

(2-1)对于采集得到的动态手势彩色图像序列,标记每张图片上的人手位置,以这些带人手位置标记的图片作为样本,基于目标检测框架(例如,yolo)训练出彩色图像上的人手检测器;

(2-2)用训练得到的人手检测器检测彩色图像序列上的人手位置,并通过kinect提供的坐标映射方法,将彩色图像序列上的人手位置映射到对应的深度图像序列上,得到人手在深度图像序列上的位置;

(2-3)已知彩色图像序列上的人手位置,彩色图像序列上的人手分割方法的具体步骤为:

(2-3-1)获取彩色图像序列上人手位置处的感兴趣区域,将其从红-绿-蓝rgb颜色空间转换到色调-饱和度-亮度hsv颜色空间;

(2-3-2)对转换到hsv颜色空间的感兴趣区域,对hsv颜色空间的色调分量h进行30°的旋转;

(2-3-3)对旋转后的hsv空间中的感兴趣区域数据,计算该区域的3维hsv颜色直方图;

(2-3-4)选择3维hsv直方图中,色调分量h取值范围在[0,45]区间上的色调平面,对用每个h平面上的饱和度s、亮度v取值范围过滤彩色图上的像素,得到对应的掩膜图像,并将多个掩膜图像合并得到彩色图像上的人手分割结果;

(2-4)已知深度图像序列上的人手位置,深度图像序列上的人手分割方法的具体步骤为:

(2-4-1)获取深度图像序列上人手位置处的感兴趣区域;

(2-4-2)计算感兴趣区域的一维深度直方图;

(2-4-3)对一维深度直方图进行积分,取积分曲线上的第一个快速上升区间,将该区间终点处对应的深度值作为深度图上的人手分割阈值;

(2-4-4)感兴趣区域上深度小于人手分割阈值的区域就是分割出的人手区域;

(2-5)对人手分割后的彩色图像序列和深度图像序列进行长度规整和重采样,将不同长度的动态手势序列规整到相同的长度,其具体步骤为:

(2-5-1)对于长度为s的动态手势序列,需要将其长度规整到l,采样过程可以表示为:

公式中,idi表示采样的第i个样本帧,jit是从[-1,1]范围内服从正态分布的随机变量。

(2-5-2)采样过程中取l=8,且尽量保持各类别样本的数量均衡。

优选地,步骤(3)设计的空-时特征提取网络,用于提取空间特征的2维卷积神经网络(2dcnn)由4个卷积层、4个最大池化层和4个批规范化层组成;用于提取时间特征的两层卷积长短时记忆网络convlstm,其卷积核数量分别为256和384。

优选地,步骤(4)设计的彩色图手势分类器和深度图手势分类器均为2个卷积层和3个全连接层构成的动态手势分类网络。

优选地,步骤(5)设计的多模型融合方法具体为:使用随机森林分类器融合彩色图手势分类器和深度图手势分类器的输出。

与现有技术相比,本发明的有益效果包括:

(1)通过对动态手势图像序列进行人手定位与分割等预处理操作,可以减少环境背景对于手势识别的影响,同时也降低了整个动态手势识别框架的复杂度,从而提高了手势识别系统的可靠性和准确率。

(2)用卷积神经网络和卷积长短时记忆网络分别处理动态手势序列的空间特征和时间特征,网络的结构更加简单;同时在分类阶段结合彩色数据和深度数据的分类结果,相比传统方法进一步提高了动态手势识别的准确率。

附图说明

图1是本发明中基于kinect的动态手势识别的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的整体思路在于,提出了一种基于kinect的动态手势识别方法,该方法总体可分为三部分:一、手势数据采集和预处理,主要是采集动态手势的彩色数据和深度数据,并且完成人手的检测与分割和动态手势序列的长度规整和重采样。二、动态手势的空-时特征提取,包括用卷积神经网络提取动态手势的空间特征,用卷积长短时记忆网络提取动态手势的时间特征;三、动态手势的分类和多模型的融合方法,包括动态手势分类网络的设计和用随机森林分类器融合彩色图像手势分类器与深度图像手势分类器的分类结果。

具体而言,本发明包括以下步骤:

一、动态手势数据采集与预处理,包括以下步骤:

(1)用kinect摄像头采集动态手势的图像序列,包括彩色图像序列和深度图像序列;

(2)对彩色图像序列和深度图像序列进行预处理操作,分割出图像序列中的人手;

(2-1)对于采集得到的动态手势彩色图像序列,标记每张图片上的人手位置,以这些带人手位置标记的图片作为样本,基于目标检测框架(例如,yolo)训练出彩色图像上的人手检测器;

(2-2)用训练得到的人手检测器检测彩色图像序列上的人手位置,并通过kinect提供的坐标映射方法,将彩色图像序列上的人手位置映射到对应的深度图像序列上,得到人手在深度图像序列上的位置;

(2-3)已知彩色图像序列上的人手位置,彩色图像序列上的人手分割方法的具体步骤为:

(2-3-1)获取彩色图像序列上人手位置处的感兴趣区域,将其从红-绿-蓝(rgb)颜色空间转换到色调-饱和度-亮度(hsv)颜色空间;

(2-3-2)对转换到hsv颜色空间的感兴趣区域,对hsv颜色空间的色调分量(h)进行30°的旋转;

(2-3-3)对旋转后的hsv空间中的感兴趣区域数据,计算该区域的3维hsv颜色直方图;

(2-3-4)选择3维hsv直方图中,色调分量(h)取值范围在[0,45]区间上的色调平面,对用每个h平面上的饱和度s、亮度v取值范围过滤彩色图上的像素,得到对应的掩膜图像,并将多个掩膜图像合并得到彩色图像上的人手分割结果;

(2-4)已知深度图像序列上的人手位置,深度图像序列上的人手分割方法的具体步骤为:

(2-4-1)获取深度图像序列上人手位置处的感兴趣区域;

(2-4-2)计算感兴趣区域的一维深度直方图;

(2-4-3)对一维深度直方图进行积分,取积分曲线上的第一个快速上升区间,将该区间终点处对应的深度值作为深度图上的人手分割阈值;

(2-4-4)感兴趣区域上深度小于人手分割阈值的区域就是分割出的人手区域;

(2-5)对人手分割后的彩色图像序列和深度图像序列进行长度规整和重采样,将不同长度的动态手势序列规整到相同的长度,其具体步骤为:

(2-5-1)对于长度为s的动态手势序列,需要将其长度规整到l,采样过程可以表示为:

公式中,idi表示采样的第i个样本帧,jit是从[-1,1]范围内服从正态分布的随机变量;

(2-5-2)采样过程中取l=8,且尽量保持各类别样本的数量均衡。

二、动态手势的空-时特征提取,包括以下步骤:

(3)设计由4组卷积层-池化层构成的2维卷积神经网络,用于彩色图像序列或深度图像序列中动态手势的空间特征提取。用于提取空间特征的2维卷积神经网络(2dcnn)由4个卷积层、4个最大池化层和4个批规范化层组成,其中最大池化层均使用2*2的大小且步长均为2。该网络模型中,共有4组卷积-池化操作过程,每组的卷积层和池化层的计算模式均相同,但每组中对应的卷积层和池化层的尺寸依次为上一组的一半。具体地,在该网络中,最初输入图像的尺寸为112*112*3像素,对该图像进行卷积操作,每次经过步长为2的最大池化层后,其输出特征图的尺寸降为原来的一半;经过4组卷积-池化过程,最后一个池化层输出的特征图尺寸变为7*7*256,即为该过程得到的最终空间特征数组;接着,将空间特征图数组向量化为一维向量,输入两层的卷积长短时记忆网络convlstm以提取动态手势的时序特征,并输出动态手势的空-时特征。在这种两层的convlstm中,卷积核的数量分别为256和384,在卷积运算过程均使用3*3的卷积核、1*1的步长和相同大小的填充来保证convlstm层中的空时特征图具有相同的空间尺寸。该convlstm网络的输出是动态手势的空-时特征,数量等于步骤(2-5)中动态手势规整后的序列长度;

三、动态手势的分类,包括以下步骤:

(4)设计由2个卷积层和3个全连接层构成的动态手势分类网络作为彩色图手势分类器或深度图手势分类器。具体地,该网络通过3*3的卷积进一步提取空时特征,并在卷积层之后使用步为2的池化层将特征图的空间尺度降低为原来的一半,经过池化层的下采样后,输出的空时特征维度为4*4*384;再将特征图维度卷积至1*1*1024,作为2级卷积层的最终输出;然后,将此特征图使用平坦化(flatten)技术展开,并用3个全连接(fc)层和一个softmax分类器完成手势分类的基本过程;

(5)为进一步提高分类准确率,使用随机森林分类器进行多模型融合,实现多个分类模型的结果融合,即使用随机森林分类器融合彩色图手势分类器和深度图手势分类器的输出。具体地,选择的融合对象为静态手势分类网络中softmax分类器的输出。对于训练好的静态手势分类网络,softmax的输出是当前手势属于18个类的概率,记为p=[p0,...,p17]。用pc,pd分别表示同一场景下彩色图和深度图手势分类器的输出,记此时输入样本的标签为c,则:随机森林分类器可以用三元组(pc,pd,c)作为样本来训练得到。这种融合方式能够充分利用不同类型数据在不同场景下可靠性不同的特点,从而提高整体的分类准确率。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1