一种基于深度学习的手势识别方法

文档序号：6624004阅读：389来源：国知局

一种基于深度学习的手势识别方法
【专利摘要】本发明公开了一种基于深度学习的手势识别方法，包括以下步骤：对采集到的手势图像进行降噪处理、消除手势图像中的色彩偏移现象；采用帧间差分方法和颜色特征检测方法锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪，获取手势目标；对手势目标图像进行深度学习；将获取的待识别手势图像输入训练后的深度信念网络模型中，完成手势的识别分类。
【专利说明】—种基于深度学习的手势识别方法

【技术领域】
[0001]本发明涉及图像处理【技术领域】，尤其涉及一种基于深度学习的手势识别方法。

【背景技术】
[0002]手势是一种自然、直观、简洁的人机交互方式。手势识别是根据计算机摄取的视频图像，用图像处理、模式识别等技术，识别与理解图像中的特定手势及其含义，完成计算机、家用电器等的操作与控制。手势识别技术在人机交互、移动终端、信息家电、娱乐游戏等领域具有广泛应用。在通常的手势识别系统中，在进行识别分类前，要经过手势特征提取这个环节，由于手势特征的提取要满足旋转、平移和尺度不变性的特点，因此所选用的特征非常有限，这也限制了手势识别系统的识别准确率。同时由于传统手势识别中所用的分类器，例如支持向量机(SVM)、Boosting、Logistic回归等,这些模型的结构基本上可以看成只含有一个隐含层，或者是没有隐含层，这些模型属于浅层学习模型，对数据的学习能力和认知能力都有限。
[0003]董立峰在文献《基于Hu矩和支持向量机的静态手势识别及应用》中提出了选用Hu矩作为待识别手势的特征，Hu矩具有不随图像旋转、平移和尺度变化而改变的特性；然后在手势识别阶段，使用支持向量机对手势进行分类，对10种不同的静态手势进行识别，识别正确率可达93%，但是该方法具有以下缺陷:1、需要提取手势特征做为分类器的输入，在选择特征时有较大的局限性；2、选取的特征比较单一，影响手势分类识别效果；3、支持向量机属于浅层的学习机，相比深度学习这种深层次的分类器，其分类效果相对较差；4、针对10种不同的手势，其识别率还不高，有待提升。
[0004]张中甫在文献《基于深度信息的手势识别研究及应用》中通过使用微软公司的3D体感摄像Kinect设备来获取图像的深度信息，根据手势深度信息来分割图像中的手势，然后用粒子滤波算法对手势进行跟踪与识别。该方法具有以下缺陷:1、用特殊的视频输入设备来获取手势图像及其深度信息，此种设备价格相对较贵，成本较高；2、计算手势深度信息的算法比较复杂，计算复杂度较高，耗时较长。

【发明内容】

[0005]根据现有技术存在的问题，本发明公开了一种基于深度学习的手势识别方法，具体包括以下步骤:
[0006]S1:对采集到的手势图像采用中值滤波方法对图像进行降噪处理，采用灰度世界色彩均衡方法消除手势图像中的色彩偏移现象；
[0007]S2:采用帧间差分方法和颜色特征检测法锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪；
[0008]S3:对手势图像进行基于YCgCr色彩空间的二维高斯建模和手势图像的二值化处理:对手势图像进行灰度直方图统计，从统计的图像灰度直方图中，根据某灰度值出现的概率密度获取手势目标；
[0009]S4:对S3中手势目标图像进行深度学习:将手势目标图像的数据信息构造成数据立方体的形式，建立深度信念网络模型，将含有手势信息的数据立方体形式的目标图像数据，输入深度信念网络模型，进行逐层训练和微调，获取整个深度信念网络连接权值和偏置参数；
[0010]S5:将获取的待识别手势图像按照步骤S1、S2和S3处理后，构造成数据立方体的形式，并输入S4中训练完成的深度信念网络模型，完成手势的识别分类。
[0011]由于采用了上述技术方案，本发明提供的基于深度学习的手势识别方法不需要传统手势识别系统的手势特征提取模块，可解决手势特征选取的难题；将手势的二值图像作为深度学习网络的输入，这比输入灰度图像的算法显著地降低了计算量，大幅度节省了图像训练时间；通过在YCgCr色彩空间内对手势进行高斯建模，可使手势图像分割效果好，获得良好的手势二值图像，能提高系统识别准确率；采用肤色与帧间差分相结合的方法进行手势检测，能快速准确地获取手势所在位置，提高手势检测效率。

【专利附图】

【附图说明】
[0012]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0013]图1为本发明手势识别方法的流程图；
[0014]图2为本发明中采用CamShift跟踪算法对手势进行跟踪的流程图；
[0015]图3为本发明中手势图像数据整合为二维矩阵的示意图；
[0016]图4为本发明中手势图像数据立方体的示意图；
[0017]图5为本发明中深度信念网络模型的结构示意图；
[0018]图6为本发明中训练深度信念网络模型的流程图；
[0019]图7为本发明中三层深度信念网络模型的结构示意图；
[0020]图8为本发明中Gibbs采样过程的示意图；
[0021]图9为本发明中实施例中15种手势的示意图。

【具体实施方式】
[0022]为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述:
[0023]如图1所示，一种基于深度学习的手势识别方法，具体包括以下步骤:
[0024]S1:对采集到的手势图像采用中值滤波方法对图像进行降噪处理，采用灰度世界色彩均衡方法消除手势图像中的色彩偏移现象；
[0025]采用中值滤波方法对手势图像进行降噪处理时，采用中值滤波器对图像进行滤波，设图像中点(i，j)处像素的红、绿、蓝分量分别为R(i，j)、G(i, j)、B(i, j)，中值滤波器的窗口大小为W1X W1，该区域像素共W1XW1个，将这W1XW1个像素按照由小到大排序，则中值滤波的结果为排序后序列中第(W1XW1-1)A像素数据。
[0026]W1 = 3，5，7，9，…，以红色分量R(i，j)为例，其中值滤波过程为
[0027]选取W1XW1个邻域像素，即
[0028]R(1- (W1-1) / 2，j - (W1-1) / 2)，R (1- (W1-1) / 2 + 1，j - (W1-1) / 2)，…，R (i+(W1-1)Aj-(W1-1)/2)，
[0029]R (1-(W1-1)/2，j-(ff1-l)/2 + l), R (1- (W1-1)/2 +1，j - (W1-1)/2 +1)，…，R (i+(W1-1)Aj-(W1-1)/2+1)，
[0030]......，
[0031]R(1- (W1-1) / 2，j + (W1-1) / 2)，R (1- (W1-1) / 2 + 1，j + (W1-1) / 2)，…,R (i+(W1-1)/2^-+^-1)/2)
[0032]用同样的方式，对绿分量、蓝分量进行中值滤波。本发明中，W1取值为3。
[0033]进一步地，采用灰度世界色彩均衡方法消除手势图像中的色彩偏移现象，具体采用如下方式:分别计算中值滤波后图像的红、绿、蓝分量的和RS、GS、BS:
[0034]Rs =Σ全部像素的红色分量(I)
[0035]Gs =Σ全部像素的绿色分量(2)
[0036]Bs =Σ全部像素的蓝色分量(3)
[0037]计算红、绿、蓝各颜色分量的均衡调整参数a K,、a e、α Β和归一化参数norm:
[0038]α R = Gs/Rs⑷
[0039]α G = I(5)
[0040]α B = Gs/Bs(6)
[0041]norm = max ( a E, I, a B)(7)
[0042]其中，max (x, y, z)表示计算x、y、z三个数中最大值,通过所得的彩色均衡调整参数来调整各个像素的颜色分量:
[0043]调整后红色分量值=调整前红色分量值X a K/norm(8)
[0044]调整前绿色分量值=调整前绿色分量值/norm(9)
[0045]调整后蓝色分量值=调整前蓝色分量值X a B/norm(10)
[0046]再将各个颜色分量值按照同一比例，调整到0-255之间。
[0047]灰度世界色彩均衡方法基于“灰度世界假设”。该假设认为，对于一幅有着大量色彩变化的图像，R、G、B三个分量各自的平均值趋于同一个灰度值。在客观世界中，一般来说，物体及其周围环境的色彩变化是随机且独立无关的，因此这一假设是合理的。该方法的基本思想是:首先通过图像R、G、B三个分量各自的平均值R_avg, G_avg和B_avg,计算出图像的平均灰度值Gray_avg，然后调整每个像素的R、G、B值，使得调整后图像的R、G、B三个分量各自的平均值都趋于平均灰度值Gray_avg。
[0048]S2:采用帧间差分方法和颜色特征检测方法，锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪。
[0049]采用帧间差分方法锁定手势在图像中的所在区域，具体采用如下方式:利用视频序列中相邻帧的差来获取运动手势目标的所在区域，设Ik(x，y)表示第k帧的图像，用Dk(x, y)表示帧差，Ttl表示二值化阈值，则差分图像Fk(x，y)采用下式计算:

【权利要求】
1.一种基于深度学习的手势识别方法，其特征在于包括以下步骤: S1:对采集到的手势图像采用中值滤波方法对图像进行降噪处理，采用灰度世界色彩均衡方法消除手势图像中的色彩偏移现象； 52:采用帧间差分方法和颜色特征检测方法锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪； 53:对手势图像进行基于YCgCr色彩空间的二维高斯建模和手势图像的二值化处理:对手势图像进行灰度直方图统计，从统计的图像灰度直方图中，根据某灰度值出现的概率密度获取手势目标； 54:对S3中手势目标图像进行深度学习:将手势目标图像的数据信息构造成数据立方体的形式，建立深度信念网络模型，将含有手势信息的数据立方体形式的目标图像数据输入深度信念网络模型中，进行逐层训练和微调，得到整个深度信念网络的连接权值和偏置参数； 55:将获取的待识别手势图像按照步骤S1、S2和S3处理后构造成数据立方体的形式，并输入S4中训练完成的深度信念网络模型，完成手势的识别分类。
2.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于:采用中值滤波方法对手势图像进行降噪处理时，采用中值滤波器对图像进行滤波，设图像中点(i, j)处像素的红、绿、蓝分量分别为R(i，j)、G(i, j)、B(i, j)，中值滤波器的窗口大小为W1X W1，该区域像素共W1X W1个，将这W1X W1个像素按照由小到大排序，则中值滤波的结果为排序后的序列中第(W1XW1-1)A像素数据。
3.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于:采用灰度世界色彩均衡方法消除手势图像中的色彩偏移现象，具体采用如下方式:分别计算中值滤波后图像红、绿、蓝分量的和Rs、Gs、Bs，计算红、绿、蓝各颜色分量的均衡调整参数ακ，、aG, αΒ和归一化参数norm:通过所得的色彩均衡调整参数来调整各个像素的颜色分量，再将各个颜色分量值按照同一比例，调整到O~255之间。
4.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于:采用帧间差分方法锁定手势在图像中的所在区域，具体采用如下方式:利用视频序列中相邻帧的差来获取运动手势目标的所在区域，设Ik(X，Y)表示第k帧的图像，用Dk(X，y)表示帧差，I；表示二值化阈值，则差分图像Fk(x，y)采用下式计算:
所述颜色特征检测法是采用肤色信息来检测手势:将手势图像由RGB彩色空间转换到HSI彩色空间。
5.根据权利要求1或4所述的一种基于深度学习的手势识别方法，其特征还在于:采用CamShift算法对手势进行跟踪，具体方式为: S21:将图像从RGB彩色空间转到HSI彩色空间后，根据图像的色调分量H的值计算颜色直方图，将图像中的像素值用其颜色出现的概率替换，获得颜色概率分布图； S22采用MeanShift算法通过迭代寻优方式，找到概率分布的极值来定位手势目标，具体步骤是:a、在上述颜色概率分布图中，获取色调H范围的搜索窗口 W ;b、计算搜索框内的零阶矩Motl、一阶矩Mtll和Mltl，从而得到窗口的质心(Xc;，y。)；c、调整搜索框大小，其宽度s为丨6，长度为s的1.2倍；d、将搜索框中心移到质心处，如果移动的距离大于设定的阈值，则重新上述步骤b和C，直到搜索窗的中心与质心间的移动距离小于设定的阈值或者循环次数达到设置的最大值，此时停止运算，不再移动窗口； S23:将视频图像的所有帧做MeanShift运算，并将上一帧的结果即搜索窗的大小和中心作为下一帧MeanShift算法搜索窗的初始值，如此迭代下去，实现对目标的跟踪，具体包括以下步骤:a、根据手势检测结果，初始化搜索窗口 W ;b、根据颜色直方图进行反向投影，获取搜索框的颜色概率分布；c、使用MeanShift算法，更新搜索框的中心位置和大小，对下一帧图像序列使用上一帧的搜索框位置和大小进行处理；d、重复步骤b和C，从而定位出手势目标的中心位置。
6.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于:所述对手势图像进行基于YCgCr色彩空间的二维高斯建模，具体采用如下方式:计算颜色空间分量Cg、(；，由这两个值构成二维列向量X，再计算X的均值M和协方差C:基于YCgCr空间的高斯建模具体采用如下方式:将手势图像从RGB空间转换到YCgCr空间，利用二维高斯分布对手势图像进行建模:首先计算手势图像的肤色概率，将所得的图像概率进行均值滤波，将像素值调整到O~255，从而获得肤色似然图像，分割出手势区域。
7.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于:所述手势图像的二值化处理，具体采用以下方式: 通过上述分割出手势区域，得到肤色灰度图像{grayij，(i, j) e I2}，用Ibinaryij, (i, j) e I2}表示输出的二值图像，则自适应阈值二值化的过程为: a、统计图像中每个灰度值的个数{count(m), m e [0,255]}, b、计算每个灰度值的比例{rat1(m), m e [O, 255]}: C、分别计算每个灰度值的背景部分概率和背景部分一阶矩Mbk(m)、前景部分概率和前景部分一阶矩M&(m)，计算前景图像与背景图像之间的差异函数，通过差异函数最大化确定图像二值化的阈值T ; d、根据步骤c所得的结果，对手势图像进行二值化处理，即
8.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于:S4中所述建立深度信念网络模型时的联合分布函数为:
其中θ = {apbyWij}为深度信念网络的参数,其中Bi为可见层节点i的偏置，bj为隐含层节点j的偏置，Wij为可见层节点i与隐含层节点j连接的权重；采用逐层贪心算法逐层对深度信念网络模型进行训练，具体采用如下方式:当给定已知输入节点时，采用联合分布函数(39)激励隐含层的所有节点后，再进行下一隐含层节点的激励，从而重新获得可见层节点，通过实际输入数据与模型得到的数据，对网络模型权值进行更新； Λ Wij = ε (〈乂九〉^-^]^〉.^)(43) 其中，〈V九>data是给定样本的数学期望，〈V屯^。^是网络模型产生的数学期望；采用对比散度算法计算可见层数据的条件分布，得到隐含层数据，再用计算所得隐含层数据的条件分布，计算可见层，即实现了重构可见层的数据，利用梯度下降法采用下列方式，对训练数据进行参数调整和更新，即
Λ Wij = ε (〈VihjUVihj〉

recon
)(44) Λ Bi = ε (<vi>data-<vi>recon)(45) Λ bj = ε (<hJ>data-<hJ>recon)(46) 式中，为重构后网络模型的输出，ε为学习率，经过上述数据训练得到网络模型最后一层隐含层的输出，将最后一层的输出作为Logistic回归层的输入，利用Logistic回归softmax函数(47)得到数据输出；用模型输出与训练输入数据之差来调整Logistic回归层的权值，通过数据训练和微调，得到整个网络层的连接权值和偏置参数。
9.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于:S5中手势的识别分类具体采用如下方式:
式中，ge (X) =wX+b，其中θ = {w,b}是深度信念网络模型的权值参数和偏置参数，X表不隐含层节点的状态。
【文档编号】G06K9/66GK104182772SQ201410409005
【公开日】2014年12月3日申请日期:2014年8月19日优先权日:2014年8月19日
【发明者】陈喆, 殷福亮, 刘奇琴申请人:大连理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈喆;殷福亮;刘奇琴
技术所有人：大连理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。