基于深度学习的手语理解视觉手势识别方法、系统、计算机装置及存储介质与流程

文档序号:31587021发布日期:2022-09-21 02:08阅读:150来源:国知局
基于深度学习的手语理解视觉手势识别方法、系统、计算机装置及存储介质与流程

1.本发明涉及手势识别技术领域,尤其是一种基于深度学习的手语理解视觉手势识别方法、系统、计算机装置及存储介质。


背景技术:

2.手语是一种人与人之间交流的方式,随着计算机技术的发展,手语也成了人机交互的方式。在通过手语进行人机交互时,需要计算机具有手势识别的功能。手语中使用的手势可以分为两种,即静态手势和动态手势。静态手势是指手在空间中的位置,而动态手势是指手在空间中的连续运动时间。手语翻译中的手势识别过程可以通过两种不同的方式来完成:基于视觉的和基于接触的识别。在基于接触的过程中,手语译员需要佩戴电子电路,例如:数据手套、加速度计、频带等设备。这些组件测量运动中的变化,并将细节转移到计算机进行进一步处理。但是,对于日常人机交互界面的用户来说,所佩戴的电子电路昂贵且不方便。
3.基于视觉的方法对用户更友好,其不要求手语译员佩戴电子电路,手语译员的手部更灵活,有利于做出更准确的手势。目前基于视觉的方法中,计算机拍摄手语译员做出的手势,获得手势图片,对手势图片进行基于特征提取的图像分析,从而识别出手势内容。特征提取是将输入数据的重要信息转化为紧凑的特征向量的过程。传统的特征提取技术(如移位不变特征变换(sift)、主成分分析(pca)、梯度直方图(hog)、局部二值模式(lbp)等)与机器学习模型相结合,需要数学算子和人工观察来提取关键特征。这些数学运算本质上是复杂的。对于有限类别的中文手语,获得的识别精度较低。尤其对于中文手语手势的识别来说,由于与其他常用手语相比,中文手语的手势格式更为复杂,因此,采用现有的手势识别方法对中文手语不会得到相同的结果即现有的手势识别方法对中文手语手势的识别不稳定;由于中文手语的复杂结构,用于中文手语识别的手势识别技术受到的关注较少。


技术实现要素:

4.针对目前的中文手语视觉手势识别识别精度较低以及数据处理过程较复杂等技术问题,本发明的目的在于提供一种基于深度学习的手语理解视觉手势识别方法、系统、计算机装置及存储介质。
5.一方面,本发明实施例包括一种基于深度学习的手语理解视觉手势识别方法,包括:
6.获取待处理手势图像;
7.将所述待处理手势图像输入至经过训练的卷积神经网络中进行处理;
8.获取所述卷积神经网络输出的识别结果;
9.所述卷积神经网络经过以下训练过程:
10.获取第一数据集;所述第一数据集包括多个中文手语手势图像;
11.对所述第一数据集中的各所述中文手语手势图像进行标记,确定各所述中文手语手势图像各自对应的标签;
12.使用所述第一数据集以及对应的各所述标签,对所述卷积神经网络进行训练。
13.进一步地,所述卷积神经网络包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层、第四卷积层、第三最大池化层、第一dropout层、第一全连接层、第二全连接层、第二dropout层和softmax层。
14.进一步地,所述获取第一数据集,包括:
15.获取包含拼写的中文手语手势图像以及包含孤立词的中文手语手势图像;
16.以所述包含拼写的中文手语手势图像和所述包含孤立词的中文手语手势图像,组成所述第一数据集。
17.进一步地,在使用所述第一数据集以及对应的各所述标签,对所述卷积神经网络进行训练之后,所述卷积神经网络还经过以下训练过程:
18.获取第二数据集;所述第二数据集包括多个英文手语手势图像;
19.对所述第二数据集中的各所述英文手语手势图像进行标记,确定各所述英文手语手势图像各自对应的标签;
20.使用所述第二数据集以及对应的各所述标签,对所述卷积神经网络进行训练。
21.进一步地,所述卷积神经网络还经过以下训练过程:
22.获取第二数据集;所述第二数据集包括多个英文手语手势图像;
23.对所述第二数据集中的各所述英文手语手势图像进行标记,确定各所述英文手语手势图像各自对应的标签;
24.将所述第一数据集中的各中文手语手势图像以及所述第二数据集中的各英文手语手势图像,按顺序排列组合成第三数据集;所述第三数据集中,任意多个相邻的中文手语手势图像的个数不超过第一阈值,任意多个相邻的英文手语手势图像的个数不超过第二阈值;
25.按照在所述第三数据集中的排列顺序,依次使用各所述中文手语手势图像和各所述英文手语手势图像以及对应的各所述标签,对所述卷积神经网络进行训练。
26.进一步地,所述第二数据集为jochen-triesch数据集。
27.进一步地,在使用所述第一数据集以及对应的各所述标签,对所述卷积神经网络进行训练之前,所述基于深度学习的手语理解视觉手势识别方法还包括:
28.从所述第一数据集中的各所述中文手语手势图像中裁剪手势;
29.将各所述中文手语手势图像下采样至相同大小。
30.另一方面,本发明实施例还包括一种基于深度学习的手语理解视觉手势识别系统,所述基于深度学习的手语理解视觉手势识别系统包括:
31.第一模块,用于获取待处理手势图像;
32.第二模块,用于将所述待处理手势图像输入至经过训练的卷积神经网络中进行处理;
33.第三模块,用于获取所述卷积神经网络输出的识别结果;
34.所述卷积神经网络经过以下训练过程:
35.获取第一数据集;所述第一数据集包括多个中文手语手势图像;
36.对所述第一数据集中的各所述中文手语手势图像进行标记,确定各所述中文手语手势图像各自对应的标签;
37.使用所述第一数据集以及对应的各所述标签,对所述卷积神经网络进行训练。
38.另一方面,本发明实施例还包括一种计算机装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行实施例中的基于深度学习的手语理解视觉手势识别方法。
39.另一方面,本发明实施例还包括一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行实施例中的基于深度学习的手语理解视觉手势识别方法。
40.本发明的有益效果是:实施例中的基于深度学习的手语理解视觉手势识别方法,通过使用经过中文手语手势图像训练的卷积神经网络对待处理手势图像进行处理,可以识别出待处理手势图像中的手势内容,从而实现对中文手语手势的识别,由于对中文手语手势的识别是通过图像处理的方式进行的,而在获取待处理手势图像时可以使用摄像机等设备进行,无需做手语者佩戴特定的传感设备,因此具有使用成本低以及使用便利等优点。
附图说明
41.图1为实施例中基于深度学习的手语理解视觉手势识别方法的流程图;
42.图2为实施例中卷积神经网络的结构示意图;
43.图3为实施例中对卷积神经网络进行训练的示意图;
44.图4为实施例中第一数据集的示意图;
45.图5为实施例中建立第三数据集的原理示意图。
具体实施方式
46.本实施例中,参照图1,基于深度学习的手语理解视觉手势识别方法包括以下步骤:
47.s1.获取待处理手势图像;
48.s2.将待处理手势图像输入至经过训练的卷积神经网络中进行处理;
49.s3.获取卷积神经网络输出的识别结果。
50.本实施例中,所使用的卷积神经网络可以是如图2所示的g-cnn。参照图2,所使用的卷积神经网络包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层、第四卷积层、第三最大池化层、第一dropout层、第一全连接层、第二全连接层、第二dropout层和softmax层,一共有12层结构。在加权层中,采用了3,2,1的小滤波尺寸来代替其它基于大滤波尺寸的cnn结构。
51.图2所示的卷积神经网络中,对大小为[256
×
256]的输入手势图像的处理从卷积层开始,卷积层通过在输入图像上滑动滤波窗口来提取特征。在从输入图像中提取特征的同时,学习并自动更新这些滤波的权重。在第一卷积层中,使用了32个维数为[3
×3×
32]的卷积层。结果,提取了32个以[256
×
256
×
32]维数表示的高级特征。为了学习非线性决策边界,该卷积层后面跟着一个非线性双曲正切激活函数。由于本实施例中的卷积神经网络不是很深,因此正切的计算量并没有影响系统的性能。该函数的使用也使得模型的训练过程
更快。因此,使用正切函数对本实施例是有利的。可以使用式(1)作为激活函数。
[0052][0053]
本实施例中,图2所示的卷积神经网络通过第一最大池化层进行最大池化操作,将得到的特征映射的大小进一步缩放为2倍。与此类似,其他卷积层和最大池化层的集合被堆叠在此之上,以生成手势的时空表示。卷积神经网络中总共应用了[3
×3×
32]的第一卷积层、[3
×3×
64]的第二卷积层、[1
×1×
64]的第三卷积层以及[3
×3×
128]的第四卷积层,一共4个卷积层,步幅为1,激活函数为tanh。在每个卷积层中使用的核大小分别为3、3、1和3,卷积深度分别为32、64、64和128。该卷积神经网络采用小核大小来学习符号的小纹理。对于池化操作,使用最大池化来减小特征映射的大小,使用的滤波大小为2,步幅为2。在这之后,一组完全连接层被用来连接所有之前提取的分类特征。具体地,第一全连接层和第二全连接层这两个全连接层中使用的隐藏单元数分别为512和84。通过设置第一dropout层和第二dropout层这两个dropout层,设置它们的丢弃非活动神经元的概率分别为0.3和0.2,可以在对卷积神经网络进行训练时避免过度拟合的问题。最后,将最后一个全连接层的输出结果输入到softmax层,softmax层通过式(2)计算它们各自的概率分布来预测类。
[0054][0055]
式(2)中,x
t
表示数组的第t个元素,k是数组x中元素总数的计数。
[0056]
本实施例中,在执行步骤s1-s3之前,通过以下步骤p1-p2对卷积神经网络进行训练:
[0057]
p1.获取第一数据集;第一数据集包括多个中文手语手势图像;
[0058]
p2.对第一数据集中的各中文手语手势图像进行标记,确定各中文手语手势图像各自对应的标签;
[0059]
p3.使用第一数据集以及对应的各标签,对卷积神经网络进行训练。
[0060]
步骤p1-p3的原理如图3所示。
[0061]
步骤p1中,可以对中文手语进行深入的研究,然后收集数据集用于创建第一数据集。具体地,对50个不同的人进行的43类中文手语的rgb图像进行分析,可以得到总共2150个或者其他数量的手势图像,这些手势图像作为中文手语手势图像,从而组成第一数据集。具体地,参照图4,获取包含拼写的中文手语手势图像以及包含孤立词的中文手语手势图像,以包含拼写的中文手语手势图像和包含孤立词的中文手语手势图像,组成第一数据集。即第一数据集被归类为两个子集,每个手势都是在不同的环境和背景条件下从多个手语译员获得的,可以确保自然的类内变化,以便更好地概括所提出的工作。
[0062]
本实施例中,在执行步骤p1之后、执行步骤p2之前,可以对第一数据集中的各中文手语手势图像进行预处理。具体地,可以从第一数据集中的各中文手语手势图像中裁剪手势,然后将各中文手语手势图像下采样至相同大小。例如,通过对各中文手语手势图像中包含手势内容的部分进行裁剪,并对裁剪出来的部分进行下采样,可以将各中文手语手势图像均转换为256
×
256大小的图像。
[0063]
步骤p2中,对第一数据集中的各中文手语手势图像进行标记,确定各中文手语手
势图像各自对应的标签。具体地,可以将采集到的第一数据集中的各中文手语手势图像分为43个类,并将这些类别的图像分别放置在各自不同的文件夹中。因此,数据的标签是根据它们的类名进行的。
[0064]
步骤p3中,使用第一数据集以及对应的各标签,对卷积神经网络进行训练。具体地,每个类的图像在输入特征学习模型之前被整理,并被分成三组:70%用于训练,10%用于验证,其余20%用于测试。在每个训练步骤中,数据以32个样本的批量输入网络,总共进行了60轮迭代训练。利用adadelta优化器对基于梯度更新的移动窗口的学习速率进行了训练。将adadelta优化器的初始学习速率和衰减因子分别设置为1和0.95。
[0065]
参照图3,在一轮训练过程中,以第一数据集的一个中文手语手势图像作为卷积神经网络的输入,以该中文手语手势图像对应的标签作为卷积神经网络的预期输出,根据卷积神经网络对该中文手语手势图像处理所得的实际输出结果与作为预期输出的标签,计算得到损失函数值,当损失函数值尚未达到阈值或者尚未收敛,则对卷积神经网络的参数进行微调,在微调之后再进行下一轮训练过程;当损失函数值达到阈值或者收敛,则结束对卷积神经网络的训练。
[0066]
本实施例中,图2所示的12层结构构成了卷积神经网络的紧凑表示,这种紧凑表示将产生较少的可训练参数,这将导致较低的计算负荷。对于任何实时应用程序来说,这是任何模型最需要的质量。与现有的深度学习模型相比,即使在卷积神经网络体系结构较低的情况下,本实施例仍能以较少的训练时间获得较好的识别效果。
[0067]
本实施例中,所使用的卷积神经网络可以是vgg11或者vgg16架构。vgg-11和vgg-16vgg网络体系结构旨在研究更深卷积网络对分类精确度的影响。vgg模型在目标检测、图像字幕、纹理识别等方面有着广泛的应用。但是,目前尚未有手势识别技术应用vgg模型在拼写和孤立词识别方面的有效性。因此,它们在手语翻译系统中获得良好的分类结果的潜力尚不确定。本实施例中,应用了vgg-11和vgg-16在手语环境下的手势识别性能,设计并测试了输入图像大小为[224
×
224
×
3]的原始模型。
[0068]
本实施例中,由于将输入至卷积神经网络的数据缩放到[256
×
256]的大小,因此,vgg-11和vgg-16模型根据这些准备好的数据集进行了相应的修改。vgg-11由总共11个加权层组成,其中包括8个卷积层和3个完全连接层,然后是一个softmax层。在vgg-11中,所有卷积层都使用步幅为1的大小为[3
×
3]的滤波层,而池化层使用步幅为2的大小为[2
×
2]的滤波层。与此类似,vgg-16模型由总共16个加权层组成,即13个卷积层和3个完全连接层,然后是一个softmax层。
[0069]
本实施例中,应用一种新的、鲁棒的手势识别模型,即卷积神经网络g-cnn,通过调整卷积神经网络所有的超参数,如核宽度、时间周期、批量大小、学习速率等,用于模型的训练;使用由43类中文手语组成的第一数据集对卷积神经网络进行训练,通过对扩充数据集的性能评估,也证明了模型的泛化能力;经过步骤p1-p3训练的卷积神经网络对旋转和缩放变换不变,具有较好的鲁棒性,能够通过10倍交叉验证;经过训练的卷积神经网络能够在每一个评估指标上都取得了显著的成果,因此该模型可以很容易地处理中文手语信号的复杂性和手遮挡。
[0070]
在执行完步骤p1-p3,完成对卷积神经网络的训练后,卷积神经网络具备了对待处理手势图像进行特征提取,从而确定待处理手势图像中包含的手势的内容的能力。可以使
用经过训练的卷积神经网络执行步骤s1-s3,将待处理手势图像输入至经过训练的卷积神经网络中进行处理,获取卷积神经网络输出的识别结果,从而确定待处理手势图像中包含的手势的内容信息。
[0071]
本实施例中,在使用第一数据集以及对应的各标签,对卷积神经网络进行训练之后,卷积神经网络还可以经过以下训练过程:
[0072]
p4a.获取第二数据集;第二数据集包括多个英文手语手势图像;
[0073]
p5a.对第二数据集中的各英文手语手势图像进行标记,确定各英文手语手势图像各自对应的标签;
[0074]
p6a.使用第二数据集以及对应的各标签,对卷积神经网络进行训练。
[0075]
本实施例中,步骤p4a-p6a的原理与步骤p1-p3的原理相同,区别在于步骤p1-p3是使用中文手语手势图像对卷积神经网络进行训练,使得卷积神经网络具有对中文手语手势图像进行识别的能力,而步骤p4a-p6a是使用英文手语手势图像对卷积神经网络进行训练,使得卷积神经网络具有对英文手语手势图像进行识别的能力。
[0076]
通过在执行步骤p1-p3的基础上执行步骤p4a-p6a,可以使得卷积神经网络同时具有对中文手语手势图像和英文手语手势图像进行识别的能力,使得卷积神经网络的功能更完善。
[0077]
本实施例中,还可以对卷积神经网络执行以下训练过程:
[0078]
p4b.获取第二数据集;第二数据集包括多个英文手语手势图像;
[0079]
p5b.对第二数据集中的各英文手语手势图像进行标记,确定各英文手语手势图像各自对应的标签;
[0080]
p6b.将第一数据集中的各中文手语手势图像以及第二数据集中的各英文手语手势图像,按顺序排列组合成第三数据集;第三数据集中,任意多个相邻的中文手语手势图像的个数不超过第一阈值,任意多个相邻的英文手语手势图像的个数不超过第二阈值;
[0081]
p7b.按照在第三数据集中的排列顺序,依次使用各中文手语手势图像和各英文手语手势图像以及对应的各标签,对卷积神经网络进行训练。
[0082]
步骤p4b中,所获取的第二数据集可以是jochen-triesch数据集,该数据集是由法兰克福大学开发,由明暗背景下每10个不同类别的3000个英语手语手势组成的数据集。
[0083]
步骤p5b的原理与步骤p5a相同。
[0084]
步骤p6b中,参照图5,第一数据集中包括中文手语手势图像1、中文手语手势图像2和中文手语手势图像3等多个中文手语手势图像,第二数据集中包括英文手语手势图像1、英文手语手势图像2和英文手语手势图像3等多个英文手语手势图像,将第一数据集中的各中文手语手势图像以及第二数据集中的各英文手语手势图像,按顺序排列组合成第三数据集。图5中,第三数据集中的各个手语手势图像的排列顺序是中文手语手势图像1、中文手语手势图像3、英文手语手势图像1、中文手语手势图像2、英文手语手势图像2、英文手语手势图像3。
[0085]
步骤p6b中,在第三数据集中各个手语手势图像的顺序时,可以根据语言习惯,设定第一阈值和第二阈值,使得第三数据集中任意多个相邻的中文手语手势图像的个数不超过第一阈值,任意多个相邻的英文手语手势图像的个数不超过第二阈值。例如,图5中第一阈值和第二阈值均为2,因此图5中最多只有2个中文手语手势图像连续排列,以及最多只有
2个英文手语手势图像连续排列。
[0086]
通过执行步骤p6b设置第三数据集,可以模拟手语者中英文夹杂表达的情况,执行步骤p7b,按照在第三数据集中的排列顺序,依次使用各中文手语手势图像和各英文手语手势图像以及对应的各标签,对卷积神经网络进行训练,训练后的卷积神经网络具有对手语者中英文夹杂表达的手势的识别能力,能够提高卷积神经网络的可行性和有效性,
[0087]
本实施例中,基于深度学习的手语理解视觉手势识别系统包括:
[0088]
第一模块,用于获取待处理手势图像;
[0089]
第二模块,用于将待处理手势图像输入至经过训练的卷积神经网络中进行处理;
[0090]
第三模块,用于获取卷积神经网络输出的识别结果;
[0091]
卷积神经网络经过以下训练过程:
[0092]
获取第一数据集;第一数据集包括多个中文手语手势图像;
[0093]
对第一数据集中的各中文手语手势图像进行标记,确定各中文手语手势图像各自对应的标签;
[0094]
使用第一数据集以及对应的各标签,对卷积神经网络进行训练。
[0095]
具体地,第一模块、第二模块和第三模块可以是具有相应功能的硬件模块或者软件模块。其中,第一模块可以执行本实施例中的基于深度学习的手语理解视觉手势识别方法中的步骤s1,第二模块可以执行步骤s2,第三模块可以执行步骤s3。通过运行基于深度学习的手语理解视觉手势识别系统,可以执行基于深度学习的手语理解视觉手势识别方法,从而实现与本实施例中的基于深度学习的手语理解视觉手势识别方法相同的技术效果。
[0096]
可以通过编写执行本实施例中的基于深度学习的手语理解视觉手势识别方法的计算机程序,将该计算机程序写入至计算机装置或者存储介质中,当计算机程序被读取出来运行时,执行本实施例中的基于深度学习的手语理解视觉手势识别方法,从而实现与实施例中的基于深度学习的手语理解视觉手势识别方法相同的技术效果。
[0097]
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
[0098]
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
[0099]
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其
中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
[0100]
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
[0101]
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、ram、rom等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
[0102]
计算机程序能够应用于输入数据以执行本实施例所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
[0103]
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1