手势识别方法及装置与流程

文档序号：21366318发布日期：2020-07-04 04:41阅读：347来源：国知局

本发明涉及人工智能领域，具体而言，涉及一种手势识别方法及装置。

背景技术：

手势是人们之间最便捷、最常用的交流方式之一，在人类长期的社会生产实践活动中一直扮演着十分重要的角色。随着人工智能等发展，人机交互也更多逐渐地应用到了人们生活中的方方面面，同时手势在人机交互的过程中的地位越来越重。手势其自然、便捷的特点大大提高了人机交互的效率，并大大拓展了人机交互的应用场景。但是，人类的手势本来就十分的复杂，不同的识别方法又会收到各种各样的环境干扰，如何快速、准确地识别人类手势中包含的复杂语义信息，成为手势识别研究过程中需解决的问题。

技术实现要素：

本发明为了解决上述背景技术中的至少一个技术问题，提出了一种手势识别方法及装置。

为了实现上述目的，根据本发明的一个方面，提供了一种手势识别方法，该方法包括：

获取用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息；

将所述彩色图像、所述深度图像、所述红外图像以及所述人体骨骼点信息输入到训练好的手势识别模型中，得到所述用户做出的手势的语义信息。

可选的，所述训练好的手势识别模型为采用标注好语义信息的手势样本作为训练数据并采用预设的机器学习算法训练得出的，其中，所述手势样本包括用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息。

可选的，该手势识别方法还包括：

获取训练样本集，所述训练样本集包括多个标注好语义信息的手势样本，所述手势样本包括用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息；

根据所述训练样本集采用预设的机器学习算法进行模型训练，得到训练好的手势识别模型。

可选的，所述机器学习算法包括：centernet算法。

可选的，该手势识别方法还包括：

获取采集的用户的语音信息；

将所述语音信息输入到训练好的语音识别模型中得到语音识别结果，其中，所述训练好的语音识别模型为根源预设的语音样本采用transformer算法训练得出的；

输出所述语音识别结果对应的手势信息。

为了实现上述目的，根据本发明的另一方面，提供了一种手势识别装置，该装置包括：

手势采集单元，用于获取用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息；

手势识别单元，用于将所述彩色图像、所述深度图像、所述红外图像以及所述人体骨骼点信息输入到训练好的手势识别模型中，得到所述用户做出的手势的语义信息。

可选的，该手势识别装置还包括：

训练样本集获取单元，用于获取训练样本集，其中，所述训练样本集包括多个标注好语义信息的手势样本，所述手势样本包括用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息；

模型训练单元，用于根据所述训练样本集采用预设的机器学习算法进行模型训练，得到训练好的手势识别模型。

可选的，所述机器学习算法包括：centernet算法。

可选的，该手势识别装置还包括：

语音信息获取单元，用于获取采集的用户的语音信息；

语音识别单元，用于将所述语音信息输入到训练好的语音识别模型中得到语音识别结果，其中，所述训练好的语音识别模型为根源预设的语音样本采用transformer算法训练得出的；

手势输出单元，用于输出所述语音识别结果对应的手势信息。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述手势识别方法中的步骤。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述手势识别方法中的步骤。

本发明的有益效果为：本发明通过用户在做出静态手势时的彩色图像、深度图像、红外图像以及人体骨骼点信息训练出手势识别模型，进而根据训练好手势识别模型识别出用户手势对应的语义信息，实现了快速、准确地识别用户手势中包含的语义信息的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例手势识别方法的流程图；

图2是本发明实施例手势识别模型的训练流程图；

图3是本发明实施例语音转化为手势的流程图；

图4是本发明实施例手势识别装置的第一结构框图；

图5是本发明实施例手势识别装置的第二结构框图；

图6是本发明实施例手势识别装置的第三结构框图；

图7是本发明实施例计算机设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明提供一种基于kinect的手势识别方法，实现静态手语到语音的翻译以及语音到对应手语的翻译，并有效提高了静态手语识别的准确率。本发明借助计算机与kinect摄像头，可实现手语转化为语音、语音转化为手语两个功能。

图1是本发明实施例手势识别方法的流程图，如图1所示，本实施例的手势识别方法包括步骤s101至步骤s102。

步骤s101，获取用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息。

在本发明可选实施例中，本步骤可以通过kinect摄像头完成用户手势图像的采集。kinect内置彩色摄像头、深度摄像头、红外摄像头和麦克风阵列；其中，彩色摄像头、深度摄像头、红外摄像头可分别获取到手势动作的彩色图像信息、深度图像信息、红外图像信息。此外，还可以可利用kinect摄像头采集并生成用户的人体骨骼点信息。

在采集时，用户站在kinect摄像头前，做出手势动作，在kinect摄像头采集完成用户做手势的彩色图像、深度图像、红外图像信息以及人体骨骼点信息之后，通过图像预处理算法，将获取的图像信息利用几何变换、图像增强进行预处理，减少低质量图像的数量。

步骤s102，将所述彩色图像、所述深度图像、所述红外图像以及所述人体骨骼点信息输入到训练好的手势识别模型中，得到所述用户做出的手势的语义信息。

在本发明可选实施例中，所述训练好的手势识别模型为采用标注好语义信息的手势样本作为训练数据并采用预设的机器学习算法训练得出的，其中，所述手势样本包括用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息。

在本发明可选实施例中，用户做出的手势的语义信息可以以语义文字或预设编号的形式来表示。在本发明可选实施例中，本步骤在得到用户做出的手势的语义信息之后，还可以根据预设的对应关系确定语义信息对应的语音信息，并对所述语音信息进行播放，实现了手势到语音之间的转换。

由以上描述可以看出，本发明通过用户在做出静态手势时的彩色图像、深度图像、红外图像以及人体骨骼点信息训练出手势识别模型，进而根据训练好手势识别模型识别出用户手势对应的语义信息，实现了快速、准确地识别用户手势中包含的语义信息的技术效果。

图2是本发明实施例手势识别模型的训练流程图，如图2所示，上述步骤s102的手势识别模型的具体训练流程包括步骤s201至步骤s202。

步骤s201，获取训练样本集，所述训练样本集包括多个标注好语义信息的手势样本，所述手势样本包括用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息。

步骤s202，根据所述训练样本集采用预设的机器学习算法进行模型训练，得到训练好的手势识别模型。

在本发明可选实施例中，上述机器学习算法可以采用现有的多种机器学习算法。优选的，上述机器学习算法可以采用centernet算法。

centernet算法是one-stage目标检测算法中性能非常不错的算法，centernet算法利用关键点三元组检测物体。

centernet算法模型通过centerpooling(中心池化)和cascadecornerpooling(级联角落池化)分别得到centerheatmap(中心热图)和cornerheatmaps(角落热图)，用来预测关键点的位置。

centerpooling：一个物体的中心并不一定含有很强的，易于区分于其他类别的语义信息。而centerpooling可以用来来丰富中心点特征。centerpooling提取中心点水平方向和垂直方向的最大值并相加，以此给中心点提供所处位置以外的信息。这一操作使中心点有机会获得更易于区分于其他类别的语义信息。

cascadecornerpooling；一般情况下角点位于物体外部，所处位置并不含有关联物体的语义信息，这为角点的检测带来了困难。cascadecornerpooling首先提取物体边界最大值，然后在边界最大值处继续向内部(图中沿虚线方向)提取提最大值，并与边界最大值相加，以此给角点特征提供更加丰富的关联物体语义信息。

得到角点的位置和类别后，通过offsets将角点的位置映射到输出图片的对应位置，然后通过embeddings判断哪两个角点属于同一个物体，以便组成一个检测框。正如前文所说，组合过程中由于缺乏来目标区域内部信息的辅助，从而导致大量的误检。为了解决这一问题，centernet算法不仅预测角点，还预测中心点。我们对每个预测框定义每个中心区域，通过判断每个目标框的中心区域是否含有中心点，若有则保留，并且此时框的confidence为中心点，左上角点和右下角点的confidence的平均，若无则去除，使得网络具备感知目标区域内部信息的能力，能够有效除错误的目标框。

中心区域过小导致很多小尺度的错误目标框无法被去除，而中心区域过大导致很多大尺度的错误目标框无法被去除，因此centernet算法使用了尺度可调节的中心区域定义法，公式可以如下：

该方法可以在预测框的尺度较大时定义一个相对较小的中心区域，在预测框的尺度较小时预测一个相对较大的中心区域。

由此可见，本发明通过centernet算法训练出的手势识别模型具有识别较高的准确性和识别效率。

本发明借助计算机与kinect摄像头，也可实现语音转化为手语。图3是本发明实施例语音转化为手势的流程图，如图3所示，本发明实施例语音转化为手势的流程包括步骤s301至步骤s303。

步骤s301，获取采集的用户的语音信息。

在本发明可选实施例中，本步骤可以通过kinect摄像头的麦克风阵列完成用户语音的采集，得到用户的语音信息。

在本发明可选实施例中，在采集到用户的语音信息后还需要进行相应的滤波、预处理等处理，提高语音信息的质量。

步骤s302，将所述语音信息输入到训练好的语音识别模型中得到语音识别结果，其中，所述训练好的语音识别模型为根源预设的语音样本采用transformer算法训练得出的。

transformer算法模型改进了rnn最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行；并且transformer算法中增加了残差结构，可以增加到非常深的深度，充分发掘dnn模型的特性，提升模型识别准确率。

在本发明可选实施例中，所述语音识别结果可以为语音信息对应的语义信息，该语义信息可以采用语义文字或预设编号的形式来表示。

步骤s303，输出所述语音识别结果对应的手势信息。

在本发明可选实施例中，本步骤确定语音识别结果对应的手语视频和/或文字信息，并进行播放和显示。

由以上实施例可以看出，本发明实现了一种静态手势与语音之间互译的方法，利用kinect摄像头可采集到人在做出静态手势时的各种图像信息，并且辅之以kinect获取的人体骨骼信息，使用目标检测centernet算法实现静态手语识别的功能，并较之普通的基于计算机视觉的手语识别方法，减少嘈杂背景对识别效果的影响，并充分利用多维度信息，提升识别的准确率与稳定性。同时，本发明使用kinect内置的麦克风与语音识别算法可实现语音识别功能。

由此，本发明的基于kinect的手势识别方法较之以普通的手语识别技术准确率更高，能更好的减少复杂背景、不同光照强度带来的影响；并且，可以实现手语语音的双向互译，具有更强的功能性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思，本发明实施例还提供了一种手势识别装置，可以用于实现上述实施例所描述的手势识别方法，如下面的实施例所述。由于手势识别装置解决问题的原理与手势识别方法相似，因此手势识别装置的实施例可以参见手势识别方法的实施例，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是本发明实施例手势识别装置的第一结构框图，如图4所示，本发明实施例手势识别装置包括：手势采集单元1和手势识别单元2。

手势采集单元1，用于获取用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息。

手势识别单元2，用于将所述彩色图像、所述深度图像、所述红外图像以及所述人体骨骼点信息输入到训练好的手势识别模型中，得到所述用户做出的手势的语义信息。

图5是本发明实施例手势识别装置的第二结构框图，如图5所示，本发明实施例手势识别装置还包括：训练样本集获取单元3和模型训练单元4。

训练样本集获取单元3，用于获取训练样本集，其中，所述训练样本集包括多个标注好语义信息的手势样本，所述手势样本包括用户做出手势的彩色图像、深度图像、红外图像以及人体骨骼点信息。

模型训练单元4，用于根据所述训练样本集采用预设的机器学习算法进行模型训练，得到训练好的手势识别模型。

在本发明可选实施例中，所述机器学习算法包括：centernet算法。

图6是本发明实施例手势识别装置的第三结构框图，如图6所示，本发明实施例手势识别装置还包括：语音信息获取单元5、语音识别单元6和手势输出单元7。

语音信息获取单元5，用于获取采集的用户的语音信息。

语音识别单元6，用于将所述语音信息输入到训练好的语音识别模型中得到语音识别结果，其中，所述训练好的语音识别模型为根源预设的语音样本采用transformer算法训练得出的。

手势输出单元7，用于输出所述语音识别结果对应的手势信息。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备。如图7所示，该计算机设备包括存储器、处理器、通信接口以及通信总线，在存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。

处理器可以为中央处理器(centralprocessingunit，cpu)。处理器还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解，此处不再赘述。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述手势识别方法中的步骤。本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)、随机存储记忆体(randomaccessmemory，ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive，缩写：hdd)或固态硬盘(solid-statedrive，ssd)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐林嘉;李晓萍;纪耀宗;马格
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。