手势识别方法、装置、电子设备及计算机可读存储介质与流程

文档序号：31052921发布日期：2022-08-06 08:36阅读：104来源：国知局

1.本技术涉及计算机视觉和深度学习技术领域，尤其涉及一种手势识别方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.手势识别是当前逐渐开始流行的人机交互方式之一，可应用于智能家居、智能交通、虚拟现实、智能电视、在线教育、空中键盘、体感游戏、智能驾驶舱、智能健身镜、智能物流等各种领域中。
3.由于手势本身具有多样性，需要识别的种类较多，并且在实时动态场景下，手势在切换过程中也会伴随运动模糊，所以会导致手势识别算法在技术落地应用中准确性不高，鲁棒性不强。为了提高识别精度，有研究者提出一些复杂度较高的网络结构，比如spp-net，r-cnn，fasterrcnn等，但由于模型计算量过大，这些都不适合部署到移动端，也有研究者使用轻量级网络，但准确率却不能达到算法落地的效果。

技术实现要素：

4.有鉴于此，本技术提出了一种手势识别方法、装置、电子设备及计算机可读存储介质，能够达到在不额外增加计算资源的前提下，提升手势识别准确率的效果。
5.第一方面，本技术一实施例提供一种手势识别方法，包括：
6.获取原始图像，其中，所述原始图像中包含有手势；
7.对所述原始图像进行手部目标检测，得到手部关键特征数据集；
8.利用所述手部关键特征数据集作为训练数据集对预设初始手势识别模型进行训练，得到基础手势识别模型；
9.对所述基础手势识别模型进行剪枝处理，得到标准手势识别模型；
10.获取待识别图像，并利用所述标准手识别模型识别所述待识别图像中的手势类型。
11.于一实施例中，所述利用所述手部关键特征数据集作为训练数据集对预设初始手势识别模型进行训练，得到基础手势识别模型，包括：
12.采用轻量级mobilenetv2网络模型作为所述预设初始手势识别模型的主干网络；
13.在所述主干网络中间接一条包含预设手势关键特征的回归分支，及在所述主干网络最后接一条包含多种预设手势的分类分支；
14.冻结所述主干网络，单独训练所述回归分支和所述分类分支的权重；
15.在所述预设初始手势识别模型收敛后，打开所述主干网络，对所述预设初始手势识别模型的权重进行调整，得到所述基础手势识别模型。
16.于一实施例中，所述多种预设手势至少包括：比心手势、ok手势、手掌张开手势、握拳手势，敬礼手势、竖大拇指手势、差评手势、第一摇滚手势、食指上指手势、两指并拢手势、胜利手势、大v手势、打电话手势、卷心菜手势、比四手势、第一手枪手势、第二摇滚手势、手
掌朝下手势、发誓手势、第二手枪手势、蜘蛛侠手势和勾引手势。
17.于一实施例中，所述对所述基础手势识别模型进行剪枝处理，得到标准手势识别模型，包括：删除所述基础手势识别模型中的回归分支，得到所述标准手势识别模型。
18.于一实施例中，所述对所述原始图像进行手部目标检测，得到手部关键点数据集，包括：
19.对所述原始图像进行手部目标检测，确定手部位置信息；
20.根据所述手部位置信息确定手部目标框；
21.在所述手部目标框内截取手部兴趣区域；
22.对所述手部兴趣区域进行统一尺寸处理，得到所述手部关键特征数据集。
23.于一实施例中，所述手部位置信息至少包括：手部中心点坐标、手部高度及手部宽度。
24.于一实施例中，所述根据所述手部位置信息确定手部目标框，包括：对比所述手部高度与所述手部宽度，将所述手部高度与所述手部宽度中的长边确定为所述手部目标框的边长，得到所述手部目标框。
25.第二方面，本技术一实施例提供一种手势识别装置，包括：获取模块，用于获取原始图像，其中，所述原始图像中包含有手势；检测模块，用于对所述原始图像进行手部目标检测，得到手部关键特征数据集；训练模块，用于利用所述手部关键特征数据集作为训练数据集对预设初始手势识别模型进行训练，得到基础手势识别模型；处理模块，用于对所述基础手势识别模型进行剪枝处理，得到标准手势识别模型；识别模块，用于获取待识别图像，并利用所述标准手识别模型识别所述待识别图像中的手势类型。
26.第三方面，本技术一实施例提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储指令，所述处理器用于调用所述存储器中的指令，使得所述电子设备执行如第一方面所述的手势识别方法的步骤。
27.第四方面，本技术一实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如第一方面所述的手势识别方法的步骤。
28.本技术实施方式提供的手势识别方法、装置、电子设备及计算机可读存储介质，使用mobilenetv2轻量级网络做模型的主干网络，将手势识别任务拆解成23种手势分类和手势21个关键点的回归双任务训练，在23类手势分类特征基础上融合21个手势关键点特征，能够使模型学习到更丰富的语义特征，同时，在不额外增加计算开销的前提下提升模型的准确率。
附图说明
29.图1为本技术一实施例的手势识别方法的步骤流程示意图。
30.图2为图1所示手势识别方法的一步骤流程的细分流程示意图。
31.图3为图1所示手势识别方法的一步骤流程的细分流程示意图。
32.图4为本技术一实施例的手势识别装置的功能模块示意图。
33.图5为本技术一实施例的电子设备的架构示意图。
34.主要元件符号说明
35.手势识别装置
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
10
36.获取模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
11
37.检测模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
12
38.训练模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
13
39.处理模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
14
40.识别模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
15
41.电子设备
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
20
42.处理器
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
21
43.存储器
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
22
44.如下具体实施方式将结合上述附图进一步说明本技术。
具体实施方式：
45.下面将结合本技术实施方式中的附图，对本技术实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本技术一部分实施方式，而不是全部的实施方式。
46.需要说明的是，本技术实施例中“至少一个”是指一个或者多个，多个是指两个或两个以上。除非另有定义，本文所使用的所有的技术和科学术语与属于本技术中的技术领域的技术人员通常理解的含义相同。本技术的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术。
47.需要说明的是，本技术实施例中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本技术实施例的描述中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
48.请参阅图1，为本技术一实施例提供的手势识别方法的流程示意图。
49.具体地，该手势识别方法可以包括：
50.s100，获取原始图像。
51.在本实施例中，可以利用图像采集设备直接获取包含有手势的原始图像，例如：图像采集设备为摄像机、带有摄像头的移动终端等，也可以从存储设备获取预先存储的原始图像，例如：存储设备为u盘等，还可以通过网络从网站服务器获取原始图像。本实施例对原始图像的获取方式不作限定。
52.s200，对原始图像进行手部目标检测，得到手部关键特征数据集。
53.进一步结合图2所示，步骤s200可以包括：
54.s210，对原始图像进行手部目标检测，确定手部位置信息。
55.在本实施例中，手部位置信息至少包括：手部中心点坐标、手部高度及手部宽度。
56.s220，根据手部位置信息确定手部目标框。
57.在本实施例中，为了解决为检测出的手部目标框大小不同，长宽比例不一的问题，需要对比手部高度与手部宽度，将手部高度与手部宽度中的长边确定为手部目标框的边
长，得到手部目标框。
58.s230，在手部目标框内截取手部兴趣区域。
59.s240，对手部兴趣区域进行统一尺寸处理，得到手部关键特征数据集。
60.在本实施例中，将手部兴趣区域统一为96*96的尺寸大小，以使手部关键特征数据集中的每张原始图像中的手部兴趣区域统一大小，从而提高模型的训练的精确度与速度。
61.s300，利用手部关键特征数据集作为训练数据集对预设初始手势识别模型进行训练，得到基础手势识别模型。
62.进一步结合图3所示，步骤s300可以包括：
63.s310，采用轻量级mobilenetv2网络模型作为预设初始手势识别模型的主干网络。
64.s320，在主干网络中间接一条包含预设手势关键特征的回归分支，及在主干网络最后接一条包含多种预设手势的分类分支。
65.在本实施例中，采用轻量级mobilenetv2网络模型，将手势识别任务拆解成23种手势分类和21个手势关键点的回归双任务训练，目的在于在23类手势分类特征基础上，融合21个手势关键点特征，能够使模型学习到更丰富的语义特征，达到在不额外增加计算开销的前提下，提升模型准确率的效果。其中，回归分支和分类分支都使用1*1卷积层替代常规全连接层，以减少参数量和计算开销。实验表明，在主干网络中增加回归分支后，模型在以下预设23类手势的识别准确率平均上涨17.4％。
66.具体地，多种预设手势至少包括：比心手势、ok手势、手掌张开手势、握拳手势、敬礼手势、竖大拇指手势、差评手势、第一摇滚手势、食指上指手势、两指并拢手势、胜利手势、大v手势、打电话手势、卷心菜手势、比四手势、第一手枪手势、第二摇滚手势、手掌朝下手势、发誓手势、第二手枪手势、蜘蛛侠手势和勾引手势。
67.s330，冻结主干网络，单独训练回归分支和分类分支的权重。
68.在本实施例中，预设初始手势识别模型收敛较快，在10个epoch之后趋于稳定。
69.s340，在预设初始手势识别模型收敛后，打开主干网络，对预设初始手势识别模型的权重进行调整，得到基础手势识别模型。
70.在本实施例中，对预设初始手势识别模型的权重进行微调，可以使基础手势识别模型中的权重更高程度地拟合训练数据集，达到增加基础手势识别模型准确率的目的。
71.s400，对基础手势识别模型进行剪枝处理，得到标准手势识别模型。
72.在本实施例中，根据训练任务需要，删除基础手势识别模型中的回归分支，得到标准手势识别模型。在模型推理阶段，只需保留主干网络和分类分支，可以在不影响模型识别准确率的前提下，减少模型参数量，提高模型推理速度。实验表明，剪枝过后的模型，总参数量减少48682个，在荣耀v30机型上，模型前向推理时间消耗减少0.282ms。
73.s500，获取待识别图像，并利用标准手识别模型识别待识别图像中的手势类型。
74.上述实施例中的手势识别方法使用mobilenetv2轻量级网络做模型的主干网络，将手势识别任务拆解成23种手势分类和手势21个关键点回归双任务训练，在23类手势分类特征基础上融合21个手势关键点特征，能够使模型学习到更丰富的语义特征，同时，在不额外增加计算开销的前提下提升模型的准确率。
75.进一步结合图4所示，为本技术一实施例提供的一种手势识别装置10。
76.具体地，手势识别装置10可以包括：获取模块11，用于获取原始图像，其中，原始图
像中包含有手势；检测模块12，用于对原始图像进行手部目标检测，得到手部关键特征数据集；训练模块13，用于利用手部关键特征数据集作为训练数据集对预设初始手势识别模型进行训练，得到基础手势识别模型；处理模块14，用于对基础手势识别模型进行剪枝处理，得到标准手势识别模型；识别模块15，用于获取待识别图像，并利用标准手识别模型识别待识别图像中的手势类型。
77.请参阅图5，图5为本技术一实施例提供的电子设备20的架构示意图。
78.具体地，电子设备20包括处理器21和存储器22，存储器22用于存储计算机指令，处理器21用于调用存储器22中的计算机指令，使得电子设备20执行如上述实施例的手势识别方法的相关步骤。
79.示例性的，计算机指令可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器22中，并由处理器21执行。一个或多个模块/单元可以是能够完成特定功能的一系列计算机指令段，指令段用于描述计算机指令在电子设备20中的执行过程。例如，可以分割成图4所示的获取模块11、检测模块12、训练模块13、处理模块14、识别模块15。
80.电子设备20可以是桌上型计算机、笔记本、掌上电脑、工业电脑、平板电脑、服务器等计算设备。本领域技术人员可以理解，示意图仅仅是电子设备20的示例，并不构成对电子设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备20还可以包括输入输出设备、网络接入设备、总线等。
81.处理器21可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器、单片机，处理器21也可以是任何常规的处理器等。
82.存储器22可用于存储计算机指令和/或模块/单元，处理器21通过运行或执行存储在存储器22内的计算机指令和/或模块/单元，以及调用存储在存储器22内的数据，实现电子设备20的各种功能。存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备20的使用所创建的数据(比如音频数据)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
83.本技术一实施例还提供一种计算机可读存储介质，计算机可读存储介质存储计算机指令，当计算机指令在电子设备20上运行时，使得电子设备20执行上述实施例的手势识别方法的相关步骤。其中，存储介质可以是u盘、移动硬盘、只议存储器rom、随机存取存储器ram、磁碟或者光盘等各种可以存储程序代码的介质。
84.本技术实施方式提供的手势识别方法、装置、电子设备20及计算机可读存储介质，使用mobilenetv2轻量级网络做模型的主干网络，将手势识别任务拆解成23种手势分类和手势21个关键点回归双任务训练，在23类手势分类特征基础上融合21个手势关键点特征，能够使模型学习到更丰富的语义特征，同时，在不额外增加计算开销的前提下提升模型的
准确率。
85.本技术领域的普通技术人员应当认识到，以上的实施方式仅是用来说明本技术，而并非用作为对本技术的限定，只要在本技术的实质精神范围之内，对以上实施例所作的适当改变和变化都落在本技术要求保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓佳谢昕虬吉祥黄仰光
技术所有人：抖动科技（深圳）有限公司
我是此专利的发明人

上一篇：泵站尾矿输送系统和方法与流程
上一篇：用于虚拟装甲车辆的控制器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。