一种基于改进YOLOv5的手势识别方法

文档序号：36415442发布日期：2023-12-19 16:01阅读：112来源：国知局

本发明涉及目标检测，具体涉及一种改进yolov5的手势识别检测方法。

背景技术：

1、随着科技的高速发展，人类的生活越来越智能化，人机交互技术也受到了更大的关注，人机交互的发展给人类带了便利，手势作为人机交互的重要组成部分，已融入到人们生活之中，如现在火热的智能家居、手语教育都会用到手势识别技术。

2、传统的人工提取特征方式是手势识别的常见的提取方式，但是这种提取方式不仅复杂繁琐而且还没有泛化性。近年来随着深度学习的不断发展，它在图像和声音识别中取得了重要成就。基于深度学习的手势识别技术成为一种新的趋势。与传统的手势识别技术相比，基于深度学习的手势识别技术是通过人们把手势图像数据传入神经网络去训练，完成学习的手势识别模型自己可以准确的识别不同手势。这种手势识别技术具有很强的鲁棒性，适用于不同场景下的手势识别。如专利申请号为201710208528.1一种手势识别、手势控制及多层神经网络训练方法、装置及电子设备。其中，手势识别方法，包括：通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别。通过本发明实施例，实现了手势的准确识别和跟踪。

3、现有的检测方法主要分为两种：两阶段方法和一阶段方法，两阶段检测方法如r-cnn、spp-net、fast r-cnn通常精度较高，但速度较慢，而以ssd，yolo为首的一阶段检测方法速度一般比two-stage算法更快，但精度有所损失，yolov5作为当前yolo网络系列的新版本，性能较之前版本有明显的提升，但在当前复杂的环境背景下，检测精度仍不够高，仅具有快速而不具备准确性的特点，如果采用yolov5网络识别手势其精度准确度无法得到保证，如果在使用yolo5v的基础上实现检测准确度的提升是yolov5在手势识别领域研究的重点，现有技术无法相关技术的公开。

技术实现思路

1、本发明的目的在于克服现有技术的不足，提供一种基于改进yolov5的手势识别方法，通过改进的yolov5模型来进行手势识别，通过改进实现具备检测速度快的同时具备检测精度高的优点。

2、为了实现上述目的，本发明采用的技术方案为：一种基于改进yolov5的手势识别方法，包括：

3、对yolov5网络模型进行修改形成改进后的yolov5网络模型；

4、对改进后的yolov5网络模型进行训练得到训练后的yolov5网络模型；

5、利用训练后的yolov5网络模型输入待识别的图像数据后输出识别结果。

6、改进后的yolov5网络模型包括输入层、backbone层、neck层、head层；

7、其中，输入层包括依次串接的mosaic数据增强模块、自适应锚框计算模块，用于对输入的数据进行输入处理。

8、所述backbone层采用shufflenetv2轻量级网络完成信息融合输出。

9、shufflenetv2轻量级网络结构包括cbrm模块、channel shuffle模块，输入层输入的图像数据依次经过串联的cbrm模块、channel shuffle模块1、channel shuffle模块2、channel shuffle模块3、channel shuffle模块4、channel shuffle模块5、channelshuffle模块6、gsconv模块引出shufflenetv2轻量级网络的输出端子1；在channelshuffle模块2、channel shuffle模块3之间引出shufflenetv2轻量级网络的输出端子2；在channel shuffle模块4、channel shuffle模块5之间引出shufflenetv2轻量级网络的输出端子3；输出端子1、2、3分别输出提取到的不同尺寸的特征图，为neck层网络的特征图的压缩和融合提供输入数据。

10、所述neck层结构将将主干网络shufflenetv2轻量级网络提取到的特征进行压缩和融合，然后将处理后的特征图输入到head层网络中。

11、所述neck层网络结构基于yolov5网络的neck网络改进得到，将yolov5网络的neck网络中的标准卷积conv替换为轻量级卷积gsconv；将yolov5网络的neck网络中的csp模块替换为vovgscsp模块，并在yolov5网络的neck网络中的输出端增加设置有cbam注意力机制模块。

12、cbam注意力机制包括空间注意力模块和通道注意力模块两个部分，在通道注意力模块输出的特征图f经过全局最大池化和全局平均池化再作为空间注意力模块的输入特征图特征图进行全局最大池化和全局平均池化，将h×w的特征维度压缩为1×1，再将两个特征图进行通道拼接concat，然后经过卷积操作，降维成一个通道，最后通过sigmoid激活函数a得到空间注意力特征图。

13、对改进后的yolov5网络模型进行训练包括：

14、采用公开手势数据集nus-ii，在labelimg上进行标注数据集，通过标注数据集将其划分为多个类别并保存；然后再把标注完的数据集按8：1：1比例划分为训练集，验证集和测试集；

15、将训练集的图片统一归一化为640*640尺寸大小的图片，并进行输入到改进后的yolov5网络中进行训练；

16、训练完成后通过测试集和验证集对训练后的模型进行测试和验证。

17、输出部分head有3个yolo head检测器，分别输出76×76、38×38、19×19三种不同尺度特征图进行目标预测，最终得到图像识别之后的图片。

18、本发明的优点在于：采用改进后yolov5网络对手势进行识别，兼具yolov5网络的检测速度快的同时具备检测精度高的优点；改进的yolov5网络引入了cbam注意力机制,将图片不同的位置信息聚集到通道中，使得所被检测的手势关注度提高，同时将neck模块中的conv换成gsconv,c3模块换成vovgscsp模块，同时将原来的网络替换成shufflenet v2轻量级网络，提高改进算法的检测准确性和检测速度。

技术特征：

1.一种基于改进yolov5的手势识别方法，其特征在于：

2.如权利要求1所述的一种基于改进yolov5的手势识别方法，其特征在于：

3.如权利要求2所述的一种基于改进yolov5的手势识别方法，其特征在于：所述backbone层采用shufflenetv2轻量级网络完成信息融合输出。

4.如权利要求3所述的一种基于改进yolov5的手势识别方法，其特征在于：shufflenetv2轻量级网络结构包括cbrm模块、channel shuffle模块，输入层输入的图像数据依次经过串联的cbrm模块、channel shuffle模块1、channel shuffle模块2、channelshuffle模块3、channel shuffle模块4、channel shuffle模块5、channel shuffle模块6引出shufflenetv2轻量级网络的输出端子1；在channel shuffle模块2、channel shuffle模块3之间引出shufflenetv2轻量级网络的输出端子2；在channelshuffle模块4、channelshuffle模块5之间引出shufflenetv2轻量级网络的输出端子3；输出端子1、2、3分别输出提取到的不同尺寸的特征图，为neck层网络的特征图的压缩和融合提供输入数据。

5.如权利要求4所述的一种基于改进yolov5的手势识别方法，其特征在于：所述neck层结构将主干网络shufflenetv2轻量级网络提取到的特征进行压缩和融合，然后将处理后的特征图输入到head层网络中。

6.如权利要求5所述的一种基于改进yolov5的手势识别方法，其特征在于：所述neck层网络结构基于yolov5网络的neck网络改进得到，将yolov5网络的neck网络中的标准卷积conv替换为轻量级卷积gsconv；将yolov5网络的neck网络中的csp模块替换为vovgscsp模块，并在yolov5网络的neck网络中的输出端增加设置有cbam注意力机制模块。

7.如权利要求6所述的一种基于改进yolov5的手势识别方法，其特征在于：cbam注意力机制包括空间注意力模块和通道注意力模块两个部分，在通道注意力模块输出的特征图f经过全局最大池化和全局平均池化再作为空间注意力模块的输入特征图特征图进行全局最大池化和全局平均池化，将h×w的特征维度压缩为1×1，再将两个特征图进行通道拼接concat，然后经过卷积操作，降维成一个通道，最后通过sigmoid激活函数得到空间注意力特征图。

8.如权利要求1-7任一所述的一种基于改进yolov5的手势识别方法，其特征在于：对改进后的yolov5网络模型进行训练包括：

9.如权利要求1-7任一所述的一种基于改进yolov5的手势识别方法，其特征在于：输出部分head有3个yolo head检测器，分别输出76×76、38×38、19×19三种不同尺度特征图进行目标预测，最终得到图像识别之后的图片。

技术总结
本发明公开了一种基于改进YOLOv5的手势识别方法，采用基于YOLOv5网络改进后的yolov5网络模型进行手势识别，改进的YOLOv5网络在yolov5的基础上，添加CBAM注意力机制,将图片不同的位置信息聚集到通道中，使得所被检测的手势关注度提高，同时将Neck模块中的CONV换成GSconv,C3模块换成VoVGSCSP模块，同时将原来的网络替换成ShuffleNet V2轻量级网络，提高改进算法的检测准确性和检测速度。

技术研发人员：孙永妍,杭后俊,吴亚玲
受保护的技术使用者：安徽师范大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙永妍杭后俊吴亚玲
技术所有人：安徽师范大学
我是此专利的发明人

上一篇：电子零件及其制造方法与流程
上一篇：卷绕管处理装置、纱线卷绕机以及纱线卷绕系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。