一种基于改进yolov5的空中手势识别方法

文档序号：36244211发布日期：2023-12-02 08:03阅读：63来源：国知局

本发明涉及图像处理领域与人机交互领域，具体是一种基于改进yolov5的空中手势识别方法。

背景技术：

1、近年来，随着图像识别与人工智能的高速发展，人机交互的技术在不断更新迭代，从最早的键盘输入，手写输入，语音输入到现在的手写识别，语音识别，计算机的发展大大加速了人机交互技术的创新，手写识别最早需要写字板作为输入终端。而随着人工智能视觉技术的发展，现在仅需要一个摄像头作为输入端便可达到此效果，空中的手势动作通过摄像头输入，摄像头采集到图像然后通过神经网络进行识别，脱离了写字板及其他辅助端输入的束缚，给与用户更加自由的畅快体验。

2、近期手势识别技术高速发展，但大多数研究是静态手势识别，通过摄像头采集到手势动作图像，然后送至神经网络中进行识别，神经网络往往比较庞大因此也带来了计算的成本问题。而在动态手势识别中，最早使用辅助指套，手套来采集手部的肌电流信号或动作信息，再反馈到前端通过观察肌电流信号的变化进而达到手势动作识别的效果，过程繁琐且会受到场地的限制，必须在配备有辅助指套或手套的场所才能实现此功能，而且精确度不高是一直难以逾越的鸿沟。针对这些问题，本发明发明了一种实时的动态手势识别系统及方法。

技术实现思路

1、本发明的目的在于提供一种基于改进yolov5的空中手势识别方法，本系统搭建了两个算法网络，一个改进的yolov5算法网络进行轨迹跟踪识别，一个轻量化的lhr-cnn网络进行图像识别，大幅度降低了网络参数量及计算成本，并且提高空中手势轨迹识别的检测精度及效率。本发明致力于将系统部署在单片机以及微型处理器上，实现真正的随身携带，实时识别，在轻量化的基础上提高了实时手势的识别精度，有着重要的研究意义和应用前景。本发明提供了一种全新的实时手势识别系统，在人机交互领域和图像处理领域有着巨大的应用前景，可以应用在高危工作手势的远程操控，比如矿下，井下等易坍塌的地方，以及医学的手势远程操控，电子智慧游戏，机器人远程开发协助等。

2、本发明为实现上述目的，通过以下技术方案实现：

3、一种基于改进yolov5的空中手势识别方法

4、包括以下步骤：

5、s1，手势图像获取模块采用kinect摄像头来实时获取手势动作的每一帧图像，然后采用yolov5算法来检测每帧图像中手势的坐标；步骤s1的具体实施方法为：

6、s1.1，通过系统调用kinect摄像头捕获连续手势动作的每一帧数据图像，数据图像包括环境以及手势；kinect摄像头有可编程的应用程序接口，准确稳定的对图像进行捕获；

7、s1.2，图像经过yolov5算法进行手势、物体的跟踪识别，基于改进的yolov5算法会对手势图像中的手势进行自瞄框跟踪识别。yolov5在单目标物体识别跟踪上可以表现出优秀的性能。

8、s2，改进yolov5算法网络主干结构，用轻量化的下采样卷积进行代替focus层；同时对于网络的浅层特征信息加入效果更好大的感受野增大模块sppcspc，步骤s2的具体实施方法为：

9、s2.1，改进yolov5算法，将原算法中的focus卷积替换成步长为2的conv卷积；

10、s2.2，将原算法中的spp模块改用最新的sppcspc模块，spp模块通过最大池化来获得不同感受野，csp模块会将特征分为两部分，一部分常规卷积处理，一部分通过spp结构，最后两部分再结合在一起，sppcspc即是将spp和csp结合在一起。sppcspc即是将spp和csp结合在一起，虽然参数量有所增加，但提高了不少的网络精度。

11、s3，改进yolov5及lhr-cnn网络结构，在两个网络中加入了cbam注意力机制，增强网络的特征提取能力；步骤s3的具体实施方法为：

12、s3.1，构建cbam(convolutional block attention module)注意力机制，cbam注意力机制由一种通道注意力机制和空间注意力机制组合而成，首先将输入的feature map经过两个并行的maxpool层和avgpool层，特征图从的宽度和高度都降成1，再通过sharemlp模块，在该模块中首先会将通道数压缩为原来的1/r,之后再扩充到原通道数，经过激活函数relu,将两个输出结果逐行逐列相加，再乘以原图，此时宽高层数变为原来的层数；

13、通道注意力公式：

14、

15、f为输入的特征图，f∈r^(c*h*w)；

16、mc(f)是一维通道注意特征图σ为sigmoid函数；

17、avgpool是平均池化操作maxpool是最大池化操作；

18、mlp是共享的全连接层处理w_0∈r^(c*c/r)w_1∈r^(c*c/r)mlp的权重由w_0和w_1共享；

19、s3.2，将cbam注意力模块在yolov5主干网络的4个卷积层cbs后加入，增加主干网络的特征提取能力。

20、s4，在系统中添加坐标校正算法，消除噪声及环境等带来的干扰，提高手势轨迹的回归精度；较不添加校正算法取得了显著的提升；步骤s4的具体实施方法为：

21、采用离群点坐标去除算法进行校正，提高系统对相邻手势检测的准确性，l为单个手势，由时间将单个手势l划分为n部分的坐标h，即为h1,h2到hn。由于手势的坐标hi随时间均匀变化，因此在任意图像帧中捕获的手势坐标hj跟相邻帧i-1和i+1中的手势坐标hi-1和hi+1的笛卡尔距离必须小于预设的阈值δ，其公式为：

22、

23、s5，通过对不同用户的手势进行预处理，不同用户手势特征会被处理至相同的数量级；步骤s5的具体实施方法为：

24、对校正后的手势坐标进行归一化处理，以此将不同人绘制的手势轨迹限制在相近的数量级，归一化后的坐标用hni表示，ln表示的是归一化后与手势l相关的手势坐标集合，ω为自瞄框的宽，h为自瞄框的高，其公式为：

25、

26、ln＝(hn1，hn2，…hnn)。。

27、s6，使用基于时间窗的分割方法，将连续手势分割成单一手势并将其坐标绘制在二维坐标系下；步骤s6的具体实施方法为：

28、s6.1，用m来表示当前获取的手势集合，m中可能有m个手势ln，因此对手势集合m用时间窗口函数进行分割来检测单个手势结束的时间位置，

29、m＝(ln1，ln2，…lnm)＝(hn11，…hn1n…hn21，…hnmn) (4)；

30、s6.2，构建一个长度为2t的时间窗函数t，扫描时间窗t中手势坐标集(hni-t，…hni，…hni+t)在x轴和y轴上的值，时间窗口的左边界表示某个手势坐标开始的x,y值，时间窗口的右边界表示某个手势坐标结束的x,y值；

31、s6.3，将每个分割后的手势坐标绘制在二维x-y坐标系下，并用圆滑的曲线将逐个坐标相连便得到了每个手势坐标的轨迹图。

32、s7，采用双算法网络手势识别系统处理：先用yolov5算法进行手势轨迹的跟踪，将连续的手势轨迹坐标分割成单一手势后绘制在二维坐标系下，通过连线绘制成图像再通过lhr-cnn网络进行手势的识别。步骤s7的具体实施方法为：

33、s7.1，系统添加两个算法网络进行手势的跟踪及识别，以此提高轻量化系统识别的准确性；640×640×3的图像首先被输入到yolov5中，yolov5会对图像中的手势进行目标跟踪识别，待经过一系列分割及预处理为手势轨迹的二维坐标图像后，再送入本系统设计的轻量化lhr-cnn网络中进行识别；

34、s7.2，在lhr-cnn网络中，首先采用奇偶模采样剔除二维坐标图像中的冗余信息，在保留原始图像的关键信息下，达到图像降维的效果；

35、s7.3，用ghost卷积来构建lhr-cnn轻量化网络，轻量化的ghost网络相对于传统的卷积网络来说，推理速度有着极为大的提升，可以从参数量及计算量两方面来验证，其公式为：

36、

37、

38、rs表示经过特征图s次变换，普通的卷积操作计算量与ghost卷积计算量对比；rc表示经过特征图s次变换，普通的卷积操作参数量与ghost卷积参数量对比；特征图输入张量为c*h*w,经过一次卷积后输出数据的张量为n*h'*w'，c为输入的通道数，n为输出特征图的个数，h为特征图的高，w为特征图的宽，h'为经过一次卷积后特征图的高，w'为经过一次卷积后特征图的宽，k为常规卷积核的大小，d为线性变换卷积核大小，n/s是第一次变换时的输出通道数目，s-1是因为恒等映射不需要进行计算，但它也算做第二变换中的一部分。

39、对比现有技术，本发明的有益效果在于：

40、1、本发明设计了一种新的实时手势识别系统及方法，系统使用摄像头作为图像输入摆脱了辅助指套，手套等录入设备的束缚，系统在原有的yolov5算法上进行改进，提高了对实时帧手势图像的识别速度和精度，为了提高整个网络识别的精度，本系统将通过yolov5的手势图像坐标通过处理绘制成坐标图像，坐标图像被送入本系统设计的轻量级神经网络lhr-cnn中进行识别，大大提升了实时手势识别精度。

41、2、本系统搭建了两个算法网络，一个改进的yolov5算法网络进行轨迹跟踪识别，一个轻量化的lhr-cnn网络进行图像识别，大幅度降低了网络参数量及计算成本，并且提高空中手势轨迹识别的检测精度及效率。本发明致力于将系统部署在单片机以及微型处理器上，实现真正的随身携带，实时识别，在轻量化的基础上提高了实时手势的识别精度，有着重要的研究意义和应用前景。本发明提供了一种全新的实时手势识别系统，在人机交互领域和图像处理领域有着巨大的应用前景，可以应用在高危工作手势的远程操控，比如矿下，井下等易坍塌的地方，以及医学的手势远程操控，电子智慧游戏，机器人远程开发协助等。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹华伟韩成举
技术所有人：河南师范大学
我是此专利的发明人

上一篇：一种芯轴在位检测加工方法
上一篇：一种无裂纹无重熔带热障涂层气膜冷却孔及其制备和应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。