1.一种基于计算机视觉的手势识别方法,其特征在于,包括:
实时采集用户的手部视频;
通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;
根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;
通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。
2.根据权利要求1所述的基于计算机视觉的手势识别方法,其特征在于,在通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势之前,所述方法还包括:
获取用于手部目标检测的训练集;
构建用于手部目标检测的神经网络;
通过获取的训练集对构建的神经网络进行训练,得到手部目标检测模型,其中,所述手部目标检测模型,用于对采集的手部视频中的每帧图像进行目标检测。
3.根据权利要求2所述的基于计算机视觉的手势识别方法,其特征在于,所述训练集中的每帧图像是经过数据清洗和数据标注的,标注的信息包括:手部在图像中位置信息和手势状态。
4.根据权利要求1所述的基于计算机视觉的手势识别方法,其特征在于,通过目标检测算法检测得到的手部的位置包括:手部中心点的坐标、手部定位框的宽度和高度,以及指尖中心点的坐标、指尖定位框的宽度和高度。
5.根据权利要求1所述的基于计算机视觉的手势识别方法,其特征在于,所述特征矩阵包括:单帧图像中的手势状态、手部框选面积、指尖距离和指尖运动梯度;
所述根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵包括:
根据检测得到的每帧图像中手部的位置和手势状态,提取每帧图像的手势特征,选出所有手势状态发生跳变的帧作为跳变节点帧,并选用最靠近该视频的帧集合中间位置的跳变节点帧为分界点,在分界点前后按顺序各选取m帧,如果前后帧不满m帧,则只在后m帧进行复制最后帧的补帧处理,组成2m*n维的初始特征矩阵,对初始特征矩阵进行处理,得到一个视频具有时序特征的特征矩阵,其中,所述处理包括:独热编码、中心化和去均值处理,n表示对每帧图像提取了n维的手势特征向量。
6.一种基于计算机视觉的手势识别装置,其特征在于,包括:
采集模块,用于实时采集用户的手部视频;
检测模块,用于通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;
提取模块,用于根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;
识别模块,用于通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。
7.根据权利要求6所述的基于计算机视觉的手势识别装置,其特征在于,所述装置还包括:
获取模块,用于获取用于手部目标检测的训练集;
构建模块,用于构建用于手部目标检测的神经网络;
训练模块,用于通过获取的训练集对构建的神经网络进行训练,得到手部目标检测模型,其中,所述手部目标检测模型,用于对采集的手部视频中的每帧图像进行目标检测。
8.根据权利要求7所述的基于计算机视觉的手势识别装置,其特征在于,所述训练集中的每帧图像是经过数据清洗和数据标注的,标注的信息包括:手部在图像中位置信息和手势状态。
9.根据权利要求6所述的基于计算机视觉的手势识别装置,其特征在于,通过目标检测算法检测得到的手部的位置包括:手部中心点的坐标、手部定位框的宽度和高度,以及指尖中心点的坐标、指尖定位框的宽度和高度。
10.根据权利要求6所述的基于计算机视觉的手势识别装置,其特征在于,所述特征矩阵包括:单帧图像中的手势状态、手部框选面积、指尖距离和指尖运动梯度;
所述提取模块,具体用于根据检测得到的每帧图像中手部的位置和手势状态,提取每帧图像的手势特征,选出所有手势状态发生跳变的帧作为跳变节点帧,并选用最靠近该视频的帧集合中间位置的跳变节点帧为分界点,在分界点前后按顺序各选取m帧,如果前后帧不满m帧,则只在后m帧进行复制最后帧的补帧处理,组成2m*n维的初始特征矩阵,对初始特征矩阵进行处理,得到一个视频具有时序特征的特征矩阵,其中,所述处理包括:独热编码、中心化和去均值处理,n表示对每帧图像提取了n维的手势特征向量。