基于深度卷积神经网络框架的第一视角动态手势识别方法与流程

文档序号:11676960阅读:474来源:国知局
基于深度卷积神经网络框架的第一视角动态手势识别方法与流程

本发明涉及机器学习及计算机视觉领域,尤其涉及基于深度卷积神经网络框架的第一视角动态手势识别方法。



背景技术:

经过近几十年的计算机革命,在alphago打败李世石以及自动驾驶能够安全行驶之后,我们现在的生活因为计算机变得更加智能。当然人机交互在生活中体现出越来越重要的地位,成为这个正在改变的世界中不可缺少的角色。近些年,可穿戴设备以及智能的电子设备越来越收到人们的喜爱,而手势从古自今都是最简单直接的交流语言,所以手势交互可作为一个最自然,最简单的连接通道,使得人类与计算机交互更加简便更加直接,从而第一视角下的手势交互在人机交互中具有非常重要的意义。手势交互的技术主要涉及到不同手势的识别,在不同的复杂自然场景下,识别出不同的手势。目标识别大致可以分为传统算法和机器学习算法。传统算法在不同的场景,不同的光线,下的动态手势,不能够准确的识别。但是机器学习,在视频和图像识别方面能够得到令人满意的效果。



技术实现要素:

为克服传统算法的不足并提高识别的精度,通过摄像头输入第一视角的手势视频流,进入深度卷积神经网络算法识别不同的手势,本发明提出基于深度卷积神经网络框架的第一视角动态手势识别方法。

本发明的技术方案是这样实现的:

基于深度卷积神经网络框架的第一视角动态手势识别方法,包括步骤

s1:采集不同复杂背景下的数字手势图片,使得相同的手势具有一个相同的标签,并且标出手势在数字手势图片中的外接矩形;

s2:深度卷积神经网络首先在数字手势图片上提取若干候选框,将若干候选框与外接矩形进行特征比较并保存手势完整存在的若干候选框,然后提取保存的候选框中的特征信息,最后将得到的输出值和真实值进行损失计算并将误差反向传播;

s3:使用已标注标签和候选框的数字手势图片训练深度卷积神经网络,使得深度卷积神经网络收敛且参数稳定;

s4:将拍摄的第一视角的数字手势图片作为输入,计算深度卷积神经网络的权重,识别不同手势的类别。

进一步地,步骤s1包括步骤

s11:根据人类使用习惯定义多种不同手势;

s12:采集在复杂的场景下的每种手势的多个视频,使得每类手势拥有一个相同的标签;

s13:处理视频数据,将采集的手势视频拆分成一帧帧的图片,标出图片中的手势位置的外接矩形左上角以及右下角的坐标;

s14:用xml格式和txt格式保存每帧图片的图片路径、图片名字、标签以及外接矩形坐标,方便在后续的工作中能够直接的找到图片,并且知道此图片属于哪一类手势;

s15:将所有的样本进行伪样本操作,旋转不同角度(如30度、60度)和/或镜像(反转180°),增大训练样本数量。

进一步地,步骤s2包括步骤

s21:设计一个深度卷积神经网络框架,提取数字手势图片上的若干候选框;

s22:若干候选框与标注的外接矩形进行特征比较,判断候选框中是否有完整的手势存在;

s23:保存完整手势存在的若干候选框并将置信度标为1;

公式:

其中,若提取的候选框中有完整手势存在则保存候选框并将置信度设为1,反之设为0即删除候选框;

s24:深度卷积神经网络提取保存候选框中手势特征信息:

卷积计算公式:

其中xi是神经元的输入,wi是与每个神经元相乘的权值,b是偏置,f是下一层神经元的输出;

s25:得到输出值与真实值进行损失计算,得到残差:

其中为输出值,yi为输入值。

进一步地,步骤s3包括步骤

s31:将深度卷积神经网络进行反向传播,不断地迭代深度卷积神经网络、更新深度卷积神经网络参数;

s32:使用训练数据对深度卷积神经网络进行训练,直至深度卷积神经网络收敛且参数稳定;

s33:得到一个深度卷积神经网络网络模型,保存每一层的权值参数。

进一步地,步骤s4包括步骤

s41:使用摄像头实时拍摄第一视角的不同的手势视频;

s42:将手势视频拆分成一帧帧的图片,将图片进入深度卷积神经网络的前向,将最后一层所得到的输出结果(手势类别个数即输出结果个数)进入softmax函数计算其概率值:

其中:是所有输出值以e为底数求和,f(zj)为j个输出值的概率;

s43:将图片合成视频,深度卷积神经网络确识别出动态的手势,并且在视频中显示识别的置信度(网络识别出某种手势的概率)。

本发明的有益效果在于,与现有技术相比,本发明具有以下有益效果:

本发明采用人工标注不同手势的标签,能够得到大规模的可训练样本;本发明标注出手势的外接矩形,能够直接提取目标区域特征;提取手势图片中的若干候选框,并给予完整手势存在的若干候选框置信度,达到了增加训练样本以及明确特征信息区域,使得结果更精确;采用深度卷积神经网络最后层输出值与真实值进行损失计算的方法,能让深度卷积神经网络识别更准确以及鲁棒性更强;采用深度卷积神经网络算法识别不同的手势,可以准确地识别复杂背景、低像素的视频中的动态手势。

附图说明

图1是本发明基于深度卷积神经网络框架的第一视角动态手势识别方法流程图;

图2a是一个场景下采集的手势图;

图2b是另一个场景下采集的手势图;

图3a是图2a采集到的手势图标注后的数据示意图;

图3b是图2b采集到的手势图标注后的数据示意图;

图4是本发明深度卷积神经网络提取到的手势的特征信息示意图;

图5a是本发明使用用深度神经网络框架测试一个手势得到图片的示意图;

图5b是本发明使用用深度神经网络框架测试另一个手势得到图片的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明主要用于解决复杂的自然场景下第一视角的动态手势实时识别的问题,利用深度卷积神经网络提取不同维度的特征信息,首先在数字手势图片上提取若干候选框,将若干候选框与外接矩形进行特征比较并保存手势完整存在的若干候选框,然后提取保存候选框中的特征信息,最后将输出的结果与真实值进行损失计算,将损失计算得到的残差进行深度卷积神经网络的反向传播。

请参见图1,本发明基于深度卷积神经网络框架的第一视角动态手势识别方法,包括步骤

s1:采集不同复杂背景下的数字手势图片,使得相同的手势具有一个相同的标签,并且标出手势在数字手势图片中的外接矩形;

s2:深度卷积神经网络首先在数字手势图片上提取若干候选框,将若干候选框与外接矩形进行特征比较并保存手势完整存在的若干候选框,然后提取保存候选框中的特征信息,最后将得到的输出值和真实值进行损失计算并将误差反向传播;

s3:使用已标注标签和候选框的数字手势图片训练深度卷积神经网络,使得深度卷积神经网络收敛且参数稳定;

s4:将拍摄的第一视角的数字手势图片作为输入,计算深度卷积神经网络的权重,识别不同手势的类别。

下面结合实例及附图对本发明作进一步的描述,但本发明的具体实施方式不限于此。

s1:采集不同复杂背景下的数字手势图片,使得相同的手势具有一个相同的标签,并且标出手势在所述数字手势图片中的外接矩形。

首先定义符合人类使用习惯的手势,采集不同复杂背景下的数字手势图片,标出手势在图片中外接矩形和每类手势的名字。包括步骤

s11:根据人类使用习惯定义多种不同手势;

s12:如图2a和图2b所示,在复杂的场景下每种手势采集大量的第一视角的手势视频,每类手势拥有一个相同的标签(用手表示数字五的手势图片标签为5,以下称为真实值);

s13:处理数据,将采集的手势视频拆分成一帧帧的图片,标出图片中的手势位置的外接矩形左上角以及右下角的坐标,如图3a和图3b所示;

s14:用xml格式和txt格式保存每帧图片的图片路径、图片名称、标签以及外接矩形坐标,方便在后续的工作中能够直接的找到图片,并且知道此图片属于哪一类手势。

s15:将所有的样本进行伪样本操作,旋转不同角度(如30°、60°),镜像(反转180°),增大训练样本数量。

s2:深度卷积神经网络首先在数字手势图片上提取若干候选框,将若干候选框与外接矩形进行特征比较并保存手势完整存在的若干候选框,然后提取保存候选框中的特征信息,最后将得到的输出值和真实值进行损失计算并将误差反向传播。包括步骤

s21:设计一个深度卷积神经网络框架,提取数字手势图片的若干候选框;

s22:若干候选框与标注的外接矩形进行特征比较,判断候选框中是否有完整手势存在;

s23:保存完整手势存在的若干候选框并将置信度设为1;

公式:

其中,若提取的候选框中有完整手势存在则保存候选框并将置信度设为1,反之设为0即删除候选框;

s24:

深度卷积神经网络提取保存候选框中手势特征信息:

卷积计算公式:

其中xi是神经元的输入,wi是与每个神经元相乘的权值,b是偏置,f是下一层神经元的输出;

s25:得到输出值与真实值进行损失计算,得到残差:

其中为输出值,yi为输入值。

s3:使用已标注标签和候选框的数字手势图片训练深度卷积神经网络,使得深度卷积神经网络收敛且参数稳定。包括步骤

s31:将深度卷积神经网络进行反向传播,不断的迭代深度卷积神经网络,更新深度卷积神经网络参数;

s32:通过大量的训练数据对深度卷积神经网络进行训练,使得深度卷积神经网络收敛,参数稳定;

s33:得到一个较好的深度卷积神经网络模型,保存每一层的权值。

s4:将拍摄的第一视角的数字手势图片作为输入,计算深度卷积神经网络的权重,识别不同手势的类别,包括步骤:

s41:通过摄像头(第一视角)实时拍摄不同的手势视频;

s42:将视频拆分成一帧帧的图片,将图片进入网络的前向计算以及softmax函数:

其中:是所有输出值以e为底数求和,f(zj)为j个输出值的概率。

h(frame)=(yi,y2,.....,yi)

其中h为网络的前向计算以及最后的概率计算的整体函数,frame为输入的一张图片,(y1,y2,......,yi)表示属于哪种手势的概率,和为1;

s43:将图片合成视频,网络能够准确识别动态的手势,并且在视频中显示识别的置信度(网络识别出某种手势的概率),如图5a和图5b所示。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1