一种神经网络训练方法及三维手势姿态估计方法与流程

文档序号:13519557阅读:636来源:国知局

本发明涉及计算机视觉、深度学习领域,尤其涉及一种神经网络训练方法及三维手势姿态估计方法。



背景技术:

近几年,随着计算机视觉、深度学习的飞速发展,虚拟现实、增强现实技术逐渐普及,并且仍具有不可估量发展前景。作为人机交互的一种重要手段,手势识别技术一直受到计算机视觉领域的高度关注,由于人手关节较多、形状交复杂、自由度较高且容易出现遮挡现象,迅速且精确的识别出手势位置及手的动作一直是一个难题。

传统的手势姿态估计方法通常可以分成两种:基于传感器和基于图像。基于传感器的手势姿态估计技术,是指通过在人手掌及手指特定的部位固定加速度计、角速度计等传感器;通过穿戴的传感器设备获取人手特定部位的位置与运动状态信息,进而通过运用运动学的方法解算出人手手掌及手指的状态,从而达到手势姿态估计的效果;这种方法由于要穿戴传感器设备,对手势检测局限性很大,而且受传感器本身精度与穿戴位置变化等因素的影响,通常检测误差会较大。另一种基于图像的手势姿态估计方法,通常是通过对rgb相机拍摄到的包含人手的图像使用边缘检测、肤色检测等基于边缘或者区域检测的方法,首先确定人手在图像中的大致区域,进而通过图像分割等手段分割出手指、手腕等细节信息;由于普通相机拍摄到包含手的图片,通常只能反映场景的平面信息,如果手指间出现遮挡,便无法识别出遮挡手指的动作细节,因此也存在较大误差。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。



技术实现要素:

为了解决上述技术问题,本发明提出一种神经网络训练方法及三维手势姿态估计方法,能够精确地识别出手势中手掌手指的具体位置与姿态。

为了达到上述目的,本发明采用以下技术方案:

本发明公开了一种神经网络训练方法,包括以下步骤:

s1:通过深度相机采集包含多个手势深度图的数据集;

s2:采用步骤s1的数据集来训练随机森林学习器;

s3:采用随机森林学习器对步骤s1的数据集中的多个手势深度图进行分割,分割出手势子图,再对所述手势子图进行处理得到处理图,将所述处理图和步骤s1的数据集中的多个手势深度图进行乱序划分成训练集和测试集;

s4:将步骤s3得到的训练集和测试集用于训练卷积神经网络,训练得到网络模型。

优选地,步骤s3中对所述手势子图进行处理得到处理图包括:s32:将所述手势子图在x、y、z三轴方向上分别进行投影,得到三张单通道的投影图;其中所述处理图包括步骤s32中的所述投影图。

优选地,步骤s3中对所述手势子图进行处理得到处理图还包括:s33:分别对三张投影图进行降采样,得到多种不同尺寸的降采样图;其中所述处理图包括步骤s32中的所述投影图和步骤s33中的所述降采样图。

优选地,步骤s1具体包括:

s11:采用多台深度相机,采集不同人的多个手势深度图;

s12:对每个手势深度图进行标注,并将多个手势深度图和对应的标注信息存储在数据集中。

优选地,步骤s12中对每个手势深度图进行标注具体包括:对每个手势深度图中的手指和手掌的预定位置标注坐标信息(x,y,d),其中x、y为手势深度图上的横纵坐标,d为像素深度。

优选地,手指的预定位置包括手指的所有关节点。

优选地,步骤s4具体包括:

s41:从所述训练集中随机选取m张图片和其对应的标签信息,从所述测试集中随机选取n张图片和其对应的标签信息;

s42:图片在网络中经过卷积层;

s43:图片在网络中经过池化层;

s44:输出层对图片进行复原;

s45:计算网络输出与标签信息之间的误差,学习网络,更新网络参数;

s46:反复迭代步骤s42~s45,不断更新参数,直至参数收敛;将训练好的参数保存,最终得到训练好的网络模型。

优选地,步骤s45具体为:计算网络输出与标签信息之间的误差的公式如下:

其中,为预测的标签坐标,由组成,j为原始标签,由(j1,j2,...,jn)组成,n为标签的数量,

假设网络中神经元的网络参数为ω,则根据下式更新网络参数:

本发明还公开了一种三维手势姿态估计方法,采用上述的神经网络训练方法训练得到的网络模型对单张深度图片中的三维手势姿态进行估计。

与现有技术相比,本发明的有益效果在于:本发明的神经网络训练方法,采用深度相机采集的手势深度图可以准确地识别出手掌和每个手指的姿态和位置信息,然后再通过随机森林学习器对手势深度图进行分割,有利于发掘图片中手势的特征信息,通过该图片的集合来训练残级神经网络,由于神经网络的卷积池化层可以学习到图片中不同尺度的区域中的特征,使得将训练得到的网络模型应用于三维手势姿态估计,能够减弱遮挡影响,且基于图像的方法不会受穿戴设备的约束;并且通过使用残差卷积神经网络,也避免了反向传播更新参数过程中梯度弥散的问题,使得网络训练效果更好;本发明的三维手势姿态估计方法将深度学习方法和深度相机的使用结合应用到手势识别中,对手势的识别可减少光照变化及物体遮挡等因素的影响。

在进一步的方案中,通过对手势子图进行横、纵、深度三轴投影,可以获得一幅图片中三维视角的图片,更有利于发掘手势的特征信息;进一步地,通过对手势子图进行下采样,获得不同大小的多尺度图片,更有利于发掘图片的像素特征和不同大小的区域特征,从而使得训练得到的网络模型能够更加精确地识别出手势中手掌手指的具体位置与姿态;且能够精确地识别受遮挡手势的细节信息。

附图说明

图1是本发明优选实施例的三维手势姿态估计方法的流程示意图;

图2是本发明优选实施例的手指和手掌的标记点示意图;

图3是本发明优选实施例的神经网络训练方法的步骤示意图。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。

如图1所示,本发明优选实施例的三维手势姿态估计方法包括以下步骤:

s1:采集手势深度图的数据集;具体包括以下步骤:

s11:使用多台深度相机,采集不同人的手势深度图片,每人每种手势采集包含许多不同角度和各种不同姿态手势的多张图片,将采集到的图片整理成一个图片库;

s12:对图片库中的每张图片进行标注;人手骨架包含多个关节点,每个关节点都有一定的自由度,为了能够准确定位手势关节点位置和姿态的细节信息,本实施例中为手指、手掌的特定位置标注坐标信息(x,y,d),其中x、y为前景图像(手势深度图上)的横纵坐标,d为像素深度,是手势深度在图片上的体现;如图2所示,在手指和手掌的特定位置上设定多个关键点作为特定的标记点,对每张图片上的手进行标注,作为图片库的标签,并把图片名称及其对应的标签以文件的形式保存;其中图2中所标记的这些关键点包含了五个手指的所有关节点以及手掌的重要位置点,能够通过准确地预测每个关节点的位置准确地估计出当前手的姿态。

s2:采用步骤s1获取的数据集来训练随机森林学习器;

s3:对数据集中的手势深度图进行预处理;如图3所示,具体包括以下步骤:

s31:采用随机森林学习器对步骤s1中的数据集中的手势深度图进行分割,分割出手势子图;

s32:将手势子图在x、y、z三轴方向上分别进行投影,得到三张单通道的投影图;

s33:分别对三张投影图进行降采样,得到多种不同尺寸的降采样图;

s34:将步骤s1中数据集中的所有手势深度图以及步骤s32得到的投影图和步骤s33得到的降采样图,乱序后进行比例为90%和10%的划分,分别为训练集和测试集。

s4:将将步骤s34得到的训练集和测试集用于训练卷积神经网络,训练得到网络模型;具体包括以下步骤:

s41:从训练集中随机选取m张图片和其对应的标签信息,从测试集中随机选取n张图片和其对应的标签信息;

s42:图片在网络中经过卷积层;假设图片的原始尺寸为l*l,选取k个尺寸相同、像素值不同的方阵作为卷积核,则卷积核的尺寸可以表示为k*c*c。其中k为卷积核的数量,c为卷积核每一维参数的个数;每张图片分别与k个卷积核进行卷积操作,分别得到k个尺寸完全相同,但像素点不完全相同的图片。新尺寸lc*lc大小如下公式所示:

lc*lc=(l-c+1)*(l-c+1)

s43:图片在网络经过池化层;假设图片进入池化层前的尺寸为l*l,池化即用一个尺寸为p*p的区域每次以f步长在图片上滑动;每次滑动,在该区域中选出一个像素代表该区域的所有像素,则每张图片经过池化层后尺寸变为lp*lp,如下式所示:

lp*lp=((lp-(f-p))/f)*((lp-(f-p))/f)

s44:图片在网络中经过卷积池化等处理后,输出层对预测图片进行复原;假设网络训练后共有h个卷积核输出,经过网络到达输出层入口时,假设每张图片的尺寸为le*le(le<li),li为进入网络时图片的原始尺寸,则进入输出层的尺寸为h*le*le,通过输出层将尺寸lo*lo复原为li*li。

s45:计算网络输出与标准标签之间的差别,学习网络,更新网络参数;计算误差的欧式距离如下式所示:

其中,为预测的标签坐标,由组成。j为原始标签,由(j1,j2,...,jn)组成,n为标签的数量,

假设网络中神经元的网络参数为ω,则根据下式更新网络参数:

s46:反复迭代上述步骤s42~s45,不断更新参数,直至参数收敛;将训练好的参数保存,最终得到训练好的卷积神经网络模型。

s5:采用步骤s4训练得到的卷积神经网络模型对单张深度图片的三维手势姿态进行估计。

本发明优选实施例还公开了一种神经网络训练方法,包括上述步骤s1至步骤s4。

本发明优选实施例的三维手势姿态估计方法,利用深度相机采集大量图片;使用随机森林分类器分割手势前景;人工标注手势关节点信息;使用数据集训练卷积神经网络;保存训练好的卷积网络,可直接用于单张深度图的三维手势姿态估计;本方法将深度学习方法和深度相机的使用应用到手势识别中,对手势的识别可减少光照变化及物体遮挡等因素的影响。

其中通过深度相机采集手势姿态图像,以像素值大小表示物体到相机距离远近的单通道灰度图的形式展现手势的深度信息,依据采集手势姿态深度图,以关节点的形式复原手势姿态骨架;由于卷积神经网络的卷积池化层可以学习到图片中不同尺度的区域中的特征,因此可以减弱遮挡影响,且基于图像的方法不受穿戴设备的约束。

本发明优选实施例的三维手势姿态估计方法,克服了传统手势姿态估计的瓶颈,通过使用深度相机拍摄的人手深度图的检测方法,并使用基于深度学习的一种新的卷积神经网络方法,从而实现精确地识别出手势中手掌手指的具体位置与姿态。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1