基于级联卷积神经网络的第一视角空中手写和空中交互方法_2

文档序号：9929815阅读：来源：国知局

左上角坐标和右下角坐标，人工标记手势类别，若手势为单指手势，人工标记指尖的位置；
[0062] SI.3按照键值对的方式，配对储存图像和对应的标签真实值；
[0063] 所述步骤SI. 1中，所采集的数据为第一视角的数据，画面包含手势。
[0064] 在所述步骤SI.2中，所采集的数据是通过人工标价手部前景左上角坐标和右下角坐标，人工标记指尖坐标和人工标记手势类别来进行监督学习。
[0065] S2、设计一个深度卷积神经网络用于手部检测，该网络输入为第一视角下的单帖图像，输出为手部前景矩形的左上角坐标和右下角坐标，投入训练数据并优化欧氏范数损失函数，迭代直至参数稳定，如图4所示；
[0066] S2.1合理设计一个深度卷积神经网络，包括卷积层，池化层，全卷积层，使得网络输入为S通道RGB图像，输出为两个二维坐标(Xti，yti)和(Xbr，ybr);
[0067] S2.2应用损失函数为
[006引
[0069] 其中Pi代表预测的坐标值，ti代表训练样本中已经标注的坐标真实值，N代表输出坐标的个数，此处N为4,代表左上角和右下角坐标，对应的反向传播的残差为
[0070] ei = pi-ti(l < i < 4)
[0071] S2.3、投入训练数据并应用梯度下降法优化目标函数。
[0072] S3、设计一个深度卷积神经网络用于手势识别和指尖检测，该网络输入为仅包含手部区域的前景矩形，输出为指尖坐标和手势类别，投入训练数据并优化一个分段损失函数(结合欧氏范数与交叉赌），迭代直至参数稳定，如图5所示；
[0073] S3.1合理设计一个深度卷积神经网络，包括卷积层，池化层，全卷积层，使得网络输入为S通道RGB图像（仅包含手部区域），输出为指尖的二维坐标和手势分类 (Cgesture)；
[0074] S3.2损失函数为
[0075]
[0076] E = O Cges化re 辛（^rOun化ruth
[0077] 其中Pi代表预测的坐标值，ti代表训练样本中已经标注的坐标真实值，N代表输出坐标的个数，此处N为2，代表指尖坐标。Cgroundtruth代表手势类别真实值，Cgesture代表网络输出的手势，对应的反向传播的残差为
[007引 Ei二pi-ti
[0079] S3.3、投入训练数据并应用梯度下降法优化目标函数，优化后卷积神经网络可视化图如图6(a)-图6(d)所示。
[0080] S4、将一级网络和二级网络级联，通过一级网络输出的前景外接矩形切割出感兴趣区域(Region Of Interest,R0I)从而获得包含手部的前景区域，然后将前景区域作为第二级卷积网络的输入进行指尖检测和手势识别；
[0081] 步骤S4中，利用两层卷积神经网络级联的方法，先进行手部检测，获取较小的前景区域，再进行指尖检测和手势识别。
[0082] S5判断手势类别，若为单指手势，则输出其指尖坐标并进行时序平滑和点间插值；
[0083] S5.1判断手势类别，若为单指，记录采样点坐标序列
[0084] S5.2进行一个滑动窗均值滤波(此处取步长为3的例子）
[00 化]Pi = pi_i+pi+pi";
[0086] 步骤S5中，对每一帖图像先进行手势识别，若为单指手势，则输出指尖坐标。
[0087] S6利用连续多帖的指尖采样坐标进行文字识别，算法程序原型的连续多帖输出如图7所示；
[0088] 步骤S6中，利用平滑的采样点进行文字识别。
[0089] 上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。
【主权项】
1. 基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，包括下述步骤： 51、获取训练数据，人工标记包含手部区域的前景区域的左上角点和右下角点，人工标记指尖所在坐标，人工标记不同手势的类别； 52、设计一个深度卷积神经网络用于手部检测，该神经网络输入为第一视角下的单帧图像，输出为手部前景矩形的左上角坐标和右下角坐标，投入训练数据并优化欧氏范数损失函数，迭代直至参数稳定； 53、设计一个深度卷积神经网络用于手势识别和指尖检测，该神经网络输入为仅包含手部区域的前景矩形，输出为指尖坐标和手势类别，投入训练数据并优化一个分段损失函数，迭代直至参数稳定； 54、将一级网络和二级网络级联，通过一级网络输出的前景外接矩形切割出感兴趣区域从而获得包含手部的前景区域，然后将前景区域作为第二级卷积网络的输入进行指尖检测和手势识别； 55、判断手势类别，若为单指手势，则输出其指尖坐标并进行时序平滑和点间插值； 56、利用连续多帧的指尖采样坐标进行文字识别。2. 根据权利要求1所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，步骤S1具体为： 51.1、通过摄像头处于人眼位置模拟第一视角，采集大规模数据，覆盖不同的场景，包括多种不同的手势，其中一种必须是单指手势而且指尖可见； 51.2、人工标记包含手部区域的外接矩形左上角坐标和右下角坐标，人工标记手势类另IJ，若手势为单指手势，人工标记指尖的位置； 51.3、按照键值对的方式，配对储存图像和对应的标签真实值。3. 根据权利要求2所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，在所述步骤S1.1中，所采集的数据为第一视角的数据，画面包含手势。4. 根据权利要求2所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，在所述步骤S1.2中，所采集的数据是通过人工标价手部前景左上角坐标和右下角坐标，人工标记指尖坐标和人工标记手势类别来进行监督学习。5. 根据权利要求1所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，步骤S2具体为： 52.1、合理设计一个深度卷积神经网络，包括卷积层、池化层和全卷积层，使得网络输入为三通道RGB图像，输出为两个二维坐标(xti，yti)和(xbr，ybr)，分别代表手部前景的左上角右下角； 52.2、其应用损失函数为：其中Pl代表预测的坐标值，U代表训练样本中已经标注的坐标真实值，N代表输出坐标的个数，此处N为4,代表左上角和右下角坐标，对应的反向传播的残差为￡i = pi-ti (1 < i < 4) S2.3、投入训练数据并应用梯度下降法优化目标函数。6. 根据权利要求1所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，步骤S3具体为： 53.1、合理设计一个深度卷积神经网络，包括卷积层，池化层，全卷积层，使得网络输入为三通道RGB图像，输出为指尖的二维坐标(Xf t，yf t)和手势分类(Cgesture ); 53.2、确定其损失函数，该损失函数表示为：E - 0 Cgesture 矣 Cgroundtruth 其中Pl代表预测的坐标值，U代表训练样本中已经标注的坐标真实值，N代表输出坐标的个数，此处N为2，Cgr_dtruth代表手势类别真实值，(^st_代表网络输出的手势，对应的反向传播的残差为：￡i = pi-ti 53.3、投入训练数据并应用梯度下降法优化目标函数。7. 根据权利要求1所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，步骤S4中，利用两层卷积神经网络级联的方法，先进行手部检测，获取较小的前景区域，再进行指尖检测和手势识别。8. 根据权利要求1所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，步骤S5具体为： 55.1、判断手势类别，若为单指，记录采样点坐标序列； 55.2、进行一个滑动窗均值滤波； pi 一 pi-l+pi+pi+Ι。9. 根据权利要求8所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，步骤S5中，对每一帧图像先进行手势识别，若为单指手势，则输出指尖坐标。10. 根据权利要求1所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法，其特征在于，步骤S6中，利用平滑的采样点进行文字识别。
【专利摘要】本发明公开了一种基于级联卷积神经网络的第一视角空中手写和空中交互方法，包括下述步骤：S1、获取训练数据；S2、设计一个深度卷积神经网络用于手部检测；S3、设计一个深度卷积神经网络用于手势分类和指尖检测；S4、将一级网络和二级网络级联，通过一级网络输出的前景外接矩形切割出感兴趣区域从而获得包含手部的前景区域，然后将前景区域作为第二级卷积网络的输入进行指尖检测和手势识别；S5、判断手势类别，若为单指手势，则输出其指尖坐标并进行时序平滑和点间插值；S6、利用连续多帧的指尖采样坐标进行文字识别。本发明提供了一种完整的空中手写和空中交互算法，实现准确鲁棒的指尖检测和手势分类从而实现第一视角空中手写和空中交互。
【IPC分类】G06N3/08, G06K9/00
【公开号】CN105718878
【申请号】CN201610033798
【发明人】金连文, 黄毅超, 刘孝睿, 张鑫
【申请人】华南理工大学
【公开日】2016年6月29日
【申请日】2016年1月19日

完整全部详细技术资料下载

当前第2页1 2