基于级联卷积神经网络的第一视角空中手写和空中交互方法

文档序号:9929815阅读:529来源:国知局
基于级联卷积神经网络的第一视角空中手写和空中交互方法
【技术领域】
[0001] 本发明设及计算机视觉W及机器学习领域,特别设及一种基于级联卷积神经网络 的第一视角空中手写和空中交互方法。
【背景技术】
[0002] 近年来,随着虚拟现实技术(Virtual Reality,VR)和增强现实技术(Augmenting Reality ,AR)的兴起,第一视角巧gocentric Vision)手势交互技术受到学术界和工业界的 广泛关注,尤其是Google Glass、Mic;rosoft Hololens等智能可穿戴式设备W及Oculus等 虚拟现实设备的出现使得传统的人机交互方式难W适用,急需一种算法来帮助设备理解人 的交互需要,如手势操作等。手势交互技术主要设及两个方面,手势识别和关键点定位,本 发明为结合手势识别和关键点定位形成的一个综合应用,即指尖检测获得采样点W及手势 识别获得书写信号。假象如下使用场景:用户在不方便使用触摸屏的情境下,可W直接在空 中进行第一视角手写,完成发送信息操作;用户在需要对现实画面进行某些图像操作如拍 照,在不便于使用拍照设备情况下可直接利用指尖空中画圈或其他手势实现即时拍摄。
[0003] 过去一些年里,关于手势交互的算法大多数考虑利用肤色先验信息或者运动时序 信息,但是都只能使用在受限的实验室环境,无法适应室内室外场景变化,光照变化等因 素。另外,传统的人工特征提取无法充分刻画不同使用者的肤色变化和手部姿态多样性。最 近兴起的深度学习技术正好可W解决运个特征提取问题。利用善于处理视觉信息的是深度 卷积神经网络(CNN)能训练出一个能够提取图像浅层特征并逐层将浅层特征通过非线性变 换抽象成高级特征的神经网络。C順方法在各种视觉分类任务,如多类别物体识别等,获得 极佳表现,同时在某些回归问题,如人脸关键点检测、行人检测等任务中亦表现出非常好的 效果。

【发明内容】

[0004] 本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于级联卷积神经 网络的第一视角空中手写和空中交互方法,解决动态视频流里面指尖检测问题和手势识别 的问题,并利用手势识别作为信号,指尖检测跟踪作为采样点集,实现一套第一视角的空中 手写和空中交互方案。
[0005] 为了达到上述目的,本发明采用W下技术方案:
[0006] 本发明基于级联卷积神经网络的第一视角空中手写和空中交互方法,包括下述步 骤:
[0007] S1、获取训练数据,人工标记包含手部区域的前景区域的左上角点和右下角点,人 工标记指尖所在坐标,人工标记不同手势的类别;
[000引S2、设计一个深度卷积神经网络用于手部检测,该神经网络输入为第一视角下的 单帖图像,输出为手部前景矩形的左上角坐标和右下角坐标,投入训练数据并优化欧氏范 数损失函数,迭代直至参数稳定;
[0009] S3、设计一个深度卷积神经网络用于手势识别和指尖检测,该神经网络输入为仅 包含手部区域的前景矩形,输出为指尖坐标和手势类别,投入训练数据并优化一个分段损 失函数,迭代直至参数稳定;
[0010] S4、将一级网络和二级网络级联,通过一级网络输出的前景外接矩形切割出感兴 趣区域从而获得包含手部的前景区域,然后将前景区域作为第二级卷积网络的输入进行指 尖检测和手势识别;
[0011] S5、判断手势类别,若为单指手势,则输出其指尖坐标并进行时序平滑和点间插 值;
[0012] S6、利用连续多帖的指尖采样坐标进行文字识别。
[0013] 作为优选的技术方案,步骤Sl具体为:
[0014] SI. 1、通过摄像头处于人眼位置模拟第一视角,采集大规模数据,覆盖不同的场 景,包括多种不同的手势,其中一种必须是单指手势而且指尖可见;
[0015] SI. 2、人工标记包含手部区域的外接矩形左上角坐标和右下角坐标,人工标记手 势类别,若手势为单指手势,人工标记指尖的位置;
[0016] Sl .3、按照键值对的方式,配对储存图像和对应的标签真实值。
[0017] 作为优选的技术方案,在所述步骤SI. 1中,所采集的数据为第一视角的数据,画面 包含手势。
[0018] 作为优选的技术方案,在所述步骤SI. 2中,所采集的数据是通过人工标价手部前 景左上角坐标和右下角坐标,人工标记指尖坐标和人工标记手势类别来进行监督学习。
[0019] 作为优选的技术方案,步骤S2具体为:
[0020] S2.1、合理设计一个深度卷积神经网络,包括卷积层、池化层和全卷积层,使得网 络输入为立通道RGB图像,输出为两个二维坐标(xti,yti)和(xbr,ybr),分别代表手部前景的 左上角右下角;
[0021] S2.2、其应用损失函数为:
[0022]
[0023] 其中Pi代表预测的坐标值,ti代表训练样本中已经标注的坐标真实值,N代表输出 坐标的个数,此处N为4,代表左上角和右下角坐标,对应的反向传播的残差为
[0024] ei = pi-ti(l < i < 4)
[0025] S2.3、投入训练数据并应用梯度下降法优化目标函数。
[0026] 作为优选的技术方案,步骤S3具体为:
[0027] S3.1、合理设计一个深度卷积神经网络,包括卷积层,池化层,全卷积层,使得网络 输入为立通道RGB图像,输出为指尖的二维坐标(Xft,yft)和手势分类^gesture);
[00%] S3.2、确定其损失函数,该损失函数表示为:
[0029]
[0030] E = O Cgesture 辛 CgroimcHruth
[0031] 其中Pi代表预测的坐标值,ti代表训练样本中已经标注的坐标真实值,N代表输出 坐标的个数,此处N为2,Cgroundtruth代表手势类别真实值,Cgesture代表网络输出的手势,对应 的反向传播的残差为:
[0032] £i = pi-ti
[0033] S3.3、投入训练数据并应用梯度下降法优化目标函数。
[0034] 作为优选的技术方案,步骤S4中,利用两层卷积神经网络级联的方法,先进行手部 检测,获取较小的前景区域,再进行指尖检测和手势识别。
[0035] 作为优选的技术方案,步骤S5具体为:
[0036] S5.1、判断手势类别,若为单指,记录采样点坐标序列;
[0037] S5.2、进行一个滑动窗均值滤波;
[003引 Pi = pi-i+pi+pi+i。
[0039] 作为优选的技术方案,步骤S5中,对每一帖图像先进行手势识别,若为单指手势, 则输出指尖坐柄。
[0040] 作为优选的技术方案,步骤S6中,利用平滑的采样点进行文字识别。
[0041] 本发明与现有技术相比,具有如下优点和有益效果:
[0042] 1、本发明采用了大规模数据采集人工标定的技术方案,从而能够利用深度卷积神 经网络进行监督学习。
[0043] 2、本发明采用了人工标定手部外接矩形坐标和指尖坐标的技术方案,从而能够利 用深度卷积神经网络进行回归问题的优化训练求解。
[0044] 3、本发明采用了两层级联卷积神经网络的技术方案,从而能够分两层分别着重处 理不同的检测。
[0045] 4、本发明采用了第一级卷积神经网络实现手部检测的技术方案,为后续的指尖检 测滤除了70% W上的无用背景信息。
[0046] 5、本发明采用了第二级卷积神经网络同时进行指尖检测和手势识别的技术方案, 能够稳定的预测指尖的坐标同时预测手势类型
[0047] 6、本发明采用了第二级卷积神经网络同时进行指尖检测和手势识别的技术方案, 能够减少整体时间性能消耗。
[0048] 7、本发明采用了预测指尖坐标后进行采样点平滑滤波,从而优化空中手写的视觉 效果W及优化文字识别的准确率
【附图说明】
[0049] 图1(a)-图1(b)是本发明的体验者佩戴智能眼镜的第一视角示意图;
[0050] 图2是本发明第一视角采集的样本示意;
[0051 ]图3是本发明第一视角空中手写和交互算法流程图;
[0052] 图4是本发明求解手部检测外接矩形的卷积神经网络示意图;
[0053] 图5是本发明求解指尖检测和手势分类所使用的卷积神经网络示意图;
[0054] 图6(a)-图6(d)是本发明优化后的卷积神经网络可视化示意图;
[0055] 图7是本发明算法程序原型的连续多帖输出示意图。
【具体实施方式】
[0056] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。
[0057] 实施例
[0058] 本发明基于级联卷积深度卷积神经网络的第一视角空中手写和空中交互方法,如 图3所示,包括如下步骤:
[0059] S1、获取训练数据,人工标记包含手部区域的外接矩形(前景区域)的左上角点和 右下角点,人工标记指尖所在坐标,人工标记不同手势的类别;
[0060] SI. 1通过摄像头处于人眼位置模拟第一视角(如图1(a)-图1(b)所示),采集大规 模数据,覆盖不同的场景,包括多种不同的手势(如图2所示),其中一种必须是单指手势而 且指尖可见;
[0061] SI. 2人工标记包含手部区域的外接矩形
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1