一种基于对数路径积分特征和卷积神经网络的手势识别方法与流程

文档序号:14991305发布日期:2018-07-20 22:16阅读:461来源:国知局

本发明涉及计算机视觉和机器学习技术领域,具体涉及一种基于对数路径积分特征和卷积神经网络的手势识别方法。



背景技术:

目前,计算机已经得到广泛的应用,人机交互也已经成为人们生活的一个部分。从人机交互的发展上来看,人机交互的方式包括现有的鼠标,键盘以及更加先进的触摸屏,但是上面提到的方法都无法脱离“接触式”的交互方式。因此,更加贴近人类表达本能的手势交互方式得到更多的重视。手势交互利用计算机视觉,计算机图形学等技术识别人体的手势动作,并将手势的含义转化为设备的操作指令。在对话的过程中,手势除了能够传递语义信息,还可以传递说话人的性格、文化背景、感情色彩、说话的动机以及对听众的态度。许多心理学的研究表明,肢体运动不仅仅能于传递语义信息、方法自己的感情色彩和弥补言语无法表达的场景,还能够让说话人做出更加复杂而生动的表达。因而,识别和理解肢体语言是理解和模拟人体行为的必要条件。基于计算机视觉的手势识别任务作为计算机视觉领域中一个重要的任务,从19世纪70年代开始就受到学术界广泛的关注。

识别主要可以分为基于传统机器学习的方法和基于深度学习的方法。基于传统方法进行手势识别,主要是提取特征描述子训练分类器进行手势识别。所以,特征是否有用将直接影响分类器的训练效果。近几年,深度卷积神经网络出现,基于深度学习的手势识别主要可以分为:单纯使用卷积神经网络和卷积神经网络结合循环神经网络两种,其中使用的比较多的是卷积神经网络结合循环神经网络的方法。



技术实现要素:

本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于对数路径积分特征和卷积神经网络的手势识别方法,以弥补现有特征适用场景单一的局限性,进一步提高手势识别的精度。

本发明的目的可以通过采取如下技术方案达到:

一种基于对数路径积分特征和卷积神经网络的手势识别方法,包括步骤:

s1、对视频数据进行标注,训练一个基于faster-rcnn的手部检测器;

s2、利用训练好的手部检测器对训练集和测试集的视频样本逐帧进行检测,获得每一帧的手部位置;

s3、基于每一帧的手部位置,结合时间信息和深度信息,构建出二维、三维和四维三种形式的手部轨迹;

s4、对所获得的手部轨迹进行数据增强,包括随机弃帧以及常规操作,其中,常规操作包括旋转、变形和平移;

s5、对增强后的轨迹样本提取相应的对数路径积分特征,计算出每一个轨迹点对应的对数路径积分特征;

s6、将对数路径积分特征按照空间位置信息进行排列,从而构建出对应的特征立方体;

s7、将训练集的特征立方体作为卷积神经网络的输入,训练卷积神经网络,并将测试集作为训练好的卷积神经网络的输入,输出最终的识别结果。

进一步地,所述的步骤s1包括:

s11、将待识别的数据库的训练集视频分解成帧;

s12、利用标注工具,标注出每一帧手的位置的外接矩形,并将外接矩形的左上角和右下角坐标记录于xml文件中;

s13、用标注好的图片训练faster-rcnn网络,所述的faster-rcnn网络是一个端到端的物体检测神经网络,利用卷积神经网络提取图片特征,同时产生一定数目的建议框,并使用非极大值抑制方法得到最终的检测结果,将faster-rcnn网络作为手部检测器,排除无关背景的干扰。

进一步地,所述的步骤s2包括:

s21、将数据库的训练集和测试集视频逐帧分解;

s22、将分解出的视频帧作为手部检测器的输入,得到每一帧的手部位置坐标,存储在相应的txt文件中。

进一步地,所述的步骤s3包括:

s31、直接将手部检测器输出的二维轨迹点坐标拼接起来,作为样本的二维形式轨迹(x,y),二维轨迹点只包含图像平面的空间位置信息;

s32、加入时间维度,构建出三维轨迹点(x,y,t);

s33、加上深度维度,构建出四维轨迹点(x,y,d,t)。

进一步地,所述的步骤s4包括:

s41、对步骤s3输出的手部轨迹进行随机弃帧操作,对一个具有n帧的样本,n是随机丢弃的帧的数量,则最终得到的新样本的数量为:

随机弃帧在增加样本的同时能够模拟不同速度下的手势,增加样本的多样性;

s42、对步骤s41得到的轨迹进行正负θ角度的旋转,模拟不同个体的手势习惯;

s43、对步骤s42得到的轨迹进行变形,进一步增加样本数量;

s44、对步骤s43得到的轨迹进行平移,模拟不同位置下的相同手势。

进一步地,所述的步骤s5包括:

s51、对步骤s4得到的轨迹进行上采样或者下采样,以统一样本的轨迹的轨迹点数;

s52、根据对数路径积分的定义公式,求每一个轨迹点对应的路径积分特征,所用的公式如下:

其中,时间区间[t1,t2]上路径p定义为为实数集,d为坐标点的维度,n为大于等于1的整数,表示张量积,是路径p的路径积分。

进一步地,所述的步骤s6包括:

s61、初始化一个n×n×m的数组,用于存放提取出来的对数路径积分特征,n×n代表每一帧图片的高和宽,m代表对数路径积分特征的维度;

s62、将步骤s5提取出来的每一个轨迹点的对数路径积分特征,存放到相应的轨迹点对应的位置上,在存储对数路径积分特征的同时,保留特征的空间相关性。

进一步地,所述的步骤s7包括:

s71、将步骤s6的得到的训练集特征立方体作为卷积神经网络的输入,训练卷积神经网络;

s72、将步骤s6的得到的测试集特征立方体作为训练好的卷积神经网络的输入,最终得到手势类别。

本发明相对于现有技术具有如下的优点及效果:

1、本发明首次将路径积分特征应用于手势识别领域,路径积分特征相对于传统的特征描述子更加鲁棒,具有更高的泛化能力;

2、本发明进一步使用对数路径积分特征,该特征是路径积分特征的精炼,在降低特征维度,加快网络速度的同时不影响网络的识别准确率;

3、本发明提出一种随机弃帧的数据增强方法,随机丢弃一定数量的视频帧,在增大训练样本数量的同时,还能模拟不同运动速度的手势,增加样本的多样性;

4、本发明将时间信息和深度信息与空间坐标进行融合,提出二维、三维和四维的轨迹表征方式,进一步增加轨迹所携带的信息量,使分类准确率进一步提高;

5、本发明提出一种对数路径积分特征的空间组织方式,将对数路径积分特征按照空间位置关系存储为一个空间立方体,而不是单纯的级联成一维向量,进而保留了轨迹点的空间位置关系,使得准确率得到进一步提升;

6、本发明使用预先训练好的手部检测器进行手部检测,以得到手部运动轨迹,从而排除复杂的背景干扰;

7、本发明的手势识别算法在sheffieldkinectgesture(skig)手势数据库上进行测试,在单纯使用彩色视频的时候获得了96.7%的识别准确率,在同时使用彩色视频和深度视频的时候,准确率达到了98.7%。

附图说明

图1是本发明中公开的基于对数路径积分特征和卷积神经网络的手势识别方法流程图;

图2是skig数据库的部分手势样本图片示意图;

图3(a)是彩色图片经过检测器的检测结果示意图;

图3(b)是与彩色图片对应的深度图片的检测结果示意图;

图4(a)是skig数据库上十个样本的对数路径积分特征可视化结果示意图一;

图4(b)是skig数据库上十个样本的对数路径积分特征可视化结果示意图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

本实施例公开了一种基于对数路径积分特征和卷积神经网络的手势识别方法,具体流程图参照附图1所示,包括下列步骤:

s1、对视频数据进行标注,训练一个基于faster-rcnn的手部检测器;

s2、利用步骤s1训练好的手部检测器对训练集和测试集的视频样本逐帧进行检测,获得每一帧的手部位置;

s3、基于每一帧的手部位置,结合时间信息和深度信息,构建出二维、三维和四维三种形式的手部轨迹;

s4、对所获得的手部轨迹进行数据增强,包括随机弃帧以及常规的操作如旋转、变形和平移;

s5、对增强后的轨迹样本提取相应的对数路径积分特征,计算出每一个轨迹点对应的对数路径积分特征;

s6、将对数路径积分特征按照空间位置信息进行排列,从而构建出对应的特征立方体;

s7、将训练集的特征立方体作为卷积神经网络的输入,训练卷积神经网络,并将测试集作为训练好的卷积神经网络的输入,输出最终的识别结果。

其中,步骤s1包括下列步骤:

s11、将待识别的数据库的训练集视频分解成帧,每一帧图片的规格为240*320(skig数据库的手势种类参照附图2);

s12、利用标注工具,标注出每一帧手的位置的外接矩形,并将外接矩形的左上角和右下角坐标记录于xml文件中;

s13、用标注好的图片训练faster-rcnn网络,将此网络作为手部检测器,排除无关背景的干扰。

其中,步骤s2包括下列步骤:

s21、将数据库的训练集和测试集视频逐帧分解;

s22:将分解出的视频帧作为手部检测器的输入,得到每一帧的手部位置坐标,用外接矩形的左上角点坐标作为手部位置,使用图片的高和宽对坐标进行归一化,彩色图片的检测结果参考附图3(a),存储在相应的txt文件中。

其中,步骤s3包括下列步骤:

s31、直接将手部检测器输出的二维轨迹点坐标拼接起来,作为样本的二维形式轨迹(x,y),二维轨迹点只包含图像平面的空间位置信息;

s32、在步骤s31的基础上,加入时间维度,构建出三维轨迹点(x,y,t),加入时间维度之后,轨迹不会形成闭环,增加了对数路径积分特征的表征能力;

s33、在步骤s32的基础上,加上深度维度,构建出四维轨迹点(x,y,d,t),加入深度信息后,增强了对垂直于图像平面的手部运动的表征能力,手部深度信息的取值参考附图3(b)。

其中,步骤s4包括下列步骤:

s41、对步骤s3输出的手部轨迹进行随机弃帧操作,对一个具有n帧的样本,n是随机丢弃的帧的数量,则最终得到的新样本的数量为:

随机弃帧在增加样本的同时能够模拟不同速度下的手势,增加样本的多样性;

s42、对步骤s41得到的轨迹进行正负θ角度的旋转,模拟不同个体的手势习惯;

s43、对步骤s42得到的轨迹进行变形,进一步增加样本数量;

s44、对步骤s43得到的轨迹进行平移,模拟不同位置下的相同手势。

其中,步骤s5包括下列步骤:

s51、对步骤s4得到的轨迹进行上采样或者下采样,以统一样本的轨迹的轨迹点数;

s52、根据对数路径积分的定义公式,求每一个轨迹点对应的路径积分特征,所用的公式如下:

其中,时间区间[t1,t2]上路径p定义为p:为实数集,d为坐标点的维度,n为大于等于1的整数,表示张量积,是路径p的路径积分。

其中,步骤s6包括下列步骤:

s61、初始化一个n×n×m的数组,用于存放提取出来的对数路径积分特征,n×n代表每一帧图片的高和宽,m代表对数路径积分特征的维度;

s62、将步骤s5提取出来的每一个轨迹点的对数路径积分特征,存放到相应的轨迹点对应的位置上,在存储对数路径积分特征的同时,保留特征的空间相关性,skig数据库上的十种手势可视化出来的对数路径积分特征参照附图4(a)和图4(b),其中,图4(a)和图4(b)中k表示不同的阶数。

其中,步骤s7包括下列步骤:

s71、将步骤s6的得到的训练集特征立方体作为卷积神经网络的输入,训练卷积神经网络,所述的卷积神经网络为常见的网络结构,包含:卷积层、池化层、非线性激活函数relu以及全连接层;

s72、将步骤s6的得到的测试集特征立方体作为训练好的卷积神经网络的输入,最终得到手势类别。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1