一种基于深度信息和多维度卷积神经网络的人体动作识别方法与流程

文档序号:11520245阅读:476来源:国知局
一种基于深度信息和多维度卷积神经网络的人体动作识别方法与流程

本发明涉及深度学习、人体动作识别领域,具体涉及一种基于深度信息和多维度卷积神经网络的人体动作识别方法。



背景技术:

随着计算机技术的发展,人们希望计算机可以像人脑那样思考和理解一些信号,像是理解我们的日常活动,这样计算机就可以和人类进行更为自然的交互。

近年来,人体动作识别作为计算机视觉、人工智能和模式识别领域中研究的一个热点,已经引起了研究人员越来越多的关注,尤其是在视频监控、医疗保健、智能安防、智能机器人开发、人机交互、虚拟现实、用户界面设计和多媒体视频检索等领域。

目前,绝大数人体动作识别是基于浅层机器学习的方法。机器学习虽然发展了几十年,但还是存在很多没有良好解决的问题。如,在特征提取方面,一般靠人工采集特征,然而,手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,能不能选取好特征很大程度上靠经验和运气,而且它的调节需要大量的时间,但是没有普遍最好的手工特征。而深度学习能让机器自动学习良好的特征,展现了强大的学习能力和优越性,同时深度学习可以从数据中自动提取高维特征,并从一个数据库推广到另一个数据库。

目前人体动作识别的研究主要集中在传统彩色图像视频上,由于彩色图像视频缺乏人体的三维空间信息,对行为特征的描述不够全面,很难处理遮挡、光照及行为外观变化的特征描述问题,因此其应用效果及范围具有一定局限性。

近年来,随着图像获取技术的进步,获取深度图像越来越容易,而深度图像和传统的彩色图像相比有明显的优势。例如,深度图像反映纯几何形状,往往比颜色和纹理更易区分。此外,深度图像对光照变化等不敏感。许多基于深度数据的文章利用深度图描述特定特征。然而,所有这些都是基于手工制作的特征,缺少对局部或全球时空信息的高维特征描述,它们的性能从数据集到数据集而变化,不能普遍推广。因此在动作识别领域,引入深度信息,用深度学习的方法研究基于深度信息的人体特征表示与提取是人体动作识别的关键,已经引起人们的极大关注。

在深度学习中,二维卷积神经网络的输入一般是一幅图,即一个特征,如果有多个特征,则需要多个卷积神经网络分别进行特征提取和识别,这种方法比较费时且计算量大。而三维卷积神经网络,其卷积核是三维的,相比二维卷积神经网络,计算复杂,计算量更大。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于深度信息和多维度卷积神经网络的人体动作识别方法,即输入是三维的,而识别过程是二维的,这种方法大大降低了计算复杂度,减少了计算时间,克服现有技术对外界环境的干扰和特征提取与识别方法的不足,不受光照环境变化的影响,同时展现了强大的学习能力和优越性,还可以从一个数据库到另一个数据库普遍推广,而不需改变任何参数,有较强的适应性。

为达到上述目的,本发明提供如下技术方案:

一种基于深度信息和多维度卷积神经网络的人体动作识别方法,包括以下步骤:

步骤1:利用体感设备kinect获取人体运动的深度图像,得到人体深度运动信息;

步骤2:采用深度运动图对人体深度运动信息进行特征提取,获得深度序列的正面投影图、侧面投影图和俯视投影图;

步骤3:将三个投影图输入多维度卷积神经网络进行识别。

进一步,在步骤1中:输入kinect获得的深度图像,对深度运动信息进行归一化预处理,得到预处理后的图像,即人体深度运动信息。

进一步,在步骤2中,将深度运动图预处理后的深度视频序列投影到正交笛卡尔坐标中,每个三维深度序列图都可以根据视角的不同生成三个二维位图,即其中v∈{front,side,top},n是给定视频片段的帧数,map是深度视频序列,i是深度视频序列的第i帧,得到人体动作在三投影面系下的形状和人体运动的累积信息,即正面投影图、侧面投影图和俯视投影图。

进一步,在步骤3中,将正面投影图、侧面投影图和俯视投影图同时用多维度卷积神经网络进行识别,卷积过程采用二维卷积核,卷积之后输出为yj=r(bj+∑ikij*xi),其中,r为激活函数修正线性单元(relu),r=max(0,y),xi为输入特征图,yj输出特征图,kij为xi与yj之间的权值,bj为偏置参数。

本发明的有益效果在于:

(1)本方法根据浅层机器学习技术的缺陷,提出用深度学习的方法进行人体动作识别。避免了机器学习在有限样本和计算单元的情况下对复杂函数的表示能力有限的局限性,同时也解决了针对复杂分类问题的泛化能力具有制约的问题。本方法的深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中自动学习数据集本质特征的能力。

(2)本方法采用深度信息取代传统的彩色信息,解决了彩色图像视频缺乏人体三维空间信息,对行为特征描述不全面,难以处理遮挡、光照及行为外观变化的特征描述的问题,消除了其应用效果及范围的局限性。本方法中的深度图像反映纯几何形状,比颜色和纹理更易区分,相对彩色图像,能提供更多的人体表观和结构信息;其次,深度图像对光照变化不敏感,不受光照环境变化的影响;另外,深度图像可直接恢复物体的三维信息进行物体的3d重构,相较于单纯的二维视频数据,保留了以前缺失的“z轴”信息的三维数据,在动作识别上拥有明显的优势。

(3)本方法针对二维卷积神经网络和三维卷积神经网络的缺陷,提出了一种新的识别方法,即多维度卷积神经网络识别方法。此识别方法采用三维输入,二维过程识别,结合了二维卷积神经网络和三维卷积神经网络的优势,在加快计算速度的同时,降低了识别过程的复杂度。在多维度卷积神经网络中,卷积神经网络每卷积一层,实际上信息会丢失一些,为了增加信息量,减少信息丢失,采用较浅的网络层获取信息。为了加快训练速度,用修正线性单元(relu)取代传统的饱和非线性函数,如sigmoid,tanh,softsign等,比传统的饱和非线性函数有更快的收敛速度。为了减少训练过程中的过拟合,在卷积层和全连接层加入随机删除(dropout),提高网络泛化能力。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

图1是本发明的总体框架图。

图2是前踢动作的dmm示意图(a)、正面投影图(b)、侧面投影图(c)和俯视投影图(d)。

图3是本发明的多维度卷积神经网络的结构框架图。

具体实施方式

下面将结合附图,对本发明的优选实施例进行详细的描述。

图1是本发明所提出的基于深度信息和多维度卷积神经网络的人体动作识别方法的总体框架,其主要任务是通过kinect获得人体运动序列的深度信息,利用深度运动图(dmm)提取特征,获得深度序列的正面投影图、侧面投影图和俯视投影图,在此基础上,构建了多维度卷积神经网络,实现人体动作识别。具体实施方式如下所述:

步骤1:利用kinect设备来获取现实场景和使用者的深度运动信息。

步骤2:将深度运动信息进行归一化预处理,得到预处理后的图像用深度运动图进行特征提取,即人体动作的特征提取,得到正面投影图、侧面投影图和俯视投影图,如图2所示。深度运动图的原理如下:

深度运动图被用来总结视频片段中每两个连续深度图之间的区别。每个三维深度图都可以根据视角的不同生成三个二维位图,我们分别定义为正面图、侧面图和俯视图,其中,完整的dmm被定义为:其中,v∈{front,side,top},n是给定视频片段的帧数,map是深度视频序列,i是深度视频序列的第i帧,得到人体动作在三投影面系下的形状和人体运动的累积信息,即正面投影图(b)、侧面投影图(c)和俯视投影图(d)。

步骤3:将三个投影图,作为动作的三个特征,一起输入多维度卷积神经网络进行识别,如图3所示。在多维度卷积神经网络中,激活函数采用修正线性单元(relu),其公式为:r=max(0,y)。卷积之后输出为:yj=r(bj+∑ikij*xi),其中,xi为输入特征图,yj输出特征图,kij为xi与yj之间的权值,bj为偏置参数。输入是三维的,可以同时处理三个特征,处理过程是二维的,降低了处理过程的复杂度,减少了计算量,加快了识别过程。

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1