一种基于李群特征和卷积神经网络的人体动作识别方法与流程

文档序号:17374122发布日期:2019-04-12 23:06阅读:369来源:国知局
一种基于李群特征和卷积神经网络的人体动作识别方法与流程

本发明属于计算机模式识别领域,涉及一种基于李群特征和卷积神经网络的人体动作识别方法。



背景技术:

随着科技的快速发展,更自然的人机交互成为了人们越来越迫切的需要,人们更加渴望计算机能够像人脑一样思考和理解外界输入的信号,理解人类日常的行为活动,以便于更加轻松自然的与计算机进行交流。

人体动作识别是指以数字图像或视频信号流等为对象,通过图像处理与自动识别等方法,获得人体动作信息的一种实用技术。由于人体动作的多变性、相机运动、光线强度变化、不同人体型的差距、人体不同环境条件下的差异性等问题的存在,使得人体动作识别的研究成为一个多学科交叉且极具挑战性的技术问题。

近年来,由于人体动作识别在计算机视觉、人机交互、视频监控,医疗保健、虚拟现实等领域的广泛应用,其已然成为当下一个热门的研究领域,备受计算机视觉、人工智能等领域研究者的青睐。目前,多数人体动作识别的方法主要是采用手工提取特征。这种方法主要分为特征检测和特征描述两个阶段,其中常见的特征检测方法如有3d角点检测、cuboid算法和hessian3d矩阵;而常见特征描述子如cuboid算法、方向梯度直方图(hog)、光流直方图(hof)、增强型密集轨迹算法(idt)等。但由于手工提取特征的方法比较费时费力,而且提取特征的好坏极大的依赖于研究人员的经验,所以这种基于手工提取特征的方法慢慢就失去了研究者的宠爱。鉴于此原因,很多研究者提出运用人体运动的彩色图像视频进行人体动作识别,该方法取得了一定的成效,但由于彩色图像视频缺乏人体运动的三维空间信息,对于人体运动的描述不能做到全面,而且在人为遮挡、光照变化等因素的影响下,不可避免的导致动作识别不准确甚至无法识别的结果,体现出了极大的局限性。

近年来,随着一些深度传感器的出现,如微软公司出品的kinect、华硕公司生产的xtionpro等,极大的改变了对于人体运动信息提取的方法。使用深度传感器能便捷高效的获取人体运动信息,相比于彩色图像,深度图像和骨骼信息在描述人体运动上有着明显的优势,一方面,深度传感器设备不仅操作简单,并且极大的简化了普通摄像机的标定过程;另一方面,得到的深度图像直接包含了人体的深度信息,能够有效的克服光照变化等的影响、而且深度图像对于几何形状的描述比彩色图像的纹理及颜色描述更具区分性。所以,基于骨骼信息的人体动作识别引起了广大研究者的研究兴趣,涌现了很多阶段性的成果。近年来,许多学者提出在流行空间中提取人体运动特征,通过人体不同肢体的相对三维几何关系,能够对运动动作的特征进行更加充分的描述,相对于仅仅是相互连接肢体间的关节点位置变化、肢体间角度变化等更具优势。

在动作分类上,近年提出的一些深度学习的方法在图像识别及人体活动识别领域等的成功应用,引起了广泛的关注。如卷积神经网络、深度置信网络等在对高维数据处理,特征学习等方面均体现出了优势,对于减少计算量,降低识别过程的复杂度,增强识别精度都有较好的效果。

因此,为了克服传统手工提取特征的不足,充分利用人体运动的骨骼信息的三维空间信息及深度学习的优势,本发明提出一种基于李群特征和卷积神经网络的人体动作识别方法。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于李群特征和卷积神经网络的人体动作识别方法,该方法极大的克服了传统技术对外界环境变化及人体体型变化等的干扰,能够较好的克服一些基于传统欧式空间的动作识别方法无法模拟、表述人体动作的空间复杂性及几何关系的缺陷;同时本方法能较好的处理动作间的相似性问题及类间高可变性问题;在计算成本及识别效果上,运用卷积神经网络对特征进行处理既能很好对特征进行学习、分类,也能在很大程度上降低计算成本;识别准确度高。

为达到上述目的,本发明提供如下技术方案:

一种基于李群特征和卷积神经网络的人体动作识别方法,具体包括以下步骤:

s1:数据获取,利用微软体感设备kinect提取人体骨骼信息,获取实验者的运动信息;

s2:提取李群特征,采取一种利用刚性肢体变换(如三维空间的旋转、平移等)来模拟人体各肢体间的相对三维几何关系的李群骨骼表示方法,将人体动作建模为李群上一系列曲线,进而结合李群和李代数间的对应关系,利用对数映射将基于李群的曲线映射为基于李代数空间的曲线;

s3:特征分类,融合李群特征和卷积神经网络,利用李群特征训练卷积神经网络,让卷积神经网络对李群特征进行学习、分类,从而实现人体动作识别。

进一步,所述步骤s1中,对于获取的人体骨骼信息,进行归一化处理,保证骨架尺寸等的一致性。

进一步,所述步骤s2具体包括:

用s=(v,e)表示人体骨架,其中v={v1,…,vn}为关节点的集合,e={e1,…,em}表示刚性肢体的集合,其中n为关节点数量,m为刚性肢体数量;定义en1∈r3和en2∈r3分别表示肢体en的起点和终点;给定一对关节肢体em和en,人体的静态动作可用em和en间的相对几何关系进行描述,这种描述方法概述为:在局部坐标系中将其中一肢体进行旋转、平移到与另一肢体相同方向相同位置上;其中完整的刚性肢体变换过程为:一个肢体先绕轴以一定角度θ进行旋转,旋转到与另一肢体同方向后停止旋转,然后再平移的距离使之与另一肢体重合。

进一步,所述步骤s2中,所述完整的刚性肢体变换过程具体为:

对于刚性肢体em和en,将en通过旋转、平移,使其与em重合,得到em同en间的一个三维变换关系为:

其中,表示以肢体em为起点,以肢体en为终点的旋转轴向量;θm,n表示肢体em绕轴旋转到与肢体en同方向的角度;为旋转后的肢体em平移到肢体en的距离向量;

同理,将em通过旋转、平移,使其与en重合,得到em同en间的另一个三维变换关系为:

其中,表示以肢体em为起点,以肢体en为终点的旋转轴向量;θm,n表示肢体em绕轴旋转到与肢体en同方向的角度;为旋转后的肢体em平移到肢体en的距离向量;

集合所有肢体对间的相对3d几何关系,在某时刻t,一个人体骨架表示为以下形式:

s(t)=(t1,2(t),t2,1(t),...,tm-1,m(t),tm,m-1(t))(3)

其中,m为刚性肢体数量,m(m-1)为所有刚性肢体变换的总次数,tm,m-1(t)表示肢体em-1与肢体em间的三维变换关系;采用以上的骨骼表示方式,描述人体动作的骨骼序列表示为如下形式的曲线:

{s(t),t∈[0,t′]}(4)

其中,t′为总时间;

记ri,j(t)为3d旋转矩阵,表示为所以(3)可变形为:

将表示在李群空间的曲线映射到李代数空间可得:

其中,vec(g)表示向量空间。

进一步,所述步骤s3中具体包括:

s31:将步骤s2中获得的曲线用动态时间规整(dynamictimewarping,dtw)方法进行规整处理,以解决率变问题,在将曲线从李群空间映射到李代数空间之前,针对每类动作,都需先计算一条标准曲线,然后将所有曲线都靠齐到标准曲线,并使其长度一致。

s32:在经过dtw处理后,采用傅里叶描述子(fouriertemporalpyramid,ftp)对曲线进行描述,将得到的傅里叶描述子用一个三层时间金字塔表示,并将每个部分长度的四分之一作为其低频系数,得到整个动作的特征描述子,该步骤的好处在于可以克服噪声、时间偏差等不利因素,增强鲁棒性;

s33:在完成李群特征提取后,将动作特征融合到卷积神经网络中进行训练、学习、分类;卷积过程中采用的是二维卷积核,卷积之后输出为:

其中,r为激活函数relu,xi为输入特征图,yi为输出特征图,wi,j为第i层到第j层间的权值,bj为置参数。

本发明的有益效果在于:

(1)本发明利用人体骨骼信息对人体运动进行描述,克服了传统进行手工提取特征的缺点,对于噪声、率变等问题具有较强的鲁棒性。通过kinect等设备提取的人体骨骼信息,极大的克服了由于外界关照变化、遮挡、服饰变化以及人体体型差异等导致的错误识别的缺点。当人体做出不同的动作时,相应关节和骨骼间的具有不同的位置及角度关系等,这些特征对于人体动作的描述更加准确有效。

(2)本发明采用李群特征描述人体动作,利用身体各部位间的相对三维几何关系模拟人体动作。目前,多数基于人体骨骼信息的动作识别方法都是提取比较显式的特征如,关节点的三维坐标、关节角度相对变化值以及经过后期处理过的特征如关节点的速度,角速度,朝向信息,骨骼夹角等。这些基于代数运算的信息在一定程度上虽然能够描述人体行为,但相比于基于三维几何空间的描述,会略显不够全面。本发明利用肢体间在三维空间中的相对几何关系,对于动作特征提取更加详尽。同时,在流行空间中进行特征提取,可以不限于仅仅计算相连接的肢体间几何关系,在非连接的肢体间也可以计算相关的几何关系,能够极好的克服一些基于传统欧式空间的动作识别方法无法模拟、表述人体动作的空间复杂性及几何关系的缺陷,并能较好的克服由于动作间的相似性问题及类间高可变性问题等因素引起的不利于动作识别的问题。

(3)本发明融合李群特征和卷积神经网络进行动作识别,鉴于卷积神经网络的结构特征,一方面,同一特征映射面上的神经元权值相同(权值共享),使得网络可以并行学习,相比于其他神经网络,减少了训练参数,网络结构变得更加简单,适应性更强;另一方面,由于卷积神经网络对于高维复杂数据强有力的处理能力以及可以进行多维输入的特性,相比于一些其他分类算法如hmm、随机森林等,不仅计算速度快,降低了计算成本,在识别效果方面也具有很大优势。

(4)在多个不同数据库进行实验(如florence3d、utkinect-action、msraction-3d等),均取得较好识别效果,体现出了较强的泛化能力,适用于人体动作识别领域。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

图1为本发明所述方法的总体框架图;

图2为本发明采用的李群骨骼表示方法(肢体间三维几何旋转、平移)示意图;

图3为李群与李代数间的关系图;

图4为本发明采用的卷积神经网络的总体框架图及使用的参数。

具体实施方式

下面将结合附图,对本发明的优选实施例进行详细的描述。

图1为本发明所述的基于李群特征和卷积神经网络的人体动作识别方法的总体框架,如图1所示,本发明所述识别方法主要工作是通过微软生产的体感设备kinect获取人体运动序列的骨骼信息,运用一种利用刚性肢体变换(如三维空间的旋转、平移等)来模拟人体各肢体间的相对三维几何关系的李群骨骼表示方法,将人体动作建模为李群上一系列曲线,进而结合李群和李代数间的对应关系,如图3,利用对数映射将基于李群空间的曲线映射为基于李代数空间的曲线。最后,融合李群特征和卷积神经网络,利用李群特征训练卷积神经网络,让卷积神经网络对李群特征进行学习、分类,从而实现人体动作识别。具体的实施方案如下所述:

一种基于李群特征和卷积神经网络的人体动作识别方法,具体包括以下步骤:

s1:数据获取,利用微软体感设备kinect提取人体骨骼信息,获取实验者的运动信息;对于获取的人体骨骼信息,进行归一化处理,保证骨架尺寸等的一致性。

s2:提取李群特征,采取一种利用刚性肢体变换(如三维空间的旋转、平移等)来模拟人体各肢体间的相对三维几何关系的李群骨骼表示方法,将人体动作建模为李群上一系列曲线,进而结合李群和李代数间的对应关系,利用对数映射将基于李群空间的曲线映射为基于李代数空间的曲线。如图2所示,具体的人体动作三维几何表示方法原理如下:

用s=(v,e)表示人体骨架,其中v={v1,…,vn}为关节点的集合,e={e1,…,em}表示刚性肢体的集合,其中n为关节点数量,m为刚性肢体数量;定义en1∈r3和en2∈r3分别表示肢体en的起点和终点;给定一对关节肢体em和en,人体的静态动作可用em和en间的相对几何关系进行描述,这种描述方法概述为:在局部坐标系中将其中一肢体进行旋转、平移到与另一肢体相同方向相同位置上;其中完整的刚性肢体变换过程为:一个肢体先绕轴以一定角度θ进行旋转,旋转到与另一肢体同方向后停止旋转,然后再平移的距离使之与另一肢体重合。具体见图2。

对于刚性肢体em和en,将en通过旋转、平移,使其与em重合,得到em同en间的一个三维变换关系为:

其中,表示以肢体em为起点,以肢体en为终点的旋转轴向量;θm,n表示肢体em绕轴旋转到与肢体en同方向的角度;为旋转后的肢体em平移到肢体en的距离向量;

同理,将em通过旋转、平移,使其与en重合,得到em同en间的另一个三维变换关系为:

其中,表示以肢体em为起点,以肢体en为终点的旋转轴向量;θm,n表示肢体em绕轴旋转到与肢体en同方向的角度;为旋转后的肢体em平移到肢体en的距离向量;

集合所有肢体对间的相对3d几何关系,在时刻t,一个人体骨架表示为以下形式:

s(t)=(t1,2(t),t2,1(t),...,tm-1,m(t),tm,m-1(t))(3)

其中,m为刚性肢体数量,m(m-1)为所有刚性肢体变换的总次数,tm,m-1(t)表示肢体em-1与肢体em间的三维变换关系;采用以上的骨骼表示方式,描述人体动作的骨骼序列表示为如下形式的曲线:

{s(t),t∈[0,t′]}(4)

其中,t′为总时间;

记ri,j(t)为3d旋转矩阵,表示为所以(3)可变形为:

将表示在李群空间的曲线映射到李代数空间可得:

其中,vec(g)表示向量空间。

s3:特征分类,融合李群特征和卷积神经网络,利用李群特征训练卷积神经网络,让卷积神经网络对李群特征进行学习、分类,从而实现人体动作识别。

对于步骤s2中获得的曲线,用动态时间规整(dtw)方法进行规整处理,以解决率变问题。针对每类动作,都需先计算一条标准曲线,然后将所有曲线都靠齐到标准曲线,并使其长度一致。在经过dtw处理后,我们进而采取傅里叶描述子对曲线进行描述,将得到的傅里叶描述子用一个三层时间金字塔表示,并将每个部分长度的四分之一作为其低频系数,得到整个动作的特征描述子,该步骤的好处在于可以克服噪声、时间偏差等不利因素,增强鲁棒性。在动作识别方面,如图4,在完成李群特征提取后,将动作特征融合到卷积神经网络中进行训练、学习、分类。卷积过程中采用的是二维卷积核,卷积之后输出为:

其中,r为激活函数relu,xi为输入特征图,yi为输出特征图,wi,j为第i层到第j层间的权值,bj为置参数;整个卷积神经网络的结构分为了6层,其中第一层、第三层为卷积层c1、c3;第二层、第四层为最大池化层s2、s4;第五层、第六层为全连接层fc5、fc6。每一层具体的参数见图4。

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1