基于产生式和判别式结合的人体运动跟踪方法与流程

文档序号:12598049阅读:194来源:国知局
基于产生式和判别式结合的人体运动跟踪方法与流程

本发明属于图像处理技术领域,更进一步涉及计算机视觉领域中实现人体运动跟踪的一种方法,采用一种多目标优化的方法实现人体运动跟踪和三维姿态估计,可用于体育训练和动画制作等领域。



背景技术:

人体运动跟踪的主要任务是从视频图像中检测出人体轮廓,再对人体的关节点进行定位,在此基础上识别出人体运动姿态,最终重建三维人体运动姿态。由于目前视频图像是三维场景中的人体轮廓在二维图像上的投影,所以,丢失了大量的深度信息,并且人体运动过程中,人体四肢自遮挡现象时常发生,视频图像存在歧义性,这使得很难从无标记单目视频中恢复人体运动姿态。但是,由于基于单目视频的人体运动跟踪在医学治疗、体育训练、动画制作、智能监控系统等各个方面都有潜在的应用和经济价值,所以受到了很多学者的关注。至今,基于视频的人体运动跟踪的方法主要分为两大类:基于学习的人体运动跟踪和基于模型的人体运动跟踪。

第一种,基于学习的人体运动跟踪方法:该方法首先在训练的视频图像和目标视频图像数据库里提取精确的图像特征,然后学习训练视频图像数据库的图像特征与运动捕捉数据之间的映射,最后在目标视频图像上直接使用人体特征恢复三维姿态。如Urtasun et al.(R.Urtasun and T.Darrell.Local Probabilistic Regression for Activity-Independent Human Pose Inference IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2008)文章,就是使用平衡高斯过程动态模型指导在单目视频序列中跟踪三维人体运动,该动态模型是从较少的包含多种模式的运动训练数据中学习得到。Sigal et al.(L.Sigal and M.Black.Measure Locally,Reason Globally:Occlusion-sensitive articulated pose estimation.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2006.)在该文章中提出一个贝叶斯框架,该框架包含序列重要性采样和退火粒子滤波,并且在跟踪时使用了多种运动模型。为了使三维姿态恢复更加符合解剖学关节约束,同时使搜索空间降维,该框架从训练数据中学习运动模型,使用虚拟标记的欧式距离差作为量测误差。该方法的缺点是提取精确的图像特征需要花费大量的时间,而且视频跟踪受到是否存在学习数据库的限制,若不存在学习数据库,则无法完成视频跟踪。

第二种,基于模型的人体运动跟踪方法:该方法不需要学习数据库,直接在目标视频图像上提取图像信息,建立目标图像与模型的相似度函数,然后对相似度函数进行优化从而在高维的状态空间中搜索最优的状态,从而获得准确的人体姿态。如法国国家信息与自动化研究所(INRIA)的C.Sminchisescu和A.Jepson.在(C.Sminchisescu and A.Jepson.Generative Modeling for Continuous Non-Linearly Embedded Visual Inference.International Conference on Machine Learning(ICML),2004)的文章中采用此种方法实现了使用多种人体模型的运动跟踪。Deutscher et al.在(J.Deutscher and I.Reid.Articulated body motion capture by stochastic search.International Journal of ComputerVision(IJCV),61(2):185-205,2004.)的文章中使用边界和侧影作为图像特征构建加权的相似度函数,应用退火粒子滤波实现了人体运动跟踪。由于该方法只建立一个相似度函数,而用于优化相似度函数的方法在搜索最优结果时很容易陷入局部最优,导致跟踪到的人体姿态不准确,而且算法的时间复杂度高。

湖南大学申请的专利申请号200910043537.5,公开号CN101561928的“基于属性关系图外观模型的多人体跟踪方法”,该专利首先对当前帧人体检测区域建立属性关系图外观模型,计算与上一帧跟踪人体的属性关系图外观模型的相似度,根据相似度确定帧间人体的匹配关系,从而确定人体跟踪情况及获取运动轨迹。该专利申请公开的方法存在的不足是:只能对固定场景的运动者进行人体跟踪,只通过外观模型的相似度不足以准确的跟踪人体姿态。



技术实现要素:

本发明的目的在于针对上述现有技术中的不足,提出一种基于模型的多目标优化的人体运动跟踪方法,实现对不同场景中的运动者进行准确的人体姿态跟踪。

实现本发明目的的技术方案是,采用基于模型的方法,建立人体骨架模型,利用视频图像提取关节点的位置和灰度信息,构建两个距离相似度函数,通过对构建的多目标距离相似度函数进行优化,在人体骨骼长度的约束下,对这两个距离相似度函数采用多目标优化算法实现对人体运动姿态的跟踪。其实现步骤包括如下:

(1)用骨骼抽象的方法建立三维人体骨架模型:即将人体骨架按照15个关节划分为14个部分,每部分由一根杆状骨骼模型表达,在空间用14条具有三维坐标的关节点之间的直线段表示这14根杆状骨骼模型,连接相应的关节点坐标组成整个三维人体骨架模型,当输入一组运动人体对应的15个关节点的三维坐标值时,人体骨架模型将模拟出三维人体的运动姿态;

(2)预处理人体视频图像

2a)输入人体视频图像,通过背景差分获得人体侧影,提取人体轮廓,对人体轮廓进行中轴细化处理,形成人体骨架线;

2b)在人体骨架线上沿骨架线搜索得到头、腹部、膝、脚节点坐标位置,使用粒子滤波预测检测出其余的人体关节点坐标位置;

(3)提取视频图像的第二代条带波变换Bandlet2的图像特征r,作为双高斯过程的输入,使用双高斯TGP算法,预测出第i帧人体的3维坐标关节点v′i,i∈[1,N],获得视频序列的3D关节点输出为V′,

r=(r1,r2,r3,...,rN)T,V′=(v1′,v2′,v3′,...,vN′)T,]]>

其中,ri为第i帧图像的Bandlet2为图像特征,i∈[1,N],(·)T表示矩阵的转秩;

(4)初始化人体骨架模型

4a)对步骤2b)得到的初始时刻视频图像关节点位置进行手工标定,由标定数据设置初始时刻人体姿态对应的人体骨架记为v0,其中v0为2b)中检测到的第一帧视频图像的人体关节点位置;

4b)将t-1时刻跟踪得到的人体骨架作为t时刻的初始化人体骨架,t>0;

(5)构建相似度函数

5a)将人体的3D关节点用V表示,2D关节点用Vq表示,Vq为V在2D平面上的投影,V为待估计量:

V=(v1,v2,v3,...,vN)T,Vq=(v1q,v2q,v3q,...,vNq),]]>

其中,vi为第i帧图像的3D关节点,i∈[1,N],为第i帧的2D关节点,i∈[1,N],N为视频帧数;

5b)将用双高斯TGP方法预测出的第i帧人体3D关节点V′在2D平面上做投影,得到2D投影的关节点坐标V′p

Vp′=(vp1′,vp2′,vp3′,...,vpN′)T,]]>

其中,为第i帧关节点3D关节点在2D上的投影,i∈[1,N];

5c)分别建立3D下的距离相似度函数f1(vi,v′i)和2D下的距离相似度函数

(6)利用非支配邻域免疫算法,在t时刻对两个距离相似度函数f1(vi,v′i)、在骨骼长度约束下进行优化,获得t时刻一组与真实人体运动姿态相似的人体骨架;

(7)在t时刻对每一个由步骤(6)得到的人体骨架获得骨架,计算该骨架关节点与t-1时刻跟踪到的人体骨架关节点的欧式距离,选择出欧式距离最小的人体骨架作为t时刻跟踪到的最精确的人体骨架。

本发明与现有的技术相比具有以下优点:

1、由于本发明使用了粒子滤波预测人体关节点获得更精确的人体关节点图像位置,与现有技术相比获取关节点位置的方法更简单,且时间复杂度更低。

2、本发明由于结合了当前人体跟踪领域流行的产生式和判别式的方法,分别建立了2D和3D的距离相似度函数,可以更好的利用视频图像信息。

3、本发明由于使用了多目标进化算法的非支配邻域免疫算法优化目标函数,较现有的单目标优化人体跟踪方法可以避免陷入局部最优,提高了人体运动跟踪的精确度。

附图说明

图1为本发明的总流程图。

图2为本发明中的人体关节点检测子流程图。

图3为本发明对行走姿态的仿真实验的三维跟踪结果图。

图4为本发明对拳击姿态的仿真实验的三维跟踪结果图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照图1,本发明的具体实现步骤如下:

步骤1,建立人体骨架模型。

根据解剖学知识,人体骨架虽然受年龄和健康的影响而不断发生变化,但是骨架的组成是不变的,人体大致包括:胫骨、股骨、胯骨、躯干、桡骨、肱骨、锁骨、颈、头。在这种情况下本发明把人体表示为由15个关节点和14跟杆状骨骼组成的骨架模型。在虚拟空间用14条具有三维坐标的关节点之间的直线段表示这14根杆状骨骼模型。

将每一个关节点的坐标表示为i∈[1,15],n∈[1,N],N为待跟踪人体运动视频帧数;将第n帧人体骨架表示为相邻两个关节点的骨骼长度表示为p,q∈[1,15],由此得到人体骨架模型的限制条件||Livn||=li,i=1,2,…,其中Li是3×15矩阵,li是第i根骨骼的长度,m是总的骨骼数;

在上述骨骼约束||Livn||=li,i=1,2,…下,由相邻的关节点连接组成整个三维人体骨架模型,当输入一组对应人体运动时15个关节点的三维坐标值时,人体骨架模型将模拟出运动的三维人体姿态。

步骤2,预处理视频图像。

参照图2,本步骤的具体实现如下:

2a)提取人体侧影的骨架线:

2a1)输入人体视频图像,采用最小平方中值LMedS方法获取背景图像;

2a2)将获得的背景图像与人体运动图像做像素差,获得背景差图像;

2a3)对获得的背景差图像采用形态学方法清除背景差图像中的分割噪声,得到清晰的人体侧影;

2a4)对获得的人体侧影采用边缘跟踪算法获得人体侧影外轮廓,提取侧影外轮廓的中轴线细化人体侧影,得到人体侧影的骨架线;

2b)在步骤2a)中获得的人体侧影的骨架线上沿骨架线搜索,得到头、根、膝、脚节点的坐标位置:

2b1)使用同心圆模板沿着骨架线搜索,将落入圆环的人体侧影轮廓点最多时的圆心作为头节点;

2b2)选取人体侧影重心部位为根节点,将所有人体侧影点x坐标值的算术平均值作为根节点的x坐标,将y坐标值的算术平均值作为根节点的y坐标;

2b3)将三维人体骨架模型以根节点为基准在视频图像上投影,得到人体躯干中心点、锁骨关节点和左右臀部关节点;

2b4)根据以上获得的头,根关节点,使用粒子滤波检测出手、肘、肩、膝和脚关节点的坐标位置。

步骤3:提取视频图像的第二代条带波变换Bandlet2的图像特征r:

3a)输入待处理视频图像,提取图像中人体框图,对框图进行二维多尺度小波变换;

3b)对二维多尺度小波变换后的图像用四叉树划分算法和自底向上融合法则寻找并量化最优几何流方向;

3c)将量化后的最优几何流方向信号做一维小波变换,重组为二维形式,得到Bandelet2系数矩阵;

3d)提取最大几何流统计特征作为图像的Bandlet2特征r,r=(r1,...ri,...rN)T,其中,ri为第i帧图像的Bandlet2图像特征,i∈[1,N],N为视频帧数(·)T表示矩阵的转置。

步骤4:用步骤3提取的视频图像的第二代条带波变换Bandlet2图像特征r,作为双高斯方法的输入,预测出第i帧人体的3维坐标关节点v′i

((V′)(d))T(vi′)(d)∝NR(0,KRKRr(KRr)TKR(r,r)),]]>

其中,NR(·)表示高斯过程,(·)T表示矩阵的转置,r为输入的bandlet2特征,V′为待预测人体姿态的3D关节点输出,V′=(v′1,v′2,v′3...,v′N)T,N为视频帧数,((V′)(d))T是待预测人体姿态V′的第d行即第d帧的人体姿态,(v′i)(d)是待预测的第i帧人体的3维关节点v′i中的第d个关节点坐标,KR(r,r)为零,KR是一个N×N的矩阵,KR中的第i行第j列的元素为(KR)ij,是一个N×1的列向量,中第i行元素为

(KRr)i=KR(ri,r),]]>KR(ri,r)=cov(f(ri),f(r)),

(KR)ij=KR(ri,rj),KR(ri,rj)=cov(f(ri),f(rj)),

式中cov(f(ri),f(rj))是f(ri),f(rj)之间的协方差函数,f(ri)是第i帧的bandlet2特征的零均值高斯函数,f(rj)是第j帧的bandlet2特征的零均值高斯函数,f(r)是输入的bandlet2特征的零均值高斯函数。

步骤5:初始化人体骨架模型

5a)对步骤2b)得到的初始时刻视频图像关节点位置进行手工标定,由标定数据设置初始时刻人体姿态对应的人体骨架为v0,其中v0为2b)中检测到的第一帧视频图像的人体关节点位置;

5b)将t-1时刻跟踪得到的人体骨架作为t时刻的初始化人体骨架,t>0。

步骤6:建立相似度函数

6a)根据双高斯预测得到的3D关节点和待预测的人体关节点,建立第n帧视频下的3D距离相似度函数f1(vn,v′n):

f1(vn,vn′)=Σi=115||vni-vni′||2,n∈[1,N],]]>

其中,N为视频帧数,||·||2表示2范数,为待预测关节点,为双高斯预测到的关节点;

6b)根据双高斯预测到的关节点和待预测的人体关节点在2D平面上的投影,建立第n帧视频下的2D距离相似度函数

f2(vnq,vpn′)=Σi=115||vniq-vpni′||2,n∈[1,N],]]>

其中,N为视频帧数,||·||2表示2范数,为待预测关节点的投影,为双高斯预测到的关节点的投影。

步骤7:优化相似度函数

在步骤6中得到的两个相似度函数和步骤1中的人体骨骼长度的约束下,设定求解两个相似度函数f1(vn,v′n)和最小值的方程组:

argminf1(vn,vn′)=Σi=115||vni-vni′||2,argminf2(vnq,vpn′)=Σi=115||vniq-vpni′||2,s.t.||Livn||=li,i=1,2,···]]>

其中,li为第i个人体骨骼长度,m为人体骨骼数,n∈[1,N],N为视频帧数,arg min(·)表示求最小值,||·||2表示2范数。

利用非支配邻域免疫算法,在t时刻在骨骼长度约束下求解方程组的最小值,获得t时刻一组与真实人体运动姿态相似的人体骨架。

步骤8:选择人体最佳运动姿态

在t时刻对每一个由步骤7得到的人体骨架,计算该骨架关节点与t-1时刻跟踪到的人体骨架关节点的欧式距离,选择出欧式距离最小的人体骨架作为t时刻跟踪到的最精确的人体骨架。

实验仿真

本发明的效果可以通过以下仿真实验得到验证:

本发明的仿真实验在Matlab 2010a上编译完成,执行环境为Windows框架下的HP工作站。本发明仿真实验所用的视频图像来自美国布朗大学的HumanEva数据库,视频图像大小为320×240。

仿真内容

仿真1,使用本发明对行走状态进行跟踪,结果如图3所示。图3中的人体是原始视频图像,人体表面的骨架线为跟踪得到的最优运动状态。

从图3可以看出,跟踪结果没有出现歧义的姿态,准确恢复了人体运动姿态,表明本发明对简单的运动姿态可以实现准确的跟踪。

仿真2,使用本发明对拳击状态进行跟踪,结果如图4所示。图4中的人体图像是原始视频图像,人体图像表面的骨架线为跟踪得到的最优运动状态。

从图4中可以看出,跟踪结果没有歧义姿态出现,准确恢复了人体运动姿态,表明本方法对复杂的人体运动状态也可以实现准确跟踪。

仿真结果分析:从图3、图4还可看出,本发明对不同的运动状态视频图像跟踪结果与真实的人体运动姿态基本相同,有效的解决了人体运动跟踪的歧义性问题,提高了跟踪的准确性和稳定性。主要原因在于本方法采用了两个相似度函数,更好的利用视频图像信息,在最小化两个相似度函数时加入了人体骨架长度约束条件,限制了歧义人体姿态出现。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1