基于外表模型的视频人脸跟踪识别方法

文档序号:6561169阅读:296来源:国知局
专利名称:基于外表模型的视频人脸跟踪识别方法
技术领域
本发明涉及一种图像处理技术领域的方法,具体是一种基于外表模型的视频人脸跟踪识别方法。
背景技术
视频人脸的跟踪识别在许多场合下都具有非常重要的应用,如基于视觉的控制、人机界面、出入控制、智能监视系统等。跟踪和识别的不确定性问题,一直是视频人脸跟踪识别系统存在的一个难处理的问题。目前一般存在两种跟踪识别系统(1)先跟踪后识别。在这种类型中,跟踪和识别被看作两个完全独立的模块,它们分别采用不同的模型,系统只是只完成简单意义上的跟踪和识别。在这一类系统中,跟踪的结果直接影响识别的精度,但识别却不能反过来影响跟踪结果。(2)同时进行跟踪与识别。在这种类型中,跟踪和识别被集成在同一个模块中,跟踪结果影响识别精度的同时,识别的结果也同样影响着跟踪的效果。传统的跟踪识别系统属于第一种类型。
经对现有技术文献的检索发现,K.C.Lee等人在《Computer Vision andImage Understanding》pp.303-331,2005上发表“Visual Tracking andRecognition Using Probabilistic Appearance Manifolds”(概率外表流形的视觉跟踪识别,计算机视觉与图像理解)。该文提出了将视频人脸的建模、跟踪和识别集成一个统一的框架。文章通过实验说明该方法具有很好的跟踪识别性能。但是,在建立外表子模型前,文章仅在高维空间中进行均值聚类,而且采用简单特征脸方法建立线性子空间,这样会导致建立的外表流形鲁棒性不强,不能提高识别特别是视频识别中目标在发生表情、姿态以及光照变化下的鲁棒性。

发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于外表模型的视频人脸跟踪识别方法,提高视频中目标在发生表情、姿态以及光照变化情况下的跟踪识别效果。
本发明是通过以下技术方案实现的,本发明首先在训练视频中,通过简单的跟踪器和手动处理得出人脸图像,采用局部线性镶嵌技术(LLE)将每一对象的训练图像投影到低维空间中,在低维空间中采用均值聚类,将人脸图像分成一些基于不同姿态或表情的类;然后,在每一组图像中,采用鲁棒局部保留映射(RLPP),求出线性特征空间来近似非线性的子流形,并学习动态特性;最后,在测试视频中进行人脸的跟踪识别。在这一过程中,为了减少计算的复杂性,跟踪识别后验概率分解成两个独立的概率跟踪后验概率和识别后验概率。跟踪后验概率通过粒子滤波算法来获得,识别后验概率通过贝叶斯模型求取。本发明主要侧重跟踪识别系统中人脸的同时跟踪识别,因此,第一帧图像中人脸的检测采用手动检测。本发明应用到Honda/UCSD数据库中,识别率可达到97.98%,在MoBo数据库中,识别率可达到98.32%。
以下对本发明方法作进一步的说明,具体步骤如下(1)人脸图像的聚类由于局部线性镶嵌技术能够发现高维数据的内部结构,因此,采用局部线性镶嵌技术将人脸图像映射到低维空间中,然后,在低维空间中运用K均值聚类技术,将人脸图像进行聚类,每一类的人脸图像具有相似的表情或姿态。
(2)特征子空间的建立对于聚类后每一类中的人脸图像,采用鲁棒局部保留映射技术计算出线性特征子空间,用所得出的线性特征子空间来近似非线性外表子流形。同时,求出训练视频中人脸的动态特性。对于每一对象的视频图像,重复以上步骤,得到每一对象所有类的线性特征子空间和动态特性。
(3)初始帧人脸的识别检测出第一帧中人脸的位置,求该人脸图像与每一对象所有线性特征空间的距离,距离最小值所对应的对象即为该人脸的识别结果。
(4)人脸跟踪在进行目标状态估计时,本发明采用了粒子滤波算法。粒子滤波算法是一种基于蒙特卡罗方法的新滤波算法。该滤波算法通过一组带权重的粒子来描述目标状态的后验分布,这种描述对目标的运动(观测)模型以及过程(观测)噪声的分布没有特别要求,因此对非线性一非高斯估计问题表现出较强的鲁棒性。在跟踪过程中,似然函数的观测模型通过前一帧识别结果所对应目标的外表模型和动态特性获得,跟踪过程中用到的观测模型仅由前一帧的识别结果决定,这样,可以提高跟踪的鲁棒性,从而提高识别精度。
(5)人脸识别贝叶斯推论模型能够有效地结合先验知识和观测数据提高分类性能。本发明利用贝叶斯推论模型对跟踪得到的人脸图像进行识别,并将这一识别结果用于步骤(4)中的跟踪,直到最后一帧结束。
本发明同传统的视频人脸跟踪识别相比,它将跟踪和识别集合成一个统一的框架,跟踪识别采用相同的外表模型。本发明采用鲁棒局部保留映射方法获取线性特征子空间来近似非线性外表流形,能够提高跟踪和识别的性能。同时,本发明还采用粒子滤波技术来很好地处理非线性、非高斯问题,具有灵活易实现等特点,得出了较好的跟踪精度,从而提高了识别性能。
本发明通过提出一个统一的跟踪识别框架,采用局部线性镶嵌技术和鲁棒局部保留映射技术,结合目标的动态特性,用粒子滤波和贝叶斯推论模型分别完成跟踪和识别,大大提高了跟踪识别性能。可以广泛应用于基于视觉的控制、视频监控系统、视频会议系统、机器人视觉导航系统、军事目标跟踪识别系统等各类民用及军用系统中,具有广阔的市场前景和应用价值。


图1为本发明处理方法总体框图。
图2为本发明采用局部线性镶嵌后的前三维示意图。
图3为本发明的跟踪效果图。
其中图3(a)是目标发生剧烈的姿态、表情变化;图3(b)目标发生剧烈的姿态、表情、光照和尺度变化。
图4为采用不正确的目标外表模型的跟踪效果图。
其中图4(a)是目标发生剧烈的姿态、表情变化;图4(b)目标发生剧烈的姿态、表情、光照和尺度变化。
具体实施例方式
以下结合本发明的内容提供实施例,如图1所示,具体实施步骤如下1.人脸图像的聚类首先通过简单的跟踪器和人工处理,提取出训练视频中的人脸图像。由于局部线性镶嵌技术可以发现出高维数据中的内部结构,本实施例采用局部线性映射将人脸图像映射到低维的特征空间中,再在低维空间中采用均值聚类,将人脸图像进行聚类,每一类中的人类图像具有相似的表情或姿态。假设训练视频中的某个人脸图像集合为X={x1,x2,…,xN},其中,xi对应一幅图像,把它看作一个节点,N为图像的个数。局部线性镶嵌技术首先找出每个节点xi的邻接点,然后计算邻接点的权重Wij,满足式(1)的成本函数最小。
ϵ(W)=Σi|xi-ΣjWijxj|2---(1)]]>再由所求得的权重Wij,通过最小化式(2)求得训练图像所对应的低维数据。
Φ(Y)=Σi|yi-ΣjWijyj|2---(2)]]>假设训练库中共有K个对象,在低维空间中通过K均值聚类将对象k的人脸图像分成m类,可以表示为{Pk1,Pk2,…,Pkm},当对象k的外表流形为Mk时,Ck={Ck1,Ck2,···,Ckm}]]>代表对象k的子流形,Cki∈Mk.]]>图2为对人脸图像采用局部线性镶嵌后前三维示意图。可以看出,局部线性镶嵌技术能够有效地反映出非线性人脸流形的内部结构。
2.特征子空间的建立在完成人脸图像聚类后,采用鲁棒局部保留映射方法求出每类的线性特征子空间,这一线性特征子空间近似表示非线性子流形。鲁棒局部保留映射的实现如下设对象k第r类中的数据表示为{x1,x2,…,xN},建立一个全连接图,每一数据表示一个节点,任意两个节点的相似性可以定义为Sij=exp(-||xi-xj||2/t)i≠j0otherwise---(3)]]>设Pij表示节点xi到xj节点的所有路径,通过式(4)建立任意两个节点的实际相似性Sij′=maxp∈Pij{min1≤h<|p|{ap[h]ap[h+1]Sp[h]p[h+1]}}---(4)]]>
其中,ap[h]为节点xp[h]的权重系数,可以通过M估计获得。|p|表示路径p经过的节点数。通过式(4)计算出的相似性能够在有异常观测情况下真实地反应两个节点的相似程度。任意节点的邻节点可以通过矩阵S′求得,从而相似矩阵可以表示为Sij′′=Sij′ifxiisamong R nearest neighbours ofxjorxjis among R nearest neighbours ofxi0otherwise---(5)]]>鲁棒位置投影方法的目标函数是minΣi,j||yi-yj||2Sij′′---(6)]]>其中,yi是节点xi对应于低维空间的投影结果。通过一些简单的几何知识,可以得出12Σij||yi-yj||2Sij′′]]>=12Σij(wTxi-wTxj)T(wTxi-wTxj)Sij′′]]>=ΣkiwkTxiDiixiTwk-ΣkijwkTdiag(xi,xi,···xi)Sij′′diag(xjT,xjT,···,xjT)wk---(7)]]>=trace(WTX(D-S′)XTW)]]>=trace(WTXLXTW)]]>其中,X={x1,x2,…,xN},D=diag(Dij),Dii=Σj=1NSij′′,]]>L=D-S″,W投影矩阵。为了去处镶嵌中的任意尺度因子,局部保留映射还增加了一个约束YDYT=IWTXDXTW=I (8)Y={y1,y2,…,yN},这样,最小化问题就可以写成agrminWTXDXTW=Itrace(WTXLXTW)---(9)]]>满足最小化目标函数的投影矩阵可以转化为一般的特征值问题XLXTW=λXDXTW (10)对于每一个集合Pki,可以通过鲁棒局部保留映射得到对应的线性特征子空间Lki。每一对象的线性空间集可表示{Lk1,Lk2,…,Lkm}为。
3.初始帧人脸的识别本实施例主要是目标的跟踪识别,采用手动检测方法得到第一帧人脸的位置,求该人脸图像与每一对象所有线性特征空间的距离,距离最小值所对应的对象即为该人脸的识别结果。
4.跟踪识别对于视频中的每一帧图像,跟踪和识别的目的是找出图像中人脸的位置并确定其身份。本实施例用一个矩形来表示人脸区域,内部的像素点位置可用两维向量[X Y]T表示,θt代表t时刻的状态参数。假设共有K个对象需要跟踪和识别,k∈K代表某个对象,{Z1,Z2,…,Zl}代表一个包含l帧的视频序列。从概率方面来说,跟踪识别的目的就是计算出后验概率p(θt,kt|Z1∶t)。本实施例中为了减少计算的复杂性,提高系统的实时性,分别计算概率p(θt|Z1∶t)和p(kt|Z1∶t)。p(θt|Z1∶t)通过粒子滤波来求取,采用贝叶斯推论模型来计算p(kt|Z1∶t)。以下分别介绍这两个后验概率的计算步骤。
4.1跟踪后验概率的计算在进行目标状态估计时,本实施例采用了粒子滤波算法。粒子滤波算法是一种基于蒙特卡罗方法的新滤波算法。该滤波算法通过一组带权重的粒子来描述目标状态的后验分布,这种描述对目标的运动(观测)模型以及过程(观测)噪声的分布没有特别要求,因此对非线性—非高斯估计问题表现出较强的鲁棒性。
本实施例采用相似模型,运动状态可表示维θ=(S,β,Tx,Ty),其中,{S,β}代表形变参数,{Tx,Ty}代表两维的平移参数。设人脸的初始区域为[X0Y0]T,在跟踪过程中,人脸的候选区域可表示为XiYi=S×cosβsinβ-sinβcosβ×X0Y0+TxTy---(11)]]>运动模型用式(12)表示θt=Gt(θt-1,Ut) (12)Ut代表状态噪声。
观测模型可以表示为Zt=Ht(θt,Vt)(13)Vt代表观测噪声。
在贝叶斯滤波框架下,跟踪问题可认为是后验概率密度的一个传递过程。有关目标状态的所有信息均可以从后验密度分布P(θt|Z1∶t)中推导出。贝叶斯滤波主要由两步组成预测和更新。
步骤1预测在预测步,第t时刻的先验分布P(θt|Z1∶t-1)可以从t-1时刻的后验分布P(θt-1|Z1∶t-1)获得。根据下式推导出P(θt|Z1∶t-1)=∫P(θt|θt-1)P(θt-1|Z1∶t-1)dθt-1(14)式中P(θt|θt-1)描述了目标状态变化过程,它一般由式(12)目标的运动模型决定。
步骤2更新在更新步,t时刻的观测值Zt按照贝叶斯规则对先验分布P(θt|Z1∶t-1)进行更新P(θt|Z1:t)=P(Zt|θt)P(θt|Z1:t-1)∫P(Zt|θt)P(θt|Z1:t-1)dθt---(15)]]>式中P(Zt|θt)为目标的观测似然,它一般由式(13)的观测模型决定式(14)和式(15)之间的递推关系为跟踪问题提供了一组最优的解。当函数Gt和Ht为线性,以及Ut和Vt为高斯噪声时,这组解具有解析的形式;然而在多数情况下,这种条件不能满足,因此解析形式的解很难得到,需采用蒙特卡罗方法来近似求解。
粒子滤波是一种基于蒙特卡罗方法的新滤波算法,它能有效解决非线性、非高斯情况下的状态估计问题。粒子滤波算法通过一组带权重的粒子来逼近目标状态的后验分布,当粒子的数目趋于无穷大时,则这些粒子在理论上可以逼近状态的真实后验分布。粒子滤波算法一般包括重要性采样、重采样以及状态估计三个步骤。在重要性采样步,首先,t-1时刻的粒子{θt-1(J)}j=1J通过运动模型P(θt(j)|θt-1(j))传递到下一时刻;然后,在给定的观测值Zt,每个被传递的粒子 被赋予权值ωt(j)∝P(Zt|θt(j)),]]>最后,归一化这些权值ωt(j)=ωt(j)/Σj=1Jωt(j).]]>在重采样步,粒子{θ~t(j)ωt(j)}j=1J]]>将被重新采样,每个粒子被选择的次数与它的权值大小成正比,权值越大的粒子被选择的可能性越大。在估计出目标的后验分布后,目标的状态可以由两种方式得到,第一种为最小均方根误差估计方法(MMSE);另一种方法为最大后验估计(MAP)。本实施例中采用了第一种状态估计方法。
本实施例将目标的似然函数P(Zt|θt)定义为P(Zt|θt)=P(Zt|θt,kt-1*),]]>其中kt-1*代表前一帧的识别结果。每一幅图像用一个隐含参数αk∈{Lk1,Lk2,···,Lkm}]]>表示,这样,观测模型的似然函数可以通过式(16)获取。
P(Zt|θt,kt-1*)=1Λ1Σαtkt-1*P(Zt|θt,αtkt-1*)P(αtkt-1*|αt-1kt-1*)---(16)]]>其中,P(Zt|θt,αtkt-1*)=exp(-(d(f(Zt,θt),αtkt-1*))22σ12)---(17)]]>其中,Λ1为归一化系数,σ1为设定参数,f(Zt,θt)是人脸图像,d(f(Zt,θt),αtk)为人脸图像与对应子空间的距离,即为该图像与其在对应子空间中的重构图像的距离。P(αtk|αt-1k)为训练阶段学习得到的转移概率,它可以表示成P(αtk|αt-1k)=1Λ2Σt=1lδ(It∈αtk)δ(It-1∈αt-1k)---(18)]]>其中,Λ2为归一化系数。
4.2识别后验概率的计算本实施例采用贝叶斯推论模型来进行人脸识别。设训练库中共有K个对象,k∈{1,2,…,K}。给定一个具有l帧的视频序列{Z1,Z2,…,Zl},假定这些序列对应某一个对象,用{F1,F2,…,Fl}表示跟踪得到的人脸图像,Ft=f(Zt,θt*),]]>θt*是跟踪得到的结果。贝叶斯推论就是求得最大后验概率的解,可以用式(19)表示k*=argmax{1,2,···,K}P(k|F1:l)---(19)]]>根据贝叶斯理论,P(k|F1:l)=P(F1:l|k)P(k)P(F1:l)---(20)]]>假设P(k)具有相同的分布,忽略分母P(F1∶l),最大化后验概率就转化为最大化似然估计k*=argmax{1,2,···,K}P(F1:l|k)---(21)]]>其中,P(F1:l|k)=Σα1:lkP(F1:l|α1:lk)P(α1:lk)]]>=Σα1:lkΠt=1lP(Ft|αtk)P(αtk|αt-1k)---(22)]]>P(Ft|αtk)=exp(-(d(Ft,αtk))22σ22)---(23)]]>σ2为一设定参数。识别出的对象的模型用于下一帧的跟踪,直至最后一帧结束。
为了说明本实施例的有效性,给出了本实施例和用不正确的目标外表模型跟踪的实验结果比较。图3为本实施例的跟踪结果,图4为采用不正确目标外表模型进行跟踪的结果。可以看出,本实施例具有更好的跟踪结果。
权利要求
1.一种基于外表模型的视频人脸跟踪识别方法,其特征在于首先在训练视频中,通过跟踪器和人工处理得出人脸图像,采用局部线性镶嵌技术将每一对象的训练图像投影到低维空间中,在低维空间中采用均值聚类,将人脸图像分成基于不同姿态或表情的类;然后,在每一组图像中,采用鲁棒局部保留映射,求出线性特征空间来近似非线性的子流形,并学习其动态特性;最后,在测试视频中进行人脸的跟踪识别,跟踪识别后验概率分成两个独立的概率进行跟踪后验概率和识别后验概率,跟踪后验概率通过粒子滤波算法来获得,识别后验概率通过贝叶斯模型来求取。
2.根据权利要求1所述的基于外表模型的视频人脸跟踪识别方法,其特征是,所述的鲁棒局部保留映射,具体实现如下(1)鲁棒相似矩阵的建立设有一组人脸图像为{x1,x2,…,xN},xi为第i幅人脸图像,建立一个全连接图,每一幅图像对应一个节点,任意两个节点的相似性定义为Sij=exp(-||xi-xj||2/t)i≠j0otherwise---1)]]>设Pij表示节点xi到xj节点的所有路径,通过式1)建立任意两个节点的实际相似性Sij′=maxp∈Pij{minl≤h<|p|{ap[h]ap[h+1]Sp[h]p[h+1]}}---2)]]>其中,ap[h]为节点xp[h]的权重系数,通过M估计获得,|p|表示路径p经过的节点数,通过式2)计算出的相似性能够在有异常观测情况下真实地反应两个节点的相似程度;任意节点的邻节点通过矩阵S′求得,则相似矩阵表示为Sij′′=Sij′ifxiis among R nearest neighbours ofxjorxjis among R nearest neighbours ofxi0otherwise---3)]]>(2)投影矩阵的求取根据式3)求得相似矩阵S′′=Sij′′,]]>鲁棒位置投影方法的目标函数是minΣi,j||yi-yj||2Sij′′---4)]]>其中,yi是节点xi对应于低维空间的投影结果,并根据几何知识得出12Σij||yi-yj||2Sij′′]]>=12Σij(WTxi-wTxj)T(WTxi-wTxj)Sij′′]]>=ΣkiWkTxiDiixiTWk-ΣkijWkTdiag(xi,xi,···,xi)Sij′′diag(xjT,xjT,···,xjT)Wk]]>=trace(WTX(D-S′)XTW)]]>=trace(WTXLXTW)---5)]]>其中,X={x1,x2,…,xN},D=diag(Dii),Dii=Σj=1NSij′′,]]>L=D-S″,W投影矩阵,为了去处镶嵌中的任意尺度因子,局部保留映射还增加了一个约束YDYT=IWTXDXTW=I 6)Y={y1,y2,…,yN},这样,最小化问题就写成argminWTXDXTW=1trace(WTXLXTW)]]>满足最小化目标函数的投影矩阵转化为一般的特征值问题XLXTW=λXDXTW 8)W即为投影矩阵。
3.根据权利要求1所述的基于外表模型的视频人脸跟踪识别方法,其特征是,所述的跟踪后验概率通过粒子滤波算法来获得,具体步骤如下(1)重要性采样首先t-1时刻的粒子{θt-1(j)}j=1J,通过运动模型P(θt(j)|θt-1(j)传递到下一时刻;然后在给定的观测值Zt,每个被传递的粒子 被赋予权值ωt(j)=P(Zt|θt(j)),]]>最后归一化这些权值ωt(j)=ωt(j)/Σj=1Jωt(j);]]>(2)重采样粒子{θt-1(j),ωt(j)}j=1J将被重新采样,每个粒子被选择的次数与它的权值大小成正比,权值越大的粒子被选择的可能性越大;(3)状态估计在估计出目标的后验分布后,目标的状态由最小均方根误差估计方法得到θ^=E[θt|Z1:t]≈1JΣj=1Jθt(j)---9).]]>
4.根据权利要求1所述的基于外表模型的视频人脸跟踪识别方法,其特征是,所述的识别后验概率通过贝叶斯模型来求取,具体如下设训练库中共有K个对象,k∈{1,2,…,K),给定一个具有l帧的视频序列{Z1,Z2,…,Zl},假定这些序列对应某一个对象,用{F1,F2,…,Fl)表示跟踪得到的人脸图像,Ft=f(Zt,θt*),]]>θt*是跟踪得到的结果,贝叶斯推论就是求得最大后验概率的解,用式10)表示k*=argmax{1,2,···,K}P(k|F1:l)---10)]]>根据贝叶斯理论,得出P(k|F1:l)=P(F1:l|k)P(k)P(F1:l)]]>假设P(k)具有相同的分布,忽略分母P(F1:l),最大化后验概率就转化为最大化似然估计k*=argmax{1,2,···,K}P(F1:l|k),]]>其中P(F1:l|k)=Σα1:lkP(F1:l|α1:lk)P(α1:lk)]]>=Σα1:lkΠt=1lP(Ft|αtk)P(αtk|αt-1k)]]>P(Ft|αtk)=exp(-(d(Ft,αtk))22σ2)]]>σ为一设定参数,P(αtk|αt-1k)为训练阶段学习得到的转移概率,它表示成P(αtk|αt-1k)=1ΛΣt=1lδ(It∈αtk)δ(It-1∈αt-1k)]]>Λ为归一化系数。
全文摘要
一种基于外表模型的视频人脸跟踪识别方法,属于视频处理技术领域。本发明首先在训练视频中,通过简单的跟踪器和手动处理得出人脸图像,采用局部线性镶嵌技术将每一对象的训练图像投影到低维空间中,在低维空间中采用均值聚类,将人脸图像分成一些基于不同姿态或表情的类;然后,在每一组图像中,采用鲁棒局部保留映射,求出线性特征空间来近似非线性的子流形,并学习动态特性;最后,在测试视频中进行人脸的跟踪识别。跟踪识别采用相同的外表模型,大大提高了视频人脸的跟踪和识别性能,广泛应用于基于视觉的控制、视频监控系统、视频会议系统、机器人视觉导航系统、军事目标跟踪识别系统等各类民用及军用系统中。
文档编号G06K9/00GK1932846SQ20061011704
公开日2007年3月21日 申请日期2006年10月12日 优先权日2006年10月12日
发明者敬忠良, 江艳霞, 周宏仁, 赵海涛 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1