基于视频的面部识别方法

文档序号:6551554
专利名称:基于视频的面部识别方法
技术领域
本发明涉及图像识别领域,更具体地涉及基于视频图像进行面部识别的技术。
背景技术
自动面部识别是模式识别研究中具有挑战性的任务。近些年,已经提出大量的技术,例如1.局部特征分析方法,包括1)主动表象模型(AAM)方法参见T.F.Cootes,C.J.Edwards,和C.J.Taylor所著的“Active Appearance Models”(主动表象模型(AAM),参考文献1),刊登于IEEE Trans.On PAMI(IEEE关于PAMI的会刊),第23卷,第6期,第681-685页,2001年6月;和2)弹性图匹配(EGM)方法参见L.Wiskott,J.M.Fellous,N.Krueger,C.von der Malsbug所著的“Face Recognition by Elastic Bunch GraphMatching”(通过弹性串图形匹配进行面部识别,参考文献2),发表于IEEETrans.on Pattern Analysis and Machine Intelligence(IEEE图案分析和机器智能会刊),第19卷,第7期,第775-779页,1997。
2.基于表象的子空间方法,包括1)特征脸(eigenface)方法参见M.Turk和A.Pentland所著的“Facerecognition using eigenfaces”(使用特征面部法进行面部识别,参考文献3),IEEE International Conference Computer Vision and Pattern Recognition(IEEE国际计算机视觉和图案识别会议,参考文献3),第586-591页,1991年。
2)LDA方法参见V.Belhumeur,J.Hespanda,和D.Kiregeman所著的,“Eigenfaces vs.fisherfacesRecognition Using Class Specific Linear Projection”(特征面部与费舍人脸的比较使用类别所特定的线性投影进行识别,参考文献4),发表于IEEE Trans.on PAMI(IEEE关于PAMI的会刊),第19卷,第7期,第711-720页,1997年7月。以及W.Zhao,R.Chellappa,和N.Nandhakumar所著的“Empirical performance analysis of linear discriminantclassifiers”(线性判别分类器的经验性能分析,参考文献5),Proceedings ofCVPR(CVPR会议录),第164-169页,1998年。
3)贝叶斯(Bayesian)方法参见B.Moghaddam,T.Jebara,和A.Pentland所著的“Bayesian face recognition”(贝叶斯法的面部识别,参考文献6),PatternRecognition(图案识别),第33卷,第1771-1782页,2000年。
但是,上述这些方法都属于使用静止图像作为输入数据的基于图像的面部识别方法。基于图像的面部识别的第一个问题是,有人可能使用预先记录的面部照片去迷惑照相机,使照相机误将它作为活动的物体来拍照。第二个问题是与其它高准确性的生物测定技术相比,基于图像的识别的准确性在一些实际的应用中仍然太低。为了解决这些问题,近来已经提出了基于视频的面部识别。基于视频的面部识别的一个主要的优点是防止了通过预先存储的面部图像来欺骗识别系统。这是因为在实时的视频照相机前伪造视频序列尽管有可能,但是难度非常大。这样,可确保在认证时的生物数据是来自真实的对象。基于视频的识别方法的另一关键优点是在视频序列中的可用信息比单个的图像要多。如果能够正确提取额外的信息,就可以进一步提高识别准确性。
但是,与大量的基于图像的面部识别技术相比,关于视频到视频的面部识别的研究仍存在局限。大部分关于视频中的面部识别的研究主要集中在视频中进行面部检测和跟踪。
一旦将面部定位在视频帧中,现有方法通常使用传统的基于图像的面部识别技术进行单帧的识别。关于直接使用视频数据的识别,可参见S.Satoh所著的“Comparative Evaluation of Face Sequence Matching for Content-BasedVideo Access”(用于基于内容的视频访问的面部序列匹配的比较评价,参考文献8),发表于Proceedings of IEEE International Conference on AutomaticFace and Gesture(IEEE自动面部和姿势识别国际研讨会会议录),第163-168页,2000年。Satoh通过选择两个视频中最接近的帧对来匹配这两个视频序列,其仍然是图像到图像的匹配。
另外,关于使用视频序列来训练用于匹配的统计模型面部的方法,可参考如下文献V.Kruger和S.Zhou所著的“Exemplar-based Face Recognition fromVideo”(基于标本对视频中的面部识别,参考文献9),发表于Proceedings ofIEEE International Conference on Automatic Face and Gesture(IEEE自动面部和姿势识别国际研讨会会议录),第182-187页,2002年。
G.Edwards,C.Taylor,和T.Cootes所著的“Improving IdentificationPerformance by Integrating Evidence from Sequences”(通过集成来自序列的证据来改进识别性能,参考文献10),发表于IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition(IEEE计算机协会关于计算机视觉和图案识别的研讨会),第486-491页,1999年。
虽然这种训练模型比从单个图像训练的模型更稳定和健壮,但是如果给定相同的特征维数,那么包含在该模型中的整体信息仍然与单个图像相似。与图像到图像的匹配相似,其训练数据规模也增加了。
在上述Satoh的文献中以及O.Yamaguchi,K.Fukui,和K.Maeda所著的“Face Recognition Using Temporal Image Sequence”(使用时间图像序列进行的面部识别,参考文献11,发表于Proceedings of IEEE InternationalConference on Automatic Face and Gesture(IEEE自动面部和姿势识别国际研讨会会议录),第318-323页,1998年)中描述了一种相互子空间(mutualsubspace)方法,为每个人使用视频帧来计算许多个体的本征空间。因为它不能从不同人之间的差别来获取判别信息,所以识别准确性比其它方法要低。
另外,虽然在视频序列中可用的信息比单个图像中要多,并且由此可以有助于提高识别准确性,但是其必须解决数据规模大、处理速度慢,以及处理复杂度高的问题。

发明内容
因此,鉴于上面讨论的关于面部识别的现有技术中存在的问题,本发明的目的是提供一种新的视频到视频的面部识别方法,能够充分利用包含在视频序列中的空间-时间信息,实现高的识别精度,同时能够克服采用视频序列进行面部识别带来的数据规模大和处理速度慢的缺陷。
根据本发明的面部识别方法包括1)确定被识别的视频序列和参考图像库的视频序列中对应的多个相似的视频帧;2)对所述被识别的视频序列和参考图像库的视频序列中的对应的相似视频帧进行基准点的对准;3)从所述被识别视频中的经过基准点对准后的多个视频帧构成被识别者的面部数据立方体;和4)对所述面部数据立方体进行子空间分析,提取被识别者的面部特征,与所述参考图像库中的面部特征向量进行比较。
其中,在本发明中,上述步骤1)的确定被识别视频序列中与参考图像库中图像相似的视频帧的处理被称为对视频帧进行时间同步。通过这种时间同步,确定两个视频序列中具有相似图像的帧。根据本发明的一种方案,使用了音频信号的波形在每个视频中确定期望的帧。因此,利用视频中包含的音频信号,简单而有效地避免了复杂的算法。
在时间同步后,对每个图像对准基准点的过程在本发明中称为空间同步。在本发明的一实施方案中,使用Gabor小波特征来进行空间同步。关于Gabor小波特征可参见参考文献2。后面将进一步说明。对于在子空间方法中利用不同的面部图像间的形状相似性来说,基准点的对准是重要的。
为了对经过时间和空间同步的大的视频序列进行快速的匹配识别,本发明提供的方法包括多级子空间分析方法和多分类器集成方法。
其中,多级子空间分析方法是将视频中的被识别者的面部立方体的每一帧的特征向量作为一个特征片(slice),在第一级子空间分析中,从每个特征片中提取判别特征向量。在第二级子空间分析中,先将从每个特征片中提取的判别特征向量依次相连组成新的特征向量。然后,对新的特征向量进行PCA处理,消除多个帧中的冗余信息。选取具有大特征值的特征,以形成用于识别的最终特征向量。
在根据本发明的多分类器集成方法中,在进行上述多级子空间分析方法中的第一级子空间分析后,不进行第二级子空间分析,而是直接采用第一级子空间分析中得到的判别特征向量来对每一帧进行识别,然后使用多种融合规则融合所有的基于帧的分类器的结果,以进行视频序列的最后识别。
根据本发明,可以取得如下有益的效果1)避免了对原始的视频数据直接进行识别处理带来的处理复杂的问题,能够快速和高准确性地进行面部识别。
2)对于采用音频辅助的视频识别方法进行身份鉴别的系统,由于需要被识别者实时地发声,可避免传统的基于静止图像的识别(甚至包括传统的视频识别)安全性不足的问题,因此具有更高的安全性。


图1显示了根据本发明方法的采用音频辅助来进行视频序列帧的时间同步的示意图;图2是人脸图形模板的示意图,示出了在人脸上选择的基准点的例子。
具体实施例方式
以下参考

本发明的优选实施方式。
在根据本发明的基于视频的识别方法中,为了发挥视频能够提供更多信息的优点,视频中的单独的帧应当是互不相同的。因为如果所有的帧都相互类似,那么包含在视频序列中的信息与单个图像的情况基本上是相同的。然而,对于帧内容变化的视频,两个视频序列(模板视频序列和被识别的视频序列)逐帧的简单匹配不会有很大帮助。这是因为,可能会发生将一个视频中的帧与另一视频中的不同表情的帧进行匹配的情况,这反而会进一步损害面部识别的性能。
因此,对于基于视频的识别性能进行改进的关键是,两个视频序列中的图像就其每个单独的帧而言必须具有相同的顺序,例如无表情(neutral)面部能与无表情面部匹配,笑容面部能与笑容面部匹配。由此可见,如果要将视频序列用于面部识别,那么对两个视频序列以相同的顺序排列相似的视频帧(即时间同步)是重要的。换言之,需要按照每个帧中的内容对原始的时间视频序列(模板视频序列和被识别的视频序列)进行重排序。
为了实现这一点,可以使用常规的基于面部的表情算法技术来在不同的视频中匹配相似的表情。但是,这种计算对于视频数据这种数据规模大的情况来说成本太高,而且表情识别的准确性也不是很高。当然,可以使用表情、光照或者方向等信息来用于视频同步。根据本发明的优选实施方式,可以使用视频中包含的音频信号的信息来进行视频序列帧的时间同步。下面将具体说明这一方法。
以XM2VTS数据库(公众可得的最大的面部视频数据库,参见参考文献12,K.Messer,J.Matas,J.Kittler,J.Luettin,和G.Matitre所著的“XM2VTSDBThe Extended M2VTS Database”(XM2VTSDB扩展的M2VTS数据库),Second International Conference on AVBPA(第二届国际AVBPA研讨会),1999年3月)为例,其中的视频数据包括295个人的视频序列。对于每个人,以四个不同的时间段(session)提取几个视频序列(每个20秒)。在每个段中,在记录视频序列时,人们被要求诵读两段文字“0,1,2,......,9”和“5,0,6,9,2,8,1,3,7,4”。可以用这些语音信号结合区别表情对帧进行定位。
图1显示了一个例子,其中以5个单词的发音为例“Zero”,“one”,“two”,“three”,“four”。本例是对每个单词发音的音频波形的峰值(最大点)进行定位,然后选取与该音频波形峰值对应时刻的视频帧。对用于建立参考图像库的训练视频和被识别的测试视频都采用这种方法来选定视频帧,从而将两种视频序列中的视频帧进行时间同步。当然,也可以使用其它的参数作为基准点(例如音频波形的波谷(最小点)、或者每个单词的音频区的中心点)来选取对应的视频帧。通常,当一个人读不同的单词时,可以表现出不同的表情。当然,可以使用其它的语段或句子,只要用于模型建立的训练视频和被识别的测试视频中使用的内容相同即可。
尽管可以使用计算成本更高级的语言识别技术来改进这一结果,但是,上述方法对于采用同步视频序列以及选取多个用于面部识别的区别帧已经证明是非常有效果和有效率的。
此外,对上述方法也可容易地扩展以包含更多的信息。例如,在身份识别系统中,也可将采用上述利用被识别者发声的音频选帧的视频识别方法和基于发声的内容的验证(如口令验证)方法、或/和对被识别者声调特性进行识别的方法集成,来实现更准确和安全的性能。
在进行上述时间同步之后,对每个图像进行基准点的对准,这是因为当人们交谈时,他们的面部将移动和变化。图2显示了这种图像的面部基准点的例子。在该例中,共有35个基准点。在本说明书中,称这一步骤为空间同步。基准点的对准对于子空间方法利用不同人的面部中的形状相似性来说是很重要的。可以使用Gabor小波特征来为空间同步分配基准点。
具体方法是,计算参考图像各基准点的Gabor小波特征值,对被识别图像在各基准点所在的局部区域提取Gabor小波特征值,然后寻找被识别图像中与参考图像(模板)上对应位置附近基准点具有最相近Gabor小波特征值的点,作为该被识别图像在此位置附近的基准点。
对于识别中所有用到的视频序列,分别从经过时间和空间同步之后的视频帧(二维矩阵)构成每个人的对准的(aligned)3D面部数据立方体(三维矩阵)。在此基础上,可以使用大量的方法进行视频序列匹配。但是,如上所述,使用传统的方法(例如最近图像或相互子空间方法)不能利用所有的视频数据中的判别信息。
一种直接的方法是将整个数据立方体作为单个的大特征向量来对待,并执行正常的子空间分析以提取特征。虽然这一特征值层次的融合方法利用了视频中所有的数据,但是这种方法存在几个问题。首先,数据规模非常庞大。例如对于每个视频序列使用尺寸为41×27的21个图像,则特征维数为23247。对这样大的向量进行直接的子空间分析,处理成本是非常高的。第二,更严重的问题是,因为相对于判别子空间分析算法的大的特征维数,样本规模却很小,所以存在所谓过拟合(over fitting)的问题。
为了克服这些问题,根据本发明的优选实施方式,采用了一种多级子空间分析算法。即,将视频中的面部数据立方体的每一帧作为一个特征片,然后对每个特征片执行统一的子空间分析,从每个片中提取判别特征。关于该分析方法的详细内容可参见参考文献13,即X.Wang和X.Tang所著的“Unified Subspace Analysis for Face Recognition”(用于面部识别的统一的子空间分析),Proceeding of IEEE International Conference on Computer Vision(IEEE国际计算机视觉研讨会),2003年。
然后,将从每个片提取的判别特征向量进行组合,以形成新的特征向量。对新的特征向量进行PCA(主成分分析)处理,以消除特征片之间的冗余信息,从而提取出最终的特征向量。下面具体说明本发明的多级子空间分析方法。
在本发明中,术语“类(class)”的含义是指训练集或参考图像库中的个体(人)。
在第一级子空间分析中,对于每个特征片
1-1.将每个特征片投影到从该片的训练集确定的PCA子空间,然后通过多次识别的试验结果来选择PCA子空间的维数,以去除大部分噪声。
1-2.在维数减小的PCA子空间中使用类内散布矩阵(within-class scattermatrix)来确定类内(intrapersonal)子空间。
1-3.为参考图像库(gallery,即用于识别的参照模板库)中的L个类分别计算它们的训练数据的平均值,以得到每个类的训练样本的中心。将所有的类中心投影到类内子空间,然后通过类内特征值对投影进行归一化,得到白化的(whitened)特征向量。
1-4.对上述所有L个类的白化的特征向量中心组成的空间进行PCA处理,得到判别特征向量。
在第二级子空间分析中,进行如下操作2-1.将从每个片中提取的判别特征向量依次相连组成新的特征向量。
2-2.对新的特征向量进行PCA处理,消除多个帧中的冗余信息。选取具有大特征值的前几个特征,以形成被识别的最终特征向量。
在上述第一级子空间分析中,PCA子空间以及类内子空间的维数是通过如下方式选择的选择一个PCA子空间以及类内子空间的维数,进行识别试验,通过多次试验,选取能够获得好的识别结果的PCA子空间和类内子空间维数。
在第二级子空间分析中,只使用PCA而不是统一的子空间分析。这是因为在第一级白化步骤中类内变化已经被减小,而判别特征已经在第一级子空间分析的步骤1-4中被提取。重复进行统一的子空间分析不会增加任何新的信息。但是,在不同的片之间仍有大量的重叠信息。因为尽管具有表情变化,但这些帧相互之间仍然非常相似。需要采用PCA来减少冗余信息。
本发明的多级子空间分析相比于现有的子空间分析,不会损失很多信息。具体地说,由于白化步骤只消除了类内变化信息,所以在分析算法中的信息损失时不需要考虑它们。只需要关注两个PCA步骤。为了进行PCA处理,首先生成一个n乘m的采样矩阵。
A=x1(1)x2(1)···xm(1)x1(2)x2(2)···xm(2)············x1(n)x2(n)···xm(n)---(1)]]>
其中xi是视频的面部数据立方体特征向量,n是向量的长度,m是训练采样的数目。通过将长的特征向量分解为g=n/k组的长度为k的小特征向量,A=B1[x1(1)x2(1)···xm(1)············x1(k)x2(k)···xm(k)]B2[x1(k+1)x2(k+1)···xm(k+1)············x1(2k)x2(2k)···xm(2k)]Bg[x1((g-1)k+1)x2((g-1)k+1)···xm((g-1)k+1)············x1(n)x2(n)···xm(n)]---(2)]]>可以在g组短特征向量集Bi中的每一个上执行PCA。然后通过从每个组选取的少数几个特征值形成新的特征向量。通过对新的特征向量执行PCA,计算出最终的特征向量。
下面以选取两组短特征向量集为例来说明。特征向量矩阵和其协方差矩阵为A=B1B2,---(3)]]>W=AAT=B1B1TB1B2TB2B1TB2B2T=W1W12W21W2---(4)]]>设协方差矩阵W1和W2的特征向量矩阵分别为T1和T2,那么T1TW1T1=Λ1---(5)]]>T2TW2T2=Λ2---(6)]]>其中,Λ1和Λ2是对角特征值矩阵。对于第一级的分组(B1,B2,...,Bg)的PCA的有效旋转矩阵为
T=T100T2---(7)]]>T也是一个正交矩阵,因为TTT=T1TT100T2TT2=I---(8)]]>所以在第一级的分组(B1,B2,...,Bg)的PCA之后,因为旋转矩阵T的正交性,旋转特征向量的协方差矩阵Wr=TTWT=Λ1T1TW12T2T2TW21T1Λ2=Λ1b00Λ1sCbbCbsCsbCssTCbbCbsCsbCssΛ2b00Λ2s---(9)]]>是原特征向量协方差矩阵W的相似矩阵。因为相似矩阵有相同的特征值,所以可以使用方程(9)的最右项,通过只保留每一组中在前面的少数几个优势特征值来讨论在原特征向量协方差矩阵W上的影响。
在方程(9)中,在n=1或2时,Λnb和Λns分别代表特征值矩阵Λn的较大优势特征值段以及较小可忽略特征值段。Cxx(其中x=b或s)代表两组旋转特征的交叉协方差矩阵。通过只保留第二级PCA中的优势特征值,新的特征向量协方差矩阵变成Wd=Λ1bCbbTCbbΛ2b---(10)]]>从Wr中消除的项有Λ1s、Λ2s、Css、Cbs和Csb。因为主要的能量被包含在优势特征值当中,Λ1s和Λ2s的信息损耗非常小,从而包含在两个小能量特征向量的交叉协方差矩阵中的能量Css应该更小。
可以证明Cbs和Csb都不可能很大。如果两组特征B1和B2互不相关,那么方程(9)中的所有交叉协方差Cxx矩阵都会很小。另一方面,如果两组特征值相互很相关,这两组的优势特征值会非常相似。因此,第二组大特征和第一组小特征的交叉协方差矩阵Cbs会与第一组大特征和第一组小特征的交叉协方差矩阵非常相似,且由于PCA的去相关性而为零。
当两组特征B1和B2部分相关时,相关的部分应该是主要的信号,这是因为特征B1和B2的噪声部分相互之间几乎不相关。PCA的基本性能是为了保持在前面的少数几个大特征值中的所有信号能量。所以,B2中的大部分信号能量,特别是与B1相关的B2信号能量的大部分被保留在B2协方差矩阵的大特征值段中。B2的小特征值段的被丢弃的能量几乎不包含与B1相关的能量。所以,Cbs和Csb应当是很小的,将它们从协方差矩阵Wr中去除不会丢失太多信息。
由上述分析可知,协方差矩阵Wd是Wr的近似,而Wr是W的相似矩阵。因此,可以说来自多级子空间方法的Wd的特征值实际上是从标准PCA方法的W计算出的特征值的近似。
根据本发明的另一种实施方式,在上述的多级子空间分析方法中,也可以用多分类器集成技术来替代第二级的子空间分析。即,在第一级分析当中,仍然用统一子空间分析来处理每一个个体的视频帧。然后,用融合规则来集成所有的基于帧的分类器,以确定最后的分类。其详细的方法陈述如下。
第一级子空间分析与上文描述的多级子空间分析中的步骤1-1到1-4相同,不再赘述。
在第二级分析处理中,执行如下步骤2-1’.在基于帧的分类器中,用步骤1-4中所得到的判别特征向量对每一帧进行识别。
2-2’.使用融合规则对基于帧的分类器的识别结果进行组合,得到最终的识别结果。
已经有很多关于对多分类器的融合的方法。这些方法都可用于实现本发明的上述过程。下面举出分别采用两种简单的融合规则来融合基于帧的分类器的例子,即多数决投票规则和求和规则。
多数决投票(Majority voting)每一个分类器Ck(x)对输入的面部数据设定类标签Ck(x)=i。这一事件可表示成一个二进制函数, 用多数决投票,最后的类可以选择成
β(x)=argmaxXiΣk=1KTk(x∈Xi).---(12)]]>求和规则(Sum rule)假设P(Xi|Ck(x))是由基于帧的分类器Ck(x)的测量的x属于Xi的概率。按照求和规则,用于最终决定的类别被选作β(x)=argmaxXiΣk=1KP(Xi|Ck(x))---(13)]]>P(Xi|Ck(x))可从基于帧的分类器的输出中估计。对于基于帧的分类器Ck(x),类别Xi的中心mi和输入面部数据x被投影为判别向量Wkwki=WkTmi---(14)]]>wkx=WkTx---(15)]]>P(Xi|Ck(x))被估计为P^(Xi|Ck(x))=(1+(wkx)T(wki)||wkx||·||wkx||)/2---(16)]]>其值已经被归一化到

本发明在最大的标准视频面部数据库XM2VTS上进行了实验。
在XM2VTS上的从上述四个不同的时间段中选取294个不同的人的294×4个视频序列。对于训练数据,选择前三个段的294×3个视频序列。参考图像库集合由第一时间段的294个视频序列组成。作为被识别视频序列的测试集由第四时间段的294个视频序列组成。在视频中的人被要求读两个数字序列“0 1 2 3 4 5 6 7 8 9”和“5 0 6 9 2 8 1 3 7 4”。
对于每个视频,分别通过两个策略选择21帧音频-视频时间同步和没有音频信息的随机选取。所以有两组分别标记为A-V同步数据和A-V非同步数据的不同的面部图形序列集合。对于A-V同步数据,每一帧与数字的波峰对应。另外的帧定位在第一个句子末尾与第二个句子的开始的中点。帧的数量对于不同的实验可以不同。
首先查看使用将图像灰度值直接作为特征的基于表象的方法的识别结果。对于静止图像和视频序列的结果都概括在表1中。静止图像是从视频序列的第一帧选取的(A-V同步的情况),或从视频序列随机选取的(A-V非同步的情况)。可以看到通过欧几里德距离分类直接使用静止图像的性能非常低(61%)。这一结果实际上反映出该数据库的识别难度很大。对于面部识别来说,如果测试图像和参考图像库中的图像来自不同的时间段,那么结果通常很差。通过使用相同的欧几里德距离(78.3%)的视频数据可得到显著的改进。在应用了本发明的多级子空间分析算法和多分类器算法以后,视频识别率进一步增加到超过98%。这清楚地表明实际上在视频序列中包含了大量的信息。
下面在表1的两栏中比较时间同步和非同步结果。可以看出,A-V时间同步方法与所有的其它分类方法相比,对识别准确性有显著改进。注意虽然使用多级子空间分析对视频分类的改进只有1.7%,但是它反映出识别误差率被减小了超过45%,这一结果是显著的。
表1使用灰度表象特征的识别结果的比较

表2中总结了用局部小波特征的结果。如同预期的那样,所有的结果都得到进一步改进。在不同方法之间的比较进一步确认了在表1中的研究结果。注意使用所有三种算法(时间同步、空间同步和多级子空间分析(或多分类器))的该实验的最终的识别准确性为99%。考虑到是跨时间段(cross-session)的识别,所以这个准确性是非常高的。
表2使用局部小波特征的识别结果的比较

最后,在表3中将本发明的视频识别方法与现有的基于视频的面部识别方法、最近帧方法和相互子空间方法进行了比较。注意表3中现有方法的结果是从A-V时间同步视频序列计算出的。最近帧方法中也应用了统一子空间分析方法,所以它们已经比原始的方法好。从表3中可清楚地看出,本发明的方法具有显著的进步,其出错率仅为传统方法的5%到10%。
表3与现有的基于视频的方法的识别结果的比较


以上说明了基于音频辅助的视频的面部识别方法。该方法充分利用了视频序列中的所有空间-时间信息。为了克服处理速度和数据规模问题,开发了空间和时间帧同步算法、多级子空间分析算法和多分类器集成算法。在最大的可得的面部视频数据库上的实验证明了所有这些技术在改进识别性能上是有效的。通过新的算法得到了近乎完美的识别结果。与基于静止图像的方法和现有的基于视频的方法相比,其具有显著进步。并且,本发明还可以使用多分类器集成技术来进一步对基于表象的视频分类和基于小波的视频分类方法进行集成,由此可进一步提高识别准确性。
权利要求
1.基于视频的面部识别方法,包括1)确定被识别的视频序列和参考图像库的视频序列中对应的多个相似的视频帧;2)对所述被识别的视频序列和参考图像库的视频序列中的对应的相似视频帧进行基准点的对准;3)从所述被识别视频序列中的经过基准点对准后的多个视频帧构成被识别者的面部数据立方体;和4)对所述面部数据立方体进行子空间分析,提取被识别者的面部特征,与所述参考图像库中的面部特征向量进行比较。
2.根据权利要求1所述的方法,其特征在于,使用Gabor小波特征对所述视频帧进行基准点的对准。
3.根据权利要求1所述的方法,其特征在于,所述对面部数据立方体进行子空间分析包括3-1)从所述面部数据立方体的每一帧组成的特征片中提取判别特征向量;3-2)将提取的所述每个特征片的判别特征向量依次相连,组成新的特征向量;和3-3)消除所述新的特征向量中的冗余信息,得到反映被识别者的面部特征的最终的特征向量。
4.根据权利要求3所述的方法,其特征在于,所述步骤3-1)包括对于每个特征片执行第一级子空间分析,包括3-1-1)将每个所述特征片投影到根据该特征片的训练集确定的PCA子空间;3-1-2)从所述PCA子空间确定类内子空间;3-1-3)确定参考图像库中的个体的训练数据类的中心,将所有的类中心投影到所述类内子空间;3-1-4)利用所述类内子空间的类内特征值对投影进行归一化,以确定白化的特征向量;3-1-5)对所述所有类的所述白化的特征向量中心组成的空间进行PCA处理,确定判别特征向量。
5.根据权利要求4所述的方法,其特征在于,所述步骤3-3)包括在对每个特征片执行第一级子空间分析后,进行第二级子空间分析,包括对所述新的特征向量进行PCA处理,选取具有大特征值的多个特征向量,形成用于识别的最终特征向量。
6.根据权利要求1所述的方法,其特征在于,所述对面部数据立方体进行子空间分析包括3-1)从所述面部数据立方体的每一帧组成的特征片中提取判别特征向量;3-2’)在基于帧的分类器中用所述判别特征向量来对每一帧进行识别;3-3’)使用融合规则对所述分类器的结果进行融合,对被识别的视频序列进行识别。
7.根据权利要求6所述的方法,其特征在于,所述融合规则包括多数决投票规则,求和规则。
8.根据权利要求1-7任一项所述的方法,其特征在于,确定被识别视频序列和作为参考图像库的视频序列中对应的多个相似的视频帧的步骤包括使用预定声音所产生的音频信号的波形,选择所述被识别视频序列和作为参考图像库的视频序列中的对应的多个相似帧。
9.根据权利要求8所述的方法,其特征在于,从所述音频信号的波形中选择包括以下参数中的一种为基准,来选取所述视频帧音频波形的峰值、音频波形的波谷,每个单词音频区的中心点。
10.根据权利要求8所述的方法,其特征在于,进一步包括对被识别者在被识别时发声的内容进行识别,或/和对被识别者的声调特性进行识别。
11.基于视频的面部识别方法,包括从被识别的视频序列中的每一帧组成的特征片中提取判别特征向量;将提取的所述每个特征片的判别特征向量依次相连,组成新的特征向量;和消除所述新的特征向量中的冗余信息,得到反映被识别者的面部特征的最终的特征向量。
12.根据权利要求11所述的方法,其特征在于,所述从特征片中提取判别特征向量的步骤包括将每个所述特征片投影到根据该特征片的训练集确定的PCA子空间;从所述PCA子空间确定类内子空间;确定参考图像库中的个体的训练数据类的中心,将所有的类中心投影到所述类内子空间;利用所述类内子空间的类内特征值对投影进行归一化,以确定白化的特征向量;对所述所有类的所述白化的特征向量中心组成的空间进行PCA处理,确定判别特征向量。
13.根据权利要求12所述的方法,其特征在于,在所述消除所述新的特征向量中的冗余信息的步骤中,对所述新的特征向量进行PCA处理,选取具有大特征值的多个特征向量,形成用于识别的最终特征向量。
14.基于视频的面部识别方法,包括从被识别的视频序列中的每一帧组成的特征片中提取判别特征向量;在基于帧的分类器中用所述判别特征向量来对每一帧进行识别;和使用融合规则对所述分类器的结果进行融合,对被识别的视频序列进行识别。
15.根据权利要求14所述的方法,其特征在于,所述从特征片中提取判别特征向量的步骤包括将每个所述特征片投影到根据该特征片的训练集确定的PCA子空间;从所述PCA子空间确定类内子空间;确定参考图像库中的个体的训练数据类的中心,将所有的类中心投影到所述类内子空间;利用所述类内子空间的类内特征值对投影进行归一化,以确定白化的特征向量;对所述所有类的所述白化的特征向量中心组成的空间进行PCA处理,确定判别特征向量。
16.根据权利要求15所述的方法,其特征在于,所述融合规则包括多数决投票规则,求和规则。
全文摘要
本发明提供了一种新的利用音频辅助的视频对视频的面部识别方法。该方法首先对视频图像进行时间和空间同步,然后对所述视频图像进行多级子空间分析,对经时间和空间同步的面部数据立方体进行处理,以提取被识别者的面部特征。本发明的方法主要优点是充分利用了视频序列中可用的信息比单个的图像多的特点,最大程度地利用了视频序列中的大量信息,并同时克服了处理速度和数据规模的问题。而且,本方法能保留所有包含在视频序列中的空间-时间信息,在XM2VTS面部视频数据库中获得了近乎完美的分类结果。
文档编号G06K9/00GK1866270SQ200510070919
公开日2006年11月22日 申请日期2005年5月17日 优先权日2004年5月17日
发明者汤晓鸥 申请人:香港中文大学
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1