根据脸部图像的时间序列识别脸的制作方法

文档序号:6428168阅读:186来源:国知局
专利名称:根据脸部图像的时间序列识别脸的制作方法
技术领域
本发明涉及面部识别系统,更具体而言,涉及一种为提高识别的鲁棒性而利用脸部图象的时间序列执行面部识别的系统和方法。
背景技术
面部识别是人机交互中一个重要的研究领域,而且已经提出了许多用于识别面部的算法和分类器设备。典型地,面部识别系统存储在分类器设备训练过程中从研究对象的脸的多个实例获得的完整的面部模板,并将单个探针(测试)图象与该存储模板进行比较,以便识别出个体。
图1说明了一种传统的分类器设备10,包括,例如,具有输入节点层12、包含径向基函数的隐蔽层14及用于提供类别的输出层18的径向基函数(RBF)网络。对RBF分类器设备的描述可以从2001年2月27日提交的序列号为09/794,443、标题为“Classification of objectsthrough model ensembles”的共同未决的美国专利申请获得,该专利申请全部内容与公开内容在此引作参考。
如图1所示,将包括输入向量26的单个探针(测试)图象25同存储的模板进行比较,用于面部识别,其中输入向量26包括表示该图象象素值的数据。众所周知,通过单个面部图象进行面部识别是很困难的,尤其当该面部图象不完全是正面的时候。典型地,个体的视频片段可用于这种面部识别任务。由于只使用一个面部图象或每个图像单独使用自己,很多时间信息都浪费了。
非常期望提供一种利用来自连续视频中个体的几个连续面部图象来提高识别鲁棒性的面部识别系统和方法。

发明内容
因此,本发明的一个目的就是提供一种利用来自连续视频中个体的几个连续面部图象来提高识别鲁棒性的面部识别系统和方法。
本发明的另一个目的是提供一种能够以一种方式将多个探针(测试)图象结合以提供可由面部识别系统用来产生更好识别率的单个高分辨率图象的面部识别系统和方法。
根据本发明的原理,提供了一种根据图像的时间顺序对面部图象进行分类的面部识别系统和方法,该方法包括步骤a)训练用于识别面部图象的分类器设备,所述分类器设备是利用与完整面部图象关联的输入数据训练的;b)获得所述图像的时间顺序的多个探针图象;c)将所述每个探针图象相互对齐;d)结合所述图象以形成一个高分辨率图象;及e)根据一种由所述经过训练的分类器设备执行的分类方法对所述高分辨率图象进行分类。
有利地,本发明的系统和方法能够结合面部图象的几个局部视图来产生单个更有利于识别的面部视图。由于面部识别的成功率与图象的分辨率有关,因此分辨率越高,成功率就越高。所以,分类器利用高分辨率图象进行训练。如果接收到单个低分辨率图象,识别器仍然可以工作,但如果接收到一个时序片段,则可以创建高分辨率图象,从而分类器能够更好地工作。


以下将参照附图描述在此公开的发明的细节,其中图1是描述根据现有技术用于面部识别和分类的RBF分类器设备10的图;图2是描述根据本发明原理用于面部识别的RBF分类器设备10’的图;及图3是描述如何在扭曲后建立高分辨率图象的图。
具体实施例方式
图2说明了本发明提出的一种分类器10’,它使得来自图象序列中同一个体的多个探针图象40可以同时使用。应当理解,为了描述可以使用RBF网络10’,但任何分类方法/设备都可以实现。
同时使用几个探针图象的好处是能够创建随后由面部识别系统用来产生更好识别率的单个高质量和/或高分辨率探针图象。首先,根据在序列号为09/966406[代理人卷号702053,代理人卷号14901]、标题为“Face recognition through warping”的共同未决的美国专利申请中描述的本发明原理,探针图象相对于彼此轻微地扭曲从而将它们对齐,该专利申请的内容及公开内容在此引作参考。即,每个探针图象的方向可以计算并扭曲到面部的正面视图上。
特别地,如在序列号为09/966406[代理人卷号702053、代理人卷号14901]的共同未决的美国专利申请中所描述的,根据任意面部姿态(高达90度)执行面部识别的算法依赖于技术人员可能已知并可用的某种技术1)面部检测技术;2)面部姿态估计技术;3)通用三维头部建模,其中通用头部模型经常用在包括一组用于产生通用头部的控制点(在三维(3-D))的计算机图形中。通过变化这些点,可以产生对应于任何给定头部、具有预置精度的形状,即点数越多精度越高;4)视图变形技术,由此给定一个图象和场景的3-D结构,可以建立对应于从同一照相机在该场景中任意位置获得的图象的精确图象。有些视图变形技术不要求该场景的精确的3-D结构,而只要近似的3-D结构,仍能提供非常好的结果,如参考S.J.Gortler、R.Grzeszczuk、R.Szelisky和M.F.Cohen合著标题为“The Lumigraph”SIGGRAPH 96,43-54页所描述的;及5)根据部分面部的面部识别,如在序列号为09/966436和09/966408[代理人卷号702052、代理人卷号14900和代理人卷号702054、代理人卷号14902]的共同未决的美国专利申请中所描述的,该专利申请内容及公开内容在此引作参考。
一旦执行了这种算法,就可以在任何给定象素位置获得与探针图象个数一样多的象素。然后如关于图3所示和描述的,可以将这些图象结合成一个有助于提高识别结果的高分辨率图象。另一好处是几个这种部分视图,即探针图象中的视图,的结合提供了用于识别的更好面部视图。优选地,如图2所示,包含多个图象40的一个或多个面部在每个探针图象中是朝不同方向的,而且不是在每个探针图象都完全可见。但如果只使用一个探针图象(例如,没有正面视图的一个),则由于它们需要完全正面位置,最多偏±15°,的面部图象,因此目前的面部识别系统可能无法根据这单个非正面面部图象识别出个体。
更具体地,根据本发明,多个探针图象一起结合成单个高分辨率图象。首先,根据所使用根据序列号为09/966406[代理人卷号702053、代理人卷号14901]的共同未决的美国专利申请学说的扭曲方法的结果,这些图象彼此对齐,而且一旦执行了该操作,在大多数象素点(i,j)就有与探针图象个数一样多的可用象素。应当理解,在排成一行以后,可能在有些位置不是所有的探针图象在扭曲之后都有用。由于在每个位置都有许多可用的象素值,因此很简单地就提高了分辨率。由于面部识别的成功率与图象分辨率有关,分辨率越高,成功率就越高。所以,用于识别的分类器设备利用高分辨率图象进行训练。如果接收到单个低分辨率图象,识别器仍然可以工作,但如果接收到一个时序片段,则可以创建高分辨率图象,从而分类器能够更好地工作。
图3是从概念上描述如何在扭曲后建立高分辨率图象的图。如图3所示,点50a-50d表示图象45在对应面部正面视图位置的象素。点60对应于来自扭曲成图象45以后的给定时序片段40中其它图象的点位置。应当指出,这些点的坐标是浮点数。点75对应于产生高分辨率图象的插入象素。这些位置的图象值是作为点60的内插值计算的。完成该功能的一种方法是用一个表面拟合点50a-50d和点60(任意多项式都可以),然后估计该多项式在内插点75位置的值。
优选地,连续的面部图象,即探针图象,是从根据本领域已知的某种面部检测/跟踪算法,如参考Proc.IEEE Computer Vision andPattern Recognition,Puerto Rico,USA,pp.782-787,1997中A.J.Colmenarez和T.S.Huang所著标题为“Face detection withinformation-based maximum discrimination”中所描述系统,输出的测试序列中自动提取出来的,该文献的全部内容及公开内容在此引入作为参考。
为了说明,实现了一种如图2所示的径向基函数(“RBF”)分类器,但是应当理解,任何分类方法/设备都可以实现。对一种RBF分类器设备的描述可以从2001年2月27日提交的序列号为09/794,443、标题为“Classification of objects through model ensembles”的共同未决的美国专利申请得到,该专利申请的全部内容及公开内容在此引入作为参考。
现在参考图2描述在序列号为09/794,443的共同未决的美国专利申请中所公开的RBF网络的结构。如图2所示,该RBF网络分类器10’是根据传统的三层反传网络构建的,包括由源节点(例如,k个感官单元)组成的第一输入层12;包括i个能将数据聚成一组并降低其维度的节点的第二或隐蔽层14;及包括j个能提供网络10’对施加到输入层12的激励模式的响应20的第三或输出层18。从输入空间到隐蔽单元空间的转换是非线性的,而从隐蔽单元空间到输出空间的转换是线性的。特别地,如参考Clarendon Press,Oxford,1997,Ch.5由C.M.Bishop所著“NeuralNetwork for Pattern Recognition”所讨论的,可以两种方式来看待RBF分类器网络10’1)为了利用高维空间的分类问题比在低维空间中更容易线性分离的数学事实,将RBF分类器理解为一组把输入向量扩展到高维空间的核函数;及2)将RBF分类器理解为一种试图通过基函数(BF)的线性结合来为每一个类都构建超曲面的函数映射内插法。该文献的全部内容及公开内容在此引入作为参考。这些超曲面可以看成是判别函数,对其代表的类有高值,而对所有其它类有低值。将一个未知输入向量归类为属于与在那一点具有最大输出的超曲面关联的类。在这种情况下,BF不充当高维空间的基础,而是作为期望超曲面的有限扩展中的一个分量,其中该分量的系数(权)必须进行训练。
对图2进一步观察,RBF分类器10’、输入层12和隐蔽层14之间的连接22具有单位权,而且因此不需要进行训练。隐蔽层14中的节点,即称为基函数(BF)节点,具有由特定均值向量μi(即,中心参数)和方差向量σi2(即,宽度参数)指定的高斯脉冲非线性,其中i=1,...,F,F是BF节点的个数。应当指出,σi2表示高斯脉冲(i)协方差矩阵的对角输入。给定D维输入向量X,每个BF节点(i)都输出一个反映由如下等式1)所代表输入引起的BF活动的标量值yiyi=φi(||X-μi||)=exp[-Σk=1D(xk-μik)22hσ2ik]---(1)]]>其中h是方差比例常量,xk是输入向量X=[x1,x2,...,xD]的第k个分量,μik和σik2分别是基节点(i)的均值和方差向量的第k个分量。接近高斯BF中心的输入产生高活动性,而那些远离的输入产生低活动性。由于RBF网络的各输出节点18构成了BF节点活动性的线性组合,因此网络中连接第二(隐蔽)层和输出层的部分是线性的,如由下面等式2)所表示的zj=Σiwijyi+woj---(2)]]>其中zj是第j个输出节点的输出,yi是第i个BF节点的活动性,wij是将第i个BF节点连接到第j个输出节点的权24,而woj是第j个输出节点的偏差或阈值。该偏差来自与不管输入是什么都具有恒定单位输出的BF节点关联的权。
将一个未知输入向量X归类为属于与具有最大输出zj的输出节点j关联的类。线性网络中的权wij不是利用迭代最小化方法,如梯度下降,求解的。它们是利用,如上面参考Clarendon Press,Oxford,1997中由C.M.Bishop所著“Neural Networks for Pattern Recognition”所描述的,矩阵伪反转技术快速准确地确定的。
在表1和表2中提供了可以在本发明中实现的优选RBF分类器的一种具体算法描述。如表1所示,最初RBF网络10’的大小是通过选择F,BF节点的个数,来确定的。F的合适值视具体问题而定,通常依赖于问题的维度和要构成的决策范围的复杂度。通常,F可以通过尝试多个F根据经验来确定,或者也可以设置成通常大于问题输入维度的某个常量。在设定F以后,BF的均值μI和方差σI2向量可以利用多种方法来确定。它们可以利用反传梯度下降技术与输出权一起进行训练,但是这通常需要较长的训练时间,而且可能导致不是最理想的局部最小值。可选地,均值和方差可以在训练输出权之前确定。因此,网络的训练只涉及确定权。
BF的均值(中心)和方差(宽度)通常选定为覆盖感兴趣的空间。如在本领域中已知的,可以使用不同技术例如,一种技术实现对输入空间进行采样的等间隔BF格栅;另一种技术实现聚类算法,如k-均值法,来确定BF中心组;其它技术实现从训练集选定的随机向量作为BF中心,确保每个类都被表示。
一旦确定了BF中心或均值,BF方差或宽度σI2就可以设置。它们可以固定到某个全局值或设置成反映BF中心附近数据向量的密度。此外,包括了一个全局方差比例因子H,以便允许重新调节BF的宽度。通过搜索H空间来寻找导致良好性能的值,确定其适当的值。
在设置完BF参数后,下一步是训练线性网络中的输出权wij。将单个训练模式X(p)及其类标识C(p)提供给分类器,计算出结果BF节点输出yI(p)。然后,这些输出和期望输出dj(p)用于确定F×F相关矩阵“R”和F×M输出矩阵“B”。应当指出,每个训练模式都产生一个R和B矩阵。最终的R和B矩阵是N个单个R和B矩阵求和的结果,其中N是训练模式的总数。一旦所有N种模式都提供给分类器,则确定了输出权wij。将最终相关矩阵R反转并用于确定每个wij。
表1如表2所示,分类是通过将未知输入向量Xtest提供给经过训练的分类器并计算结果BF节点输出yi执行的。然后这些值与权wij一起用于计算输出值zj。从而将输入向量Xtest归类为属于与具有最大输出zj的输出节点j关联的类。
表2在本发明方法中,RBF输入包括作为一维,即1-D,向量30馈送到网络RBF网络10’的n个大小标准化的时间连续面部灰度级图象。隐蔽(无监督)层14实现“增强的”k-均值聚类过程,如在IEEE Transactionson Neural Networks,11(4)948-960,2000年7月中S.Gutta、J.Huang、P.Jonathon和H.Wechsler所著标题为“Mixture of Expertsfor Classification of Gender,Ethnic Origin,and Pose of HumanFaces”中所描述的,其中高斯聚类节点的个数及其方差都是动态设置的,该文献在此引入作为参考。聚类的个数可以,如以5为步进值,从训练图象个数的1/5变化到训练图象的总数n。每个聚类的高斯宽度σI2设置为最大值(类直径内聚类中心与最远分量之间的距离,聚类中心与来自所有其它聚类的最近模式之间的距离)乘上一个在这里等于2的重叠因子o。利用不同的比例常量h动态对该宽度做进一步改善。隐蔽层14产生等效的实用形状基,其中每个聚类节点都对形状空间的某种共同特性进行编码。输出(有监督)层沿它们对应ID类的空间映射面部编码(“扩展部分”)并利用伪反转技术找出对应的扩展部分(‘权’)系数。应当指出,当对同一训练图象进行测试时,聚类的个数对于产生100%ID分类精度的配置(聚类的个数和特定的比例常量h)是固定的。
尽管已经示出并描述了本发明的优选实施方案,但应当理解,在不背离本发明主旨的前提下,可以对其形式或细节进行各种修改和变化。因此,本发明不是要限定在所描述和说明的确定形式,而是应当构建成覆盖所有可能属于所附权利要求范围的修改。
权利要求
1.一种根据图像的时间顺序(40)对面部图象进行分类的方法,该方法包括步骤a)训练用于识别面部图象的分类器设备(10),该分类器设备是利用与完整面部图象关联的输入数据进行训练的;b)获得所述图像的时间顺序的多个探针图象(40);c)将所述探针图象彼此对齐(60);d)结合所述图象(45),形成较高分辨率图象(45);及e)根据由所述经过训练的分类器设备(10’)执行的分类方法将所述高分辨率图象归类。
2.如权利要求1所述的方法,其中每个探针图象中的每张脸(40)是朝不同方向的。
3.如权利要求1所述的方法,其中探针图象相对于彼此轻微地扭曲从而将它们对齐。
4.如权利要求3所述的方法,其中所述步骤b)包括根据面部检测算法的输出从测试序列中自动提取连续的面部图象。
5.如权利要求3所述的方法,其中所述对齐步骤c)包括调整每个探针图象的朝向并将每个图象扭曲(60)到面部正面视图的步骤。
6.如权利要求5所述的方法,其中所述图象的扭曲包括步骤找出所述检测到的部分视图的头部姿态;定义通用头部模型并旋转所述通用头部模型,使它与给定面部图象有相同的朝向;平移并按比例缩放所述通用头部模型,使所述通用头部模型的一个或多个特征与给定面部图象相符;重建所述图象以获得面部的正面视图。
7.如权利要求1所述的方法,其中所述步骤a)和e)包括实现径向基函数网络(10)。
8.如权利要求6所述的方法,其中训练步骤a)包括(a)初始化所述径向基函数网络,该初始化步骤包括步骤通过选择基函数的个数F来确定网络结构,其中每个基函数I都有高斯非线性输出;利用K-均值聚类算法确定基函数均值μI,其中I=1,... ,F;确定基函数方差σI2;及通过经验搜索确定用于基函数方差的全局比例因子H;(b)进行训练,该训练步骤包括步骤将训练模式X(p)及其类标识C(p)输入到分类方法,其中模式索引为p=1,...,N;计算基函数节点的输出yI(p),F由模式X(p)产生;计算基函数输出的F×F相关矩阵R;及计算F×M输出矩阵B,其中dj是期望的输出,M是输出类的个数,而j=1,...,M;及(c)确定权,该确定步骤包括步骤反转F×F相关矩阵R,得到R-1;及求解网络中的权。
9.如权利要求8所述的方法,其中分类步骤e)包括将来自所述时序片段的未知高分辨率图象(45)提供给分类方法;及通过以下步骤将每个高分辨率图象(45)归类为所有F基函数计算基函数输出;计算输出节点活动性;及选择具有最大值的输出zj并将所述高分辨率图象归类为类j。
10.如权利要求1所述的方法,其中分类步骤包括输出识别未知高分辨率图象对象与之对应的类的类标识,及指示关于两个或多个特征中每个特征该未知模式属于该类的概率值。
11.一种根据图像的时间顺序(40)对面部图象进行分类的装置,该装置包括a)为了根据与完整面部图象关联的输入数据识别面部图象而进行训练的分类器设备(10’);b)获得所述图像的时间顺序的多个探针图象(40)的机制;c)将所述探针图象彼此对齐,结合所述图象以形成高分辨率图象(45)的机制,其中根据由所述经过训练的分类器设备执行的分类方法将所述高分辨率图象归类。
12.一种机器可读的程序存储设备,明确包含了可由机器执行来实现根据图像的时间顺序对面部图象进行分类的方法步骤的指令程序,该方法包括步骤a)让用于识别面部图象的分类器设备(10)进行训练,所述分类器设备是利用与完整面部图象关联的输入数据进行训练的;b)获得所述图像的时间顺序的多个探针图象(40);c)将所述探针图象彼此对齐(60);d)结合所述图象(45),形成高分辨率图象(45);及e)根据由所述经过训练的分类器设备(10’)执行的分类方法将所述高分辨率图象归类。
全文摘要
根据图像的时间顺序对面部图象进行分类的系统和方法,包括步骤让用于识别面部图象的分类器设备进行训练,该分类器设备是利用与完整面部图象关联的输入数据进行训练的;获得图像的时间顺序的多个探针图象;将探针图象彼此对齐;结合这些图象以形成高分辨率图象;及根据由经过训练的分类器设备执行的分类方法将所述高分辨率图象归类。
文档编号G06T1/00GK1636226SQ02818997
公开日2005年7月6日 申请日期2002年9月10日 优先权日2001年9月28日
发明者V·菲尔洛明, M·特拉科维, S·V·R·古特塔 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1