图像处理装置及图像处理方法与流程

文档序号:12064249阅读:272来源:国知局
图像处理装置及图像处理方法与流程

本发明涉及用于图像处理的方法及装置,尤其涉及例如用于面部表情识别和面部识别的方法及装置。



背景技术:

近年来,在图像处理、计算机视觉与模式识别的领域中,普遍应用了面部表情识别。一般而言,在存储设备的大小不受限制的面部表情识别系统中,通常会从输入图像中提取具有高维数的面部表情特征,而后用于面部表情识别中,这是因为,识别精度总是依赖于使用的面部表情特征的维数(即,使用的面部表情特征具有的维数越高,则能够实现的识别精度越高)。然而,对于存储设备的大小受限制的面部表情识别系统,诸如照相机、数字照相机、电视摄像机、视频摄像机、移动电话、个人数据助理(PDA)或其他适合的电子设备,存在如下的需要,即,使用具有较低维数的面部表情特征,同时识别精度不会变差。

在“A Half Face Recognition Scheme”(Shidu Dong,Bo He,Qun Jiang,Huaqiu Wang,Tongyuan Huang,SNPD,2007,2010 11th ACIS International Conference on Software Engineering,Artificial Intelligence,Networking and Parallel/Distributed Computing,2010 11th ACIS International Conference on Software Engineering,Artificial Intelligence,Networking and Parallel/Distributed Computing 2007,pp.355-358,doi:10.1109/SNPD.2007.415)中,公开了一种通过使用具有低维数的面部表情特征来识别面部表情的示例性技术。上述技术主要公开了以下操作:第一,在包含面部的输入图像中定位显著区域,其中这些显著区域能够代表输入图像中的面部的属性,诸如眼部区域、鼻部区域、嘴部区域等;第二,在输入图像中确定具有较高光照的半边脸,诸如,图1A中所示的矩形框代表具有较高光照的左半边脸,并且图1B中所示的矩形框代表具有较高光照的右半边脸;第三,选择在确定的半边脸上的显著区域;而后,从选择的显著区域中提取面部表情特征,用于面部表情识别。

在上述技术中,仅从确定的半边脸中提取面部表情特征,因此,能够减少用于面部表情识别的面部表情特征的维数。然而,通过比较输入的面部的两个半边脸的光照,来确定用于提取面部表情特征的半边脸,因此,两个半边脸的光照差异越明显,则能够确定的用于提取面部表情特征的半边脸越具有辨别力,进而,能够实现的识别精度越高。

换言之,如果两个半边脸的光照差异不明显(即,输入图像具有正常的光照),则对于上述技术而言,将难以确定最具有辨别力的半边脸。并且,由于上述技术在识别面部表情时仅使用面部的一半的面部表情信息,因此,识别精度相比于通过在识别面部表情时使用整个面部的面部表情信息而实现的识别精度将变差。也即,对于具有正常光照的图像而言,虽然用于面部表情识别的面部表情特征的维数能够被减少,但是上述技术将实现较差的识别精度。



技术实现要素:

因此,鉴于上面背景技术中的叙述,本公开旨在解决如上所述的问题。

根据本发明的一个方面,提供了一种图像处理装置,该图像处理装置包括:图像获取单元,其被构造为获取包含面部的图像;区域定位单元,其被构造为在获取到的图像中,定位代表所述面部的属性的至少一个区域;特征提取单元,其被构造为从定位的区域中提取特征;以及特征整合单元,其被构造为对基于所述面部的对称性而彼此对称的、定位的区域的特征,进行整合。

利用本发明,能够减少用于图像处理的特征的维数,并且能够保持图像处理精度。

通过以下参照附图的描述,本发明的进一步的特征及优点将变得清楚。

附图说明

被并入说明书并构成说明书的一部分的附图例示了本发明的实施例,并且与文字描述一起用来说明本发明的原理。

图1A及图1B示意性地示出了根据现有技术的具有光照差异的人脸图像。

图2A至图2C示意性地示出了各自包括不同面部表情的人脸图像。

图3是示意性地示出根据本发明的实施例的图像处理装置的硬件配置的框图。

图4是例示根据本发明的第一实施例的图像处理装置的配置的框图。

图5A至图5C示意性地示出了被检测特征点和相应的定位的显著区域的示例。

图6A及图6B示意性地示出了被检测特征点和相应的定位的显著区域的另一示例。

图7A及图7B示意性地示出了与眼睛相关的一个定位的显著区域的划分块、以及从划分块中提取的特征的示例。

图8是例示本发明的图4中所示的特征整合单元440的详细配置的框图。

图9是示意性地示出图8中所示的特征整合单元440的处理的详细过程的流程图。

图10是示意性地示出图9中所示的步骤S910的处理的详细过程的流程图。

图11示意性地示出了部分的人脸被头发遮挡的人脸。

图12A及图12B是示意性地示出关于左、右眼区域是否被遮挡的判断的图。

图13A至图13D是示意性地示出基于面部的对称性而彼此对称的两个定位的显著区域、以及从这两个定位的显著区域中提取的相应特征的图。

图14A至图14D是示意性地示出按面部的对称性而被划分为两个部分的定位的显著区域、以及从这两个部分中提取的相应特征的图。

图15示意性地示出了定位的显著区域的一些块被面部的对称线划分为两个部分的情况。

图16是示意性地示出根据第一实施例的总体处理的过程的流程图。

图17是例示根据本发明的第二实施例的图像处理装置的配置的框图。

图18是示意性地示出根据第二实施例的总体处理的过程的流程图。

图19是示出根据第二实施例的、应用面部表情识别的在线教育评价系统的整体构造的框图。

图20是例示根据本发明的第三实施例的图像处理装置的配置的框图。

图21是示意性地示出根据第三实施例的总体处理的过程的流程图。

具体实施方式

下面,将参照附图来详细描述本发明的示例性实施例。应当指出,以下的描述实质上仅是说明性和示例性的,并且决不意在限制本发明及其应用或用途。在实施例中提出的构成要素及步骤的相对布置、数值表达式以及数值并不限制本发明的范围,除非另外特别说明。此外,本领域技术人员已知的技术、方法及设备可能不作详细讨论,但在适当的情况下应当作为本说明书的一部分。

请注意,类似的附图标记及字母指代图中的类似项目,因而,一旦项目在一个图中被定义,则对于之后的图不需要再讨论该项目。

统计数据表明,人脸具有对称性。换言之,不仅对于具有中性表情(如图2A所示)的面部,而且对于具有诸如微笑表情(如图2B所示)、悲伤表情(如图2C所示)等其他表情的面部,人脸都几乎是左右对称的,其中,图2中所示的虚线是面部的对称线。因此,本发明人发现,能够利用面部的对称性,来减少在识别面部表情时的面部表情特征的维数。同时,能够尽可能地保持图像处理精度。

(图像处理装置的硬件配置)

首先,将参照图3,来描述能够实现下文所述的技术的图像处理装置的硬件配置。图3是示意性地示出根据本发明的实施例的图像处理装置的硬件配置300的框图。通过诸如个人计算机(PC)、照相机、数字照相机、电视摄像机、视频摄像机、移动电话、个人数据助理(PDA)或其他适合的电子设备,来实施根据本发明的实施例的图像处理装置。

图像处理装置的硬件配置300可以包括中央处理单元(CPU)310、随机存取存储器(RAM)320、只读存储器(ROM)330、硬盘340、输入设备350、输出设备360、网络接口370及系统总线380。

CPU 310可以是任何适合的可编程控制设备,并且能够通过执行存储在ROM 330或硬盘340中的各种应用程序,来执行下文所述的各种功能。RAM 320用来临时存储从ROM 330或硬盘340中加载的程序或数据,并且还用作如下的空间,在该空间中,CPU 310执行各种程序,诸如实施下文将参照图4至图21详细描述的技术以及由图像处理装置执行的其他功能。硬盘340能够存储许多种类的信息,诸如操作系统(OS)、各种应用、控制程序,以及由制造商预生成或设置的数据,其中,所述数据例如可以是下文所述的阈值(TH)、面部表情模型、面部模型。

在一种实施方式中,输入设备350可以是输入接口,并且能够接收从图像获取设备输出的图像,所述图像获取设备是诸如下文将参照图19描述的图像获取设备1910。并且,输出设备360可以是输出接口,并且能够将处理结果输出至后续操作,诸如识别面部表情、识别面部、评价在线教育的质量,或者基于识别的面部将捕获图像存储在数字照相机中,并且所有这些操作均将在下文中进行描述。

在另一实施方式中,输入设备350能够允许用户与图像处理装置交互,诸如用户能够通过输入设备350来输入图像。并且,输入设备350可以采用诸如按钮、小键盘、转盘、触控轮或触摸屏等的各种形式。输出设备360可以包括阴极射线管(CRT)或液晶显示器,并且能够向用户显示处理结果。此外,如果图像处理装置是所谓的诸如智能移动电话、PDA、平板计算机或其他适合的个人设备等的设备,则输入设备350和输出设备360可以被合并为一体。此外,如果图像处理装置是所谓的诸如传统移动电话、笔记本电脑、台式电脑或其他适合的个人设备等的设备,则输入设备350和输出设备360可以分开地被合并。

网络接口370提供用于将图像处理装置连接到网络(未示出)的接口。例如,图像处理装置能够经由网络接口370,与经由网络连接的其他电子设备(诸如图19中所示的图像获取设备1910和/或监视设备1920)进行数据通信。作为另一选择,可以为图像处理装置配设无线接口,以进行无线数据通信。系统总线380可以提供如下的数据传送路径,该数据传送路径用于在CPU 310、RAM 320、ROM 330、硬盘340、输入设备350、输出设备360及网络接口370等之间相互传送数据。虽然被称为总线,但是,系统总线380并不局限于任何特定的数据传送技术。

作为替代,可以使用实现与上述硬件设备相同的功能的软件。

在诸如图像处理等的本发明的一个实施例的示例中,稍后将参照图9至图10及图16描述的本实施例的程序可以被预先安装在硬盘340中,并且在CPU 310需要执行本实施例的程序时,被从硬盘340中加载到RAM 320。在其他示例中,本实施例的程序可以被记录在ROM 330中,并且直接由CPU 310执行。此外,也可以通过相同的方式,来存储和执行诸如稍后将参照图18及图21描述的面部表情识别及面部识别等的其他实施例的程序。

图3中所示的图像处理装置的上述硬件配置300仅是说明性的,并且决不意在限制本发明及其应用或用途。并且,为了简单起见,图3中仅示出了一种硬件配置。然而,也可以根据需要使用多个硬件配置。

(图像处理装置的配置)

接下来,将参照图4,来描述用于上述图像处理装置的图像处理的配置。图4是例示根据本发明的第一实施例的图像处理装置400的配置的框图。

图4中所示的模块被实现为上面参照图3所述的图像处理装置的CPU 310,并且用于执行被加载到RAM 320的程序,以及用于与图3中所示的各硬件协作。可以由专用的硬件来实现部分或全部的模块。

如图4所示,根据本发明的第一实施例的图像处理装置400包括:图像获取单元410、区域定位单元420、特征提取单元430及特征整合单元440。并且,图像处理装置400可以进一步包括面部特征获得单元450。

如上所述,首先,图3中所示的输入设备350将接收包含面部的一个图像(诸如图2A中所示的人脸图像),该图像是从图像获取设备输出的,或者是由用户输入的。其次,输入设备350将经由系统总线380,将获取到的图像传送到图像获取单元410。

而后,如图4所示,首先,图像获取单元410将通过系统总线380,从输入设备350来获取包含面部的图像。

其次,区域定位单元420将在获取到的图像中,定位代表面部的属性的至少一个区域。在一种实施方式中,属性可以是关于面部表情识别的面部的表情属性。在另一实施方式中,属性也可以是关于面部识别的面部的纹理属性。此外,代表面部的属性的区域在本发明中可以被视为显著区域,并且,面部中的眼部区域、鼻部区域、嘴部区域及其他区域可以被视为上述的显著区域。在下文中,显著区域将用来代表用于代表面部的属性的区域。

区域定位单元420可以仅定位一个显著区域,所述一个显著区域同时包含两个眼部区域、一个鼻部区域和一个嘴部区域。此外,区域定位单元420也可以定位多于一个的显著区域。在一个实例中,区域定位单元420能够定位两个显著区域,诸如一个显著区域包含两个眼部区域,并且另一个包含鼻部区域和嘴部区域。在另一实例中,区域定位单元420能够定位3个显著区域,诸如第一个显著区域包含两个眼部区域,第二个显著区域包含鼻部区域,并且第三个显著区域包含嘴部区域。

为了获得更准确的显著区域,以使下文所述的特征提取单元430及特征整合单元440能够获得更准确的特征,作为优选方案,区域定位单元420可以包括特征点检测单元421及区域确定单元422,如图4所示。

首先,特征点检测单元421能够在获取的图像中检测特征点。许多现有方法能够用于检测特征点,诸如常用的主动外观模型(Active Appearance Model,AAM)法。在一种实施方式中,可以在特征点检测单元421中,使用在“Supervised descent method and its application to face alignment”(Xuehan Xiong,Fernando De la Torre,CVPR,2013,2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)2013,pp.532-539,doi:10.1109/CVPR.2013.75)中公开的方法,来检测特征点。

在本发明中,被检测特征点的数量不是固定的。一般而言,眼部区域、鼻部区域及嘴部区域能够包含面部的更多的属性,因此,经常从这种区域中检测特征点。在一种实施方式中,可以在获取的图像中检测7个特征点,其中所述7个特征点包括各眼部区域上的两个特征点、鼻部区域上的一个特征点,以及嘴部区域上的两个特征点。并且,图5A中所示的黑点是示例性的被检测特征点。在另一实施方式中,为了获得用于后续操作的面部的更多属性,可以在获取的图像中检测15个特征点,其中所述15个特征点包括各眼部区域上的4个特征点、鼻部区域上的3个特征点,以及嘴部区域上的4个特征点。并且,图6A中所示的黑点是示例性的被检测特征点。

在特征点检测单元421在获取的图像中检测了特征点之后,区域确定单元422将基于被检测特征点,来确定显著区域。依据制造商的设置,显著区域可以是诸如矩形、正方形等的任何形状,并且可以是任何大小。此外,显著区域的数量不是固定的,并且也可以基于制造商的设置来决定。

针对图5A中所示的被检测特征点,在一个实例中,区域确定单元422能够定位4个显著区域,其中所述4个显著区域包括两个眼部区域、一个鼻部区域和一个嘴部区域,如图5B所示。在另一实例中,为了获得用于后续操作的面部的更多属性,区域确定单元422也可以定位7个显著区域,如图5C所示。在该实例中,例如,图5C中所示的各定位的显著区域能够以一个被检测特征点为中心。并且,如果定位的显著区域是正方形,则可以把各定位的显著区域的宽度和长度,均设置为获取的图像的长度的20%~45%。或者,如果定位的显著区域是矩形,则可以把各定位的显著区域的宽度和长度,分别设置为获取的图像的宽度和长度的20%~45%。

针对图6A中所示的被检测特征点,在一个实例中,区域确定单元422能够定位15个显著区域,如图6B所示。并且,用于定位图6B中所示的各显著区域的方法,与用于定位图5C中所示的各显著区域的上述方法相同。以具有200*200像素的大小的获取图像为例,各定位的显著区域能够以一个被检测特征点为中心,并且可以具有60*60像素的大小。

现在,返回到图4,在区域定位单元420在获取的图像中定位了上述的显著区域之后,特征提取单元430将从定位的显著区域中提取特征。例如,如上所述,对于面部表情识别,与面部的属性相对应的提取的特征可以是表情特征;并且对于面部识别,与面部的属性相对应的提取的特征可以是纹理特征。

为了获得更准确的特征,以使下文所述的特征整合单元440能够获得更准确的整合特征,作为优选方案,针对各定位的显著区域,特征提取单元430首先将定位的显著区域划分为具有相同面积大小的多个块,其中根据定位的显著区域的大小,块的面积大小以及块的数量可以是不同的。为了方便下文所述的特征整合单元440的整合操作,块的数量可以是偶数。如上所述,以具有60*60像素的大小的定位的显著区域为例,定位的显著区域的划分模式可以是4乘4模式,换言之,各块的宽度和高度均为15像素,这意味着,各显著区域被划分为具有相同面积大小的16个块。

其次,特征提取单元430将从各划分的块中提取特征。在特征提取单元430中可以使用许多图像特征描述符,以从划分的块中提取特征,诸如尺度不变特征变换(Scale-invariant Feature Transform,SIFT)、快速鲁棒特征(Speeded Up Robust Features,SURF)、局部二进制模式(Local Binary Pattern,LBP)等。图7A示意性地示出了与眼睛相关的一个定位的显著区域的划分块、以及从划分块中提取的特征的示例,其中图7A中所示的‘子向量n’代表从第N个块中提取的特征。

此外,特征提取单元430还能够将从划分的块中提取的特征链接在一起,以构造显著区域的一个链接特征。特征的链接顺序不受限制,只要各显著区域具有相同的特征链接顺序即可。在一个实例中,一个显著区域中的特征的链接顺序可以是将从上部块中提取的特征链接到底部块,并且从左部块到右部块,诸如图7B中所示的链接特征。

现在,返回到图4,特征提取单元430从定位的显著区域中提取了特征之后,其中对于一个定位的显著区域,特征可以是上述的显著区域的链接特征、上述的从各划分的块中提取的特征,或者直接从显著区域中提取的特征,为了减少特征的维数,特征整合单元440将对基于面部的对称性而彼此对称的定位的显著区域的特征进行整合,其中如果两个定位的显著区域基于面部的对称性而彼此对称,则意味着,这两个定位的显著区域的中心基于面部的对称性而彼此对称。在下文中,将参照图9至图15来描述详细的处理。

此外,在特征整合单元440基于面部的对称性来对定位的显著区域的特征进行整合之后,面部特征获得单元450可以进一步将整合特征链接在一起,以获得整个面部的链接特征;并且,链接顺序不受限制,只要各面部图像的链接顺序相同即可。

最后,面部特征获得单元450将经由系统总线380,将整个面部的链接特征传送到图3中所示的输出设备360,以用于向用户显示处理结果,或者用于下文所述的后续操作,诸如识别面部表情、识别面部等。

(特征整合的详细配置及处理)

图8示出了例示图4中所示的特征整合单元440的详细配置的框图。如图8所示,首先,特征整合单元440包括特征组合单元443。针对一个定位的显著区域,特征组合单元443首先将进行如下的判断,即定位的显著区域的中心(如果如上所述,定位的显著区域以被检测特征点为中心,则为被检测特征点)是否在面部的对称线上。而后,如果定位的显著区域的中心被判断为不在面部的对称线上,则特征组合单元443将把定位的显著区域的特征,与该定位的显著区域的对称区域的特征进行组合。并且,如果定位的显著区域的中心被判断为在面部的对称线上,则特征组合单元443将把定位的显著区域的第一子区域(诸如左子区域)的特征,与定位的显著区域的第二子区域(诸如右子区域)的特征进行组合,其中定位的区域被面部的对称线划分为第一子区域和第二子区域。在下文中,将参照图9来描述详细的处理。

在日常生活中,人脸经常被其他物体遮挡,诸如前额的一部分经常被头发遮挡,眼睛的一部分经常被眼镜遮挡,等等。由于从被其他物体遮挡的区域中提取的特征将引起一定的噪声,而该噪声将影响提取的特征的精度,因此,为了减少在对特征进行整合时由遮挡造成的影响,并且为了获得更准确的整合特征,特征整合单元440可以进一步包括遮挡区域确定单元441及特征重新确定单元442,如图8所示。首先,针对一个定位的显著区域,遮挡区域确定单元441将确定定位的显著区域是否为遮挡区域,其中所述遮挡区域例如可以是被头发遮挡的显著区域,或者被眼镜遮挡的显著区域。其次,针对一个遮挡区域,特征重新确定单元442将根据基于面部的对称性而与遮挡区域对称的、相应的定位的显著区域的特征,来重新确定遮挡区域的特征。在下文中,将参照图9来描述详细的整合处理。

图9是示意性地示出图8中所示的特征整合单元440的处理的详细过程的流程图900。针对一个定位的显著区域,如图9所示,在步骤S910中,图8中所示的遮挡区域确定单元441将确定定位的显著区域是否为遮挡区域。作为优选方案,遮挡区域确定单元441可以基于定位的显著区域的黑色像素密度,来确定定位的显著区域是否为遮挡区域,并且在下文中,将参照图10、图11以及图12A及图12B来描述详细的处理。此外,除了基于黑色像素密度之外,遮挡区域确定单元441还可以使用其他现有方法来判断定位的显著区域是否为遮挡区域,诸如基于模糊主成分分析(fuzzy principal component analysis)的方法、基于B样条主动轮廓和皮肤颜色信息(B-spline active contour and skin color information)的方法,或者基于GraphCut的检测方法。

图10是示意性地示出图9中所示的步骤S910的处理的详细过程的流程图。如图10所示,在步骤S911中,遮挡区域确定单元441将通过使用诸如OSTU算法、自适应阈值化算法、阈值化算法等现有的二值算法,对与定位的显著区域(诸如图11中所示的定位的显著区域中的一个,其中图11中所示的人脸的一部分被头发遮挡)相对应的图像进行二值化。在步骤S912中,遮挡区域确定单元441将通过使用下面的函数,来计算定位的显著区域的黑色像素密度:

其中,α代表黑色像素密度。

而后,在步骤S913中,遮挡区域确定单元441将进行如下的判断,即定位的显著区域的黑色像素密度是否大于预定阈值(TH),其中TH可以由制造商来设置。如果黑色像素密度大于TH,则定位的显著区域将被判断为遮挡区域;否则,定位的显著区域不是遮挡区域。

如上所述,遮挡区域确定单元441需要计算各定位的显著区域的黑色像素密度。然而,一般而言,仅眼部区域更经常被头发遮挡,诸如图11中所示的人脸,而人脸的其他部分很少被其他物体遮挡。因此,为了简化计算,作为优选方案,遮挡区域确定单元441可以仅判断眼部区域(诸如图12A中所示的左眼区域及右眼区域)是否被遮挡。并且,如果眼部区域中的一个(诸如图12A中所示的左眼区域)被判断为遮挡区域,则图8中所示的特征重新确定单元442可以把提取的与右眼区域相关的特征,直接确定为与左眼区域相关的特征。并且,如果两眼部区域均被判断为遮挡区域,则图8中所示的特征重新确定单元442可以基于左眼区域和右眼区域的遮挡面积大小,重新确定与左眼区域相关的特征或者与右眼区域相关的特征。换言之,特征重新确定单元442在左眼区域的遮挡面积大小大于右眼区域的遮挡面积大小的情况下,将把与右眼区域相关的特征确定为与左眼区域相关的特征;否则,将把与左眼区域相关的特征确定为与右眼区域相关的特征。

作为实例,在图12A及图12B中,示出了示意性地示出关于左、右眼区域是否被遮挡的判断的图。如图12A所示,首先,遮挡区域确定单元441将确定覆盖左眼区域及左眉毛的区域1,以及覆盖右眼区域及右眉毛的区域2。只要确定的区域能够覆盖眼部区域和眉毛,确定的区域可以是诸如矩形、正方形等的任何形状,并且可以是任何大小。以区域1为例,作为优选方案,首先,根据由特征点检测单元421检测的左眼的4个特征点,遮挡区域确定单元441能够计算出左眼的高度和左眼的宽度。其次,遮挡区域确定单元441可以根据计算出的左眼的高度以及特征点A的位置,来估计左眉毛的位置。一般而言,从特征点A到眉毛的距离等于眼睛的高度。而后,遮挡区域确定单元441可以基于左眼的宽度和左眉毛的位置,来确定区域1。

然后,如图12B所示,区域1可以在眉毛的位置被划分为两个部分,即A1和A2,并且区域2也可以被划分为两个部分,即B1和B2。如上所述,遮挡区域确定单元441将对与各部分相对应的图像进行二值化,并且通过使用下面的函数来计算各部分的黑色像素密度:

其中,αA1、αA2、αB1、αB2分别代表A1的黑色像素密度、A2的黑色像素密度、B1的黑色像素密度和B2的黑色像素密度。

最后,遮挡区域确定单元441将判断各部分的黑色像素密度是否大于相应的预定阈值(TH1及TH2),其中TH1及TH2可以由制造商来设置,并且TH1及TH2例如可以在0.65~0.8的范围内。对于一个眼部区域,如果两部分的黑色像素密度均大于相应的TH,则眼部区域将被判断为遮挡区域;否则,眼部区域不是遮挡区域。如图12B所示,由于遮挡区域确定单元441判断A1的黑色像素密度大于TH1,并且A2的黑色像素密度大于TH2,因此,左眼区域将被判断为遮挡区域。此外,由于遮挡区域确定单元441判断出B1的黑色像素密度小于TH1,并且B2的黑色像素密度小于TH2,因此,右眼区域不是遮挡区域。

现在,返回到图9,在步骤S910中,如果遮挡区域确定单元441确定定位的显著区域是遮挡区域,则过程将进入到步骤S920;否则,过程将进入到步骤S9120。

在步骤S920中,特征重新确定单元442将判断遮挡区域的中心是否在面部的对称线上。如果遮挡区域的中心被判断为不在面部的对称线上,则过程将转入到步骤S930;否则,过程将转入到步骤S970。

在步骤S930中,特征重新确定单元442将判断遮挡区域的对称区域是否为遮挡区域,并且,相应的判断类似于如上所述的步骤S910的判断。如果遮挡区域的对称区域被判断为遮挡区域,则过程将进入到步骤S950;否则,过程将进入到步骤S940。

在步骤S940中,特征重新确定单元442将把对称区域的特征确定为遮挡区域的特征。

在步骤S950中,特征重新确定单元442将进行如下的判断,即对称区域的遮挡面积大小是否小于遮挡区域的遮挡面积大小。并且,如果对称区域的遮挡面积大小小于遮挡区域的遮挡面积大小,则特征重新确定单元442将把对称区域的特征确定为遮挡区域的特征,如在步骤S940中所述。否则,在步骤S960中,特征重新确定单元442将把遮挡区域的特征确定为对称区域的特征。此外,如果对称区域的遮挡面积大小等于遮挡区域的遮挡面积大小,则特征重新确定单元442也可以不重新确定遮挡区域的特征和对称区域的特征。

如上面在步骤S920中所述,如果遮挡区域的中心被判断为在面部的对称线上,则在步骤S970中,特征重新确定单元442将进行如下的判断,即遮挡区域的第一子区域(诸如左子区域)的遮挡面积大小是否大于遮挡区域的第二子区域(诸如右子区域)的遮挡面积大小。并且,如果第一子区域的遮挡面积大小大于第二子区域的遮挡面积大小,则在步骤S980中,特征重新确定单元442将把第二子区域的特征确定为第一子区域的特征;否则,在步骤S990中,特征重新确定单元442将把第一子区域的特征确定为第二子区域的特征。此外,如果第一子区域的遮挡面积大小等于第二子区域的遮挡面积大小,则特征重新确定单元442也可以不重新确定第一子区域的特征和第二子区域的特征。

如上所述,步骤S920~S990的主要操作如下:如果遮挡区域的中心不在面部的对称线上,则特征重新确定单元442将基于遮挡区域的遮挡面积大小和遮挡区域的对称区域的遮挡面积的大小,重新确定遮挡区域的特征或者对称区域的特征;并且如果遮挡区域的中心在面部的对称线上,则特征重新确定单元442将基于遮挡区域的第一子区域的遮挡面积大小和遮挡区域的第二子区域的遮挡面积大小,重新确定第一子区域或第二子区域的特征。

现在,返回到图9,在特征重新确定单元442根据上述的步骤S930~S960重新确定遮挡区域的特征之后,在步骤S9100中,图8中所示的特征组合单元443将把定位的显著区域的特征,与该定位的显著区域的对称区域的特征进行组合。并且,在特征重新确定单元442根据上述的步骤S970~S990重新确定遮挡区域的特征之后,在步骤S9110中,特征组合单元443将把定位的显著区域的第一子区域的特征,与定位的显著区域的第二子区域的特征进行组合。

如在步骤S910中所述,如果遮挡区域确定单元441确定定位的显著区域不是遮挡区域,则过程将进入到步骤S9120。在步骤S9120中,特征组合单元443将判断定位的显著区域的中心是否在面部的对称线上。如果定位的显著区域的中心被判断为不在面部的对称线上,则过程将进入到上述的步骤S9100;否则,过程将进入到上述的步骤S9110。

在步骤S9100中,由于面部的对称性,定位的显著区域中的划分块和定位的显著区域的对称区域中的划分块将具有不同的位置。因此,特征组合单元443首先将基于面部的对称性,使定位的显著区域中的划分块和定位的显著区域的对称区域中的划分块具有相同的位置,而后将融合定位的显著区域的特征和定位的显著区域的对称区域的特征,其中所述融合操作可以是某类算术运算,诸如加法运算、乘法运算、求平均算子等。在下文中,将参照图13A至图13D来描述示例性的处理。

图13A至图13D是示意性地示出基于面部的对称性而彼此对称的两个定位的显著区域、以及从这两个定位的显著区域中提取的相应特征的图。在图13A中,示出了一个定位的显著区域(即,显著区域A)和另一定位的显著区域(即,显著区域B),其中这两个显著区域基于面部的对称性(即,图13A中所示的虚线)而彼此对称。作为示例,两个显著区域均被划分为相同数量的块(诸如图13A中所示的m*n),并且各块具有相同的面积大小。在显著区域A的左上角的一个块是S1,并且在显著区域B的右上角的另一个块是S2。显然,块S1与块S2对称。

如上所述,图4中所示的特征提取单元430能够将从划分块中提取的特征链接在一起,以构造显著区域的链接特征,并且各显著区域的特征的链接顺序是相同的。假设特征的链接顺序是将从上部块中提取的特征链接到底部块,并且从左部块到右部块,由此,块S1的特征首先被链接,以构造显著区域A的链接特征(诸如图13B中所示的链接特征V1),而当构造显著区域B的链接特征(诸如图13C中所示的链接特征V2)时,块S2的特征不首先被链接。这意味着,块S1的位置与块S2的位置不同。

因此,应当进行一些调整。以显著区域A作为基准(即,显著区域A中的各块的位置是不变的),显著区域B中的各块的位置需要被变换。如图13D所示,通过基于面部的对称性来调整各块的索引,链接特征V2将被变换为链接特征V2’(诸如特征的链接顺序是将从上部块中提取的特征链接到底部块,并且从右部块到左部块),使得显著区域A中的划分块和显著区域B中的划分块能够具有相同的位置。

现在,返回到图9,在步骤S9110中,由于面部的对称性,第一子区域中的划分块和第二子区域中的划分块将具有不同的位置。因此,特征组合单元443首先将基于面部的对称性,使第一子区域中的划分块和第二子区域中的划分块具有相同的位置,而后将融合第一子区域的特征和第二子区域的特征,其中所述融合操作可以是上述的算术运算,诸如加法运算、乘法运算、求平均算子等。在下文中,将参照图14A至图14D来描述示例性的处理。

图14A至图14D是示意性地示出按面部的对称性而被划分为两个部分的定位的显著区域、以及从这两个部分中提取的相应特征的图。在图14A中,示出了按面部的对称性(即,虚线)而划分的一个定位的显著区域,其中该定位的显著区域的左子区域是第一子区域,并且该定位的显著区域的右子区域是第二子区域。

与图13A至图13D中的描述相同,块S3与块S4对称,并且块S3的位置与块S4的位置不同。因此,以第一子区域作为基准,第二子区域中的各块的位置需要被变换。如图14B至图14D所示,在图14B中示出了第一子区域的链接特征V3,在图14C中示出了第二子区域的链接特征V4,并且在图14D中示出了第二子区域的变换的链接特征V4’。由此,第一子区域中的划分块和第二子区域中的划分块能够具有相同的位置。

此外,对于显著区域,如上所述,块的数量一般是偶数,因此,一般不存在面部的对称线将一些块划分为两个部分的情况。然而,如果块的数量是奇数,则面部的对称线将把一些块划分为两个部分,诸如图15中所示的情况。在这样的情况下,针对被面部的对称线划分为两个部分的各块(诸如图15中所示的第一子块和第二子块),首先,图4中所示的特征提取单元430将从各子块中重新提取特征,而后,图8中所示的特征组合单元443将执行在步骤S9110中所述的相应处理。

如上所述,由于本发明利用面部的对称性来确定彼此对称的显著区域对,并且将各对显著区域的提取的特征整合为一个特征,因此,能够减少用于图像处理的特征的维数。

以图6A及图6B中所示的人脸为例,如上所述,图4中所示的区域确定单元422定位15个显著区域,并且,所述15个显著区域分别是各眼部区域上的4个显著区域、鼻部区域上的3个显著区域,以及嘴部区域上的4个显著区域。而后,特征提取单元430将构造各定位的显著区域的一个链接特征,换言之,特征提取单元430将构造15个链接特征。根据本发明,特征整合单元440将找到彼此对称的6对显著区域,以及在面部的对称线上的3个显著区域。因此,特征整合单元440将把15个链接特征整合为9个整合特征,并且所述9个整合特征分别是两个眼部区域的4个整合特征、鼻部区域的2个整合特征,以及嘴部区域的3个整合特征。因此,能够减少用于图像处理的图6A及图6B中所示的人脸的特征的维数。

另外,由于本发明从输入图像中包含的整个面部来提取特征,并且考虑到遮挡,因此,能够保持图像处理精度。

(总体处理)

下面,将参照图16,来描述由第一实施例的配置执行的总体处理。图16是示意性地示出根据第一实施例的总体处理的过程的流程图1600。

如上所述,首先,图3中所示的输入设备350将接收包含面部的一个图像,所述图像是从图像获取设备输出的,或者是由用户输入的。其次,输入设备350将经由系统总线380,将获取到的图像传送到图4中所示的图像获取单元410。

而后,如图16所示,在图像获取步骤S1610中,图像获取单元410将通过系统总线380,从输入设备350来获取包含面部的图像。

在特征点检测步骤S1620中,区域定位单元420将通过使用现有方法,在获取到的图像中检测特征点。

在区域定位步骤S1630中,区域定位单元420将在获取到的图像中,定位代表面部的属性的至少一个区域。在本发明中,代表面部的属性的区域可以被视为显著区域,并且面部中的眼部区域、鼻部区域、嘴部区域及其他区域可以被视为上述的显著区域。

在块划分步骤S1640中,特征提取单元430将把定位的显著区域,划分为具有相同面积大小的多个块。为了方便特征整合单元440的整合操作,块的数量可以是偶数。

在特征提取步骤S1650中,特征提取单元430将从各划分块中提取特征。

在遮挡区域确定步骤S1660中,针对各定位的显著区域,特征整合单元440将确定定位的显著区域是否为遮挡区域,其中所述遮挡区域例如可以是被头发遮挡的显著区域,或者被眼镜遮挡的显著区域。如果定位的显著区域被判断为遮挡区域,则过程将进入到步骤S1670;否则,过程将进入到步骤S1680。

在特征重新确定步骤S1670中,针对一个遮挡区域,特征整合单元440将根据基于面部的对称性而与遮挡区域对称的、相应的定位的显著区域的特征,来重新确定遮挡区域的特征。

在特征整合步骤S1680中,特征整合单元440将整合基于面部的对称性而彼此对称的定位的显著区域的特征,其中,如果两个定位的显著区域基于面部的对称性而彼此对称,则意味着,这两个定位的显著区域的中心基于面部的对称性而彼此对称。

在面部特征获得步骤S1690中,面部特征获得单元450可以进一步将整合特征链接在一起,以获得整个面部的链接特征,其中链接顺序不受限制,只要各面部图像的链接顺序相同即可。

最后,面部特征获得单元450将经由系统总线380,将整个面部的链接特征传送到图3中所示的输出设备360,以用于向用户显示处理结果,或者用于下文所述的后续操作,诸如识别面部表情、识别面部等。

(面部表情识别系统的配置)

如在第一实施例中所述,从图4中所示的图像处理装置400输出的处理结果(即,整个面部的链接特征)能够用于识别面部表情。接下来,在第二实施例中,将参照图17,来描述用于上面参照图3所述的图像处理装置的图像处理(即,面部表情识别)的配置。也可以被视为图像处理装置的本实施例的面部表情识别系统具有与图3中所述相同的硬件配置。

图17是例示根据本发明的第二实施例的图像处理装置(即,面部表情识别系统1700)的配置的框图。

图17中所示的模块被实现为上面参照图3所述的图像处理装置的CPU 310,并且用于执行被加载到RAM 320的程序,以及用于与图3中所示的各硬件协作。可以由专用硬件来实现部分或全部的模块。

如图17所示,根据本发明的第二实施例的面部表情识别系统1700包括:上述的图像处理装置400、面部表情识别单元1710,以及预生成的面部表情模型1720。

针对包含面部的输入图像,首先,图像处理装置400将根据上面参照图4至图16的描述,来获得整个面部的链接特征。

而后,面部表情识别单元1710将基于获得的整个面部的链接特征以及预生成的面部表情模型1720,识别输入图像中的面部的面部表情类别,其中一个面部表情类别对应于一个预生成的面部表情模型,预生成的面部表情模型1720可以由制造商预先基于具有各种不同表情(诸如愤怒表情、微笑表情、中性表情、悲伤表情等)的多个图像样本而生成或训练,并且可以被存储在图3中所示的ROM 330或硬盘340中。作为示例,预生成的面部表情模型1720可以基于支持向量机(Support Vector Machine,SVM)算法而生成,其中用于生成面部表情模型的特征可以是根据本发明而获得的特征。

最后,面部表情识别单元1710将经由系统总线380,把识别出的面部的面部表情类别传送到图3中所示的输出设备360,以用于向用户显示处理结果,或者用于下文所述的后续操作,诸如评价在线教育的质量等。

此外,面部表情识别单元1710可以通过各种方式来实现识别。例如,在一种实施方式中,面部表情识别单元1710可以通过所谓的“一对所有(one-against-all)”方式来实现识别。以这种方式,面部表情识别单元1710将计算整个面部的链接特征与生成的面部表情模型1720之间的置信分数,而后将直接基于计算出的置信分数来识别面部的面部表情类别,诸如可以把与最高置信分数相对应的面部表情类别,识别为面部的面部表情类别。

在另一实施方式中,面部表情识别单元1710可以通过所谓的“一对一(one-against-one)”方式来实现识别。以这种方式,面部表情识别单元1710将计算整个面部的链接特征与生成的面部表情模型1720之间的置信分数,并且将在每两个预生成的面部表情模型之间进行投票,其中所述投票需要被循环操作次,并且n是预生成的面部表情模型的总数。而后,面部表情识别单元1710将进行如下的识别,即把与具有最高投票分数的预生成的面部表情模型相对应的面部表情类别,识别为面部的面部表情类别。

如在第一实施例中所述,能够减少在图像处理装置400中使用的特征的维数,并且图像处理装置400能够保持图像处理精度(即,能够保持将用于面部表情识别的特征的精度),因此,也能够减少在面部表情识别系统1700中使用的特征的维数,并且也能够保持面部表情识别的精度。

(总体处理)

下面,将参照图18,来描述由第二实施例的配置执行的总体处理。图18是示意性地示出根据第二实施例的总体处理的过程的流程图1800。

首先,在图像处理步骤S1810中,针对包含面部的输入图像,图像处理装置400将根据上面参照图4至图16的描述,来获得整个面部的链接特征。

而后,在面部表情识别步骤S1820中,面部表情识别单元1710将基于获得的整个面部的链接特征以及预生成的面部表情模型1720,识别输入图像中的面部的面部表情类别,诸如微笑表情或悲伤表情或者其他面部表情。

最后,面部表情识别单元1710将经由系统总线380,把识别出的面部的面部表情类别传送到图3中所示的输出设备360,以用于向用户显示处理结果,或者用于下文所述的后续操作,诸如评价在线教育的质量等。

(在线教育评价系统)

如上所述,可以把从图17中所示的面部表情识别系统1700输出的识别结果(即,识别出的面部的面部表情类别)用于评价在线教育的质量。因此,作为上述面部表情识别的示例性应用,接下来将参照图19,来描述在线教育评价系统的整体配置。图19是示出根据第二实施例的、应用面部表情识别的在线教育评价系统1900的整体配置的框图。

如图19所示,根据本发明的在线教育评价系统1900包括图像获取设备1910、上述的面部表情识别系统1700,以及监视设备1920。

在一个在线教育课堂中,图像获取设备1910能够实时地跟踪并捕获每个学生的面部图像。如上面在图3中所述,图像获取设备1910例如能够经由网络,与面部表情识别系统1700连接。并且,图像获取设备1910可以是任何种类的电子设备,只要能够跟踪并捕获图像即可,诸如可以是网络摄像头、数字照相机、电视摄像机、视频摄像机、移动电话、个人数据助理(PDA)、笔记本电脑,或者其他适合的电子设备。

并且,可以把由图像获取设备1910捕获的每个学生的面部图像,发送到面部表情识别系统1700的输入设备350。面部表情识别系统1700将根据上面参照图17至图18的描述,识别每个获取到的面部图像中的面部的面部表情类别。

而后,面部表情识别系统1700的输出设备360将把面部表情识别结果输出到监视设备1920。如上面在图3中所述,监视设备1920例如也能够经由网络,与面部表情识别系统1700连接。并且,监视设备1920可以是任何种类的电子设备,只要能够向用户显示面部表情识别结果即可,诸如可以是液晶显示器。

在整个课堂中,如果识别出的关于大多数学生的面部表情类别是微笑表情,则可能意味着,大多数学生喜爱该在线课程。因此,在线教育评价系统1900能够通过利用学生的面部表情,来评价和提高在线教育的质量。

(面部识别系统的配置)

如在第一实施例中所述,从图4中所示的图像处理装置400输出的处理结果(即,整个面部的链接特征)能够用于识别面部。接下来,在第三实施例中,将参照图20,来描述用于上面参照图3所述的图像处理装置的图像处理(即,面部识别)的配置。也可以被视为图像处理装置的本实施例的面部识别系统具有与图3中所述相同的硬件配置。

图20是例示根据本发明的第三实施例的图像处理装置(即,面部识别系统2000)的结构的框图。

图20中所示的模块被实现为上面参照图3所述的图像处理装置的CPU 310,并且用于执行被加载到RAM 320的程序,以及用于与图3中所示的各硬件协作。可以由专用硬件来实现部分或全部的模块。

如图20所示,根据本发明的第三实施例的面部识别系统2000包括:上述的图像处理装置400、面部识别单元2010,以及预生成的面部模型2020。

针对包含面部的输入图像,首先,图像处理装置400将根据上面参照图4至图16的描述,来获得整个面部的链接特征。

而后,面部识别单元2010将基于获得的整个面部的链接特征以及预生成的面部模型2020,识别输入图像中的面部,其中一个面部对应于一个预生成的面部模型,预生成的面部模型2020可以由制造商预先基于关于不同人的多个图像样本而生成或训练,并且可以被存储在图3中所示的ROM 330或硬盘340中。作为示例,预生成的面部模型2020也可以基于SVM算法而生成,其中用于生成面部模型的特征可以是根据本发明而获得的特征。

最后,面部识别单元2010将经由系统总线380,把识别出的面部传送到图3中所示的输出设备360,以用于向用户显示处理结果,或者用于下文所述的后续操作,诸如基于识别出的面部将捕获图像存储在数字照相机中,等等。

此外,面部识别单元2010也可以通过各种方式来实现识别,诸如通过第二实施例中描述的“一对所有”方式及“一对一”方式。

如在第一实施例中所述,能够减少在图像处理装置400中使用的特征的维数,并且图像处理装置400能够保持图像处理精度(即,能够保持将用于面部识别的特征的精度),因此,也能够减少在面部识别系统2000中使用的特征的维数,并且也能够保持面部识别的精度。

(总体处理)

下面,将参照图21,来描述由第三实施例的配置执行的总体处理。图21是示意性地示出根据第三实施例的总体处理的过程的流程图2100。

首先,在图像处理步骤S2110中,针对包含面部的输入图像,图像处理装置400将根据上面参照图4至图16的描述,来获得整个面部的链接特征。

而后,在面部识别步骤S2120中,面部识别单元2010将基于获得的整个面部的链接特征以及预生成的面部模型2020,识别输入图像中的面部,诸如人A的面部或人B的面部或者其他人的面部。

最后,面部识别单元2010将经由系统总线380,把识别出的面部传送到图3中所示的输出设备360,以用于向用户显示处理结果,或者用于下文所述的后续操作,诸如基于识别出的面部将捕获图像存储在数字照相机中,等等。

以由数字照相机捕获的、并且包含人A的面部的图像为例,其中在所述数字照相机中应用了参照图20所述的面部识别系统2000,在面部识别系统2000识别出该捕获图像中的面部是人A的面部之后,该数字照相机能够将该捕获图像,存储到专门用来存储人A的图像的文件夹中。此外,面部识别系统2000可以由数字照相机中的硬件和/或软件来实现。在一种实施方式中,可以向数字照相机中并入能够实施面部识别的模块或装置,因而,数字照相机将具有相应的面部识别功能。在另一实现方式中,可以在数字照相机的存储设备中,存储能够实施面部识别的软件程序,因而,数字照相机也将具有相应的面部识别功能。

上述所有的单元均是用于实现本公开中描述的处理的示例性和/或优选的模块。这些单元可以是硬件单元(诸如现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如计算机可读程序)。上面未详尽地描述用于实现各种步骤的单元。然而,在存在进行某一处理的步骤的情况下,可以存在用于实现相同处理的相应模块或单元(由硬件和/或软件实现)。在本申请的公开中,包括基于描述的步骤以及与这些步骤相对应的单元的全部组合的技术方案,只要所构成的这些技术方案是完整的且适用的即可。

此外,如果部分地或全部地通过软件,来构造由各种单元构成的、图4中所示的图像处理装置400或者图17中所示的面部表情识别系统1700或者面部识别系统2000,则所述软件可以被存储在图3中所示的硬盘340中。在另一方面,如果部分地或全部地通过硬件或固件,来构造图4中所示的图像处理装置400或者图17中所示的面部表情识别系统1700或者面部识别系统2000,则只要有在诸如数字照相机等的电子设备中处理图像的需求,所述硬件或固件也可以作为模块被并入到所述电子设备中。

可以通过多种方式来实施本发明的方法及装置。例如,可以通过软件、硬件、固件或这三者的任意组合,来实施本发明的方法及装置。上面描述的方法的步骤的顺序仅旨在说明性的,并且,本发明的方法的步骤并不局限于上面具体描述的顺序,除非另外特别说明。此外,在一些实施方式中,本发明还可以体现为记录在记录介质中的程序,包括用于实施根据本发明的方法的机器可读指令。因此,本发明还涵盖存储有用于实现根据本发明的方法的程序的记录介质。

虽然利用示例详细说明了本发明的一些具体实施例,但是,本领域的技术人员应当理解,上述的示例仅旨在说明性的,而不是限制本发明的范围。本领域的技术人员应当理解,可以在不偏离本发明的范围和精神的情况下,对上述实施例进行修改。本发明的范围是由所附的权利要求来定义的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1