一种融合深度图像和多通道特征的表情识别方法与流程

文档序号:12468195阅读:279来源:国知局

本发明涉及图像处理技术领域,具体涉及图像处理,人机交互,具体是涉及人脸表情识别技术。



背景技术:

人脸表情交互是人机交互与情感计算的一个重要研究内容。面部表情是最有说服力的,同样也是人类情感交流,表达意图甚至规范与其他人自然交互的重要途径。面部表情往往能够传达很多语言所不能传达的东西。面部表情可以分为宏观表情和微观表情,宏观表情是人们在常规状态下展示出的面部信号;而微观表情则是短暂的、潜在的表情,这种表情通常在人们有意或无意的隐藏或压制他们的内心情感时发生。面部运动不仅反映了面部情感,也反映出了其他类情感,如社会活动和心理变化。这些都论述了智能面部行为分析的重要性,智能面部行为分析包括面部表情及情感的分析以及面部活动单元的识别,这些都是该领域近二十年来炙手可热的研究领域。计算机通过对人脸表情的识别,可以感知人类的情感和意图,并生成自身的表情,与人类进行智能和自然的交流。在多模人机交互中,人脸表情也扮演十分重要的作用。人脸表情往往反映了人在特定场合特定的心理状态,但这些表情往往细微或者不易被人察觉。由于人的注意力有限,无法顾及这类变化的发生,甚至有可能得出相反的结论。通过计算机对人的表情进行识别,则可以得到更加客观、精确的结果。随着数字技术的推广,该技术可以应用到日常生活的诸多方面,例如社交友好度检测,公安机关测谎辅助。在互联网+的时代,智能交互的网络教学已经崭露头角,精准的面部表情分析能够协助教师及时察觉学生听课情绪,从而制定更加个人化、高效率的教学方案。

主流的人脸表情或者情感方面的研究主要是基于RGB摄像机,它一般只能捕捉单纯的二维信息。因为人脸特征的三维性,二维的RGB图像往往不能提取细节的面部表情特征。在一些不可控的情况下,例如,条件光漫反射、姿势、光照以及表情的变化,对于表情识别是一个非常棘手的问题。三维图像相较二维图像能够较好的还原面部细节特征,也能更好的适应变化中的取景环境。

表情识别系统的另一大难题是识别过程的实时性的问题。尽管在图像预处理阶段可以承担一定的计算复杂度,基于二维RGB相机的面部表情识别大多仍然不能达到实时处理的要求。因此,减少特征的纬度和降低识别过程计算量显得尤为重要。

现有专利提出了三维弯曲不变量的相关特征用来进行人脸特性描述,通过编码三维人脸表面相邻节点的弯曲不变量的局部特征,提取弯曲不变量相关特征,使用谱回归方法对特征进行降维,并运用K最近邻分类方法对三维人脸进行识别。但复杂的三维特征计算量降低了识别效率。国内外许多学者也提出了很多三维的面部识别算法,但三维数据计算量庞大,传感器的价格昂贵,无法进行有效实时识别和有效的推广。

随着传感器市场的发展,一些价格适中的深度传感器,如Kinect、Leap motion等,能够提供以深度信息为辅助的(伪)三维信息,深度信息的出现在丰富了细节信息的同时,也降低了在传感器上的花费。在此基础上,一些专利提出实时表情特征提取及识别方法,通过使用Kinect作为图像采集设备,提取面部活动单元和特征点坐标作为分类特征,采用多类支持向量机进行表情分类。但主要使用几何特征进行分类,没有考虑纹理信息,也缺少对多分类支持向量的优化。

支持向量机是在统计学习理论基础上发展起来的一种学习方法,在很大程度上解决了小样本问题、模型选择问题和非线性问题,且具有很强的泛化性能,现已成为国际上模式识别领域的研究热点,在人脸检测、手写数字识别、文本分类等许多领域都获得了成功的应用。多核学习是现阶段机器学习中炙手可热的研究课题,它在普通支持向量机上的基础上,对不同特征的分类采用不同核函数,然后根据后期核函数融合,解决复杂特征分类问题。该方法能够很好的提高特异性问题的识别精度。

综上所述,虽然人脸表情识别领域已经发展多年,如何克服不同光照、头部姿势、复杂背景等实际因素的影响仍然是一个十分棘手的问题。如何充分利用当前深度图像优势,综合考虑面部纹理特征和几何特征的多通道信息的表情识别方法,如何优化特征提取过程和分类算法就变得尤为重要。



技术实现要素:

本发明旨在解决以上现有技术的问题。提出了一种提高了识别准确率,具有较好的实时性和鲁棒性的融合深度图像和多通道特征的表情识别方法。本发明的技术方案如下:

一种融合深度图像和多通道特征的表情识别方法,其包括以下步骤:

对输入的人脸表情图像进行配准,人脸区域识别并进行预处理操作;

提取面部表情图像中的显著性特征、图像熵特征以及面部表情几何特征;

将以上显著性特征、图像熵特征以及面部表情几何特征融合形成多通道面部表情特征向量,并将融合结果输送至多类支持向量机分类器进行表情分类识别。

进一步的,所述对输入的人脸表情图像进行配准包括步骤:

步骤101:获取彩色RGB图像和Kinect深度图像并进行配准,由于深度红外摄像头和RGB相机处于不同位置,使用配准变换矩阵:

其中R和T分别为旋转矩阵和平移矩阵,(x,y,z),(X,Y,Z)分别RGB图像和深度图像的像素坐标。

进一步的,人脸区域识别并进行预处理操作包括步骤:

对Kinect深度图像进行鼻尖检测,以鼻尖为球心按一定半径,球面裁切得到框选的人脸表情区域,在深度数据模式下定位人脸位置并完成裁切;

将采集到的深度数据转化为深度图像;

确定裁切深度图像范围后,在彩色图像中进行面部范围同尺寸裁切;

根据裁切后的彩色图像和深度图像进行中值滤波,将处理得到的面部表情图像利用线性插补的方法,进行图片尺寸统一。

进一步的,当采用Kinect进行深度数据采集时,深度数据的数值范围在0-4095

之间,则需要将每个像素位置点的深度数据按比例映射至0-255的灰度色彩

空间,完成深度信息向深度图像的转化。

进一步的,所述图像熵特征包括深度图像熵特征和灰度化的彩色图像熵特征,显著性特征为彩色图像的特征,且以上特征均采用灰度直方图方法提取纹理信息的纹理特征。

进一步的,所述面部表情几何特征的提取使用主动外观模型,自动在灰度化的彩色图像中识别人脸表情的特征点。

进一步的,所述多通道面部表情特征向量还包括通过核函数融合的步骤,具体为:

对于深度熵特征信息采用线性核函数进行映射,灰度图像熵特征采用X2核函数进行映射,显著性特征和面部特征点特征采用高斯核函数进行映射;

通过不同类特性的分别学习得到各个核函数的权重,得到最后的识别结果函数:

表示识别结果函数,表示符号函数表示各类核函数权重,表示核函数,表示核函数权值,为门限值,输入向量,表示融合核函数个数

进一步的,融合结果输送至多类支持向量机分类器进行表情分类识别包括步骤:将融合特征向量和融合核函数送至多类SVM进行表情分类;

采用网格搜索,进行罚系数C和高斯函数γ值进行寻优,使用交叉验证率作为标准,最终确定SVM参数;

对数据集设置参数,采用赋予不同权值,加大或降低惩罚系数的方法,对数据集偏少的样本类别给与较大的类别权值,优化最终的分类结果。

本发明的优点及有益效果如下:

本发明提出了通过提取面部表情图像中显著性特征、图像熵特征以及面部表情几何特征,融合形成多通道面部表情特征向量。为了减少冗余信息,采用灰度直方图方法提取显著性和图像熵关键特征信息。为保证识别效率,采用后期融合多核学习的方法设置多分类支持向量机融合核函数对面部特征向量进行分类,完成表情识别。

深度图像熵的引入,强化了主动外观模型在不同光照环境中的鲁棒性,保证了识别方法在苛刻取景环境的识别准确率。

色彩图像显著性的引入,差异化了各类表情之间的视觉特征,使得各个分类的特征更加容易被区分。

多核学习融合方法的引入,优化了各类特征的特异性选择,保证了识别特征的有效性和识别精度。

与现有技术相比,本发明使用深度图像熵、灰度图像熵、彩色图像显著性、面部几何特性等多通道表情纹理特征和几何特征,在保证识别差异性的同时,能够很好地克服光照、头部姿势、复杂背景等因素的影响,多核多分类支持向量机在小样本数据集上的运用,能够很好的满足实时性的需求。本发明多通道人脸表情识别方法简单方便,识别准确率高,具有较好的实时性和鲁棒性。

附图说明

图1是本发明提供优选实施例融合深度图像和多通道特征的表情识别系统框架图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明的技术方案如下:

本发明的发明目的在于提供一种融合深度图像和多通道特征的表情识别方法,通过提取深度图像熵、灰度图像熵、彩色图像显著性、面部几何特性等多通道表情特征,采用多核学习和多类支持向量机进行特征融合与分类,有效克服了不同光照条件、不同头部姿势、复杂背景等因素的影响,极大地提高了表情识别率和实时性。

一种融合深度图像和多通道特征的表情识别方法,其包括:

对输入的人脸表情图像进行人脸区域识别并进行预处理操作。一方面,使用Kinect鼻尖进行人脸识别,对识别结果进行界定框标记框选,然后进行图片裁切。上述裁切过程主要在RGB图像上进行。另一方面,将深度信息进行图像转化,完成深度图像和彩色图像的校准,然后按照界定框进行同尺寸裁切。为了方便后续步骤的进行,运用线性插补的方法进行图片尺寸统一。

选取深度信息图像和彩色信息图像的图像熵以及显著性特征作为人脸表情纹理信息,采用灰度直方图方法提取纹理信息的纹理特征。图像熵反映了内容信息的不确定性,而在图像中这种不确定性在图片信息边缘部分,例如鼻尖、嘴角,眼周,显得尤为突出,因此图像熵能够较好作为表情识别的一类特征,再者,深度图像的图像熵能够很好的还原面部的轮廓而不受光照的影响,使得深度图像熵能够作为细节信息加强面部表情识别的鲁棒性。图像显著性表示每块图像区域在视觉效应下的明显程度,彩色图像的显著性特征则有利于还原不同表情的视觉聚焦特性。

利用主动外观模型,从彩色信息灰度化图像中提取出面部表情特征点作为几何特征。主动外观模型是基于特征点分布的一类统计模型,尽管被广泛应用与表情识别特征点识别领域,但其算法无法克服苛刻光照条件的影响。虽然深度图像能够较好地还原不同光照下面部特征信息,但由于图像噪声的存在,仍然不能很好地运用于主动外观模型。

融合纹理特征和几何特征,不同特征采用不同的核函数进行后期融合多核学习,将融合核函数送至多类支持向量机分类器进行多核学习,从而进行表情分类。相比人工神经网络和决策树,支持向量机在克服过渡拟合的同时,能够借助核函数产生非线性的分类边界,其产生的软边界能够很好的降低错分率。在样本数据集的选择方面,支持向量机在小样本的数据集上也能够保持很高的分类准确率,这个特性使得支持向量机有优良的实时性能。

本发明提供一种融合深度图像和多通道特征的表情识别方法,系统框架图如图1所示,包括:

步骤1:对输入的人脸表情图像进行图像配准,人脸区域识别并进行预处理操作。

步骤101:对彩色RGB图像和Kinect深度图像进行配准,由于深度红外摄像头和RGB相机处于不同位置,使用配准变换矩阵:

其中R和T分别为旋转矩阵和平移矩阵,(x,y,z),(X,Y,Z)分别RGB图像和深度图像的像素坐标;

步骤102:通过Kinect进行鼻尖检测,按90mm球面裁切得到框选的人脸表情区域,在深度数据模式下定位人脸位置并完成裁切;

步骤103:将采集到的深度数据转化为深度图像,以Kinect为例,深度数据的数值范围在0-4095之间,则需要将每个像素位置点的深度数据按比例映射至0-255的灰度色彩空间,完成深度信息向深度图像的转化;

步骤104:确定裁切深度图像范围后,在彩色图像中进行面部范围同尺寸裁切;

步骤105:根据裁切后的彩色图像和深度图像进行中值滤波,将处理得到的面部表情图像利用线性插补的方法,进行图片尺寸统一。

步骤2:选取深度信息图像和彩色信息图像的图像熵以及显著性特征作为人脸表情纹理信息,采用灰度直方图方法提取纹理信息的纹理特征。

步骤201:图像熵的计算公式为:

其中p(xi)为概率质量函数,它表示灰度值xi出现在计算领域内出现的概率;n为可能出现灰度值(0-255)的总和。为了保证图像熵提取的有效性和快速性,将计算领域设置为5*5像素。将深度图像和灰度化的彩色图像分别进行图像熵计算;

步骤202:通过公式

计算出彩色图像的显著性特征,公式中C、I、O分别为彩色图像,灰度图像,灰度图像方向通道。其中彩色图像通道的显著性计算中,选取红、绿色(RG)和蓝、黄色(BY)两组对比色作为基准计算模式。显著性计算中,总共有42张显著特征图需要进行计算,其中灰度图像6张,彩色图像12张,图像方向24张,最后将三个通道进行相同权值加和,得到最后的图像显著性特征。

步骤203:利用灰度直方图特征提取方法,对灰度化彩色图像的图像熵、深度图像的图像熵以及彩色图像的显著性图像进行特征提取。将其特征向量进行合并,得到面部表情纹理特征的特征向量。

步骤3:利用主动外观模型(AAM),从彩色信息图像中提取出面部表情特征点作为几何特征。

步骤301:对人脸数据库图像进行特征点标定;

步骤302:利用标定图像进行主动外观模型(AAM)训练;

步骤303:利用主动外观模型(AAM),进行特征点定位,将特征点信息作为面部几何特征向量。

步骤4:对不同特征选取不同的核函数进行后期融合。

步骤401:对于深度熵特征信息采用线性核函数进行映射;灰度图像熵特征采用X2核函数进行映射,显著性特征和面部特征点特征采用高斯核函数进行映射;

步骤402:通过不同类特性的分别学习得到各个核函数的权重,得到最后的识别结果函数:

步骤5:将融合特征向量和融合核函数送至多类SVM进行表情分类。

步骤501:为保证验证效果,采用网格搜索,进行罚系数C和高斯函数γ值进行寻优,使用交叉验证率作为标准,最终确定SVM参数;

步骤502:针对数据集不平衡的现象,对数据集设置参数,优化最终的分类结果。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1