基于联合学习身份和情感信息的面部表情识别方法与流程

文档序号:16899786发布日期:2019-02-19 17:51阅读:274来源:国知局
基于联合学习身份和情感信息的面部表情识别方法与流程

本发明涉及计算机视觉和情感计算领域,更具体地,涉及一种基于联合学习身份信息和情感信息的面部表情识别方法。



背景技术:

随着计算机技术和人工智能技术及其相关学科的迅猛发展,整个社会的自动化程度不断提高,人们对类似于人和人交流方式的人机交互的需求日益强烈。人脸表情是最直接、最有效的情感识别模式。它有很多人机交互方面的应用。计算机和机器人如果能够像人类那样具有理解和表达情感的能力,将从根本上改变人与计算机之间的关系,使计算机能够更好地为人类服务。面部表情识别是情感理解的基础,是计算机理解人们情感的前提,也是人们探索和理解智能的有效途径。

面部表情识别是一项旨在从静止图像或者视频序列中识别出人物面部表达出来的情感属性(例如中立,悲伤,蔑视,快乐,惊讶,愤怒,恐惧,厌恶等)的任务。虽然近年来有许多工作都集中在基于视频或图像序列的面部表情识别任务,但基于静止图像的面部表情识别仍然是一个具有挑战性的问题,本发明要处理的研究对象也是针对静止图像而言。

纵观整个面部表情识别的研究历史,它是跟随人脸识别的发展而发展的,人脸识别领域比较好的方法会同样适用于表情识别。早期的面部识别任务研究中,许多工作都是基于手工设计的特征进行的。这些方法通常包括前端的特征提取和后端的分类器训练两个分离的阶段。在特征提取阶段,人们利用专家先验知识设计了许多有用的特征,如局部二值模式,gabor小波特征,尺度不变换特征和高斯脸等等。在此基础上,采用有监督的分类器,如支持向量机,前馈神经网络和超限学习机等进行后续建模。

近年来,随着深度学习技术的发展,基于深度神经网络的方法在面部相关识别任务中取得了优异的性能。在面部身份识别任务中,深度卷积神经网络(covolutionalneuralnetwork,cnn)表现出了优于传统手工设计特征方法的性能。在面部表情识别中,cnn模型也已被广泛应用。但是,在面部表情识别任务中,缺乏大规模标记的训练数据,不一致和不可靠的情绪标签和主体间的可变性等因素都限制了cnn在面部表情识别任务上的表现,系统性能仍有进一步提升的空间。

在面部表情识别问题中,面临的比较大的挑战主要有两个。首先,一些面部表情之间的差异可能本身就很微妙,因此在某些情况下很难对它们进行准确分类。其次,由于受试者个体间的差异,如五官形状等等,不同的受试者可能会以不同的方式表达相同的特定面部表情。也就是说,即使是同一种面部表情属性,不同受试者个体之间表达出来的状态也可能是有较大差异的。



技术实现要素:

针对上述技术问题,本发明的目的在于提供一种基于联合学习身份信息和情感信息的面部表情识别方法。本发明使用额外的人脸识别数据中的面部身份信息来辅助面部表情识别,从而提升面部表情识别方法对于受试者个体间自身差异的鲁棒性,并最终提升面部身份识别系统的性能。更具体地,通常面部表情识别数据库的数据量都非常少,同时面临着标注不可靠以及受试主体个体表达方式不一的挑战。本发明就是利用已有的海量人脸识别数据库中学习得到面部身份信息,以此融合情感信息进行联合优化,从而突破数据量较少带来的性能瓶颈,增强系统对于个体差异的鲁棒性。本发明在模型的训练过程中,能够有效地利用额外的人脸识别训练数据来进行身份和情感信息的联合学习。

为实现上述目的,本发明是根据以下技术方案实现的:

一种基于联合学习身份信息和情感信息的面部表情识别方法,其特征在于,包括如下步骤:

使用人脸识别图像数据库和面部表情图像数据库来联合训练神经网络和优化神经网络;

所述人脸识别图像数据库用于独立训练和优化面部身份信息网络支路,训练完毕后将最后的人脸身份输出层去掉,只提取得到输入图像对应的身份特征向量;

所述面部表情图像数据库用于独立训练和优化面部表情信息网络支路,训练完毕后把最后的面部表情输出层去掉,只提取得到输入图像对应的情感特征向量;

将身份特征向量和情感特征向量串联在一起得到串联面部特征表达;最后将融合了身份信息和面部信息的串联面部表达特征馈送给随后的面部表情输出层;

在后续网络训练过程中,仅使用面部表情图像数据库对合并网络进行联合学习和优化,并最终预测面部表情识别结果。

上述技术方案中,由于网络结构和训练数据的不同,所述身份特征向量和情感特征向量通过批量归一化(batchnormalization,bn)进行规范化处理,再将这两个特征串联在一起形成串联面部表达特征。

本发明与现有技术相比,具有如下优点:

采用本发明方法训练好的面部表情识别方法能够提升面部表情识别方法对于受试者个体间自身差异的鲁棒性。最终的系统性能和原本只使用单一面部表情数据库训练得到的系统相比有显著的性能提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1为本发明的流程示意图;

图2是针对ck+面部表情测试数据库设计的resnet12基线系统网络结构图;

图3是本发明针对ck+面部表情测试数据库设计的联合学习身份信息和情感信息的面部表情系统;

图4是本发明针对fer+面部表情测试数据库设计的resnet18基线系统网络结构图;

图5是本发明针对fer+面部表情测试数据库设计的联合学习身份信息和情感信息的面部表情系统。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

图1为本发明的流程示意图。本发明的一种基于联合学习身份信息和情感信息的面部表情识别方法,包括:

使用人脸识别图像数据库和面部表情图像数据库来联合训练神经网络和优化神经网络;

所述人脸识别图像数据库用于独立训练和优化面部身份信息网络支路,训练完毕后将最后的人脸身份输出层去掉,只提取得到输入图像对应的身份特征向量;

所述面部表情图像数据库用于独立训练和优化面部表情信息网络支路,训练完毕后把最后的面部表情输出层去掉,只提取得到输入图像对应的情感特征向量;

将身份特征向量和情感特征向量串联在一起得到串联面部特征表达;最后将融合了身份信息和面部信息的串联面部表达特征馈送给随后的面部表情输出层

在后续网络训练过程中,仅使用面部表情图像数据库对合并网络进行联合学习和优化,并最终预测面部表情识别结果。

在本发明中,由于网络结构和训练数据的不同,有时学习到的的身份特征向量和情感特征向量的尺度并不在同一个范围内,因此,身份特征向量和情感特征向量通过批量归一化进行规范化处理,再将这两个特征串联在一起形成串联面部表达特征。

具体地,给定任意一张输入图片,本发明设计的网络分为两个支路对该图片进行处理:左边的支路学习身份特征信息,右边的支路学习情感特征信息。这两个支路都是由包含了许多卷积(convolutional,conv)层的的网络结构组成。分别使用人脸识别数据和面部表情数据把两个子网络训练完毕以后,再把这两个子网络归并在一起,得到最终的串联面部特征表达。最后将融合了身份信息和面部信息的串联面部表达特征馈送给随后的面部表情输出层。在后续网络训练过程中,仅使用面部表情图像数据库对合并网络进行联合学习和优化,并最终预测面部表情识别结果。

图2是针对ck+面部表情测试数据库设计的resnet12基线系统网络结构图。该基线系统仅仅使用ck+数据集训练。网络结构包括一个16通道卷积层,3个残差块结构,以及一个全局池化层。最后的预测结果由面部表情输出层给出。

图3是本发明针对ck+面部表情测试数据库设计的联合学习身份信息和情感信息的面部表情系统。在图2的基础上增加了人脸识别网络支路学习得到人脸身份特征向量,并和原有的人脸情感特征向量串联在一起得到融合了身份信息和情感信息的最终面部特征表达。最后,利用ck+面部表情训练数据对归并的网络进行联合训练调优。

图4是针对fer+面部表情测试数据库设计的resnet18基线系统网络结构图。该基线系统仅仅使用ck+数据集训练。网络结构包括一个16通道卷积层,4个残差块结构,以及一个全局池化层。最后的预测结果由面部表情输出层给出。

图5是本发明针对fer+面部表情测试数据库设计的联合学习身份信息和情感信息的面部表情系统。在图2的基础上增加了人脸识别网络支路学习得到人脸身份特征向量,并和原有的人脸情感特征向量串联在一起得到融合了身份信息和情感信息的最终的串联面部特征表达。最后,利用fer+面部表情训练数据对归并的网络进行联合训练调优。

实施例一:使用本发明在extendedcohn-kanade(ck+)数据上进行测试。

第一步:首先使用casia-webface人脸识别数据库训练用来提取人脸身份信息的子网络。casia-webface总共包含10757个人的494414幅图片。与此同时,使用labeledfacesinthewild(lfw)数据集进行人脸识别准确率的评测。该子网络的结构包含了多个卷积层和池化层和,最终可以提取得到一个160维度的人脸身份信息特征向量。该网络经过训练调优后可以在lfw数据集上达到91%的准确率。由于我们的最终目的并不是进行人脸验证,因此并不对该人脸验证性能进行过多优化。

第二步:使用ck+面部表情数据库训练用来提取面部表情信息的子网络。ck+数据库包含了327条具有面部表情属性标注信息的图片序列。对于每条图片序列,仅仅最后一帧提供了有效信息标注。为了能够收集到更多图片用于训练神经网络,这里选取了最后3张图片作为训练数据。此外,每条图片序列的第一帧都被看作是“中立”属性。因此,最后可以得到带有8个表情属性信息的1308张图片用于训练。最终测试时,我们使用十折交叉验证来对系统进行评测。使用这些训练数据,我们设计残差网络(residualnetwork,resnet)12层网络结构。该网络结构包含了1个卷积层,3个残差块结构,以及最后的全局池化层。最后可以提取得到一个64维度的面部表情信息特征向量。

第三步,把以上两个训练好的子网络合并在一起得到一个联合网络。160维的人脸身份信息向量和64维的面部表情向量串联起来可以得到一个最终的224维度的面部表达特征。然后把该特征向量进一步馈送给随后的全连接层。在后续训练过程中,仅仅使用面部表情数据库对这个新的合并网络进行联合学习和优化。

第四步,对训练好的网络进行测试。在ck+测试集上,使用如图2所示的基线系统方法得到的系统性能为97.56%,而使用了如图3所示的本发明创造的联合优化方法最终可以达到99.31%的系统性能。

实施例二:使用本发明技术在fer+数据上进行测试

第一步,和实施例一一致,首先使用casia-webface人脸识别数据库训练用来提取人脸身份信息的子网络。casia-webface总共包含10757个人的494414幅图片。与此同时,使用labeledfacesinthewild(lfw)数据集进行人脸识别准确率的评测。该子网络的结构包含了多个卷积层和池化层和,最终可以提取得到一个160维度的人脸身份信息特征向量。该网络经过训练调优后可以在lfw数据集上达到91%的准确率。由于我们的最终目的并不是进行人脸验证,因此并不对该人脸验证性能进行过多优化。

第二步,由于fer+数据集相比ck+数据集而言,数据量有明显上升,因此这里使用resnet18层的结构代替原来的resnet12层结构。该网络结构包含了1个卷积层,4个残差块结构,以及最后的全局池化层。最后可以提取得到一个64维度的面部表情信息特征向量。

第三步,和实施例一一致,把以上两个训练好的子网络合并在一起得到一个联合网络。160维的人脸身份信息向量和64维的面部表情向量串联起来可以得到一个最终的224维度的面部表达特征。然后把该特征向量进一步馈送给随后的全连接层。在后续训练过程中,仅仅使用面部表情数据库对这个新的合并网络进行联合学习和优化。

第四步,使用本发明技术在fer+数据集上进行测试,使用如图4所示的本发明创造的基线系统方法得到的系统性能为83.1%,而使用了如图5所示的本发明创造的联合优化方法最终可以达到84.3%的系统性能。

采用本发明方法训练好的面部表情识别方法能够提升面部表情识别方法对于受试者个体间自身差异的鲁棒性。最终的系统性能和原本只使用单一面部表情数据库训练得到的系统相比有显著的性能提升。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1