一种基于面部动作编码系统进行微表情检测的方法与流程

文档序号:11287338阅读:2209来源:国知局
一种基于面部动作编码系统进行微表情检测的方法与流程

本发明涉及表情识别领域,尤其是涉及了一种基于面部动作编码系统进行微表情检测的方法。



背景技术:

表情识别常用于人机交互、社交游戏、心理研究,辅助驾驶等领域,自动识别面部表情并推断情绪状态。具体地,如侦测被摄者笑脸启动自动拍摄,游戏玩家的自动表情更换,多媒体广告的用户观看效果分析等高级应用,检测患者的痛苦及不幸,驾驶员嗜睡检测。面部表情在人际交往和行为方面发挥重要作用,虽然现有方法在观察对象特征和分析已满足一定的准确性,但是目前方法多数只考虑局部信息,而忽略空间一致性,从而导引起估计误差,导致对特定场景中的部分目标无法进行准确的识别和检测。

本发明提出了一种基于面部动作编码系统进行微表情检测的方法,使用cnn可视化情感检测的特征图。首先建立健全的情绪分类框架,分析所提出网络学习的模型,将所提出的网络训练的滤波器在不同的情感分类任务上可视化,然后,在提供高精度分数的跨数据和跨任务方面验证了基于面部动作编码系统(facs)的功能的泛化能力,将模型应用于微表情检测。本发明提高了现有方法在微表情检测上的识别率,展示了由无监督学习过程产生的特征与用于面部表情分析方法中动作单元之间的强相关性,在提供高精度分数的跨数据和跨任务方面验证了基于facs的功能的泛化能力,并且提高了微表情检测的识别率,更准确地识别面部表情并推断情绪状态,提高其在各个领域应用的有效性和准确率,推动人工智能的发展。



技术实现要素:

针对现有方法识别率不足的问题,本发明提高了现有方法在微表情检测上的识别率,展示了由无监督学习过程产生的特征与用于面部表情分析方法中动作单元之间的强相关性,在提供高精度分数的跨数据和跨任务方面验证了基于facs的功能的泛化能力,并且提高了微表情检测的识别率,更准确地识别面部表情并推断情绪状态,提高其在各个领域应用的有效性和准确率,推动人工智能的发展。

为解决上述问题,本发明提供一种基于面部动作编码系统进行微表情检测的方法,其主要内容包括:

(一)可视化cnn滤波器;

(二)网络架构与训练;

(三)迁移学习;

(四)微表情检测。

其中,所述的可视化cnn滤波器,建立健全的情绪分类框架后,分析所提出网络学习的模型,将所提出的网络训练的滤波器在不同的情感分类任务上可视化,下层提供低级别的类gabor滤波器,而靠近输出的中间层和较高层提供高级别的人体可读取特征,通过使用上述方法,可以看出所训练网络的特征,特征可视化通过输入显示出最大化所需滤波器与负责所述响应的像素的激活,从分析所训练的模型可以看出,网络的特征图和特定的面部区域和运动之间有很大的相似性,并且这些区域和运动与定义面部动作编码系统(facs)运动单元的部分有显着的相关性。

进一步地,所述的facs,是面部动作编码系统,首先确定了7个主要的普遍情绪,满足在不同的文化环境下所表达意义不变的特性,用相应的情感状态标记他们,即幸福,悲伤,惊喜,恐惧,厌恶,愤怒和蔑视,被广泛应用于认知计算,而facs是一种基于解剖学的系统,用于描述每种情绪的所有可观察到的面部动作,使用facs作为方法论测量系统,可以描述动作单元(au)激活的任何表情及其活跃强度,每个动作单元描述一组面部肌肉,一起共同组成一个特定的运动。

进一步地,所述的cnn滤波器,使用以下方法将滤波器的疑似au表示与实际的数据集中au标签相匹配:

(1)给定卷积层l和滤波器j,激活输出被标记为fl,j;

(2)提取最大的n个输入图像i=argimaxfl,j(i);

(3)对于每个输入i,手动注释的au标签是如果动作单元u在i中存在,则ai,u为1;

(4)滤波器j与动作单元u的存在的相关性为pj,u并由定义;

大量最高层的神经元被发现是其本身没有为任何输入产生有效的输出,最后卷积层中活跃神经元的数量约为特征图大小的30%(256个中有60个),有效神经元的数量和facs的动作单元的词汇量大小近似,可以识别出对应的面部表情。

其中,所述的gabor滤波器,其特征在于,gabor滤波器是一个用于边缘检测的线性滤波器,gabor滤波器的频率和方向表示接近人类视觉系统对于频率和方向的表示,并且它们常备用于纹理表示和描述,在空域,一个2维的gabor滤波器是一个正弦平面波和高斯核函数的乘积,具有在空间域和频率域同时取得最优局部化的特性,与人类生物视觉特性很相似,因此能够很好地描述对应于空间频率(尺度)、空间位置及方向选择性的局部结构信息,gabor滤波器是自相似的,也就是说,所有gabor滤波器都可以从一个母小波经过膨胀和旋转产生,实际应用中,gabor滤波器可以在频域的不同尺度,不同方向上提取相关特征。

其中,所述的网络架构与训练,实现了一个简单的经典前馈卷积神经网络,每个网络的结构如下:输入层,接收灰度图或rgb图像,输入通过3个卷积层块,每个块包括滤波器层,非线性(或激活)和最大池化层组成,其中3个卷积块,每个块具有修正线性单元(relu)激活函数和2x2的池化层,卷积层具有滤波器图,滤波器(神经元)数越多,层越深,分别得到64,128和256个滤波器图尺寸,每个过滤器均支持5x5像素,卷积块之后是一个具有512个隐藏神经元的完全连接层,隐藏层的输出被传输到输出层,输出尺寸大小受到任务的影响,8个用于情感分类,多达50个用于au标签,输出层可以在激活中变化,为了减少过拟合,采用丢弃层,在最后一个卷积层以及完全连接的层之间应用丢弃层,其概率分别为0.25和0.5,丢弃层概率为p,意味着每个神经元的输出都有概率p会被设置为0。

进一步地,所述的网络训练,利用adam优化器训练网络,学习率为10-3,衰减率为10-5,为了最大限度地使模型通用化,使用随机翻转和仿射变换的组合,例如旋转,变化,缩放,进行数据扩充,在图像上生成合成数据并放大训练集。

其中,所述的迁移学习,迁移学习旨在使用针对新任务在不同数据上进行预培训的模型,神经网络模型通常需要较大的训练集,然而,在某些情况下,训练集的大小不足以达到正确的训练,迁移学习允许使用卷积层作为预训练的特征提取器,只有输出层根据当前的任务被替换或修改,即第一层被视为预定义的特征,而定义任务的最后层通过基于可用训练集的学习进行调整。

其中,所述的微表情检测,微表情是一种更自发和微妙的面部运动,由相同的面部运动组成,这些运动定义了facs动作单元并且强度各不相同,微表情往往仅持续0.5秒,所以为检测出其中的含义,将每个微表情分解为3个步骤:起始,顶点和偏移,分别描述运动的开始,窥视和动作的结束,将facs类特征提取器应用于自动检测微表情的任务,为此,使用数据集包括以200fps拍摄的256个自发微表情,所有视频都标记为起始,顶点和偏移,以及所传达的表情,为顶点帧添加au编码,通过显示触发所需响应的主题视频段来捕获表情。

进一步地,所述的微表情检测网络,首先从训练数据序列中对所选帧进行网络训练,对于每个视频,仅采取起始,顶点和偏移帧,以及序列的第一和最后一帧,以解释中性姿势,首先训练cnn来检测情绪,然后,将来自训练网络的卷积层与长短期记忆网络(lstm)组合,其输入连接到特征提取器cnn的第一个完全连接层,所使用的lstm只包含一个lstm层和一个输出层,在lstm层之后使用循环丢弃层。

附图说明

图1是本发明一种基于面部动作编码系统进行微表情检测的方法的系统流程图。

图2是本发明一种基于面部动作编码系统进行微表情检测的方法的滤波器可视化过程。

图3是本发明一种基于面部动作编码系统进行微表情检测的方法的主要表情。

图4是本发明一种基于面部动作编码系统进行微表情检测的方法的动作单元编码。

图5是本发明一种基于面部动作编码系统进行微表情检测的方法的数据集图例。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于面部动作编码系统进行微表情检测的方法的系统流程图。主要包括可视化cnn滤波器、网络架构与训练、迁移学习、微表情检测。

其中,所述的可视化cnn滤波器,建立健全的情绪分类框架后,分析所提出网络学习的模型,将所提出的网络训练的滤波器在不同的情感分类任务上可视化,下层提供低级别的类gabor滤波器,而靠近输出的中间层和较高层提供高级别的人体可读取特征,通过使用上述方法,可以看出所训练网络的特征,特征可视化通过输入显示出最大化所需滤波器与负责所述响应的像素的激活,从分析所训练的模型可以看出,网络的特征图和特定的面部区域和运动之间有很大的相似性,并且这些区域和运动与定义面部动作编码系统(facs)运动单元的部分有显着的相关性。

进一步地,所述的facs,是面部动作编码系统,首先确定了7个主要的普遍情绪,满足在不同的文化环境下所表达意义不变的特性,用相应的情感状态标记他们,即幸福,悲伤,惊喜,恐惧,厌恶,愤怒和蔑视,被广泛应用于认知计算,而facs是一种基于解剖学的系统,用于描述每种情绪的所有可观察到的面部动作,使用facs作为方法论测量系统,可以描述动作单元(au)激活的任何表情及其活跃强度,每个动作单元描述一组面部肌肉,一起共同组成一个特定的运动。

进一步地,所述的cnn滤波器,使用以下方法将滤波器的疑似au表示与实际的数据集中au标签相匹配:

(1)给定卷积层l和滤波器j,激活输出被标记为fl,j;

(2)提取最大的n个输入图像i=argimaxfl,j(i);

(3)对于每个输入i,手动注释的au标签如果动作单元u在i中存在,则ai,u为1;

(4)滤波器j与动作单元u的存在的相关性为pj,u并由定义;

大量最高层的神经元被发现是其本身没有为任何输入产生有效的输出,最后卷积层中活跃神经元的数量约为特征图大小的30%(256个中有60个),有效神经元的数量和facs的动作单元的词汇量大小近似,可以识别出对应的面部表情。

其中,所述的gabor滤波器,其特征在于,gabor滤波器是一个用于边缘检测的线性滤波器,gabor滤波器的频率和方向表示接近人类视觉系统对于频率和方向的表示,并且它们常备用于纹理表示和描述,在空域,一个2维的gabor滤波器是一个正弦平面波和高斯核函数的乘积,具有在空间域和频率域同时取得最优局部化的特性,与人类生物视觉特性很相似,因此能够很好地描述对应于空间频率(尺度)、空间位置及方向选择性的局部结构信息,gabor滤波器是自相似的,也就是说,所有gabor滤波器都可以从一个母小波经过膨胀和旋转产生,实际应用中,gabor滤波器可以在频域的不同尺度,不同方向上提取相关特征。

其中,所述的网络架构与训练,实现了一个简单的经典前馈卷积神经网络,每个网络的结构如下:输入层,接收灰度图或rgb图像,输入通过3个卷积层块,每个块包括滤波器层,非线性(或激活)和最大池化层组成,其中3个卷积块,每个块具有修正线性单元(relu)激活函数和2x2的池化层,卷积层具有滤波器图,滤波器(神经元)数越多,层越深,分别得到64,128和256个滤波器图尺寸,每个过滤器均支持5x5像素,卷积块之后是一个具有512个隐藏神经元的完全连接层,隐藏层的输出被传输到输出层,输出尺寸大小受到任务的影响,8个用于情感分类,多达50个用于au标签,输出层可以在激活中变化,为了减少过拟合,采用丢弃层,在最后一个卷积层以及完全连接的层之间应用丢弃层,其概率分别为0.25和0.5,丢弃层概率为p,意味着每个神经元的输出都有概率p会被设置为0。

进一步地,所述的网络训练,利用adam优化器训练网络,学习率为10-3,衰减率为10-5,为了最大限度地使模型通用化,使用随机翻转和仿射变换的组合,例如旋转,变化,缩放,进行数据扩充,在图像上生成合成数据并放大训练集。

其中,所述的迁移学习,迁移学习旨在使用针对新任务在不同数据上进行预培训的模型,神经网络模型通常需要较大的训练集,然而,在某些情况下,训练集的大小不足以达到正确的训练,迁移学习允许使用卷积层作为预训练的特征提取器,只有输出层根据当前的任务被替换或修改,即第一层被视为预定义的特征,而定义任务的最后层通过基于可用训练集的学习进行调整。

其中,所述的微表情检测,微表情是一种更自发和微妙的面部运动,由相同的面部运动组成,这些运动定义了facs动作单元并且强度各不相同,微表情往往仅持续0.5秒,所以为检测出其中的含义,将每个微表情分解为3个步骤:起始,顶点和偏移,分别描述运动的开始,窥视和动作的结束,将facs类特征提取器应用于自动检测微表情的任务,为此,使用数据集包括以200fps拍摄的256个自发微表情,所有视频都标记为起始,顶点和偏移,以及所传达的表情,为顶点帧添加au编码,通过显示触发所需响应的主题视频段来捕获表情。

进一步地,所述的微表情检测网络,首先从训练数据序列中对所选帧进行网络训练,对于每个视频,仅采取起始,顶点和偏移帧,以及序列的第一和最后一帧,以解释中性姿势,首先训练cnn来检测情绪,然后,将来自训练网络的卷积层与长短期记忆网络(lstm)组合,其输入连接到特征提取器cnn的第一个完全连接层,所使用的lstm只包含一个lstm层和一个输出层,在lstm层之后使用循环丢弃层。

图2是本发明一种基于面部动作编码系统进行微表情检测的方法的滤波器可视化过程。建立健全的情绪分类框架后,分析所提出网络学习的模型,将所提出网络训练的滤波器在不同的情感分类任务上进行可视化。下层提供低级别的gabor-like滤波器,而靠近输出的中间层和较高层提供高级别的人体可读取特征。特征可视化中,通过输入沿负责所述响应的像素最大化所需滤波器的激活。

图3是本发明一种基于面部动作编码系统进行微表情检测的方法的主要表情。从左到右分别为厌恶,恐惧,欣喜,惊讶,悲伤和愤怒,是关于面部表情的主要表达,其普遍性不会因不同文化而改变表情的含义,满足简单性和对普遍性的要求。

图4是本发明一种基于面部动作编码系统进行微表情检测的方法的动作单元编码。面部动作编码系统(facs)是一种基于解剖学的系统,用于描述每种情绪的所有可观察到的面部动作。使用facs作为方法论测量系统,可以描述动作单元激活的任何表情及其活跃强度。每个动作单元描述一组面部肌肉,一起共同组成一个特定的运动。包括44个面部动作单元,描述诸如“张口”,“眯眼”等动作,现还添加了20个其他的动作单元,算上头部和眼睛的运动。

图5是本发明一种基于面部动作编码系统进行微表情检测的方法的数据集图例。使用基于cnn的方法在各种数据集上获得一个共同的模型结构,并研究这些模型与facs的关系。为了检查学习模型的泛化能力,使用迁移学习方法来了解这些模型如何在其他数据集上执行。为了了解基于cnn最先进的模型在fer中的共同属性,将这些方法应用于众多数据集中,图为选择的部分图例。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1