一种基于深度学习的面部情感校准方法及系统

文档序号：26008016发布日期：2021-07-23 21:27阅读：124来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及深度学习，计算机视觉领域，尤其涉及到一种基于深度学习的面部情感校准方法及系统。

背景技术：

随着科技的发展，万物智能的时代离我们越来越近。在智能时代，人机智能交互显得尤为重要。当人类在表达感情时，表情占有相当大的比重。同样，若要让智能体感受人类的情感甚至学会表达自己的情感，人脸表情识别就显得尤为重要。

当前，面部表情识别取得了很大的进展，具体表现在：多种数据集中关于单张人脸图片的表情分类已经获得了很高的准确率。基于深度学习的方法，如卷积神经网络，注意力机制等方法，更是让面部表情识别在头部姿态偏移、遮挡等异常情况也有一定程度的兼容能力。

但是，面部表情十分复杂，反映了人们内心的心理活动；在存在手部遮挡时，若仅仅将其视为一种干扰，就有可能丢失其中蕴含的深层次的面部情感。反之，若结合心理学知识，可以从人的心理动机上理解手部遮挡，进而捕获更加准确、真实、丰富的面部情感。

目前的技术文献中，已经有人通过建立与头部姿态相关的表情先验概率模型来优化人脸表情分类方法(一种人脸自发表情的识别方法及系统，专利号：201710153525)。但是，目前还没有文献充分利用肢体特征来校准人脸面部表情，进而准确区分表情。

技术实现要素：

本发明提供了克服上述问题或部分解决上述问题的一种基于深度学习的面部情感校准方法及系统。

本发明的目的至少通过如下技术方案之一实现。

一种基于深度学习的面部情感校准方法，包括以下步骤：

s1、对含有人脸的原始图像进行预处理；

s2、将预处理后的原始图像送入训练过的第一卷积神经网络，并结合肤色模型，检测原始图像中手部出现的具体位置和大小，作为肢体特征；

s3、将预处理后的原始图像送入训练过的第二卷积神经网络，提取表情特征；

s4、将步骤s2中提取的肢体特征与步骤s3中提取的表情特征进行融合，决定最终的情感属性与能级。

进一步地，步骤s1中，从待检测的含有人脸的原始图像中准确检测人脸区域，进行面部关键点定位、人脸对齐和尺度归一化，具体如下：

采用预先训练的人脸检测模型作为第一识别模型，利用第一识别模型对含有人脸的原始图像进行人脸检测，第一识别模型同时输出多个面部关键点的坐标；利用面部关键点的坐标，使用仿射变换进行人脸矫正对齐，之后将对齐后的原始图像进行光照归一化和尺度归一化，得到预处理后的原始图像。

进一步地，人脸检测模型采用retinaface模型。

进一步地，步骤s2中，采用手部模板与由非遮挡人脸合成的批量图片作为训练集，利用反向传播与批随机梯度下降的方法来寻找第一卷积神经网络的最优参数，得到训练过的第一卷积神经网络并将其作为第二识别模型；将步骤s1中得到的预处理后的原始图像送入第二识别模型，得到原始图像中手部的初步位置与面积；利用肤色模型的知识，排除非手部类型的遮挡，得到原始图像中手部出现的具体位置和大小，作为肢体特征。

进一步地，第一卷积神经网络采用deeplabv3+模型。

进一步地，手部模板分为单手模板与双手模板，两种手部模板均由搜索引擎与raf-db数据集中的特殊人脸遮挡图片得到。

进一步地，步骤s3中，采用多种人脸表情数据库作为训练集，基于注意力机制，利用反向传播与批随机梯度下降的方法来寻找第二卷积神经网络的最优参数，得到训练过的第二卷积神经网络并将其作为第三识别模型；将步骤s1中得到的预处理后的原始图像送入第三识别模型，得到原始图像中人脸表情的多种分类结果与对应的置信度。

进一步地，第二卷积神经网络采用acnn网络模型。

进一步地，步骤s4中，将步骤s3中得到的原始图像中人脸表情的多种分类结果作为面部情感的候选基属性，将步骤s2中得到的肢体特征作为面部情感的基属性的微调元素；

将原始图像中人脸面部区域进行编码，结合心理学先验知识与肢体特征，对面部情感的基属性进行微调，提高或降低情感的能级，具体如下：

将面部情感多个候选基属性的置信度按照从低到高分为n个能级；人脸面部区域根据位置的不同编码为面部热力图，额头处温度偏低，表示情感的削弱，取值设置为-1；双眼区域温度中等，表示情感处于稳态，取值设置为0；两颊及嘴巴区域温度较高，表示情感的加强，取值设置为1；手部在面部热力图的面积代表温度的扩散度；微调等级由温度特性与扩散度共同决定；对情感基属性的微调具体如下：

ti∈{-1，0，+1}；

nij＝rounddown(cij*n)；

其中，ti表示m个预处理后的原始图像中的第i个原始图像样本的温度；ki表示第i个原始图像样本的扩散度；nij表示第i个原始图像样本的第j个候选情感基属性的能级，cij表示第i个原始图像样本的第j个候选情感基属性的置信度，rounddown表示向下取整运算；

最后选取微调后能级最高的基属性作为最终的分类结果，同时得到该基属性对应的情感的能级。

一种基于深度学习的面部情感校准系统，包括：

第一识别模块，用于对含有人脸的原始图像进行预处理，从待检测的含有人脸的原始图像中准确检测人脸区域，进行面部关键点定位、人脸对齐和尺度归一化，得到预处理后的原始图像；

第二识别模块，用于将预处理后的原始图像送入训练过的第一卷积神经网络，得到原始图像中手部的初步位置与面积；

肢体特征获取模块，用于将第二识别模块得到的原始图像中手部的初步位置与面积结合肤色模型，检测原始图像中手部出现的具体位置和大小，作为肢体特征；

第三识别模块，用于将预处理后的原始图像送入训练过的第二卷积神经网络，得到原始图像中人脸表情的多种分类结果与对应的置信度；

第四识别模块，用于将肢体特征获取模块得到的肢体特征与第三识别模块得到的多种分类结果进行融合，决定最终的情感属性与能级。

相比于现有技术，本发明的优点在于：

本发明基于不同的识别模型来实现，经第一识别模块进行预处理后，第二识别模块、第三识别模块分别关注手部遮挡与面部表情两种研究对象，最后通过第四识别模块的融合策略，将肢体特征融入到面部表情特征中，从而调整面部情感的属性与能级，捕获了更加准确、真实、丰富的面部情感。

附图说明

图1为本发明实施例中一种基于深度学习的面部情感校准方法的步骤流程图；

图2为本发明实施例中人脸面部区域编码图。

具体实施方法

下面结合附图与实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明范围。

实施例：

一种基于深度学习的面部情感校准方法，如图1所示，包括以下步骤：

s1、对含有人脸的原始图像进行预处理；

从待检测的含有人脸的原始图像中准确检测人脸区域，进行面部关键点定位、人脸对齐和尺度归一化，具体如下：

本实施例中，采用预先训练的retinaface模型作为第一识别模型，retinaface模型是单步(stage)推理人脸检测器，可以同时输出人脸框和68个关键点信息；

利用第一识别模型对含有人脸的原始图像进行人脸检测，第一识别模型同时输出68个面部关键点的坐标；利用面部关键点的坐标，使用仿射变换进行人脸矫正对齐，之后将对齐后的原始图像进行光照归一化和尺度归一化，得到预处理后的原始图像。

s2、将预处理后的原始图像送入训练过的第一卷积神经网络，并结合肤色模型，检测原始图像中手部出现的具体位置和大小，作为肢体特征，具体如下：

本实施例中，第一卷积神经网络采用deeplabv3+模型进行语义分割，采用手部模板与由非遮挡人脸合成的批量图片作为deeplabv3+模型的训练集；

手部模板分为单手模板与双手模板，两种手部模板均由搜索引擎与raf-db数据集中的特殊人脸遮挡图片得到，这些特殊人脸遮挡图片区别于一般的人脸遮挡图片，专指手部对人脸区域的遮挡；

在手部模板与未遮挡人脸进行组合时，考虑人脸的肤色信息与人脸的姿态角度。对随机的手部模板进行肤色变换，姿态变换，尺度变换，以达到真实手部遮挡的效果。

同时，在组合时，另外生成一幅二值图像，作为deeplabv3+模型的训练集。具体操作为，在手部模板与未遮挡人脸的组合图像中，将手部模板所在的区域标为白色，其余区域标为黑色。

利用反向传播与批随机梯度下降的方法来寻找deeplabv3+模型的最优参数，得到训练过的deeplabv3+模型并将其作为第二识别模型；将步骤s1中得到的预处理后的原始图像送入第二识别模型进行语义分割，得到原始图像中手部的初步位置与面积，会标出手部的位置与大小，此时可以结合先验知识，手部的肤色信息与脸部接近，可在第二识别模型标出的手部区域内遍历检索符合肤色信息的像素点；

肤色的ycbcr颜色空间cbcr平面分布在近似的椭圆区域内，通过判断标出的手部区域像素点的cbcr是否落在肤色分布的椭圆区域内，可以判断当前像素点是否属于肤色。

记标记出的手部区域像素点总数为n，当前像素点落在肤色分布的椭圆区域内的个数为m，th为设定的阈值，若满足以下公式：

m/n≥th；

则手部区域分割成功，得到原始图像中手部出现的具体位置和大小，作为肢体特征。

s3、将预处理后的原始图像送入训练过的第二卷积神经网络，提取表情特征，具体如下：

本实施例中，第二卷积神经网络采用acnn网络模型进行表情特征的提取；acnn网络模型，是一种基于注意力机制的卷积神经网络。此网络根据关键点的位置将人脸划分为不同感兴趣的区域，这些局部区域为表情特征的提取作为不同的贡献。与此同时，考虑人脸的全局信息，考察遮挡对人脸整体情感的抑制作用。

采用多种人脸表情数据库作为训练集，基于注意力机制，利用反向传播与批随机梯度下降的方法来寻找acnn网络模型的最优参数，得到训练过的acnn网络模型并将其作为第三识别模型；将步骤s1中得到的预处理后的原始图像送入第三识别模型，得到原始图像中人脸表情的多种分类结果与对应的置信度。

本实施例中，原始图像中人脸表情的多种分类结果包括悲伤、惊讶和开心。

s4、将步骤s3中得到的原始图像中人脸表情的多种分类结果作为面部情感的候选基属性，将步骤s2中得到的肢体特征作为面部情感的基属性的微调元素；

如图2所示，将原始图像中人脸面部区域进行编码，结合心理学先验知识与肢体特征，对面部情感的基属性进行微调，提高或降低情感的能级，具体如下：

将面部情感多个候选基属性的置信度按照从低到高分为n个能级；人脸面部区域根据位置的不同编码为面部热力图，如图2中的区域1，额头处温度偏低，表示情感的削弱，取值设置为-1；如图2中的区域2和区域3，双眼区域温度中等，表示情感处于稳态，取值设置为0；如图2中的区域4～区域9，两颊及嘴巴区域温度较高，表示情感的加强，取值设置为1；手部在面部热力图的面积代表了温度的扩散度；微调等级由温度特性与扩散度共同决定；对情感基属性的微调具体如下：