一种基于深度神经网络的多任务表情识别方法及系统与流程

文档序号:36229724发布日期:2023-11-30 19:16阅读:57来源:国知局
一种基于深度神经网络的多任务表情识别方法及系统与流程

本发明涉及表情识别,尤其涉及一种基于深度神经网络的多任务表情识别方法及系统。


背景技术:

1、人脸表情识别技术和其它类型的智能识别技术相比,还未突破技术性屏障,生活上的应用还不足。尤其是在涉及情感计算和情感分析相关技术领域,目前的表情识别研究还很不成熟。当前,现有的表情识别技术大多是针对离散表情的识别任务,且识别环境相对简单,处理诸如光照条件差、图像模糊、姿态偏移有遮挡等问题时,结果不尽如人意,无法得到实际的应用。同时由于这些简单的表情分类不能反映人类在自然的日常情境中所展现出来的较为复杂丰富的情感,在情感分析方面也显得能力不足。

2、基于连续情感维度模型的表情识别对基于计算机的系统来说是极其困难的,近年来,针对连续情感维度的表情识别研究也越来越多。然而上述工作对于处理情感分析表情识别任务依然不足。


技术实现思路

1、基于背景技术存在的技术问题,本发明提出了一种基于深度神经网络的多任务表情识别方法及系统,优化人脸表情识别网络,提高网络的预测性能。

2、本发明提出的一种基于深度神经网络的多任务表情识别方法,包括:

3、获取人脸图像;

4、将人脸图像输送到联合网络模型中,所述联合网络模型包括特征提取网络、fpn金字塔模型、编码器和第一多层感知机层;

5、所述特征提取网络用于对人脸图像进行关键点预测以产生人脸特征点的热力图预测,并将热力图预测作为人脸的关键点特征信息;

6、所述fpn金字塔模型用于对人脸的关键点特征信息进行上采样和下采样,并将下采样得到的下采样特征输送到编码器中;

7、所述编码器用于对所输入的下采样特征进行编码处理,并将编码后的下采样特征输送到fpn金字塔模型中与上采样融合后输出不同层次的特征信息;

8、所述第一多层感知机层用于对输入的不同层次的特征信息进行感知分类,以输出所述人脸图像中人脸面部表情的识别预测结果。

9、进一步地,所述特征提取网络包括由沙漏模型堆叠形成的四阶沙漏模型,沙漏模型采用convblock瓶颈块连接;

10、所述fpn金字塔模型为三层金字塔模型,上采样和下采样分别形成上采样特征和下采样特征,每层的下采样特征的输出通过对应层设置的编码器连接到上采样特征的输入。

11、进一步地,所述编码器包括依次连接的归一化层、多头自注意力层和第二多层感知机层;

12、所述第一归一化层的输入连接同层的下采样特征,将输入的下采样特征与多头自注意力层的输出相加得到的特征序列作为第二归一化层的输入,将所述特征序列与多层感知机层的输出相加以输出三个不同层次的特征信息,三个不同层次的特征信息作为第一多层感知机层的输入。

13、进一步地,所述多头自注意力层包括依次连接的线性变换层、缩放点积注意力层、拼接层和线性输出层,其中,线性变换层和缩放点积注意力层在多头自注意力层的每个头中均设置,拼接层和线性输出层在多头自注意力层中依次总体设置,线性连接层设置三个变换映射层,三个变换映射层分别用于将归一化后的下采样特征分别通过三个线性变换映射到三个矩阵中,所述三个矩阵包括查询矩阵q、键矩阵k和值矩阵v。

14、进一步地,所述缩放点积注意力层包括第一矩阵乘法层、数组标准层、softmax回归层和第二矩阵乘法层;

15、第一矩阵乘法层的输入连接查询矩阵q和键矩阵k,第一矩阵乘法层、数组标准层、softmax回归层依次连接,第二矩阵乘法层的输入连接softmax回归层的输出和值矩阵v。

16、进一步地,所述线性变换层对归一化处理后的输入序列进行缩放,具体如下:

17、q=xwq

18、k=xwk

19、v=xwv

20、其中,q表示查询矩阵,k表示键矩阵,v表示值矩阵,和均为矩阵系数,d是特征维度。

21、进一步地,下采样特征在编码器中的处理公式如下:

22、msa(q,k,v)=concat(head1,…,headh)wio

23、

24、x′=msa(q,k,v)+x

25、xout=mlp+x′

26、其中d=d/h,i=1,2,…h,h为多头自注意力头的个数,d是特征维度,msa表示多头自我注意层,norm是归一化算子,mlp代表多层感知机,concat表示拼接,x表示输入到多头自注意力层的下采样特征,xout表示编码器的输出,

27、进一步地,所述人脸的关键点特征信息r:

28、

29、其中,u和v是像素点坐标,ki和kj表示预测的关键点坐标,σ是设定的以关键点为圆心的辐射半径。

30、一种基于深度神经网络的多任务表情识别系统,包括获取模块、输入模块、特征提取网络模块、fpn金字塔模块、编码器模块和多层感知机模块;

31、所述获取模块用于获取人脸图像;

32、所述输入模块用于将人脸图像输送到联合网络模型中,所述联合网络模型包括特征提取网络、fpn金字塔模型、编码器和第一多层感知机层;

33、所述特征提取网络模块用于对人脸图像进行关键点预测以产生人脸特征点的热力图预测,并将热力图预测作为人脸的关键点特征信息;

34、所述fpn金字塔模块用于对人脸的关键点特征信息进行上采样和下采样,并将下采样得到的下采样特征输送到编码器中;

35、所述编码器模块用于对所输入的下采样特征进行编码处理,并将编码后的下采样特征输送到fpn金字塔模型中与上采样融合后输出不同层次的特征信息;

36、所述多层感知机模块用于对输入的不同层次的特征信息进行感知分类,以输出所述人脸图像中人脸面部表情的识别预测结果。

37、本发明提供的一种基于深度神经网络的多任务表情识别方法及系统的优点在于:本发明结构中提供的一种基于深度神经网络的多任务表情识别方法及系统,保证其在自然条件下的识别性能,并使其能够同时输出对68个人脸特征点的预测结果,离散表情的分类结果以及连续表情的回归结果;为更好区分图像特征上的相似性,主要是针对类内差异性问题和类间相似性问题,再次对联合网络模型进行优化,借助vision transformer的注意力机制,并以此为基础搭建特征金字塔结构改善表情识别方法,用以优化人脸表情识别网络,提高网络的预测性能;联合网络模型的构建,在情绪识别过程中使得联合网络模型中可以获取更多有用的特征信息,人脸对齐结果与表情识别结果就更加的准确和具有说服力。



技术特征:

1.一种基于深度神经网络的多任务表情识别方法,其特征在于,包括:

2.根据权利要求1所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述特征提取网络包括由沙漏模型堆叠形成的四阶沙漏模型,沙漏模型采用convblock瓶颈块连接;

3.根据权利要求2所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述编码器包括依次连接的归一化层、多头自注意力层和第二多层感知机层;

4.根据权利要求3所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述多头自注意力层包括依次连接的线性变换层、缩放点积注意力层、拼接层和线性输出层,其中,线性变换层和缩放点积注意力层在多头自注意力层的每个头中均设置,拼接层和线性输出层在多头自注意力层中依次总体设置,线性连接层设置三个变换映射层,三个变换映射层分别用于将归一化后的下采样特征分别通过三个线性变换映射到三个矩阵中,所述三个矩阵包括查询矩阵q、键矩阵k和值矩阵v。

5.根据权利要求4所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述缩放点积注意力层包括第一矩阵乘法层、数组标准层、softmax回归层和第二矩阵乘法层;

6.根据权利要求4所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述线性变换层对归一化处理后的输入序列进行缩放,具体如下:

7.根据权利要求6所述的基于深度神经网络的多任务表情识别方法,其特征在于,下采样特征在编码器中的处理公式如下:

8.根据权利要求1所述的基于深度神经网络的多任务表情识别方法,其特征在于,所述人脸的关键点特征信息r:

9.一种基于深度神经网络的多任务表情识别系统,其特征在于,包括获取模块、输入模块、特征提取网络模块、fpn金字塔模块、编码器模块和多层感知机模块;


技术总结
本发明公开了一种基于深度神经网络的多任务表情识别方法及系统,包括:获取人脸图像;将人脸图像输送到联合网络模型中;特征提取网络用于对人脸图像进行关键点预测以产生人脸特征点的热力图预测,并将热力图预测作为人脸的关键点特征信息;FPN金字塔模型用于对人脸的关键点特征信息进行上采样和下采样,并将下采样得到的下采样特征输送到编码器中;编码器用于对所输入的下采样特征进行编码处理,并将编码后的下采样特征输送到FPN金字塔模型中与上采样融合后输出不同层次的特征信息;第一多层感知机层用于对输入的不同层次的特征信息进行感知分类,以输出人脸面部表情的识别预测结果;该表情识别方法及系统提高网络的预测性能。

技术研发人员:张祎霖,孙晓
受保护的技术使用者:合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1