基于多运动特征融合的微表情识别方法及装置与流程

文档序号：28428093发布日期：2022-01-12 00:39阅读：84来源：国知局

1.本发明的实施例涉及计算机辅助设计技术领域，尤其涉及一种基于多运动特征融合的微表情识别方法及装置、电子设备和存储介质。

背景技术：

2.利用甚高精度实时摄影测量技术对获取的人体立体影像进行实时计算，分析每一立体帧影像每一个像素点的空间变化，根据影像类生物统计分析技术，可以在非接触条件下检测人体神经和肌肉微运动，从而实现人体实时心理环境的探测，具有检测时间短、无需被测人员配合、量测精度高、探测数据丰富。
3.微观影像学方法基于实时测量的生理参数的处理(即通过测量图像中的振动获得生物体头部的运动参数)来确定一组人的生理特征。将微表情所含有的信息量进行有效的利用，则可以有效进行反恐。目前，常见的微表情识别技术大多是基于微表情识别模型进行的，但是由于微表情识别模型需要大量标注过人脸微表情的图像进行训练，而人脸微表情的图像标注过程需要心理学专业人员进行标注，且标注的误差较大，导致微表情识别模型识别准确率不高的问题。

技术实现要素：

4.本发明的实施例提供了一种基于多运动特征融合的微表情识别方法及装置、电子设备和存储介质，提高微表情识别的准确率。
5.第一方面，本发明的实施例提供了一种基于多运动特征融合的微表情识别方法，所述微表情识别方法包括：
6.将目标人物的面部表情图像序列进行预处理；
7.通过多路卷积神经网络模型分别对预处理过的图像进行特征提取，并利用长短期记忆网络模型提取时序特征进行进行分类训练得到人脸识别模型进行目标图像中的人脸微表情识别。
8.可选地，将目标人物的面部表情图像序列进行预处理包括，
9.对所述图像序列进行人脸检测、人脸校准、面部区域裁剪、得到只包含面部区域的图像；对每一张图片进行以下四种变换：旋转、水平平移、垂直平移、水平翻转；
10.将所述图像序列进行插值，保证每段面部表情图像序列帧数相同。
11.可选地，将所述图像序列进行插值，保证每段面部表情图像序列帧数相同包括，
12.根据预置的序列化规则对面部表情图像处理得到对应的人脸图像序列；
13.根据预置的表情分类模型对所述人脸图像序列中的每一灰度图像进行分类得到与每一所述灰度图像对应的表情类别；
14.根据预置的轮廓提取模型得到每一所述表情类别的降噪表情图像；
15.根据所述表情分类模型及预置的插值卷积规则对所述降噪表情图像及所述人脸图像序列的多张连续灰度图像进行插值以保证每段面部表情图像序列帧数相同。
16.可选地，通过多路卷积神经网络分别对预处理过的图像进行特征提取，并利用长短期记忆网络提取时序特征进行识别包括，
17.通过多路卷积神经网络分别将人脸关键点特征图、光流特征图、光学应变图作为三条支路的输入数据，对图像特征进行提取得到静态卷积特征；
18.长短期记忆网络将提取到的所述静态卷积特征进行整合，得到所述静态卷积特征在时域上的信息，进而对所述时域上的信息进行分类训练得到人脸识别模型；
19.基于所述人脸微表情识别模型对目标图像进行人脸识别，得到目标图像中的人脸微表情。
20.可选地，在所有的卷积层之后，连接了一个包含256个神经元的全连接层，长短期记忆网络为单层的长短期记忆网络，输出维度为256，全连接层输出维度为128；将基于多分类的交叉熵损失作为目标函数，用adam优化器对长短期记忆网络进行训练，学习率和衰减参数分别设为10-4
和10-6
。
21.可选地，人脸关键点特征图是基于人脸关键点变化生成的运动特征图，利用dlib视觉库确定面部68个关键特征点，特征点主要分布在眉毛，眼睛，鼻子，嘴巴以及面部轮廓区域。
22.可选地，对光流特征图的提取是计算对所述预处理过的图像每一帧图像所对应的整体光流场，光流编码是以矢量符号表征图像运动或流动的方向和强度，光流的水平h和垂直分量v大小定义为
[0023][0024]
式中：dx和dy表示待估计的像素分别沿x和y维度的运动变化；dt表示时间的变化，光流的水平和垂直分量流程大小构成的光流强度大小m，对h、ν及m进行通道维度上的拼接，形成三通道的光流特征图。
[0025]
第二方面，本发明的实施例提供了一种基于多运动特征融合的微表情识别装置，所述微表情识别装置包括：
[0026]
预处理模块，用于将目标人物的面部表情图像序列进行预处理；
[0027]
识别模块，通过多路卷积神经网络模型分别对预处理过的图像进行特征提取，并利用长短期记忆网络模型提取时序特征进行进行分类训练得到人脸识别模型进行目标图像中的人脸微表情识别。
[0028]
第三方面，本发明的实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如第一方面任一项所述的方法。
[0029]
第四方面，本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
[0030]
在本发明实施例提供的基于多运动特征融合的微表情识别方法及装置、电子设备和存储介质中，所述微表情识别方法，通过将目标人物的面部表情图像序列进行预处理；通过多路卷积神经网络模型分别对预处理过的图像进行特征提取，并利用长短期记忆网络模型提取时序特征进行进行分类训练得到人脸识别模型进行目标图像中的人脸微表情识别。采用卷积神经网络和长短期记忆网络模型结合的方式，通过前面的卷积网络层来提取微表情的静态特征，省去了传统机器学习方法，需要人工提取特征的过程，简化了特征提取的工
作。然后再通过后面的长短期记忆网络模型，充分利用表情特征序列的上下文信息，从而在序列数据中发现隐藏在其中的时域信息，能够准确的识别微表情。
[0031]
应当理解，发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
附图说明
[0032]
结合附图并参考以下详细说明，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素。
[0033]
图1示出了本发明的实施例的基于多运动特征融合的微表情识别方法的流程图；
[0034]
图2示出了本发明实施例的人脸68个关键点检测示意图；
[0035]
图3示出了本发明实施例的基于多运动特征融合的微表情识别装置的示意图；
[0036]
图4示出了本发明实施例的一种电子设备的结构图。
具体实施方式
[0037]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。
[0038]
卷积神经网络(cnn)通过三种方式来让网络所学习到的特征更具有鲁棒性：局部感受野、权值共享和降采样。局部感受野是指每一个卷积层的神经元只能和上一层的一部分神经元连接，而不是一般神经网络里所要求的全连接，这样每一个神经元能够感受到局部的视觉特征，然后在更高层将局部信息进行整合，进而得到整个图片的描述信息。
[0039]
cnn网络不仅有很强的图像特征学习能力，并且在训练时能减少计算量，因此本发明采用多个cnn网络分别对空间流的静态图像信息以及运动流的局部运动信息进行建模。长短期记忆网络(lstm)网络与cnn网络主要的不同之处在于它能够持续保留信息。能够根据之前状态推出后面的状态，从而学习到视频的全局运动特征,为了对视频序列的静态特征、局部运动特征、全局运动特征进行建模，本发明的实施例在cnn网络第一个全连接层后连接lstm网络。
[0040]
需要说明的是，本发明实施例描述的仅仅是为了更加清楚的说明本发明实施例的技术方案，并不构成对本发明实施例提供的技术方案的限定。
[0041]
图1示出了本发明的实施例的基于多运动特征融合的微表情识别方法的流程图。参见图1，该方法包括如下步骤：
[0042]
s20、将目标人物的面部表情图像序列进行预处理；
[0043]
具体地，将目标人物的面部表情图像序列进行预处理包括，
[0044]
对所述图像序列进行人脸检测、人脸校准、面部区域裁剪、得到只包含面部区域的图像；对每一张图片进行以下四种变换：旋转、水平平移、垂直平移、水平翻转；将所述图像序列进行插值，保证每段面部表情图像序列帧数相同。
[0045]
s40、通过多路卷积神经网络(cnn)模型分别对预处理过的图像进行特征提取，并利用长短期记忆网络(lstm)模型提取时序特征进行进行分类训练得到人脸识别模型进行目标图像中的人脸微表情识别。
[0046]
具体地，cnn用作空域信息处理，lstm用作时域信息处理，在不增加原始微表情数据的情况下，利用tim算法将序列长度统一,之后对帧数一致的数据序列提取运动特征图，本实施例中，在空域信息处理阶段，一共有三条cnn支路，分别将人脸关键点特征图、光流特征图、光学应变图作为三条支路的输入数据。三支路对图像特征进行提取之后，将结果输入到时域网络中进行第二阶段的处理。
[0047]
本实施例提供了一种基于多运动特征融合的微表情识别方法所述微表情识别方法，通过将目标人物的面部表情图像序列进行预处理；通过多路卷积神经网络模型分别对预处理过的图像进行特征提取，并利用长短期记忆网络模型提取时序特征进行进行分类训练得到人脸识别模型进行目标图像中的人脸微表情识别。采用卷积神经网络和长短期记忆网络模型结合的方式，通过前面的卷积网络层来提取微表情的静态特征，省去了传统机器学习方法，需要人工提取特征的过程，简化了特征提取的工作。然后再通过后面的长短期记忆网络模型，充分利用表情特征序列的上下文信息，从而在序列数据中发现隐藏在其中的时域信息，能够准确的识别微表情。
[0048]
本发明采用多个cnn网络分别对空间流的静态图像信息以及运动流的局部运动信息进行建模
[0049]
在一些实施例中，将所述图像序列进行插值，保证每段面部表情图像序列帧数相同包括，
[0050]
根据预置的序列化规则对面部表情图像处理得到对应的人脸图像序列；
[0051]
根据预置的表情分类模型对所述人脸图像序列中的每一灰度图像进行分类得到与每一所述灰度图像对应的表情类别；
[0052]
根据预置的轮廓提取模型得到每一所述表情类别的降噪表情图像；
[0053]
根据所述表情分类模型及预置的插值卷积规则对所述降噪表情图像及所述人脸图像序列的多张连续灰度图像进行插值以保证每段面部表情图像序列帧数相同。
[0054]
具体地，通过多路卷积神经网络分别对预处理过的图像进行特征提取，并利用长短期记忆网络提取时序特征进行识别包括，通过多路卷积神经网络分别将人脸关键点特征图、光流特征图、光学应变图作为三条支路的输入数据，对图像特征进行提取得到静态卷积特征；
[0055]
长短期记忆网络将提取到的所述静态卷积特征进行整合，得到所述静态卷积特征在时域上的信息，进而对所述时域上的信息进行分类训练得到人脸识别模型；
[0056]
基于所述人脸微表情识别模型对目标图像进行人脸识别，得到目标图像中的人脸微表情。
[0057]
具体地，令i1、i2、i3分别表示三种运动特征图，函数表示卷积神经网络对图像特征提取的过程，支路数j＝1，2，3，m
1、m2、
m3分别表示各个空域卷积神经网络的输出；空域信息处理后，空域阶段最后生成的特征可表示为g＝[g1，g2，g3],时域网络lstm需要处理的特征为gi，i＝1，2...9在lstm后面有一个全连接层和一个用于分类的softmax层，则最后的输出结果可表示为：c
out
＝softmax[m
lstm
(gi)]，m
lstm
(
·
)表示lstm网络和全连接层的处理输出。进而对所述时域上的信息进行分类训练得到人脸识别模型；基于所述人脸微表情识别模型对目标图像进行人脸识别，得到目标图像中的人脸微表情。
[0058]
其中，在所有的卷积层之后，连接了一个包含256个神经元的全连接层，长短期记
忆网络为单层的长短期记忆网络，输出维度为256，全连接层输出维度为128；将基于多分类的交叉熵损失作为目标函数，用adam优化器对长短期记忆网络进行训练，学习率和衰减参数分别设为10-4
和10-6
。
[0059]
如图2所示，人脸关键点特征图是基于人脸关键点变化生成的运动特征图，利用dlib视觉库确定面部68个关键特征点，特征点主要分布在眉毛，眼睛，鼻子，嘴巴以及面部轮廓区域。
[0060]
具体地，对光流特征图的提取是计算对所述预处理过的图像每一帧图像所对应的整体光流场，光流编码是以矢量符号表征图像运动或流动的方向和强度，光流的水平h和垂直分量v大小定义为
[0061][0062]
式中：dx和dy表示待估计的像素分别沿x和y维度的运动变化；dt表示时间的变化，光流的水平和垂直分量流程大小构成的光流强度大小m，对h、ν及m进行通道维度上的拼接，形成三通道的光流特征图。
[0063]
光学应变是光流的导数，能够正确表征运动连续帧之间可变性物体的微量运动。有限应变张量s的定义为
[0064][0065]
每个像素的光学应变大小可以使用法向和剪切应变分量的平方和来计算：
[0066]
法线应变分量度量光流沿x和y维度的变化，而切线应变分量度量沿两个轴的形变引起的角度变化。
[0067]
基于同一发明构思，本发明实施例还提供了一种基于多运动特征融合的微表情识别装置，可以用于实现上述实施例中所描述的方法，如下面实施例所述。由于该基于多运动特征融合的微表情识别装置解决问题的原理与室内设计方法相似，因此基于多运动特征融合的微表情识别装置的实施可以参见一种基于多运动特征融合的微表情识别方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
[0068]
图3示出了本发明的实施例的基于多运动特征融合的微表情识别装置的流程图。如图3所示，所述基于多运动特征融合的微表情识别装置包括：
[0069]
预处理模块20，用于将目标人物的面部表情图像序列进行预处理；
[0070]
识别模块40，通过多路卷积神经网络模型分别对预处理过的图像进行特征提取，并利用长短期记忆网络模型提取时序特征进行进行分类训练得到人脸识别模型进行目标图像中的人脸微表情识别。
[0071]
本实施例提供了一种基于多运动特征融合的微表情识别方法所述微表情识别装置，通过预处理模块20将目标人物的面部表情图像序列进行预处理；通过识别模块40的多路卷积神经网络模型分别对预处理过的图像进行特征提取，并利用长短期记忆网络模型提取时序特征进行进行分类训练得到人脸识别模型进行目标图像中的人脸微表情识别。采用
卷积神经网络和长短期记忆网络模型结合的方式，通过前面的卷积网络层来提取微表情的静态特征，省去了传统机器学习方法，需要人工提取特征的过程，简化了特征提取的工作。然后再通过后面的长短期记忆网络模型，充分利用表情特征序列的上下文信息，从而在序列数据中发现隐藏在其中的时域信息，能够准确的识别微表情。
[0072]
本发明实施例还提供了一种计算机电子设备，图4示出了可以应用本发明实施例的电子设备的结构示意图，如图4所示，该计算机电子设备包括，中央处理单元(cpu)401，其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中，还存储有系统操作所需的各种程序和数据。cpu 401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
[0073]
以下部件连接至i/o接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。
[0074]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0075]
描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括预处理模块、识别模块，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，预处理模块还可以被描述为“用于将目标人物的面部表情图像序列进行预处理的预处理模块”。
[0076]
作为另一方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述基于多运动特征融合的微表情识别装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入电子设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本发明的基于多运动特征融合的微表情识别方法。
[0077]
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功
能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李军平
技术所有人：北京九州安华信息安全技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。