基于光流注意力神经网络的跨库微表情识别方法及装置与流程

文档序号：19285763发布日期：2019-11-29 23:31阅读：239来源：国知局

本发明涉及图像处理技术，尤其涉及一种基于光流注意力神经网络的跨库微表情识别方法及装置。
背景技术：
：微表情(micro-expression)是一种人类在试图隐藏某种情感时无意识做出的短暂的面部表情。微表情是一种重要的真实情感信息，通常能够有效地反应一个人的真实心理状态，被认为是识别谎言的关键信息，对理解人类真实情感状态，有着重要的作用。因此，有效准确识别微表情，对日常生产生活有着重大的意义。例如，在刑侦时，经过微表情识别训练的审讯员可以更有效地判断嫌疑人话语的真实性，更有针对性地获取可靠信息；在临床医疗中，医生可以通过微表情识别有效推测患者的真实状态，从而更有效地与患者交流，改进治疗方案。与普通表情相比，微表情持续非常短，研究表明微表情仅持续1/25～1/3s。与此同时微表情面部肌肉动作幅度也非常小，通常只发生在人脸中很小的一部分区域，不会同时出现在上半脸和下半脸。因此对于没有经过专业训练的普通人，捕捉并正确识别微表情有着相当的难度。但人工识别微表情的经济成本和时间成本较高，难以大规模推广，并且人工识别易受环境的影响。受益于计算机视觉技术的快速发展，当前通过计算机手段自动识别微表情具有一定的可行性和商业价值。微表情识别指将给定的微表情样本识别为某一具体的情绪类别，相关研究主要基于传统机器学习方法，依靠lbp相关的时空描述子特征或光流相关的特征。lbp-top特征是局部二值模式(localbinarypattern,lbp)在三维空间上的拓展，可有效描述图片序列的动态纹理特征，最早由pfister等人应用于微表情识别，随后其大量改进模式被广泛应用于微表情识别，如huang等人提出的完备局部量化模式(spatialtemporalcompletedlocalquantizedpattern,stclqp)；wang等人提出的六交点局部二值模式(lbpwithsixintersectionpoints,lbp-sip)等等。另一主流特征是光流(opticalflow,of)，时序动态信息被证明是微表情的有效描述手段，而有关光流的研究证实了图像序列的时序动态信息可以有效改进微表情识别的效果，如xu等人提出的面部动力谱特征(facialdynamicsmap,fdm)；liu等人提出的主方向平均光流特征(maindirectionalmeanopticalflowfeature,mdmo)等等。随着深度学习的飞速发展，研究人员也在着手将其应用于微表情识别工作。kim等人提出了一个基于卷积神经网络(convolutionalneuralnetwork,cnn)和长短时记忆循环神经网络(longshorttermmemoryrecurrentneuralnetwork,lstmrnn)的时空特征学习网络，该方法使用所有微表情视频样本的峰值帧训练cnn学习空间特征，而后使用cnn的输出作为特征训练lstm网络学习时间特征，这是深度学习在微表情识别工作上的首次尝试。当前绝大部分有关微表情识别的研究仅可以取得60％以上的识别率，距离实际应用仍有一段距离；此外随着微表情数据集的扩充，基于深度学习的方法将是微表情识别在未来的主要研究方向之一，但目前相关研究较少，整体进展也较为缓慢。传统微表情识别往往在单个微表情库上进行训练和测试，而同一微表情数据库数据通常建立在相同的实验范式下，训练集和测试集选自同一数据库，往往不能有效的识别其他微表情数据库中的样本，泛化能力差。技术实现要素：发明目的：本发明针对现有技术存在的问题，提供一种基于光流注意力神经网络的跨库微表情识别方法，泛化能力更强，准确率更高。技术方案：本发明所述的基于光流注意力神经网络的跨库微表情识别方法包括：(1)获取两个不同的微表情数据库，分别作为训练集和测试集，其中，每个数据库中包含有若干个微表情视频及其对应的微表情类别标签；(2)将训练集和测试集中所有微表情视频转化为对应的人脸图像序列；(3)从每一人脸图像序列中抽取起始帧、峰值帧和终止帧，由起始帧和峰值帧计算得到第一单通道光流图，由峰值帧和终止帧计算得到第二单通道光流图；(4)将每一人脸图像序列的第一单通道光流图、第二单通道光流图和峰值帧组成一幅多通道图像，作为对应微表情视频的融合特征图；(5)建立光流注意力神经网络，并将训练集和测试集中微表情视频的融合特征图同时输入进行训练，训练时采用的整体损失函数为：训练集对应的神经网络输出和测试集对应的神经网络输出的最大均值差异，加上训练集对应的神经网络输出经过softmax处理得到的微表情类别和训练集中存储的微表情类别标签的交叉熵；(6)将待识别的微表情视频按照步骤(2)～(4)进行处理，得到融合特征图，并将得到的融合特征图输入训练好的光流注意力神经网络，输出即为识别出的微表情类别。进一步的，训练集和测试集中，同一类别的微表情视频的类别标签相同。进一步的，步骤(2)具体包括：(2-1)获取训练集和测试集中所有微表情视频的起始帧；(2-2)对起始帧进行人脸检测，得到人脸位置信息；(2-3)根据起始帧的人脸位置信息，从微表情视频的每帧图像中裁剪出矩形人脸图像，得到人脸图像序列。进一步的，步骤(3)具体包括：(3-1)从所获取的人脸图像序列中抽取起始帧、峰值帧和终止帧；(3-2)计算起始帧和峰值帧之间、峰值帧和终止帧之间的水平方向光流场和垂直方向光流场；(3-3)对于起始帧和峰值帧之间的水平方向光流场和垂直方向光流场，将其由笛卡尔坐标转换为极坐标，将相应坐标的值转换为hsv颜色空间的值，之后转换为灰度图像，作为第一单通道光流图；(3-4)对于峰值帧和终止帧之间的水平方向光流场和垂直方向光流场，按照步骤(3-3)做同样处理，得到第二单通道光流图。进一步的，步骤(5)具体包括：(5-1)建立光流注意力神经网络，所述光流注意力神经网络包括五个卷积层、六个线性整流层、四个最大池化层和两个全连接层，前四个卷积层后都依次连接一个线性整流层和一个最大池化层，第五个卷积层后依次连接一个线性整流层、一个全连接层、一个线性整流层和一个全连接层，最后一个全连接层的输出为神经网络的输出；(5-2)将训练集和测试集中微表情视频的融合特征图同时输入光流注意力神经网络进行训练训练时采用的整体损失函数lall为：lall＝ls+λmmd(ds,dt)式中，ls为训练集输出经过softmax处理得到的微表情类别q(x)和训练集中存储的微表情类别标签p(x)的交叉熵，x表示对应样本，n表示softmax处理后的输出个数，λ表示权重系数，mmd(ds,dt)为ds,dt的最大均值差异，为训练集输出，元素为m个，为测试集输出，元素为n个，k()表示高斯核函数。本发明所述的基于光流注意力神经网络的跨库微表情识别装置包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序时实现上述方法。有益效果：本发明与现有技术相比，其显著优点是：本发明提供一种基于光流注意力神经网络的跨库微表情识别方法及装置，通过光流法有效地关注与某种微表情强相关的部分，使卷积神经网络能有效地提取与微表情相关的特征，有效地提高了识别率；并且利用最大均值差异来降低不同数据库对于算法结果的影响，有效地提高了模型的泛化能力。附图说明图1是本发明提供的基于光流注意力神经网络的跨库微表情识别方法的一个实施例的流程示意图；图2是casme2数据库的一个样本的起始帧、峰值帧和终止帧；图3是起始帧和峰值帧的光流图以及峰值帧和终止帧的光流图；图4是光流图和峰值帧的融合特征图；图5是光流注意力神经网络训练过程的示意图；图6是光流注意力神经网络识别过程的示意图。具体实施方式本实施例提供了一种基于光流注意力神经网络的跨库微表情识别方法，如图1所示，包括：(1)获取两个不同的微表情数据库，分别作为训练集和测试集，其中，每个数据库中包含有若干个微表情视频及其对应的微表情类别标签。其中，训练集和测试集来自不同数据库，可能存在标签不统一的情况，因此会对训练集和测试集中微表情类别标签，根据标签的定义，统一两个数据库的微表情类别，使得同一类别的微表情视频的类别标签相同，对于无法统一的微表情视频，进行删除。本实施例在casm2微表情数据库、samm微表情数据库和smic-hs数据库之间做跨库微表情识别，由于类别不统一，对不同微表情库标签进行处理：casme2中，happy类的标签归为positive，sadness、disgust和fear类归为negative，surprise类归于surprise；samm数据库处理和casme2相同，smic库标签不做处理。(2)将训练集和测试集中所有微表情视频转化为对应的人脸图像序列。该步骤具体包括：(2-1)获取训练集和测试集中所有微表情视频的起始帧；(2-2)对起始帧进行人脸检测，得到人脸位置信息；(2-3)根据起始帧的人脸位置信息，从微表情视频的每帧图像中裁剪出矩形人脸图像，得到人脸图像序列。本实施例中，采用face_recognition的face_landmark函数去检测起始帧的人脸关键点，即人脸位置信息，并按照起始帧的位置信息裁剪出整个视频的人脸，人脸框大小依据为：水平方向为左脸颊的最左点的x坐标点到右脸颊最右点的x坐标点，垂直方向为下巴最下面点的y坐标点到眉毛最上点加上三十个像素点的y坐标点。(3)从每一人脸图像序列中抽取起始帧、峰值帧和终止帧，由起始帧和峰值帧计算得到第一单通道光流图，由峰值帧和终止帧计算得到第二单通道光流图。该步骤具体包括：(3-1)从所获取的人脸图像序列中抽取起始帧、峰值帧和终止帧，如图2所示；如果在数据库中直接标有峰值帧，则直接提取即可，若无，就取最中间的一帧作为峰值帧；(3-2)计算起始帧和峰值帧之间、峰值帧和终止帧之间的水平方向光流场和垂直方向光流场；光流场通过gunnar-farneback算法计算；(3-3)对于起始帧和峰值帧之间的水平方向光流场和垂直方向光流场，水平光流场为笛卡尔坐标系中x坐标值，垂直光流场为笛卡尔坐标系中y坐标值，将其由笛卡尔坐标转换为极坐标，得到幅值与角度，根据hsv颜色空间格式定义，将所得角度归一化到区间[0,255]，并赋值给hsv图像的色调(h)，hsv图像的饱和度(s)设为255，上述所得幅值归一化到[0,255]后，赋给hsv图像的明度(v)，之后将hsv图像转换为灰度图像，作为第一单通道光流图，如图3所示；其中，图像转换可以在opencv完成，也可编程实现；(3-4)对于峰值帧和终止帧之间的水平方向光流场和垂直方向光流场，按照步骤(3-3)做同样处理，得到第二单通道光流图。(4)将每一人脸图像序列的第一单通道光流图、第二单通道光流图和峰值帧组成一幅多通道图像，作为对应微表情视频的融合特征图。本实例中将第一单通道光流图、峰值帧的灰度图和第二单通道光流图依次对应图像的r、g、b通道，组成一幅多通道图像，结果如图4所示；之后还可以对融合特征图进行归一化处理，增强模型的鲁棒性。(5)建立光流注意力神经网络，并将训练集和测试集中微表情视频的融合特征图同时输入进行训练，训练时采用的整体损失函数为：训练集对应的神经网络输出和测试集对应的神经网络输出的最大均值差异，加上训练集对应的神经网络输出经过softmax处理得到的微表情类别和训练集中存储的微表情类别标签的交叉熵。如图5所示，该步骤具体包括：(5-1)建立光流注意力神经网络，所述光流注意力神经网络包括五个卷积层(conv1～conv5)、六个线性整流层、四个最大池化层和两个全连接层(fc1、fc2)，前四个卷积层后都依次连接一个线性整流层和一个最大池化层，即卷积层、线性整流层、最大池化层、卷积层、线性整流层…这样类推，图5中省略了线性整流层和最大池化层，到第五个卷积层时，其后面依次连接一个线性整流层、一个全连接层、一个线性整流层和一个全连接层，最后一个全连接层的输出为神经网络输出；线性整流层具体为线性整流激活函数relu；(5-2)将训练集和测试集中微表情视频的融合特征图同时输入光流注意力神经网络进行训练，训练时采用的整体损失函数lall为：lall＝ls+λmmd(ds,dt)式中，ls为训练集输出经过softmax处理得到的微表情类别q(x)和训练集中存储的微表情类别标签p(x)的交叉熵，x表示对应样本，n表示softmax处理后的输出个数，λ表示权重系数，mmd(ds,dt)为ds,dt的最大均值差异，为训练集输出，元素为m个，为测试集输出，元素为n个，k()表示高斯核函数。本实例中卷积层的卷积核大小都为3x3，步长为1，五个卷积层的通道数分别为64,64,128,128,128，最大池化层大小为2x2，步长为2，第一个全连接层的通道数为1024，最后一个通道数为3，即微表情类别；高斯核函数为σ＝[2.0，5.0,10.0,20.0,40.0，80.0]；权重系数λ＝2。(6)将待识别的微表情视频按照步骤(2)～(4)进行处理，得到融合特征图，并将得到的融合特征图输入训练好的光流注意力神经网络，如图6所示，输出即为识别出的微表情类别。本实施例还提供了一种基于光流注意力神经网络的跨库微表情识别装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序时实现上述方法。为了验证本发明的优越性能，本发明在casme2微表情库、samm微表情库和smic_hs微表情库之间进行跨库微表情识别，实验结果如表1所示。本实验选用准确率(accuracy)和f1_score作为实验的评价标准，从结果可以看出，本发明取得了最好的结果，以此证明了本发明的有效性。表1训练数据库测试数据库本算法accuracy/f1_scorecasme2smic_hs62％/60％casme2samm48％/47％smic_hscasme274％/71％smic_hssamm45％/45％sammcasme253％/50％sammsmic_hs55％/54％以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑文明;夏万闯;宗源;江星洵;路成;刘佳腾
技术所有人：东南大学
我是此专利的发明人

上一篇：中空芯电磁线圈的制作方法
上一篇：一种基于视觉的垃圾分类识别方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。