一种基于递归神经网络的离散情感识别方法

文档序号:9708758阅读:610来源:国知局
一种基于递归神经网络的离散情感识别方法
【技术领域】
[0001]本发明属于视频信号处理领域,具体地涉及一种基于具有长短时记忆模型的递归神经网络的离散情感识别方法,并以此来提高离散情感识别的精度。
【背景技术】
[0002]近年来,国内外研究人员对离散情感识别进行了大量的研究工作,提出了许多用于情感识别的有效算法。这些方法从处理策略上可以分为基于静态图像的情感识别和基于动态视频的情感识别。在基于视频的情感识别工作的主要框架为:先提取视频中每帧图像的特征,再最大池化这些特征并得到统一长度的情感特征,最后用该特征进行情感分类。该框架通过最大池化的方法将长度不等的特征序列统一映射为一个特征向量,进而进行分类器的训练及最终的预测。然而,该方法忽略了情感表达是一个动态过程,情感表达中的动态信息对情感识别有重要作用。仅仅通过最大池化特征序列的方法,完全忽视了情感表达的动态ig息,有着很大的ig息损失。

【发明内容】

[0003]为了解决上述技术问题,本发明提出了一种基于递归神经网络的离散情感识别方法,该方法能够充分利用情感表达过程中的动态信息,从而实现视频中参与者情感的精确识别。
[0004]本发明提出的一种基于递归神经网络的离散情感识别方法,包括以下步骤:
[0005]步骤1,对视频中的图像信号进行人脸表情特征的提取:
[0006]对视频中的图像信号进行人脸检测及跟踪,得到人脸区域后,提取人脸关键点,作为人脸的形变特征;
[0007]将人脸区域裁剪并归一化到统一大小,提取人脸的外观特征;
[0008]步骤2,对视频中的音频信号进行音频特征的提取:
[0009]对视频中的音频信号进行加窗处理,分割出音频序列单元;
[0010]在分割出的音频序列单元上提取音频特征;
[0011]步骤3,利用具有长短时记忆模型的递归神经网络分别对所述人脸的形变特征、人脸的外观特征、音频特征进行时序编码,获得固定长度的情感表征向量;将所获得的情感表征向量相串联,得到视频数据的最终情感表述特征;
[0012]步骤4,基于支持向量机算法设计的支持向量机分类器,利用步骤3中得到的最终情感表述特征进行情感类别预测。
[0013]优选的,所述步骤1中人脸的形变特征的提取方法为:
[0014]对于视频序列中的第一帧图像进行人脸检测,得到人脸区域图像后对后续每帧图像进行人脸跟踪,跟踪时停止进行人脸检测;在人脸跟踪过程中,如果人脸跟踪失败,则对当前帧图像重新进行人脸检测寻找人脸区域图像后继续进行人脸跟踪;
[0015]提取每帧人脸区域图像对应的人脸关键点,将得到的人脸关键点作为一组人脸的形变特征,用于描述人脸的形态及头部运动信息。
[0016]优选的,所述步骤1中所述人脸检测采用Haar特征及AdaBoost分类器进行检测;所述的人脸跟踪采用均值漂移算法进行跟踪;所述人脸关键点根据ASM算法进行提取。
[0017]优选的,所述人脸关键点包括眼球点及眼角点、鼻唇中心点、嘴角点。
[0018]优选的,在步骤1中得到人脸关键点后,对每帧人脸区域图像的人脸关键点的坐标值进行归一化处理,并采用主成分分析法对所述人脸关键点的坐标值进行降维和白化处理。
[0019]优选的,步骤2中提取音频特征的方法为:在分割出的音频序列单元上按照固定的帧长及帧移,对视频中的语音信号按帧提取能量、幅值、MFCC参数、LSP参数及梅耳谱参数作为首频特征。
[0020]优选的,步骤2中,按帧提取音频特征后,采用主成分分析法对于所述音频进行降维和白化处理。
[0021]优选的,步骤3中所述具有长短时记忆模型的递归神经网络的结构包括:一个具有长短时记忆模型的递归层、一个均值池化层、一个逻辑回归层;其中所述具有长短时记忆模型的递归层用于学习输入特征序列之间的时序变化模式,所述均值池化层将所述具有长短时记忆模型的递归层对应于输入特征序列的所有输出取均值,所述逻辑回归层将均值池化层的输出作为所输入特征序列的情感表征向量。
[0022]优选的,该方法包括训练阶段和预测阶段,两个阶段均包括步骤1至步骤4,区别在于:
[0023]训练阶段:
[0024]在步骤3中采用利用具有长短时记忆模型的递归神经网络分别对所述人脸的形变特征、人脸的外观特征、音频特征进行处理得到相应的情感表征向量的方法,分别训练与上述三个特征对应的递归神经网络,并保存权值;
[0025]在步骤4中采用步骤3中得到的最终情感表述特征进行情感类别预测的方法进行所述支持向量机分类器的训练;
[0026]预测阶段:
[0027]在步骤3中采用的具有长短时记忆模型的递归神经网络为训练阶段训练好的三个特征对应的递归神经网络;
[0028]步骤4中采用的支持向量机分类器为训练阶段训练好的支持向量机分类器。
[0029]优选的,所述具有长短时记忆模型的递归神经网络的训练采用最速梯度下降法,其中的损失函数采用交叉熵损失函数。
[0030]本发明在基于视频的情感识别中,采用具有长短时记忆模型的递归神经网络对视频序列数据进行时序编码,利用递归神经网络的时序建模能力,通过神经网络的参数学习,学习各帧特征之间的相互作用,即长跨度及短跨度相结合,实现了序列中不同粒度上的有效建模,融合了情感表达的动态特征,从而实现视频中参与者情感的精确识别。
【附图说明】
[0031]图1是本发明基于具有长短时记忆模型的递归神经网络的识别方法流程图;
[0032]图2是本发明步骤1的流程示意图;
[0033]图3是本发明步骤2的流程示意图;
[0034]图4是本发明步骤3采用的递归神经网络的结构示意图;
[0035]图5是本发明采用采用的LSTM节点结构示意图;
[0036]图6是本发明时序展开的网络结构示意图。
【具体实施方式】
[0037]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0038]需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。应该指出,所描述的实例仅仅视为说明的目的,而不是对本发明的限制。
[0039]如图1所示,本发明的基于递归神经网络的离散情感识别方法包括以下步骤:
[0040]步骤1,对视频中的图像信号进行人脸表情特征的提取,如图2所示:
[0041]步骤11,对视频中的图像信号进行人脸检测及跟踪,得到人脸区域后,提取人脸关键点,作为人脸的形变特征;
[0042]步骤12,将人脸区域裁剪并归一化到统一大小,提取人脸的外观特征。
[0043]所述步骤11中人脸的形变特征的提取方法为:首先对于视频序列中的第一帧图像进行人脸检测,得到人脸区域图像后对后续每帧图像进行人脸跟踪,跟踪时停止进行人脸检测;但如果在人脸跟踪过程中人脸跟踪失败,则需要对于当前帧图像重新进行人脸检测寻找人脸区域图像后继续进行人脸跟踪;在得到每帧图像的人脸检测或跟踪的人脸区域图像后,提取得到每帧人脸区域图像对应的人脸关键点,并将得到的人脸关键点作为一组人脸的形变特征,用于描述人脸的形态及头部运动信息。
[0044]在本发明实施例中,采用Haar特征及AdaBoost分类器进行人脸检测;采用均值漂移算法进行人脸跟踪;采用ASM算法提取得到人脸的关键点,其中,所述人脸关键点包括眼球点及眼角点、鼻唇中心点、嘴角点三部分。
[0045]在本发明实施例中,在所述步骤11得到人脸关键点之后,对每帧人脸区域图像的人脸关键点的坐标值进行归一化处理,即将每帧人脸区域图像的人脸关键点的坐标值减去所有人脸关键点的坐标均值;之后采用主成分分析法对于所述人脸关键点的坐标值进行降维,降维之后通过白化处理使所有特征的方差为1.0其中,降维后数据的能量保持在降维前数据能量的90 %。
[0046]数据的白化处理是为了使降维后的所有特征的方差为1.0且特征之间的相关性较低。具体做法为:求得降维后数据的每一维除以各自维度上的标准差,从而使降维后的数据的每一维的方差为1。
[0047]在得到人脸的形变特征后,步骤12主要完成人脸区域图像的校正,并提取相应的人脸的外观特征。具体地,所述步骤12进一步包括以下步骤:
[0048]步骤121,根据所述人脸关键点中左、右眼睛眼角的关键点进行连线,得到眼角连线与水平线之间的夹角,根据所述夹角对于所述人脸区域图像进行旋转,使所述夹角变为0度;
[0049]步骤122,对于旋转后的人脸区域图像进行尺度缩放,使所述眼角连线的长度为Μ个像素,其中,1002M250;
[0050]步骤123,根据左眼角关键点的位置对于经过尺度缩放的人脸区域图像进行裁剪,以使得到的人脸区域图像达到第一预定大小;
[0051]在本发明实施例中,所述第一预定大小为2Mx2M,且左眼角关键点的位置为横纵坐标分别为0.8M和0.6M。
[0052]步骤124,对于裁剪得到的人脸区域图像进行灰度化,并将所述人脸区域图像中每个像素的灰度值减去所述人脸区域图像的像素灰度值均值,并对于归一化后的人脸区域图像的像素灰度值进行主成分分析降维和白化处理,降维后的特征能量保持在降维前特征总能量的80%,将降维后的人脸区域图像的所有像素灰度值作为人脸的外观特征。
[0053]这样,对于每帧人脸区域图像,均能够得到人脸的形变特征和人脸的外观特征两组人脸特征。
[0054]步骤2,对视频中的音频信号进行音频特征的提取:对视频中的音频信号进行加窗处理,分割出音频序列单元;在分割出的音频序列单元上提取包括线谱对、基音周期和增益均值的特征参数的音频特征。
[0055]如图3所示,参数提取步骤的具体实现方式如下:
[0056]步骤21,对于
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1