一种情感识别方法及装置与流程

文档序号：11251327阅读：1730来源：国知局

本发明涉及多媒体技术领域，特别是涉及一种情感识别方法及装置。

背景技术：

随着人工智能技术的迅速发展，情感识别能够通过画面和声音判断人物情绪，让机器真正“懂”用户，这将极大促进视频理解、人机交互等智能领域的发展。情感识别是视频画面情感、音频情感识别等多个领域技术的综合体。视频画面情感识别利用人工智能的算法，通过视频画面中人物表情、动作和姿态等信息识别出人物情绪。而音频情感识别主要根据人在不同情感下语音信号的非平稳性特征，通过提取语音的音质、韵律、频谱等声学特征，来判断情绪变化。

传统的卷积神经网络(cnn，convolutionalneuralnetworks)能提取出图像的外观特征，在图像识别领域取得了很好的效果。然而，cnn只能处理单张图像。因此，先通过cnn提取视频每帧图像的外观特征，再通过递归神经网络(rnn，recurrentneuralnetwork)提取图像序列的时间特征，通过视频的外观特征和时间特征识别视频的情感。其中，情感类型可以分为愤怒、恶心、害怕、高兴、悲伤、惊讶和中立七种基本情感。目前，由于带有情感标注的数据量少，rnn情感识别尤其是某几类情感(如恶心、惊讶)识别的准确度较低。

技术实现要素：

本发明实施例的目的在于提供一种情感识别方法及装置，以提高视频情感识别的准确度。具体技术方案如下：

本发明实施例公开了一种情感识别方法，包括：

通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征，得到第一情感结果；

通过预先建立的三维卷积神经网络模型识别所述待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征，得到第二情感结果；

在得到所述第一情感结果及所述第二情感结果时，对所述第一情感结果、所述第二情感结果进行融合计算，得到所述待识别视频的融合结果；

根据所述融合结果中的最大值，通过预先建立的融合结果和情感类型的对应关系，得到所述待识别视频的情感类型。

可选的，位于所述通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征，之前，所述方法还包括：

对所述待识别视频进行预处理，得到所述待识别视频的帧序列。

可选的，位于所述通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征，之前，所述方法还包括：

通过卷积神经网络对fer2013数据库中的具有基本表情的人脸图像进行训练，建立卷积神经网络模型；

通过递归神经网络对所述卷积神经网络模型的外观特征进行训练，建立递归神经网络模型；

通过三维卷积神经网络对afew6.0数据库中的具有基本表情的视频片段进行训练，得到三维卷积神经网络模型。

可选的，所述对所述待识别视频进行预处理，得到所述待识别视频的帧序列的步骤，包括：

对所述待识别视频中的每一帧图片做仿射变换，得到所述帧序列。

可选的，所述对所述第一情感结果、所述第二情感结果进行融合计算，得到所述待识别视频的融合结果的步骤，包括：

根据公式：wvideo＝a1×wcnn-rnn+(1-a1)×wc3d，

得到融合结果wvideo，其中，wcnn-rnn为所述第一情感结果，wc3d为所述第二情感结果，a1为第一情感结果参数，1-a1为第二情感结果参数，a1为大于0且小于1的数值。

可选的，位于所述对所述第一情感结果、所述第二情感结果进行融合计算，之前，所述方法还包括：

提取所述待识别视频的音频特征，通过支持向量机模型识别所述音频特征，得到音频情感结果；

在得到所述第一情感结果、所述第二情感结果及所述音频情感结果时，对所述第一情感结果、所述第二情感结果及所述音频情感结果进行融合计算，得到所述待识别视频的融合结果。

可选的，所述对所述第一情感结果、所述第二情感结果及所述音频情感结果进行融合计算，得到所述待识别视频的融合结果的步骤，包括：

根据公式：

wvideo＝w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio，得到融合结果wvideo，

其中，wcnn-rnn为所述第一情感结果，wc3d为所述第二情感结果，waudio为所述音频情感结果，w1为第一情感结果参数，w2为第二情感结果参数，1-w1-w2为音频情感结果参数，w1、w2和w1+w2为大于0且小于1的数值。

本发明实施例还公开了一种情感识别装置，包括：

第一情感结果模块，用于通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征，得到第一情感结果；

第二情感结果模块，用于通过预先建立的三维卷积神经网络模型识别所述待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征，得到第二情感结果；

融合结果模块，用于在得到所述第一情感结果及所述第二情感结果时，对所述第一情感结果、所述第二情感结果进行融合计算，得到所述待识别视频的融合结果；

情感类型模块，用于根据所述融合结果中的最大值，通过预先建立的融合结果和情感类型的对应关系，得到所述待识别视频的情感类型。

可选的，本发明实施例的情感识别装置，还包括：

预处理模块，用于对所述待识别视频进行预处理，得到所述待识别视频的帧序列。

可选的，本发明实施例的情感识别装置，还包括：

卷积神经网络模型建立模块，用于通过卷积神经网络对fer2013数据库中的具有基本表情的人脸图像进行训练，建立卷积神经网络模型；

递归神经网络模型建立模块，用于通过递归神经网络对所述卷积神经网络模型的外观特征进行训练，建立递归神经网络模型；

三维卷积神经网络模型建立模块，用于通过三维卷积神经网络对afew6.0数据库中的具有基本表情的视频片段进行训练，得到三维卷积神经网络模型。

可选的，所述预处理模块具体用于对所述待识别视频中的每一帧图片做仿射变换，得到所述帧序列。

可选的，所述融合结果模块具体用于，根据公式：

wvideo＝a1×wcnn-rnn+(1-a1)×wc3d，

可选的，本发明实施例的情感识别装置，还包括：

音频情感结果模块，用于提取所述待识别视频的音频特征，通过支持向量机模型识别所述音频特征，得到音频情感结果；

所述融合结果模块还用于，在得到所述第一情感结果、所述第二情感结果及所述音频情感结果时，对所述第一情感结果、所述第二情感结果及所述音频情感结果进行融合计算，得到所述待识别视频的融合结果。

可选的，融合结果模块具体用于，根据公式：

wvideo＝w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio，得到融合结果wvideo，

本发明实施例提供的情感识别方法及装置，通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和帧序列的时间特征，得到第一情感结果；通过预先建立的三维卷积神经网络模型识别待识别视频的帧序列中人脸的外观特征和帧序列的时间特征，得到第二情感结果；对第一情感结果、第二情感结果进行融合计算，得到待识别视频的融合结果；根据融合结果中的最大值，通过预先建立的融合结果和情感类型的对应关系，得到待识别视频的情感类型。本发明实施例通过将递归神经网络模型和三维卷积神经网络模型相结合，提高了识别视频情感类型的准确度。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的情感识别方法的一种流程图；

图2为本发明实施例的情感识别方法的另一种流程图；

图3为本发明实施例的情感识别方法的另一种流程图；

图4为本发明实施例的情感识别装置的一种结构图；

图5为本发明实施例的情感识别装置的另一种结构图；

图6为本发明实施例的情感识别装置的另一种结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，通过递归神经网络可以识别视频的帧序列中人脸的外观特征和帧序列的时间特征，对视频的情感类型做出识别。但是，该方法对于部分微表情识别的准确度比较低。因此，本发明实施例公开了一种情感识别方法及装置，下面首先对情感识别方法进行详细说明。

参见图1，图1为本发明实施例的情感识别方法的一种流程图，包括以下步骤：

s101，通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和帧序列的时间特征，得到第一情感结果。

本发明实施例中，递归神经网络模型首先通过卷积神经网络提取视频的每一帧图片的外观特征，其中，外观特征可以包括：颜色特征、纹理特征、形状特征、空间关系特征等。然后将外观特征作为递归神经网络的输入，通过递归神经网络提取视频的帧序列的时间特征，时间特征可以包括：帧序列中每一帧图片的时间，即帧图片之间的互连关系。通过递归神经网络模型，根据外观特征和时间特征，得到第一情感结果。

其中，递归神经网络模型包括：视频和情感向量的对应关系，视频也就是图片序列，情感向量为连续的几个数值，且数值的和为1。例如，基本情感类型为7种，分别为愤怒、恶心、害怕、高兴、悲伤、惊讶和中立。那么，输出的情感向量为7个数值，这7个数值分别对应愤怒、恶心、害怕、高兴、悲伤、惊讶和中立的概率，当然，这7个数值的和为1。因此，通过递归神经网络模型可以根据输入的视频得到该视频对应输出的情感向量，即，7种情感类型的概率。相应地，得到的第一情感结果即为7种情感类型的概率。

s102，通过预先建立的三维卷积神经网络模型识别待识别视频的帧序列中人脸的外观特征和帧序列的时间特征，得到第二情感结果。

与s101相同的是，三维卷积神经网络模型包括：视频和情感向量的对应关系。但是，三维卷积神经网络可同时提取视频的帧序列的外观特征和时间特征，因此，三维卷积神经网络可以捕捉到微表情的细微变化，从而识别某些微表情，例如：恶心、惊讶等，进而提高情感识别的准确度。

s103，在得到第一情感结果及第二情感结果时，对第一情感结果、第二情感结果进行融合计算，得到待识别视频的融合结果。

需要说明的是，通过递归神经网络模型和三维卷积神经网络模型都可以得到视频对应的情感类型，由于递归神经网络模型对高兴和愤怒等较明显的表情具有很好的识别性能，三维卷积神经网络模型对微表情具有很好的识别性能，可以将两种模型进行互补，即，将两种结果进行融合计算，得到准确度更高的待识别视频的融合结果。

s104，根据融合结果中的最大值，通过预先建立的融合结果和情感类型的对应关系，得到待识别视频的情感类型。

由s101和s102可知，第一情感结果和第二情感结果都为情感向量，那么，通过两种模型的融合，得到的融合结果也为情感向量。而融合结果和情感类型的对应关系是预先建立的，例如，该对应关系为：融合结果为情感向量，该情感向量中的7个数值依次和愤怒、恶心、害怕、高兴、悲伤、惊讶、中立相对应，如果融合结果为：0.1、0.15、0.1、0.1、0.2、0.1、0.25，则表明待识别视频的情感类型中愤怒的概率为0.1，恶心的概率为0.15，害怕的概率为0.1、高兴的概率为0.1，悲伤的概率为0.2，惊讶的概率为0.1，中立的概率为0.25。显然，融合结果中的最大值为0.25，那么，最终得到的待识别视频的情感类型为中立。

可见，本发明实施例的情感识别方法，通过预先建立的递归神经网络模型和预先建立的三维卷积神经网络模型分别识别待识别视频的帧序列中人脸的外观特征和帧序列的时间特征，得到第一情感结果和第二情感结果；对第一情感结果、第二情感结果进行融合计算，得到待识别视频的融合结果；根据融合结果中的最大值，通过预先建立的融合结果和情感类型的对应关系，得到待识别视频的情感类型。本发明实施例通过将递归神经网络模型和三维卷积神经网络模型相结合，并将两种模型得到的情感结果融合，提高了识别视频情感类型的准确度。

参见图2，图2为本发明实施例的情感识别方法的另一种流程图，在图1实施例的基础上，还包括：

s201，对待识别视频进行预处理，得到待识别视频的帧序列。

需要说明的是，本发明实施例识别的是视频的情感类型，即，视频的每一帧图片中的人脸图片的情感类型。而对于给定的视频，不是每一帧图片都可以直接提取人脸图片的外观特征，需要对视频的每一帧图片进行预处理，即，检测人脸图片中的人脸关键点，并根据人脸关键点做仿射变换，得到待识别视频的帧序列，进而提取待识别视频的帧序列的外观特征。

参见图3，图3为本发明实施例的情感识别方法的另一种流程图，在图1实施例的基础上，还包括：

s301，通过卷积神经网络对fer2013数据库中的具有基本表情的人脸图像进行训练，建立卷积神经网络模型。

具体的，fer2013数据库为包含七种基本表情的表情数据库。由于fer2013数据库的数据量小，因此，需要重新训练一个深度学习模型。即，通过卷积神经网络训练使得fer2013数据库在人脸识别模型的基础上做微调，从而建立卷积神经网络模型。需要解释的是，人脸识别模型为与表情无关的模型，这样，机器不需要重新学习，而可以直接对情感类型进行分类，从而简化卷积神经网络模型训练的过程。卷积神经网络模型包括：图片和情感向量的对应关系。

s302，通过递归神经网络对卷积神经网络模型的外观特征进行训练，建立递归神经网络模型。

其中，卷积神经网络模型每次只能处理单张图片，即，每次只能提取单张图片的外观特征，递归神经网络可以提取图片序列的时间特征。那么，将卷积神经网络模型的外观特征作为递归神经网络的输入，与递归神经网络提取的时间特征相结合，通过训练，得到递归神经网络模型。递归神经网络模型中包括视频和情感向量的对应关系，使得输入视频时，得到视频对应的情感类型。

s303，通过三维卷积神经网络对afew6.0数据库中的具有基本表情的视频片段进行训练，得到三维卷积神经网络模型。

具体的，afew6.0数据库为包括七种基本表情视频片段的数据库，三维卷积神经网络可以同时提取视频的每一帧图片的外观特征和视频的帧序列的时间特征，通过三维卷积神经网络使得afew6.0数据库在视频识别模型的基础上做微调，从而建立三维卷积神经网络模型。三维卷积神经网络模型中包括视频和情感向量的对应关系，使得输入视频时，得到视频对应的情感类型。

本发明实施例的一种实现方式中，对待识别视频进行预处理，得到待识别视频的帧序列的步骤，包括：

对待识别视频中的每一帧图片做仿射变换，得到帧序列。

更为具体的，仿射变换在几何上定义为两个向量空间之间的一个仿射变换或者仿射映射，由一个非奇异的线性变换接上一个平移变换组成。图片的仿射变换可以理解为图片的平移、拉伸和压缩等等。举例而言，如果待识别视频中的一帧图片中人脸是倾斜的，可根据仿射变换将倾斜的人脸变换为平直的人脸，方便后续提取图片中人脸的外观特征。由于仿射变换属于现有技术，在此不再进行详细描述。当然，其他可以实现提取图片中人脸的外观特征的方式也都是可以的，在此不做限定。

本发明实施例的一种实现方式中，对第一情感结果、第二情感结果进行融合计算，得到待识别视频的融合结果的步骤，包括：

根据公式：wvideo＝a1×wcnn-rnn+(1-a1)×wc3d，

得到融合结果wvideo，其中，wcnn-rnn为第一情感结果，wc3d为第二情感结果，a1为第一情感结果参数，1-a1为第二情感结果参数，a1为大于0且小于1的数值。

更为具体的，在得到第一情感结果和第二情感结果之后，将第一情感结果和第二情感结果进行融合，得到待识别视频的融合结果。需要说明的是，a1为通过验证得到的数值。首先，在评估递归神经网络模型或三维卷积神经网络模型时，将具有情感类型的视频样本作为递归神经网络模型或三维卷积神经网络模型的输入，将通过递归神经网络模型或三维卷积神经网络模型得到的情感类型与已知的情感类型进行对比，通过不断调节递归神经网络模型或三维卷积神经网络模型内部的参数，使得递归神经网络模型或三维卷积神经网络模型最优。然后，在递归神经网络模型和三维卷积神经网络模型相结合时，将具有情感类型的视频样本作为递归神经网络模型和三维卷积神经网络模型的输入，将通过递归神经网络模型和三维卷积神经网络模型计算得到的情感类型和已知情感类型进行对比，通过不断调节a1，使得递归神经网络模型和三维卷积神经网络模型两种模型结合之后得到的结果达到最优，即，使得到的结果与已知结果最接近。

本发明实施例中，结合递归神经网络模型对高兴、愤怒等表情具有较高识别性的优点，以及三维卷积神经网络模型对惊讶、恶心等微表情具有较高识别性的优点，得到待识别视频最终的情感类型。因此，本发明实施例的情感识别方法识别视频情感的准确度更高。

可选的，位于对第一情感结果、第二情感结果进行融合计算，之前，本发明实施例的情感识别方法还包括：

提取待识别视频的音频特征，通过支持向量机模型识别音频特征，得到音频情感结果。

在得到所述第一情感结果、所述第二情感结果及所述音频情感结果时，对第一情感结果、第二情感结果及音频情感结果进行融合计算，得到待识别视频的融合结果。

需要说明的是，通过递归神经网络模型和三维卷积神经网络模型两种模型得到的情感类型，仅仅是通过对视频中图片的处理得到的，而视频除了一帧一帧的图片之外，还包括声音。本发明实施例中，还可以提取视频的音频特征，通过对音频的识别，得到音频情感结果。其中，音频特征包括：语速、振幅和音频等。支持向量机模型为有监督的学习模型，通常用来进行模式识别、分类以及回归分析。当然，该支持向量机模型也是通过训练得到的。同样的，得到的音频情感结果也为情感向量。

本发明实施例的一种实现方式中，对第一情感结果、第二情感结果及音频情感结果进行融合计算，得到待识别视频的融合结果的步骤，包括：

根据公式：

wvideo＝w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio，得到融合结果wvideo，w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio

其中，wcnn-rnn为第一情感结果，wc3d为第二情感结果，waudio为音频情感结果，w1为第一情感结果参数，w2为第二情感结果参数，1-w1-w2为音频情感结果参数，w1、w2和w1+w2为大于0且小于1的数值。

在得到音频情感结果之后，将音频情感结果与第一情感结果、第二情感结果相融合，得到待识别视频的融合结果。其中，w1和w2的选取方法与上述a1的选取方法相同，在此不再赘述。显然，将音频情感结果与第一情感结果以及第二情感结果结合，递归神经网络模型、三维卷积神经网络模型和支持向量机模型中参数的训练过程将会复杂化，但是得到的情感类型准确性更高。

相应于上述方法实施例，本发明实施例还公开了一种情感识别装置，参见图4，图4为本发明实施例的情感识别装置的一种结构图，包括：

第一情感结果模块401，用于通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和帧序列的时间特征，得到第一情感结果。

第二情感结果模块402，用于通过预先建立的三维卷积神经网络模型识别待识别视频的帧序列中人脸的外观特征和帧序列的时间特征，得到第二情感结果。

融合结果模块403，用于在得到第一情感结果及第二情感结果时，对第一情感结果、第二情感结果进行融合计算，得到待识别视频的融合结果。

情感类型模块404，用于根据融合结果中的最大值，通过预先建立的融合结果和情感类型的对应关系，得到待识别视频的情感类型。

可见，本发明实施例的情感识别装置，通过预先建立的递归神经网络模型和预先建立的三维卷积神经网络模型分别识别待识别视频的帧序列中人脸的外观特征和帧序列的时间特征，得到第一情感结果和第二情感结果；对第一情感结果、第二情感结果进行融合计算，得到待识别视频的融合结果；根据融合结果中的最大值，通过预先建立的融合结果和情感类型的对应关系，得到待识别视频的情感类型。本发明实施例通过将递归神经网络模型和三维卷积神经网络模型相结合，并将两种模型得到的情感结果融合，提高了识别视频情感类型的准确度。

需要说明的是，本发明实施例的装置是应用上述情感识别方法的装置，则上述情感识别方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

参见图5，图5为本发明实施例的情感识别装置的另一种结构图，在图4实施例的基础上，还包括：

预处理模块501，用于对待识别视频进行预处理，得到待识别视频的帧序列。

参见图6，图6为本发明实施例的情感识别装置的另一种结构图，在图4实施例的基础上，还包括：

卷积神经网络模型建立模块601，用于通过卷积神经网络对fer2013数据库中的具有基本表情的人脸图像进行训练，建立卷积神经网络模型。

递归神经网络模型建立模块602，用于通过递归神经网络对卷积神经网络模型的外观特征进行训练，建立递归神经网络模型。

三维卷积神经网络模型建立模块603，用于通过三维卷积神经网络对afew6.0数据库中的具有基本表情的视频片段进行训练，得到三维卷积神经网络模型。

可选的，本发明实施例的情感识别装置中，预处理模块具体用于对待识别视频中的每一帧图片做仿射变换，得到帧序列。

可选的，本发明实施例的情感识别装置中，融合结果模块具体用于，根据公式：wvideo＝a1×wcnn-rnn+(1-a1)×wc3d，

得到融合结果wvideo，其中，wcnn-rnn为第一情感结果，wc3d为第二情感结果，a1为第一情感结果参数，1-a1为第二情感结果参数，a1为大于0且小于1的数值。

可选的，本发明实施例的情感识别装置，还包括：

音频情感结果模块，用于提取待识别视频的音频特征，通过支持向量机模型识别音频特征，得到音频情感结果。

融合结果模块还用于，对第一情感结果、第二情感结果及音频情感结果进行融合计算，得到待识别视频的融合结果。

融合结果模块具体用于，根据公式：

wvideo＝w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio，得到融合结果wvideo，

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范音;路香菊;李典
技术所有人：北京奇艺世纪科技有限公司
我是此专利的发明人

上一篇：用于人脸识别的基于LBP特征的结构型稀疏表示分类方法与流程
上一篇：一种颜值判定方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。