一种基于语音、表情与姿态的三模态情感识别方法与流程

文档序号:12551373阅读:338来源:国知局
一种基于语音、表情与姿态的三模态情感识别方法与流程

本发明涉及一种情感识别方法,特别是涉及一种基于语音、表情与姿态的三模态情感识别方法,属于图像处理与模式识别技术领域。



背景技术:

人类情感在人类交流方面扮演着至关重要的角色,其传递的信息非常丰富。随着科学技术和人类社会的不断进步,智能机器步入了千家万户,能感知人类情感并做出相应反映的人机交互领域迫切地需要得到发展。至于如何有效地进行人机交互,首要的关键点在于如何使机器正确地识别出人类所表达出的情感,即所谓的情感识别。

人类的情感状态可以被人为地分成一些类别,如悲伤、高兴、厌恶、恐惧、惊吓等,有关情感分类识别的研究也取得了一定的进展。但遗憾的是,现今存在的情感识别技术大多是针对一个或两个模态的。单单只利用某一种模态的信息来预测情感的方式,称为单模态情感识别。在现实生活中,人类情感的表达方式是多种多样的,在说话的同时,我们会做出相应的表情,有时还会伴随着一些肢体动作。所以,从现实的人类情感交互的过程中,我们可以看到,单一模态的情感信息是不完善且不丰富的,对于情感的准确判别是远远不够的,各个模态的情感信息之间是相辅相成,缺一不可的。

由于多模态特征数据的庞大性与复杂性,导致在后期处理的时候可能遭遇实时性及稳定性不足的问题,因此利用特征降维及归一化技术,我们可以对特征进行一定的筛选与优化,同时借助于特征融合方法将各个模态的情感特征相互融合起来,以使其更能反映出样本的真实特性,增加了系统的实时性与鲁棒性。

目前,人工智能领域得到了飞速的发展,如何让冰冷的机器顺利地感知人类表达出来的情感是学术界的一项热门课题。然而现今还只停留在单模态如表情或语音的情感识别上,能综合各种模态的情感信息的情感识别方法还有待发展。



技术实现要素:

本发明所要解决的技术问题是:提供一种基于语音、表情与姿态的三模态情感识别方法,解决了现有技术不能充分利用人类表达情感过程中各模态情感信息的问题,为人机交互领域的情感识别系统开辟出一条新的途径。

本发明为解决上述技术问题采用以下技术方案:

一种基于语音、表情与姿态的三模态情感识别方法,包括如下步骤:

步骤1,获取不同情感分类的语音、表情与姿态三种模态的图像,并将各个模态的图像与各自的情感类别标签一一对应,建立三模态情感数据库,将库中不同情感分类各个模态的图像分为训练样本和测试样本;

步骤2,分别对各个模态的训练样本和测试样本进行情感特征提取,然后进行降维处理,构建各个模态训练样本和测试样本的特征矩阵;并对训练样本、测试样本各个模态的特征矩阵分别进行归一化;

步骤3,将训练样本、测试样本各个模态归一化后的特征矩阵相互融合起来,得到训练样本、测试样本融合后的特征矩阵;

步骤4,利用训练样本融合后的特征矩阵识别测试样本融合后的特征矩阵中各测试样本的类别,得到各测试样本的分类结果。

作为本发明的一种优选方案,步骤1所述不同情感分类包括:悲伤、高兴、厌恶、恐惧、惊吓、中性。

作为本发明的一种优选方案,步骤2所述对训练样本、测试样本各个模态的特征矩阵分别进行归一化,具体步骤如下:

以语音特征矩阵为例,降维处理后的训练样本和测试样本的语音特征矩阵分别记为Vtr(d1行n列)和Vte(d1行m列),n、m分别为训练样本、测试样本的数目,d1为语音情感特征降维后的维数;

在所有n个训练样本的d1维特征向量中,求出每一维特征的最大值,即

其中,λj,max表示Vtr中第j行的最大元素值,Vtrj,p表示Vtr的第j行第p列元素;

用λj,max对特征矩阵Vtr的第j行作归一化处理,即

其中,表示归一化的特征矩阵Vtr的第j行第p列元素;

依据每一维特征的最大元素值,同样对测试样本的特征矩阵Vte的每一维特征作归一化处理,得到表示归一化的Vtej,q,Vtej,q表示Vte的第j行第q列元素;

对降维处理后的表情、姿态特征矩阵进行同样的处理,将归一化后的语音、表情和姿态对应的训练样本和测试样本的特征矩阵分别表示为和

作为本发明的一种优选方案,所述步骤3的具体步骤如下:

31、求解如下最优化问题,得到三个映射变换ω123,使得经过映射后的特征矩阵中的类内相关性最大并且类间相关性最小;最优化问题为:

其中,分别表示归一化后的语音、表情和姿态对应的训练样本的特征矩阵,Cw,Cb分别表示类内相关矩阵、类间相关矩阵,且

其中,I=[1,1,…,1]T,nrc表示第r个模态中第c类表情的样本个数,s表示类别总数;

上述最优化问题的解表示为:

其中,

ω=[ω1T2T3T]T,上式求解得到的ρ值中选择最大的ρ值ρmax所对应的ω

32、将训练样本和测试样本经过归一化后的各个模态特征矩阵的特征向量首尾串接起来,用Futr和Fute来表示,其中,

33、将训练样本融合后的特征矩阵表示为Fitr=ω~TFutr,同样的,测试样本融合后的特征矩阵表示为Fite

作为本发明的一种优选方案,所述步骤4的具体步骤如下:

在得到训练样本融合后的特征矩阵Fitr后,利用训练样本的类别标签组成的列向量T=[T1,T2,…,Tn]T(Tp∈{1,2,…,s},p=1,2,…,n),求解下列优化问题:

其中,c∈{1,2,…,s},s表示类别总数,n为训练样本数目,为惩罚因子,Fitrp为Fitr的第p行的数据,φ(Fitrp)表示将Fitrp向高维空间进行映射,解上述优化问题,得到s个不同的参数ψ和b,判定测试样本类别的判决函数为:

其中,Fiteq为Fite的第q行的数据,q∈{1,2,…,m},Fite为测试样本融合后的特征矩阵,φ(Fitep)表示将Fitep向高维空间进行映射,将判决函数的值最大的c所对应的类别作为测试样本的分类结果,用identity(Fiteq)表示。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

1、本发明通过三种模态情感特征之间的相互融合及特征选择技术的应用,减少了数据的冗余性,加强了数据之间的关联性,在情感识别过程中,能有效地对情感进行分类,提高了情感识别的准确率,为人机交互领域的情感交流系统提供了一种新的方法和途径。

2、本发明综合利用了人类情感表达过程中的三种模态的情感信息,相比于单模态的情感预测,具有更高的准确性和客观性。

3、本发明对特征降维技术与特征融合方法的应用,减少了数据的冗余性,增强了数据之间的相关性,进一步提高了情感识别的准确率,并改善了系统的实时性。

附图说明

图1是本发明基于语音、表情与姿态的三模态情感识别方法的流程图。

图2是本发明三模态情感数据库中的部分图像示例。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

如图1所示,本发明基于语音、表情与姿态的三模态情感识别方法的实现主要包含以下步骤:

步骤1:建立三模态情感数据库

库中的数据收集过程如下:

由10位参与人员在一块蓝色背景下轮流表达6种情感:悲伤、高兴、厌恶、恐惧、惊吓、中性。在此过程中,分别用语音记录仪与摄像机记录下参与人员的语音,表情与姿态的表达过程,并将各个模态的数据与其对应的情感类别标签归类在一起,从而建立此三模态情感数据库,其部分图像示例如图2所示。

步骤2:对各个模态的样本进行特征提取

对各模态特征的提取方法及特征种类,描述如下:

对于语音信号特征的提取,主要是利用一个开源的语音特征提取工具箱openSMILE来实现的。利用openSMILE提取了1582维的语音情感特征(The INTERSPEECH 2010 Paralinguistic Challenge feature set)。对于面部表情信号特征的提取,提取了16560维的Gabor情感特征,然后利用主成分分析(pca)方法将其降维到131维。对于姿态特征的提取,利用EyeWeb平台来对姿态进行跟踪,得到运动量QoM(Quantity of Motion)、肢体的收缩指数CI(Contraction Index)、运动速率VEL(Velocity)、运动加速度ACC(Acceleration)、和手心的运动线FL(Fluidity)等几个指标,最终得到80维的姿态情感特征。

步骤3:对提取得到的特征进行预处理

分别对各个模态的训练样本和测试样本提取出不同的情感特征,然后进行降维处理,用d1,d2,d3维的特征向量来表示,由s个类别的n个训练样本和m个测试样本的特征向量分别构建出各个模态的情感特征矩阵:得到的训练样本和测试样本的语音特征矩阵分别用Vtr(d1行n列)和Vte(d1行m列)来表示,同样的,表情特征矩阵分别用Ftr(d2行n列)和Fte(d2行m列)来表示,姿态特征矩阵分别用Etr(d3行n列)和Ete(d3行m列)来表示。

对训练样本和测试样本的各个模态的情感特征矩阵分别进行归一化,这里以语音情感特征为例,设经过归一化后的训练样本和测试样本的语音特征矩阵分别为和则具体步骤如下:

在所有n个训练样本的d1维特征向量中,求出每一维特征的最大值,即

其中,Vtrj,p表示特征矩阵Vtr的第j行第p列元素,λj,max表示特征矩阵Vtr中第j行的最大元素值,即第j维特征的最大值。

用λj,max对特征矩阵Vtr的第j行作归一化处理,即

其中,表示归一化的特征矩阵Vtr的第j行第p列元素。

依据每一维特征的λj,max,对测试样本的特征矩阵Vte的每一维特征作归一化处理,即

其中,Vtej,q表示测试样本的特征矩阵Vte的第j行第q列元素,表示归一化的Vtej,q

依据以上步骤,对表情和姿态的情感特征进行同样的处理,将归一化后的各模态训练样本和测试样本的特征矩阵分别表示为和

步骤4:将各个模态的情感特征相互融合起来

首先需要找到三个映射变换ω123,使得经过映射后的特征矩阵中的类内相关性最大并且类间相关性最小,这里可以将其表述为如下的最优化问题:

其中,Cw,Cb分别表示类内相关矩阵、类间相关矩阵,且

其中,I=[1,1,…,1]T,nrc表示第r个模态中第c类表情的样本个数,s表示类别总数。

上述最优化问题的解可以写作:

其中,

ω=[ω1T2T3T]T,假设由上式得到了t个特征值,将其中第t个特征值记为ρt;特征值在选择区分度高的特征的过程中发挥了关键作用:较大的特征值对应区分度较高的特征,这些特征可以有效地最大化类内相关并且最小化类间相关,在此,我们选择最大的特征值所对应的ω

将训练样本和测试样本的经过归一化后的各个模态每个样本的特征向量首尾串接起来,用Futr和Fute来表示,其中,

最后得到融合后的特征矩阵Fitr=ω~TFutr,将利用此方法得到的训练样本的融合后的特征矩阵表示为Fitr,同样的,对测试样本的情感特征也用此方法得到融合后的特征矩阵表示为Fite

步骤5:将得到的预测模型用于测试样本类别标签值的判定

在得到融合后的训练样本的情感特征矩阵Fitr后,利用训练样本的类别标签组成的列向量T=[T1,T2,…,Tn]T(Tp∈{1,2,…,s},p=1,2,…,n),求解下列优化问题:

其中,c∈{1,2,…,s},n为训练样本数量,作为惩罚因子可以降低训练误差,Fitrp为Fitr的第p行的数据,即第p个样本的数据,φ(Fitrp)将Fitrp向高维空间进行映射,解此最优化问题,可以得到s个不同的ψ和b,然后判定测试样本的类别为:

其中,Fiteq为Fite的第q行的数据,即第q个样本的数据,q∈{1,2,…,m},即在s个判决函数的值中寻找最大值,将判决函数的值最大的c所对应的类别作为测试样本的分类结果,用identity(Fiteq)表示。

以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1