基于鉴别局部保持投影的多模态情感特征融合方法

文档序号:10725739阅读:536来源:国知局
基于鉴别局部保持投影的多模态情感特征融合方法
【专利摘要】本发明公开了基于鉴别局部保持投影的多模态情感特征融合方法,该方法首先对多模态情感数据库中每种模态的样本数据提取情感特征,如语音特征、表情特征、姿态特征等,然后采用鉴别局部保持投影方法将各种模态的情感特征映射到统一的鉴别子空间中,最后将映射后的多组特征进行串联融合,得到融合的多模态情感特征。以融合的多模态情感特征作为输入的分类器能够有效地识别出生气、反感、害怕、高兴、悲伤和惊讶等基本情感,为开发人类情感分类识别系统以及人机交互的实现提供了一种新的方法和途径。
【专利说明】
基于鉴别局部保持投影的多模态情感特征融合方法
技术领域
[0001] 本发明属于图像处理与模式识别领域,涉及一种应用于多模态情感识别的特征融 合方法,特别涉及一种基于鉴别局部保持投影的多模态情感特征融合方法。
【背景技术】
[0002] 情感表达一直是人类交流和互相理解的最主要方式。由于计算机技术的大力发 展,人机交互能力(HCI,Human Computer Interaction)变得越来越具有研究价值和现实意 义,计算机如何对人的情感进行识别也就变得至关重要。随着信息技术的不断发展,无论是 在实验室还是现实生活中,人类表达的情感信息很容易被各种各样的传感器获得。其中图 像和语音是最容易获得的情感信息且对于情感识别来说也是最重要的信息。
[0003] 计算机能识别哪些情感是一个复杂的问题,在现实生活中人所表达的情感经常只 有细微的差异,而这些差异人类都很难辨别,所以目前来说计算机只能识别一些基本的情 感,例如生气、反感、害怕、高兴、悲伤和惊讶等基本情感。然而对这些基本情感进行识别的 情感技术已经有了广泛的应用领域,例如在教育、医疗、人机交互、影音娱乐等领域。
[0004]过去几十年,已经有很多基于单模态的情感识别,最常见的是面部表情情感识别, 语音情感识别和基于姿态的情感识别,然而单模态情感识别有较大的限制,因为人所表达 的情感信息是是一种多模态的情感信息,例如一个人表达愤怒,他的声音、面部表情、身体 姿态、心率以及体温等等都会与正常状态下有较大的不同。如果只采用一种模态的情感特 征进行识别,势必不会得到较好的结果,尤其是在现实环境中。研究结果表明,相比于单模 态情感识别,多模态情感识别更加可靠和准确。多模态情感识别考虑了人所表达的多种情 感信息,全面的衡量人所表达的情感,在实际生活中对于不同情况的干扰(例如对于人脸的 图像信息,可能会有不同的光照,角度等问题)也更具鲁棒性。
[0005] 对于多模态情感识别,特征融合是最重要的一环,它将不同的传感器得到的不同 的情感特征进行融合从而得到融合特征送入分类器进行识别。常见的特征融合方法主要分 为三类:得分层融合方法,特征层融合方法和决策层融合方法。目前这三种方法为了有利于 实时性,既要保持足够的重要信息又要实现信息压缩,不可避免的会有信息损失,导致识别 的精确度下降。其中特征层融合方法在语音和图像领域具有广泛的应用。目前对多模态情 感识别的研究远没有单模态情感识别完善和丰富。
[0006] 现有技术中,公开号为CN105138991A、名称为"一种基于情感显著性特征融合的视 频情感识别方法"的发明专利公开了一种基于情感显著性特征融合的视频情感识别方法, 其缺点是:只能对视频中的图像特征和语音特征进行特征融合,可扩展性差,不能对其他更 多模态的特征进行特征融合;提取的图像和语音特征均非直接的情感特征而是用颜色情感 强度值和音频情感词典进行表示;融合算法过于简单,通过简单的加权融合后的情感特征 可判别性较差。

【发明内容】

[0007] 本发明要解决的技术问题是针对多模态情感识别的特征融合方法存在的融合后 的情感特征判别性较差的问题,以及现有单模态情感识别技术不能获得较为准确的识别结 果的问题。
[0008] 为解决上述问题,本发明针对人类情感自动评估系统以及人机交互系统的需求, 提出基于鉴别局部保持投影的多模态情感特征融合方法,为人机交互问题提供了一种更为 准确、可靠的途径。具体的技术方案如下:
[0009] 基于鉴别局部保持投影的多模态情感特征融合方法,包括以下步骤:
[0010] A、首先对多模态情感数据库中每种模态的样本数据提取情感特征,然后将各种模 态的情感特征向量进行降维处理,对于第j种模态的样本用dj维特征向量Xijr来表示,即 e i?、其中,1彡j<m,m为模态的数目,Ki<c,c为情感类别的数目,Kr彡nij,ruj为属 于第i类情感、第j种模态的样本数目,表示属于第i类情感、第j种模态的第r个样本的特 征向量;
[0011] B、对降维后的不同模态的特征向量进行鉴别局部保持投影,得到最佳的投影方向 α;
[0012] C、分别对不同模态的特征向量进行映射,Yj = aTXj,Xj为c个Xij组成的矩阵,g卩Xj =
[Xlj,· · ·,Xij,· · ·,Xc j ];
[0013] D、将映射后的特征进行串联得到融合特征:
[0014] 2=[0%,· · ·,aTXj,· · ·,aTXm]T。
[0015] 进一步,步骤B中降维后进行鉴别局部保持投影目的是求解最佳的投影矩阵a,将 各种模态的情感特征向量Xijr映射到统一的鉴别子空间中,得到映射后的特征向量yijr,具 体步骤如下:
[0016] B1:定义类内离散度矩阵媒:
[0018] 其中,yikl代表来自第i类情感、第k种模态的第1个样本映射后的特征向量, m,Wri为来自相同情感和模态的特征向量之间的局部保持权重;
[0019] B2:定义类间离散度矩阵
[0021]其中Blh为来自相同模态的特征向量均值之间的局部保持权重,yi为第i类样本映 射后的特征向量均值:
[0023]其中,m为第i类中样本的数目,yh为第h类样本的的特征向量均值;
[0024] B3:最大化类间离散度矩阵,最小化类内离散度矩阵,这一目标可以表示为如下最 优化问题:
[0026] 其中,Tr( ·)为矩阵的迹。
[0027] 进一步,在定义类内离散度矩阵*V的步骤B1中,所述特征向量之间的局部保持权 重矩阵Wrl,具体定义如下:
[0028] 定义来自相同情感和模态的特征向量1^与1^之间的局部保持权重矩阵 W = wr!}:u··
[0030] 其中,Xijl代表来自第i类情感、第j种模态的第1个样本的特征向量,1彡Kmj,参 数t可由经验进行设定,对来自不同情感或模态的特征向量不考虑它们之间的权重。
[0031] 进一步,在定义类间离散度矩阵忍的步骤B2中,所述特征向量均值之间的局部保 持权重矩阵Blh,具体步骤和定义如下:
[0032] 首先计算第i类情感、第j种模态的特征向量均值:
[0034]其中/41°的上标(X)代表原样本空间,同样计算来自第h类情感、第j种模态的特征 向量均值
[0036] 其中,1^为属于第h类情感、第j种模态的样本数目,Xhjr表示属于第h类情感、第j种 模态的第r个样本的特征向量,K h < c;
[0037] 定义来自相同模态的特征向量均值与/#之间的局部保持权重矩阵 较:戦料:
[0039] 其中,参数t同样可由经验进行设定,对于对来自不同模态的特征向量均值不考虑 它们之间的权重。
[0040] 进一步,在于步骤B3中,所述的最优化问题,将最大化类间离散度矩阵,最小化类 内离散度,得到最大的投影方向》具体步骤如下:
[0041] B3.1:对B3中的最优化问题进行变换,得到如下最优化问题:
[0043]最优化式子中分母部分为类内离散度矩阵:
[0047] 其中μι?5(χ)为来自第i类情感、第k种模态的特征向量均值,nlk为来自第i类情感、第 k种模态的样本数目,Xij为ruj个特征向量xijr组成的特征矩阵,L = mDrr-Wri,Drr是一个对角 矩阵,其值为样本间特征向量的权重矩阵w的行或列和(w为对称矩阵),即=
[0048] 最优化式子中分子部分为类间离散度矩阵:
[0052] 其中为c个均值向量/if组成的矩阵,是均值的局部保持权重Blh的行或者 列和,即心;
[0053] Β3.2:由于Β3.1中的最优化问题不存在闭式解,需要将迹的比值转化成比值的迹, 最终得到如下最优化问题:
[0055] 通过广义特征值分解的方法,上式解得最佳的投影矩阵《 = (%.&,····<,;)。
[0056] 与现有技术相比,本发明的优点在于:
[0057] (1)在情感识别问题中采用多模态融合的情感特征相比于单模态情感特征具有更 高的准确性和客观性,在现实情况中也具有更好的鲁棒性。
[0058] (2)基于鉴别局部保持投影的多模态情感特征融合方法,不仅考虑了类间离散度, 也考虑了类内离散度,对不同类别的样本具有较好的区分度,引入的局部保持投影又能很 好的适应非线性的情况。最终得到更加适合情感识别的多模态情感融合特征。
[0059] 上述优点也通过实验结果得到了验证,本发明通过引入基于鉴别局部保持投影的 多模态情感特征融合方法,将其运用在多模态表情分类识别工作中,能有效地识别出生气、 反感、害怕、高兴、悲伤和惊讶等六种表情,为开发人类情感自动评估系统以及人机交互系 统提供了一种新的方法和途径。
【附图说明】
[0060]图1是本发明的基于鉴别局部保持投影的多模态情感特征融合方法的流程图。
[0061 ]图2是双模态情感数据库中的部分图像。
【具体实施方式】
[0062] 现结合附图对本发明的【具体实施方式】做进一步详细的说明。本发明的基于鉴别局 部保持投影的多模态情感特征融合方法的实现,如图1所示,主要包含以下步骤:
[0063] 步骤1:采集多模态数据库中视频的静态图像和语音片段
[0064]在具体实施过程中,采用eNTERFACE双模态数据库。该数据库包含来自42人的1260 个视频片段,每个视频都有情感标签,表达了 6种基本情感:生气、反感、害怕、高兴、悲伤和 惊讶(分别对应标签1-6 ),如图2所示。视频大小为720 X 576,采样频率为25fps,视频中声音 的采样频率为48kHz。将视频分帧,取其中表情最丰富的一帧作为该视频的静态图片。将每 个视频分离出语音,作为该视频对应的语音片段。最终每个视频片段对应一个静态图像和 一段语音。任意选取其中75%的图像和对应的语音作为训练样本,剩下的25%作为测试样 本。
[0065]步骤2:对图像和语音信息进行特征提取,进行降维处理,并用特征向量来表示 [0066]首先对上一步获得的静态图像进行裁剪,截取人脸那部分图像,大小为128X128, 然后进行对齐、尺度归一化和灰度均衡化等图像预处理操作,最后对图像提取Gabor、SIFT、 LBP等特征(在本实施例中提取了 Gabor特征)。对于语音片段,采用专业的语音处理工具箱 OpenSmile提取各种特征(在本实施例中提取了emobase2010特征)。由于提取的特征向量经 常存在维数过高的问题,使用PCA降维的方法得到合适维数的特征,用山维特征向量来表示 降维后的图像特征和语音特征向量,即χ,#,其中,1彡衫m,m为模态的数目,1彡i$c,c 为情感类别的数目,1彡r彡η&ηυ为属于第i类情感、第j种模态的样本数目,Xljr表示属于 第i类情感、第j种模态的第r个样本的特征向量,此外,m为第i类中样本的数目,η为所有样 本的数目。在本实施例中。=6,111=2,1^ = 210,11土 = 420,11=1260,对于其他不同的多模态数 据库,只需改变这些参数即可,例如三模态数据库时m = 3。
[0067] 步骤3:采用鉴别局部保持投影方法,求解最佳的投影矩阵α,将各种模态的情感特 征向量Xijr映射到统一的鉴别子空间中,得到映射后的特征向量yijr,具体步骤如下:
[0068] 首先,定义来自相同类别和模态的特征向量Xljr与XU1之间的局部保持权重矩阵 w = {Wrl}n;M :
[0070]其中,Xljl代表来自第i类、第j个模态的第1个样本的特征向量,,参数t可 由经验得到。对来自不同模态或类别的特征向量不考虑它们之间的权重。接着定义各类的 类内离散度矩阵和'-:
[0072] 其中,yikl代表来自第i类情感、第k种模态的第1个样本映射后的特征向量, m〇
[0073] 然后,求得来自第i类情感、第j种模态的特征向量均值/4":
[0075]其中/4T>的上标(X)代表原样本空间,同样计算来自第h类情感、第j种模态的特征 向量均值
[0077]其中nhj为属于第h类情感、第j种模态的样本数目,Xhjr表示属于第h类情感、第j种 模态的第r个样本的特征向量,l$h<c。与类内离散度矩阵和:类似,定义来自相同模态的 特征向量均值/4'>与/4;"之间的局部保持权重矩阵5 = :
[0079] 其中,参数t同样可由经验进行设定,对于对来自不同模态的特征向量均值不考虑 它们之间的权重。
[0080] 随后定义各类的类间离散度矩阵巧:
[0084] 类似的,yh为第h类样本特征的平均值。
[0085] 最后,为了最大化类间离散度矩阵同时最小化类内离散度矩阵,得到如下最优化 式子:
[0089]最优化式子中分母部分为类内离散度矩阵:
[0093] 其中ylk(x)为来自第i类情感、第k种模态的特征向量均值,nlk为来自第i类情感,第 k种模态中的样本数目,Xij为ruj个特征向量xijr组成的特征矩阵,L=mDrr-W ri,Drr是一个对
角矩阵,其值为样本间特征向量的权重矩阵W的行或列和(W为对称矩阵),即見=。
[0094] 最优化式子中分子部分为类间离散度矩阵:
[0098] 其中为c个特征的均值向量/if组成的矩阵,是均值的局部保持权重Blh的行 或者列和,即= 。
[0099] 由于式(9)不存在闭式解,需要将迹的比值转化成比值的迹:
[0101] 通过广义特征值分解,求解式(13),得到最佳的映射a
[0102] 步骤4:对训练样本、测试样本进行投影得到映射后的特征,将映射后的特征进行 串联得到融合特征
[0103] 对图像特征和语音特征分别乘以α进行映射,Υ」= ατΧ」,其中心为(3个乂^组成的矩 阵,g^=[X^,...,知,...,Xq]T,然后将映射好的特征进行串联,具体方法如下:
[0104] Ztmk = [αΓΧΓπ ^ · :,αΓΧ(;<πη,. ..,ατ Χ'Γ ]Γ (15)
[0105] Ztesr = [arZ^f,ατΧ^,.,., ατ (1:6)
[0106] 步骤5:将训练样本的融合特征送入分类器中进行训练并用测试样本进行测试
[0107] 将上一步得到的训练样本的融合特征送入分类器中(在本实施例中使用libSVM), 通过分类器的训练得到合适的模型和参数,最后将测试数据送入分类器中得到识别结果。
[0108]以上【具体实施方式】的实施例,并不用以限制本发明,凡在本发明的精神和原则之 内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 基于鉴别局部保持投影的多模态情感特征融合方法,其特征在于包括W下步骤: A、 首先对多模态情感数据库中每种模态的样本数据提取情感特征,然后将各种模态的 情感特征向量进行降维处理,对于第j种模态的样本用cU维特征向量Xiu来表示,即 而,.,其中,j《m,m为模态的数目,l《i《c,c为情感类别的数目,l《r《nij,nij为属 于第i类情感、第巧巾模态的样本数目,xur表示属于第i类情感、第巧巾模态的第r个样本的特 征向量; B、 对降维后的不同模态的特征向量进行鉴别局部保持投影,得到最佳的投影方向α; C、 分别对不同模态的特征向量进行映射,Υ^ = αΤχ^,)(^为C个Xu组成的矩阵,即)(j = [Xlj , . . . ,Xij , . . . ,Xcj]; D、 将映射后的特征进行串联得到融合特征: 2=邮,...,而,...肿]了。2. 根据权利要求1所述的基于鉴别局部保持投影的多模态情感特征融合方法,其特征 在于步骤B中,所述鉴别局部保持投影目的是求解最佳的投影矩阵α,将各种模态的情感特 征向量Wr映射到统一的鉴别子空间中,得到映射后的特征向量yUr,具体步骤如下: B1:定义类内离散度矩阵巧;其中,yiki代表来自第i类情感、第k种模态的第1个样本映射后的特征向量,l《k《m,Wri 为来自相同情感和模态的特征向量之间的局部保持权重; B2:定义类间离散度矩阵窗:其中Bih为来自相同模态的特征向量均值之间的局部保持权重,μι为第i类样本映射后 的特征向量均值:其中,m为第i类中样本的数目,Wh为第h类样本的的特征向量均值; B3:最大化类间离散度矩阵,最小化类内离散度矩阵,运一目标可W表示为如下最优化 问题:其中,Tr( ·)为矩阵的迹。3. 根据权利要求2所述的基于鉴别局部保持投影的多模态情感特征融合方法,其特征 在于步骤B1中,所述特征向量之间的局部保持权重矩阵Wrl,具体定义如下: 定义来自相同情感和模态的特征向量Wr与之间的局部保持权重矩阵=獅;货其中,XUI代表来自第i类情感、第巧中模态的第1个样本的特征向量,l《l《nu,参数t可 由经验进行设定,对来自不同情感或模态的特征向量不考虑它们之间的权重。4. 根据权利要求2所述的基于鉴别局部保持投影的多模态情感特征融合方法,其特征 在于步骤B2中,所述特征向量均值之间的局部保持权重矩阵Bih,具体步骤和定义如下: 首先计算第i类情感、第巧巾模态的特征向量均值其中的上标(X)代表原样本空间,同样计算来自第h类情感、第巧巾模态的特征向量 均值地Η其中,nw为属于第h类情感、第巧巾模态的样本数目,XWr表示属于第h类情感、第巧巾模态 的第r个样本的特征向量, 定义来自相同模态的特征向量均值/4"与/4Γ之间的局部保持权重矩阵3 = {巧/义6=1;其中,参数t同样可由经验进行设定,对于对来自不同模态的特征向量均值不考虑它们 之间的权重。5. 根据权利要求2所述的基于鉴别局部保持投影的多模态情感特征融合方法,其特征 在于步骤B3中,所述的最优化问题,将最大化类间离散度矩阵,最小化类内离散度,得到最 大的投影方向α = 诚),具体步骤如下: Β3.1:对Β3中的最优化问题进行变换,得到如下最优化问题:其中yik?为来自第i类情感、第k种模态的特征向量均值,mk为来自第i类情感、第k种模 态的样本数目,Xij为riij个特征向量Xijr组成的特征矩阵,L = mDrr-Wrl,Drr是一个对角矩阵, 其值为样本间特征向量的权重矩阵W的行或列和(W为对称矩阵),即公W=Σ;!ι形/ ; 最优化式子中分子部分为类间离散度矩阵:其中嘴C个均值向量/4 >组成的矩阵,Ew是均值的局部保持权重Β化的行或者列和, 即B3.2:由于B3.1中的最优化问题不存在闭式解,需要将迹的比值转化成比值的迹,最终 得到如下最优化问题:通过广义特征值分解的方法,上式解得最佳的投影矩阵〇 。
【文档编号】G06K9/62GK106096642SQ201610397708
【公开日】2016年11月9日
【申请日】2016年6月7日
【发明人】徐嵚嵛, 卢官明, 闫静杰
【申请人】南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1