一种基于视听特征相关性融合的情感识别方法及系统与流程

文档序号:21084756发布日期:2020-06-12 16:49阅读:220来源:国知局
一种基于视听特征相关性融合的情感识别方法及系统与流程

本发明涉及智能情感识别领域,更具体地说,涉及一种基于视听特征相关性融合的情感识别方法及系统。



背景技术:

情感是人们在沟通交流的过程中传递的重要信息,情感状态的变化影响着人们的感知和决策。目前,依靠表情、语音、行为姿态等单一模态的情感识别方法较为熟知,单情感的表达不仅仅通过单种模态,而是通过多种模态情感信息融合的方式,不同表现方式在表达情感是存在一定的互补作用。因此,单模态情感识别有一定的局限性,基于多重情感表达方式的情感识别更加完整,也更加符合智能人机交互的应用需求。

在人类表达情感的各种方式中,表情和语音是最为直接和明显的表达方式。不同模态间的情感信息具有不同的特征,如何成分考虑面部表情和语音信息的特点,研究各模态特征提取与融合方法,提取各模态数据中的关键情感特征,加强融合过程中各模态特征间的内在联系,实现多模态特征信息的互补,是获得准确情感状态的关键。

基于典型相关分析的特征层级串行融合方法只能用于解决线性关系,对于不同特征维度的非线性关系,采用核函数的方式将低维数据映射到高维空间中,再进行典型相关分析完成线性融合过程。可是直接将面部表情和语音数据进行融合并没有充分考虑各模态特征之间的内在联系,本发明基于k-means聚类方法对特征进行重新聚类,以每一维特征的均值与标准差构建的二维坐标为分类依据,经过随机设定簇中心以及反复更新簇中心,进而将各个模态间内在联系的问题转化为不同情感标签下不同离散度特征间相关性的问题,不仅能够有效地去除特征之间的冗余,还能够得到具有较好鉴别力的情感融合特征。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术没有充分考虑各模态特征之间的内在联系缺陷,提供一种基于视听特征相关性融合的情感识别方法及系统。

本发明解决其技术问题所采用的技术方案是:构造一种基于视听特征相关性融合的情感识别方法,包括以下步骤:

s1、获取情感数据,所述情感数据包括面部表情模态数据和语音模态数据,对所述情感数据进行预处理;

s2、针对预处理后的情感数据,进行情感特征提取;

s3、基于提取得到的情感特征,采用k-means聚类方法针对面部表情、语音模态数据的情感特征进行特征间的聚类,去除对情感识别结果影响小的特征点;其中,在进行特征聚类前,首先,将基于步骤s2提取到的特征数据进行数据归一化处理,将所有的特征数据统一映射到预设的数值区间;其次,基于归一化后的特征数据,构建均值与标准差的二维坐标平面;采用k-means聚类方法的处理过程为:

随机选取数据点作为初始质心,将选取得到的初始质心分为n类;在反复迭代优化后,基于构建的二维坐标平面,在当前迭代后产生的质心与上一次迭代产生的质心之间的距离小于预设阈值时,完成聚类;

s4、基于核典型相关分析方法,对特征聚类后的特征数据进行非线性融合,得到融合后的情感特征;

s5、采用svm分类器对融合后的情感特征进行识别,得到情感识别结果。

本发明公开的一种基于视听特征相关性融合的情感识别系统,包括以下模块:

数据获取模块,用于获取情感数据,所述情感数据包括面部表情模态数据和语音模态数据,对所述情感数据进行预处理;

特征提取模块,用于针对预处理后的情感数据,进行情感特征提取;

特征聚类模块,用于基于提取得到的情感特征,采用k-means聚类方法针对面部表情、语音模态数据的情感特征进行特征间的聚类,去除对情感识别结果影响小的特征点;其中,在进行特征聚类前,首先,将基于特征提取模块提取到的特征数据进行数据归一化处理,将所有的特征数据统一映射到预设的数值区间;其次,基于归一化后的特征数据,构建均值与标准差的二维坐标平面;

特征融合模块,用于基于核典型相关分析方法,对特征聚类后的特征数据进行非线性融合,得到融合后的情感特征;

情感识别模块,用于采用svm分类器对融合后的情感特征进行识别,得到情感识别结果。

在本发明所述的一种基于视听特征相关性融合的情感识别方法及系统中,采用了灰度化和自适应直方图均衡化和时域、频域、梅尔倒谱系数和音频特征提取面部表情和语音数据的情感特征,选用核典型相关分析的融合方法来进行基于特征层面的融合面部表情和语音数据,能够有效地去除特征之间的冗余。同时,采用k-means聚类方法对面部表情和语音两类特征进行聚类重新分配,将如何处理两类模态间内在联系的问题转换为如何处理不同情感标签下不同离散度特征间相关性的问题,进而解决了一般面部表情和语音特征融合过程中特征间内在联系不充分的问题,从而得到具有较好鉴别力的情感融合特征。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明公开的一种基于视听特征相关性融合的情感识别方法实施流程图;

图2本发明实际处理数据过程中的总体流程框图;

图3本发明在进行面部表情模态数据预处理时的处理示意图;

图4本发明中公开的利用k-means特征聚类算法进行特征聚类的示意图;

图5是本发明公开的一种基于视听特征相关性融合的情感识别系统结构框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

本发明涉及一种基于视听特征相关性融合的情感识别方法及系统,其总体流程框图如图1-2所示。首先,分别对面部表情模态数据与语音模态数据进行数据预处理;之后,分别采用了灰度化和自适应直方图均衡化和时域、频域、梅尔倒谱系数和音频特征提取面部表情和语音数据的情感特征;然后,基于k-means聚类方法对两类特征进行聚类;接着基于核典型相关分析对聚类后的特征进行相关性分析并串行融合;最后采用svm分类器对融合特征进行识别。

本实施例下,基于视听特征深度融合的动态情感识别方法得处理过程主要可分为五部分,即情感数据预处理、情感特征提取、特征聚类、特征融合和情感融合特征识别,实现流程如下:

s1、情感数据预处理:对于面部表情模态数据,首先根据每个视频总帧数按照等帧距提取30帧图像,然后基于viola-jones算法提取每帧图像的人脸关键区域,接着将图像归一化到统一尺度,得到预处理后的面部表情图像帧;

对于语音模态数据,进行端点检测并将空白帧段删除,且以等帧距分为各个帧段;

本步骤下,具体得,对于面部表情模态数据得数据预处理过程为:

(1-1-1)对于面部表情模态特征,首先获取每个视频数据的总帧数n帧;

(1-1-2)每间隔n/30帧获取一帧视频关键帧,得到30帧关键帧;

(1-1-3)接着基于viola-jones算法提取每帧图像的人脸关键区域,之后将图像归一化到统一尺寸至128×128,得到30帧人脸关键帧;

(1-1-4)重复步骤(1-1-1)~(1-1-3),直至预处理完情感数据集中所有视频数据。

本步骤下,具体得,对于语音模态数据得数据预处理过程为:

(1-2-1)进行端点检测(vad)并将空白帧段删除;

(1-2-2)获取端点检测后每个语音数据的总时m秒;

(1-2-3)以步长0.04s将语音信号分为m/(0.04)帧,从而获得不同帧数的语音信号;

(1-2-4)重复步骤(1-2-1)~(1-2-3),直至预处理完情感数据集中所有语音数据。

s2、对于面部表情模态数据得情感特征提取为:将每一像素点rbg转化为灰度值,得到灰度直方图后,采用自适应直方图均衡化(ahe)来提升图像的对比度,增强情感特征,同时采用主成分分析(pca)的特征抽取方法,将降维后的像素点灰度值(前面没有说到降维)作为特征向量;

对于语音模态数据得情感特征提取为:提取语音情感数据的时域、频域、梅尔倒普系数(mfccs)以及音频特征;

本步骤下,具体得面部表情模态数据得情感特征提取步骤为:

(2-1-1)采用式(1)将每一像素点rbg转化为灰度值,得到灰度直方图:

gray=r*0.3+g*0.59+b*0.11;(1)

其中,r为像素点指代得红色值,g为像素点指代得绿色值,b为像素点指代得蓝色值;

(2-1-2)在得到灰度直方图后,采用自适应直方图均衡化(ahe)来提升灰度图像的对比度;采用式(2)进行自适应直方图均衡化(ahe):

其中,图像灰度群范围为[0,l-1],l为图像的灰度等级,一般取8,无量纲;n为图像中像素点得总数目,记n’为进行直方图剪切后得到的像素点总数目,nk为图像中灰度级为k的像素点总数目,n’k为剪切后图像中灰度级k的像素点总数目,s为剪切系数,0≤k≤l-1,0≤nk≤n-1,0≤s≤n-1;

(2-1-3)自适应处理且采用变换函数式(3)进行将所述直方图进行均衡化:

其中,r为归一化后图像灰度级的分布范围,0≤rk≤1,s为经过直方图均衡化后的图像灰度级,pr(r)为第k个灰度级出现的概率;k表示图像的总灰度级;

本步骤下,具体得语音情感数据得情感特征提取步骤为:

对于语音模态数据,提取语音情感数据的时域、频域、梅尔倒普系数(mfccs)以及音频特征共34维,各维特征如表1所示;

表1语音样本的34维特征信息

(2-2-1)针对预处理后得到语音情感数据,分别提取其时域特征(短时平均过零率、短时能量和能量熵)、频域特征(频谱中心化、延展度、谱熵、频谱通量和频谱降滚点)以及12维音阶特征(chromavector),共计21维语音特征;

(2-2-2)针对预处理后得到语音情感数据yd(n)用哈宁窗进行加窗处理,得到加窗分帧处理后的语音信号yd,w(n);

(2-2-3)对语音信号yd,w(n)进行快速傅里叶变换(fastfouriertransformation,fft),得到fft系数yd(k);

(2-2-4)将快速傅里叶变换后的yd(k)通过24个mel滤波器,得到24个均匀划分的子带,其中,相邻子带带有一半重叠,这样得到24个特征fmel(i),i=1,2,…,24;i指的滤波器个数;

(2-2-5)为了获得具有更平滑分布的数据,采用log函数对fmel(i)处理后,生成倒谱系数lmel(i),i=1,2,…,24;

(2-2-6)对倒谱系数lmel(i)进行离散傅里叶变换(discretefouriertransform,dft)并将其维度降至13维,得到梅尔倒谱系数c0-c12;

经过步骤2-2-1~步骤2-2-6的处理后,完成对预处理后到语音情感数据的特征提取。

s3、经过步骤s1和s2并依据实验数据库的初始情感标签,我们得到了两组不同模态下的特征矩阵,经过数据归一化,把数据统一映射到[0,1]的区间中,最后将统一后的数据进行整合并聚类,具体包括以下步骤:

本实施例下,对提取后的面部表情和语音特征通过k-means聚类方法进行特征层级的聚类,意图消除不同模态间的特征差异,具体包括以下步骤:

(3-1-1)对数据集的每一维度特征,采用最小-最大归一化方法将其值统一映射到[0,1]区域中,基于式(4)进行特征映射后,得到特征向量x[0,1](m),其中,m为面部表情和语音数据的特征数量:

(3-1-2)求得每一维度特征x[0,1](m)的均值xe(m)和标准差xσ(m),由此得到包含(e,σ)的二维特征指标,再将所有维度数据整合后,得到数据集x(e,σ)(m);所述x(e,σ)(m)即代表构建的均值和标准差二维坐标平面;

(3-1-3)在所述二维坐标平面下,随机地选择3个特征对象(ea0,σa0)、(eb0,σb0)和(ec0,σc0),每个特征对象均初始地代表了一个簇的中心,将之用c1,c2,c3分别表示;

(3-1-4)对剩余的每个对象,根据其与各簇中心的欧几里得距离,将它赋给最近的簇a或b或c,进行聚类;

(3-1-5)重新计算每个簇的平均值(ea1,σa1)和(eb1,σb1),依据当前更新后的值,进行初始质心的更新;定义最小化目标函数j:

其中,误差平方项|*|2是数据点xi(j)和簇中心cj之间的距离,k为簇总数,j为当前簇数,n为特征点总数,i为当前迭代到的特征点数,j是n个数据点与其各自簇中心的距离的标志;

(3-1-6)不断重复步骤(3-1-4)和(3-1-5),如果新的簇中心和上一次迭代的簇中心距离小于某一个设置的阈值,可以认为进行的聚类已经达到期望的结果,算法终止,完成聚类。

本实施例下,可以采用测试集数据按照步骤3-1-1~步骤3-1-6的特征聚类结果进行分类,本实施例下认为双值越大的簇,其影响最终识别结果的能力就越强,即有作用于情感识别准确性的提升,于是仅留下均值和标准差最大的两簇,并将面部表情表示为a类特征,语音数表示为b类特征,当前即完成特征分类。

s4、将特征聚类后的a类和b两类特征进行核典型相关分析,依据特征间的相关性进行特征层面融合,先采用核函数将较低维数的特征升成同维,进而进行线性分析,而后再进行串行融合,得到输入分类器前的特征向量c,具体包括以下步骤:

(4-1)将a类和b两类特征经由核函数投影至高维度空间分别得到φ(a)与φ(b),经由核典型相关分析再次投影,依据此得到了相关性最大的目标函数ψ:

其中,为相关关系最大时的a类和b两类特征的投影向量;

然而,在a类和b两类特征不同维时,出现的非线性问题导致无法继续进行相关性分析,为了解决两类特征融合过程中的非线性问题,对于低维度数据a采用核方法映射到高维空间后降维至另一数据维度mb,得到特征数据ak和b:

k=<φ(ak),φ(ak)>=φt(a)φ(a);(7)

其中,k为所采用的核函数,本方法共试验5种核进而得出结果,因本发明所采用的方法以及相关仿真数据库,由结果表明多项核的结果优于其他核,故后续选择采用多项核作用于情感识别,得到ak;

(4-2)采用典型相关分析算法对特征数据b和核映射后的ak进行典型相关分析,得到同类样本特征之间相关性最大的两组新特征ac和bc,具体包括以下步骤:

(4-2-1)对ak和b进行相关性分析,两组数据的相关系数ρ定义为:

其中cov(ak,b)是ak和b的协方差,而d(ak)和d(b)分别是ak和b的方差;

相关系数ρ的取值为[-1,1],若ρ的绝对值越接近于1,则ak和b的线性相关性越高;若ρ的绝对值越接近于0,则ak和b的线性相关性越低;

(4-2-2)根据式(6)可以的到相关性最大的目标函数,由此确定典型相关分析的优化目标是最大化ρ(ψ(ak),ψ(b)):

本实施例下,将上述优化目标转化为凸优化过程,求得限定条件下即可求解;

(4-2-3)在投影前把原始数据进行标准化,同时令则将上述目标函数转化为:

由于,分子分母增大相同的倍数,优化目标结果不变,可以固定分母,优化分子,具体的转化为:

其中,表示a类的投影向量、表示b类的投影向量、表示对ak和b进行协方差计算后的得到的结果、表示对ak进行协方差计算后的得到的结果、sbb表示对b进行协方差计算后的得到的结果。

(4-2-4)在(4-2-3)的基础上采用奇异值分解svd,最大的奇异值就是优化目标的最大值,从而求得投影向量,进而求得ψ(ak)与ψ(b),即两组新特征ac和bc;

(4-3)将得到的数据特征ac和bc进行串行融合,得到融合后的特征c=[ac,bc]。

s5、采用支持向量机(svm)对得到的情感融合特征进行识别,得到相应的情感信息;具体包括以下步骤:

(5-1)构建svm分类器对得到的情感融合特征进行识别,得到相应的情感信息,具体包括以下步骤:

(5-1-1)寻找超平面h对不同情感间的样本数据分割开来,并使彼此间的距离最大,以此来构造如下条件的极值问题;

(5-1-2)采用拉格朗日方程法对构造的极值问题进行求解,对目标函数对偶变换,即将问题转换成对偶问题,在此基础上进行求解计算,便可得到所有的拉格朗日系数,同时得到最优超平面h;

(5-1-3)采用已构建的svm分类器进行分类,当输入的情感融合特征ci超平面的情感类别e的一侧,则判定输入的情感融合特征ci属于情感类别e。

利用上述方法进行实验,所用面部表情-语音双模态情感数据库为savee数据库。该情感数据库从4位平均年龄30岁的英语母语者录入。情感类别包括七种基本情感,即生气、厌恶、恐惧、开心、中性、悲伤和惊讶。数据库的文本材料选自标准timit数据库,除中性情感外,每种情感包含15个句子,中性情感包含30个句子。数据库总共包含面部表情数据和语音数据各480组,面部表情视频采样率是60fps,语音数据采样率是44.1khz。

采用十折交叉验证法在savee数据库上进行实验,即每次实验时选取数据库的80%为训练样本,20%为测试样本,采用核典型相关分析的方法得到的实验结果如表2所示。在表2中,采用不同的核函数得到的不同的实验结果,是在本发明构建的典型相关分析后连接svm分类器得到的识别结果。由表2可得,不同核函数对于所选方法和数据库有不同的效果,采用多项式核进行典型相关分析得到的平均识别率为91.30%,采用其他核函数均低于多项式核,由此可见,多项式核典型相关分析的特征融合方法一定程度上发现面部表情和语音模态的相关性,实现面部表情和语音模态信息互补。

表2不同核函数典型相关分析融合下不同的情感识别实验结果

为了验证本发明提出方法的有效性,将其它方法的实验结果与本方法的实验结果进行对比,对比结果如表3所示。表3比较了单模态、串行融合、基于主成分分析的典型相关分析的融合、基于核典型相关分析的融合与基于k-means聚类的核典型相关分析的融合的6种情感识别方法,均是在连接svm分类器得到的识别结果。由表3可知基于k-means聚类的核典型相关分析的特征融合方法在savee面部表情-语音双模态数据库上得到的平均识别率为93.06%,由此可见,基于k-means聚类的核典型相关分析的特征融合,即基于视听特征相关性融合的效果,比传统的基于核典型相关分析的特征融合更好,因此,基于k-means聚类的核典型相关分析可发现面部表情和语音模态之间的内在联系,实现双模态信息的有效融合,得到具有较好鉴别力的情感融合特征。

表3基于不同方法下的情感识别实验结果

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1