基于语音和面部表情的双模态情感融合的识别方法及系统的制作方法

文档序号:10614109阅读:730来源:国知局
基于语音和面部表情的双模态情感融合的识别方法及系统的制作方法
【专利摘要】本发明涉及一种基于语音和面部表情的双模态情感融合的识别方法,包括以下步骤:获取待识别对象的音频数据和视频数据;从视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割;从三个区域的图像中提取每个区域图像中的面部表情特征;S4、对语音情感特征和面部表情特征进行PCA分析降维;将两种模态样本进行朴素贝叶斯的情感语音分类,并将条件概率进行决策级融合,得到最终情感识别结果。本发明采用决策级融合方法对语音情感特征和面部表情特征进行融合,能够为下一步进行相应条件概率的计算提供了更加准确的数据,使得本发明的方法能够更准确的得出受测对象的情感状态,从而提高情感识别的准确性和可靠性。
【专利说明】
基于语音和面部表情的双模态情感融合的识别方法及系统
技术领域
[0001] 本发明属于情感识别领域,更具体地,涉及一种基于语音和面部表情的双模态情 感融合和识别方法及系统。
【背景技术】
[0002] 随着生活水平的提高和信息技术的高速发展人类对智能化生活的需求越来越高, 人机交互能力也越来越得到重视,作为人机交互的重要部分的情感计算也就成为了研究热 点。目前国内外在情感识别方面的研究主要分为两大类,一类是基于单一模态的情感识别, 另一类是基于多模态的情感识别。两类情感识别的主要区别是多模态情感识别是通过对多 通道采集到的信息进行分析,并通过一系列的技术手段最终较为准确的获得被测者的情感 状态,而单一模态情感识别是通过对某一通道采集到的信息进行分析,并通过一系列的技 术手段最终较为准确的获得被测者的情感状态。
[0003] 现有的情感识别主要是基于单一模态的情感识别,在面部表情识别上多数研究仍 停留在对基本面部表情的情感识别,对更加细微的表情的识别效果不好。对于语音情感识 别方面的研究较为成熟,但是针对语音进行单一模态的情感识别时,如果语音通道受阻则 对情感识别的结果影响很大。
[0004] 叶亮等提出了一种用于混合语音情感识别的语音特征筛选方法,能够很好地提取 一系列声学特征中的最佳特征集合,但是未考虑声学通道受阻的情况。赵小明等提出了基 于压缩感知的鲁棒性语音情感识别方法,将特征参数的提取从韵律特征和音质特征两方面 扩充到梅尔频率倒谱系数MFCC,提高了特征信号的抗干扰性,但是仍未解决声学通道无法 获取信号时的情感识别。
[0005] 韩志艳等提出了一种串并结合的多模式情感信息融合与识别方法,通过讲语音 信号特征参数和面部表情特征参数顺序组合起来等处理方法融合语音和面部表情的特征 信息,采用Adaboost算法训练获得分类器,最终采用投票法获得最终结果。而本专利创新的 采用贝叶斯分类器和决策级融合方法,融合情感语音特征和面部表情特征,获得更好的效 果。

【发明内容】

[0006] 本发明所要解决的技术问题是提供一种基于语音和面部表情的双模态情感融合 和识别方法及系统。
[0007] 本发明解决上述技术问题的技术方案如下:
[0008] 基于语音和面部表情的双模态情感融合的识别方法,包括以下步骤:
[0009] S1、获取待识别对象的音频数据和视频数据;
[0010] S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸 表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
[0011] S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每 个区域图像中的面部表情特征;
[0012] S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情 感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情 特征作为面部模态样本;
[0013] S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在 不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人 脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;
[0014] S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待 识别对象的最终情感识别结果。
[0015] 本发明的有益效果是:本发明基于语音和面部表情的双模态情感识别方法使用 了标准数据库对分类器进行训练使得情感识别结果更加的准确高效。并且采用决策级融合 方法对语音情感特征和面部表情特征进行融合,能够更好地得到融合后的情感特征为下一 步进行相应条件概率的计算提供了更加准确的数据,使得本专利的方法能够更准确的得出 受测对象的情感状态,从而提高情感识别的准确性和可靠性。
[0016] 在上述技术方案的基础上,本发明还可以做如下改进。
[0017] 进一步的,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为:
[0018] S2A.1、对音频数据进行固定频率的采样,将音频数据的幅值分为若干个有限区 间,将属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转化为时间和 幅值离散的数字信号;
[0019] S2A.2、采用高通滤波器11(2) = 1^1对数字信号的高频部分的功率进行补偿,放 大语音信号高频部分,得到补偿语音信号,其中H(z)为语音信号功率函数,z为频率,α为预 加重系数且0.9彡α<1;
[0020] S2A. 3、对步骤S2A. 2处理后的补偿语音信号进行分帧处理,将补偿语音信号划分 为多帧语音段,并对分帧后的语音段进行加窗处理,得到情感语音信号。
[0021] 采用上述进一步方案的有益效果为:对语音信号进行一定频率的采样保证了信号 不失真的同时,包含最少的冗余信息。预加重增强了情感识别中所需要的信息。分帧和加窗 确保了帧与帧之间的平稳过渡并且减少帧起始处与帧结束处信号的不连续问题。
[0022] 进一步的,所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像,并进行眼 睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域图像的具体步骤为:
[0023] S2B.1、获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四角坐标,将每个 区域的坐标值经过坐标变换和取整数,获取相应裁剪区域的矩形信息,将眼睛、鼻子、嘴巴 从所述人脸表情图像中分割出来,分别得到眼睛区域图像、鼻子区域图像和嘴巴区域图像;
[0024] S2B.2、将待识别对象的所有眼睛区域图像调节为同一尺寸,所有的鼻子区域图像 调节为同一尺寸,所有的嘴巴区域图像调节为同一尺寸;
[0025] S2B. 3、增加所有区域图像的亮度和对比度,得到高亮度图像;
[0026] S2B. 4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内 得到统一标准的三个区域图像。
[0027] 采用上述进一步方案的有益效果为:三个区域分割减少了图像中非关键部分对表 情变化信息的干扰,也减少了数据量,提高了计算速度,由于分割后的灰度图像较为模糊, 不易识别,灰度变换通过调整图像的灰度值,将其均匀地分布在整个范围的灰度区域,使一 定灰度区间的像素个数大体相同,从而使图像的对比度得以增强,直方图均衡化使图像的 对比度得以增强。
[0028] 进一步的,所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步 骤:
[0029] S3A.1、利用短时自相关函数法确定情感语音信号的周期,提取出基频特征的10个 统计学特征参数,短时自相关函数R ω ( k )的定义为:
,其中,S (η)为情感语音信号的时间序列,Su (η) 为第ω帧情感语音信号,每帧帧长为N,k为时间的延迟量,10个统计学特征参数包括:基频 的最大值Pmax、最小值Pmin、变化范围Pd = Pmax-Pmin、平均值Pm、标准差σρ、平均绝对斜度Ms、上 四分位数P〇. 75、下四分位数Ρο. 25、内四分极值Pi = Ρ〇. 75-Ρ(). 25、中位数P〇. 5 ;
[0030] 334.2、根据1^的线性预测运算求出预测系数{&1^=1,2,"_,?},再根据预测系 数通过FFT运算确定声道的功率谱响应曲线;最后用峰值检出法精准地计算出功率谱与中 心频率,并计算出共振峰以及与其相关的统计学参数,具体包括:Fi平均值、Fi标准 差、F 2平均值、F2标准差、F3平均值、F3标准差、Fi中位数、Fi中位数所占带宽、F 2中位数、F2中 位数所占带宽、F3中位数、F3中位数所占带宽,共12个共振峰特征参数;
[0031] S3A. 3、对每一帧情感语音信号进行FFT变换得到语音信号的频谱;再对每一帧的 数据求频谱幅值的平方得到能量谱,并采用Mel滤波器对每一帧的谱线进行带通滤波;最后 对Mel滤波器组的输出求对数,并作逆傅里叶变换便可得到Mel倒谱系数;
[0032] S3A. 4、综合步骤S3A. 1中得到的10个统计学特征参数、步骤S3A. 3中得到的12个共 振峰特征参数和步骤S3A.4得到的Mel倒谱系数,最终得到语音情感特征。
[0033]采用上述进一步方案的有益效果为:通过采集10个基频特征参数,12个共振峰特 征参数和14个Mel倒谱系数特征参数能够较为全面的代表语音的情感特征,从而为情感识 别做好了数据保障。
[0034]进一步的,所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个 区域图像中的面部表情特征的具体步骤为:
[0035] S3B.1、通过2D_Gabor小波变换从统一标准的人脸图像中提取图像纹理特征,将眼 睛、鼻子、嘴巴的区域图像的每个方向与尺度进行2D-Gabor小波变换处理获得眼睛、鼻子、 嘴巴R〇 I图像每个方向与尺度的2D-Gabor幅值图谱;
[0036] S3B.2、将眼睛、鼻子、嘴巴图像每个方向与尺度的2D-Gabor幅值图谱进行均匀模 式的LBP算子处理,并对其求取直方图,最后将各子块、各方向、各尺度的直方图级联为表示 一幅人脸表情图像特征的直方图序列,将所述直方图序列作为多特征提取算法的面部表情 特征。
[0037]采用上述进一步方案的有益效果为:融合了 2D-Gabor小波变换和LBP算子地优良 特性且使用了特征数据PCA分析。2D-Gabor小波变换可多方向、多尺度地提取原始图像在每 个通道下的局部特征,具有优良的空间位置及方向选择性。且能够放大眼睛、鼻子、嘴巴的 灰度变化等局部特征,增强人脸中关键部位的局部特性,可更容易区分出不同的人脸图 像。此外,2D-Gabor小波变换特征提取方法可接受一定程度的人脸姿态变化、图像旋转和形 变,对光照变化不敏感,且由于其计算的数据量较少具有实时性。使用的LBP算子在有效提 取图像局部纹理特征的同时,计算过程也较为简单,减少了计算量,并且具有良好的旋转不 变性和灰度不变性,不易受图像的位移、光照不均衡等因素的影响。
[0038]进一步的,所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA 分析降维的具体步骤为:
[0039] S4.1、使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的 最终语音情感特征;
[0040] S4.2、将步骤S3B. 2得到的面部表情特征经过PCA降维处理后,获得用于表情分类 的最终面部表情特征。
[0041] 采用上述进一步方案的有益效果为:PCA分析可以减少样本在某一属性的特征变 量个数,并尽量确保新特征之间的相互独立性;在保证最大化包含数据内在信息的条件下, 可对高维数据进行降维、提高计算速度、去除噪声。
[0042] 进一步的,所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝 叶斯情感分类的具体步骤为:
[0043] S5.1、设分别有m个语音模态样本,设语音模态样本为XI,则对XI进行朴素贝叶斯情 感分类后可得到XI在每种情感类别下的第一条件概率集合{pij(x),i = l,3,…,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感语音模态样本数据,j = 1,2,…,6分别代表 高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别;
[0044] S5.2、设分别有m个面部表情模态样本,设面部表情模态样本为X2,则对X2进行朴素 贝叶斯情感分类后可得到第二条件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i =2,4,…,2m代表不同的情感语音模态样本数据,j = 1,2,…,6分别代表高兴、生气、讨厌、 害怕、悲伤和惊奇六种基本情感类别。
[0045] 采用上述进一步方案的有益效果为:通过将情感语音和面部表情的样本数据分别 输入到对应的分类器进行分类得到该样本在不同情感类别下的条件概率,能够更加快速准 确的为下一步情感识别提供良好的数据支持。
[0046] 进一步的,所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行 决策级融合,得到待识别对象的最终情感识别结果具体步骤为:
[0047] S6.1、按照乘积规则Γ?/;〃,对第一条件概率集合和第二条件概率集合 i 进行融合,将不同模态的情感特征在同一情感类别下的条件概率相乘,得到的后验概率集 合,IVj(x),j = i,2,…,6};
[0048] S6.2、将所述后验概率集合中最大的后验概率数值所对应的类别作为最终识别结 果,若有多个数值相同的最大后验概率,则对数值相同的最大后验概率对应的样本重新进 行步骤S5的分类并计算条件概率,直至得到最终识别结果。
[0049] 采用上述进一步方案的有益效果为:
[0050] 将条件概率通过乘积规则得到相应的后验概率,并选择最大的后验概率所对应的 情感状态作为情感识别结果的方法能够更加准确地得到情感识别结果,有效地提高了情感 识别率。
[0051] 基于语音和面部表情的双模态情感融合的识别系统,包括以下模块:
[0052]数据提取模块,用于获取待识别对象的音频数据和视频数据;信号提取模块,用于 对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并 进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
[0053]特征提取模块,用于从所述情感语音信号中提取语音情感特征;从所述三个区域 的图像中提取每个区域图像中的面部表情特征;
[0054] PCA分析降维模块,用于对语音情感特征和面部表情特征进行PCA分析降维;
[0055] 贝叶斯分类模块,用于将所述语音模态样本进行朴素贝叶斯的情感语音分类,得 到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基 于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率 集合;
[0056] 决策级融合模块,用于将第一条件概率集合和第二条件概率集合进行决策级融 合,得到最终识别结果。
[0057] 进一步的,所述的基于语音和面部表情的双模态情感融合的识别系统,其特征在 于,所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元,
[0058]所述语音情感特征降维单元用于使用PCA对步骤S4提取的语音情感特征进行降维 处理,获得用于表情分类的最终语音情感特征;
[0059]将所述面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特 征。
【附图说明】
[0060]图1为本发明方法的总体示意图;
[0061 ]图2为本发明方法步骤S2A的流程示意图;
[0062] 图3为本发明方法步骤S2B的流程示意图;
[0063] 图4为本发明方法步骤S3的流程示意图;
[0064]图5为本发明系统示意图。
【具体实施方式】
[0065]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[0066]本实施例以eNTERFACE ' 05音视频多模态情感数据库的数据作为素材,仿真平台 是MATLAB R2015b。
[0067] 如图1所示,基于语音和面部表情的双模态情感融合的识别方法,包括以下步骤:
[0068] S1、获取待识别对象的音频数据和视频数据;
[0069] S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸 表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
[0070] S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每 个区域图像中的面部表情特征;
[0071] S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情 感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情 特征作为面部模态样本;
[0072] S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在 不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人 脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;
[0073] S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待 识别对象的最终情感识别结果。
[0074] 如图2所示,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为:
[0075] S2A.1、采样和量化,对音频数据进行固定频率的采样,将音频数据的幅值分为若 干个有限区间,将属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转 化为时间和幅值离散的数字信号;
[0076] S2A.2、预加重,采用高通滤波器11(2) = 1^1对数字信号的高频部分的功率进行 补偿,放大语音信号高频部分,得到补偿语音信号,其中H(z)为语音信号功率函数,z为频 率,α为预加重系数且0.9<α<1;
[0077] S2A.3、分帧和加窗,对步骤S2A.2处理后的补偿语音信号进行分帧处理,将补偿语 音信号划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到情感语音信号。
[0078] 如图3所示,所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像,并进行眼 睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域图像的具体步骤为:
[0079] S2B.1、R0I区域分割,获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四 角坐标,将每个区域的坐标值经过坐标变换和取整数,获取相应裁剪区域的矩形信息,将眼 睛、鼻子、嘴巴从所述人脸表情图像中分割出来,分别得到眼睛区域图像、鼻子区域图像和 嘴巴区域图像;
[0080] S2B. 2、尺寸调整,将待识别对象的所有眼睛区域图像调节为10X30,所有的鼻子 区域图像调节为16X24,所有的嘴巴区域图像调节为12X18;
[0081] S2B. 3、灰度变换,增加所有区域图像的亮度和对比度,得到高亮度图像;
[0082] S2B. 4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内 得到统一标准的三个区域图像。
[0083] 如图4所示,所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步 骤:
[0084] S3A.1、提取基频特征,利用短时自相关函数法确定情感语音信号的周期,提取出 基频特征的1 〇个统计学特征参数,短时自相关函数R ω ( k )的定义为:
其中,S(η)为情感语音信号的时间序列,(η) 为第ω帧情感语音信号,每帧帧长为N,k为时间的延迟量,10个统计学特征参数包括:基频 的最大值Pmax、最小值Pmin、变化范围Pd = Pmax-Pmin、平均值Pm、标准差σρ、平均绝对斜度Ms、上 四分位数P〇. 75、下四分位数Ρο. 25、内四分极值Pi = Ρ〇. 75-Ρ(). 25、中位数P〇. 5 ;
[0085] S3A.2、计算共振峰特征,根据LPC的线性预测运算求出预测系数{ak,k=l,2,…, p},再根据预测系数通过FFT运算确定声道的功率谱响应曲线;最后用峰值检出法精准地计 算出功率谱与中心频率,并计算出 Fl、F2、F3共振峰以及与其相关的统计学参数,具体包括: Fi平均值、Fi#准差、F 2平均值、F2标准差、F3平均值、F3标准差、Fi中位数、Fi中位数所占带宽、 F2中位数、F2中位数所占带宽、F3中位数、F3中位数所占带宽,共12个共振峰特征参数;
[0086] S3A. 3、计算Mel倒谱系数,对每一帧情感语音信号进行FFT变换得到语音信号的频 谱;再对每一帧的数据求频谱幅值的平方得到能量谱,并采用Mel滤波器对每一帧的谱线进 行带通滤波;最后对Mel滤波器组的输出求对数,并作逆傅里叶变换便可得到Mel倒谱系数; [0087] S3A. 4、综合步骤S3A. 1中得到的10个统计学特征参数、步骤S3A. 3中得到的12个共 振峰特征参数和步骤S3A.4得到的Mel倒谱系数,最终得到语音情感特征。
[0088]所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个区域图像 中的面部表情特征的具体步骤为:
[0089] S3B.1、通过2D_Gabor小波变换从统一标准的人脸图像中提取图像纹理特征,将眼 睛、鼻子、嘴巴的区域图像的每个方向与尺度进行2D-Gabor小波变换处理获得眼睛、鼻子、 嘴巴R〇 I图像每个方向与尺度的2D-Gabor幅值图谱;
[0090] S3B.2、将眼睛、鼻子、嘴巴图像每个方向与尺度的2D-Gab〇r幅值图谱进行均匀模 式的LBP算子处理,并对其求取直方图,最后将各子块、各方向、各尺度的直方图级联为表示 一幅人脸表情图像特征的直方图序列,将所述直方图序列作为多特征提取算法的面部表情 特征。
[0091] 所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的 具体步骤为:
[0092] S4.1、使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的 最终语音情感特征;
[0093] S4.2、将步骤S3B. 2得到的面部表情特征经过PCA降维处理后,获得用于表情分类 的最终面部表情特征。
[0094] 所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝叶斯情感 分类的具体步骤为:
[0095] S5.1、设分别有m个语音模态样本,设语音模态样本为XI,则对XI进行朴素贝叶斯情 感分类后可得到?在每种情感类别下的第一条件概率集合{pij(x),i = l,3,…,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感语音模态样本数据,j = 1,2,…,6分别代表 高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别;
[0096] S5.2、设分别有m个面部表情模态样本,设面部表情模态样本为X2,则对X2进行朴素 贝叶斯情感分类后可得到第二条件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i =2,4,…,2m代表不同的情感语音模态样本数据,j = 1,2,…,6分别代表高兴、生气、讨厌、 害怕、悲伤和惊奇六种基本情感类别。
[0097] 所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行决策级融 合,得到待识别对象的最终情感识别结果具体步骤为:
[0098] S6.1、按照乘积规贝
对第一条件概率集合和第二条件概率集合 进行融合,将不同模态的情感特征在同一情感类别下的条件概率相乘,得到的后验概率集 合,IVj(x),j = i,2,…,6};
[0099] S6.2、将所述后验概率集合中最大的后验概率数值所对应的类别作为最终识别结 果,若有多个数值相同的最大后验概率,则对数值相同的最大后验概率对应的样本重新进 行步骤S5的分类并计算条件概率,直至得到最终识别结果。
[0100]如图5所示,基于语音和面部表情的双模态情感融合的识别系统,包括以下模块: [0101 ]数据提取模块,用于获取待识别对象的音频数据和视频数据;信号提取模块,用于 对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并 进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
[0102] 特征提取模块,用于从所述情感语音信号中提取语音情感特征;从所述三个区域 的图像中提取每个区域图像中的面部表情特征;
[0103] PCA分析降维模块,用于对语音情感特征和面部表情特征进行PCA分析降维;
[0104] 贝叶斯分类模块,用于将所述语音模态样本进行朴素贝叶斯的情感语音分类,得 到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基 于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率 集合;
[0105] 决策级融合模块,用于将第一条件概率集合和第二条件概率集合进行决策级融 合,得到最终识别结果。
[0106] 所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元,
[0107] 所述语音情感特征降维单元用于使用PCA对步骤S4提取的语音情感特征进行降维 处理,获得用于表情分类的最终语音情感特征;
[0108] 将所述面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特 征。
[0109]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 基于语音和面部表情的双模态情感融合的识别方法,其特征在于,包括W下步骤: 51、 获取待识别对象的音频数据和视频数据; 52、 对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情 图像,并进行眼睛、鼻子、嘴己区域的分割,预处理后得到统一标准的Ξ个区域的图像; 53、 从所述情感语音信号中提取语音情感特征;从所述Ξ个区域的图像中提取每个区 域图像中的面部表情特征; 54、 对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情感特 征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情特征 作为面部模态样本; 55、 将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同 情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表 情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合; 56、 将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别 对象的最终情感识别结果。2. 根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征 在于,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为: S2A.1、对音频数据进行固定频率的采样,将音频数据的幅值分为若干个有限区间,将 属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转化为时间和幅值离 散的数字信号; S2A.2、采用高通滤波器Η(ζ) = 1-αζ^ι对数字信号的高频部分的功率进行补偿,放大语 音信号高频部分,得到补偿语音信号,其中Η(ζ)为语音信号功率函数,Ζ为频率,α为预加重 系数且0.9《α<1; S2A. 3、对步骤S2A. 2处理后的补偿语音信号进行分帖处理,将补偿语音信号划分为多 帖语音段,并对分帖后的语音段进行加窗处理,得到情感语音信号。3. 根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征 在于,所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴己 区域的分割,预处理后得到统一标准的Ξ个区域图像的具体步骤为: S2B.1、获取所述人脸表情图像中眼睛、鼻子、嘴己的Ξ个区域的四角坐标,将每个区域 的坐标值经过坐标变换和取整数,获取相应裁剪区域的矩形信息,将眼睛、鼻子、嘴己从所 述人脸表情图像中分割出来,分别得到眼睛区域图像、鼻子区域图像和嘴己区域图像; S2B. 2、将待识别对象的所有眼睛区域图像调节为同一尺寸,所有的鼻子区域图像调节 为同一尺寸,所有的嘴己区域图像调节为同一尺寸; S2B.3、增加所有区域图像的亮度和对比度,得到高亮度图像; S2B.4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内得到 统一标准的Ξ个区域图像。4. 根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征 在于,所述步骤S3从情感语音信号中提取语音情感特征的具体包括W下步骤: S3A. 1、利用短时自相关函数法确定情感语音信号的周期,提取出基频特征的10个统计 学特征参数,短时自相关函数R。化)的定义为:其中,S(n)为情感语音信号的时间序列,Su(n)为第ω帖情感语音信号,每帖帖长为N,k为时 间的延迟量,10个统计学特征参数包括:基频的最大值Pmax、最小值Pmin、变化范围Pd = Pmax- Pmin、平均值Pm、标准差Op、平均绝对斜度Ms、上四分位数PO.7日、下四分位数PO.2日、内四分极值Pi =Po. 7日-Po. 2日、中位数Po. 5 ; S3A.2、根据LPC的线性预测运算求出预测系数{ak,k=l,2,…,p},再根据预测系数通过 FFT运算确定声道的功率谱响应曲线;最后用峰值检出法精准地计算出功率谱与中屯、频率, 并计算出Fi、F2、F3共振峰W及与其相关的统计学参数,具体包括:Fi平均值、Fi标准差、F2平 均值、F2标准差、F3平均值、F3标准差、Fi中位数、Fi中位数所占带宽、F2中位数、F2中位数所占 带宽、的中位数、的中位数所占带宽,共12个共振峰特征参数; S3A. 3、对每一帖情感语音信号进行FFT变换得到语音信号的频谱;再对每一帖的数据 求频谱幅值的平方得到能量谱,并采用Mel滤波器对每一帖的谱线进行带通滤波;最后对 Mel滤波器组的输出求对数,并作逆傅里叶变换便可得到Mel倒谱系数; S3A. 4、综合步骤S3A. 1中得到的10个统计学特征参数、步骤S3A. 3中得到的12个共振峰 特征参数和步骤S3A. 4得到的Mel倒谱系数,最终得到语音情感特征。5. 根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征 在于,所述步骤S3从步骤S2处理得到的统一标准的Ξ个区域图像中提取每个区域图像中的 面部表情特征的具体步骤为: S3B.1、通过2D-Gabor小波变换从统一标准的人脸图像中提取图像纹理特征,将眼睛、 鼻子、嘴己的区域图像的每个方向与尺度进行2D-Gabor小波变换处理,获得眼睛、鼻子、嘴 己R0I图像每个方向与尺度的2D-Gabor幅值图谱; S3B.2、将眼睛、鼻子、嘴己区域图像每个方向与尺度的2D-Gabor幅值图谱进行均匀模 式的LBP算子处理,并对其求取直方图,最后将各子块、各方向、各尺度的直方图级联为表 示一幅人脸表情图像特征的直方图序列,将所述直方图序列作为多特征提取算法的面部表 情特征。6. 根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征 在于,所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的具 体步骤为: 54.1、 使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终 语音情感特征; 54.2、 将步骤S3B. 2得到的面部表情特征经过PCA降维处理后,获得用于表情分类的最 终面部表情特征。7. 根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征 在于,所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝叶斯情感分类 的具体步骤为: S5.1、设分别有m个语音模态样本,设语音模态样本为XI,则对XI进行朴素贝叶斯情感分 类后可得到XI在每种情感类别下的第一条件概率集合{pu(x),i = l,3,-,,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感语音模态样本数据,j = 1,2,…,6分别代表 高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别; S5.2、设分别有m个面部表情模态样本,设面部表情模态样本为X2,则对X2进行朴素贝叶 斯情感分类后可得到第二条件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i = 2, 4,…,2m代表不同的情感语音模态样本数据,j = 1,2,…,6分别代表高兴、生气、讨厌、害怕、 悲伤和惊奇六种基本情感类别。8. 根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征 在于,所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行决策级融合, 得到待识别对象的最终情感识别结果具体步骤为: 56.1、 按照乘积规奶计第一条件概率集合和第二条件概率集合进行融 合,将不同模态的情感特征在同一情感类别下的条件概率相乘,得到的后验概率集合,{q'j (x),j = l,2,---,6)5 56.2、 将所述后验概率集合中最大的后验概率数值所对应的类别作为最终识别结果, 若有多个数值相同的最大后验概率,则对数值相同的最大后验概率对应的样本重新进行步 骤S5的分类并计算条件概率,直至得到最终识别结果。9. 基于语音和面部表情的双模态情感融合的识别系统,其特征在于,包括W下模块: 数据提取模块,用于获取待识别对象的音频数据和视频数据;信号提取模块,用于对所 述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行 眼睛、鼻子、嘴己区域的分割,预处理后得到统一标准的Ξ个区域的图像; 特征提取模块,用于从所述情感语音信号中提取语音情感特征;从所述Ξ个区域的图 像中提取每个区域图像中的面部表情特征; PCA分析降维模块,用于对语音情感特征和面部表情特征进行PCA分析降维; 贝叶斯分类模块,用于将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语 音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴 素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集 合; 决策级融合模块,用于将第一条件概率集合和第二条件概率集合进行决策级融合,得 到最终识别结果。10. 根据权利要求9所述的基于语音和面部表情的双模态情感融合的识别系统,其特征 在于,所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元, 所述语音情感特征降维单元用于使用PCA对步骤S4提取的语音情感特征进行降维处 理,获得用于表情分类的最终语音情感特征; 将所述面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。
【文档编号】G10L15/06GK105976809SQ201610352750
【公开日】2016年9月28日
【申请日】2016年5月25日
【发明人】刘振焘, 吴敏, 曹卫华, 陈鑫, 潘芳芳, 徐建平, 张日, 丁学文
【申请人】中国地质大学(武汉)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1