一种串并结合的多模式情感信息融合与识别方法

文档序号：8513350阅读：458来源：国知局

一种串并结合的多模式情感信息融合与识别方法
【技术领域】
[0001] 本发明属于情感识别技术领域，具体涉及一种串并结合的多模式情感信息融合与识别方法。
【背景技术】
[0002] 近年来，情感识别的研宄工作在人机交互领域中已经成为一个热点问题。国内外情感识别的研宄主要有两大类，一类是单模式情感识别，另一类是多模式情感识别。所谓单模式情感识别为只从单一信息通道中获得当前对象的情感状态，如从语音信号、面部表情信号或生理信号（血压、体温、脉搏、心电、脑电、皮肤电阻等）等。虽然单一地依靠语音信号、面部表情信号或生理参数来进行情感识别的研宄取得了一定的成果，但却存在着很多局限性，因为人类是通过多模式的方式表达情感信息的，它具有表达的复杂性和文化的相对性。比如，在噪声环境下，当某一个通道的特征受到干扰或缺失时，多模式方法能在某种程度上产生互补的效应，弥补了单模式的不足，所以研宄多模式情感识别的方法十分必要。如Wagner等通过融合肌动电流、心电、皮肤电阻和呼吸4个通道的生理参数，进行了多模式情感识别，获得了较高的融合识别率。Kim等融合了肌动电流、心电、皮肤电导和呼吸 4个通道的生理参数，并采用听音乐的方式来诱发情感，实现了对积极和消极两大类情感的高效识别。东南大学的赵力、黄程韦等通过融合语音信号与心电信号进行了多模式情感识另IJ，获得较高的融合识别率。但是上述方法均为与生理信号相融合，而生理信号的测量必须与身体接触，因此对于此通道的信号获取有一定的困难，所以语音和面部表情作为两种最为主要的表征情感的方式，得到了广泛的研宄。如Busso等分析了单一的语音情感识别与人脸表情识别在识别性能上的互补性，并分别讨论了在决策层融合与在特征层融合的效果。Hoch等通过融合语音与表情信息，在车载环境下进行了正面（愉快）、负面（愤怒）与平静等3种情感状态的识别，但该方法只是通过用加权线性组合的方式在决策层进行了融合。从一定意义上说，不同信道信息的融合是多模式情感识别研宄的瓶颈问题，它直接关系到情感识别的准确性。目前，融合多模式情感信息的方法主要有2种：决策层的融合和特征层的融合。这两种方法各有优缺点，决策层的融合技术考虑了不同模式对于情感识别重要性的不同，因此他们通过主观感知实验给不同的模式赋予不同的权重，但是这种通过主观感知实验得到的权重能否应用到其他的情况下是值得怀疑的。特征层的融合技术更接近人类识别情感的过程，能更好地利用统计机器学习的技术，但是这种方法没有考虑到识别不同情感时，不同模式重要性的不同，因此这种方法不能最大程度地发挥多模式融合的优势。可以看出，目前对于情感信息融合技术的研宄尚处于起步阶段，相应的基础理论和方法框架仍很欠缺。

【发明内容】

[0003] 针对上述现有技术存在的不足，本发明提供一种串并结合的多模式情感信息融合与识别方法。
[0004] 本发明的技术方案是：
[0005] -种串并结合的多模式情感信息融合与识别方法，包括以下步骤：
[0006] 步骤1 :情感信号获取；
[0007] 首先诱发情感，再同步获取相应情感状态下的语音信号和面部表情信号，并将二者绑定存储；
[0008] 步骤2、情感信号预处理；
[0009] 步骤2-1、语音信号预处理；
[0010] 对获取的语音信号进行预处理，包括预加重、分帧加窗和端点检测；
[0011] 步骤2-2、面部表情信号预处理；
[0012] 对获取的面部表情信号，首先进行脸部定位，然后进行图像几何特性归一化处理和图像光学特性归一化处理；
[0013] 步骤3、情感特征参数提取；
[0014] 步骤3-1、语音情感特征参数提取；
[0015] 包括韵律特征和音质特征；
[0016] 步骤3-2、面部表情特征参数提取；
[0017] 对预处理后的面部表情信号，采用Gabor小波变换来提取面部表情特征参数，具体过程如下：
[0018] 1)将预处理后的面部表情图像网格化；
[0019] 2)用Gabor小波和网格化后的图像进行卷积；
[0020] 3)取卷积结果的模的均值和方差作为面部表情特征参数；
[0021] 4)用主成分分析法PCA对上述面部表情特征参数进行降维处理，获得最终的面部表情特征参数；
[0022] 步骤4、特征参数融合与识别；
[0023] 步骤4-1、将提取的语音信号特征参数和面部表情特征参数顺序组合起来，获得多模式特征向量，依此将原始训练样本集中所有多模式特征向量构成的集合称为串行特征向量集；
[0024] 步骤4-2、通过对上述串行特征向量集有放回的抽样，获得若干个并行的训练样本集；
[0025] 步骤4-3、利用Adaboost算法对各并行训练样本集分别进行训练，获得每个训练样本集上的强分类器；
[0026] 步骤4-4、采用双误差异性选择策略来度量两两强分类器之间的差异性，并挑选出大于平均差异性的强分类器作为识别分类器；
[0027] 步骤4-5、运用多数优先投票原则对上述识别分类器进行投票，得到最终识别结果。
[0028] 所述的步骤1中情感信号获取时，是利用麦克风输入语音数据后，再通过采样量化获得相应的语音信号，而面部表情信号则是由摄像机拍摄获得；
[0029] 所述的采样量化的采样频率为11. 025kHz、量化精度为16bit ;所述的由摄像机拍摄获得的每幅面部表情信号图像大小为256X256像素。
[0030] 所述的步骤2-1中语音信号预处理时，其中预加重是通过一阶数字预加重滤波器实现，预加重滤波器的系数取值为0. 93~0. 97 ;分帧是以帧长256点的标准进行，并对分帧后的数据加汉明窗处理；端点检测是利用短时能零积法进行。
[0031] 所述的步骤2-2中面部表情信号预处理时，其中利用肤色模型进行脸部定位；图像几何特性归一化主要以两眼位置为依据，而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸，以改善图像的对比度，然后对图像像素灰度值进行归一化处理，使标准人脸图像的

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩志艳;王健;王东;魏洪峰;冯冠;
技术所有人：渤海大学;
我是此专利的发明人

上一篇：一种用于混合语音情感识别的语音特征筛选方法
上一篇：获取混响湿声的方法和装置的制造方法