面向语音与面部表情信号的情感可视化方法

文档序号:9788621阅读:400来源:国知局
面向语音与面部表情信号的情感可视化方法
【技术领域】
[0001]本发明涉及一种多模式情感可视化方法,特别涉及一种面向语音与面部表情信号 的情感可视化方法。
【背景技术】
[0002] 近年来,情感信息的研究工作在人机交互领域中已经成为一个热点问题。随着社 会信息化的推进和网络应用的日益广泛,信息源越来越庞大。对海量信息之间的复杂关系 的努力探索,促使了信息可视化这一崭新科学技术的出现。情感信息可视化的研究任务是 将大规模复杂数据信息转换为直观图形或图像,充分发挥人们对可视模式的形象思维优 势,达到观察、浏览、研究、探索、发现隐藏在大规模数据内部的特征和规律的目的。目前情 感可视化的研究主要停留在单模式情感可视化的水平,即只从单一信息通道中获得当前对 象的情感状态,如从语音信号、面部表情信号或生理信号(血压、体温、脉搏、心电、脑电、皮 肤电阻等)等。虽然单一地依靠语音信号、面部表情信号或生理参数来进行可视化取得了一 定的成果,但却存在着很多局限性,因为人类是通过多模式的方式表达情感信息的,它具有 表达的复杂性和文化的相对性。比如,在噪声环境下,当某一个通道的特征受到干扰或缺失 时,多模式方法能在某种程度上产生互补的效应,弥补了单模式的不足。所以研究多模式情 感可视化的方法十分必要。由于生理信号的测量必须与身体接触,因此对于此通道的信号 获取有一定的困难,所以语音和面部表情作为两种最为主要的表征情感的方式,在情感识 别方面得到了广泛的研究,但是其只能通过文字来表达识别结果,显示不直观。

【发明内容】

[0003] 针对上述现有技术存在的不足,本发明所要解决的技术问题是提供一种显示直观 且具有高鲁棒性的面向语音与面部表情信号的情感可视化方法。
[0004] 本发明的技术解决方案是:
[0005] -种面向语音与面部表情信号的情感可视化方法,包括以下步骤:
[0006] 步骤1:情感信号获取;
[0007] 首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二 者绑定存储;
[0008] 步骤2、情感信号预处理;
[0009] 步骤2-1、语音信号预处理;
[0010] 对获取的语音信号进行预处理,包括预加重、分帧加窗和端点检测;
[0011] 步骤2-2、面部表情信号预处理;
[0012] 对获取的面部表情信号,首先进行脸部定位,然后进行图像几何特性归一化处理 和图像光学特性归一化处理;
[0013] 步骤3、情感特征参数提取;
[0014] 步骤3-1、语音情感特征参数提取;
[0015]包括韵律特征和音质特征;
[0016 ]步骤3-2、面部表情特征参数提取;
[0017] 对预处理后的面部表情信号,采用Gabor小波变换来提取面部表情特征参数,具体 过程如下:
[0018] 1)将预处理后的面部表情图像网格化;
[0019] 2)用Gabor小波和网格化后的图像进行卷积;
[0020] 3)取卷积结果的模的均值和方差作为面部表情特征参数;
[0021] 4)用主成分分析法PCA对上述面部表情特征参数进行降维处理,获得最终的面部 表情特征参数;
[0022] 步骤4、神经网络设计;
[0023]所述的神经网络为三层BP神经网络,其中输入层有46个神经元,输出层有3个神经 元;
[0024]步骤5、图像生成;
[0025]步骤5-1、图像主颜色编码;
[0026] 通过给屏幕相应位置的RGB赋值,即通过设定图像红色饱和度R、绿色饱和度G和蓝 色饱和度B的值,来获得图像的主颜色信息;
[0027] 步骤5-2、图案信息编码;
[0028] 神经网络的输出即为相应的图案信息,神经网络的输出层有3个神经元,均采用二 进制编码,共有8个不同的码,其中利用前6个码,依次对应着中性、高兴、愤怒、惊奇、悲伤和 恐惧6种人类基本情感;
[0029]步骤5-3、图像合成;
[0030]图像合成时,把图像主颜色信息与图案信息融合在一幅图像中在显示屏上显示。
[0031] 所述步骤5-3中图像合成时,先获得图像主颜色信息,然后用图案信息置换相应位 置的主颜色信息,获得相应的情感可视化图像。
[0032] 所述步骤3-1语音情感特征参数提取时,提取16个语音情感特征,其中前9个语音 情感特征为韵律特征,后7个语音情感特征为音质特征;所述前9个语音情感特征分别为:语 句发音持续时间与相应的平静语句持续时间的比值、基因频率平均值、基因频率最大值、基 因频率平均值与相应平静语句的基因频率平均值的差值、基因频率最大值与相应平静语句 的基因频率最大值的差值、振幅平均能量、振幅能量的动态范围、振幅平均能量与相应平静 语句的振幅平均能量的差值、振幅能量动态范围与相应平静语句的振幅能量动态范围的差 值。
[0033]所述步骤3-1中后7个语音情感特征分别为:第一共振峰频率的平均值、第二共振 峰频率的平均值、第三共振峰频率的平均值、谐波噪声比的均值、谐波噪声比的最大值、谐 波噪声比的最小值、谐波噪声比的方差。
[0034] 所述步骤2-2中面部表情信号预处理时,其中利用肤色模型进行脸部定位;图像几 何特性归一化以两眼位置为依据,而图像光学特性的归一化处理包括先用直方图均衡化方 法对图像灰度做拉伸,以改善图像的对比度,然后对图像像素灰度值进行归一化处理,使标 准人脸图像的像素灰度值为〇,方差为1,如此部分消除光照对识别结果的影响。
[0035] 所述步骤3-2中用Gabor小波和网格化后的图像进行卷积,公式如下:
[0036] r(x,y)=JJl(e ,n)g(x-e ,y-n)dedn (1)
[0037] 其中,r(x,y)为Gabor小波变换后的结果;Ι(ε ,η)为对应像素坐标(ε ,η)的像素值;
为复数算子,〇是与小波频率带宽有关的常数,ν的取值决定了 Gabor滤波的波长,u的取值表 示Gabor核函数的方向,c表示总的方向数;ε,ri为积分变量。
[0038] 所述步骤2-1中语音信号预处理时,其中预加重是通过一阶数字预加重滤波器实 现,预加重滤波器的系数取值为0.93~0.97;分帧是以帧长256点的标准进行,并对分帧后 的数据加汉明窗处理;端点检测是利用短时能零积法进行。
[0039]所述步骤1中情感信号获取时,是利用麦克风输入语音数据后,再通过采样量化获 得相应的语音信号,而面部表情信号则是由摄像机拍摄获得。
[0040] 所述步骤1中采样量化的采样频率为11.025kHz、量化精度为16b i t;所述的由摄像 机拍摄获得的每幅面部表情信号图像大小为256 X 256像素。
[0041] 本发明的有益效果如下:
[0042] (1)本发明通过组合语音信号和面部表情信号两种不同模式的情感特征进入一幅 图像中,为人们创造了情感的可读模式,可以直观地展示情感的分类结果。与现有技术相 比,具有良好的鲁棒性和易懂性。
[0043] (2)本发明同时提取了语音信号的音质特征和韵律特征,能够更全面地提取蕴含 在语音信号中的情感信息,使可视化的结果更加准确。
[0044] (3)本发明采用Gabor小波变换来提取面部表情特征参数,它能够同时检测多尺 度、多方向的纹理变化,而且对亮度和人脸姿态的变化不敏感,使得提取的面部表情特征参 数鲁棒性更好。
[0045] (4)本发明通过神经网络来对图案信息进行编码,有效地提高了情感的识别率,缩 短了识别时间,实现了效率与时间的双赢。
[0046] (5)本发明的可视化技术可以应用到情感识别结果的表达上,实现了情感信息的 生动描述和高效表达。
【附图说明】
[0047]图1为本发明的系统结构框图;
[0048]图2是图1中神经网络的结构示意图;
[0049]图3为图案彳目息编码不意图;
[0050]图4为中性情感的可视化效果示例图;
[0051 ]图5为高兴情感的可视化效果示例图;
[0052] 图6为愤怒情感的可视化效果示例图;
[0053] 图7为惊奇情感的可视化效果示例图;
[0054] 图8为悲伤情感的可视化效果示例图;
[0055] 图9为恐惧情感的可视化效果示例图;
【具体实施方式】
[0056] 下面结合附图和实施例,对本发明所述的技术方案作详细说明:
[0057] 如图1所示,该方法包括情感信号获取、情感信号预处理、情感特征参数提取、神经 网络设计及图像生成,具体过程如下:
[0058]步骤1、情感信号获取;
[0059] 首先通过噪声刺激或者观看影视片段等诱发方式诱发人的情感,再同步获取相应 情感状态下的语音信号和面部表情信号,并将二者绑定存储。本实施方式利用麦克风输入 语音数据,然后利用计算机、单片机或DSP芯片处理单元以11.025kHz的采样频率、16bit的 量化精度进行采样量化,获得相应的语音信号;本实施方式的面部表情信号则是通过摄像 机拍摄,每幅图像大小为256 X 256像素;
[0060] 步骤2、情感信号预处理;
[0061]步骤2-1、语音信号预处理;
[0062]利用一阶数字预加重滤波器对获取的语音信号进行预加重处理,其中利用的预加 重滤波器的系数取值范围为0.93-0.97之间,本发明实施例中取0.9375。接下来以帧长256 点的标准进行分帧处理,并对分帧后的语音信号加汉明窗处理,再利用短时能零积法进行 端点检测。
[0063] 步骤2-2、面部表情信号预处理;
[0064]对获取的面部表情信号,首先用肤色模型进行脸部定位,然后进行图像几何特性 归一化处理和图像光学特性归一化处理,其中图像几何特性归一化主要以两眼位置为依 据,而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸,以改善 图像的对比度,然后对图像像素灰度值进行归一化处理,使标准人脸图像的像素灰度值为 〇,方差为1,如此可以部分消除光照对识别结果的影响。本发明实施例中,归一化后的图像 大小为75X100像素;
[0065]步骤3、情感特征参数提取;
[0066] 步骤3-1、语音情感特征参数提取;
[0067] 以往对情感特征参数的有效提取主要以韵律特征为主,然而近年来通过深入研究 发现,音质特征和韵律特征相互结合才能更准确地识别情感。为了尽可能地利用语音信号 中所包含的有关情感方面的信息,本实施
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1