一种用于语音情感识别的自学习语谱图特征提取方法

文档序号：9328309阅读：2074来源：国知局

一种用于语音情感识别的自学习语谱图特征提取方法
【技术领域】
[0001] 本发明涉及语音情感识别技术领域，特别涉及一种应用于语音情感识别系统的特征提取方法。
【背景技术】
[0002] 语音作为最主要的交流手段之一，在新型的人机交互领域受到越来越广泛的关注，为了使人机交互系统和机器人的对话系统更加智能和完善，语音的情感分析变得越来越重要。此外，在一些长时间的、单调的、高强度的任务（如航天、航海等）中，相关人员常产生某些负面的情绪，有效的识别这些负面情绪，有助于提高个体认知和工作效率，防患于未然。面对犯罪调查、智能协助等问题，语音情感识别也能够起到重要的作用。因此，语音情感识别算法研究具有重要的实用意义。
[0003] 针对语音情感识别问题，学者们从不同角度进行了研究，取得了许多有价值的成果。在提高算法鲁棒性方面，有学者提出一些抗噪性能良好的情感识别算法。在语音情感识别模型构建方面，许多不同类型的识别模型被提出，例如，加权稀疏识别模型、基于语义的情感识别模型等等。鉴于特征构造及特征选择对识别性能影响较大，许多学者都对情感特征进行了细致的分析和研究，并提出了多种语音情感特征构造方式。语音情感特征一般包括：（1)韵律特征、（2)频域特征、（3)音质特征。在上述特征中，语音信号频域和时域中信号的相关性，在语音情感识别中起到了重要的作用。但针对语音信号相关性的研究，往往只是研究频域或时域中的一个域，很少有文献将语音信号时频两域的相关性结合起来进行研究。语谱图作为一种语音能量时频分布的可视化表达方式，横轴代表时间，纵轴代表频率，连通了时频两域，将语谱图的频率点建模为图像的像素点，可以利用图像特征研究相邻频点间的联系，为研究时频两域相关性提供了一种新的思路。

【发明内容】

[0004] 本发明的目的是提供一种用于语音情感识别的自学习语谱图特征提取方法，一方面可以提高各语音情感之间的区分性，对语音情感的分类提供更有效的特征，另一方面可以进一步分析信号间相关性对情感识别的作用。
[0005] 为实现上述目的，本发明采用的技术方案是：
[0006] -种用于语音情感识别的自学习语谱图特征提取方法，包括以下步骤：
[0007] (1)、对已知情感的标准语料库中的语音进行预处理，得到量化后的语谱图灰度图像；
[0008] (2)、计算步骤⑴所得到的语谱图灰度图像的Gabor语谱图；
[0009] (3)、采用可辨别特征学习算法对步骤（2)提取到的LBP统计直方图进行训练，构建不同尺度、不同方向下的全局显著性模式集合，记为*4?，···，·^,,,;
[0010] (4)、采用步骤（3)中的全局显著性模式对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择，得到处理后的统计直方图，将N个统计直方图级联
得到适合情感分类的语
音情感特征。
[0011] 所述步骤（1)的具体步骤为：
[0012] (11)、对语音进行分帧、加窗，计算离散傅里叶变换，得到语谱图X ;
[0013] (12)、通过下式求取线性语谱图：
[0014] LLinear(i,j) = |X(i,j)
[0015] (13)、通过下式得到归一化语音图谱：
[0017] 式中max，min表示语谱图灰度级中的最大最小值；
[0018] (14)、归一化后的语谱图乘以255,并进行量化处理，得灰度级为0-255的语谱图灰度图像。
[0019] 所述步骤（2)的具体步骤为：
[0020] (21)、将语谱图灰度图像与Gabor小波的卷积，经过卷积后，每张语谱图灰度图像可以得到N = A X B张 Gabor图谱，记为
其中A表示Gabor核方向数目，其中B表示Gabor核尺度数目，Gabor小波的核函数定义如下：
[0023] 其中，μ表示Gabor的核方向，V表示核尺度，： = 是像素点的空间位置，。
表不尚斯函数的半径，/&,= λ: COS% +;·*,. sin ，其中 π μ /8 ；
[0024] (22)、采用局部二值模式（Local binary pattern，LBP)对Gabor图谱的进行编码，编码后的图谱不进行旋转不变及一致模式映射，并直接计算统计直方图，每条情感语音 Gabor图谱的统计直方图，记为
[0025] 所述步骤（3)的具体步骤为：
[0026] (31)、依据不同方向、尺度的Gabor图谱，将所有语音的Gabor图谱提取到的LBP 特征分为N个不同的集合，设方向为V，尺度为μ的Gabor图谱LBP直方图组成的集合为，其中M表示训练样本总数；
[0027] (32)、采用可辨别特征学习算法对训练学习，得到全局显著性模式集合d;
[0028] (33)、由于i = 1，2,…，N，最终得到N个全局显著性模式集合
[0029] 所述步骤（3)中，可辨别特征学习算法步骤如下：
[0030] (a)计算每个特征直方图的显著性模式集合；
[0031] (b)计算不同类别的可区别显著性模式集合：
[0032] 计算同一类情感特征显著性模式集合交集，得到不同类别的可区别显著性模式集合；
[0033] (C)构建全局显著性模式集合：
[0034] 计算不同类别可区别显著性模式集合的并集，得到全局显著性模式集合Jgklbal。
[0035] 所述步骤（a)中，
[0036] 首先，设Γ'11为LBP统计直方图，而]=(/-1)(/ = 1，2,._，256) η为显著性模式集合阈值；
[0037] 然后，对Γ' 11进行降序排列，结果记为?，按照降序后的}顺序改变g的排列，结果记为保留I的前k项，存入向量芬中，k值通过下述公式求得：Σ?/(〇 > %
[0038] 最后，对所有LBP统计直方图进行上述运算，得到特征直方图的显著性模式集合 ? W'''Uμ 〇
[0039] 本发明的有益效果是：
[0040] 本发明的语音情感识别特征提取方法，基于频点间的相关性，将语谱图建模为图像，并采用图像算法研究频点间的相关性。在所作的统计实验中，采用本发明提取的特征加大了情感间的鉴别性，相比传统的声学特征，提高了情感识别的性能。本发明一方面可以提高各语音情感之间的区分性，对语音情感的分类提供更有效的特征，另一方面可以进一步分析信号间相关性对情感识别的作用。本发明提出的情感特征可以较好地识别不同种类的情感，识别率显著优于现有的声学特征。
【附图说明】
[0041] 图1为LBP编码示意图；
[0042] 图2为分类识别流程图。
【具体实施方式】
[0043] 下面结合【具体实施方式】对本发明作更进一步的说明。
[0044] 本发明提供了一种用于语音情感识别的自学习语谱图特征提取方法，具体步骤如下所示：
[0045] 1)语谱图分析与预处理
[0046] 对已知情感的标准语料库中的语音进行预处理
[0047] (1)对语音进行分帧、加窗，计算离散傅里叶变换。
[0049] 式中，N表示窗长，ω (n)表示汉明窗函数。k表示f (k) = kfs/N，其中fs表示采样频率。
[0050] 求取线性语谱图：
[0051] LLinear(i,j) = |X(i,j)
[0052] (2)采用最大最小归一化方法对语谱图进行归一化，得到归一化语音图谱。
[0054] 式中max，min表示语谱图灰度级中的最大最小值。
[0055] (3)将语谱图量化成0-255的灰度级图像0(心）。
[0056] 2)计算Gabor语谱图
[0057] Gabor小波的核函数定义如下：
[0060] 其中，μ表示Gabor的核方向，V表示核尺度，S = 是像素点的空间位置，。表示高斯函数的半径。

[0062] 上式中，V e {〇, 1，2, 3, 4}，μ e {〇, 1，2, 3, 4, 5, 6, 7}。经过上式运算后，得到 40 张 Gabor图谱。
[0063] 采用LBP对Gabor图谱进行编码，并计算编码后图谱的灰度直方图，编码后的图谱不进行旋转不变及一致模式映射，并直接计算统计直方图。每条情感语音Gabor图谱的统计直方图，记为
，如图1所示为LBP编码示意图。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵力;陶华伟;魏昕;梁瑞宇;查诚;张昕然;
技术所有人：东南大学;
我是此专利的发明人

上一篇：具有自适应语音处理的安全警报系统的制作方法
上一篇：语音播报方法和装置的制造方法