一种基于卷积神经网络的语音情感识别方法及系统与流程

文档序号：16092413发布日期：2018-11-27 23:10阅读：来源：国知局

技术特征：

1.一种基于卷积神经网络的语音情感识别方法，其特征在于，包含以下步骤：

S1、获取输入的语音信号x(t)，并对所述语音信号x(t)进行预处理，获得预处理后的语音信号x′d(n)；

S2、将预处理后的语音信号x′d(n)进行语谱图绘制，获得以频域信号Xd(k)显示的语谱图；

S3、构建卷积神经网络模型，对S2输出的以频域信号Xd(k)显示的语谱图进行特征提取，获得语音信号特征图；

S4、构建分类器SVM模型，所述分类器SVM模型包含K个SVM二分类器，SVM二分类器的模型表达式为其中K为预设的情感类别数量，C>0，C是惩罚系数，ω和b是超平面的参数，ωxi+b表示语音信号特征图中样本点xi到超平面距离，即分类间隔；yi为语音样本点情感标签函数；

S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别，输出情感特征分类结果既当分类间隔ωxk+b最大值时，获得的分类器编号k，从而获得第k个分类器对应的语音情感。

2.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法，其特征在于，步骤S1包含以下步骤：

S11、将获取的语音信号x(t)进行采样和量化，以完成语音信号的采样和AD转换；

S12、将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理，获得预加重后的语音信号x(m)；

S13、根据表达式将预加重后的语音信号进行分帧加窗处理；

其中，x(m)为预加重后的语音信号，x′d(n)为分帧加窗后的语音信号，ω(n)是窗函数，N为窗宽。

3.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法，其特征在于，步骤S2包含以下步骤：

S21、应用傅里叶变换k＝0,1,...,N-1对预处理后的语音信号x′d(n) 进行变换，得到语音信号x′d(n)的频域信号Xd(k)，其中，d表示第d帧语音信号，N表示信号每一帧的长度，Xd(k)表示傅里叶变换后的语音频域信号；

S22、根据公式L＝20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值，并对所述幅值进行归一化处理，将信号幅值绘制成语谱图。

4.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法，其特征在于，步骤S3包含以下步骤：

S30、语谱图矩阵获取：根据S2得到的语谱图中一帧信号的幅值构成一个向量，多帧信号的幅值向量组成一个幅值矩阵，将所述幅值矩阵中的各个元素线性映射到[0,1]内，所述元素值构成了语谱图矩阵I；

S31、卷积层处理：将语谱图矩阵I与卷积核进行运算，得到卷积层对应的特征图；卷积过程为其中I为语谱图矩阵，K表示卷积核，M和N表示卷积核的宽度和高度；

S32、池化层处理：将卷积层对应的特征图作为池化层的输入，采用最大池化方法经过池化操作后产生一个对应的池化层的特征图；

S33、全连接层处理：对卷积层和池化层输出的特征图进行映射，实现非线性变换，获得语音信号特征图。

5.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法，其特征在于，步骤S4中构建分类器SVM模型中的语音样本点情感标签函数具体为：

对于第k个SVM分类器，将语音样本点的情感标签yi设置为1，其余语音样本点的情感标签yi设置为-1，从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。

6.一种基于卷积神经网络的语音情感识别系统，其特征在于，包含以下模块：

语音预处理模块，用于获取输入的语音信号x(t)，并对所述语音信号x(t)进行预处理，获得预处理后的语音信号x′d(n)；

语谱图获取模块，用于将预处理后的语音信号x′d(n)进行语谱图绘制，获得以频域信号Xd(k)显示的语谱图；

卷积神经网络处理模块，用于构建卷积神经网络模型，对语谱图获取模块输出的以频域信号Xd(k)显示的语谱图进行特征提取，获得语音信号特征图；

分类器构建模块，用于构建分类器SVM模型，所述分类器SVM模型包含K个SVM二分类器，SVM二分类器的模型表达式为其中K为预设的情感类别数量，C>0，C是惩罚系数，ω和b是超平面的参数，ωxi+b表示数据点xi到超平面距离，即分类间隔；yi为语音样本点情感标签函数；

情感特征分类模块，用于利用所述构建的分类器SVM模型对分类器构建模块得到的语音信号特征图进行识别，输出情感特征分类结果既当分类间隔ωxk+b最大值时，获得的分类器编号k，从而获得第k个分类器对应的语音情感。

7.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统，其特征在于，语音预处理模块包含以下子模块：

采样量化模块，用于将获取的语音信号x(t)进行采样和量化，以完成语音信号的采样和AD转换；

预加重模块，用于将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理，获得预加重后的语音信号x(m)；

分帧和加窗模块，用于根据表达式将预加重后的语音信号进行分帧加窗处理；

其中，x(m)为预加重后的语音信号，x′d(n)为分帧加窗后的语音信号，ω(n)是窗函数，N为窗宽。

8.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统，其特征在于，语谱图获取模块包含以下子模块：

语音频域信号转换模块，用于应用傅里叶变换k＝0,1,...,N-1对预处理后的语音信号x′d(n)进行变换，得到语音信号x′d(n)的频域信号Xd(k)，其中，d表示第d帧语音信号，N表示信号每一帧的长度，Xd(k)表示傅里叶变换后的语音频域信号；

语谱图绘制模块，用于根据公式L＝20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值，并对所述幅值进行归一化处理，将信号幅值绘制成语谱图。

9.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统，其特征在于，卷积神经网络处理模块包含以下子模块：

语谱图矩阵获取模块，用于将语谱图获取模块到的语谱图中一帧信号的幅值构成一个向量，多帧信号的幅值向量组成一个幅值矩阵，将所述幅值矩阵中的各个元素线性映射到[0,1]内，所述元素值构成了语谱图矩阵I；

卷积层处理模块，用于将语谱图矩阵I与卷积核进行运算，得到卷积层对应的特征图；卷积过程为其中I为语谱图矩阵，K表示卷积核，M和N表示卷积核的宽度和高度；

池化层处理模块，用于将卷积层对应的特征图作为池化层的输入，采用最大池化方法经过池化操作后产生一个对应的池化层的特征图；

全连接层处理模块，用于对卷积层和池化层输出的特征图进行映射，实现非线性变换，获得语音信号特征图。

10.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统，其特征在于，所述分类器构建模块还包含：

语音样本点情感标签函数构建模块，用于建立SVM二分类器模型语音样本点情感语音样本点情感标签函数：

对于第k个SVM分类器，将语音样本点情感标签yi设置为1，其余语音样本点情感标签yi设置为-1，从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。

完整全部详细技术资料下载

当前第2页1 2 3