一种基于非线性特征补偿的鲁棒语音识别方法与流程

文档序号：13968742阅读：171来源：国知局

本发明属于语音识别领域，具体涉及到在对数谱域对含噪语音信号的特征向量进行非线性特征补偿，使之与预先训练的声学模型相匹配的鲁棒语音识别方法。

背景技术：

在语音信号的传输过程中，不可避免的要受到背景噪声的干扰，这就可能使实际环境中提取的含噪语音特征与预先训练的声学模型不匹配，从而导致语音识别系统的性能严重恶化。

一般来说，减小环境失配影响的鲁棒语音识别技术可以分为前端特征域方法和后端模型域方法。前者对测试语音的特征参数进行补偿，使之与预先训练的声学模型相匹配；后者利用测试环境下的少量自适应数据，对预先训练的声学模型的参数进行变换，使之与测试环境相匹配，直接对测试语音进行识别。特征域方法具有计算量较小、与后端识别器无关，灵活性好的优点。而模型域方法的补偿精度更高，但是其计算量较大，实时性较差。

在前端特征域，基于模型的特征补偿是一种有效的噪声鲁棒语音识别技术，它对预先训练的纯净语音高斯混合模型(gmm:gaussianmixturemodel)进行参数变换，通过最小均方误差方法从含噪测试语音中估计纯净语音特征参数。基于模型的特征补偿方法虽然具有精度较高，补偿性能较好的优点，但是与模型域方法类似，它也涉及较为复杂的矩阵运算，计算量较大，不适用于运算性能较差的移动终端设备。因此有必要寻求更加高效的特征补偿方法，以便在计算复杂度和补偿精度之间取得更好的平衡。

技术实现要素：

发明目的：针对现有技术中存在的问题，本发明提供了一种基于非线性特征补偿的鲁棒语音识别方法。在该方法中，假设每个mel通道上的语音特征参数只受本通道噪声的影响，通过含噪语音和纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换，即可得到与纯净语音声学模型相匹配的测试语音特征参数。

本发明的具体步骤如下：

(1)对纯净训练语音进行预处理、快速傅里叶变换(fft：fastfouriertransform)和mel滤波，并对滤波后的各mel通道系数取对数，得到训练语音的对数谱参数；

(2)用所有语音单元的纯净语音对数谱参数训练生成一个协方差矩阵都是对角矩阵的高斯混合模型；

(3)对含噪测试语音进行预处理、fft和mel滤波，并对滤波后的各mel通道系数取对数，得到含噪测试语音的对数谱参数；

(4)在每个mel通道上，通过使本通道的gmm输出概率最大来确定含噪语音与纯净语音之间的非线性变换参数；

(5)在每个mel通道上，用含噪语音与纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换，得到与纯净语音声学模型相匹配的测试语音对数谱参数；

(6)对非线性特征补偿后的对数谱参数作离散余弦变换(dct：discretecosinetransform)，得到美尔频率特征参数(mfcc：melfrequencycepstralcoefficients)，用于语音识别系统的后端声学解码。

附图说明

图1为基于非线性特征补偿的鲁棒语音识别系统的总体框架，主要包括预处理、fft、mel滤波、取对数、非线性特征补偿和dct模块。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于非线性特征补偿的鲁棒语音识别方法主要包括预处理、fft、mel滤波、取对数、非线性特征补偿和dct模块。其中，非线性特征补偿模块是本发明技术方案的核心部分。下面详细说明本发明的具体实施方案。

1、模型训练

对纯净训练语音进行预处理、fft、mel滤波，并对滤波后的各mel通道系数取对数，得到训练语音的对数谱参数。用所有语音单元的纯净语音对数谱参数训练生成一个gmm。该gmm每个高斯单元的协方差矩阵都是对角矩阵，因此可以在每个mel通道上独立输出概率。

2、对数谱特征提取

对含噪测试语音进行预处理、fft、mel滤波，并对滤波后的各mel通道系数取对数，得到测试语音的对数谱参数。

3、非线性特征补偿

在对数谱域，加性噪声对语音的影响可用如下函数来描述：

y＝log[exp(x)+exp(n)](1)

其中，y、x和n分别表示含噪语音、纯净语音和加性噪声的对数谱特征参数。

在第k个mel通道上，式(1)可以表示为：

y(k)＝log[exp(x(k))+exp(n(k))](2)

其中，y(k)、x(k)和n(k)分别表示y、x和n在第k个mel通道的系数。

由式(2)可知，通过下式对第k个mel通道的含噪语音对数谱系数y(k)进行非线性补偿，即可得到纯净语音对数谱系数x(k)的估计值

其中，为噪声参数，x(k)min是对数谱系数x(k)的下限(计算结果不得小于这个值)。通过使gmm在该mel通道上的输出概率最大来估计：

其中n表示所有可能的对数谱噪声参数。

设n的取值范围是nmin＜n＜nmax，为了提高搜索效率，首先将区间[nmin,nmax]分成10个子区间，每个子区间再分成5个更小的子区间。这样，求时，先确定一个使p(y(k)|n)最大的子区间，再在该子区间中搜索p(y(k)|n)的最大值，得到

4、dct

对特征补偿后的对数谱特征参数进行dct变换，即可得到补偿后的测试语音mfcc。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕勇
技术所有人：河海大学
我是此专利的发明人

上一篇：一种数字扬琴演奏平台及演奏方法与流程
上一篇：基于节奏的音频转换方法及装置与流程