一种基于口音识别的鲁棒语音识别方法与流程

文档序号：16047043发布日期：2018-11-24 10:57阅读：427来源：国知局

本发明属于语音识别领域，具体涉及到用高斯混合模型描述口音的共振峰向量分布，在测试环境下用预先训练的高斯混合模型对测试语音进行口音识别，选取与当前说话人的口音最匹配的声学模型，并对其参数进行说话人自适应，得到测试环境声学模型的鲁棒语音识别方法。

背景技术：

语音识别系统一般以美尔频率倒谱系数(mfcc：melfrequencycepstralcoefficient)为特征向量，以隐马尔可夫模型(hmm：hiddenmarkovmodel)为声学模型。为了能够反映目标说话人的语音特性，声学模型一般用大量说话人的训练语音训练而成。然后，通过增加训练语音来减小说话人改变的影响是非常困难的。这是因为不同人的说话方式都存在差别，且说话人的数量巨大，难以在训练阶段覆盖太多的说话人。另一方面，训练的说话人过多还会导致声学模型过于“平坦”，与每个说话人的特性差距增大，反而会导致系统识别率的下降。

目前，多数语音识别系统对标准普通话发音可以取得很高的识别率。但是，在实际生活中，能将普通话说得很标准的人毕竟是少数，大部分人的发音或多或少会带有地域性的口音。说话人自适应可以根据测试环境下的少量测试语音，对预先训练的声学模型的参数进行变换，使之与测试环境尽量匹配。然后，训练环境与测试环境之间的变换关系是未知的，而且是非线性的。为了便于实现，在说话人自适应中，一般都假设这种环境映射关系为线性变换。这会导致自适应得到的声学模型与理想声学模型之间存在较大的差异。尤其当训练语音与目标说话人的发音特性相差较大时，这种差异更加明显。

技术实现要素：

发明目的：针对现有技术中存在的问题，本发明提供一种基于口音识别的鲁棒语音识别方法。

技术方案：一种基于口音识别的鲁棒语音识别方法，在训练阶段，将发音特性相近的口音合并为一类，为每类口音训练生成一个高斯混合模型(gmm：gaussianmixturemodel)和一组隐马尔可夫模型；在测试阶段，首先从目标说话人的测试语音中提取共振峰；然后根据共振峰特征，对说话人的口音进行识别，并根据识别结果选取该类口音对应的声学模型，对声学模型的参数进行调整，使之与目标说话人的发音特性相匹配；最后，用自适应后的声学模型对测试语音特征向量进行识别，得到识别结果。

本发明的具体步骤如下：

(1)得到各类口音的训练语音；

(2)对每类口音的训练语音加窗，分帧，得到帧信号；

(3)对每类训练语音的浊音帧信号，提取共振峰，并将前三个共振峰组成共振峰向量；

(4)对每类训练语音的共振峰向量进行gmm训练，得到该类口音的gmm模型；

(5)对每类训练语音进行特征提取，得到美尔频率倒谱系数(mfcc)，并进行hmm训练，得到该类口音每个语音单元的hmm模型(声学模型)；

(6)对目标说话人的测试语音加窗，分帧，得到测试语音的帧信号；

(7)从目标说话人的浊音帧信号中提取共振峰向量；

(8)用预先训练的gmm对目标说话人的共振峰向量进行口音识别，得到目标说话人的口音信息；

(9)根据目标说话人的口音信息，选取该类口音的声学模型，并对声学模型的参数进行调整，使之与目标说话人的发音特性相匹配，得到自适应后的声学模型，匹配过程是近似的逼近过程，只要识别率提高就算匹配度提高了，不是完全匹配；

(10)对目标说话人的帧信号中进行特征提取，得到目标说话人的mfcc；

(11)用自适应后的声学模型对目标说话人的mfcc进行声学解码，得到识别结果。

本发明采用上述技术方案，具有以下有益效果：

本发明可以减小口音对语音识别系统的影响，提高口音改变条件下模型自适应的准确性，增强语音识别系统的识别性能。

附图说明

图1为本发明实施例的基于口音识别的鲁棒语音识别方法的总体框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于

本技术：
所附权利要求所限定的范围。

一种基于口音识别的鲁棒语音识别方法，主要包括预处理、共振峰提取、gmm训练、特征提取、hmm训练、口音识别、模型自适应和声学解码几个部分。

1、预处理

在训练阶段和测试阶段分别对训练语音和测试语音进行加窗，分帧，生成每一帧信号。语音信号的采样频率为8000hz，窗函数为海明窗，帧长为256，帧移为128。

2、共振峰提取

在训练阶段和测试阶段分别对训练语音和测试语音的浊音帧信号提取共振峰，并将前三个共振峰组成共振峰向量。

3、特征提取

在训练阶段和测试阶段分别对训练语音和测试语音的每一帧信号进行快速傅里叶变换，mel滤波，对数变换，离散余弦变换，生成美尔频率倒谱系数(mfcc)。

4、gmm训练

对每类口音的全部训练语音共振峰向量进行gmm训练，生成该类口音的gmm模型。

5、hmm训练

对每类口音的每个语音单元的全部训练语音mfcc进行hmm训练，得到该类口音该语音单元的hmm模型。每类口音的全部hmm组成该类口音的声学模型。

6、口音识别

将目标说话人测试语音的共振峰向量输入每类口音的gmm，计算gmm的输出概率。输出概率最大的gmm对应的口音即为目标说话人的口音。

7、模型自适应

根据口音识别得到的目标说话人的口音信息，选取该类口音的声学模型，并用最大似然回归算法对所选口音的声学模型的参数进行变换，使之与目标说话人的发音特性更加匹配。

8、声学解码

用自适应后的口音声学模型对目标说话人的mfcc进行声学解码，得到识别结果。

技术特征：

技术总结
本发明公开一种基于口音识别的鲁棒语音识别方法，用多类口音的声学模型预测目标说话人的口音特性。在训练阶段，将发音特性相近的口音合并为一类，为每类口音训练生成一个高斯混合模型和一组隐马尔可夫模型；在测试阶段，首先从目标说话人的测试语音中提取共振峰；然后根据共振峰特征，对说话人的口音进行识别，并根据识别结果选取该类口音对应的声学模型，对声学模型的参数进行调整，使之与目标说话人的发音特性相匹配；最后，用自适应后的声学模型对测试语音特征向量进行识别，得到识别结果。本发明可以减小口音对语音识别系统的影响，提高口音改变条件下模型自适应的准确性。

技术研发人员：吕勇
受保护的技术使用者：河海大学
技术研发日：2018.09.05
技术公布日：2018.11.23

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕勇
技术所有人：河海大学
我是此专利的发明人