一种基于多说话人模型的噪声与说话人联合补偿方法

文档序号：2828071阅读：300来源：国知局

一种基于多说话人模型的噪声与说话人联合补偿方法
【专利摘要】本发明公开了一种基于多说话人模型的噪声与说话人联合补偿方法，用多类说话人的声学模型预测目标说话人的语音特性，根据各类高斯混合模型（GMM）的识别结果选取与目标说话人最匹配的声学模型，并对其参数进行噪声补偿和说话人自适应，得到测试环境声学模型。本发明可以提高环境噪声、说话人的改变等多种环境失配因素存在时模型自适应的准确性。
【专利说明】一种基于多说话人模型的噪声与说话人联合补偿方法

【技术领域】
[0001] 本发明属于语音识别【技术领域】，具体涉及到用多类说话人语音训练生成多说话人模型，在测试环境下根据自适应语音选取与目标说话人最匹配的声学模型，并对其参数进行噪声补偿和说话人自适应，得到测试环境声学模型的模型自适应方法。

【背景技术】
[0002] 语音识别系统的声学模型通常在实验室安静环境下用大量训练语音训练而成。在测试环境下，如果声学模型能够覆盖目标说话人的语音特性，则语音识别系统可以取得很高的识别率。然而在实际应用中，说话人的改变和环境噪声的影响总是不可避免的，因而需要根据测试环境下的语音及噪声特性，对声学模型的参数进行调整，使之与测试环境特征向量相匹配，提高语音识别系统的识别率。
[0003] 在噪声鲁棒语音识别中，由噪声引起的非线性环境变换关系是确定的，因此可以根据非语音段提取的噪声参数，对声学模型的参数进行变换，一般可以取得很好的噪声补偿效果。在说话人自适应中，由说话人的改变引起的环境变换关系是未知的，难以用确定的函数关系进行描述，因而通常假设测试环境均值向量与训练环境均值向量之间存在线性变换关系，从测试环境下的少量自适应语音中估计线性变换参数，对声学模型的均值向量进行补偿。一般来说，说话人自适应算法也可以对其他语音变异性导致的环境失配进行补偿，比如用于噪声补偿。但由于线性假设与噪声引起的实际非线性环境变换关系相差甚远，因此难以取得很好的补偿效果。
[0004] -般来说，在实际应用中，环境噪声和说话人的变化是同时存在的，因而需要对噪声和说话人进行联合补偿，以减小环境失配的影响。而且，测试环境下用于调整模型参数的自适应数据是有限的，如果目标说话人的语音特性与预先训练的声学模型相差较大，则通过说话人自适应得到的声学模型也难以与测试语音相匹配。

【发明内容】

[0005] 发明目的：针对现有技术中存在的问题，本发明提供一种基于多说话人模型的噪声与说话人联合补偿方法；在训练阶段，首先根据说话人的语音特性，将训练语音划分为若干类，然后对每一类训练语音进行模型训练，得到一个GMM(GaussianMixtureModel)模型和一组HMM(HiddenMarkovModel)模型，多类训练语音的GMM模型和HMM模型组成多说话人模型；在测试阶段，通过噪声补偿后的GMM模型对目标说话人的语音特性进行识别，得到说话人信息，最后从多组声学模型中选取与目标说话人语音特性最接近的声学模型，并对其进行噪声补偿和说话人自适应，得到测试环境声学模型。
[0006] 技术方案：一种基于多说话人模型的噪声与说话人联合补偿方法，包括训练阶段和测试阶段两部分，其中：
[0007] 训练阶段的具体步骤包括：
[0008] (1)根据训练语音中各说话人的语音特性，对说话人进行聚类，根据聚类结果，划分训练语音，得到若干类说话人的训练语音；
[0009] (2)对每类说话人的训练语音进行GMM训练，得到该类说话人的GMM模型；
[0010] (3)对每类说话人的训练语音进行HMM训练，得到该类说话人每个语音单元的HMM 模型（声学模型），每类说话人语音的模型包括一个GMM模型和一组声学模型，GMM模型用于识别说话人，HMM模型用于语音识别；
[0011] 测试阶段的具体步骤包括：
[0012] (4)从目标说话人的训练语音的非语音段提取噪声的参数，包括均值向量和协方差矩阵；
[0013] (5)根据估得的噪声参数，对每个GMM的均值和方差进行变换，使之与测试环境相匹配；
[0014] (6)用噪声补偿后的GMM对测试环境下目标说话人的自适应语音进行识别，判断其与哪类说话人的语音特性最接近，记录类序号，作为说话人选择的结果；
[0015] (7)根据类序号，从多说话人模型中选取与目标说话人语音特性最接近的一组 HMM模型，并根据噪声参数对其每个高斯单元的均值和方差进行变换，完成噪声补偿过程；
[0016] (8)根据目标说话人的自适应语音对选取的HMM模型组的参数进行说话人自适应，进一步调整其参数，使之与测试语音相匹配，得到测试环境声学模型。
[0017] 在目标说话人类别的选择中，用与语音单元无关的每类说话人GMM取代各个语音单元的HMM进行识别，无需对所有类声学模型的HMM进行噪声补偿，可以显著减小计算量，提高说话人选取速度。
[0018]本发明采用上述技术方案，具有以下有益效果：在本发明的声学模型参数补偿中，分别通过多说话人模型预测，噪声补偿和目标说话人自适应三个模块对声学模型每个HMM 的参数进行调整，使之与含噪测试语音更好地匹配，因而可以显著提高环境噪声、说话人的改变等多种环境失配因素共同存在时模型自适应的准确性，增强语音识别系统对实际环境的鲁棒性。

【专利附图】

【附图说明】
[0019] 图1为本发明实施例的方法流程图。

【具体实施方式】
[0020] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0021] 如图1所示，基于多说话人模型的噪声与说话人联合补偿方法，包括训练阶段和测试阶段两个部分。训练部分包括说话人聚类、多说话人GMM训练和多说话人HMM训练；测试部分包括GMM噪声补偿、说话人选择、HMM噪声补偿、HMM自适应；
[0022] 1、说话人聚类：
[0023] 根据语音库中各说话人的语音特性，对说话人进行聚类，用K均值算法将其划分为K类，得到K类说话人的训练语音。
[0024] 2、多说话人模型训练：
[0025] 对每类说话人的训练语音分别进行GMM训练和HMM训练，得到一个GMM和一组 HMM。GMM代表该类说话人的语音特性，用于对目标说话人的特性进行识别；每个HMM代表一个语音单元的语音分布，用于声学解码。
[0026] 3、GMM噪声补偿：
[0027] 根据非语音段提取的噪声均值μn和方差Σn，对每个GMM的均值μx和方差Σ!￡进行变换：

【权利要求】
1. 一种基于多说话人模型的噪声与说话人联合补偿方法，其特征在于，包括如下步骤： (1) 根据训练语音中各说话人的语音特性，对说话人进行聚类，划分训练语音，得到若干类说话人的训练语音； (2) 对每类说话人的训练语音分别进行GMM训练和HMM训练，得到一个GMM模型和一组 HMM模型； (3) 根据非语音段估得的噪声参数，对每个GMM的均值和方差进行噪声补偿，使之与含噪测试环境相匹配； (4) 用噪声补偿后的GMM对测试环境下目标说话人的自适应语音进行识别，判断其与哪类说话人的语音特性最接近，记录类序号，作为说话人选择的结果； (5) 根据GMM识别得到的说话人类序号，从多说话人声学模型中选取与目标说话人语音特性最接近的一组HMM模型，并根据噪声参数对其每个高斯单元的均值和方差进行变换，得到噪声补偿后的声学模型； (6) 根据目标说话人的自适应语音对选取的声学模型的每个HMM的参数进行说话人自适应，进一步调整其参数，使之与测试语音相匹配，得到测试环境声学模型。
2. 根据权利要求1所述的基于多说话人模型的噪声与说话人联合补偿方法，其特征在于：在目标说话人自适应中，通过对数谱域的二阶多项式回归逼近训练环境均值向量和测试环境均值向量之间的实际环境变换关系，回归参数通过最大期望算法从测试环境下的自适应语音中估计。
【文档编号】G10L17/16GK104485108SQ201410706129
【公开日】2015年4月1日申请日期:2014年11月26日优先权日:2014年11月26日
【发明者】吕勇申请人:河海大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕勇;
技术所有人：河海大学;
我是此专利的发明人