快速信道补偿的声纹认证系统及方法

文档序号：2823317阅读：367来源：国知局

专利名称：快速信道补偿的声纹认证系统及方法
技术领域：
本发明涉及一种声纹认证系统，尤其涉及一种快速信道补偿的声纹认证系统；此外，本发明还涉及一种快速信道补偿的声纹认证方法。
背景技术：
声纹识别(Voic^print recognition), 又称为说话人识别 (SpeakerRecognition)，是一项根据语音波形中反映说话人生理、心理和行为特征的语音参数，自动识别说话人身份的技术。由于先天声道结构的差异以及后天养成的发音习惯的不同，导致每个人的声音都具有独特性，根据这一独特性，可以准确的对人的身份加以区分。在声纹认证(或声纹识别)系统中，训练语音和测试语音的失配是制约当前系统性能提高的主要因素。语音的失配来源于多种情况不同的传输通道，录音设备和环境噪声的影响以及说话人生理情绪的变化的影响。在基于统计的GMM-UBM模型结构的系统中，由于失配的影响，训练语音得到的统计模型不能很好的描述测试情况下语音的参数分布，造成了系统性能的急剧下降。目前为解决声纹认证系统中上述失配问题，有特征映射(FeatureMapping)等参数级补偿方法。特征映射需要已知通道标记的语音训练通道分类器及通道映射规则，利用分类器的判决结果进行通道补偿。在通道种类比较少和简单情况下，此方法能够取得一定的效果。在复杂环境中，基于因子分析(factor analysis)的失配补偿方法取得了很好的效果，该方法分别估计训练语音和测试语音的失配信息因子，根据失配信息因子消除训练语音和测试语音间的失配。不需要通道分类器判断语音的通道类别，实现对语音失配的连续综合的补偿。因子分析方法在NIST ‘06数据库上的结果，错误率降低约57%，由此可见因子分析方法对提高声纹认证系统在信道失配方面有着很好的效果。但基于因子分析方法的失配补偿需要估计每帧语音参数对UBM的所有混合度的 EM统计量，和特征映射方法相比，计算量太大，训练和测试时间很长，限制了其在实际中的应用。表1为基线系统和采用因子分析的声纹认证系统的结果对比，采用因子分析的系统很好的解决了训练与测试环境及信道的失配，其等误识率由8. 94%降为3. 76%，但是平均所需的时间由1. 26秒增加为9. 53秒，这样就限制了因子分析在实际应用领域的应用。表 1
所需时间(秒)EER (% )基线系统1. 268. 94因子分析9. 533. 7
发明内容
本发明要解决的技术问题在于提供了一种快速信道补偿的声纹认证系统，该系统在实现失配补偿的同时，计算量有明显降低，从而能显著提高训练速度。为此，本发明还提供快速信道补偿的声纹认证方法。本发明为解决上述技术问题提供的技术方案是一种快速信道补偿的声纹认证系统，该声纹认证系统包括高斯选择器、选择UBM混合度模块、话者因子或通道因子模块、UBM 模型和话者模型；所述高斯选择器用于对UBM模型的各个高斯分量进行分类；所述选择UBM 混合度模块用于利用高斯选择器为训练数据的每帧观察矢量选择距离较近的混合度计算零阶或一阶统计量；所述话者因子或通道因子模块用于根据上述零阶或一阶统计量来估计话者因子或通道因子，根据该话者因子或通道因子来建立话者模型。此外，本发明还提供一种快速信道补偿的声纹认证方法，包括如下步骤1)构建高斯选择器，该高斯选择器对UBM模型的各个高斯分量进行分类；2)经高斯选择器分类的高斯分量和训练数据的每帧观察矢量计算后验概率，选择其中后验概率最大的若干组高斯分量；3)计算当前的观察矢量和UBM模型中属于选择出的这若干组高斯分量的后验概率，其余的高斯分量的后验概率直接为零；4)根据步骤幻计算出零阶或一阶统计量来估计话者因子或通道因子；5)根据该话者因子或通道因子来建立话者模型。与现有技术相比，本发明的有益效果如下1.本发明采取基于因子分析的连续失配补偿方法，更符合实际的失配情况，失配补偿后的系统性能提高也更加明显。2.本发明提出了基于高斯选择器的快速失配补偿算法，为每帧观察矢量选择对应的高斯分量计算EM统计量，降低因子分析算法的复杂度，训练和测试速度有数倍提高。3.为了在保证快速失配补偿算法提高训练和测试速度的同时，更有效的提高失配补偿后的系统性能，本发明提出了基于Top-N策略的混合度选择方案，提高了高斯选择器筛选UBM高斯分量和快速失配补偿算法的补偿精度，进一步提高失配补偿后的系统性能。

下面结合附图与具体实施方式
对本发明作进一步详细的说明图1是本发明中一帧语音矢量对UBM所有混合度的后验概率示意图；图2是本发明的快速信道补偿的声纹认证系统的结构框图。
具体实施例方式本发明提出将因子分析与高斯选择(Gaussian selection)方法相结合的失配补偿方法，对于每帧矢量利用高斯选择器对UBM的混合度进行选择，只计算对EM(零阶或一阶)统计量贡献较大的混合度，降低计算EM统计量的计算量。在实现失配补偿的同时，计算量有明显降低，训练速度提高到原来的10倍，而性能几乎没有明显下降。图1所示的是一帧语音观察矢量Ot对UBM所有混合度的后验概率输出γ (Ot)0 由图1可以看出，语音矢量只对和其在空间中分布比较近的高斯分量的后验概率输出比较大，相距比较远的混合度的后验概率都是接近于零的很小值。而且只有那些后验概率较大的混合度才对EM统计量有贡献，而且这些混合度的个数远小于UBM混合度的总个数。因此，如果只计算这些后验概率较大的混合度，可以显著降低因子分析方法中EM统计量的计算量。但是，每帧语音矢量对应的后验概率较大的混合度是不同的。图2是基于高斯选择和因子分析方法的目标话者模型训练框图，虚线框所示的是利用高斯选择器为每帧语音矢量快速选择距离较近的混合度计算EM统计量。如图2所示，本发明的快速信道补偿的声纹认证系统，包括高斯选择器、选择UBM混合度模块、话者因子或通道因子模块、UBM模型和话者模型；所述高斯选择器用于对UBM模型的各个高斯分量进行分类；所述选择UBM混合度模块用于利用高斯选择器为训练数据的每帧观察矢量选择距离较近的混合度计算零阶或一阶统计量；所述话者因子或通道因子模块用于根据上述零阶或一阶统计量来估计话者因子或通道因子，根据该话者因子或通道因子来建立话者模型，以实现话者的声纹认证。通道因子是利用很多人在不同信道下的语音数据训练得到的一个因子矩阵，该矩阵对不同信道的特点进行了细致的描述，在训练及测试时，利用该矩阵可以对经不同信道传输的语音信号进行有效补偿，以减少由于不同信道之间的差异而导致系统识别性能的下降。而话者因子则是利用很多人的不同次发音训练得到的一个因子矩阵，该矩阵对说话人(话者)发音的时变性进行了细致的描述，在训练及测试时，利用该矩阵可以对由于说话人不同次发音特点的变化而导致识别系统性能的下降。本发明快速失配补偿的算法流程如下1)对UBM模型的各个高斯分量按照相似度进行聚类，构造高斯选择器。本发明通过对UBM高斯分量的聚类，将相似的一组高斯分量合并成高斯选择器的一个高斯分量。2)对于训练和测试语音的每帧观察矢量，首先和经高斯选择器分类的高斯分量计算后验概率，选择其中后验概率最大的若干组高斯分量，即采用Top-N策略从所有高斯分量中选择出N个贡献最大的高斯分量。3)计算当前的观察矢量和UBM模型中属于选择出的这若干组高斯分量的后验概率，其余的高斯分量的后验概率直接为零。通过高斯选择器的选择，每一帧语音矢量只需要计算K+队次后验概率，计算量远小于因子分析方法中和所有高斯分量都计算后验概率的计算量。以UBM的混合度为512，分成16类为例，假设UBM各个混合度平均的分布到各个类中，则CUBM的计算量为16+512/16 =48次，降低为原来方法的1/10左右。表2为基线系统、因子分析和快速信道补偿的声纹认证系统的结果对比。表权利要求
1.一种快速信道补偿的声纹认证系统，其特征在于，该声纹认证系统包括高斯选择器、选择UBM混合度模块、话者因子或通道因子模块、UBM模型和话者模型；所述高斯选择器用于对UBM模型的各个高斯分量进行分类；所述选择UBM混合度模块用于利用高斯选择器为训练数据的每帧观察矢量选择距离较近的混合度计算零阶或一阶统计量；所述话者因子或通道因子模块用于根据上述零阶或一阶统计量来估计话者因子或通道因子，根据该话者因子或通道因子来建立话者模型。
2.如权利要求1所述的快速信道补偿的声纹认证系统，其特征在于，所述话者因子是利用很多人的不同次发音训练得到的一个因子矩阵；所述通道因子是利用很多人在不同信道下的语音数据训练得到的一个因子矩阵。
3.如权利要求1所述的快速信道补偿的声纹认证系统，其特征在于，所述高斯选择器对UBM模型的各个高斯分量按照相似度进行分类，通过对UBM模型的各个高斯分量的分类，将相似的一组高斯分量合并成高斯选择器的一个高斯分量。
4.如权利要求1所述的快速信道补偿的声纹认证系统，其特征在于，所述选择UBM混合度模块的具体处理方法如下首先，计算训练数据的每帧观察矢量和经高斯选择器分类的高斯分量的后验概率，选择其中后验概率最大的若干组高斯分量；然后，计算当前的观察矢量和选择出的这若干组高斯分量的后验概率，其余的高斯分量的后验概率直接为零。
5.一种快速信道补偿的声纹认证方法，其特征在于，包括如下步骤1)构建高斯选择器，该高斯选择器对UBM模型的各个高斯分量进行分类；2)经高斯选择器分类的高斯分量和训练数据的每帧观察矢量计算后验概率，选择其中后验概率最大的若干组高斯分量；3)计算当前的观察矢量和UBM模型中属于选择出的这若干组高斯分量的后验概率，其余的高斯分量的后验概率直接为零；4)根据步骤幻计算出零阶或一阶统计量来估计话者因子或通道因子；5)根据该话者因子或通道因子来建立话者模型。
6.如权利要求5所述的快速信道补偿的声纹认证方法，其特征在于，步骤1)中，所述高斯选择器对UBM模型的各个高斯分量进行分类，通过对UBM模型的各个高斯分量的分类，将相似的一组高斯分量合并成高斯选择器的一个高斯分量。
全文摘要
本发明公开了一种快速信道补偿的声纹认证系统，包括高斯选择器、选择UBM混合度模块、话者因子或通道因子模块、UBM模型和话者模型；所述高斯选择器用于对UBM模型的各个高斯分量进行分类；所述选择UBM混合度模块用于利用高斯选择器为训练数据的每帧观察矢量选择距离较近的混合度计算零阶或一阶统计量；所述话者因子或通道因子模块用于根据上述零阶或一阶统计量来估计话者因子或通道因子，根据该话者因子或通道因子来建立话者模型。此外，本发明还公开了一种快速信道补偿的声纹认证方法。本发明在实现失配补偿的同时，计算量有明显降低，从而能显著提高训练速度。
文档编号G10L15/10GK102129859SQ201010027299
公开日2011年7月20日申请日期2010年1月18日优先权日2010年1月18日
发明者黄伟申请人:盛乐信息技术(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄伟
技术所有人：盛乐信息技术(上海)有限公司
我是此专利的发明人

上一篇：一种变压缩率音频数据压缩算法的制作方法
上一篇：一种乐器力度键盘的光电装置的制作方法