一种基于GMMToken配比相似度校正得分的说话人识别方法

文档序号：2827792阅读：351来源：国知局

一种基于GMM Token配比相似度校正得分的说话人识别方法
【专利摘要】本发明公开了一种基于GMM Token配比相似度校正得分的说话人识别方法，该方法通过计算测试语音和目标说话人训练语音在UBM上的GMM Token配比相似度，利用相似度对测试语音在所有目标说话人模型上的似然得分进行加权校正，使得校正后的似然得分更具可比性；即在输出得分之前，对得分的可靠性进行评估，对那些不可靠的得分进行惩罚，从而降低部分冒认者的得分，提高系统识别性能。
【专利说明】-种基于GMM Token配比相似度校正得分的说话人识别方法

【技术领域】
[0001] 本发明属于语音识别【技术领域】，具体涉及一种基于GMM Token配比相似度校正得分的说话人识别方法。

【背景技术】
[0002] 说话人识别技术是利用信号处理和模式识别的方法，根据说话人的语音识别其身份的技术，主要包括两个步骤：说话人模型训练和语音测试。
[0003] 目前，说话人语音识别采用的主要特征包括梅尔倒谱系数（MFCC)、线性预测编码倒谱系数（LPCC)、感觉加权的线性预测系数（PLP)。说话人语音识别的算法主要包括矢量量化法（VQ)、通用背景模型法（GMM-UBM)、支持向量机法（SVM)等等。其中，GMM-UBM在整个说话人语音识别领域应用非常广泛。
[0004] 在基于GMM-UBM说话人识别方法的测试语音识别阶段，首先计算测试语音在所有说话人模型上的似然得分，然后将取得最高得分的目标说话人模型作为测试语音的说话人。然而由于测试语音的得分来源不同，导致测试得分并不具备绝对的可比性，因此传统的方法得出的识别结果可靠性不高。

【发明内容】

[0005] 针对现有技术所存在的上述技术问题，本发明提供了一种基于GMM Token配比相似度校正得分的说话人识别方法，通过利用测试语音和目标说话人的训练语料的GMM Token配比相似度对测试语音在该目标模型上的得分作加权校正，降低部分冒认者的得分，提商系统的识别性能。
[0006] 一种基于GMM Token配比相似度校正得分的说话人识别方法，包括如下步骤： [0007] (1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型 UBM(UniversalBackgroundModel);
[0008] (2)针对任一个目标说话人，利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM(GaussianMixtureModel)，并计算其训练语音特征在通用背景模型UBM上的GMM Token配比向量GTR ;依此遍历所有目标说话人；
[0009] (3)接收测试语音，计算测试语音特征在每一目标说话人对应的说话人模型GMM 上的似然得分以及在通用背景模型UBM上的GMM Token配比向量GTR ;
[0010] ⑷计算测试语音特征与每一目标说话人训练语音特征关于GMM Token配比向量 GTR之间的相似度，根据相似度对所有似然得分进行加权校正；对校正后的最高似然得分进行阈值过滤后，识别确定该最高似然得分所对应的目标说话人即为测试语音的真正说话人。
[0011]所述的步骤（1)中米用 EM 算法（Expectation-maximization algorithm，简称期望最大算法）训练生成通用背景模型UBM，其为混合阶数为M的高斯混合模型，并以λΜ表示，M为大于1的自然数。
[0012] 所述的步骤（2)中，针对任一个目标说话人，提取其训练语音中的短时语音特征，根据该语音特征利用MP算法（最大后验概率算法）在通用背景模型UBM上自适应均值生成对应的说话人模型GMM，其为混合阶数为M的高斯混合模型；对于N个目标说话人对应的说话人模型GMM以λ tl，Xt2，…，λ tN表示，N为大于1的自然数。
[0013] 所述的步骤（2)和步骤（3)中，计算特定语音特征在通用背景模型UBM上的GMM Token配比向量GTR的具体过程如下；特定语音为训练语音或测试语音，特定语音特征以X =(X 1, X2, ...，X1J表示，Xi为特定语音的第i巾贞特征向量；
[0014] 首先，将特定语音特征转换成一个GMM Token序列T如下：
[0015] T = It1, t2, · · ·，tj 心 e {1，2, · · ·，Μ}
[0016] 其中：&为GMM Token序列T中第i个Token元素，其取值为通用背景模型UBM中的一高斯分量标号，M为通用背景模型UBM的混合阶数，i为自然数且1彡i彡η，η为特定语音的总特征帧数；
[0017] 然后，根据以下公式统计通用背景模型UBM中每一个高斯分量标号在GMM Token 序列T中出现的频率，即GMM Token配比分量fm ;
[0018]

【权利要求】
1. 一种基于GMM Token配比相似度校正得分的说话人识别方法，包括如下步骤： (1) 利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM ; (2) 针对任一个目标说话人，利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM，并计算其训练语音特征在通用背景模型UBM上的GMM Token配比向量GTR ;依此遍历所有目标说话人； (3) 接收测试语音，计算测试语音特征在每一目标说话人对应的说话人模型GMM上的似然得分以及在通用背景模型UBM上的GMM Token配比向量GTR ; (4) 计算测试语音特征与每一目标说话人训练语音特征关于GMM Token配比向量GTR 之间的相似度，根据相似度对所有似然得分进行加权校正；对校正后的最高似然得分进行阈值过滤后，识别确定该最高似然得分所对应的目标说话人即为测试语音的真正说话人。
2. 根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤（1)中采用EM算法训练生成通用背景模型UBM，其为混合阶数为Μ的高斯混合模型，并以λ υΒΜ表示，Μ为大于1的自然数。
3. 根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤（2)中，针对任一个目标说话人，提取其训练语音中的短时语音特征，根据该语音特征利用MAP算法在通用背景模型UBM上自适应均值生成对应的说话人模型GMM，其为混合阶数为Μ的高斯混合模型；对于Ν个目标说话人对应的说话人模型GMM以λ tl, λ t2,…，λ tN表示，Μ和Ν均为大于 1的自然数。
4. 根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤⑵和步骤（3) 中，计算特定语音特征在通用背景模型UBM上的GMM Token配比向量GTR的具体过程如下；特定语音为训练语音或测试语音，特定语音特征以X = {χρ χ2,...，χη}表示，Xi为特定语音的第i巾贞特征向量；首先，将特定语音特征转换成一个GMM Token序列T如下： T = {t1； t2,..., tj ti e {1, 2,..., M} 其中：h为GMM Token序列T中第i个Token元素，其取值为通用背景模型UBM中的一高斯分量标号，Μ为通用背景模型UBM的混合阶数，i为自然数且1彡i彡η，η为特定语音的总特征帧数；然后，根据以下公式统计通用背景模型UBM中每一个高斯分量标号在GMM Token序列 T中出现的频率，即GMM Token配比分量f；; J m ft 其中：Nm为高斯分量标号m在GMM Token序列T中出现的次数，fm为高斯分量标号m在 GMM Token序列T中出现的频率，m为自然数且1彡m彡Μ ; 最后，根据GMM Token配比分量fm，构建特定语音特征在通用背景模型UBM上的GMM Token配比向量GTR如下： GTR = [fi, f2,. . . , fx]T 对于N个目标说话人的训练语音特征，则依据上述流程计算出对应的GMM Token配比向量GTRtl，GTRt2，…，GTRtN，N为大于1的自然数；对于任一测试语音特征)?，则依据上述流程计算出对应的GMM Token配比向量GTRe。
5. 根据权利要求4所述的说话人识别方法，其特征在于：所述的Token元素 t表示为最有可能生成对应帧特征向量Xi的高斯分量标号，其表达式如下： = arg max 〇JmpiU(x;) \<m<M 其中：ωπ*通用背景模型UBM中第m个高斯分量对应的权重，pm(Xi)为特征向量\在通用背景模型UBM中第m个高斯分量上的似然得分，即特征向量Xi由通用背景模型UBM中第m个高斯分量生成的概率。
6. 根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤⑷中根据相似度通过以下关系式对所有似然得分进行加权校正： Q . -\Smre⑷ GTRS㈣>ThrmMd·. Six)f€rl f - < , , ,ι -1,2,··*,N h I c* x Scorelgi, G / nbelgl < /hreshotdGms 其中：对于任一目标说话人tgi，GTRSetgiS测试语音特征与该目标说话人训练语音特征关于GMM Token配比向量GTR之间的相似度，Scoretgi为测试语音特征在该目标说话人对应的说话人模型GMM上的似然得分，Thr esh〇ldeTKS为设定的相似度阈值，Scorertgi为校正后的似然得分，c为设定的惩罚因子。
7. 根据权利要求1或6所述的说话人识别方法，其特征在于：所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标说话人训练语音特征的GMM Token配比向量 GTR之间的夹角余弦值，或采用测试语音特征的GMMToken配比向量GTR与目标说话人训练语音特征的GMM Token配比向量GTR之间的欧式距离。
8. 根据权利要求7所述的说话人识别方法，其特征在于：当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标说话人训练语音特征的GMM Token配比向量GTR 之间的夹角余弦值时，则惩罚因子c即采用该夹角余弦值。
9. 根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤（4)中使校正后的最高似然得分与预设的得分阈值进行比较，若校正后的最高似然得分小于等于该得分阈值，则表明测试语音的真正说话人不属于任一目标说话人；若校正后的最高似然得分大于该得分阈值，则确定该最高似然得分所对应的目标说话人为测试语音的真正说话人。
【文档编号】G10L17/02GK104240706SQ201410464562
【公开日】2014年12月24日申请日期:2014年9月12日优先权日:2014年9月12日
【发明者】杨莹春, 吴朝晖, 邓立才申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨莹春;吴朝晖;邓立才
技术所有人：浙江大学
我是此专利的发明人

上一篇：声音同时处理装置、方法及程序的制作方法
上一篇：用于固定定型钢琴围板的装置制造方法