一种快速可在线应用的声道长度归整方法

文档序号：2830858阅读：346来源：国知局

专利名称：一种快速可在线应用的声道长度归整方法
技术领域：
本发明涉及语音识别技术中一种说话人声学特征归整方法，更具体地说，本发明涉及一种快速可在线应用的说话人声道长度归整方法。
背景技术：
语音是人的自然属性之一。由于说话人发音器官的生理差异以及后天形成的行为差异，在语音识别中说话人相关系统的性能要好于说话人无关系统。为了减小由于说话人差异而引起的说话人无关系统性能的下降，声道长度归整是一种常用的有效方法。声道长度归整是一种基于模型的特征归整技术，依赖于说话人声道长度归整模型。文献，H. Wakita "Normalization of Vowels by Vocal-Tract Length and its Application to Vowel Identification, " ICASSP77 (1977)，首次提出应用去除说话人声道长度引起共振峰频率漂移的思想来提高孤立元音的识别率。声道不同的位置和形状决定了语音的产生，文献，E. Eide et al. "A Parametric Approach to Vocal Tract Length Normalization," ICASSP96 (1996)，认为说话人声道最简单的模型是一个长度从声门到唇的均匀管子，而且是一端开口一端封闭。他们还给出了不同归整函数对最后识别性能的影响。基于这种均匀管道的模型，说话人声道长度的影响等于语音信号共振峰的中心频率乘以声道长度的倒数。通常说话人声道长度从女生的13cm左右到男生的18cm以上，这些变化对语音识别都是不利的。声道长度归整技术的思想就是找到某个归整函数把训练和测试的数据都变换到一个与说话人声道长度无关的数据域。基于管道模型的理论，共振峰随声道长度线性变化。大多数情况下归整函数只依赖于一个简单的特征归整因子。具体实施就是寻找每个说话人最佳归整因子，然后通过该归整因子对频率轴拉伸或压缩来消除说话人声道长度不同而带来的影响。声道长度归整技术的原理很简单，但是有效的具体实施是相当困难的。最大的挑战是如何从有限的数据中有效的估算出最佳的归整因子。传统相当多的方法是基于最大似然估计的两遍解码的方法，通过对归整前声学特征进行一遍解码得到说话人说话内容，用说话内容的文本信息和不同归整因子(通常是以一定歩长遍历)归整后的特征在声学模型上做强制性对齐，用似然值最大的归整因子作为该人的最佳归整因子。这种方法能取得很不错的效果，但是需要两遍解码时间。文献，L. Lee et al."Speaker Normalization using Efficient Frequency Warping Procedures," ICASSP96 (1996)，提出了一些较为成功的方法。对于训练数据，他们提出了一种跌代的方法，用一半训练数据训练一个声学模型，拿这个声学模型估算另外一半数据的归整因子，然后用归整后的数据在原来的声学模型上重新估算新的声学模型。测试的时提出了一种文本无关的方法，选用了归整因子相关的GMM (Gaussian Mixture Model)模型，省掉了第一遍解码时间。上述求归整因子方法都是说话人相关，文献，S.Wegmannet al. "Speaker Normalization on Conversational Telephone Speech" ICASSP96 (1996)，提出了一种快速的句子相关的声道长度归整方法，让声道长度归整方法可以在半离线下工作提供了可能。现在报道的方法都取得了很不错的识别效果，但是这些方法多少有一定的局限性，都需要一定量先验数据，所以只能工作在离线或者半离线的方式下，难以应用于实际的系统中。在实际的系统中，特别是在线的系统，说话人信息和说话的内容是未知的，而且系统不能容许比较长的延时，现有的方法中难以找到一个合适的解决方案，所以很难用上声道长度归整技术。

发明内容
本发明的目的在于克服已有技术的缺陷，提供一种让声道长度归整技术能应用在在线的语音识别系统中的快速可在线应用的声道长度归整方法。
本发明的目的是这样实现的-
本发明的快速可在线应用的声道长度归整方法，包括训练阶段和测试阶段，具体步骤如下
1) 在训练阶段训练一个与声道长度无关的归整后的声学模型；
2) 根据不同的归整因子对训练数据分类，训练多类GMM;
3) 测试时分段在多类GMM打分，快速计算声道长度归整因子；
4) 根据识别系统的实时性需求选择不同的段数，更新声道长度归整因子；
5) 用声道长度归整后的声学模型对归整后的声学特征解码。本发明的快速可在线应用的声道长度归整方法流程如图1所示。
在图1中，左边是声道长度归整声学模型训练部分流程，右边是测试部分流程。
其中声学模型训练部分训练中应用声道长度归整技术的目的是训练一个与说话人声道长度无关的声学模型，从而消除说话人声道长度的影响。训练声学模型时，由于训练的文本是已知的，主要面临的问题是未知的最佳归整因子和未知的模型参数。基于最大似然估计的方法求最佳归整因子时，需要用到归整后的声学模型，而现在没有归整后的模型。一般的做法就是认为最佳归整因子能通过某种函数事先算出，然后用最佳归整因子计算归整特征，然后训练声学模型。在实际应用中，本发明选用了单高斯声学模型来代替归整后的声学模型来算最佳归整因子，主要是认为单高斯声学模型描述的性能较混合高斯模型差一点，而更能描述语音信号的本来属性。用未归整的训练数据训练一个单高斯的声学模型，用该模型对不同的归整因子和标注文本做强制性对齐。归整因子通常在一定的范围(0.8 1.20)中以某种步长 (0.02)进行遍历。
本发明的方法中训练主要分为三步，具体如下
1) 用归整前的声学特征训练一个单高斯声学模型。
6。 ^ argmax(max尸(X |『；0)} ""
e" 、"j
其中《单高斯声学模型；r=l， ...， R说话人数目，X归整前的声学特征，『对应说话内容的标注文本。
2) 对于每个说话人选一个最佳归整因子。
ar = argmaxI J^;e。) (丄2)
a 、 ■ 乂
其中r^1， ...， R说话人数目，"/说话人r对应的最佳归整因子；Jf,"说话人r对应的用归整因子《归整后的声学特征；『,说话人r对应说话内容的标注文本。
3) 用归整后的声学特征训练声学模型W。
0'=argmaxJJmaxP(I， |^;<9) (1 3)
其中W归整后声学模型；本发明的方法中测试过程流程
与训练部分相比，测试时已经有归整后的声学模型，但是其中说话人的信息和说话内容及其最佳归整因子是未知的。原来一般的做法是说话人的信息可以通过聚
类得到，具体的说话内容可以先通过一遍解码，然后通过公式1.2计算出每个人最佳归整因子。但是在实际的在线系统中，这种处理方法计算量大且有延时，基本上是不可接受的。通常说话人的信息是不知道的而且是难以获得的，所以测试时算归整因子时一般以句子为单位。由于说话人的声道长度跟说话的具体内容没有关系，能通过说话人的语音直接得到说话人的声道长度归整因子。测试中，我们选用了文本无关的方法求最佳归整因子，就是不依赖说话人说话的内容而只根据相应的声学特征直接估算出最佳归整因子。首先，在训练中把归整前的特征根据它所对应的最佳归整因子分类，然后训练混合高斯模型(GMM) "a ，具体流程如图2所示
<formula>formula see original document page 8</formula> (1 4)
其中义a是归整前对应归整因子为"的声学特征。
其次，在识别过程中，用归整前声学特征在混合高斯模型上的最大似然值对应
的归整因子作为它的最佳归整因子a':
<formula>formula see original document page 8</formula>
其中。，《， A，《， a^分别为模型A的权重，均值，方差。然后，对归整后的特征解码
『 a 其中『是识别结果，X"为用归整因子a归整后的特征。
由于语音中的静音段不含有任何说话人声道长度的信息，它们甚至可能影响最
佳归整因子的计算。所以在训练GMM模型时根据语音能量的大小去除了训练数据
中的静音段。测试中计算归整因子如图3所示，初试化"=1，每隔11 = 5帧判断
是否是静音段，如果不是静音，在GMM模型上算累积概率，累积概率最大值作为此时的归整因子。通过对所隔帧数n的选择，可以控制系统的延时和实时性。
本发明的优点在于
本发明的方法可以根据识别系统对实时性的要求，对测试语音可以选择分段的长度，从而让声道长度归整技术应用于在线的系统中。分段的目的就是消除判断不准确的静音的影响，又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值，同时还可以根据段的情况加不同的权重。

图1是声道长度归整系统；
图2是GMM训练流程；
图3是测试时的归整因子计算流程。
具体实施例方式
下面结合附图和实施例对本发明进行详细地说明。
参考图l，训练阶段，得到一个声道长度无关的声学模型和测试时用于快速算归整因子的GMM模型。
1. 用归整前的声学特征一个单高斯的声学模型；
^三ai"gmax(maxP(II『;。〉，训练的具体流程同原来声学模型的过程，区
别是在EM跌代的过程中没有进行高斯分裂，最后的模型是和原来的同状态单高斯模型。单高斯声学模型描述的性能较混合高斯模型差一点，而更能描述语音信号的本来属性。用这个单高斯模型计算训练数据每个人所对应的最佳归整因子。
2. 在单高斯声学模型上计算每个人的归整因子，用最佳归整因子提取声学特征；根据训练数据标注文本，整理出说话人相关的列表。用单高斯声学模型对每个人
的不同归整因子数据做强制性对齐，选取似然概率最大的作为该人的最佳归整因子。 "r-argmax; (v^"lf^;A)，"范围是从0.80到L20，步长是o.02。
3. 用归整后声学特征训练声学模型。
^-arg「axnm严^"' ,训练具体流程同原来声学模型的训练过程。
4. 根据不同的归整因子训练多类GMM，如l-2所示。在训练GMM前根据语音中能量的大小去掉了语音中的可能是静音部分。由于归
整因子在0.88以下和1.12以上数据非常少，在训练GMM时仅选取了 0.88-1.12段作
为不同的类。
测试阶段
1)语音信号端点检测，分句；
根据声学环境的变化点将音频流切分成声学特征单一的片段并使用静音跟踪算法将较长的片段切分为适合识别的句子。
2) 初始化归整因子为1;
由于开始没有任何先验知识，我们选用了归整因子为1，就是不做声道长度归整。
3) 每5帧，判断静音或语音，如果是语音则在GMM上算累积似然值，更新现在最佳归整因子；
语音中的静音段不含有任何说话人声道长度的信息，它们甚至可能影响最佳归整因子的计算。每隔n-5帧判断是否是静音段，如果不是静音，在GMM模型上算累积概率，累积概率最大值作为此时的归整因子。分段的目的就是消除判断不准确的静音的影响，又不至于把连续语音按帧拆的太分散，同时还可以根据段的情况加不同的权重。
另外，通过对所隔帧数n (3<n<15)的选择，可以控制系统的实时性。
4) 如果离线系统，最后累积概率最大的归整因子作为该句归整因子；如果在线系统，大于设定的长度，用此时累积概率最大的归整因子归整；
5) 用归整后的声学特征解码。
权利要求
1、一种快速可在线应用的声道长度归整方法，包括训练阶段和测试阶段，具体步骤如下1)在训练阶段训练一个与声道长度无关的归整后的声学模型；2)根据不同的归整因子对训练数据分类，训练多类混合高斯模型；3)测试时分段在多类混合高斯模型打分，快速计算声道长度归整因子；4)根据识别系统的实时性需求选择不同的段数，更新声道长度归整因子；5)用声道长度归整后的声学模型对归整后的声学特征解码。
2、按权利要求l所述的快速可在线应用的声道长度归整方法，其特征在于，所述训练阶段的流程如下1) 用归整前的声学特征训练一个单高斯声学模型eo ^ argmax(max尸(义|『；<9)} nn其中《为单高斯声学模型；r=l，...， R为说话人数目，义为归整前的声学特征，『为对应说话内容的标注文本；2) 在单高斯声学模型上计算每个人的归整因子，用最佳归整因子提取声学特征，对于每个说话人选一个最佳归整因子-<formula>formula see original document page 2</formula>|(1 2) 其中r-l， ...， R为说话人数目，a,为说话人r对应的最佳归整因子；为说话人r对应的用归整因子a归整后的声学特征；『,为说话人r对应说话内容的标注文本；3) 用归整后的声学特征训练声学模型6>':<9'=argmax]"f max尸(义，"3、其中w为归整后声学模型。
3、按权利要求2所述的快速可在线应用的声道长度归整方法，其特征在于，所述归整因子a的范围是0.80 1.20，步长是0.02。
4、按权利要求2所述的快速可在线应用的声道长度归整方法，其特征在于，所述归整因子a的范围是0.88 U2。
5、按权利要求l所述的快速可在线应用的声道长度归整方法，其特征在于，所述测试阶段的流程如下首先，在训练中把归整前的特征根据它所对应的最佳归整因子分类，然后训练混合高斯模型汐a:<formula>formula see original document page 3</formula>其中Xa是归整前对应归整因子为a的声学特征；其次，在识别过程中，用归整前声学特征在混合高斯模型上的最大似然值对应的归整因子作为它的最佳归整因子a':<formula>formula see original document page 3</formula>其中。，《，八，《， t^"分别为模型&的权重，均值，方差; 然后，对归整后的特征解码-<formula>formula see original document page 3</formula>其中『是识别结果，X"为用归整因子a归整后的特征。
6、按权利要求5所述的快速可在线应用的声道长度归整方法，其特征在于，所述测试阶段的具体步骤如下1)语音信号端点检测，分句根据声学环境的变化点将音频流切分成声学特征单一的片段并使用静音跟踪算法将较长的片段切分为适合识别的句子；2) 初始化归整因子为1;3) 每n帧，判断静音或语音，如果是语音则在混合高斯模型上算累积似然值，更新现在最佳归整因子；4) 如果离线系统，最后累积概率最大的归整因子作为该句归整因子；如果在线系统，大于设定的长度，用此时累积概率最大的归整因子归整；5) 用归整后的声学特征解码。
7、按权利要求6所述的快速可在线应用的声道长度归整方法，其特征在于，所述帧数11的范围是3<11<15。
全文摘要
本发明涉及一种快速可在线应用的声道长度归整方法，包括如下步骤1)在训练阶段训练一个与声道长度无关的归整后的声学模型；2)根据不同的归整因子对训练数据分类，训练多类GMM；3)测试时分段在多类GMM打分，快速计算声道长度归整因子；4)根据识别系统的实时性需求选择不同的段数，更新声道长度归整因子；5)用声道长度归整后的声学模型对归整后的声学特征解码。本发明的方法可以根据识别系统对实时性的要求，对测试语音可以选择分段的长度，从而让声道长度归整技术应用于在线的系统中。分段是为了消除判断不准确的静音的影响，又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值，同时还可以根据段的情况加不同的权重。
文档编号G10L15/00GK101447182SQ20081009798
公开日2009年6月3日申请日期2008年5月21日优先权日2007年11月28日
发明者刘赵杰, 潘接林, 赵庆卫, 颜永红申请人:中国科学院声学研究所;北京中科信利技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：颜永红;刘赵杰;赵庆卫;潘接林
技术所有人：中国科学院声学研究所;北京中科信利技术有限公司
我是此专利的发明人