基于混合t模型的说话人识别方法

文档序号：2836840阅读：744来源：国知局

专利名称：基于混合t模型的说话人识别方法
技术领域：
本发明涉及信号处理和模式识别，主要是一种基于混合t模型的说话人识别方法。

背景技术：
说话人识别技术是指利用信号处理和模式识别方法，根据说话人的语音识别其身份的技术。说话人识别包括两个步骤，包括模型训练和测试。其中，模型训练是指对说话人的语音特征建模的过程。如果要取得良好的识别性能，需要考虑建模的模型类型和模型参数的训练两个方面。模型类型的选择方法和语音数据的分布有关，目前常用的说话人模型类型有混合高斯模型(Douglas A.Reynolds，Richard C.Rose，“Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Models”，IEEETRANSACTIONS ON SPEECH AND AUDIO PROCESSING，VOL.3，no.1，pp.72-83，JANUARY 1995.)和码本模型。
由于语音数据有较大的边缘分布，高斯混合模型不能很好的对边缘数据建模。

发明内容
本发明提出了一种基于混合t模型的说话人识别方法。该方法采用混合t模型为说话人的语音特征空间建模，是一种新的说话人模型，t分布又可称为学生分布，混合t分布是有限数量的t分布的线性组合。
一种基于混合t模型的说话人识别方法，包括如下步骤 1)、特征提取采集待识别的语音信号，对音频信号预处理，预处理分为采样量化，去零漂，预加重和加窗4个步骤。
对预处理后的语音信号进行特征提取，本方法可以采用的特征提取方法为基于美尔系数的特征提取方法、基于美尔倒谱系数(MFCC)的特征提取方法、基于线性预测倒谱系数的特征提取方法(LPCC)中的一种或多种。
关于预处理中的4个步骤、基于美尔系数、基于美尔倒谱系数(MFCC)的特征提取方法以及基于线性预测倒谱系数的特征提取方法均可参见JOSEPH P.CAMPBELL，JR.的“Speaker RecognitionA Tutorial”，《PROCEEDINGS OF THE IEEE》(VOL.85，NO.9，pp.1437-1462，SEPTEMBER 1997)。
采用不同的提取方法，可分别得到语音信号的美尔特征、美尔倒谱特征或线性预测倒谱特征。每帧特征可用xj表示，是一个p维的向量。
2)、说话人建模采用混合t模型对语音特征建模，根据说话人的语音训练出其混合t模型的参数；混合t模型是M个t分布的线性组合，可以表示为其中，x是一个p维的向量，即向量的维数为p(整数)； wi表示每个t分布的混合权重，必须满足 ti(x)为t分布，表示为其中，μi，∑i，γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度，x同上是一个p维的向量，Γ表示gamma方程，其定义如下 x同上是一个p维的向量；根据上述表述，可由参数λ(λ＝{wi，μi，∑i，γi}，i＝1，...，M)表示根据某个说话人的语音训练的混合t模型。在模型参数的训练过程中，首先提取语音特征xj(j＝1，...，n)，然后估计λ的值让p(x)值最大。
3)、测试采用测试语音的后验概率表示得分，用于识别过程。
根据贝叶斯理论，步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型(λt)上的得分表示为其中，xi表示待识别的语音信号的特征，n表示特征的数目。
当输入的待识别语音为X＝(x1，x2，...，xn)，说话人的模型为λ1，λ2，...，λS。在说话人鉴别中，其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中，需要设定一个阀值，如果得分高于该阀值就被接受；否则被拒绝。
本发明有益的效果是采用混合t模型对说话人语音特征空间建模，提出了一种EM算法训练t混合模型的参数，提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候，混合t分布比高斯混合分布更有鲁棒性。

具体实施例方式 第一部分、特征提取首先对音频信号预处理，预处理分布分为采样量化，去零漂，预加重和加窗四个部分。
对预处理后的语音信号进行特征提取，本实施例采用美尔倒谱系数，提取美尔倒谱系数的方法是先采用美尔滤波器对上述频谱进行滤波，再采用离散余弦变化得到特征。
构建美尔滤波器可采用现有技术，例如采用如下步骤 1)计算梅尔域刻度 p表示需计算的美尔刻度的个数； 2)计算梅尔域刻度Mi处对应的频域刻度 3)计算每个梅尔域通道φj上的对数能量谱Ej
其中jj(k)表示梅尔域通道φj的权重，

其中k为滤波器的个数。
第二部分、模型训练混合t模型是M个t分布的线性组合，可以表示为其中，x是一个p维的向量，wi表示每个t分布的混合权重，必须满足ti(x)表示t分布，定义为 t分布又称为学生分布，t分布有如下特征 1.以0为中心，左右对称的单峰分布； 2.t分布是一簇曲线，其形态变化与自由度大小有关。自由度越小，t分布曲线越低平；自由度越大，t分布曲线越接近标准正态分布(u分布)曲线。
其中，μi，∑i，γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度，Γ表示gamma方程，其定义如下根据上述表述，可由参数λ(λ＝{wi，μi，∑i，γi}，i＝1，...，M)表示根据某个说话人的语音训练的混合t模型。在模型参数的训练过程中，首先提取语音特征xj(j＝1，...，n)，然后估计λ的值让p(x)值最大。
训练过程是迭代方法求得最后局部最优结果的过程，分为两个步骤E步骤和M步骤。在每次迭代中，都是根据上一次的结果λk估计本次的参数λk+1。
E步骤首先，计算xj属于第ith个分量的概率
然后，计算

时的条件概率
最后，计算p(X|λk)。如果|log(p(X|λk))-log(p(X|λk-1))|<δ，循环将被停止，λk就是最后的输出结果。δ被设定成一个接近于零的正数，比如δ＝1.0*10-6。如果不成立，执行下面的步骤。
M步骤混合权重

采用后验概率的平均值表示均值μi和方差∑i更新为估计自由度

的过程就是求解非线性方程其中并且(poly-gamma函数)。该方程可以采用牛顿迭代法(T.F.Coleman，Y.Li，“On the Convergence of ReflectiveNewton Methods for Large-Scale Nonlinear Minimization Subject to Bounds，”Mathematical Programming，Vol.67，Number 2，pp.189-224，1994.)求解。
第三部分、测试根据贝叶斯理论，如果输入的语音为X＝(x1，x2，...，xn)，说话人的模型为λ1，λ2，...，λS。那么对于X在模型λi上的得分即待识别的语音信号的特征在某个说话人的混合t模型上的得分表示为在说话人鉴别中，其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中，需要设定一个阀值，如果得分高于该阀值就被接受；否则被拒绝。
贝叶斯理论及t分布均可参见盛骤，谢式千，潘承毅，《概率论与数理统计》(第三版)，高等教育出版社。
效果测试实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人，其中女性23人。每个说话人要在中性情感情况下说出5个单词和20句语句3遍。
实验中，采用中性的20句话的前5句的三遍，一共15句话用于训练，组成训练语音集。后15句语音(三遍)用于测试，组成测试语音集合(共15*3*68)。实验中，模拟的说话人鉴别的过程，共有两组实验 1、高斯混合模型实验采用传统的基于高斯混合模型的说话人识别方法。采用的是16阶的高斯混合模型。
2、T混合模型实验采用本专利中的基于t混合分布的说话人识别方法。采用16阶的t混合模型。
实验1和实验2的识别率分别为94.03％和95.81％，说明本发明的t混合模型要优于高斯混合模型。
权利要求
1、一种基于混合t模型的说话人识别方法，包括如下步骤
1)、特征提取采集待识别的语音信号，对音频信号预处理，对预处理后的语音信号进行特征提取，得到语音信号的特征；
2)、说话人建模采用混合t模型对语音特征建模，根据说话人的语音训练出其混合t模型的参数；
所述的混合t模型为
其中，ti(x)表示t分布，x是一个p维的向量，wi表示每个t分布的混合权重，且满足ti(x)定义为
其中，μi，∑i，γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度，Γ表示gamma方程，其定义如下
3)、测试计算步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型上的得分，通过得分与阀值的比较，得到语音信号的识别结果，得分表示为
其中，xi表示待识别的语音信号的特征，n表示特征的数目，
表示混合t模型。
2、如权利要求1所述的基于混合t模型的说话人识别方法，其特征在于对预处理后的语音信号进行特征提取采用基于美尔系数的特征提取方法、基于美尔倒谱系数的特征提取方法、基于线性预测倒谱系数的特征提取方法中的一种或多种。
全文摘要
本发明公开了一种基于混合t模型的说话人识别方法，包括如下步骤1)特征提取采集待识别的语音信号，对音频信号预处理，对预处理后的语音信号进行特征提取，得到语音信号的特征；2)说话人建模采用混合t模型对语音特征建模，根据说话人的语音训练出其混合t模型的参数；3)测试采用测试语音的后验概率表示得分，通过得分与阀值的比较，得到语音信号的识别结果，本发明采用混合t模型对说话人语音特征空间建模，提出了一种EM算法训练t混合模型的参数，提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候，混合t分布比高斯混合分布更有鲁棒性。
文档编号G10L17/00GK101419799SQ200810162449
公开日2009年4月29日申请日期2008年11月25日优先权日2008年11月25日
发明者吴朝晖, 杨莹春, 单振宇申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴朝晖;杨莹春;单振宇
技术所有人：浙江大学
我是此专利的发明人

上一篇：基于频谱平移的情感说话人识别方法
上一篇：G.729标准中线谱对系数转换及量化的方法