基于加权贝叶斯混合模型的与文本无关的说话人识别方法

文档序号:2827669阅读:283来源:国知局
基于加权贝叶斯混合模型的与文本无关的说话人识别方法
【专利摘要】本发明公开了基于加权贝叶斯混合模型的与文本无关的说话人识别方法,该方法首先对用于训练的语音信号集合进行预处理和特征提取,接着在训练过程中采用加权贝叶斯混合模型来描述训练集合,通过训练分别估计出加权贝叶斯混合模型中的参数值以及随机变量分布,从而得到与每一说话人相对应的加权贝叶斯混合模型;在识别时,将经过预处理和特征提取的带识别的语音,计算其关于训练好的每一说话人相对应的加权贝叶斯混合模型的边缘似然值,将最大边缘似然值对应的说话人作为识别结果。本发明能有效地提高与文本相关说话人识别系统的识别正确率,避免传统方法中容易出现的过拟合和欠拟合问题,并且使得先验信息和训练数据的相对权重更容易和灵活地控制。
【专利说明】基于加权贝叶斯混合模型的与文本无关的说话人识别方法

【技术领域】
[0001]本发明涉及一种基于加权贝叶斯混合模型的与文本无关的说话人识别方法,属于语音信号处理【技术领域】。

【背景技术】
[0002]在门禁、信用卡交易和法庭证据等方面,说话人识别起着越来越重要的作用,它的目标是把待识别语音正确地判定为属于语音库中多个参考人之中的某一个。
[0003]目前,在与文本无关的说话人识别方法中,基于高斯混合模型(即:GMM)的方法应用最为广泛。由于它具有识别率高,训练简单,训练数据量要求不大等优点,已经成为目前与文本无关的说话人识别的主流方法。由于GMM具有很好的表示数据的分布的能力,只要有足够多的状态,足够多的训练数据,GMM就能够逼近任何与时间序列相关的分布模型。但是,实际中将GMM应用于与文本无关的说话人识别时存在几个问题。首先,传统的GMM训练过程基于最大似然准则,容易对训练数据产生过拟合或欠拟合现象。其次,传统的基于GMM的与文本无关的说话人识别仅仅考虑观测数据,没有将先验信息引入。上述问题常常使得基于传统的GMM的与文本无关的说话人识别系统的识别正确率较低。因此如何有效地引入先验信息并将其与训练数据有效融合十分重要;另外,在融合了先验信息之后,如何进一步地平衡先验信息和训练数据两者的权重,采用相对简单的方式控制观测数据的相对权重,也是一个尚未解决但十分重要的问题。而本发明能够很好地解决上面的问题。


【发明内容】

[0004]本发明目的在于解决了上述现有技术的缺陷,设计了一种基于加权贝叶斯混合模型的与文本无关的说话人识别方法。
[0005]本发明解决其技术问题所采取的技术方案是:一种基于加权贝叶斯混合模型的与文本无关的说话人识别方法,该方法包括以下步骤:
[0006]步骤1:对语音信号进行预处理:包括采样与量化、预加重、分帧与加窗;
[0007]步骤2:语音帧上的特征提取:对每一语音帧,计算D阶线性预测倒谱系数,将其作为该帧的D维特征矢量;
[0008]步骤3:对于每一说话人所对应的训练集合X= IxJn = I^,其中N为该说话人用于训练的D维特征矢量Xn的个数;用加权贝叶斯混合模型(即来建模X,通过训练估计出WBMM中的参数值以及随机变量的分布;如在该识别系统中需要识别G个说话人,则重复训练过程G次,分别得到WBMM1,…,WBMMg,...,WBMMg ;
[0009]步骤4:对于待识别的语音,首先进行预处理以及特征提取,得到相应的D维特征矢量X’ ;计算X’关于每一个说话人对应的模型WBMM1,…,WBMMg,…,WBMMe的边缘似然值(MLIKg(x' )}g = 1,...,e,最终的识别结果为最大的MLIKg(X’)所对应的说话人speaker,即:
[0010]speaker (jc') = arg Jiiax^Li MLIK?(x')?,
[0011]本发明所述的基于加权贝叶斯混合模型的与文本无关的说话人识别方法中,对步骤3中所述的通过训练估计出WBMM中的参数值以及随机变量的分布的步骤如下:
[0012]步骤3-1:设定 WBMM 中的超参数{λ。,m。,β。,ν 0,V。}的值,其中,λ。= 0.01,m0 =O (O为D维零矢量),β。= 1,V。= D,V。= 400.1(1为(DXD)的单位矩阵);
[0013]步骤3-2:设定α的值,α取-8~-1之间的任意整数;
[0014]步骤3-3:产生N个服从[1,K]区间上均匀分布的随机整数,其中K为WBMM的混合成分数,可以取16~32中的任意整数,统计该区间上各整数出现的概率;即,如果产生了Ni个整数i,那么Qi =队/N ;对于每个xn,对应的隐变量Zn的初始分布为

【权利要求】
1.基于加权贝叶斯混合模型的与文本无关的说话人识别方法,其特征在于,所述方法包括如下步骤: 步骤1:对语音信号进行预处理:包括采样与量化、预加重、分帧与加窗; 步骤2:语音帧上的特征提取:对每一语音帧,计算D阶线性预测倒谱系数,将其作为该帧的D维特征矢量; 步骤3:对于每一说话人所对应的训练集合X= IxJn = U,其中N为该说话人用于训练的D维特征矢量Xn的个数;用加权贝叶斯混合模型,即WBMM来建模X,通过训练估计出WBMM中的参数值以及随机变量的分布;如在该识别系统中需要识别G个说话人,则重复训练过程G次,分别得到WBMM1,…,WBMMg,...,WBMMg ; 步骤4:对于待识别的语音,首先进行预处理以及特征提取,得到相应的D维特征矢量X’ ;计算X’关于每一个说话人对应的模型WBMM1,…,WBMMg,…,WBMMe的边缘似然值(MLIKg(x' )}g = 1,...,e,最终的识别结果为最大的MLIKg(X’)所对应的说话人speaker,即:
2.根据权利 要求1所述的一种基于加权贝叶斯混合模型的与文本无关的说话人识别方法,其特征在于,所述方法步骤3所述的通过训练估计出WBMM中的参数值以及随机变量的分布的步骤如下:
步骤 3-1:设定 WBMM 中的超参数{ λ 0, m0, β 0,v 0, V0I 的值,其中,A0 = 0.01,m0 = 0(0为D维零矢量),β。= 1,V。= D,V。= 400.I (I为(DXD)的单位矩阵); 步骤3-2:设定α的值,α取-8~-1之间的任意整数; 步骤3-3:产生N个服从[1,Κ]区间上均匀分布的随机整数,其中K为WBMM的混合成分数,可以取16~32中的任意整数,统计该区间上各整数出现的概率;即,如果产生了 Ni个整数i,那么Qi = R^N;对于每个{xn}n= n,对应的隐变量{zn}n = 1,...,N的初始分布为
此外,设定迭代次数计数变量t = I,开始迭代循环; 步骤3-4:计算三个中间变量:
步骤3-5:更新WBMM中的随机变量1> J...,κ的分布,其表示第i个混合成分的比重,它服从Dirichlet分布,即,qO ) = DirO J^i),相应的超参数{ λ J i =的更新公式如下:
步骤3-6:更新WBMM中随机变量{>” Tji = 1,,κ的分布,其分别表示第i个成分的均值和逆协方差矩阵,它们服从联合Gaussian-Wishart分布,即q( μ i, T )=N(yi|mi, (HDWKTJ Vi, Vi),相应的超参数{叫,β i; v。Vj i = 1; ,κ 的更新如下:
步骤3-7:更新隐变量{ζη}η = i,...,Ν的分布,如下:
在上式中,各项期望〈.>的计算公式如下:
上面公式中Ψ (.)为标准的digamma函数(Gamma函数 (.)的对数的导数,即Ψ (.)
步骤3-8:计算当前迭代后的边缘似然值MLIKt,t为当前的迭代次数:
步骤3-9:计算当前迭代后与上一次迭代后的边缘似然值的差值AMLIK =MLIKt-MLIKw ;如果AMLIK≤δ,那么通过训练估计出WBMM中的参数值以及随机变量的分布的过程结束,否则转到上述步骤3-4,t的值增加1,进行下一次迭代;阈值δ的取值范围为Kr5~10'
3.根据权利要求1所述的一种基于加权贝叶斯混合模型的与文本无关的说话人识别方法,其特征在于,所述方法步骤4中所述的在识别过程中计算X’关于每一个说话人有关的模型WBMM1,……,WBMMg,……WBMMe的边缘似然值{MLIKg(x’)} g = 1;...的公式如下:
其中,〈.>和q(zni = I)为经过训练之后的WBMMg中的期望和概率。
4.根据权利要求1所述的一种基于加权贝叶斯混合模型的与文本无关的说话人识别方法,其特征在于:所述方法是在贝叶斯框架下,将先验信息引入并和训练数据进行融合。
5.根据权利要求1所述的一种基于加权贝叶斯混合模型的与文本无关的说话人识别方法,其特征在于:所述方法是用一个附加参数α来控制数据在训练中的权重。
【文档编号】G10L17/04GK104183239SQ201410361706
【公开日】2014年12月3日 申请日期:2014年7月25日 优先权日:2014年7月25日
【发明者】魏昕, 周亮, 赵力, 陈建新 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1