基于倒谱特征线性情感补偿的说话人识别方法

文档序号:2821306阅读:141来源:国知局
专利名称:基于倒谱特征线性情感补偿的说话人识别方法
技术领域
本发明涉及生物特征识别技术,主要是一种基于倒谱特征线性情感补偿的说话人识别方法。
背景技术
生物特征识别技术是指通过计算机利用人类自身生理或行为特征进行身份认证的一种技术,它以人体唯一的、可靠的、稳定的生理特征(如指纹、虹膜、脸部、掌纹等)或行为特征(话音、击键、步态、签名等)为依据,采用计算机的强大功能和网络技术进行图像处理和模式识别,用以鉴别人的身份。声纹识别或说话人识别属于其中一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。
人的声音中不仅包含了说话人信息和语言内容信息,也饱含了感情和情绪等特征。传统的说话人识别方法在含有情感影响的语音上识别率会急剧下降,这是因为没有将包含在声音中的情感因素考虑在内,也就是没有考虑语音中韵律和副语言的作用。表现在特征上,传统的声纹特征提取仅从语音信号中提取生理特征,声纹识别系统主要依靠较低层次声学特征进行识别。由于提取信息不能贴切全面地刻画说话人的个性特征,导致现有的声纹识别系统性能不稳定。

发明内容
本发明要解决上述技术所存在的缺陷,提供一种使用基于基音频率的线性倒谱特征补偿的情感语音下说话人识别方法,通过对说话人倒谱特征的线性补偿,实现在情感因素影响下提高说话人识别的鲁棒性。
本发明解决其技术问题所采用的技术方案这种基于倒谱特征线性情感补偿的说话人识别方法,主要步骤是1)、语音信号进行预处理主要包括采样与量化、预加重处理和加窗;2)、语音帧上的特征提取在说话人语音上提取倒谱特征MFCC和基音频率,根据基音频率存在与否,将语音信号流分成浊音段和清音段,判断如果某帧为清音帧,则丢弃该帧语音,不予处理;3)、依据基音频率的变化对相应帧的MFCC进行线性补偿,其间不断调整补偿系数使EM算法中的最大似然估计得到的概率值最大,并由此确定补偿系数;4)、根据这个使最大似然估计得到的概率最大的系数对MFCC进行补偿,由补偿后的语音特征进行训练;5)、识别用于语音输入后,经特征提取,得到一特征向量序列,该序列输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
本发明解决技术问题所采用的技术方案还可以进一步完善。所述的倒谱特征线性补偿为将每一帧的MFCC特征各维量值通过对应帧的基音频率进行修正,使其能够尽量更好地表征说话人个性特征,减少因情感变动而带来的说话人内部语音特征的变化。所述的补偿系数为进行倒谱特征补偿时所使用的描述基音频率变化对MFCC特征影响的因子,可通过多次EM算法来调整得到最佳的补偿系数。所述的多次EM算法确定最佳补偿系数方法是通过不同补偿系数补偿后的MFCC进行隐概率估计,找出其中令概率值最大的补偿系数作为训练模型时使用的补偿系数。
本发明有益的效果是采用基于基音频率的倒谱特征补偿,利用韵律特征在情感语音中的变化规律,对情感语音的MFCC特征进行补偿后使说话人特征更具稳定性,以尽量减少情感影响带来的说话人自身语音差异。通过多次调用高斯混合模型(GMM)训练过程中的EM算法来选择最佳的补偿系数。使用该方法可以找到最佳描述基音频率和原来MFCC特征之间变化关系的系数。


图1是本发明的线性补偿EM训练算法的过程;图2是本发明的算法流程图;具体实施方式
下面结合附图和实施例对本发明作进一步介绍本发明的方法共分六步。
第一步语音信号预处理1、采样与量化A)、用锐截止滤波器对语音信号进行滤波,使其奈奎斯特频率FN为4KHz;B)、设置语音采样率F=2FN;C)、对语音信号sa(t)按周期进行采样,得到数字语音信号的振幅序列s(n)=sa(nF);]]>
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化值表示s′(n)。
2、预加重处理A)、设置数字滤波器的Z传递函数H(z)=1-az-1中的预加重系数a,a可取比1稍小的值;B)、s′(n)通过数字滤波器,得到语音信号的高、中、低频幅度相当的振幅序列s″(n)。
3、加窗A)、计算语音帧的帧长N,N需满足20≤NF≤30,]]>这里F是语音采样率,单位为Hz;B)、以帧长为N、帧移量为N/2,把s″(n)划分成一系列的语音帧Fm,每一语音帧包含N个语音信号样本;C)、计算哈明窗函数 D)、对每一语音帧Fm加哈明窗ω(n)×Fm(n){Fm′(n)|n=1,1,...,N-1}。
第二步特征提取语音帧上的特征提取包括基音频率(pitch)和梅尔倒谱系数(MFCC)的提取。
1、基音频率(pitch)A)、设置基音频率的搜索范围ffloor=50,fceiling=1250(Hz);B)、设置语音的基音频率的取值范围fmin=50,fmax=550(Hz);C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
D)、计算每个频率的SHR(分谐波-谐波比例)SHR=SS/SH
其中SS=Σn=1NX((n-1/2)f),]]>SH=Σn=1NX(nf),]]>N=fceiling/fE)、找出SHR最高的频率f1F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音帧,基音频率为0,Pitch=0G)、在[1.9375f1,2.0625f1]的区间寻找SHR的局部极大的频率f2H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1I)、其他情况,Pitch=f2J)、对得到的基音频率进行自相关效验从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2那么认为基音频率值不可靠,Pitch=0。
K)、最后对全部的Pitch值进行中值平滑滤波。
2、MFCC的提取A)、设置梅尔倒谱系数的阶数p;B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
C)、计算梅尔域刻度Mi=ip×2595log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、计算对应的频域刻度fi=700×eMi2595In10-1,(i=0,1,2,...,p)]]>E)、计算每个梅尔域通道φj上的对数能量谱Ej=Σk=0K2-1φj(k)|X(k)|2]]>其中Σk=0K2-1φj(k)=1.]]>F)、做离散余弦变换DCT第三步、倒谱特征补偿1、对齐倒谱特征和基音频率浊音信号是一种准周期信号,其周期称为基音频率。根据基音频率存在与否,将语音信号流分成浊音段和清音段,判断如果某帧为清音段,则丢弃该帧语音,不予处理。
2、通过EM算法确定最佳补偿系数在前一个步骤中,对应不同的补偿系数αk进行多次隐状态的概率计算,以得到最佳补偿系数。
A)、对应帧的倒谱特征进行补偿系数为αk的线性补偿x(t)是t时刻的倒谱特征,Y(t)是t时刻的基音频率,xopt(t)是该时刻经过补偿后的倒谱特征,E(Y(t))是平均基音频率xopt(t)=x(t)-αk×|Y(t)-E(Y(t))||E(Y(t))|]]>B)、估计隐状态概率Pi′=Σt=1TTt(i)Σt=1TΣi=1MTt(i)=1TΣt=1TP(it=i/zt,λ)]]>其中P(it=i/zt,λ)=Pip(zt/it=i,λ)p(zt/λ)=Pibi(zt)Σi=1MPibi(zt)]]>C)、循环进行计算直至找到 满足α^=argmaxα{P(it=i/zt,λ)}]]>D)、以局部最大准则估计GMM的参数P′、μi′和R,即λ′。
μi′=Σt=1TTt(i)ztΣt=1TTt(i)=Σt=1TP(it=i/zt,λ)ztΣt=1TP(it=i/zt,λ)]]>Rt′=Σt=1TP(it=i/zt,λ)(zt-μi′)T(zt-μi′)Σt=1TP(it=i/zt,λ)]]>第四步、训练每一个说话人的语音特征在特征空间中都形成了特定的分布,经过补偿后的特征分布可更好地用于描述说话人的个性。高斯混合模型(GMM)是用多个高斯分布的线性组合来近似说话人的特征分布。
每一个说话人的概率密度函数的函数形式是相同的,所不同的只是函数中的参数。M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即p(x)=Σi=1MPibi(x)]]>bi(x)=N(x,μi,Ri)=1(2π)p/2|pi|1/2-exp{-12(x-μi)TRi-1(x-μi)}]]>其中,p是特征的维数,bi(x)为核函数,是均值矢量为μi、协方差矩阵为Ri的高斯分布函数,M(可选,一般为16,32)是GMM模型的阶数,在建立说话人模型以前设为一确定整数。λ≅{Pi,μi,Ri|i=1,2,...,M}]]>为说话人特征分布GMM中的参数。作为高斯混合分布的加权系数,Pi应满足使∫-∞+∞p(x/λ)dx=1]]>即有Σi=1MPi=1]]>由于计算GMM中的p(x)需要求p×p维方阵Ri(i=1,2,...,M)的逆,运算量大。为此,将Rj设为对角阵,将求逆运算转化为求倒数运算,提高运算速度。
第五步、识别用于语音输入后,经特征提取,得到一特征向量序列。该序列输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
实验结果本系统在Emotional Prosody Speech语音库上进行了实验。这个语音库是由国际语言学数据联盟(Linguistic Data Consortium,即LDC)依据数据库标准建立的情感语音数据库,用作不同情感语音的发音特征研究,由7名专业演员(3名男性目标说话人和4名女性目标说话人)来录制的,用英语朗读一系列特定予以的语句,主要是日期和数字,涵盖了14种不同情感类型。录音的方法是让演员表演相应情感时候的不同语气、语调以及语速,每个说话人在每种情感的录音时间不等,大约在10秒到40秒之间,也有极少数长达50秒,每个说话人总的录音时间大约在5、6分钟。
我们在这个库上设计并完成了两组实验。第一组是使用经典MFCC-GMM的基准实验,仅仅使用没有经过任何补偿算法的倒谱特征训练模型,GMM通过普通的EM算法训练。这组实验最为对照组。
第二组实验,对倒谱特征进行线性补偿,并采用多次的EM估计来选择最佳的补偿系数,使用修正后的MFCC特征向量训练GMM模型。
为了对说话人确认系统的性能进行评估,选用等错误率(EER,Equal Error Rate)和识别率(IR,Identification Rate)来作为实验结果的评估标准。
EER的计算需使用其它两个评估指标(1)错误接受率FA将错误接受的短语数除以应被拒绝的总短语数即得到说话人确认的错误接受率;(2)错误拒绝率FR将错误拒绝的短语数除以应被接受的总短语数即得到说话人确认的错误拒绝率。
当FA=FR或|FA-FR|<δ(δ<0.0001)时,得到系统的等错误率(EER),即EER=FA或EER=FR。
识别率IR的计算公式是

实验参数的设置如下

实验结果如下

每种情感分别的实验结果如下表,同基准实验相比较,“+”表示该值有所升高,“-”表示减少

实验用机器配置CPU为AMD Athlon(tm)XP2500+,内存为512M ddr400。
实验结果表明,本特征补偿方法能够使倒谱特征更能描述说话人个性信息,从而提高说话人识别的性能,使得其错误率降低,识别率升高。并且在情感库上的实验,表明了该方法对于各种情感状态均有较好的效果。
权利要求
1.一种基于倒谱特征线性情感补偿的说话人识别方法,其特征在于主要步骤是1)、语音信号进行预处理主要包括采样与量化、预加重处理和加窗;2)、语音帧上的特征提取在说话人语音上提取倒谱特征MFCC和基音频率,根据基音频率存在与否,将语音信号流分成浊音段和清音段,判断如果某帧为清音帧,则丢弃该帧语音,不予处理;3)、依据基音频率的变化对相应帧的MFCC进行线性补偿,其间不断调整补偿系数使EM算法中的最大似然估计得到的概率值最大,并由此确定补偿系数;4)、根据这个使最大似然估计得到的概率最大的系数对MFCC进行补偿,由补偿后的语音特征进行训练;5)、识别用于语音输入后,经特征提取,得到一特征向量序列,该序列输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
2.根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于所述的倒谱特征线性补偿为将每一帧的MFCC特征各维量值通过对应帧的基音频率进行修正,使其能够尽量更好地表征说话人个性特征。
3.根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于所述的补偿系数为进行到谱特征补偿时所使用的描述基音频率变化对MFCC特征影响的因子,可通过多次EM算法来调整得到最佳的补偿系数。
4.根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于所述的多次EM算法确定最佳补偿系数方法是通过不同补偿系数补偿后的MFCC进行隐概率估计,找出其中令概率值最大的补偿系数作为训练模型时使用的补偿系数。
5.根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于语音帧上的特征提取包括基音频率,即pitch和梅尔倒谱系数,即MFCC的提取;1)、基音频率A)、设置基音频率的搜索范围ffloor=50,fceiling=1250Hz;B)、设置语音的基音频率的取值范围fmin=50,fmax=550Hz;C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);D)、计算每个频率的SHR,即分谐波-谐波比例SHR=SS/SH其中SS=Σn=1NX((n-1/2)f),SH=Σn=1NX(nf),N=fceiling/f]]>E)、找出SHR最高的频率f1F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音或静音帧,基音频率Pitch=0G)、在[1.9375f1,2.0625f1]的区间寻找SHR的局部极大的频率f2H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1I)、其他情况,Pitch=f2J)、对得到的基音频率进行自相关效验从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2那么认为基音频率值不可靠,Pitch=0;K)、最后对全部的Pitch值进行中值平滑滤波;2)、MFCC的提取A)、设置梅尔倒谱系数的阶数p;B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);C)、计算梅尔域刻度Mi=ip×2595log(1+8000/2.0700.0),(i=0,1,2,···,p)]]>D)、计算对应的频域刻度fi=700×eMi2595ln10-1,(i=0,1,2,···,p)]]>E)、计算每个梅尔域通道φj上的对数能量谱Ej=Σk=0K2-1φj(k)|X(k)|2]]>其中Σk=0K2-1φj(k)=1.]]>其中F)、做离散余弦变换DCT。
6.根据权利要求1或2或3或4所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于通过EM算法确定最佳补偿系数,对应不同的补偿系数αk进行多次隐状态的概率计算,以得到最佳补偿系数;A)、对应帧的倒谱特征进行补偿系数为αk的线性补偿x(t)是t时刻的倒谱特征,Y(t)是t时刻的基音频率,Xopt(t)是该时刻经过补偿后的倒谱特征,E(Y(t))是平均基音频率xopt(t)=x(t)-αk×|Y(t)-E(Y(t))||E(Y(t))|]]>B)、估计隐状态概率Pi′=Σt=1TTt(i)Σt=1TΣi=1MTt(i)=1TΣt=1TP(it=i/zt,λ)]]>其中P(it=i/zt,λ)=Pip(zt/it=i,λ)p(zt/λ)=Pibi(zt)Σi=1MPibi(zt)]]>C)、循环进行计算直至找到 满足α^=argmaxα{P(it=i/zt,λ)}]]>D)、以局部最大准则估计GMM的参数P′、μi′和Ri′,即λ′;μi′=Σt=1TTt(i)ztΣt=1TTt(i)=Σt=1TP(it=i/zt,λ)ztΣt=1TP(it=i/zt,λ)Ri′=Σt=1TP(it=i/zt,λ)(zt-μi′)T(zt-μi′)Σt=1TP(it=i/zt,λ).]]>
全文摘要
本发明涉及一种基于倒谱特征线性情感补偿的说话人识别方法,主要步骤是1)语音信号进行预处理;2)语音帧上的特征提取在说话人语音上提取倒谱特征MFCC和基音频率,根据基音频率存在与否,将语音信号流分成浊音段和清音段,判断如果某帧为清音帧,则丢弃该帧语音,不予处理;3)依据基音频率的变化对相应帧的MFCC进行线性补偿;4)根据这个使最大似然估计得到的概率最大的系数对MFCC进行补偿,由补偿后的语音特征进行训练;5)识别。本发明有益的效果是采用基于基音频率的倒谱特征补偿,利用韵律特征在情感语音中的变化规律,对情感语音的MFCC特征进行补偿后使说话人特征更具稳定性,以尽量减少情感影响带来的说话人自身语音差异。
文档编号G10L15/00GK1758332SQ200510061360
公开日2006年4月12日 申请日期2005年10月31日 优先权日2005年10月31日
发明者吴朝晖, 杨莹春, 吴甜 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1