有限状态向量量化的语音辨认方法

文档序号:2821661阅读:325来源:国知局
专利名称:有限状态向量量化的语音辨认方法
技术领域
本发明的目的是提供一种有限状态向量量化的语音辨认方法。
背景技术
习用对特定人的语音辨认其基本之架构概分为两部份一为训练部份,是将已知的语音信号经由端点侦测及特征参数求取的过程,产生标准的语音参考样本;一为辨认部份,是将测试的语音信号经由同样的处理步骤求得特征参数后,再与前述的标准语音参考样本比对,找出最相似的参考样本做为辨认结果。
目前语音资料的有限状态模式广被应用于语音编码与语音辨认的系统上,而传统的使用上是采用隐藏式马可夫模式(HMM,Hidden Markov Model)来做语音辨认,而此隐藏式马可夫模式需要大量的训练资料以得到可靠的模式参数;因此隐藏式马可夫模式不适合于使用者在训练过程当中对每个不同语音只训练一遍的语音辨认。

发明内容
本发明的目的是提供一种有限状态向量量化的语音辨认方法,使用新的训练方法(Training Method),两段声音之间距离的度量(Distance Measure),采用振幅频谱dB值差的平方总和(square of error of magnitude spectrum),dB值是人耳度量声音音量的线性单位,因此这里所采用的距离的度量乃是仿真人耳,符合已发现并仍在使用中的物理定律,根据这个两段声音之间距离的度量,利用数学定理,推导出一语音特征向量(feature vector),及一公式利用此一特征向量计算两段声音之间差异的大小。
发声器官发出声音,音波信号经麦克风转换成电压信号,经A/DC(Analog toDigital Converter)转换成数字信号,由于发声器官发音时的机械惯性,因此短时距内(约25ms),特征稳定的假设是相当合理的,因此一般我们将取样的声波信号,分成一串约25ms长的帧(frame),相临两帧时距约为12.5ms,也就是相临两帧互相有一半是重迭的,而每个帧的振幅频谱dB值(称为帧的特征)是其特征,振幅频谱dB值差的平方的大小可以显示两个帧听觉之间的差异,考虑相临帧间其特征的相关性,相临数个帧(如5个),其频谱排列的样型,是分辨不同声音很重要的区段特征,因此我们将相临数个帧的特征按顺序排列,形成一个特征向量,经过这样的处理后,得到一串特征向量,这串特征向量我们或作为训练语音模式,或是与语音模式比对以得到辨识的结果。
要辨识一群语音项目,需要将每一个欲辨识的语音项目建立至少一个语音模式,建立语音模式的过程称为训练,利用前一段落所述的方法得到语音项目的一串特征向量,初始时假设一个初始的语音模式,此语音模式为一有限状态机(finite-state machine),此一有限状态机有数个状态,每一状态有一代表向量,每一取样时刻(每12.5ms)此有限状态机根据所处状态产生该状态的代表向量,以产生一串语音向量;有限状态机将产生一最适的特征向量,最适的特征向量乃是与此串特征向量有最小的累积距离,而此串特征向量中也将被区分出分属于各状态的向量群(feature vector cluters),因此每一状态将更新其代表向量,经过重复比对与更新,有限状态机产生的最适的特征向量,其与欲训练语音的特征向量之间的累积距离,将一次比一次小,最终将得到一个此欲训练的语音项目的最佳语音模式,此最佳语音模式所产生的最适的特征向量,其与欲训练的语音项目的此串特征向量之间的累积距离,将比其它具有相同状态数目的有限状态机者小,因此就这样合于物理定律的距离量测而言,这语音模式是其中最佳的。
下面结合附图以具体实例对本发明进行详细说明。


图1是本发明由左到右的有限状态机的语音模式;图2是本发明帧特征向量相对于平均的静音特征向量间的距离示意图;图3是本发明区域性特征向量的撷取流程图;图4是本发明语音模式的训练流程图之一;图5是本发明语音模式的训练流程图之二。
图6是本发明语音讯号的辨识流程图之一;图7是本发明语音讯号的辨识流程图之二。
附图标记说明11环境音状态#1;12状态1;13状态L;14环境音状态#2;21第一子区间;22第二子区间;23第三子区间。
具体实施例方式
参见图1、图2、图3、图4、图5及图6,本发明提供一种有限状态向量量化的语音辨认方法,其特点在于区域性特征向量的撷取,语音信号以fs=8KHz(仟赫)的取样频率,然后再经过25ms的直角窗口(Rectangular Window),每个25ms段落的语音资料帧利用杜宾递归算法(Durbin`s Recursive Algorithm)做线性预测(LP,Linear Predict)分析,然后线性预测系数做递归演算导出10阶的倒频谱(Cepstrum)系数,帧移动率为1/12.5ms=80Hz,在25ms内,由于发声器官的机械惯性,因此假设特性是稳定的,但大于25ms的短期频谱样型在整段声音期间内是一个可辨别的区域性特征,在本发明中,我们将(2δ+1)帧的频谱样型当作一个区域性的特征,其中δ可以是2;对两个语音段落,每个的长度等于(2δ+1)帧,此两个语音段落以频谱样型表示为(1)式S→1=logSt-δ1(TSω)··logSt+δ1(TSω)]]>与S→2=logSt-δ2(TSω)··logSt+δ2(TSω)---(1)]]>而此两个频谱样型间的距离被定义为(2)式D(s→1,s→2)=Στ=t-δt+δ∫-π/Ts-π/Ts[logsτ1(Tsω)-logsτ2(Tsω)]2dω---(2)]]>取样资料的振幅频谱Ski(Tsω),i=1,2,k=t-δ,…,t,…,t+δ。
其周期为2π/Ts,因此log Ski(Tsω),i=1,2也一样,而log Ski(Tsω)可以傅立叶级数予以展开(为了清楚起见,去掉log Ski(Tsω)中的i)
logSτ(Tsω)=Σm=-∞∞C^m(τ)e-jmωTs]]>其中 是语音信号的实数倒频谱(real cepstrum),语音信号的复数倒频谱(complex cepstrum)以Cm(τ)表示,且当为实数时,C^m(τ)=Cm(τ)+C-m(τ)2,]]>对于线性预测模式的信号,其线性预测系数由杜宾递归算法求得,Cm(τ)可以利用下列的递归算法求得Cm(τ)=0,m<0C0(τ)=log G(τ)Cm(τ)=am(τ)+1mΣn=1m-1nCn(τ)am-n(τ),m=1,2,···,p]]>其中G(τ)为线性预测模式信号中的全极点滤波器的增益(gain of theall-pole filter),G(τ)以R0(τ)近似之,R0(τ)为第τ帧的信号能量,am(τ)为第m阶的线性预测系数,P为全极点滤波器的总阶数,对于线性预测模式的信号,Cm(τ)为实数且其大小随阶数下降的速度比1/m的快。
因此,得到(3)式logSτ(Tsω)=Σn=0∞Cn(τ)cos(nωTs)---(3)]]>距离量测可以写成(4)式D(s1→,s2→)=Στ=t-δt+δ{(C01(τ)-C02(τ))2+Σm=1∞(Cm1(τ)-Cm2(τ))2}---(4)]]>对τ=t-δ,…,t,…,t+δ,Cmi(τ)可以用一线性函数近似Cmi(τ)=ami(t)·(τ-t)+bmi(t)+emi(τ),τ=t-δ,···,t+δ,]]>其中ami(t)与bmi(t)为使
Στ=t-δt+δ|emi(τ)|2]]>的值为最小,它也可表示成(5)式ami(t)=Στ=-δδτCmi(t+τ)Στ=-δδτ2=Στ=1δτ(Cmi(t+τ)-Cmi(t-τ))2·Στ=1δτ2]]>bmi(t)=Στ=-δδCmi(t+τ)2δ+1---(5)]]>经过一些运算之后,两个频谱样型间的距离可以表示如下(6)式D(s1→,s2→)=Σm=0∞{(2δ+1)·[bm1(t)-bm2(t)]2+Στ=1δ2τ2·[am1(t)-am2(t)]2}---(6)]]>其中倒频谱系数只取10阶,我们用解析的方法推导出承上所述的距离量测,并不需要根据有限的资料量做实验,对每个元素ami(t),bmi(t),选择适当的加权,此距离量测数值的大小显示两段声音在听觉上的差异。
图4及图5示出了本发明语音模式的训练流程图,对每个要辨认的词组,使用者念一遍来得到个别的语音模式。在发声之前环境音的特征向量统计值先做计算。帧的特征向量由ami(t),bmi(t)所构成,其中t代表语音帧的时序索引,藉由取样环境音期间20个帧的特征,我们计算此20个帧讯号的平均能量,得到平均能量NR0之后我们等待声音的开始,当连续6个帧能量大于NR0+TH1,即视为声音的开始,此后即等待声音的结束;然后我们再利用前述计算特征向量公式,将20个帧讯号转换成16个特征向量 i=1,2,…,16,对于此16个环境音的特征向量,我们经计算后可以得到环境音的平均特征向量即N→=116Σj=116Ni→;]]>
再计算环境音间的平均距离Davg,而,Davg=116Σi=116D(N→i,N→)]]>此距离是根据上述的(6)式加以计算估计的环境音间的距离其标准差为σ=[116Σi=116D2(N→i,N→)]12]]>在发音期间,依序每个帧计算特征向量,如果连续三个帧其与环境音平均特征向量的距离大于Davg+5σ,我们取这三个连续帧的第一个帧当作可能的起始帧fs;要决定声音的结束帧,我们由取样的声音的最后帧往前找,当连续三个帧其与环境音平均特征向量的距离大于Davg+5σ,我们取这三个帧的最后一个帧当作可能的结束帧fe。
从可能的起始帧fs前16的个帧开始算起到可能的结束帧fe后的第16个帧止的范围,可以分成三个子区间(如图2所示),分别为起始帧fs前的16个帧为第一子区间(21),亦为环境音状态#1(11);而由起始帧fs至结束帧fe的区间则为第二子区间(22),以及结束帧fe后的16个帧为第三子区间(23),其为环境音状态#2(14)。其语音的模式(请参照图1所示),此语音模式利用有限状态向量量化予以训练,对环境音状态#1(11)及环境音状态#2(14)以平均特征向量 当作起始码本。
在第二子区间(22)内,每连续4个帧的平均特征向量被当作相对应状态的起始码本,如此则第二子区间(22)分成状态1(12),…,状态L(13)。
利用维特比(Viterbi)算法,将声音讯号的段落依照图1所示的语音模式找出沿着最佳路径有最小累积距离的语音模式,沿最佳路径返回找出分属于各状态(环境音状态#1(11),状态1(12),…,状态L(13),环境音状态#2(14)的区域性特征向量,再修正各状态的码本,接着判断是否为收敛?如果非收敛则回到维特比算法的步骤找出最佳的路径,如果为收敛则训练结束;经过如此反复的训练,此语音模式将收敛到一个最佳的语音模式,根据(6)式的距离量测,此最佳的语音模式与受训练的声音之间沿着最佳路径的累积距离是最小的,经过此训练过程后每个语音模式的每个状态需储存20个参数(a1,…,a10,b1,…,b10),以便在辨识比对时,计算距离量测,而a0及b0分别代表语音能量的大小及其变化量,因此辨识时并不包含在距离量测的计算中,每个参数以1.5个byte储存,因此每秒钟的语音模式需600bytes储存参数(30bytes/50ms=600bytes/secnd)。
图6及图7为本发明语音讯号的辨识流程图,对每个要辨认的词组,在辨识之前,由取样环境音期间20个帧,经过计算的区域性特征向量 我们计算后可以得到16个环境音的特征向量,而其平均特征向量以 表示即N→=116Σi=116Ni→;]]>再计算环境音间的平均距离Davg,而Davg=116Σi=116D(N→i,N→)]]>此距离是根据前面(6)式加以计算,估计的环境音间的距离其标准差为σ=[116Σi=116D2(N→i,N→)]12]]>在辨识期间,找出声音可能的起始帧fs及可能的结束帧fe,而起始帧fs前的16个帧至结束帧fe后的16个帧构成声音讯号段落;每个语音模式中的环境音状态#1(11)及环境音状态#2(14)的码本以 取代,利用维特比(Viterbi)算法,将声音讯号的段落依照各个语音模式分别找出最佳路径,并计算出各个语音模式最佳路径的累积距离,分别为Di,i=1,.....,R(R为欲辨识之词组的数目),并在Di中找出最小值者,则此词组即为辨识的结果。我们随意选择的50个中文人名一共做了500次测试,结果辨认率高于99%。
本发明具有以下优点1、提供简单及有效的语音模式训练方法。
2、一秒钟的语音模式只须600bytes储存其模式参数。
权利要求
1.一种有限状态向量量化的语音辨认方法,其中包含距离量测的计算方式、语音辨认的训练方法;该距离量测的计算方式,是将(2δ+1)帧的频谱样型当作一个区域性的特征;对两个语音段落,每个的长度等于(2δ+1)帧,两者之间的距离量测采用它们的频谱dB值差的平方的总和,取10阶的倒频谱系数之后,两个频谱样型间的距离被表示为Σm=010{(2δ+1)·[bm1(t)-bm2(t)]2+Στ=1δ2τ2·[am1(t)-am2(t)]2}]]>在发声之前,计算环境音的特征向量统计值,帧的特征向量由ami(t)与bmi(t)构成,其中t代表语音帧的时序索引,通过取样环境音期间20个帧的特征,计算此20个帧讯号的平均能量,得到平均能量NR0之后进行声音的开始的确定,当接收的连续6个帧能量大于NR0+TH1时,确定声音开始;然后利用计算特征向量公式,将20个帧讯号转换成16个特征向量Ni→,i=1,2,...,16,]]>根据该16个环境音的特征向量,得到环境音的平均特征向量,即N→=116Σi=116Ni→;]]>再计算环境音间的平均距离Davg,Davg=116Σi=116D(N→i,N→)]]>此距离是根据(6)式加以计算估计的环境音间的距离其标准差为σ=[116Σi=116D2(N→i,N→)]12]]>在发音期间,依序每个帧计算特征向量,如果连续三个帧其与环境音平均特征向量的距离大于Davg+5σ,取这三个连续帧的第一个帧当作可能的起始帧fs;决定声音的结束帧,由取样的声音的最后帧往前找,当连续三个帧其与环境音平均特征向量的距离大于Davg+5σ,取这三个帧的最后一个帧当作可能的结束帧fe;从可能的起始帧fs前16的个帧开始算起到可能的结束帧fe后的第16个帧止的范围,可以分成三个子区间,分别为起始帧fs前的16个帧为第一子区间,亦为环境音状态#1而由起始帧fs至结束帧fe的区间则为第二子区间,以及结束帧fe后的16个帧为第三子区间,其为环境音状态#2;此语音模式利用有限状态向量量化予以训练,对环境音状态#1及环境音状态#2以平均特征向量 当作起始码本;在第二子区间内,每连续4个帧的平均特征向量被当作相对应状态的起始码本,如此则第二子区间分成状态1,…,状态L;利用维特比(Viterbi)算法,将声音讯号的段落依照语音模式找出沿着最佳路径有最小累积距离的语音模式,沿最佳路径返回找出分属于各状态(环境音状态#1(11),状态1(12),...,状态L(13),环境音状态#2(14)的区域性特征向量,再修正各状态的码本,接着判断是否为收敛?如果非收敛则回到维特比算法的步骤找出最佳的路径,如果为收敛则训练结束;经过如此反复的训练,此语音模式将收敛到一个最佳的语音模式;在辨识期间,找出声音可能的起始帧fs及可能的结束帧fe,而起始帧fs前的16个帧至结束帧fe后的16个帧构成声音讯号段落;每个语音模式中的环境音状态#1(11)及环境音状态#2(14)的码本以 取代,利用维特比(Viterbi)算法,将声音讯号的段落依照各个语音模式分别找出最佳路径,并计算出各个语音模式最佳路径的累积距离,分别为Di,i=1,.....,R(R为欲辨识之词组的数目),并在Di中找出最小值,则此词组即为辨识的结果。
2.如权利要求1所述的有限状态向量量化的语音辨认方法,其中该声音起点及终点的侦测如下由取样环境音期间20个帧,经过计算的区域性特征向量 我们计算后可以得到16个环境音的特征向量,而其平均特征向量以 表示即N→=116Σi=116Ni→;]]>再计算环境音间的平均距离Davg,而Davg=116Σi=116D(N→i,N→)]]>此距离是根据前面(6)式加以计算,估计的环境音间的距离其标准差为σ=[116Σi=116D2(N→i,N→)]12]]>在发声之前环境音的特征向量统计值先做计算,帧的特征向量由ami(t)及bmi(t),i=1或2,m=0,1,…,10所构成,其中t代表语音帧的时序索引,藉由取样环境音期间x个帧的特征向量,经计算后可以得到环境音的平均特征向量 即N→=1XΣi=1XNi→;]]>再计算环境音的平均距离Davg,而Davg=1XΣi=1xD(N→i,N→),]]>此距离是根据上述之公式加以计算估计的环境音间的距离其标准差为σ=[1XΣi=1xD2(N→i,N→)]12]]>在发音期间,依序每个帧计算特征向量,当有连续W个帧其与环境音平均特征向量的距离大于Davg+ασ,取这W个连续帧的第一个帧当作可能的起始帧,从最后的一个取样帧往前找,当有Y个连续帧其与环境音平均特征向量的距离大于Davg+ασ,取这个连续帧的前一个帧当作结束帧。
3.如权利要求1所述的有限状态向量量化的语音辨认方法,其中该语音模式的训练方法,从可能的起始帧fs前P的个帧开始算起到可能的结束帧fe后的第Q个帧止的范围,可以分成三个子区间,分别为起始帧fs前的P个帧为第一子区间,亦为环境音状态#1;而由起始帧fs至结束帧fe的区间则为第二子区间,以及结束帧fe后的Q个帧为第三子区间,其为环境音状态#2;其语音的模式,此语音模式利用有限状态向量量化予以训练,对环境音状态#1及环境音状态#2以平均特征向量当作起始码本,在第二子区间内,每连续Z个帧的平均特征向量被当作相对应状态的起始码本,如此则第二子区间分成状态1,状态L,利用维特比(Viterbi)算法,将声音讯号的段落在有限状态机的语音模式中找出沿着最佳路径有最小累积距离的语音模式,沿着最佳路径返回找出归属于各状态(环境音状态#1,状态1,状态L,环境音状态#2)的区域性特征向量,再修正各状态的码本,经过如此反复的训练,此语音模式将收敛到一个最佳的语音模式,根据距离量测,此最佳的语音模式与受训练的声音之间沿着最佳路径的累积距离是最小的。
4.如权利要求1所述的有限状态向量量化的语音辨认方法,其中将(2δ+1)帧的频谱样型当作一个区域性的特征时,δ=2。
5.如权利要求2所述的有限状态向量量化的语音辨认方法,其中该α为正整数,其值可为5。
6.如权利要求3所述的有限状态向量量化的语音辨认方法,其中该P为正整数,其值可为16。
7.如权利要求3所述的有限状态向量量化的语音辨认方法,其中该Q为正整数,其值可为16。
8.如权利要求2所述的有限状态向量量化的语音辨认方法,其中该W为正整数,其值可为3。
9.如权利要求2所述的有限状态向量量化的语音辨认方法,其中该Y为正整数,其值可为3。
10.如权利要求3所述的有限状态向量量化的语音辨认方法,其中该Z为正整数,其值可为4。
全文摘要
本发明公开了一种有限状态向量量化的语音辨认方法,每个个别的声音以一由左到右的有限状态机来表示,并使用新的训练方法(Training Method),两段声音之间距离的度量(Distance Measure),采用振幅频谱dB值差的平方总和(square of error of magnitude spectrum),dB值是人耳度量声音音量的线性单位,因此这里所采用的距离的度量乃是仿真人耳,符合已发现并仍在使用中的物理定律,根据这个两段声音之间距离的度量,利用数学定理,推导出一语音特征向量(feature vector),及一公式利用此一特征向量计算两段声音之间差异的大小。语音模式的训练,乃是利用重复比对更新的方式,此语音模式的训练方法在数学上可以证明它是收敛的,也就是最终会得到其中最佳的语音模式。
文档编号G10L15/06GK1713272SQ20041004993
公开日2005年12月28日 申请日期2004年6月21日 优先权日2004年6月21日
发明者刘利诚, 刘怡萱, 刘宛灵, 杨志明, 吴生三 申请人:翔连科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1