一种发音稳定段辅助的语音识别优化解码方法及装置的制作方法

文档序号:2833673阅读:414来源:国知局
专利名称:一种发音稳定段辅助的语音识别优化解码方法及装置的制作方法
技术领域
本发明涉及语音信号处理中分频带能量计算、语音识别中的帧同步的Viterbi束搜索领域,尤其涉及一种发音稳定段辅助的语音识别优化解码方法。
背景技术
解码算法是语首识别系统的核心模块之一。解码算法,或称搜索算法,是利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),按照一定的优化准则,在指定的空间中(从高层至底层依次为词、声学模型、HMM状态空间),寻找最优词序列的过程。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。整个解码过程被分解成扩展、打分、路径合并、剪枝、最优路径回溯五个阶段(参考文献I =Xavier L Aubert,“An Overview of Decoding Techniques for Large Vocabulary ContinuousSpeech Recognition,,,Computer Speech and Language, vol. 16, no.1, pp. 89-114, Jan. 2002.)。从整体上讲,解码器在解码过程中执行了两个最主要的操作1)扩展阶段产生所有可能的候选词序列,同时将相似的候选词序列以一定的结构合并,最终构建一个由N元文法及声学模型状态支撑而形成的一个庞大的有限状态网络,作为语音识别的搜索空间。2)搜索阶段在这一阶段,完成活动路径的概率计算、路径查找、路径得分比较、路径合并、插入、删除、替换等操作。由于隐马尔科夫模型(Hidden Markov Model, HMM)能够很好地描述语音的时变性和平稳性,传统的语音识别系统多采用HMM为基本声学单元进行建模,并且已成功应用于大词汇量连续语音识别(Large VocabularyContinous Speech Recognition, LVCSR)的声学建模(参考文献 2 :L. R. Rabiner, " A tutorial on hidden Markov modelsand selected applications inspeech recognition " , inProc.1EEE, vol.77, no. 2,PP. 257-285,1989.)。但是,利用HMM模型为语音信号建模是建立在语音信号短时平稳的假设上,因此HMM只能描述短时语音信号,这种声学建模方法缺乏利用语音的长时信息,而以长时的语音段为建模单元的声学建模方法虽然更能够反映语音信号非平稳的本质,但由于计算复杂度较高,限制了它在语音识别中的应用(参考文献3 :M.0StendOrf,V.DigalakiS,and 0. Kimball. From HMM ' s tosegment models A unified view of stochasticmodeling for speech recognition.1EEE Transactions on Speech Audio Processing,4(5) :360-378, Sept. 1996.)。此外,传统的语音识别系统的解码模块在为每一条路径计算得分时,会使用声学模型得分与语言模型得分,并将二者融合后的总概率作为扩展或剪枝的依据。在当前帧t下,路径的总概率为P(t) = P(t-l) + a ^+Q2Plm (I)其中P(t-l)是历史路径得分,Paffl为当前帧的声学概率,Plffl为语言模型概率。α !和α2分别为声学概率与语言模型概率的权重。上述这种解码方式仅利用了语音帧的声学及语言学的统计特性。事实上,每一帧语音都属于发音过程的发音起始、发音持续、发音结束等不同阶段,因此具有不同的发音稳定性。一般来讲,处于发音起始及发音结束阶段的语音帧属于不稳定帧,而处于发音持续阶段的语音帧属于稳定帧。但是,传统的语音识别系统中缺乏利用这种语音帧的发音稳定性信息。

发明内容
(一 )要解决的技术问题本发明的目的在于解决现有技术中基于隐马尔科夫模型HMM的建模缺乏利用长时的语音段层次信息,以及现有搜索算法中缺乏利用语音帧的发音稳定性信息等不足。(二)技术方案为了解决上述技术问题,本发明首先对语音信号进行分析,检测出语音中发音动作平稳的语音段,即发音稳定段,然后作为语音段层知识加入到解码过程中。在解码方面,根据待解码语音帧的稳定性信息,以及路径扩展到的位置,有选择地跳过部分路径,不再对其进行解码。从路径总概率计算的角度讲,相当于增加了新的限制,修改了路径总概率的计算方法,从而实现了基于发音稳定段的语音识别解码算法,提高了声学模型解码速度和精度。本发明的提出的基于发音稳定段的语音识别解码方法,包括下列步骤步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线;步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点;步骤三、对任一跳变点p,设定一时长r,定义跳变点P附近的[p-r,p+r]区域为语音信号的非平稳段区域,未被划定为非平稳段区域的部分为发音稳定段区域;步骤四、在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。本发明还提出了一种基于发音稳定段的语音识别解码装置,其包括获取装置,用于获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线.确定装置,用于由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点;划分装置,用于对任一跳变点p,设定一时长r,定义跳变点P附近的[p-r,p+r]区域为语音信号的非平稳段区域,其中未被划定为非平稳段区域的部分为发音稳定段区域;语音识别装置,用于在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。(三)有益效果本发明所提出的一种将长时的语音稳定性信息融入语音识别解码过程中的方法,融合了长时语音信息的新方法能够弥补基于隐马尔科夫模型HMM建模方法中语音信号短时平稳的假设,更能反映语音信号非平稳的本质。另一方面,通过融合语音帧的稳定性信息,修改解码过程中路径扩展的方式,可以减少部分不必要的隐马尔科夫模型HMM之间的扩展,从而降低语音识别解码方法的复杂度,有利于减少语音识别的时间。同时,在相同的运算复杂度下,识别系统能够在更宽泛的范围内,对更多潜在的最优路径进行计算,有利于找到最优的识别结果,最终提高语音识别系统的准确率。


图1是根据本发明的一种基于发音稳定段的语音识别解码方法的流程图;图2是根据本发明的一个计算语音信号语谱图的流程图;图3是根据本发明的一个计算分频带能量及分频带能量变化率的流程图;图4是根据本发明的一个语音信号能量跳变点检测的流程图;图5是根据本发明的一个划定语音信号的发音非稳定段及发音稳定段的流程图;图6是根据本发明的一个将扩展划分为隐马尔科夫模型内部扩展与隐马尔科夫模型之间的扩展流程图;图7是根据本发明的一个根据语音帧的发音稳定性删除隐马尔科夫模型之间的扩展、保留隐马尔科夫模型内部扩展的解码过程的流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。本发明在对语音信号进行分析的基础上,寻找到语音信号中的发音稳定段区域。在解码时,利用待解码语音帧的发音稳定性信息(即考察待解码语音帧是否位于发音稳定段区域),修改解码过程中路径扩展的规则,降低解码方法的复杂度,从而降低语音识别系统所消耗的时间。另一方面,在相同的解码时间内,识别系统能够在更宽的范围内进行搜索,从而可以获得准确度更高的识别结果。具体的步骤如下一种基于发音稳定段的语音识别解码方法包括下列步骤步骤a :计算语音信号的语谱图,得到语音信号时频域上的能量分布;步骤b :根据语音信号在时频域上的能量分布,计算信号的分频带能量曲线,以及分频带能量随时间的变化率曲线;步骤c :由分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的时间点;步骤d :根据能量跳变的时间点,划定语音信号的发音非稳定段区域和发音稳定段区域;步骤e :在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展。其中,根据路径的扩展在隐马尔科夫模型中发生的位置,可以将路径的扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类。其中,在步骤a中,所述对语音信号计算语谱图,得到信号在时频域上的能量分布,包括对原始语音信号加汉宁窗,其中窗长可以选用为6ms,巾贞移可以选用Ims,再经过快速傅里叶变换(FFT),得到语音信号在时频域上的能量分布。在步骤b中,根据所述语音信号在时频域上的能量分布,计算信号的分频带能量曲线,以及分频带能量随时间的变化率曲线,具体步骤包括
对语音信号s (η)进行预加重,预加重系数a = 0.97。预加重后的语音信号S2 (η)为s2(n) = s(n)-a*s(n-l)。通过预加重,消除发生过程中声带和嘴唇的效应,来补偿语音信号被发音系统所压抑的高频部分。之后,对语音信号S 加汉宁窗二0.5(1-COS(^r)),得到s, (η)=
Λ — I
s2(n)*w(n)。其中N为窗内采样点的个数。在本例中N = O. 006*16000 = 96 ;0. 006表示窗长(单位秒),16000表示语音采样率(单位赫兹)。对s' (η)进行FFT,得到频谱上的能量分布。计算O 2kHZ范围内三个频带上的频谱能量0 O. 8kHZ、0. 8 1. 5kHZ、1. 2 2.0kHZ。后两个频带略有重叠是为了尽可能捕捉共振峰变化。为克服信号中的短时的声门脉冲及噪声扰动,方法采用当前帧前后特定时间(如当前帧前后各10ms,共20ms)范围内的信号对当前帧的频谱能量进行平滑,得到平滑后的分频带能量曲线E(t)。 = +其中e(t+tQ)表示t+tQ时刻的初始分频带能量。其中M = 10,表示平滑时采用的当前帧前后的语音帧数量,总数量为2M+1。分频带能量随时间t的变化率曲线AE(t)通过下式得到Α1·;(Ι) = !■;(/ + 1^-) - /·;(/ - 1^ψ)
Ti)"I Pll其中,Len表示时间范围阈值,表示从 --时刻至〖+——时刻,经过Len时长后能
2 2
量的变化情况,而非瞬时变化。方法中可以采用Len = 50ms,得到分频带能量随时间的变化率曲线。在步骤c中,所述根据分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的时间点,具体包括如下步骤根据所述分频带能量随时间的变化率曲线AE(t),选择所述分频带能量随时间的变化率超过一定阈值(9db/ms)的语音帧作为可能的跳变点。由于发音器官动作较快时,语音能量在短时间内可能存在多个跳变点,方法进一步对间距过近的候选点进行筛选。例如,对第t帧,如果在[t-Ts,t]范围内检测出多个跳变点,则只保留其中能量变化率最大的一个作为最终跳变点,其中,可以选择时间区域阈值Ts = 20ms。在步骤d中,所述根据能量跳变点,划分语音的发音非稳定段区域及发音稳定段区域,具体包括以下步骤对任一跳变点p,设定P前后r帧范围[p-r,p+r]内的语音段为该频段的发音非平稳段。其中r为非平稳段区域划定参数。!■取值越大,非平稳段区域的范围越广,其中可以选用r= 10。对三个子频带,分别计算得到其发音非平稳区域,其中不同子带的发音非平稳区域之间可能会有交叠。将三个子频带的非平稳段区域合并,得到整个语音信号的非平稳段区域。其中语音信号中未被划定为非平稳段的部分,即为检测到的发音稳定段。在步骤e中,所述在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展,具体步骤包括根据检测得到的发音稳定段区域判断当前帧Ot的发音稳定性若Ot位于发音稳定段区域,则称Ot为发音稳定帧,否则为发音非稳定帧;将发音稳定性已知的当前帧Ot送入解 码器进行解码。在解码时,当前帧所处的状态被称为激活状态,扩展到激活状态的路径被称为处于激活状态的路径。将所有处于激活状态的路径的集合记为L,路径扩展到的状态的集合记为SS (State Set)。那么,L与SS存在这样一种关系L中任意一条路径I,是在解码Ow时(即对第t-Ι时刻的语音帧进行解码)扩展至状态s后形成的,且s e SS。也即,s是路径I的状态序列中最后一个状态。状态集合SS中仅包括路径集合L中任意路径I的状态序列中的最后一个状态。在第t时刻,即对Ot解码时,将根据HM 拓扑结构,预测路径I可能到达的所有状态s',其中s'表示s经过一次或多次跳转到达的第一个发射状态。显然,s与s'可能位于同一个HMM(HMM内部扩展),也可能位于不同的HMM(HMM之间的扩展)。若当前帧Ot为稳定帧,且s'与s属于不同的HM,则并不进行从s至s'的扩展;否贝U,若当前帧Ot为稳定帧且s'与s属于同一个HM,或者当前帧Ot为非稳定帧,则允许路径I从s扩展至V,扩展后的新路径记为Γ,其中,路径Γ的状态序列比路径I的状态序列多一个状态s',同时计算当前帧0,在8'上的声学概率p(0t|S'),并将s'加入到t时刻已扩展到的状态的集合newSS,将路径I'加入到处于激活状态的路径的集合newL。其中,扩展后得到路径1,的总概率,是在路径I的总概率基础上乘以当前帧0,在8'上的声学概率P(ot|s')得到的,以对数形式表示,即路径Γ的总概率等于路径I的总概率加IogP(C)tIs' ) O此外,newSS及newL分别只包含当前时刻下新扩展到的状态的集合及新形成的路径的集合。依次处理完SS中所有的状态后,会得到在第t时刻新扩展到的状态的集合newSS,以及新形成的路径的集合newL。例外的是,对第一个语音帧O1解码前,上述路径的集合L及状态的集合SS为空。对语音帧O1进行解码时,将在所有HMM的第一个发射状态上计算声学模型概率,并将这些状态加入到newSS及newL。其中,newL中所有路径的状态序列只包含唯一的状态,且任一条路径Γ的总概率等于IogP(Ot I s'),其中s'为路径Γ扩展到的状态。在完成当前帧的路径扩展后,在下一步的剪枝过程中,首先选择newL中总概率最大的路径,记此总概率的对数值为Pmax,设定剪枝阈值Pb·,通过剪枝,裁减掉newL中的对数概率值低于Pmax-Pb.的所有路径,同时将这些路径所到达的状态从newSS中删除,完成对当前帧Ot的解码。使用剪枝后的newSS对SS进行更新,替换SS中的内容,并将newSS置空,使用剪枝后的newL替换L,并将newL置空,可以开始对下一帧0t+1的解码。基于发音稳定段的解码过程,通过记录t时刻发生的所有的状态跳转{St_1; St},其中St_i与St可能位于同一 HMM内部,也可能分属于不同的HMM ;根据当前巾贞Ot的发音稳定性及Sg与St在HMM中的位置关系,确定路径扩展的方式若Ot为发音稳定帧,且从Sw至St的跳转为隐马尔科夫模型之间的扩展,则将此扩展删除;否则,执行扩展。其中所述根据路径的扩展在隐马尔科夫模型中发生的位置,将路径的扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类,具体步骤包括首先,隐马尔科夫模型采用从左向右单向、带自转的拓扑结构,模型只有惟一的一个初始状态和一个终止状态,并且只要进入一个新的状态就不能返回到以前的状态。除初始状态及终止状态外,所有中间状态均采用高斯混合模型来描述语音帧特征所服从的分布。所以,在初始状态及终止状态上并不消耗语音帧,只有在中间状态(也称发射状态)上才会消耗语音帧,并计算得到语音帧在相应状态所对应的高斯混合模型上的声学概率。在帧Ot时刻扩展某一路径I时,根据隐马尔科夫模型的拓扑结构,计算Ot时刻I扩展到的隐马尔科夫模型的状态st,以及前一帧CV1在隐马尔科夫模型中所处的状态Sg,若St与Sg位于同一个隐马尔科夫模型,即St与Sg之间不存在隐马尔科夫模型的初始状态或终止状 态,则称在t时刻发生的从Sg至St的路径扩展为隐马尔科夫模型的内部扩展。所以,此类扩展发生在隐马尔科夫模型内部各状态间,扩展的方向只受到隐马尔科夫模型拓扑结构的限制。扩展时,解码器只计算语音帧在相应状态上的声学概率。例如,采用带自转的从左至右线性拓扑结构的隐马尔科夫模型对上下文相关的三音子“ Ι-al+b”进行建模。其中,“ Ι-al+b”表不在前一个发音为“ I ”、后一个发音为“b”的情况下音素“al”的发音的模型。该HMM模型包括5个状态,3个发射状态,其中第1、第5状态为非发射状态,第2、3、4状态为发射状态(分别记为第1、2、3发射态)。在“1-al+b”上进行打分时,假设在第t帧下,路径集合中的某一条路径I扩展至“Ι-al+b”的第3个状态(即第2发射态)“State 3”,且记此时刻(帧)t路径I的总概率(语音开始至第t帧的声学模型概率与语言模型概率的乘积,在对数域为二者的加和)为P,那么,在下一时刻t+Ι,由隐马尔科夫模型的拓扑结构可知,I扩展成两条不同的路径I)路径I在“State 3”内自转,得到新的路径Γ (Γ的状态序列比I的状态序列多一个“State 3”),相应的概率更新为p' = P+log(P(0t+11 λ state3)),其中λ state3表示“State 3”的声学模型参数,本例中为高斯混合模型的参数,P(0t+11 Astate3)表示t+1时刻的语音巾贞0t+1在状态“State 3”上的声学概率,log(P(0t+1| Xstate3))表不声学概率的对数值;2)路径I跳转至“State 4”,得到新的路径I" (I"的状态序列比I的状态序列多一个“State 4”),相应的概率更新为 p' = p+log (P (0t+1 Xstate4)),其中 λ state4 表示“State4”的声学模型参数,p(0t+11 Astate4)表不t+1时刻的语音巾贞0t+1在状态“State 4”上的声学概率,log(P(0t+1 Astate4))表示声学概率的对数值;对于路径I来讲,在t+Ι时刻路径I的扩展是在模型“Ι-al+b”内部的各状态间进行的,称这类扩展为隐马尔科夫模型内部扩展。此外,根据隐马尔科夫模型的拓扑结构,计算当前帧Ot所处的状态St,以及前一帧CV1的状态St_i,若St与St_i分别属于不同的隐马尔科夫模型,则称在t时刻从St_i至St的路径扩展为隐马尔科夫模型之间的扩展。例如,路径I "在t+Ι时刻下位于“State 4”,在下一语音帧t+2,由隐马尔科夫模型的拓扑结构可知,I"同样会扩展成两条不同的路径,即在“State4”上完成自转及跳至下一状态。但是,由于“State 4”是“1-al+b”模型的最后一个发射态,“State 5”不是发射状态,既不消耗语音帧也不输出概率,因此,在跳转至下一个发射态时,扩展是在不同的HMM之间进行的解码器首先根据词树找到当前模型“Ι-al+b”的相邻模型,如“al-b+o3”。此时,t+2时刻I"的扩展发生在“Ι-al+b”的最后一个发射态“State 4”与“al_b+o3”的第一个发射态(即第2个状态)“State 2”之间。从发射态的角度讲,是从一个HMM模型的最后一个发射态跳转至另一个HMM模型的第一个发射态。扩展是跨HMM模型进行的,称为隐马尔科夫模型之间的扩展。在汉语大词汇量连续语音识别任务下,实验给出了使用基于发音稳定段解码算法前后的系统的识别精度。实验训练数据为863连续语音库,录音语料取自《人民日报》,考虑了语音的声学平衡和覆盖性。录音环境为安静的实验室环境,采样率16KHz,采样位数16bits。使用83位男性说话人的数据训练声学模型(48373句,55. 6小时)。测试数据为863-Test数据集的240句男声语料。实验表明,通过使用语音帧的稳定性信息,在解码时对路径扩展的方式进行预测,可以减少不必要的HMM之间的扩展,将解码速度提升22. 1%。通过限制部分不必要的HMM之间的扩展,解码器能够在相同的解码时间内,在更宽的Beam范围内寻找最优路径。在扩大Beam后,能够避免最优路径在局部得分过小被剪枝,从而使局部得分较低、但整体得分较高的路径存活下来,避免了原系统的部分剪枝错误。实验结果表明,可以将系统的汉字相对错误率降低5. 24%。以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种基于发音稳定段的语音识别解码方法,包括下列步骤 步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线; 步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点; 步骤三、对任一跳变点P,设定一时长r,定义跳变点p附近的[p-r,p+r]区域为语音信号的非平稳段区域,未被划定为非平稳段区域的部分为发音稳定段区域; 步骤四、在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。
2.如权利要求1所述的方法,其特征在于,步骤一中,所述获取语音信号在时频域上的能量分布,具体为 对所述语音信号加汉宁窗,并对加窗后的语音信号经过快速傅里叶变换(FFT),得到语音信号在时频域上的能量分布。
3.如权利要求2所述的方法,其特征在于,所述汉宁窗的窗长为6ms,巾贞移为1ms。
4.如权利要求1所述的方法,其特征在于,步骤二中,所述根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,具体步骤包括 计算O 2kHZ范围内三个频带上的频谱能量0 0. 8kHZ、0. 8 1. 5kHZ、l. 2 2.OkHZ;采用当前帧前后特定时间范围内的信号对当前帧能量进行平滑,得到平滑后的分频带能量曲线E (t)
5.如权利要求4所述的方法,其特征在于,步骤二中,所述计算分频带能量随时间的变化率曲线,具体通过下面公式得到
6.如权利要求1所述的方法,其特征在于,步骤二中,所述根据分频带能量曲线及分频带能量变化曲线,确定语音信号能量发生跳变的时间点,包括以下步骤 根据所述能量曲线E(t)及分频带能量随时间的变化率曲线AE(t),选择能量变化率超过一定阈值的语音帧作为跳变点; 其中,对于在一预定时间范围内存在多个跳变点时,选择能量变化率最大的一个作为跳变点。
7.如权利要求1所述的方法,其特征在于,步骤四中,所述根据路径的扩展在隐马尔科夫模型中发生的位置,将所述前一帧到当前帧的路径扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类,具体包括以下步骤根据隐马尔科夫模型的拓扑结构,计算当前帧Ot所处的状态st,以及前一帧(V1的状态 Sg,若St与Sg位于同一个隐马尔科夫模型,则称在t时刻从前一帧到当前帧的路径扩展为隐马尔科夫模型的内部扩展;否则,若St与st_i分别属于不同的隐马尔科夫模型,则称在 t时刻从前一帧到当前帧的路径扩展为隐马尔科夫模型之间的扩展。
8.如权利要求5所述的方法,其特征在于,所述在语音识别解码过程中,对于当前帧在所述发音稳定段区域,且前一帧到当前帧的路径的扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展具体包括如下步骤在解码时,当前帧所处的状态被称为激活状态,扩展到激活状态的路径被称为处于激活状态的路径,将所有处于激活状态的路径集合记为L,路径扩展到的状态集合记为SS,SP L中任意一条路径1,是在第t-Ι时刻扩展至状态s时形成的,且s e SS ;在第t时刻,预测路径I可能到达的所有状态s';若当前帧0,为稳定帧,且s至s'的跳转为隐马尔科夫模型之间的扩展,则并不进行路径I从s至V的扩展;否则,允许路径I从s扩展至V,扩展后的新路径记为Γ,其中,路径I,的状态序列比路径I的状态序列多一个状态s ^,并将s,加入到t时刻已扩展到的新的状态集合newSS,将路径I,加入到t时刻处于激活状态的新的路径集合newL ;依次处理完SS中所有的状态后,得到在第t时刻扩展到的状态的集合形成新的状态集合newSS,以及处于激活状态的路径的集合形成新的路径集合newL ; 使用newSS对SS进行更新,即将SS中的状态全部替换为newSS的状态,并使用newL对L 进行更新,即将L中的路径全部替换为newL中的路径,并将newSS和newL置空,然后开始对下一帧0t+1的解码。
9.如权利要求8所述的方法,其特征在于,在得到第t时刻的新的状态集合newSS,以及处于激活状态的新的路径集合newL后,选择newL中声学概率和语言模型概率之总和最大的路径,并记t时刻当前帧在该路径上对应的当前状态s'的声学概率的对数值为pmax, 设定剪枝阈值Pb·,通过剪枝,裁减掉newL中所述声学概率的对数值低于Pmax-Pbffiim的所有路径,同时将这些路径所到达的状态从newSS中删除,完成对当前帧Ot的解码;然后使用剪枝后的newSS和newL分别对SS和L进行更新,并开始对下一巾贞0t+1的解码。
10.一种基于发音稳定段的语音识别解码装置,其包括获取装置,用于获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线;确定装置,用于由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点;划分装置,用于对任一跳变点P,设定一时长r,定义跳变点P附近的[p-r,p+r]区域为语音信号的非平稳段区域,其中未被划定为非平稳段区域的部分为发音稳定段区域;语音识别装置,用于在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。
全文摘要
本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。
文档编号G10L19/02GK103021408SQ20121051476
公开日2013年4月3日 申请日期2012年12月4日 优先权日2012年12月4日
发明者刘文举, 杨占磊 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1