语音识别系统中的置信度快速求取方法

文档序号:2829529阅读:268来源:国知局
专利名称:语音识别系统中的置信度快速求取方法
技术领域
本发明属于语音识别技术领域,具体地说,本发明涉及一种用于语音识别系 统的置信度快速求取方法。
背景技术
在自然条件下使用语音识别系统,不同于理想环境下的使用,这时语音识别 系统的性能会有很大的降低。而且对于真实的口语,在语音中会参杂很多非语音, 譬如非正常停顿、咳嗽声以及很多的环境噪声,这都给传统的语音识别系统达到 原有的识别性能造成了困难。另外,用户说的词汇如果不在语音识别系统预先设 定的领域范围内,也较容易造成识别错误。总之,对于商业化的语音识别系统, 用户的期望是尽可能的拒绝错误的语音,而置信度评价方法正是解决这些困难的 一种很好的途径。置信度评价方法可以对语音识别系统的识别结果进行假设检验,通过试验设 定的阈值对识别结果的可靠性进行评价,定位结果中的错误,从而提高识别系统 的识别率和稳健性。目前,两遍计算方法是计算置信度时应用较广的一种方法。输入语音首先通 过识别器被一遍解码,在这个过程中,对应于输入语音的词图或词序列被得到。 第二遍计算过程在前面得到的词图或词序列的基础上进行,计算置信度得分,如 图2所示。在两遍计算过程中,使用的声学模型并不相同,第二遍计算置信度时 的声学模型一般使用全音素模型。由于需要两遍解码,所以,置信度的计算复杂 度较高,需要占用更长的系统时间,不利于语音识别系统的在线使用。发明内容本发明的目的是克服现有技术的不足,综合考虑计算速度和稳健性,从而提 供一种只需进行一遍搜索的置信度快速求取方法。为实现上述发明目的,本发明提供的语音识别系统中的置信度快速求取方法 包括如下步骤-1)将待识别语音输入语音识别系统中。2) 对输入语音进行预处理,该预处理中包括分帧处理。3) 提取语音特征,获得每一帧语音的MFCC特征向量。4) 遍历所有语音帧,对于每一帧语音,根据状态图、声学模型和该帧语音 自身的MFCC特征向量,计算该帧语音对应于状态图中各状态的似然概率 p^/5^ ,其负对数为-<formula>formula see original document page 5</formula>其中,A为输入语音特征,&为其对应的马尔科夫模型的状态,该模型为正态分布^(//"27'); n是特 征向量的维数;5) 按照当前语音的帧号和状态号存储步骤4)中得出的似然概率p(^/^)。6) 判断当前指针是否指向状态图中的虛节点,如果判断为是,则进入步骤7) ;如判断为否,则对当前状态进行剪枝;所述虚节点是状态图中一个音素 结束的标志;7)计算剪枝后声学空间的似然概率和2>(xt |Sj) 态图中保留下来的所有状态的集合;P(x, |Sj)其中,^是剪枝后状8)计算广义后验概率为p(Sjlx,)9)分别计算每个音素的广义后验概率"i m_ sm卞1 其中,^是组成每个HMM的状态数。rA[J、 ^U]分别指语音输入数 据在当前状态的起始帧号和结束帧号,j是状态号;将音素的广义后验概率 作为该音素的置信度得分。上述技术方案中,所述步骤2)中对输入语音进行预处理包括对输入语音进行数字化、预加重高频提升、分帧及加窗处理。上述技术方案中,所述步骤3)中提取语音特征包括计算MFCC倒谱系数、 倒谱加权和计算差分倒谱系数。
上述技术方案中,所述步骤6)中剪枝过程采用基于帧同步束搜索的剪枝方法。本发明的优点是,只需要一遍解码,现有技术中,需要在进行音素搜索得到 音素候选后,为计算置信度再进行第二次搜索,而且两次搜索使用不同的声学模 型,本发明是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用 相同的声学模型计算置信度,因此只需一遍解码,节省了系统的运行时间和计算 的复杂度。


图1是本发明的置信度快速求取方法一个实施例的流程图; 图2是现有技术的置信度两遍搜索计算方法的示意图; 图3是本发明中状态图的搭建示意图; 图4是本发明中状态图的示意图;图5是本发明中基于状态图的置信度同步计算剪枝示意图; 图6是本发明中的一遍搜索方法与现有技术的两遍搜索方法的性能的R0C 曲线图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步地描述。 实施例如图1所示,本发明提供的语音识别系统中的置信度快速求取方法包括如下 步骤a) 将待识别语音输入语音识别系统。b) 语音预处理。主要是进行分帧处理。在本实施例中,预处理采用如下流程1.将语音信号按照16K采样率进行数字化2. 通过预加重进行高频提升.预加重滤波器是 //(z) = 1 — oz—1 , 其中《 = 0.983. 将数据进行分帧处理.帧长20ms,帧间重叠10ms.4. 加窗处理。窗函数采用常用的hamming窗函数,即= 0.54-0.46 cos("^) 0S"A^-1 iV — l
c) 提取语音特征。本发明采用MFCC ( mel-frequency cepstral coefficient),特征提取方法,具体流程如下5.计算MFCC倒谱系数c(w), lSmSiVc.其中乂为倒谱系数的个数,^=146. 倒谱加权。即调整倒谱系数各维的权重,、,iVe ,細、 t、 2 、w/加权后的倒谱系数^w) = c(w)'wt.(w) ,Kw《A^7. 计算能量特征和倒谱特征的一阶和二阶差分. 采用如下的回归公式计算差分倒谱系数鄉) 一 , 、其中A为归一化因子,r为整数,2r + 1为用于计算差分倒谱系数的语音帧数. 一般取7 = 2, a = 0.375 。8. 对于每一帧,生成一个39维的MFCC特征向量。 本发明还可以采用LPC特征提取方法,该方法为现有技术,不再赘述。d) 对于每一帧语音,根据状态图、声学模型和该帧语音自身的MFCC特征 向量,计算该帧语音对应于构成音素马尔可夫模型的每一个状态的似然概率,该似然概率P&A^是输入语音特征A同对应状态^的马尔可夫模型 的声学层得分。本步骤中所利用到的状态图的构建方法如下如图3所示,首先根据任务语法的内容搭建起一个基于词的搜索空间,即一 个词的网络,识别器将在这个词的网络上进行搜索,找到对应于输入语音的最好 的一条路径作为识别结果。在搜索以前,借助识别系统中字典的信息,把词的网 络展开成一个最小单位是音素的音素网络。每个节点由一个词变为一个音素,然 后每个音素再被声学模型中相对应的马尔可夫模型(HMM)所取代。每个马尔可 夫模型(HMM)由若干个状态组成,这样,最终的搜索空间就变成了一个状态图, 如图4所示。
在图4中,每个节点代表某个HMM中的一个状态。状态图中的任意一条路 径代表任务语法中的一个句子或词的候选。为了縮小搜索空间和降低存储所需要 的空间,还要对状态图进行合并处理,从而得到最后的状态图。在这个过程中, 要对每个节点进行前向合并和后向合并。前向合并时,查找具有相同前向路径的节点并进行合并;后向合并时,合并那些具有相同后向路径的节点。 计算每个状态的似然概率的方法如下采取遍历所有语音帧的形式,当一帧数据进入识别器,首先计算状态图中 当前帧对应每个状态的似然概率p"(/sj,此似然概率和状态转移概率的累积与 剪枝门限的比较将作为剪枝的依据。似然概率pO,/s^是输入语音特征A同对应 状态&的马尔可夫模型的声学层得分,该声学层得分的负对数为1 一 1 一- ln尸O, / ~)" (x, a ) = ^ (x, - A) E;1 - A)+" ln(2;r) + ln( z乂 ) 其中状态^的模型为正态分布ay;^,2y ,其具体数值可从声学模型中获得,A是语音帧的特征向量,;^和2:分别是状态&的模型的均值矢量和协方差矩阵,n是特征向量^的维数(即A,和2:的维数)。本实施例中采用的声学模型是包含5005个状态、16个高斯模型的声学模型。e) 按照当前语音的帧号和状态号存储步骤d)中得出的似然概率p&AsJ 。f) 判断指针是否指向虚节点,如果判断为是,则进入步骤g);如判断为否, 则对当前状态进行剪枝。在识别系统使用的状态图中,每个音素都以一个虚节点作为结束的标志。只 要搜索指针到达一个虚节点,则说明一个音素被识别出来。在识别器解码过程中,实行剪枝策略的目的是为了提高解码的速度,縮小搜 索空间。在图5中,实心的圆点代表剪枝后保留下来的状态,而空心的圆点代表 被剪掉的状态。如图所示,当某一状态对观察序列(本实施例中的观察序列为 MFCC特征向量)的出现的贡献太小,即该状态对于观察序列的似然概率p^As^ 小于预先设定的阈值时,则该状态被剪掉。本实施例中,在解码过程中使用了基 于帧同步束搜索的剪枝策略。搜索策略采用传统的viterbi算法。本实施例中, 剪枝门限设为200,剪枝的标准是把当前帧语音对于每个状态的概率的对数值, 与当前位置概率对数值的最大值剪去剪枝门限后的值进行比较,如果当前帧语音 对于每个状态的概率的对数值小于这个值将被剪掉。g) 计算剪枝后声学空间的似然概率和J]p(x,ISj),其中,/ *是剪枝后状态图中保留下来的所有状态的集合。剪枝后保留下来的这些状态的似然概率的累积比剪枝剪掉的那些状态的似然 概率的累积大得多,所以他们完全可以作为广义后验概率的分母,广义后验概率为P(sj lxt)= v / 、h) 计算每个音素的广义后验概率。在语音识别系统中,每个音素由一个马尔可夫模型(HMM)表示。每个音素 的广义后验概率定义为该音素对应的每个状态的后验概率的算术平均-其中,^是组成每个HMM的状态数。"、L.分别指语音输入数据在当 前状态的起始帧号和结束帧号,j是状态号。p(Sjlx,)即为步骤g)中得到的广义后验概率。i) 音素的广义后验概率即可作为该音素的置信度得分。使用一个用于实际电话语音识别系统测试的汉语的电话人名数据库对本发 明中的基于状态图的置信度同步估计算法进行试验。试验任务是评价一个包含 1278个人名字典的识别系统的识别率。测试语音是由包括3男3女在内的6个 说话人的正常语音。在测试集中,包括180个集外词。每个任务语法包括213 个人名。置信度的得分被用来拒绝那些测试集中的集外词。我们的目标是提高拒 绝率,也就是降低那些集外词的错误接收率(false accepted rate)。使用两种不同的算法计算置信度。 一种如图2所示,定义为两遍(2Pass)搜 索算法,另一种为本发明的基于状态图的置信度同步计算方法,定义为一遍(l Pass)算法,即同步估计算法。在两遍搜索算法中,使用两个不同的声学模型。
第一遍解码使用的是包含5005个状态、16个高斯模型的声学模型,而计算置信 度使用的声学模型是一个仅仅覆盖所有音素的较小模型,它包含1005个状态和 8个高斯模型。在一遍搜索算法中,使用一个声学模型,它包含5005个状态和 16个高斯模型。两种算法的性能曲线ROC(receiver operating characteristic)如图6所示。从图中可以看出,本发明所使用的一遍搜索算法的性能要好于两遍搜索算法。本发明 采用的搜索算法的等错率为16.1%,两遍搜索算法的等错率为21%。由于在一遍 搜索算法中只使用了一个声学模型而且计算置信度时所使用的模型比较精细,所 以,虽然采用剪枝后的声学空间的计算是一个近似值,但性能依然没有降低。此外,两种方法的计算复杂度也不相同,实现中一遍搜索算法的速度要比两 遍搜索算法提高16%。
权利要求
1、一种语音识别系统中的置信度快速求取方法,其特征在于,包括如下步骤1)将待识别语音输入语音识别系统中;2)对输入语音进行预处理,该预处理中包括分帧处理;3)提取每一帧语音的MFCC特征向量;4)遍历所有语音帧,对于每一帧语音,根据语音识别系统中状态图和声学模型与该帧语音自身的MFCC特征向量计算该帧语音对应于状态图中每一个状态的似然概率p(xt/sj),该似然概率的负对数
2、 按权利要求1所述的语音识别系统中的置信度快速求取方法,其特征在 于,所述步骤2)中对输入语音进行预处理包括对输入语音进行数字化、预加重 高频提升、分帧及加窗处理。
3、 按权利要求l所述的语音识别系统中的置信度快速求取方法,其特征在 于,所述步骤3)中提取语音特征包括计算MFCC倒谱系数、倒谱加权和计算 差分倒谱系数。
4、 按权利要求1所述的语音识别系统中的置信度快速求取方法,其特征在 于,所述步骤6)中剪枝过程采用基于帧同步束搜索的剪枝方法。
全文摘要
本发明涉及一种用于语音识别系统的置信度快速求取方法,包括预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(x<sub>t</sub>/s<sub>j</sub>);按照帧号和状态号存储似然概率p(x<sub>t</sub>/s<sub>j</sub>);根据似然概率p(x<sub>t</sub>/s<sub>j</sub>)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,而本发明是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,因此只需进行一次搜索,节省了系统的运行时间和计算的复杂度。
文档编号G10L15/00GK101118745SQ20061008913
公开日2008年2月6日 申请日期2006年8月4日 优先权日2006年8月4日
发明者滨 董, 赵庆卫, 颜永红 申请人:中国科学院声学研究所;北京中科信利技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1