一种应用于语音识别系统的高性能置信度处理方法

文档序号:2830895阅读:614来源:国知局
专利名称:一种应用于语音识别系统的高性能置信度处理方法
技术领域
本发明涉及一种置信度处理方法。更具体地说,本发明涉及一种应用于语音识 别系统的高性能置信度处理方法。
背景技术
随着语音识别技术在不同领域被越来越多地应用,语音识别系统的识别率和稳健 性变得越来越重要,用户对于所使用的语音识别系统识别结果的可靠程度越来越关 心。在自然条件下使用语音识别系统,不同于理想环境下的使用,这时语音识别系 统的性能会有很大的降低。而且对于真实的口语,在语音中会掺杂很多非语音,譬 如非正常停顿、咳嗽声以及其他的环境噪声,这都给传统的语音识别系统达到原有 的识别性能造成了困难。特别对于电话语音识别系统,用户的期望是尽可能地拒绝 错误的语音同时对于集外词表能够准确拒识,置信度的计算是解决这些困难的一种 很好的途径。
置信度评价方法可以对语音识别系统的识别结果进行假设检验,通过试验设定 的阈值对识别结果的可靠性进行评价,定位结果中的错误,从而提高识别系统的识别 率和稳健性。目前已经有许多处理置信度的方法,但由于实际应用的语音识别系统 一方面要求实时性比较高,另一方面也希望置信度的分数比较可靠,目前的置信度 处理方法很难同时满足这两个要求。在已有专利CN02148686.7中提出的置信度处理 方法,它们虽然比以前的方法在速度和精度上都有提高,但是它的主要缺陷有其一 是两次利用声学模型对输入语音进行解码,第一次利用声学模型目的是对原始语音 进行单遍解码得到目标结果,第二次利用声学模型目的是对识别的目标结果再次在 原始语音上进行强制对齐,最后得到相应的置信度分数,虽然其在处理方法,存储 结构上有很大的优化提高速度,但其两遍解码的框架限制了它进一步提高其系统的 速度;其二,只考虑了声学模型的知识源计算置信度,单一的知识源计算出置信度 结果的可靠性有限。

发明内容
本发明要解决的技术问题是提供一种应用于语音识别系统的高性能置信度处理
5方法,本发明的目的在于通过新的置信度处理方法, 一方面提高置信度处理的速度, 降低置信度的计算在整个语音识别系统中所占的时间,另一方面提高置信度结果的 可靠性,从而进一步提高语音识别系统的实时性(即速度)和稳健性。
为了达到上述目的,本发明提供了一种应用于语音识别系统的高性能置信度处 理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到的多个 知识源,通过多个知识源融合计算置信度,具体包括以下步骤
1 )使用电话语音识别弓i擎对输入语音逐帧进行解码识别;
2) 在步骤1)还没有解码完最后一帧语音前,在每一帧语音数据解码中,首先 得到当前帧活跃状态的观察概率P(xJ、),其中《是当前帧语音信号的特征,^是当
前活跃状态集合D中的一个;同时将所有活跃状态的观察概率相加并保存到内存中;
3) 解码完最后一帧数据,在得到识别结果前,获取输入语音的词图(lattice);
4) 在步骤3)中得到词图后,随即可以得到识别结果,也即完成了语音数据的 解码识别过程,得到识别结果同时还可以得到其相对应的音素(phone)序列,以及 每个音素(phone)所对应的起止时间点和每个音素(phone)的识别似然概率;
5) 完成步骤4)后,进行同步声学后验概率计算,即,通过前面保存的每一帧 的活跃状态的观察概率之和,和每个音素(phone)的起止时间及其似然概率,求出 相应的每个音素(phone)的后验概率;
6) 完成步骤4)后,进行词图(lattice)后验概率计算,gp,通过前面得到的输 入语音词图(lattice),根据词图(lattice)上的信息相应也可以计算出每个音素(phone) 的后验概率,通过算术平均得到对数域的词图(lattice)后验概率;
7) 将在步骤5)得到的同步声学后验概率和步骤6)得到的词图(lattice)后验 概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率;
8) 将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置 信度分数,即为最后得到的识别结果的置信度。
另外,本发明的应用于语音识别系统的高性能置信度处理方法中的所述步骤5) 和步骤6)是相互独立的,两者没有先后次序。
本发明的优点在于
本发明的应用于语音识别系统的高性能置信度处理方法,只使用了一遍语音识 别解码,同时利用了多个知识源,与以往的方法相比,该方法在大幅提高计算速度的同时,也使置信度计算的结果更为准确有效。在所作的统计实验中,使用本发明 计算方法的语音识别系统置信度结果的计算速度及有效性均高于专利CN02148686.7 中提出的处理方法。


图1是语音识别结果置信度计算的框图2是在得到识别结果的同时生成的词图结构。
具体实施例方式
下面结合具体实施例和附图对本发明进行详细描述。 实施例1
本发明提供的应用于语音识别系统的高性能置信度处理方法,包括以下步骤
1) 使用中科信利电话语音识别引擎对输入语音逐帧进行解码识别,该识别引擎 的解码过程是基于TIME-SYNCHRONOUS VITERBI BEAM SEARCH算法(在文献 Xuedong Huang, Alex Acero, Hsiao—Wuen Hon. Spoken Language Processing[M]. New Jersey: Prentice Hall PTR,2001.中有介绍);
2) 在步骤1)还没有解码完最后一帧语音前,在每一帧语音数据解码中,首先 得到当前帧活跃状态的观察概率尸"l^),其中《是当前帧语音信号的特征,^是当
前活跃状态集合D中的一个;同时将所有活跃状态的观察概率相加并保存到内存中;
3) 解码完最后一帧数据,在得到识别结果(识别结果为输入语音对应的文本)
前,可以得到输入语音的词图(lattice), lattice的具体结构(可以参见图2);
4) 在步骤3)得到词图后,随即可以得到识别结果,也即完成了语音数据的解 码识别过程。得到识别结果同时还可以得到其相对应的音素(phone)序列,以及每 个音素(phone)所对应的起止时间点和每个音素(phone)的识别似然概率;
5) 完成步骤4)后,进行声学后验概率计算,即,通过前面保存的每一帧的活 跃状态的观察概率之和,和每个音素(phone)的起止时间及其似然概率,求出相应 的每个音素(phone)的后验概率,这里计算每个音素(phone)的后验概率对数值 是每一帧语音的后验概率对数值的算术平均,在计算每一帧语音的后验概率上,以 往的方法是在后验概率公式的分母中求的是声学模型中所有状态的观察概率和,而 该方法中计算则是考虑前活跃状态集合中含有的状态的观察概率和为分母,这样一是可以提高计算的速度,二是让后验概率更加准确。最后将识别结果中所有音素 (phone)的后验概率对数值求算术平均得到该识别结果的对数域声学后验概率;
同步声学后验概率计算具体如下
参考图1,根据图1语音识别结果置信度计算的框图,首先考虑每一帧的后验概
率计算,对于每一帧语音输入信号;c,, t=l,2....T,其对于每一帧语音信号的后验概
率为尸0 ,lx,),定义为
<formula>formula see original document page 8</formula> (i)
其中&是指识别结果中X'所属的状态,D为识别过程中当前时刻t活跃状态的集
合,^是活跃状态集合中的状态。
在解码识别过程中,同时保存了每一帧语音信号的后验概率p(Aix,)的分母部分
<formula>formula see original document page 8</formula> (2) 当识别过程结束,得到识别结果为R,其中包含N个音素(phone),其音素(phone)
序列为尸/ 。/^....尸~—,,而每个音素(phone)对应的语音帧序列AA......&。
那么每个音素(phone)的对数域后验概率计算如下
<formula>formula see original document page 8</formula>
由于计算每个音素(phone)的后验概率的分母部分fp^O是预先保存好的,而
分子部分fjp(x,k);7CO是识别结果中该个音素(phone)的似然概率也是已知的。
所以计算每个音素(phone)的后验概率基本不需要额外的时间。
有了每个音素(phone)的后验概率,下面给出整个识别结果R的基于声学模型 的后验概率i^。一/R)的计算公式 <formula>formula see original document page 8</formula>
6)完成步骤4)后,进行词图(lattice)后验概率计算,g卩,通过前面得到的输 入语音词图(lattice),根据词图(lattice)上的信息相应也可以计算出每个音素(phone) 的后验概率,通过算术平均得到对数域的词图(lattice)后验概率;
词图(lattice)后验概率计算如下图2中是在得到识别结果的同时生成的词图(lattice)结构。其中图中的每一条 边(edge)代表的是一个音素(phone),每一条边(edge)的起始点,表示这个音素
的起始时间^和。每一条边上的值表示它的后验概率Edge(i)(其主要计算公式-
Edge (i)=词图(lattice)中通过该边的所有路径概率之和,具体步骤可以通过前向 后向算法由词图(lattice)的信息计算得到。文献F.Wessel. Word Posterior Probabilities for Large Vocabulary Continuous Speech
Recognition[D].Dissertation,Aachen,Germany,2002-07中有具体介绍),图2中给出计 算好的每条边的后验概率Edge(i)以及它们代表的相应因素(phone)。
假设得到的识别结果为R,其中包含N个音素(phone),其音素(phone)序列
为7^/^....尸~—1,对应的每个音素(phone)的起始时间为Z,和^ (具体可以见图2中
底部给出的识别序列R的时间信息可以得到相应的^和/。),对于^和^间的任一时
刻t,设其包含的和当前音素相同的边(edge)的集合为《(可以见图2中Phone-J
的虚线中对应的词图中的两条Phone=J的边),则对于音素/^,时刻t对应的后验概率 计算如下
,10g[J^辆)] (5)
那么当前音素的后验概率计算公式如下
,,)=7^~t, (6)
、—、'=,s
从而整个识别结果的基于词图(lattice)的后验概率iL,JR)计算如下
其中,上述步骤5)和步骤6)是相互独立的,两者没有先后次序。
7) 将在步骤5)得到的同步声学后验概率和步骤6)得到的词图(lattice)后验 概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率;
8) 将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置 信度分数,即为最后得到的识别结果的置信度。 线性融合置信度计算如下
通过上面步骤l,步骤2分别计算了声学后验概率和词图(lattice)后验概率。通过实验数据可以估计出线性融合系数A以及后验概率和置信度分数的映射函数 CM職w/gmod(p) (8)
其中CM^^为最后置信度分数,p为线性融合后的后验概率;
所以由步骤l,步骤2,步骤3可以通过该方法计算出最后置信度分数CMw^如

CUgmod(U) + AU) (9)。
权利要求
1、一种应用于语音识别系统的高性能置信度处理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到多个知识源,通过多个知识源融合计算置信度,具体包括以下步骤1)使用电话语音识别引擎对输入语音逐帧进行解码识别;2)在步骤1)还没有解码完最后一帧语音前,在每一帧语音数据解码中,首先得到当前帧活跃状态的观察概率P(xt|sj),其中xt是当前帧语音信号的特征,sj是当前活跃状态集合D中的一个;同时将所有活跃状态的观察概率相加并保存到内存中;3)解码完最后一帧数据,在得到识别结果前,获取输入语音的词图;4)在步骤3)中得到词图后,随即得到识别结果,也即完成了语音数据的解码识别过程,得到识别结果同时还得到其相对应的音素序列,以及每个音素所对应的起止时间点和每个音素的识别似然概率;5)完成步骤4)后,进行同步声学后验概率计算,即,通过前面保存的每一帧的活跃状态的观察概率之和,和每个音素的起止时间及其似然概率,求出相应的每个音素的后验概率;6)完成步骤4)后,进行词图后验概率计算,即,通过前面得到的输入语音词图,根据词图上的信息相应也计算出每个音素的后验概率,通过算术平均得到对数域的词图后验概率;7)将在步骤5)得到的同步声学后验概率和步骤6)得到的词图后验概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率;8)将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置信度分数,即为最后得到的识别结果的置信度。
2、 如权利要求l所述的应用于语音识别系统的高性能置信度处理方法,其特征 在于,所述步骤5)和步骤6)是相互独立的,两者没有先后次序。
3、 如权利要求1所述的应用于语音识别系统的高性能置信度处理方法,其特征 在于,所述步骤5)中的所述同步声学后验概率计算具体如下根据声学后验概率计算的框图,首先考虑每一帧的后验概率计算,对于每一帧 语音输入信号;c,, t=l,2....T,其对于每一帧语音信号的后验概率为尸(s,lx,),定义为三Z)其中是指识别结果中所属的状态,D为识别过程中当前时刻t活跃状态的集合,^是活跃状态集合中的状态;在解码识别过程中,同时保存了每一帧语音信号的后验概率尸(A k)的分母部分 尸")=2>"4萬) (2)当识别过程结束,得到识别结果为R,其中包含N个音素,其音素序列为PZ/。i^.…户^M ,而每个音素对应的语音帧序列......& ;每个音素的对数域后验概率计算如下<formula>formula see original document page 3</formula> (3) 其中,计算每个音素的后验概率的分母部分]^p^)是预先保存好的,而分子部分j^p^》,)p(W是识别结果中该个音素的似然概率;1=1得到上述每个音素的后验概率后,整个识别结果R的基于声学模型的后验概率 尸。,*(尺)的计算公式为-尸一恥=》巧) (化W '-=0
4、如权利要求1所述的应用于语音识别系统的高性能置信度处理方法,其特征 在于,所述步骤6)中的所述词图后验概率计算如下假设得到的识别结果为R,其中包含N个音素,其音素序列为7^。户//1....尸~_1, 对应的每个音素的起始时间为^和^,对于t和^间的任一时刻t,设其包含的和当前音素相同的边的集合为g ,则对于音素i^,时刻t对应的后验概率计算如下 尸柳"og[Z蹄柳 (5)当前音素的后验概率计算公式如下<formula>formula see original document page 4</formula><formula>formula see original document page 4</formula><formula>formula see original document page 4</formula>整个识别结果的基于词图的后验概率iL,JR)计算如下-
5、如权利要求1所述的应用于语音识别系统的高性能置信度处理方法,其特征在于,所述步骤8)中的置信度分数计算如下通过实验数据可以估计出线性融合系数;i以及后验概率和置信度分数的映射函<formula>formula see original document page 4</formula> (8) 其中C^^。w为最后置信度分数,p为线性融合后的后验概率; 最后置信度分数CM,^^如下<formula>formula see original document page 4</formula> (9)。
全文摘要
本发明涉及一种应用于语音识别系统的高性能置信度处理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到多个知识源,通过多个知识源融合处理得到置信度。本发明的语音识别置信度评价方法,只使用了一遍语音识别解码,同时利用了多个知识源,与以往的方法相比,该方法在大幅提高计算速度的同时,也使置信度计算的结果更为准确有效。
文档编号G10L15/00GK101447183SQ200810110479
公开日2009年6月3日 申请日期2008年6月5日 优先权日2007年11月28日
发明者潘接林, 赵庆卫, 颜永红, 塔 黎 申请人:中国科学院声学研究所;北京中科信利技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1