一种用于语音识别的Ngram模型改进方法

文档序号:2833689阅读:1744来源:国知局
专利名称:一种用于语音识别的Ngram模型改进方法
技术领域
本发明公开了一种用于语音识别的Ngram模型改进方法,特别是用于小语料条件下的特定语音识别任务的Ngram模型改进方法。
背景技术
I.语言模型在语音识别中起到 举足轻重的作用。声学模型、语言模型和解码算法,构成一个完整的语音识别框架。2.传统的Ngram(N元文法,N-gram, Ngram)模型是应用最广的语言模型,其优点是查询速度快,可以方便的转成WFST(加权有限状态转换器,Weighted Finite StateTransducer)。转成WFST后,识别速度可以提升一个数量级。然而,由于Ngram模型对数据分布作了一系列假设,当训练数据分布与假设不同时,特别是训练数据量较少的时候,其性能将大打折扣。3.近年来出现了一种RNN(回归神经网络,Recurrent Neural Network)语言模型,它可以解决Ngram模型的这种缺点。但它的时间复杂度是Ngram模型的百倍以上。查询速度对语音识别而言完全无法接受。另外,由于RNN具有时间记忆功能,在同一时刻不宜对多个词进行查询。否则语言模型的记忆混乱,查询结果严重失常。4.现行的解决方案通常采用Ngram作语音识别,将结果输出后由RNN模型重新计分。该方法可以取得很好的效果,但缺点也是明显的。它将一遍搜索过程变成了多遍搜索。系统需要维持一个庞大的词图(WordLattice)网络来保存所有可能的候选。5.语言模型通常采用PPL(困惑度,Perplexity)衡量其性能,然而PPL与语音识别率不能直接挂钩,很难认为,把PPL优化到最小(概率最大)则识别错误率最小。

发明内容
为解决上述问题,本发明提出了一种用于语音识别的Ngram模型改进方法,其包括步骤SlOl :将用于语音识别的原始Ngram模型转成等价的WFSA网络NETl ;步骤S102 :利用RNN优化所述NETl,使得使用所述NETl对训练文本打分时,对于训练文本中每个语句的输出概率最大化;步骤S103 :利用发音字典将所述NETl转成带有语言模型概率的WFST发音网络NET2 ;步骤S104 :利用音子混淆矩阵优化所述发音网络NET2,使得句子错误率最小化;步骤S105 :将所述发音网络NET2反向转换成改进后的Ngram模型。本发明提出的方法采用RNN对Ngram进行优化,优化后的Ngram模型PPL性能优于RNN,且能保持原有的快速查询特性。该技术应用于训练语料不足条件下的Ngram语言模型优化可取的显著效果。它引入了音子混淆矩阵对Ngram模型进行最小错误率训练,该过程模拟了语音识别过程中声学解码和语言解码相结合的解码方式,使得优化目标更接近真实的语音识别过程,从而使得识别率得到显著提高。


图I为本发明的用于语音识别的Ngram模型改进方法的流程图;图2为本发明中将Ngram模型转换成WFSA网络NETl的流程图;图3为本发明中利用RNN模型优化NETl的流程图;图4为本发明中利用RNN模型优化NETl中所有弧的流程图;图5为本发明中用于增强NETl的表达能力的流程图;图6为利用本发明的方法所转成的WFSA网络的具体实例示图;
图7为图6所示出的WFSA网络上标示了最佳路径的示例图;图8为WFST和WFSA的一个示例图;图9 (a) -9 (i)为实现图6的具体分解流程图;图10 (a)为本发明中将NETl转换成WFST网络NET_W0RD的示意图;图10 (b)为本发明中将WFST网络NET_W0RD转换成WFST网络NET2的示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。图I为本发明所述的一种用于语音识别的Ngram模型改进方法的流程图。所述用于语音识别的Ngram模型改进方法用于特定领域语音识别,针对训练语料较少的条件下改善Ngram模型的性能具有显著效果,例如车载导航系统中的语音导航功能、地名识别功能、控制命令识别功能等。所述用于语音识别的Ngram模型改进方法,具体包括步骤步骤SlOl :将Ngram转成等价的WFSA(加权有限状态自动机,Weighted FiniteState Automata)网络 NET I。步骤S102 :利用RNN优化NETl,使得输出概率最大化。步骤S103 :利用发音字典将NETl转成带有语言模型概率的WFST发音网络NET2。步骤S104 :利用音子混淆矩阵优化NET2使得句子错误率最小化。步骤S105 :将NET2反向转换成Ngram模型。其中,如附图8所示,WFST和WFSA都是有向图,图上有若干状态,状态之间有连接弧,弧是有方向的,并且每条弧上带有输入字串和权重;它们的不同点在于,WFSA的弧上只有输入字串和权重,WFST上除了带有输入字串和权重,还有输出。更具体地,每个步骤操作细节如下步骤SlOl :将Ngram转成等价的WFSA网络NET1。NETl的网络状态数目等于Ngram的所有元组数目加1,除了初始状态表示空字符串以外,其它的每个状态代表一个N元组,如状态W1W2. . Wlri,该状态表示包含W1W2. . Wn^1的文字组合;如果Ngram模型中概率P(Wn)W1W2. . Wlri)存在,即表示文本中从包含W1W2. . wn_!的文字组合观察到包含W1W2. . WlriWn的文字组合的概率;则在NETl中状态W1W2. . wn_!到状态W1W2. . WlriWn之间必定有一条弧连接,且该弧上的输入为字符串Wn,该弧上的权重为LnP^lw^. .Wlri),其为所述概率P (Wn IW1W2..Wlri)的对数值;在转换后的NETl中,除了初始状态之外,每一个状态Wiffi+1. 都还有一条回退弧,其对应Ngram模型中相应元组的回退概率B(WiWi+1. . Wj),该弧从状态WiWw. . Wj指向状态wi+1. . Wj,弧上的输入为空,弧上的权重等于LnB(WiWi+1. . Wj),其为所述回退概率B(WiWw. . Wj)的对数值;上述特征中P( ·)和B( ·)分别表示概率和回退概率。其中,Ngram模型包括I元组Unigram>2元组Bigram、3元组trigram、......, k元组k-gram。图2显示了达到此目的一种具体操作方法。在S201步骤,正规化用于语音识别的Ngram模型,使得保证高阶Ngram存在时对应低阶Ngram也存在,即如果一个N元组存在,则其所有前缀相应的元组都要存在。在S202步骤,创建空状态esp作为初始的NETl。在S203步骤,创建Ngram模型中所有I元组的概率和回退概率,通过遍历Ngram模型中所有的I元组Unigram,在NETl中为每个Unigram创建相应的Unigram状态;从esp 状态到Unigram状态添加前向弧,弧上的输入为Unigram对应的字符串,权重为Unigram对应的概率的对数值;从每个Unigram状态到esp状态添加回退弧,弧上的输入为空,权重为Unigram对应的回退概率的对数值。在S204步骤,仓Il建所有2元以上的高元组的概率和回退概率,通过遍历Ngram模型中所有2元以上的高元组k-gram,在NETl中为每个高元组k-gram创建相应的k-gram状态;在NETl中寻找k-gram的前k-Ι个词构成的(k_l)-prefix-gram状态,并添加从(k-l)-prefix-gram状态到k-gram状态的前向弧,弧的输入为高元组k-gram对应的词组中的最后一个词,权重为高元组k-gram对应的概率的对数值;然后在所述NETl中寻找k-gram的后k_l个词构成(k_l) -subf ix-gram状态,从k-gram状态添加回退弧到(k-l)-subf ix-gram状态,弧的输入为空,权重为高元组k-gram的回退概率的对数值;其中k的取值范围是2 < = k < = N的整数,N是Ngram的阶数。步骤S102 :利用RNN优化步骤SlOl中的得到的NETl,使得输出概率最大化。该步骤对每个句子采用NETl和RNN分别打分,优化目标是使得句子的得分为NETl打分和RNN打分中的高分者,所述步骤具体包括,如图3所示步骤S301,利用RNN得分优化NETl中的所有弧;步骤S302,向NETl追加状态和弧,增强NETl的表达能力。更具体的,步骤S301的详细流程如图4所示。首先,在步骤S401处取出每句语音训练文本SENTi ;接着在步骤S402处,在NETl上求解最高分路径,该路径从状态〈S〉出发到状态Wnl. . . ^〈/s〉结束,其中Wnl. . . Wn2是SENTi的最后Wl个词,并且路径中间经过的弧上的字符串串接起来等于输入的句子,<s>是Ngram模型中用来表示句子开始的I元组,其在转换成NETl后对应<s>状态,</s>是Ngram模型中用来表示句子结束的I元组,其在转换成NETl后对应</s>状态。将路径经过的弧的编号依次记录下来,记该路径为PATHi,并记该路径的总得分为SCORE-NGRAMi,即该路径经过的所有弧上的权重之和;接着在步骤S403处,采用RNN计算SENTi得分并记为SC0RE_RNNi ;接着在S404 处,求 SENTi 的最佳得分,记为 SC0RE_BESTi = max {SC0RE_RNNi;SC0RE_NGRAMJ ;接着在步骤S405处,利用如下公式计算出的更新量更新路径PATHi经过的每一条弧(包括回退弧)上的权重,即更新后的权重等于原始权重加上所述更新量,每条弧的更新量为:


其中P e (0,I]为系统学习率,LENGTHi是PATHi经过的弧的数目;接着在步骤S406处,采用广度优先遍历NETl中的每个状态,将该状态所有输出 弧上的权重进行规整,保证每个状态所有输出弧(包括回退弧)满足概率条件(概率之和等于I);最后,在步骤S407处判断是否可以停止,如果迭代次数超过指定门限,或者训练结果收敛,即所述NETl上的所有弧上的权重不再发生变化,或者更新后的新模型与原来的模型的误差小于指定门限,则停止,否则重复步骤S401到步骤S406的过程。其中,所述误差为迭代更新后所有弧上的权重与迭代更新前所有弧上的权重之平均误差。更具体的,步骤S302的详细流程如图5所示步骤S501寻找需要增强表达能力的句子,对训练文本集中的每个句子SENTi,当SCORE-RNNi > SCORE—NGRAMp 则进入后面操作 S502 和 S503 ;步骤S502,增强2元组表达能力,将该句子中出现的I元组Unigram与它的后接词合并为2元组Bigram,如果NETl中不存在该Bigram对应的Bigram状态,则采用步骤S204的方法将该Bi gram对应的Bi gram状态添加到NETI中,从所述Uni gram状态到所述Bi gram状态的弧上的输入为所述后接词,其权重值等于在Ngram模型中所述2元组Bigram的概率
对数值与下式结果之和
^ , SCORE BESTf^SCORK NGMMidella = p-=^LliNGm^=-且Bigram状态的回退弧上的权重值等于O ;接着采用步骤S301所述方法优化所述NETl中的所有弧,其具体实现见步骤S401到S407。举例说明,假设有I元组(unigram) “好”要升级到“好吗”这个2元组。那么首先在NETl中建立状态“好吗”,然后从状态“好”到状态“好吗”添加一条弧,这条弧上的输入等于“吗”字;然后给“好吗”添加回退弧,回退到“吗”状态,回退弧上没有输入,只有权重等于O。最后,在步骤S503处,增强3元组及更高元组的表达能力,利用步骤S501到S502的方法处理Ngram模型中2元组及更高元组的表达能力,也就是说,对2 < = k < N的情形,对每个阶数k,类似上述步骤S501至S502的做法,如果Ngram模型中对于k-gram,当SC0RE_RNNi > SCORE-NGRAMi,则将该句中k-gram与后接词合并为(k+1) -gram,如果NETl中不存在该(k+1)-gram对应的(k+1)-gram状态,贝U采用步骤S204的方法将(k+1)-gram添加到NETl中,从所述k-gram状态到(k+1)-gram状态的弧上的字符串为后接词,其权重值等于在Ngram模型中所述k+Ι元组模型(k+1)-gram的概率对数值与下式之和
} , SCORE BEST ^ SCORE NGMMidelta = ρ-=--=-L
ΗLENGTHs且(k+1)-gram状态的回退弧上的权重值等于0,再采用步骤S301方法更新WFSA,其具体实现见步骤S401到S407 ;重复上述步骤直到不存在SC0RE_RNNi > SC0RE_NGRAMi的句子,或者训练文本的所有句子中出现的所有N元组都在NETl中。更具体的,步骤S103,利用发音字典将NETl转成带有语言模型概率的WFST发音网络NET2。具体包括保持NETl网络拓扑结构不变,将每条弧上的输入复制到输出,形成WFST网络NET_W0RD,具体示例见图10 (a);将发音字典中每个词Wi转成FST网络NET_LEXi;每个FST网络的特点是从开始状态走到结束状态的每一条路径上所有弧上的输入正好等于该词的一个发音,到达结束状态的每条弧输出都是词Wi ;如果NET_W0RD中的弧上有输入单词Wi,则将该弧替换成FST网络NET_LEXi;最终形成新网络NET2,从而避免了传统compose做法导致的大内存消耗问题和同音词消歧问题;最终生成的NET2网络的特点是每条弧的输入是一个音子,如果该弧上的输入到达一个词Wi的结尾,则该弧的输出是词Wi,如果该弧上的输入未达到一个词的词尾,则该弧的输出词为空;且该弧到达状态必定对应Ngram模型中描述的一个N元组,具体示例请见图10(b)。 更具体的,步骤S104,利用音子混淆矩阵优化NET2使得句子错误率最小化,具体是从声学模型中引入音子混淆矩阵M。对于训练文本中每句话的标准音子串,按照音子混淆矩阵M所述的概率在NET2进行状态转移,最终输出K+1个最佳候选句子,其中完全等同于标准答案的句子为SENTtl,不同于标准答案的K个句子为SENT1. . SENTK,优化目标使得标准答案句子的路径得分大于错误句子的路径得分;具体包括如下步骤(S001)从NET2中找到〈S〉状态作为当前状态;(S002)依次输入训练文本中句子的所有音子;(S003)对每个音子,以混淆矩阵M中的概率走向混淆音子表示的弧;例如,“安”的标准发音是an,如果混淆矩阵M中有2个混淆关系an保持an的概率是O. 8 ;an混淆ang的概率是O. 2 ;则从当前状态出发以O. 8的概率转移到输入为an的弧,同时以O. 2的概率转移到输入为ang的弧。(S004)每输入一个音子,采用集束搜索(BeamSearch)方法,以指定的Beam宽度对路径进行裁剪,即删除路径总得分(即所述路径包括的所有弧上的权重之和)和最大路径得分差距大于Beam的路径;(S005)当输入最后一个音子时,保留所有到达词结尾的路径,记路径中输出结果与原始文本相同的句子为SENTtl,其他句子记为SENT1. . SENTk ;(S006)对每个句子执行如下操作计算标准答案得分与错误答案得分之间的差距d d = g (SENT01 Μ, NET2) -G (SENT1.. κ | Μ, ΝΕΤ2)其中g(SENTQ|M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出文本SENTtl的概率;G(SENT1..κ M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出错误句子SENT1. . SENTk的概率的某种变换函数,具体为

权利要求
1.一种用于语音识别的Ngram模型改进方法,其包括如下步骤 步骤SlOl :将用于语音识别的原始Ngram模型转成等价的WFSA网络NETl ; 步骤S102 :利用RNN优化所述NETl,使得使用所述NETl对训练文本打分时,对于训练文本中每个语句的输出概率最大化; 步骤S103 :利用发音字典将所述NETl转成带有语言模型概率的WFST发音网络NET2 ; 步骤S104 :利用音子混淆矩阵优化所述发音网络NET2,使得句子错 误率最小化; 步骤S105 :将所述发音网络NET2反向转换成改进后的Ngram模型。
2.如权利要求I所述的用于语音识别的Ngram模型改进方法,其特征在于 所述NETl中的状态数目等于所述原始Ngram的所有元组数目加I,其中所述NETl中的 状态包括初始状态和对应所述原始Ngram中每一个元组的状态; 如果原始Ngram模型中概率P (wn | W1W2. . Wlri)存在,则在所述NETl中状态W1W2. . Wlri到状态W1W2. . WlriWn之间必定有一条弧连接,且该弧上的输入为字符串Wn,该弧上的权重为LnP (Wn)W1W2. . Wlri),其为所述概率P (wnIW1W2. . Wlri)的对数值;在所述NETl中,除了初始状态之外,每一个状态WiWw. . Wj都还具有一条回退弧,其对应所述原始Ngram模型中相应元组的回退概率B (WiWw. Wj),该回退弧从状态WiWw. .Wj指向状态wi+1. . Wj,弧上的输入为空,弧上的权重等于LnB (WiWw. . Wj),其为所述回退概率B (WiWw. . Wj)的对数值。
3.如权利要求2所述的用于语音识别的Ngram模型改进方法,其特征在于所述将用于语音识别的Ngram模型转成等价的WFSA网络NETl具体包括 步骤S201 :正规化所述原始Ngram模型; 步骤S202 :创建空状态esp作为初始的NETl。
步骤S203 :在所述NETl中,为每个所述原始Ngram模型中的I元组Unigram创建相应的Unigram状态;从所述esp状态到所述Unigram状态添加前向弧,弧上的输入为所述原始Ngram模型中的I元组Unigram对应的字符串,权重为所述原始Ngram模型中的I元组Unigram对应的概率的对数值;从每个所述原始Ngram模型中的I元组Unigram状态到所述esp状态添加回退弧,弧上的输入为空,权重为所述原始Ngram模型中的I元组Unigram对应的回退概率的对数值; 步骤S204 :在所述NETl中为每个2元组及2元组以上的高元组k-gram创建相应的k-gram状态;并在所述NETl中寻找所述高元组k-gram中的前k_l个词构成的k_l元组(k_l)-prefix-gram 对应的(k_l)-pref ix-gram 状态,并添加从(k_l)-pref ix-gram 状态到k-gram状态的前向弧,弧的输入为所述高元组k-gram对应的词组中的最后一个词,权重为所述高元组k-gram的概率的对数值;然后在所述NETl中寻找所述高元组k-gram对应的后k_l个词构成的k_l元组(k_l)-subfix-gram对应的(k_l)-subfix-gram状态,添加从k-gram状态到(k_l)-subf ix-gram状态的回退弧,弧的输入为空,权重为所述高元组k-gram的回退概率的对数值;其中k的取值范围是2 < = k < = N的整数,N是所述原始Ngram模型的阶数。
4.如权利要求I所述的用于语音识别的Ngram模型改进方法,其特征在于所述利用RNN优化所述NET1,使得使用所述NETl对训练文本打分时,对于训练文本中每个语句的输出概率最大化具体包括步骤S301,利用RNN得分优化所述NETl中的所有弧;具体为 采用RNN模型计算训练文本中每一语句SENTi的得分并记为SCORE_RNNi ;所述语句SENTi在所述NETl中的最佳路径为路径PATHi,则该路径PATHi的总得分为SCORE_NGRAMi ;确定所述 SENTi 的最佳得分为=SCORE-BESTi = Hiax(SCC)RE-RNNi, SC0RE_NGRAMj ; 利用更新量更新该路径经过的每一条弧上的权重,其中每条弧的更新量根据公式(I)计算 其中,p G (0,I],LENGTHi是路径PATHi经过的弧的数目; 采用广度优先遍历所述NETl中的每个状态,并将每个状态上所有弧上的权重进行规整,以保证每个状态的所有输出弧满足概率条件; 重复执行上述步骤,直到每条弧上更新后的权重值与原权重值的误差小于预定阈值; 步骤S302,向所述NETl追加状态和弧,增强NETl的表达能力,具体为首先从训练文本寻找需要增强表达能力的语句,然后对于每一个需要增强表达能力的语句,依次增强2元组、3元组及3元组以上元组的表达能力,直到不存在SC0RE_RNNi > SCORE.NGRAMj的句子,或者用于表示需要增强表达能力的句子的所有Ngram元组对应的状态都在所述NETl中。
5.如权利要求4所述的用于语音识别的Ngram模型改进方法,其特征在于所述需要增强表达能力的语句为SC0RE_RNNi > SC0RE_NGRAMi的语句;其中增强k+1元组的表达能力的方式如下,I =< k < N 对于每个需要增强表达能力的语句,将所述原始Ngram模型中k元组k-gram与它的后接词合并为k+1元组(k+1)-gram,如果所述NETl中不存在该k+1元组(k+1)-gram对应的(k+1)-gram状态,则添加该(k+1)-gram状态到所述NETl中;其中从所述k-gram状态到所述(k+1)-gram状态的弧上的输入为所述后接词,其权重值等于所述k+1元组(k+l)-gram的概率对数值与根据所述公式(I)计算得到的更新量之和,且所述(k+l)-gram状态的回退弧上的权重值等于0 ;然后利用RNN得分优化所述NETl中每条弧上的权重值。
6.如权利要求I所述的用于语音识别的Ngram模型改进方法,其特征在于所述利用发音字典将所述NETl转成带有语言模型概率的WFST发音网络NET2具体包括 保持所述NETl网络拓扑结构不变,将每条弧上的输入复制到输出,形成WFST网络NET_WORD ;将发音字典中每个词Wi转成FST网络NET_LEXi,每个FST网络的特点是从开始状态走到结束状态的每一条路径上所有弧上的输入正好等于该词的一个发音,到达结束状态的每条弧的输出都是词Wi ;如果NET_W0RD中的弧上有输入单词Wi,则将该弧替换成FST网络NET_LEXi,最终形成所述发音网络NET2。
7.如权利要求I所述的用于语音识别的Ngram模型改进方法,其特征在于所述利用音子混淆矩阵优化所述发音网络NET2包括对于训练文本中每一句的标准音子串,按照音子混淆矩阵M中的概率在所述发音网络NET2进行状态转移,最终输出K+1个最佳候选句子,其中完全等同于标准答案的句子为SENTtl,不同于标准答案的K个句子为SENT1. . SENTk,然后对所述发音网络NET2进行优化使得标准答案句子的路径得分大于错误句子的路径得分。
8.如权利要求7所述的用于语音识别的Ngram模型改进方法,其特征在于所述利用音子混淆矩阵优化所述发音网络NET2的具体步骤包括 步骤SOOl :从所述发音网络NET2中找到<s>状态作为当前状态; 步骤S002 :依次输入训练文本中每个句子的所有音子; 步骤S003 :对每个音子,以混淆矩阵M中的概率走向混淆音子表示的弧; 步骤S004 :每输入一个音子,则采用集束搜索方法,以指定的Beam宽度对路径进行裁剪; 步骤S005 :当输入最后一个音子时,保留所有到达词结尾的路径,并记路径中输出结果与所述训练文本相同的句子为SENTtl,其他路径记为SENT1. . SENTk ; 步骤S006 :对每个句子执行如下操作 步骤S0061 :计算标准答案得分与错误答案得分之间的差距d d = g (SENT01M, NET2) -G (SENT1.. K | M, NET2) (2) 其中,g (SENTtl IM,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出标准语句SENTtl的概率;G(SENIY.k|M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出错误句子SENT1. . SENTk的概率的某种变换函数,具体为
9.如权利要求I所述的用于语音识别的Ngram模型改进方法,其特征在于所述将所述发音网络NET2反向转换成改进后的Ngram模型具体包括将WFST发音网络NET2转成WFSA词语网络NET3,使得所述词语网络NET3中的每个状态对应所述改进Ngram模型中的一个元组,所述词语网络NET3中状态A到B的转移概率等于所述发音网络NET2中状态A到状态B的所有路径概率之和,从状态A到状态B的弧上的输入正好等于所述发音网络NET2中从状态A到状态B的路径上的输出且只输出一个词; 在NET3中遍历对应 于I元组Unigram的Unigram状态,使得改进后的Ngram模型中I元组Unigram的概率的对数值为esp状态到Unigram状态的弧上的权重值,回退概率为Unigram状态到esp状态的弧上的权重; 在NET3中遍历对应于2元组及2元组以上的k元组k-gram的所有k-gram状态,使得改进后的Ngram模型中2元组及2元组以上的k元组k-gram的概率的对数值为所述k元组k-gram 对应的前 k_l 个词构成的 k_l 元组(k_l)-pref ix-gram 对应的(k_l)-pref ix-gram状态到k-gram状态的弧上的权重,回退概率的对数值为k-gram状态到所述k元组k-gram对应的后k_l个词构成的k_l元组(k_l)-subfix-gram对应的(k_l)-subfix-gram状态的弧上的权重值。
10.如权利要求4所述的方法,其特征在于所述利用更新量更新路径经过的每一条弧上的权重具体为每一条弧上的权重加上所述更新量;所述保证每个状态的所有弧满足概率条件具体为所述所有弧上的概率和为I ;所述误差为更新后所有弧上的权重与更新前所有弧上的权重之平均误差。
全文摘要
本发明公开了一种用于语音识别的Ngram模型改进方法,其包括将用于语音识别的原始Ngram模型转成等价的WFSA网络NET1;利用RNN优化所述NET1,使得使用所述NET1对训练文本打分时,对于训练文本中每个语句的输出概率最大化;利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2;利用音子混淆矩阵优化所述发音网络NET2,使得句子错误率最小化;将所述发音网络NET2反向转换成改进后的Ngram模型,使用该改进后的Ngram模型进行语音识别。
文档编号G10L15/16GK102968989SQ20121052809
公开日2013年3月13日 申请日期2012年12月10日 优先权日2012年12月10日
发明者柯登峰, 徐波 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1