本发明涉及语音识别,具体为语音识别中基于逆序ngram的解码方法。
背景技术:
1、ngram可以用于任何和序列概率相关的应用中,比如拼音输入、语音翻译、语音识别等,ngram可以利用前n-1个词预测第n个词出现的概率,但是ngram也有缺点,就是无法通过后面词刻画前面词出现的概率,而中文语言中,通过后面词预测前面词的现象也比较常见,比如倒装句、被动句型等,因此难以对根据后面词预测前面词的情况进行解码。
技术实现思路
1、针对上述存在的技术不足,本发明的目的是提供一种语音识别中基于逆序ngram的解码方法,解决现有ngram无法根据后面词预测前面词的情况进行解码的问题。
2、为解决上述技术问题,本发明采用如下技术方案:
3、本发明提供语音识别中基于逆序ngram的解码方法,包括以下步骤:
4、s1、一遍解码,将输入的语音转码为正向文本;
5、s2、将正向文本进行逆序,得到逆序文本;
6、s3、同时统计正向文本和逆序文本的ngram得分;
7、s4、利用统计的正向文本和逆序文本的ngram加权得分,进行二遍解码。
8、具体的,s3中,所述逆序ngram得分计算的训练过程为:
9、s1、将训练ngram语言模型的文本语料逆序;
10、s2、根据马尔科夫定理、条件概率计算公式、以及大数定理计算ngram得分,具体公式如下:
11、正向文本表示:<s>w1 w2 w3 … wn-1 wn</s>
12、逆序文本表示:<s>wn wn-1 … w3 w2 w1</s>
13、根据马尔科夫定理,计算文本概率:
14、p(<s>wn wn-1 … w3 w2 w1</s>) = p(<s>)* p(w1|<s>)*p(w2|<s>w1)*p(wn|<s>w1 w2 …wn-1)
15、其中n一般取值为3或者4,p(wn|<s>w1 w2 …wn-1)是一个条件概率,根据条件概率公式计算:
16、p(wn|<s>w1 w2 …wn-1) = p(<s>w1 w2 …wn-1 wn)/p(<s>w1 w2 …wn-1)
17、根据大数定理,用频率代替概率,统计文本语料即可。
18、具体的,s4中,解码过程为:
19、s1、一遍解码后,将输入的语音转码后的正向文本逆序;
20、s2、根据前面训练过程中训练的逆序ngram模型,计算逆序文本的ngram得分,计算公式如下:
21、修正后语言模型得分 = w*ngram得分+(1-w)*逆序ngram得分,其中w为0-1之间的经验值;
22、s3、计算修正后语音识别得分,重新排序候选识别结果。其中修正后语音识别得分如下:
23、修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分,λ是经验值,通常在7-20之间。
24、还涉及语音识别中基于逆序ngram的解码方法的应用,其特征在于,wfst动态解码中,计算语言模型得分时,用正向ngram+逆序gram的加权得分,即w*ngram+(1-w)*逆序ngram的加权得分,替换先前的正向ngram得分,其中w为0-1之间的经验值。
25、还涉及语音识别中基于逆序ngram的解码方法的应用,其特征在于,二遍解码rescore时,计算得分的时候加上逆序ngram的概率,即修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分,λ是经验值,通常在7-20之间。
26、本发明的有益效果在于:本发明中解码方法通过将语音识别后的正向文本进行逆序,然后同时统计正向文本和逆序文本的ngram概率,解决了传统ngram语言模型只能看到前面而无法看到后面的缺陷,提升了语音识别的正确率。
1.语音识别中基于逆序ngram的解码方法,其特征在于,包括以下步骤:
2.如权利要1所述的语音识别中基于逆序ngram的解码方法,其特征在于,s3中,所述逆序ngram得分计算的训练过程为:
3.如权利要1所述的语音识别中基于逆序ngram的解码方法,其特征在于,s4中,解码过程为:
4.如权利要求1所述的语音识别中基于逆序ngram的解码方法的应用,其特征在于,wfst动态解码中,计算语言模型得分时,用正向ngram+逆序gram的加权得分,即w*ngram+(1-w)*逆序ngram的加权得分,替换先前的正向ngram得分,其中w为0-1之间的经验值。
5.如权利要求1所述的语音识别中基于逆序ngram的解码方法的应用,其特征在于,二遍解码rescore时,计算得分的时候加上逆序ngram的概率,即修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分,λ是经验值,通常在7-20之间。