语音识别中基于逆序NGRAM的解码方法

文档序号:36663853发布日期:2024-01-14 12:05阅读:55来源:国知局

本发明涉及语音识别,具体为语音识别中基于逆序ngram的解码方法。


背景技术:

1、ngram可以用于任何和序列概率相关的应用中,比如拼音输入、语音翻译、语音识别等,ngram可以利用前n-1个词预测第n个词出现的概率,但是ngram也有缺点,就是无法通过后面词刻画前面词出现的概率,而中文语言中,通过后面词预测前面词的现象也比较常见,比如倒装句、被动句型等,因此难以对根据后面词预测前面词的情况进行解码。


技术实现思路

1、针对上述存在的技术不足,本发明的目的是提供一种语音识别中基于逆序ngram的解码方法,解决现有ngram无法根据后面词预测前面词的情况进行解码的问题。

2、为解决上述技术问题,本发明采用如下技术方案:

3、本发明提供语音识别中基于逆序ngram的解码方法,包括以下步骤:

4、s1、一遍解码,将输入的语音转码为正向文本;

5、s2、将正向文本进行逆序,得到逆序文本;

6、s3、同时统计正向文本和逆序文本的ngram得分;

7、s4、利用统计的正向文本和逆序文本的ngram加权得分,进行二遍解码。

8、具体的,s3中,所述逆序ngram得分计算的训练过程为:

9、s1、将训练ngram语言模型的文本语料逆序;

10、s2、根据马尔科夫定理、条件概率计算公式、以及大数定理计算ngram得分,具体公式如下:

11、正向文本表示:<s>w1 w2 w3 … wn-1 wn</s>

12、逆序文本表示:<s>wn wn-1 … w3 w2 w1</s>

13、根据马尔科夫定理,计算文本概率:

14、p(<s>wn wn-1 … w3 w2 w1</s>) = p(<s>)* p(w1|<s>)*p(w2|<s>w1)*p(wn|<s>w1 w2 …wn-1)

15、其中n一般取值为3或者4,p(wn|<s>w1 w2 …wn-1)是一个条件概率,根据条件概率公式计算:

16、p(wn|<s>w1 w2 …wn-1) = p(<s>w1 w2 …wn-1 wn)/p(<s>w1 w2 …wn-1)

17、根据大数定理,用频率代替概率,统计文本语料即可。

18、具体的,s4中,解码过程为:

19、s1、一遍解码后,将输入的语音转码后的正向文本逆序;

20、s2、根据前面训练过程中训练的逆序ngram模型,计算逆序文本的ngram得分,计算公式如下:

21、修正后语言模型得分 = w*ngram得分+(1-w)*逆序ngram得分,其中w为0-1之间的经验值;

22、s3、计算修正后语音识别得分,重新排序候选识别结果。其中修正后语音识别得分如下:

23、修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分,λ是经验值,通常在7-20之间。

24、还涉及语音识别中基于逆序ngram的解码方法的应用,其特征在于,wfst动态解码中,计算语言模型得分时,用正向ngram+逆序gram的加权得分,即w*ngram+(1-w)*逆序ngram的加权得分,替换先前的正向ngram得分,其中w为0-1之间的经验值。

25、还涉及语音识别中基于逆序ngram的解码方法的应用,其特征在于,二遍解码rescore时,计算得分的时候加上逆序ngram的概率,即修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分,λ是经验值,通常在7-20之间。

26、本发明的有益效果在于:本发明中解码方法通过将语音识别后的正向文本进行逆序,然后同时统计正向文本和逆序文本的ngram概率,解决了传统ngram语言模型只能看到前面而无法看到后面的缺陷,提升了语音识别的正确率。



技术特征:

1.语音识别中基于逆序ngram的解码方法,其特征在于,包括以下步骤:

2.如权利要1所述的语音识别中基于逆序ngram的解码方法,其特征在于,s3中,所述逆序ngram得分计算的训练过程为:

3.如权利要1所述的语音识别中基于逆序ngram的解码方法,其特征在于,s4中,解码过程为:

4.如权利要求1所述的语音识别中基于逆序ngram的解码方法的应用,其特征在于,wfst动态解码中,计算语言模型得分时,用正向ngram+逆序gram的加权得分,即w*ngram+(1-w)*逆序ngram的加权得分,替换先前的正向ngram得分,其中w为0-1之间的经验值。

5.如权利要求1所述的语音识别中基于逆序ngram的解码方法的应用,其特征在于,二遍解码rescore时,计算得分的时候加上逆序ngram的概率,即修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分,λ是经验值,通常在7-20之间。


技术总结
本发明公开了语音识别中基于逆序NGRAM的解码方法,包括以下步骤:S1、一遍解码,将输入的语音转码为正向文本;S2、将正向文本进行逆序,得到逆序文本;S3、同时统计正向文本和逆序文本的NGRAM得分;S4、利用统计的正向文本和逆序文本的NGRAM得分,进行二遍解码。本发明中解码方法通过将语音识别后的正向文本进行逆序,然后同时统计正向和逆序NGRAM的概率,解决了传统NGRAM语言模型只能看到前面而无法看到后面的缺陷,提升了语音识别的正确率。

技术研发人员:徐礼逵,徐艳娥
受保护的技术使用者:六盘水师范学院
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1