语音识别中基于逆序NGRAM的解码方法

文档序号：36663853发布日期：2024-01-14 12:05阅读：55来源：国知局

本发明涉及语音识别，具体为语音识别中基于逆序ngram的解码方法。

背景技术：

1、ngram可以用于任何和序列概率相关的应用中，比如拼音输入、语音翻译、语音识别等，ngram可以利用前n-1个词预测第n个词出现的概率，但是ngram也有缺点，就是无法通过后面词刻画前面词出现的概率，而中文语言中，通过后面词预测前面词的现象也比较常见，比如倒装句、被动句型等，因此难以对根据后面词预测前面词的情况进行解码。

技术实现思路

1、针对上述存在的技术不足，本发明的目的是提供一种语音识别中基于逆序ngram的解码方法，解决现有ngram无法根据后面词预测前面词的情况进行解码的问题。

2、为解决上述技术问题，本发明采用如下技术方案：

3、本发明提供语音识别中基于逆序ngram的解码方法，包括以下步骤：

4、s1、一遍解码，将输入的语音转码为正向文本；

5、s2、将正向文本进行逆序，得到逆序文本；

6、s3、同时统计正向文本和逆序文本的ngram得分；

7、s4、利用统计的正向文本和逆序文本的ngram加权得分，进行二遍解码。

8、具体的，s3中，所述逆序ngram得分计算的训练过程为：

9、s1、将训练ngram语言模型的文本语料逆序；

10、s2、根据马尔科夫定理、条件概率计算公式、以及大数定理计算ngram得分，具体公式如下：

11、正向文本表示：<s>w1 w2 w3 … wn-1 wn</s>

12、逆序文本表示：<s>wn wn-1 … w3 w2 w1</s>

13、根据马尔科夫定理，计算文本概率：

14、p(<s>wn wn-1 … w3 w2 w1</s>) = p(<s>)* p(w1|<s>)*p(w2|<s>w1)*p(wn|<s>w1 w2 …wn-1)

15、其中n一般取值为3或者4，p(wn|<s>w1 w2 …wn-1)是一个条件概率，根据条件概率公式计算：

16、p(wn|<s>w1 w2 …wn-1) = p(<s>w1 w2 …wn-1 wn)/p(<s>w1 w2 …wn-1)

17、根据大数定理，用频率代替概率，统计文本语料即可。

18、具体的，s4中，解码过程为：

19、s1、一遍解码后，将输入的语音转码后的正向文本逆序；

20、s2、根据前面训练过程中训练的逆序ngram模型，计算逆序文本的ngram得分，计算公式如下：

21、修正后语言模型得分 = w*ngram得分+（1-w）*逆序ngram得分，其中w为0-1之间的经验值；

22、s3、计算修正后语音识别得分，重新排序候选识别结果。其中修正后语音识别得分如下：

23、修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分，λ是经验值，通常在7-20之间。

24、还涉及语音识别中基于逆序ngram的解码方法的应用，其特征在于，wfst动态解码中，计算语言模型得分时，用正向ngram+逆序gram的加权得分，即w*ngram+（1-w）*逆序ngram的加权得分，替换先前的正向ngram得分，其中w为0-1之间的经验值。

25、还涉及语音识别中基于逆序ngram的解码方法的应用，其特征在于，二遍解码rescore时，计算得分的时候加上逆序ngram的概率，即修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分，λ是经验值，通常在7-20之间。

26、本发明的有益效果在于：本发明中解码方法通过将语音识别后的正向文本进行逆序，然后同时统计正向文本和逆序文本的ngram概率，解决了传统ngram语言模型只能看到前面而无法看到后面的缺陷，提升了语音识别的正确率。

技术特征：

1.语音识别中基于逆序ngram的解码方法，其特征在于，包括以下步骤：

2.如权利要1所述的语音识别中基于逆序ngram的解码方法，其特征在于，s3中，所述逆序ngram得分计算的训练过程为：

3.如权利要1所述的语音识别中基于逆序ngram的解码方法，其特征在于，s4中，解码过程为：

4.如权利要求1所述的语音识别中基于逆序ngram的解码方法的应用，其特征在于，wfst动态解码中，计算语言模型得分时，用正向ngram+逆序gram的加权得分，即w*ngram+（1-w）*逆序ngram的加权得分，替换先前的正向ngram得分，其中w为0-1之间的经验值。

5.如权利要求1所述的语音识别中基于逆序ngram的解码方法的应用，其特征在于，二遍解码rescore时，计算得分的时候加上逆序ngram的概率，即修正后语音识别得分 =修正后语言模型得分 + λ升学模型得分，λ是经验值，通常在7-20之间。

技术总结
本发明公开了语音识别中基于逆序NGRAM的解码方法，包括以下步骤：S1、一遍解码，将输入的语音转码为正向文本；S2、将正向文本进行逆序，得到逆序文本；S3、同时统计正向文本和逆序文本的NGRAM得分；S4、利用统计的正向文本和逆序文本的NGRAM得分，进行二遍解码。本发明中解码方法通过将语音识别后的正向文本进行逆序，然后同时统计正向和逆序NGRAM的概率，解决了传统NGRAM语言模型只能看到前面而无法看到后面的缺陷，提升了语音识别的正确率。

技术研发人员：徐礼逵,徐艳娥
受保护的技术使用者：六盘水师范学院
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐礼逵,徐艳娥
技术所有人：六盘水师范学院
我是此专利的发明人

上一篇：一种大米清洗装置的制作方法
上一篇：一种全自动阻抗分析系统表面金属化喷涂方法