语音识别方法、模型训练方法、装置、设备及存储介质与流程

文档序号：37428630发布日期：2024-03-25 19:18阅读：13来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及人工智能，更具体地说，涉及一种语音识别方法、模型训练方法、装置、设备及存储介质。

背景技术：

1、语音识别技术是一种将语音信号转换成文本的技术。当前语音识别系统的准确性和效率虽然得到了显著提高，但是，由于语音信号的复杂性和多样性，语音识别的准确率仍有待进一步提高。

技术实现思路

1、有鉴于此，本申请提供了一种语音识别方法、模型训练方法、装置、设备及存储介质，以提高语音识别的准确率。

2、为了实现上述目的，现提出的方案如下：

3、一种语音识别方法，包括：

4、对语音数据进行编码，得到所述语音数据的编码特征；

5、对所述编码特征进行解码，得到解码特征；所述解码特征用于确定所述语音数据的语音识别结果和语法分类结果；

6、对所述解码特征进行处理，得到所述语音识别结果。

7、上述方法，可选的，对语音数据进行编码，对所述编码特征进行解码，对所述解码特征进行处理的过程通过语音识别模型实现；

8、所述语音识别模型通过对语音识别任务与语法分类任务联合训练得到；所述语音识别任务通过所述语音识别模型实现。

9、上述方法，可选的，对所述语音识别任务和所述语法分类任务联合训练的过程包括：

10、通过所述语音识别模型对语音样本进行编码，得到所述语音样本的编码特征，对所述语音样本的编码特征进行解码，得到所述语音样本的解码特征，对所述语音样本的解码特征进行处理，得到所述语音样本的语音识别结果；

11、通过语法分类网络至少对所述语音样本的解码特征进行处理，得到所述语音样本的语法分类结果；

12、以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签，所述语法分类结果趋近于所述语音样本的语法标签为目标，对所述语音识别模型的参数和所述语法分类网络的参数进行更新。

13、上述方法，可选的，所述通过语法分类网络至少对所述语音样本的解码特征进行处理，包括：

14、通过嵌入模型将所述语音样本的语音识别结果映射为嵌入特征；

15、将所述嵌入特征与所述语音样本的解码特征融合，得到融合特征；

16、将所述融合特征输入预训练的语法分类网络，得到所述预训练的语法分类网络输出的所述语音样本的语法分类结果。

17、上述方法，可选的，所述以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签，所述语法分类结果趋近于所述语音样本的语法标签为目标，对所述语音识别模型的参数和所述预训练的语法分类网络的参数进行更新，包括：

18、以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签，所述语法分类结果趋近于所述语音样本的语法标签为目标，对所述语音识别模型的参数、所述预训练的语法分类网络的参数和所述嵌入模型的参数进行更新。

19、上述方法，可选的，所述通过语法分类网络至少对所述语音样本的解码特征进行处理，包括：

20、通过所述语法分类网络的线性处理模块对所述语音样本的解码特征进行线性处理，得到所述语音样本的解码特征的线性处理结果；

21、通过所述语法分类网络的分类模块对所述线性处理结果进行分类处理，得到所述语法分类网络输出的所述语音样本的语法分类结果。

22、上述方法，可选的，通过所述语法分类网络的线性处理模块对所述语音样本的解码特征进行线性处理，通过所述语法分类网络的分类模块对所述线性处理结果进行分类处理的过程，包括：

23、通过第一线性处理模块对所述语音样本的解码特征进行第一线性处理，得到第一线性处理结果；通过第一分类模块对所述第一线性处理结果进行第一分类处理，得到所述语音样本的词性分类结果；

24、和/或，

25、通过第二线性处理模块对所述语音样本的解码特征进行第二线性处理，得到第二线性处理结果；通过第二分类模块对所述第二线性处理结果进行第二分类处理，得到所述语音样本的依存句法分类结果。

26、一种语音识别模型训练方法，包括：

27、通过所述语音识别模型对语音样本进行编码，得到所述语音样本的编码特征，对所述语音样本的编码特征进行解码，得到所述语音样本的解码特征，对所述语音样本的解码特征进行处理，得到所述语音样本的语音识别结果；

28、通过语法分类网络至少对所述语音样本的解码特征进行处理，得到所述语音样本的语法分类结果；

29、以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签，所述语法分类结果趋近于所述语音样本的语法标签为目标，对所述语音识别模型的参数和所述语法分类网络的参数进行更新。

30、一种语音识别装置，包括：

31、编码模块，用于对语音数据进行编码，得到所述语音数据的编码特征；

32、解码模块，用于对所述编码特征进行解码，得到解码特征；所述解码特征用于确定所述语音数据的语音识别结果和语法分类结果；

33、处理模块，用于对所述解码特征进行处理，得到所述语音识别结果。

34、一种语音识别模型训练装置，包括：

35、识别模块，用于通过所述语音识别模型对语音样本进行编码，得到所述语音样本的编码特征，对所述语音样本的编码特征进行解码，得到所述语音样本的解码特征，对所述语音样本的解码特征进行处理，得到所述语音样本的语音识别结果；

36、分类模块，用于通过语法分类网络至少对所述语音样本的解码特征进行处理，得到所述语音样本的语法分类结果；

37、更新模块，用于以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签，所述语法分类结果趋近于所述语音样本的语法标签为目标，对所述语音识别模型的参数和所述语法分类网络的参数进行更新。

38、一种语音处理设备，包括存储器和处理器；

39、所述存储器，用于存储程序；

40、所述处理器，用于执行所述程序，实现如上任一项所述的语音识别方法，和/或，如上所述的语音识别模型训练方法的各个步骤。

41、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的语音识别方法，和/或，如上所述的语音识别模型训练方法的各个步骤。

42、从上述的技术方案可以看出，本申请实施例提供的语音识别方法、模型训练方法、装置、设备及存储介质，对语音数据进行编码，得到语音数据的编码特征，对编码特征进行解码，得到解码特征；该解码特征用于确定语音数据的语音识别结果和语法分类结果，对解码特征进行处理，得到语音识别结果。本申请对解码特征进行解码得到的解码特征既可以用于语音识别，也可以用于语法分类，也就是说，本申请对语音数据进行编码的过程，以及对解码特征进解码的过程考虑了语法知识，从而提高了语音识别结果的准确性。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对语音数据进行编码，对所述编码特征进行解码，对所述解码特征进行处理的过程通过语音识别模型实现；

3.根据权利要求2所述的方法，其特征在于，对所述语音识别任务和所述语法分类任务联合训练的过程包括：

4.根据权利要求3所述的方法，其特征在于，所述通过语法分类网络至少对所述语音样本的解码特征进行处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签，所述语法分类结果趋近于所述语音样本的语法标签为目标，对所述语音识别模型的参数和所述预训练的语法分类网络的参数进行更新，包括：

6.根据权利要求3所述的方法，其特征在于，所述通过语法分类网络至少对所述语音样本的解码特征进行处理，包括：

7.根据权利要求6所述的方法，其特征在于，通过所述语法分类网络的线性处理模块对所述语音样本的解码特征进行线性处理，通过所述语法分类网络的分类模块对所述线性处理结果进行分类处理的过程，包括：

8.一种语音识别模型训练方法，其特征在于，包括：

9.一种语音识别装置，其特征在于，包括：

10.一种语音识别模型训练装置，其特征在于，包括：

11.一种语音处理设备，其特征在于，包括存储器和处理器；

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的语音识别方法，和/或，如权利要求8所述的语音识别模型训练方法的各个步骤。

技术总结
本申请实施例公开了一种语音识别方法、模型训练方法、装置、设备及存储介质，对语音数据进行编码，得到语音数据的编码特征，对编码特征进行解码，得到解码特征；该解码特征用于确定语音数据的语音识别结果和语法分类结果，对解码特征进行处理，得到语音识别结果。本申请对解码特征进行解码得到的解码特征既可以用于语音识别，也可以用于语法分类，也就是说，本申请对语音数据进行编码的过程，以及对解码特征进解码的过程考虑了语法知识，从而提高了语音识别结果的准确性。

技术研发人员：茆廷志,万根顺,高建清,潘嘉,刘聪,奚昌凤,王庆然
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：
技术公布日：2024/3/24

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：茆廷志,万根顺,高建清,潘嘉,刘聪,奚昌凤,王庆然
技术所有人：科大讯飞股份有限公司
我是此专利的发明人