一种语音识别方法、装置、电子设备及存储介质与流程

文档序号：35500307发布日期：2023-09-20 06:05阅读：63来源：国知局

本公开涉及语音处理领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术：

1、目前跨领域场景和领域内任务都可以使用语言模型融合(language modelfusion)方法进行优化，区别只在于训练语言模型的文本语料不同。典型的方法有组件融合(component fusion)、深度融合(deep fusion)、冷融合(cold fusion)和浅融合(shallowfusion)等等。

2、在上述的模型融合过程中，为了提高内部语言估计模型(internal languagemodel estimation,，缩写：ilme)的概率有效估计的准确性，通常会改变模型的结构，或者增加模型的参数量，从而导致ilme的计算量会随之增加，且性能也不能得到有效保证，最终影响了语音识别效果。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音识别方法、装置、电子设备及存储介质。

2、根据本公开实施例的一个方面，提供了一种语音识别方法，包括：

3、获取目标语音数据，并提取所述目标语音数据对应的语音特征序列以及文本特征序列；

4、基于所述语音特征序列以及所述文本特征序列得到所述目标语音数据对应各个初始识别结果的初始概率；

5、利用所述文本特征序列确定所述初始识别结果的第一概率分布以及第二概率分布，其中，所述第一概率分布是基于第一文本特征与识别结果的第一对应关系得到的，所述第二概率分布是基于第二文本特征与识别结果的第二对应关系得到的；

6、基于所述初始概率，所述第一概率分布以及所述第二概率分布计算各个所述初始识别结果对应的目标概率，并将所述目标概率最大的初始识别结果确定为所述目标语音数据对应的目标识别结果。

7、根据本公开实施例的另一方面，还提供了一种语音识别装置，包括：

8、获取模块，用于获取目标语音数据，并提取所述目标语音数据对应的语音特征序列以及文本特征序列；

9、预测模块，用于基于所述语音特征序列以及所述文本特征序列得到所述目标语音数据对应各个初始识别结果的初始概率；

10、处理模块，用于利用所述文本特征序列确定所述初始识别结果的第一概率分布以及第二概率分布，其中，所述第一概率分布是基于第一文本特征与识别结果的第一对应关系得到的，所述第二概率分布是基于第二文本特征与识别结果的第二对应关系得到的；

11、输出模块，用于基于所述初始概率，所述第一概率分布以及所述第二概率分布计算各个所述初始识别结果对应的目标概率，并将所述目标概率最大的初始识别结果确定为所述目标语音数据对应的目标识别结果。

12、根据本公开实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的步骤。

13、根据本公开实施例的另一方面，还提供了一种电子装置，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；其中：存储器，用于存放计算机程序；处理器，用于通过运行存储器上所存放的程序来执行上述方法中的步骤。

14、本公开实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法中的步骤。

15、本公开实施例提供的上述技术方案与现有技术相比具有如下优点：本公开实施例提供的方法通过提取语音数据的语音特征序列和文本特征序列，并利用文本特征与识别结果之间不同的对应关系，对目标语音数据的文本特征序列对应的概率进行融合，相比现有技术中为了提高模型准确性改变模型结构或增加参数量的方式，本公开的方法不但能保证语音识别的准确性，而且还有效降低内部语言估计的计算量，解决了因模型结构改变或参数量多导致计算量增加的问题。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述文本特征序列确定所述初始识别结果第一概率分布以及第二概率分布，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取训练好的第一语言模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取语言估计模型，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述训练内容迁移至所述密度比率语言模型，得到所述第一语言模型，包括：

6.根据权利要求5所述的方法，其特征在于，在所述蒸馏损失大于所述预设损失值的情况下，所述方法还包括：

7.根据权利要求2所述的方法，其特征在于，所述基于所述初始概率，所述第一概率分布以及所述第二概率分布计算各个所述初始识别结果对应的目标概率，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；其中：

技术总结
本公开提供了一种语音识别方法、装置、电子设备及存储介质。包括：获取目标语音数据，并提取目标语音数据对应的语音特征序列以及文本特征序列；基于语音特征序列以及文本特征序列得到目标语音数据对应各个初始识别结果的初始概率；利用文本特征序列确定初始识别结果第一概率分布以及第二概率分布；基于初始概率，第一概率分布以及第二概率分布计算各个初始识别结果对应的目标概率，并将目标概率最大的初始识别结果确定为目标语音数据对应的目标识别结果。本公开通过利用文本特征与识别结果之间不同的对应关系，对目标语音数据的文本特征序列对应的概率进行融合，不但能保证语音识别的准确性，而且还有效降低内部语言估计的计算量。

技术研发人员：陈智鹏,马泽君
受保护的技术使用者：北京有竹居网络技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈智鹏马泽君
技术所有人：北京有竹居网络技术有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！