基于置信度模型的语音识别优化方法、系统和存储介质与流程

文档序号：34863581发布日期：2023-07-23 15:06阅读：227来源：国知局

所属的技术人员知道，本发明可以实现为方法、系统和存储介质。因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

背景技术：

1、目前在语音识别中，时常出现音频整句或部分无效导致语音识别模型误转、转译结果语义不明确以及出现限制词等问题。常见的无效音频主要包含以下几类：无人类说话声、背景噪音、音频失真以及未支持的语种(包含其它外语和地区方言)。上述问题严重影响了语音识别的准确率以及语音转译结果的可读性。

2、因此，亟需提供一种技术方案解决上述技术问题。

技术实现思路

1、为解决上述技术问题，本发明提供了一种基于置信度模型的语音识别优化方法、系统和存储介质。

2、本发明的基于置信度模型的语音识别优化方法的技术方案如下：

3、利用目标语音识别模型对任一语音样本进行解码，得到该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分，直至得到每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分；

4、基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分，对包含字置信度网络和句置信度网络的第一置信度模型进行训练，得到目标置信度模型；

5、将待识别语音输入至所述目标语音识别模型进行解码，得到并将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型，得到并根据所述待识别语音的字置信度结果和句置信度结果，对所述第一语音识别结果进行优化，得到所述待识别语音的目标语音识别结果。

6、本发明的基于置信度模型的语音识别优化方法的有益效果如下：

7、本发明的方法通过联合句置信度和字置信度对语音识别结果进行优化，改善了现有语音识别模型存在误转的问题，提高了语音识别的准确率以及转译结果的可读性。

8、在上述方案的基础上，本发明的基于置信度模型的语音识别优化方法还可以做如下改进。

9、进一步，所述基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分，对包含字置信度网络和句置信度网络的第一置信度模型进行训练，得到目标置信度模型的步骤，包括：

10、将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络，得到该语音样本的交叉熵损失值，并将该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络，得到该语音样本的kl散度损失值，直至得到每个语音样本的交叉熵损失值和kl散度损失值；

11、基于每个语音样本的交叉熵损失值和kl散度损失值，对所述第一置信度模型的参数进行优化，得到第二置信度模型，将所述第二置信度模型作为所述第一置信度模型并返回执行所述将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述第一置信度模型的步骤，直至所述第二置信度模型满足预设训练条件时，将所述第二置信度模型确定为所述目标置信度模型；其中，所述预设训练条件为：所述第二置信度模型的损失不再下降或达到预设最大迭代次数。

12、进一步，将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络，得到该语音样本的交叉熵损失值的步骤，包括：

13、将所述任一语音样本的编码网络输出特征输入所述句置信度网络的第一线性层进行变换处理，得到该语音样本的第一变换特征，并基于交叉注意力机制，对该语音样本的编码网络输出特征和第一变换特征进行计算，得到该语音样本的第二变换特征，并将该语音样本的多个目标路径得分与第二变换特征进行拼接，得到并将该语音样本的第三变换特征输入至所述句置信度网络的第二线性层进行处理，得到该语音样本的句置信度预测结果，并利用该语音样本的句置信度预测结果与句置信度真实标签计算得到该语音样本的交叉熵损失值；其中，该语音样本的句置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字准计算所获取的。

14、进一步，将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络，得到该语音样本的kl散度损失值的步骤，包括：

15、基于自注意力机制，对所述任一语音样本的最优路径转译结果进行计算，得到该语音样本的第一中间特征，并将该语音样本的编码网络输出特征与第三变换特征进行拼接，得到第二中间特征，并基于交叉注意力机制，对该语音样本的第一中间特征和第二中间特征进行计算，得到该语音样本的第三中间特征并输入至所述字置信度网络的第三线性层进行处理，得到该语音样本的字置信度预测结果，并利用该语音样本的字置信度预测结果与字置信度真实标签计算得到该语音样本的kl散度损失值；其中，该语音样本的字置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字对齐所获取的。

16、进一步，将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型，得到并根据所述待识别语音的字置信度得分和句置信度得分，对所述第一语音识别结果进行优化，得到所述待识别语音的目标语音识别结果的步骤，包括：

17、将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型中的句置信度网络，得到所述待识别语音的第一语音识别结果的句置信度得分；

18、将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型中的字置信度网络，得到所述待识别语音的第一语音识别结果中的每个字的字置信度得分；

19、当所述句置信度得分大于预设句置信度分数时，从所述待识别语音的第一语音识别结果中，将每个小于预设字置信度分数的字置信度得分所对应的字删除，得到目标语音识别结果。

20、进一步，所述目标语音识别模型为训练好的asr模型。

21、本发明的基于置信度模型的语音识别优化系统的技术方案如下：

22、包括：处理模块、训练模块和优化模块；

23、所述处理模块用于：利用目标语音识别模型对任一语音样本进行解码，得到该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分，直至得到每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分；

24、所述训练模块用于：基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分，对包含字置信度网络和句置信度网络的第一置信度模型进行训练，得到目标置信度模型；

25、所述优化模块用于：将待识别语音输入至所述目标语音识别模型进行解码，得到并将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型，得到并根据所述待识别语音的字置信度结果和句置信度结果，对所述第一语音识别结果进行优化，得到所述待识别语音的目标语音识别结果。

26、本发明的基于置信度模型的语音识别优化系统的有益效果如下：

27、本发明的系统通过联合句置信度和字置信度对语音识别结果进行优化，改善了现有语音识别模型存在误转的问题，提高了语音识别的准确率以及转译结果的可读性。

28、在上述方案的基础上，本发明的基于置信度模型的语音识别优化系统还可以做如下改进。

29、进一步，所述训练模块包括：第一训练模块、第二训练模块和迭代训练模块；

30、所述第一训练模块用于：将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络，得到该语音样本的交叉熵损失值；

31、所述第二训练模块用于：将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络，得到该语音样本的kl散度损失值，直至得到每个语音样本的交叉熵损失值和kl散度损失值；

32、所述迭代训练模块用于：基于每个语音样本的交叉熵损失值和kl散度损失值，对所述第一置信度模型的参数进行优化，得到第二置信度模型，将所述第二置信度模型作为所述第一置信度模型并返回调用所述第一训练模块，直至所述第二置信度模型满足预设训练条件时，将所述第二置信度模型确定为所述目标置信度模型；其中，所述预设训练条件为：所述第二置信度模型的损失不再下降或达到预设最大迭代次数。

33、进一步，所述第一训练模块具体用于：

34、将所述任一语音样本的编码网络输出特征输入所述句置信度网络的第一线性层进行变换处理，得到该语音样本的第一变换特征，并基于交叉注意力机制，对该语音样本的编码网络输出特征和第一变换特征进行计算，得到该语音样本的第二变换特征，并将该语音样本的多个目标路径得分与第二变换特征进行拼接，得到并将该语音样本的第三变换特征输入至所述句置信度网络的第二线性层进行处理，得到该语音样本的句置信度预测结果，并利用该语音样本的句置信度预测结果与句置信度真实标签计算得到该语音样本的交叉熵损失值；其中，该语音样本的句置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字准计算所获取的。

35、本发明的一种存储介质的技术方案如下：

36、存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如本发明的基于置信度模型的语音识别优化方法的步骤。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李建群
技术所有人：数美天下（北京）科技有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！