语音识别纠错方法、相关设备及计算机程序产品与流程

文档序号：44198328发布日期：2025-12-26 23:52阅读：35来源：国知局

技术简介：
本技术针对语音识别中专有名词、同音词等易误识别问题，提出通过声学特征与文本双维度评估机制，结合大模型进行精准纠错。解决思路是：在语音识别模型输出候选结果后，利用第一评估模型分析声学一致性，第二评估模型预测文本正确概率，综合判断是否需调用大模型纠错，避免误改正确结果，提升识别准确度并减少大模型资源浪费。
关键词：语音识别纠错,大模型协同

本技术涉及语音识别，更具体的说，是涉及一种语音识别纠错方法、相关设备及计算机程序产品。

背景技术：

1、当前的语音识别技术发展迅猛，但在一些特定领域的表现仍差强人意，尤其是对于领域内的专有名词、同音词等出现误识别现象。

2、一些研究中尝试利用大语言模型对语音识别模型输出的识别结果进行纠错处理。具体地，在语音识别模型得到识别结果后，直接将识别结果送入大模型，让大模型进行纠错处理，输出纠正后结果。

3、但是，大模型本身存在幻觉问题，当语音识别模型输出的识别结果正确时，容易被大模型错误的修改，导致纠正后识别结果出错。

技术实现思路

1、鉴于上述问题，提出了本技术以便提供一种语音识别纠错方法、相关设备及计算机程序产品，以提供一种大模型和语音识别模型的有效结合机制，实现对语音识别的有效纠错，提升最终识别结果的准确度。具体方案如下：

2、第一方面，提供了一种语音识别纠错方法，包括：

3、获取语音识别模型对目标音频识别过程所提取的声学特征，以及所述语音识别模型输出的候选识别结果集合；

4、根据所述声学特征和所述候选识别结果集合，从声学和文本两个维度评估是否需要进行语音识别错误纠正；

5、在确定需要进行语音识别错误纠正的情况下，调用配置的大模型，以指示大模型根据所述候选识别结果集合进行语音识别错误纠正，得到大模型生成的纠正后的语音识别结果。

6、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，根据所述声学特征和所述候选识别结果集合，从声学和文本两个维度评估是否需要进行语音识别错误纠正的过程，包括：

7、根据所述声学特征和所述候选识别结果集合，从声学和文本两个维度评估最佳候选识别结果正确的置信度，所述最佳候选识别结果为所述候选识别结果集合中得分最高的候选识别结果；

8、在所述最佳候选识别结果正确的置信度满足设定低置信度条件的情况下，确定需要进行语音识别错误纠正，否则，确定不需要进行语音识别错误纠正。

9、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，根据所述声学特征和所述候选识别结果集合，从声学和文本两个维度评估最佳候选识别结果正确的置信度的过程，包括：

10、采用配置的第一评估模型，计算所述声学特征和所述最佳候选识别结果之间的一致性得分，所述一致性得分表征所述声学特征对所述最佳候选识别结果正确的支持程度；

11、采用配置的第二评估模型，基于所述候选识别结果集合预测所述最佳候选识别结果正确的概率得分；

12、根据所述第一评估模型得到的一致性得分，以及所述第二评估模型得到的概率得分确定融合得分，由所述一致性得分、所述概率得分、所述融合得分中的一项或多项确定最佳候选识别结果正确的置信度得分。

13、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，所述第一评估模型计算所述声学特征和所述最佳候选识别结果之间的一致性得分的过程，包括：

14、提取所述最佳候选识别结果的隐层特征；

15、采用跨模态注意力机制，对所述最佳候选识别结果的隐层特征和所述声学特征进行注意力计算，得到注意力输出；

16、基于所述注意力输出，预测所述声学特征和所述最佳候选识别结果之间的一致性得分。

17、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，所述第一评估模型的训练过程，包括：

18、获取音频样本的声学特征、最佳候选识别结果及识别结果标签；

19、通过第一评估模型提取所述识别结果标签的隐层特征，并对所述识别结果标签的隐层特征和所述音频样本的声学特征进行注意力计算，得到第一注意力输出；

20、通过第一评估模型提取所述音频样本的最佳候选识别结果的隐层特征，并对所述音频样本的最佳候选识别结果的隐层特征和所述音频样本的声学特征进行注意力计算，得到第二注意力输出，基于所述第二注意力输出，预测一致性得分；

21、计算所述第一注意力输出和所述第二注意力输出之间的目标相似度；

22、以最大化所述目标相似度，以及，最小化预测得到的一致性得分与所述目标相似度之间的差异为目标，更新第一评估模型的参数。

23、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，所述第二评估模型的训练过程，包括：

24、获取音频样本的候选识别结果集合及样本标签，在所述音频样本的候选识别结果集合中的最佳候选识别结果与识别结果标签一致时，所述样本标签设置为1，否则，所述样本标签设置为0；

25、将所述音频样本的候选识别结果集合输入第二评估模型，得到第二评估模型输出的概率得分；

26、基于所述概率得分和所述样本标签计算损失值，并按照损失值更新第二评估模型的参数。

27、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，在确定需要进行语音识别错误纠正的情况下，调用配置的大模型，以指示大模型根据所述候选识别结果集合进行语音识别错误纠正的过程，包括：

28、在确定需要进行语音识别错误纠正的情况下，进一步判断所述一致性得分是否处于第一阈值和第二阈值组成的数值区间内，所述第一阈值小于所述第二阈值；

29、若是，则将所述声学特征和所述候选识别结果集合共同作为大模型的输入数据，由大模型基于输入数据进行语音识别错误纠正。

30、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，还包括：

31、若所述一致性得分小于所述第一阈值，则由所述候选识别结果集合，或所述候选识别结果集合和历史信息作为大模型的输入数据，由大模型基于输入数据进行语音识别错误纠正，所述历史信息为辅助对所述目标音频进行识别的参考文本信息。

32、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，调用配置的大模型，以指示大模型根据所述候选识别结果集合进行语音识别错误纠正的过程，包括：

33、将所述候选识别结合集合与历史信息和设定提示词拼接，得到输入文本，并将输入文本编码为文本嵌入表示，所述历史信息为辅助对所述目标音频进行识别的参考文本信息，所述提示词用于提示大模型进行语音识别错误纠正；

34、由所述文本嵌入表示作为大模型的输入数据，由大模型基于输入数据进行语音识别错误纠正；

35、或，

36、将所述声学特征送入声学编码器进行编码，得到编码后的声学特征；

37、将所述文本嵌入表示和所述编码后的声学特征拼接，得到拼接特征作为大模型的输入数据，由大模型基于输入数据进行语音识别错误纠正。

38、在一种可能的设计中，在本技术实施例的第一方面的另一种实现方式中，所述配置的大模型在训练阶段联合所述声学编码器共同训练，训练过程包括三个阶段：

39、第一阶段：

40、采用第一类型训练语料和第二类型训练语料对大模型进行训练，所述第一类型训练语料包括提示词、音频样本的候选识别结果集合和识别结果标签，所述第二类型训练语料包括提示词、音频样本的候选识别结果集合、历史信息和识别结果标签，所述历史信息为辅助对所述音频样本进行识别的参考文本信息；

41、第二阶段：

42、固定大模型参数，采用第三类型训练语料对所述声学编码器进行训练，所述第三类型训练语料包括提示词、音频样本的候选识别结果集合、音频样本的声学特征和识别结果标签；

43、第三阶段：

44、采样第一、第二、第三类型训练语料和第四类型训练语料对大模型和所述声学编码器联合训练，所述第四类型训练语料包括提示词、音频样本的候选识别结果集合、历史信息、音频样本的声学特征和识别结果标签。

45、第二方面，提供了一种电子设备，包括：存储器和处理器；

46、所述存储器，用于存储程序；

47、所述处理器，用于执行所述程序，实现本技术前述第一方面中任一项所描述的语音识别纠错方法的各个步骤。

48、第三方面，提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现本技术前述第一方面中任一项所描述的语音识别纠错方法的各个步骤。

49、第四方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现本技术前述第一方面中任一项所描述的语音识别纠错方法的各个步骤。

50、借由上述技术方案，本技术在得到语音识别模型对目标音频的候选识别结果集合后，并非直接送入大模型进行纠错处理，而是增加了纠错判断机制，根据语音识别模型对目标音频识别过程所提取的声学特征和候选识别结果集合，判断是否需要进行语音识别错误纠正，仅在确定需要进行语音识别错误纠正的情况下，才通过大模型根据候选识别结果集合进行语音识别错误纠正，避免了在候选识别结果集合不需要纠错时，错误的调用大模型进行识别结果纠正，反而得到错误的识别结果。因此，采用本技术方案可以提升最终识别结果的准确度，并且减少无意义的大模型资源的调用。

51、进一步地，本技术在评估是否需要进行语音识别错误纠正时，并未单纯从文本维度的候选识别结果集合进行评估，而是综合考虑了语音识别模型对目标音频识别过程所提取的声学特征，以及候选识别结果集合，同时从声学和文本两个维度进行评估。候选识别结果集合能够捕捉语法错误、语义不通、常见混淆词等语言层面的错误信息，而声学特征可以捕捉声学置信度、声学歧义、噪声干扰、声学和文本对齐问题等声学层面的错误信息，综合声学和文本两个维度进行评估，可以极大提高是否需要进行语音识别错误纠正的评估结果准确度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴明辉,季栋,孙丰平,吴重亮,李永超
技术所有人：安徽讯飞寰语科技有限公司
我是此专利的发明人

上一篇：燃烧器及包含其的燃气灶具的制作方法
下一篇：基于电离层模型重构的跨中纬槽短波通信信道建模方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！