本申请涉及语音识别,特别是涉及到一种易混词确认方法、装置、设备及存储介质。
背景技术:
1、当前嵌入式语音识别系统普遍采用ctc(connectionisttemporalclassification)算法,其通过端到端训练无需强制音频-文本对齐的特性,在智能家居、可穿戴设备等资源受限场景中广泛应用。然而,现有方案直接依赖ctc输出的top-1结果作为最终识别结果,存在显著缺陷:首先,对发音相近的命令词(如"二十七度"与"二十一度"),因ctc路径概率的微小差异易导致误识别;其次,单次前向传播的静态决策机制缺乏对易混淆场景的二次验证能力;此外,模型中间层蕴含的音素级嵌入特征未被有效利用,错失了通过细粒度声学特征比对提升判别精度的机会。
2、因此,现有的ctc方案对发音相近命令词易误识别,缺乏二次验证机制导致识别准确率低是亟待解决的技术问题。
技术实现思路
1、本申请的主要目的为提供一种易混词确认方法、装置、设备及存储介质,旨在解决现有ctc方案对发音相近命令词易误识别,缺乏二次验证机制导致识别准确率低的技术问题。
2、为了实现上述发明目的,本申请提出一种易混词确认方法,所述方法包括:
3、基于预设的命令词语料在初始语音识别模型上进行训练,得到优化识别模型;
4、将真实命令词语料输入到优化识别模型中,提取每个音频片段的嵌入表示;
5、根据提取的嵌入表示,构建每个音素的嵌入表示词典;
6、当接收到新的语音输入时,通过优化识别模型生成对应音频的嵌入序列;
7、基于嵌入表示词典,获取所述嵌入序列对应的易混淆命令词列表中所有易混命令词的音素嵌入表示序列;
8、计算输入音频的嵌入序列与易混淆命令词的音素嵌入表示序列之间的相似度,得到最终识别结果。
9、进一步地,所述基于预设的命令词语料在初始语音识别模型上进行训练,得到优化识别模型的步骤,包括:
10、基于通用语料训练语音识别模型,直到在验证集上的损失率或词错误率降低到第一预设阈值,得到所述初始语音识别模型;
11、基于预设的命令词语料在初始语音识别模型的基础上进行训练,直至所述初始语音识别模型在包含命令词的验证集上的损失率或词错误率降低到第二预设阈值,得到所述优化识别模型。
12、进一步地,所述将真实命令词语料输入到优化识别模型中,提取每个音频片段的嵌入表示的步骤,包括:
13、获取预设的真实命令词语料,其中所述真实命令词语料为包含命令词的音频片段;
14、将真实命令词语料输入到所述优化识别模型;
15、使用优化识别模型对输入的命令词语料进行推理,生成每个音频片段对应的特征向量,即所述嵌入表示。
16、进一步地,所述根据提取的嵌入表示,构建每个音素的嵌入表示词典的步骤,包括:
17、对于所述真实命令词语料中包含的音频片段,基于ctc算法计算路径得分;
18、基于所述路径得分,使用回溯算法通过选择最大路径得分找出音频和音素的最佳对齐路径;
19、创建初始的音素嵌入表示词典,其中每个音素对应一个初始的嵌入表示;
20、当音频片段的嵌入表示得分大于预设阈值时,认定为高质量音频嵌入表示;
21、根据最佳对齐路径,将高质量音频嵌入表示映射到对应的音素上,并通过移动平均的方法更新对应音素的嵌入表示,得到所述嵌入表示词典。
22、进一步地,所述当接收到新的语音输入时,通过优化识别模型生成对应音频的嵌入序列的步骤,包括:
23、对所述语音输入进行预处理,得到待识别音频片段;
24、将待识别音频片段输入到优化识别模型中,通过前向传播生成待识别音频片段的嵌入表示,即对应音频的嵌入序列。
25、进一步地,所述基于嵌入表示词典,获取所述嵌入序列对应的易混淆命令词列表中所有易混命令词的音素嵌入表示序列的步骤,包括:
26、识别所述嵌入序列对应的易混淆命令词列表,并加载所述易混淆命令词列表中的所有易混命令词;
27、将所述易混命令词转换为对应的音素序列;
28、根据每个音素序列,从预先构建好的音素嵌入表示词典中获取相应的音素嵌入表示,得到对应的音素嵌入表示序列。
29、进一步地,所述计算输入音频的嵌入序列与易混淆命令词的音素嵌入表示序列之间的相似度,得到最终识别结果的步骤,包括:
30、将输入音频的嵌入序列与易混淆命令词的音素嵌入表示序列进行对齐;
31、使用相似度度量方法计算输入音频的嵌入序列与每个易混淆命令词的音素嵌入表示序列之间的相似度;
32、比较所有相似度得分,选择得分最高的命令词作为最终的识别结果。
33、本申请的第二方面提出一种易混词确认装置,包括:
34、优化模块,用于基于预设的命令词语料在初始语音识别模型上进行训练,得到优化识别模型;
35、提取模块,用于将真实命令词语料输入到优化识别模型中,提取每个音频片段的嵌入表示;
36、构建模块,用于根据提取的嵌入表示,构建每个音素的嵌入表示词典;
37、生成模块,用于当接收到新的语音输入时,通过优化识别模型生成对应音频的嵌入序列;
38、获取模块,用于基于嵌入表示词典,获取所述嵌入序列对应的易混淆命令词列表中所有易混命令词的音素嵌入表示序列;
39、计算模块,用于计算输入音频的嵌入序列与易混淆命令词的音素嵌入表示序列之间的相似度,得到最终识别结果。
40、本申请的第三方面还包括一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。
41、本申请的第四方面还包括一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。
42、有益效果:
43、本方案能够显著提升语音识别系统对易混淆命令词的识别准确性。首先,基于ctc算法和回溯算法找到音频与音素的最佳对齐路径,确保了高质量的音素嵌入表示生成。结合命令词语料进行训练,优化后的模型能够更精准地识别特定命令词,减少了误识别的可能性。利用音素嵌入表示词典,系统可以在实际应用中高效处理新输入的音频数据,并通过建立与当前识别命令词易混的易混词列表,进行易混词内部的二次确认机制。具体来说,计算输入音频的嵌入序列与易混淆命令词的音素嵌入表示序列之间的相似度,准确区分易混淆命令词。这一系列步骤不仅提高了识别准确性,还通过优化模型和嵌入表示的生成过程,降低了计算复杂度,增强了系统的适应性和灵活性。
1.一种易混词确认方法,其特征在于,所述方法包括:
2.根据权利要求1所述的易混词确认方法,其特征在于,所述基于预设的命令词语料在初始语音识别模型上进行训练,得到优化识别模型的步骤,包括:
3.根据权利要求1所述的易混词确认方法,其特征在于,所述将真实命令词语料输入到优化识别模型中,提取每个音频片段的嵌入表示的步骤,包括:
4.根据权利要求1所述的易混词确认方法,其特征在于,所述根据提取的嵌入表示,构建每个音素的嵌入表示词典的步骤,包括:
5.根据权利要求1所述的易混词确认方法,其特征在于,所述当接收到新的语音输入时,通过优化识别模型生成对应音频的嵌入序列的步骤,包括:
6.根据权利要求1所述的易混词确认方法,其特征在于,所述基于嵌入表示词典,获取所述嵌入序列对应的易混淆命令词列表中所有易混命令词的音素嵌入表示序列的步骤,包括:
7.根据权利要求1所述的易混词确认方法,其特征在于,所述计算输入音频的嵌入序列与易混淆命令词的音素嵌入表示序列之间的相似度,得到最终识别结果的步骤,包括:
8.一种易混词确认装置,其特征在于,包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。