本技术涉及计算机,具体涉及一种语音识别方法、装置、设备、存储介质及程序产品。
背景技术:
1、语音识别可以用于将语音信号识别为相应的文本或命令,语音识别技术的广泛运用,极大地便捷了人和人之间的沟通、以及人和机器之间的沟通。
2、在对相关技术的研究和实践过程中,本技术的发明人发现,可以通过对语音中的音频帧进行解码,进而基于解码结果确定语音识别结果。但由于当前针对音频帧进行解码的过程中,对计算机设备运算资源的利用率较低,使得语音识别的正确率与识别效率还有待提高。
技术实现思路
1、本技术实施例提供一种语音识别方法、装置、设备、存储介质及程序产品,可以自适应地对语音识别处理进行动态调节,以提高语音识别的正确率与效率。
2、本技术实施例提供一种语音识别方法,包括:
3、对音频帧序列进行特征提取处理,得到声学特征序列,所述音频帧序列包括至少一个音频帧,所述声学特征序列包括各个所述音频帧的声学特征;
4、根据所述声学特征,对当前的待解码音频帧进行声学似然计算,得到所述待解码音频帧的声学似然结果,所述声学似然结果表征所述待解码音频帧与预设声学状态之间的接近程度;
5、获取参考音频帧的历史解码信息、以及所述计算机设备当前的资源使用信息,所述参考音频帧包括所述音频帧序列中与所述待解码音频帧关联的音频帧;
6、根据所述声学似然结果、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理;
7、根据处理结果对所述待解码音频帧进行语音识别处理。
8、相应的,本技术实施例还提供一种语音识别装置,包括:
9、提取单元,用于对音频帧序列进行特征提取处理,得到声学特征序列,所述音频帧序列包括至少一个音频帧,所述声学特征序列包括各个所述音频帧的声学特征;
10、计算单元,用于根据所述声学特征,对当前的待解码音频帧进行声学似然计算,得到所述待解码音频帧的声学似然结果,所述声学似然结果表征所述待解码音频帧与预设声学状态之间的接近程度;
11、获取单元,用于获取参考音频帧的历史解码信息、以及所述计算机设备当前的资源使用信息,所述参考音频帧包括所述音频帧序列中与所述待解码音频帧关联的音频帧;
12、解码单元,用于根据所述声学似然结果、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理;
13、识别单元,用于根据处理结果对所述待解码音频帧进行语音识别处理。
14、在一实施例中,所述解码单元,包括:
15、置信度计算子单元,用于根据所述声学似然结果,计算所述待解码音频帧的声学似然置信度;
16、音频解码子单元,用于根据所述声学似然置信度、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理。
17、在一实施例中,所述声学似然结果包括声学似然得分序列,所述声学似然得分序列包括至少一个声学似然得分信息,每个所述声学似然得分信息指示所述待解码音频帧与预设声学状态之间的接近程度;所述置信度计算子单元,用于:
18、对所述声学似然得分序列进行信息提取处理,得到至少一个声学似然得分子序列;分别计算各个所述声学似然得分子序列的声学似然置信度;基于各个所述声学似然得分子序列的声学似然置信度,计算所述声学似然得分序列的声学似然置信度,作为所述待解码音频帧的声学似然置信度。
19、在一实施例中,所述置信度计算子单元,具体用于:
20、确定各个所述声学似然得分子序列在所述声学似然得分序列中的序列分布信息;根据所述序列分布信息,确定各个所述声学似然得分子序列对应的置信权重;基于所述置信权重与各个所述声学似然得分子序列的声学似然置信度,计算所述声学似然得分序列的声学似然置信度。
21、在一实施例中,所述置信度计算子单元,具体用于:
22、对所述声学似然得分序列中的声学似然得分信息进行排序处理,得到排序后的声学似然得分序列;对所述排序后的声学似然得分序列进行信息提取处理,得到至少一个声学似然得分子序列,每个所述声学似然得分子序列包括至少一个按照预设得分顺序排列的声学似然得分信息。
23、在一实施例中,所述音频解码子单元,用于:
24、获取预训练的参数获取模型;采用所述参数获取模型,根据所述声学似然置信度、所述历史解码信息、以及所述资源使用信息,确定针对所述待解码音频帧的解码调节参数;根据所述解码调节参数,对所述待解码音频帧的音频解码过程进行调节,以对所述待解码音频帧进行音频解码处理。
25、在一实施例中,所述声学似然结果包括声学似然得分序列,所述声学似然得分序列包括至少一个声学似然得分信息,每个所述声学似然得分信息指示所述待解码音频帧与预设声学状态之间的接近程度;所述音频解码子单元,具体用于:
26、当基于图网络对待解码音频帧进行音频解码处理时,根据所述声学似然得分信息,生成与所述待解码音频帧匹配的候选状态节点,所述候选状态节点表征所述声学似然得分信息对应的预设声学状态;获取预训练的语言模型,并通过所述语言模型确定所述候选状态节点的语言模型得分信息;根据所述解码调节参数、所述声学似然得分信息、以及所述语言模型得分信息,对所述待解码音频帧的音频解码过程进行调节。
27、在一实施例中,所述音频解码子单元,具体用于:
28、根据所述声学似然得分信息与所述语言模型得分信息,计算每个所述候选状态节点的初始评估分数信息;基于所述解码调节参数与所述初始评估分数信息,从所述待解码音频帧的候选状态节点中确定与所述待解码音频帧匹配的目标状态节点,以对所述待解码音频帧的音频解码过程进行调节。
29、在一实施例中,所述解码调节参数包括第一节点调节参数;所述音频解码子单元,具体用于:
30、通过所述第一节点调节参数对所述候选状态节点的初始评估分数信息进行调节,得到所述候选状态节点的调节后评估分数信息;确定所述候选状态节点的前驱状态节点,并获取所述前驱状态节点的节点评估分数信息;基于所述调节后评估分数信息与所述前驱状态节点的节点评估分数信息,确定所述候选状态节点的节点评估分数信息;根据所述候选状态节点的节点评估分数信息,从所述候选状态节点中确定与所述待解码音频帧匹配的目标状态节点。
31、在一实施例中,所述解码调节参数包括第二节点调节参数;所述音频解码子单元,具体用于:
32、基于所述初始评估分数,确定所述候选状态节点的节点评估分数信息;根据所述节点评估分数信息,对所述待解码音频帧的候选状态节点进行排序处理;基于所述第二节点调节参数,从排序后的候选状态节点中选取与所述待解码音频帧匹配的目标状态节点。
33、在一实施例中,所述计算单元,包括:
34、模型获取子单元,用于获取进行声学似然计算所需的声学模型;
35、声学计算子单元,用于采用所述声学模型对所述声学特征序列中的声学特征进行声学似然计算,得到所述声学特征序列中各个声学特征的声学似然结果;
36、结果确定子单元,用于从所述各个声学特征的声学似然结果中,确定当前的待解码音频帧的声学似然结果。
37、在一实施例中,所述提取单元,包括:
38、语音获取子单元,用于获取待识别语音;
39、分帧处理子单元,用于对所述待识别语音进行分帧处理,得到音频帧序列,所述音频序列包括至少一个音频帧;
40、特征提取子单元,用于对所述音频帧序列进行特征提取处理,得到声学特征序列,所述声学特征序列包括所述音频帧序列中各个音频帧的声学特征。
41、相应的,本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如本技术实施例所示的语音识别方法的步骤。
42、相应的,本技术实施例还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如本技术实施例所示的语音识别方法的步骤。
43、相应的,本技术实施例还提供一种计算机程序产品,包括计算机程序/指令,其中,所述计算机程序/指令被处理器执行时实现如本技术实施例所示的语音识别方法的步骤。
44、本技术实施例可以对音频帧序列进行特征提取处理,得到声学特征序列,所述音频帧序列包括至少一个音频帧,所述声学特征序列包括各个所述音频帧的声学特征;根据所述声学特征,对当前的待解码音频帧进行声学似然计算,得到所述待解码音频帧的声学似然结果,所述声学似然结果表征所述待解码音频帧与预设声学状态之间的接近程度;获取参考音频帧的历史解码信息、以及所述计算机设备当前的资源使用信息,所述参考音频帧包括所述音频帧序列中与所述待解码音频帧关联的音频帧;根据所述声学似然结果、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理;根据处理结果对所述待解码音频帧进行语音识别处理。
45、该方案可以对音频帧处理过程中涉及到的相关环节、以及计算机设备当前的状况进行分析与评估,从而自适应地对音频帧的解码过程进行动态调节,以在兼顾语音识别速度的基础上,通过提高运算资源的利用率来改善语音识别的正确率,进而提高语音识别的识别效率。具体地,该方案通过分析音频帧的声学似然结果的声学似然结果,使得该方案在针对视频帧进行解码时,能够将待解码音频帧与预设声学状态之间的接近程度考虑在内,例如可以基于此评估声学似然结果的置信程度,进而动态地调节利用音频帧解码过程中的运算资源,以改善语音识别的正确率。此外,该方案还能基于参考音频帧的历史解码信息、以及计算机设备当前的资源使用信息,来对当前待解码的音频帧进行解码处理,从而提高了语音识别处理过程中对运算资源利用率的自适应调节能力。可见,该方案可以通过增强语音识别处理过程中的自适应调节能力,来对语音识别进行动态调整,进而提高对计算机运算资源的利用率,从而改善语音识别的正确率与识别效率。