本公开涉及人工智能,尤其涉及语音识别和深度学习等,具体涉及一种语音识别方法、用于语音识别的深度学习模型的训练方法、语音识别装置、用于语音识别的深度学习模型的训练装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括自然语言处理技术、计算机视觉技术、语音识别技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
2、自动语音识别(auto speech recognition,asr)是一种通过计算机把输入的语音信号自动转换为对应的文本的技术。随着深度学习技术在语音识别领域的深入研究,特别是端到端语音识别技术的提出,在降低模型建模复杂度的同时,语音识别的准确率得到了显著提升。而且随着各种智能设备的不断普及,大词汇量在线语音识别系统在语音转写、智能客服、车载导航以及智能家居等各个场景得到了非常广泛的应用。在这些语音识别任务中,用户通常希望在语音输入完毕后,能够快速准确地得到系统的应答和反馈,这就对语音识别模型的准确率和实时率提出非常高的要求。
3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
1、本公开提供了一种语音识别方法、用于语音识别的深度学习模型的训练方法、语音识别装置、用于语音识别的深度学习模型的训练装置、电子设备、计算机可读存储介质和计算机程序产品。
2、根据本公开的一方面,提供了一种语音识别方法,包括:获取待识别语音的第一语音特征,第一语音特征包括与待识别语音中的多个语音片段对应的多个语音片段特征;利用第一解码器对第一语音特征进行解码,得到与待识别语音中的多个字对应的多个第一解码结果,第一解码结果指示对应的字的第一识别结果;基于第一先验信息,从第一语音特征中抽取得到第二语音特征,第一先验信息包括多个第一解码结果,第二语音特征包括与多个字对应的多个第一字级别音频特征;以及利用第二解码器对第二语音特征进行解码,得到与多个字对应的多个第二解码结果,第二解码结果指示对应的字的第二识别结果。
3、根据本公开的另一方面,提供了一种用于语音识别的深度学习模型的训练方法,深度学习模型包括第一解码器和第二解码器,训练方法包括:获取样本语音和样本语音中的多个字的真实识别结果;获取样本语音的第一样本语音特征,第一样本语音特征包括与样本语音中的多个样本语音片段对应的多个样本语音片段特征;利用第一解码器对第一样本语音特征进行解码,得到与样本语音中的多个字对应的多个第一样本解码结果,第一样本解码结果指示对应的字的第一识别结果;基于第一样本先验信息,从第一样本语音特征中抽取得到第二样本语音特征,第一样本先验信息包括多个第一样本解码结果,第二样本语音特征包括与多个字对应的多个第一样本字级别音频特征;利用第二解码器对第二样本语音特征进行解码,得到与多个字对应的多个第二样本解码结果,第二样本解码结果指示对应的字的第二识别结果;以及基于多个字的真实识别结果、第一识别结果和第二识别结果,调整深度学习模型的参数,以得到训练后的深度学习模型。
4、根据本公开的另一方面,提供了一种语音识别装置,包括:语音特征编码模块,被配置为获取待识别语音的第一语音特征,第一语音特征包括与待识别语音中的多个语音片段对应的多个语音片段特征;第一解码器,被配置为对第一语音特征进行解码,得到与待识别语音中的多个字对应的多个第一解码结果,第一解码结果指示对应的字的第一识别结果;字级别特征抽取模块,被配置为基于第一先验信息,从第一语音特征中抽取得到第二语音特征,第一先验信息包括多个第一解码结果,第二语音特征包括与多个字对应的多个第一字级别音频特征;以及第二解码器,被配置为对第二语音特征进行解码,得到与多个字对应的多个第二解码结果,第二解码结果指示对应的字的第二识别结果。
5、根据本公开的另一方面,提供了一种用于语音识别的深度学习模型的训练装置,深度学习模型包括第一解码器和第二解码器,训练装置包括:获取模块,被配置为获取样本语音和样本语音中的多个字的真实识别结果;语音特征编码模块,被配置为获取样本语音的第一样本语音特征,第一样本语音特征包括与样本语音中的多个样本语音片段对应的多个样本语音片段特征;第一解码器,被配置为对第一样本语音特征进行解码,得到与样本语音中的多个字对应的多个第一样本解码结果,第一样本解码结果指示对应的字的第一识别结果;字级别特征抽取模块,被配置为基于第一样本先验信息,从第一样本语音特征中抽取得到第二样本语音特征,第一样本先验信息包括多个第一样本解码结果,第二样本语音特征包括与多个字对应的多个第一样本字级别音频特征;第二解码器,被配置为对第二样本语音特征进行解码,得到与多个字对应的多个第二样本解码结果,第二样本解码结果指示对应的字的第二识别结果;以及调参模块,被配置为基于多个字的真实识别结果、第一识别结果和第二识别结果,调整深度学习模型的参数,以得到训练后的深度学习模型。
6、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
7、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
8、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
9、根据本公开的一个或多个实施例,本公开获取待识别语音的包括多个语音片段特征的第一语音特征并进行解码,得到对待识别语音的初步识别结果,进而利用初步识别结果从第一语音特征中抽取字级别的音频特征,再对字级别的音频特征进行解码,得到最终识别结果。
10、通过以对待识别语音的初步识别结果作为先验,从帧级别音频信息中的不等长的语音特征信息中抽取得到字级别等长统一的音频特征表示,并对字级别的音频特征进行解码得到最终识别结果,解决了传统语音分帧的特征表示长度不一致的难题,提升了语音识别的精度,提升了计算效率。
11、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种语音识别方法,包括:
2.根据权利要求1所述的方法,其中,基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征包括:
3.根据权利要求2所述的方法,其中,基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征包括:
4.根据权利要求1-3中任一项所述的方法,其中,利用第二解码器对所述第二语音特征进行解码,得到与所述多个字对应的多个第二解码结果包括:
5.根据权利要求4所述的方法,其中,所述第二解码器包括正向解码器和反向解码器,所述正向解码器和所述反向解码器均被配置为针对所述多个字中的每一个字,将该字的第一解码结果作为输入的查询特征,并且将所述第二语音特征作为输入的键特征和值特征,所述正向解码器被配置为对输入的特征进行从左向右的时间掩码,所述反向解码器被配置为对输入的特征进行从右向左的时间掩码。
6.根据权利要求5所述的方法,其中,针对所述多个字中的每一个字,将该字的第一解码结果作为所述第二解码器的查询特征,将所述第二语音特征作为所述第二解码器的键特征和值特征,以获取所述第二解码器输出的与该字对应的第二解码结果包括:
7.根据权利要求4所述的方法,还包括:
8.根据权利要求1-3中任一项所述的方法,还包括:
9.根据权利要求1-3中任一项所述的方法,其中,获取待识别语音的第一语音特征包括:
10.根据权利要求9所述的方法,其中,所述多个语音片段特征是对所述原始语音特征进行流式截断而依次得到的,利用第一解码器对所述第一语音特征进行解码包括:
11.根据权利要求10所述的方法,其中,获取待识别语音的第一语音特征包括:
12.根据权利要求11所述的方法,其中,利用第一编码器,结合所述历史特征抽象信息对所述当前得到的语音片段特征进行编码,以得到对应的强化后的语音片段特征包括:
13.根据权利要求9所述的方法,其中,对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征包括:
14.根据权利要求9所述的方法,其中,对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征包括:
15.根据权利要求1-3中任一项所述的方法,其中,所述第二解码器为语音大模型。
16.一种用于语音识别的深度学习模型的训练方法,所述深度学习模型包括第一解码器和第二解码器,所述训练方法包括:
17.一种语音识别装置,包括:
18.根据权利要求17所述的装置,其中,所述字级别特征抽取模块包括:
19.根据权利要求18所述的装置,其中,所述字级别特征抽取模块包括:
20.根据权利要求17-19中任一项所述的装置,其中,所述第二解码器被配置为针对所述多个字中的每一个字,接收该字对应的第一解码结果作为所述第二解码器的查询特征,接收所述第二语音特征作为所述第二解码器的键特征和值特征,以输出与该字对应的第二解码结果。
21.根据权利要求20所述的装置,其中,所述第二解码器包括正向解码器和反向解码器,所述正向解码器和所述反向解码器均被配置为针对所述多个字中的每一个字,接收该字的第一解码结果作为输入的查询特征,并且接收所述第二语音特征作为输入的键特征和值特征,所述正向解码器被配置为对输入的特征进行从左向右的时间掩码,所述反向解码器被配置为对输入的特征进行从右向左的时间掩码。
22.根据权利要求21所述的装置,其中,所述第二解码器被配置为:
23.根据权利要求20所述的装置,其中,所述第二解码器被配置为:
24.根据权利要求17-19中任一项所述的装置,其中,所述字级别特征抽取模块被配置为基于第二先验信息,从所述第一语音特征中抽取得到第三语音特征,所述第二先验信息包括所述多个第二解码结果,所述第三语音特征包括与所述多个字对应的多个第二字级别音频特征,
25.根据权利要求17-19中任一项所述的装置,其中,所述语音特征编码模块被配置为:
26.根据权利要求25所述的装置,其中,所述多个语音片段特征是对所述原始语音特征进行流式截断而依次得到的,所述第一解码器被配置为对所述多个语音片段特征依次进行流式解码。
27.根据权利要求26所述的装置,其中,所述语音特征编码模块被配置为:
28.根据权利要求27所述的装置,其中,所述第一编码器被配置为:
29.根据权利要求25所述的装置,其中,对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征包括:
30.根据权利要求25所述的装置,其中,对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征包括:
31.根据权利要求17-19中任一项所述的装置,其中,所述第二解码器为语音大模型。
32.一种用于语音识别的深度学习模型的训练装置,所述深度学习模型包括第一解码器和第二解码器,所述训练装置包括:
33.一种电子设备,其特征在于,所述电子设备包括:
34.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-16中任一项所述的方法。
35.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-16中任一项所述的方法。