语音识别方法、装置、电子设备及存储介质与流程

文档序号:41796854发布日期:2025-05-06 16:52阅读:31来源:国知局

本技术涉及人工智能,尤其涉及一种语音识别方法、装置、电子设备及存储介质。


背景技术:

1、自动语音识别是将语音自动转写为对应文字的技术,可以为语音的内容理解和人机交互提供支持,广泛应用于各种基础业务中,如搜索、语音助手、自动字幕等。目前,配合大量的人工标注数据,如大于5万小时的语音数据,语音识别的准确率已达到可使用的水准,但是,如何进一步地提高语音识别的准确率是一个亟待解决的问题。


技术实现思路

1、本技术实施例公开了一种语音识别方法、装置、电子设备及存储介质,能够提高语音识别的准确率,且提高语音识别效率。

2、本技术实施例公开了一种语音识别方法,包括:

3、获取待识别语音;

4、通过语音识别模型将所述待识别语音转换为目标文本;其中,所述语音识别模型包括目标编码模块以及目标解码模块,所述目标编码模块用于对所述待识别语音进行编码,得到所述待识别语音对应的语音表征,所述目标解码模块包括训练得到的目标大语言模型llm,所述目标llm用于对所述待识别语音对应的语音表征进行解码,得到所述目标文本。

5、在一个实施例中,所述目标llm是基于样本数据集合,对预训练得到的初始llm进行微调得到的;

6、所述样本数据集合包括多个样本语音分别对应的语音表征以及对应的标注文本。

7、在一个实施例中,所述样本数据集合还包括所述任务提示信息;所述方法还包括:

8、根据所述任务提示信息、目标样本语音对应的语音表征以及对应的标注文本,生成所述目标样本语音对应的模型微调指令;所述目标样本语音为所述多个样本语音中的任一个;

9、通过所述初始llm按照所述任务提示信息,对所述目标样本语音对应的语音表征进行解码,得到所述目标样本语音对应的识别文本;

10、确定所述目标样本语音对应的识别文本与对应的标注文本之间的目标损失;

11、根据多个所述样本语音分别对应的目标损失,对所述初始llm进行参数调整,直至满足模型收敛条件,得到所述目标llm对应的参数。

12、在一个实施例中,所述初始llm对应的参数包括原始矩阵参数;所述根据多个样本语音分别对应的目标损失,对所述初始llm进行参数调整,直至满足模型收敛条件,得到所述目标llm对应的参数,包括:

13、根据多个所述样本语音分别对应的目标损失,对目标矩阵参数进行调整;所述目标矩阵参数的秩小于所述原始矩阵参数的秩;

14、在满足所述模型收敛条件的情况下,根据调整后的目标矩阵参数以及所述原始矩阵参数,得到所述目标llm对应的参数。

15、在一个实施例中,所述方法还包括:

16、通过所述目标编码模块对所述多个样本语音进行编码,得到所述多个样本语音分别对应的语音表征。

17、在一个实施例中,所述方法还包括:

18、根据所述多个样本语音分别对应的目标损失,对所述目标编码模块进行参数调整,以得到更新后的目标编码模块。

19、在一个实施例中,所述语音识别模型还包括连接器,所述连接器用于将所述多个样本语音分别对应的语音表征映射到llm对应的维度空间;

20、所述方法还包括:

21、根据所述多个样本语音分别对应的目标损失,对所述连接器进行参数调整。

22、在一个实施例中,所述通过语音识别模型将所述待识别语音转换为目标文本,包括:

23、通过所述目标编码模块对所述待识别语音进行编码,得到所述待识别语音对应的语音表征;

24、输入任务提示信息、上下文信息以及所述待识别语音对应的语音表征到所述目标llm;

25、通过所述目标llm按照所述任务提示信息以及所述上下文信息,对所述待识别语音对应的语音表征进行解码,得到目标文本。

26、在一个实施例中,所述语音识别模型还包括连接器,在所述通过所述目标编码模块对所述待识别语音进行编码,得到所述待识别语音对应的语音表征之后,所述方法还包括:

27、通过所述连接器将所述待识别语音对应的语音表征映射到llm对应的维度空间;

28、所述输入任务提示信息、上下文信息以及所述待识别语音对应的语音表征到所述目标llm,包括:

29、输入任务提示信息、上下文信息以及映射后的语音表征到所述目标llm。

30、本技术实施例公开了一种语音识别装置,所述装置包括:

31、语音获取模块,用于获取待识别语音;

32、语音识别模块,用于通过语音识别模型将所述待识别语音转换为目标文本;其中,所述语音识别模型包括目标编码模块以及目标解码模块,所述目标编码模块用于对所述待识别语音进行编码,得到所述待识别语音对应的语音表征,所述目标解码模块包括训练得到的目标大语言模型llm,所述目标llm用于对所述待识别语音对应的语音表征进行解码,得到所述目标文本。

33、在一个实施例中,所述目标llm是基于样本数据集合,对预训练得到的初始llm进行微调得到的;所述样本数据集合包括多个样本语音分别对应的语音表征以及对应的标注文本。

34、在一个实施例中,所述样本数据集合还包括所述任务提示信息;所述语音识别装置还包括微调训练模块,用于根据所述任务提示信息、所述目标样本语音对应的语音表征以及对应的标注文本,生成所述目标样本语音对应的模型微调指令;所述目标样本语音为所述多个样本语音中的任一个;通过所述初始llm按照所述任务提示信息,对所述目标样本语音对应的语音表征进行解码,得到所述目标样本语音对应的识别文本;确定所述目标样本语音对应的识别文本与对应的标注文本之间的目标损失;根据所述多个样本语音分别对应的目标损失,对所述初始llm进行参数调整,直至满足模型收敛条件,得到所述目标llm对应的参数。

35、在一个实施例中,所述初始llm对应的参数包括原始矩阵参数;所述微调训练模块,还用于根据所述多个样本语音分别对应的目标损失,对目标矩阵参数进行调整;所述目标矩阵参数的秩小于所述原始矩阵参数的秩;在满足所述模型收敛条件的情况下,根据调整后的目标矩阵参数以及所述原始矩阵参数,得到所述目标llm对应的参数。

36、在一个实施例中,所述微调训练模块,还用于通过所述目标编码模块对所述多个样本语音进行编码,得到所述多个样本语音分别对应的语音表征。

37、在一个实施例中,所述微调训练模块,还用于根据所述多个样本语音分别对应的目标损失,对所述目标编码模块进行参数调整,以得到更新后的目标编码模块。

38、在一个实施例中,所述语音识别模型还包括连接器,所述连接器用于将所述多个样本语音分别对应的语音表征映射到llm对应的维度空间;所述微调训练模块,还用于根据所述多个样本语音分别对应的目标损失,对所述连接器进行参数调整。

39、在一个实施例中,语音识别模块,还用于通过所述目标编码模块对所述待识别语音进行编码,得到所述待识别语音对应的语音表征;输入任务提示信息、上下文信息以及所述待识别语音对应的语音表征到所述目标llm;通过所述目标llm按照所述任务提示信息以及所述上下文信息,对所述待识别语音对应的语音表征进行解码,得到目标文本。

40、在一个实施例中,所述语音识别模型还包括连接器,语音识别模块,还用于通过所述连接器将所述待识别语音对应的语音表征映射到llm对应的维度空间;输入任务提示信息、上下文信息以及映射后的语音表征到所述目标llm。

41、本技术实施例公开了一种电子设备,包括:

42、存储有可执行程序代码的存储器;

43、与所述存储器耦合的处理器;

44、所述处理器调用所述存储器中存储的所述可执行程序代码,执行上述任一实施例所述的方法。

45、本技术实施例公开了一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序在被处理器执行时,使得所述处理器执行上述任一实施例所述的方法。

46、通过本技术实施例公开的语音识别方法、装置、电子设备及存储介质,电子设备可以获取待识别语音,并通过语音识别模型将待识别语音转换为目标文本。其中,语音识别模型可以包括目标编码模块以及目标解码模块,该目标编码模块可以对待识别语音进行编码,得到语音表征,该目标解码模块可以包括训练得到的目标llm,该目标llm可以对语音表征进行解码,得到目标文本。通过对llm的训练,使得训练得到的目标llm具有对目标编码模块所输出的语音表征的解码能力,解决了llm无法识别语音表征的问题,提高语音识别的准确率,并且将目标解码模块和目标llm作为目标解码模块统一到一个语音识别模型中,提高了语音识别效率。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!