语音识别方法、装置、设备、存储介质及程序产品与流程

文档序号:39165446发布日期:2024-08-27 18:33阅读:101来源:国知局

本申请涉及语音识别,尤其涉及一种语音识别方法、装置、设备、存储介质及程序产品。


背景技术:

1、在长语音识别场景中,保持长语音前后文的人名、地名等实体的识别正确和一致性,是提升用户体验的关键。比如,对于同一人名实体,在长语音的上下文识别过程中,应当保证对该人名实体的识别正确,并且应当保持识别一致,即便识别结果与真实人名有差异,也应当保证前后文的识别结果是一致的。如果一个人名在长语音上下文的识别结果中出现多种不同的人名识别结果,会非常影响用户体验。但是,单纯通过增强模型训练量,对实体关键词的识别效果提升作用有限,使得长语音识别结果中实体识别的准确性较低。


技术实现思路

1、为了解决上述问题,本申请提出一种语音识别方法、装置、设备、存储介质及程序产品,能够显著提高长语音识别结果中实体识别的准确性。

2、根据本申请实施例的第一方面,提供了一种语音识别方法,包括:

3、在第i个语音段的识别结果中将置信度小于置信度阈值的实体关键词进行标注,得到所述第i个语音段的识别结果对应的第一待纠错文本,并将所述第一待纠错文本添加至待纠错文本集合;

4、将第i+k个语音段的语音编码和所述待纠错文本集合输入大语言模型,以使所述大语言模型对所述第i+k个语音段的语音编码进行解码,以及对所述待纠错文本集合中的待纠错文本的被标注实体关键词进行纠错;其中,i和k为正整数;

5、在所述第一待纠错文本对应的纠错结果中的实体关键词的置信度均不小于所述置信度阈值的情况下,将所述第一待纠错文本对应的纠错结果确定为所述第i个语音段的更新后识别结果,并将所述第一待纠错文本移出所述待纠错文本集合。

6、根据本申请实施例的第二方面,提供了一种语音识别装置,包括:

7、标注模块,用于在第i个语音段的识别结果中将置信度小于置信度阈值的实体关键词进行标注,得到所述第i个语音段的识别结果对应的第一待纠错文本,并将所述第一待纠错文本添加至待纠错文本集合;

8、处理模块,用于将第i+k个语音段的语音编码和所述待纠错文本集合输入大语言模型,以使所述大语言模型对所述第i+k个语音段的语音编码进行解码,以及对所述待纠错文本集合中的待纠错文本的被标注实体关键词进行纠错;其中,i和k为正整数;

9、识别模块,用于在所述第一待纠错文本对应的纠错结果中的实体关键词的置信度均不小于所述置信度阈值的情况下,将所述第一待纠错文本对应的纠错结果确定为所述第i个语音段的更新后识别结果,并将所述第一待纠错文本移出所述待纠错文本集合。

10、本申请第三方面提供了一种电子设备,包括:

11、存储器和处理器;

12、所述存储器与所述处理器连接,用于存储程序;

13、所述处理器,通过运行所述存储器中的程序,实现上述的语音识别方法。

14、本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的语音识别方法。

15、本申请第五方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的语音识别方法。

16、上述申请中的一个实施例具有如下优点或有益效果:

17、在第i个语音段的识别结果中将置信度小于置信度阈值的实体关键词进行标注,得到第i个语音段的识别结果对应的第一待纠错文本,并将第一待纠错文本添加至待纠错文本集合;将第i+k个语音段的语音编码和待纠错文本集合输入大语言模型,以使大语言模型对第i+k个语音段的语音编码进行解码,以及对待纠错文本集合中的待纠错文本的被标注实体关键词进行纠错;在第一待纠错文本对应的纠错结果中的实体关键词的置信度均不小于置信度阈值的情况下,将第一待纠错文本对应的纠错结果确定为第i个语音段的更新后识别结果,并将第一待纠错文本移出待纠错文本集合。由此可见,在长语音识别过程中实时采集实体关键词的识别置信度低的语音段识别文本组成待纠错文本集合,并且在长语音后续的识别过程中对待纠错文本集合中的各个待纠错文本中的实体关键词进行纠错,直至待纠错文本对应的纠错结果中的实体关键词的置信度均不小于置信度阈值,并利用该纠错结果更新历史语音段的识别结果,从而提升实体关键词识别的准确性,并且上述过程能够保持长语音识别中的实体关键词识别一致性。



技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述第i个语音段的识别结果中的实体关键词的置信度不小于置信度阈值的情况下,将置信度不小于置信度阈值的实体关键词加入辅助信息集合;

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述将第i+k个语音段的语音编码和所述待纠错文本集合输入大语言模型,以使所述大语言模型对所述第i+k个语音段的语音编码进行解码,以及对所述待纠错文本集合中的待纠错文本的被标注实体关键词进行纠错,包括:

5.根据权利要求2所述的方法,其特征在于,将所述辅助信息集合、第i+k个语音段的语音编码和所述待纠错文本集合输入所述大语言模型,以使所述大语言模型基于所述辅助信息集合,对所述第i+k个语音段的语音编码进行解码,以及对所述待纠错文本集合中的待纠错文本进行实体关键词纠错,包括:

6.根据权利要求2所述的方法,其特征在于,所述将所述辅助信息集合、所述第i+k个语音段的语音编码输入所述大语言模型,以使所述大语言模型基于所述辅助信息集合,对所述第i+k个语音段的语音编码进行解码,包括:

7.根据权利要求5所述的方法,其特征在于,将所述任务提示指令输入所述大语言模型,以使所述大语言模型执行所述第一任务,包括:

8.根据权利要求2所述的方法,其特征在于,在将所述辅助信息集合、第i+k个语音段的语音编码和所述待纠错文本集合输入大语言模型之前,所述方法还包括:

9.一种语音识别装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括:

11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至8中任意一项语音识别方法。

12.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至8中任意一项语音识别方法。


技术总结
本申请提供了语音识别方法、装置、设备、存储介质及程序产品,该方法包括:在第i个语音段的识别结果中将置信度小于置信度阈值的实体关键词进行标注,得到对应的第一待纠错文本,并将第一待纠错文本添加至待纠错文本集合;将第i+k个语音段的语音编码和待纠错文本集合输入大语言模型,以使大语言模型对第i+k个语音段的语音编码进行解码,以及对待纠错文本集合进行纠错;在第一待纠错文本对应的纠错结果中的实体关键词的置信度均不小于置信度阈值的情况下,将第一待纠错文本对应的纠错结果确定为第i个语音段的更新后识别结果,并将第一待纠错文本移出待纠错文本集合。根据本申请的技术方案,能够有效提升长语音中的实体关键词识别的准确性。

技术研发人员:万根顺,熊世富,高建清,潘嘉,刘聪,胡国平,刘庆峰
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:
技术公布日:2024/8/26
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!