样本音频数据的获取方法、语音识别方法及相关装置与流程

文档序号:37746803发布日期:2024-04-25 10:33阅读:70来源:国知局

本申请涉及语言识别,特别是涉及一种样本音频数据的获取方法、语音识别方法及相关装置。


背景技术:

1、语言是人类思想最重要的载体,语音识别技术是让机器接收、识别和理解语音信号,并将其转换成相应数字信号的技术。随着人工智能技术的发展,语音识别技术在众多领域得到了广泛应用,例如智能移动终端领域、智能家居领域和车载设备领域等。

2、目前,语音识别涉及多个领域,场景丰富多样。对于样本音频数据,通常需要采集大量的音频数据,且需要包含足够多的场景的音频数据,来训练语音识别模型。需要花费大量精力去采集样本音频数据,对样本音频数据的获取效率较低。


技术实现思路

1、本申请主要解决的技术问题是提供一种样本音频数据的获取方法、语音识别方法及相关装置,能够提高获取对目标语言识别模型训练的样本音频数据的效率。

2、为了解决上述问题,本申请第一方面提供了一种样本音频数据的获取方法,该方法包括:获取目标音频数据的标注文本和至少两个参考文本,标注文本是基于目标音频数据的字幕确定的,各参考文本是分别利用不同的语音识别模型对目标音频数据进行识别得到的;基于标注文本和至少两个参考文本之间的比对结果,确定目标音频数据的类型,类型表征标注文本的准确性或者目标音频数据的语音识别难度;对目标音频数据执行与类型匹配的处理,并将经处理后的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据。

3、为了解决上述问题,本申请第二方面提供了一种语音识别方法,该方法包括:获取待识别音频数据;利用目标语音识别模型对待识别音频数据进行语音识别,得到语音识别结果;其中,目标语音识别模型是利用上述样本音频数据的获取方法得到的样本音频数据训练得到的。

4、为了解决上述问题,本申请第三方面提供了一种样本音频数据的获取装置,该装置包括:获取模块、比对模块和处理模块。其中,获取模块用于获取目标音频数据的标注文本和至少两个参考文本,标注文本是基于目标音频数据的字幕确定的,各参考文本是分别利用不同的语音识别模型对目标音频数据进行识别得到的;比对模块用于基于标注文本和至少两个参考文本之间的比对结果,确定目标音频数据的类型,类型表征标注文本的准确性或者目标音频数据的语音识别难度;处理模块用于对目标音频数据执行与类型匹配的处理,并将经处理后的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据。

5、为了解决上述问题,本申请第四方面提供了一种语音识别装置,该装置包括:获取模块和识别模块。其中,获取模块用于获取待识别音频数据;识别模块用于利用目标语音识别模型对待识别音频数据进行语音识别,得到语音识别结果;其中,目标语音识别模型是利用上述样本音频数据的获取方法得到的样本音频数据训练得到的。

6、为了解决上述问题,本申请第五方面提供了一种计算机设备,该计算机设备包括相互耦接的存储器和处理器,存储器中存储有程序数据,处理器用于执行程序数据以实现上述样本音频数据的获取方法和/或语音识别方法的任一步骤。

7、为了解决上述问题,本申请第六方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有能够被处理器运行的程序数据,程序数据用于实现上述样本音频数据的获取方法和/或语音识别方法的任一步骤。

8、上述方案,通过获取目标音频数据的标注文本和至少两个参考文本,标注文本是基于目标音频数据的字幕确定的,各参考文本是分别利用不同的语音识别模型对目标音频数据进行识别得到的,基于标注文本和至少两个参考文本之间的比对结果,确定目标音频数据的类型,由于类型表征标注文本的准确性或者目标音频数据的语音识别难度,根据类型可以得到目标音频数据对于语言识别模型的语言识别难度或者目标音频数据的字幕的准确度,以此对目标音频数据执行与类型匹配的处理,并将经处理后的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据,能够提高获取对目标语言识别模型训练的样本音频数据的效率,筛选出对目标语音识别模型训练更有利的样本音频数据,提高对于训练目标语音识别模型的弱监督数据获取的准确率和召回率,从而提高训练后的目标语音识别模型对语言识别的准确度。

9、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。



技术特征:

1.一种样本音频数据的获取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述目标音频数据执行与所述类型匹配的处理,并将经处理后得到的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据,包括至少一个步骤:

3.根据权利要求1所述的方法,其特征在于,所述基于所述标注文本和所述至少两个参考文本之间的比对结果,确定所述目标音频数据的类型,包括:

4.根据权利要求3所述的方法,其特征在于,所述至少两个参考文本包括第一语音识别模型识别得到的第一参考文本和第二语音识别模型识别得到的第二参考文本,所述第一语音识别模型与所述目标语音识别模型为同类型语音识别模型;

5.根据权利要求3所述的方法,其特征在于,所述利用所述比对结果,从所述标注文本和至少两个参考文本中,确定出满足预设规则条件的异常文本,包括以下任意一个或多个步骤:

6.根据权利要求5所述的方法,其特征在于,

7.根据权利要求1所述的方法,其特征在于,所述目标音频数据的字幕为外设字幕,所述外设字幕包含在所述目标音频数据外设的字幕文件中,所述字幕文件中还包含有所述外设字幕对应的第一时间戳;

8.根据权利要求7所述的方法,其特征在于,所述获取目标音频数据的标注文本和至少两个参考文本之后,还包括:

9.根据权利要求8所述的方法,其特征在于,

10.根据权利要求1所述的方法,其特征在于,所述目标音频数据的字幕为内嵌字幕,所述内嵌字幕是所述目标音频数据对应的视频数据的图像帧的字幕显示区域中的字幕文本;所述至少两个参考文本包括第一语音识别模型识别得到的第一参考文本和第二语音识别模型识别得到的第二参考文本,所述第一语音识别模型与所述目标语音识别模型为同类型语音识别模型;

11.根据权利要求10所述的方法,其特征在于,所述获取目标音频数据的标注文本和至少两个参考文本之后,还包括:

12.根据权利要求11所述的方法,其特征在于,

13.一种语音识别方法,其特征在于,包括:

14.一种样本音频数据的获取装置,其特征在于,包括:

15.一种语音识别装置,其特征在于,包括:

16.一种计算机设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现权利要求1至12任一项所述方法的步骤,和/或,实现权利要求13所述方法的步骤。

17.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序数据,所述程序数据用于实现权利要求1至12任一项所述方法的步骤,和/或,实现权利要求13所述方法的步骤。


技术总结
本申请公开了一种样本音频数据的获取方法、语音识别方法及相关装置。该方法包括:获取目标音频数据的标注文本和至少两个参考文本,标注文本是基于目标音频数据的字幕确定的,各参考文本是分别利用不同的语音识别模型对目标音频数据进行识别得到的;基于标注文本和至少两个参考文本之间的比对结果,确定目标音频数据的类型,类型表征标注文本的准确性或者目标音频数据的语音识别难度;对目标音频数据执行与类型匹配的处理,并将经处理后的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据。上述方案,能够提高获取对目标语言识别模型训练的样本音频数据的效率。

技术研发人员:李明,万根顺,宋亚楠,熊世富,高建清,刘聪,潘嘉
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:
技术公布日:2024/4/24
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!