本公开涉及数据处理,具体地,涉及一种噪音数据提取方法、装置、介质及电子设备。
背景技术:
1、自动语音识别(automatic speech recognition,asr)或语音活动检测(voiceactivity detection,vad)任务中,为了增强对噪音环境的系统稳定性(即泛化能力,也就是说在安静环境系统性能良好,同时在噪音环境系统性能不下降太多),通常需要在训练数据中加入尽可能多的噪音数据。另外,语音增强或降噪任务中,模型用于学习如何去除噪音,因此就需要添加噪音进行模型训练。可见,无论是asr任务、vad任务,还是语音增强或降噪任务,在模型训练的时候,都需要用到噪音数据。可见,如何获取噪音数据成为模型训练首先需要解决的问题。
技术实现思路
1、提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、第一方面,本公开提供一种噪音数据提取方法,包括:
3、提取原始音频中的非语音片段;
4、根据所述非语音片段的语音识别结果和目标任务的任务需求,从所述非语音片段中剔除误召回的语音帧;
5、若剔除后所得的非语音片段为噪音,则将所述剔除后所得的非语音片段确定为用于所述目标任务的噪音数据。
6、第二方面,本公开提供一种噪音数据提取装置,包括:
7、提取模块,用于提取原始音频中的非语音片段;
8、剔除模块,用于根据所述非语音片段的语音识别结果和目标任务的任务需求,从所述非语音片段中剔除误召回的语音帧;
9、确定模块,用于若剔除后所得的非语音片段为噪音,则将所述剔除后所得的非语音片段确定为用于所述目标任务的噪音数据。
10、第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面提供的所述噪音数据提取方法的步骤。
11、第四方面,本公开提供一种电子设备,包括:
12、存储装置,其上存储有至少一个计算机程序;
13、至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现第一方面提供的所述噪音数据提取方法的步骤。
14、通过上述技术方案,可以从任意音频数据中自动提取噪音数据,方便快捷,并且,噪音数据提取成本低,而不需要专门采集噪音数据,也不需要额外的人力成本或采购成本。另外,在从原始音频中提取到非语音片段后,根据非语音片段的语音识别结果和目标任务的任务需求,从非语音片段中剔除误召回的语音帧,可以避免噪音数据中参杂人声数据,提升噪音数据的精度。此外,上述技术方案还可以根据不同的任务需求,采用不同的语音帧剔除策略,从而可以使得筛选出的噪音数据更加符合任务需求。
15、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
1.一种噪音数据提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述非语音片段的语音识别结果和目标任务的任务需求,从所述非语音片段中剔除误召回的语音帧,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述非语音片段的语音识别结果和目标任务的任务需求,从所述非语音片段中确定误召回的语音帧,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述非语音片段的语音识别结果和目标任务的任务需求,从所述非语音片段中确定误召回的语音帧,包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述提取原始音频中的非语音片段,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述任务需求,调整语音活动检测模型的分类阈值,包括:
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
8.一种噪音数据提取装置,其特征在于,包括:
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括: