本申请涉及音频处理,特别是涉及一种音频检测模型的训练方法、音频检测方法及相关装置。
背景技术:
1、随着智能设备的普及,多数场景下的音频能够被及时采集,对音频所包括的事件进行检测的需求愈发得到重视。现有的对音频进行检测的模型通常依赖于大量的标注过的训练数据,且在训练过程中侧重于单一维度进行调整,导致训练后的模型对音频检测的精度不足。有鉴于此,如何提高音频检测的精度成为了亟待解决的问题。
技术实现思路
1、本申请主要解决的技术问题是提供一种音频检测模型的训练方法、音频检测方法及相关装置,能够提高音频检测的精度。
2、为解决上述技术问题,本申请第一方面提供一种音频检测模型的训练方法,包括:获取多个训练音频;其中,所述多个训练音频分为有标签数据和无标签数据,至少部分所述有标签数据的标签包括音频中事件的事件类别和事件起止时刻;利用多个所述训练音频训练网络结构相同的学生模型和教师模型,直至满足收敛条件,从训练后的所述学生模型和所述教师模型中得到音频检测模型;其中,所述网络结构包括多个级联的卷积网络,在训练过程中基于输入通道、输出通道和卷积核尺寸对所述卷积网络的卷积核权重进行调整,训练损失与所述学生模型的预测结果和所述有标签数据的标签,以及所述学生模型和所述教师模型各自的预测结果相关。
3、为解决上述技术问题,本申请第二方面提供一种音频检测方法,包括:获取待检测音频;将所述待检测音频输入至音频检测模型,得到待检测音频中的目标事件对应的目标事件类别和目标事件起止时刻;其中,所述音频检测模型是基于上述第一方面所述的方法训练后得到的。
4、为解决上述技术问题,本申请第三方面提供一种电子设备,该电子设备包括:相互耦接的存储器和处理器,其中,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行上述第一方面或第二方面所述的方法。
5、为解决上述技术问题,本申请第四方面提供一种计算机可读存储介质,其上存储有程序数据,所述程序数据被处理器执行时实现上述第一方面或第二方面所述的方法。
6、上述方案,获取多个训练音频,其中,训练音频部分存在标签部分不存在标签,分成有标签数据和无标签数据,至少部分有标签数据既包括音频中事件的事件类别还包括音频中事件的事件起止时刻。利用多个训练音频训练网络结构相同的学生模型和教师模型,直至满足收敛条件后,得到训练后的学生模型和教师模型,将检测效果更优的模型作为最终的音频检测模型,其中,训练损失与学生模型的预测结果和有标签数据的标签之间的差异,以及学生模型和教师模型各自的预测结果之间的差异相关,从而在训练过程中可以有效利用无标签数据进行训练,降低对有标签数据的依赖,模型的网络结构包括多个级联的卷积网络,在训练过程中基于输入通道、输出通道和卷积核尺寸多个维度,学习对卷积网络的卷积核权重进行调整,从而提升模型的特征表达能力,使训练后的音频检测模型进行音频检测的精度得到提高。
1.一种音频检测模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的音频检测模型的训练方法,其特征在于,所述训练音频包括音频的对数梅尔频谱特征,所述有标签数据包括多标签数据和单标签数据,所述多标签数据的标签包括音频中事件的事件类别和事件起止时刻,所述单标签数据的标签包括音频中事件的事件类别。
3.根据权利要求2所述的音频检测模型的训练方法,其特征在于,所述获取多个训练音频,包括:
4.根据权利要求2所述的音频检测模型的训练方法,其特征在于,所述网络结构还包括级联于所述卷积网络之后的预测网络;
5.根据权利要求4所述的音频检测模型的训练方法,其特征在于,所述基于所述第一分类损失、所述第二分类损失和所述一致性损失,确定所述训练损失,包括:
6.根据权利要求4所述的音频检测模型的训练方法,其特征在于,所述预测网络包括隐藏层与所述输出特征相匹配的两层双向门控循环单元、全连接层、输出层和加权注意力层;
7.根据权利要求1-6任一项所述的音频检测模型的训练方法,其特征在于,所述卷积网络包括全维动态卷积块、批归一化层、激活层、随机失活层和平均池化层,所有所述卷积网络的所述全维动态卷积块对应相同的卷积核尺寸;
8.一种音频检测方法,其特征在于,所述方法包括:
9.一种电子设备,其特征在于,包括:相互耦接的存储器和处理器,其中,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行如权利要求1-7或8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序数据,其特征在于,所述程序数据被处理器执行时实现如权利要求1-7或8中任一项所述的方法。