音频识别模型的训练方法、装置、设备、介质及程序产品与流程

文档序号:31708758发布日期:2022-10-01 13:42阅读:124来源:国知局
技术特征:
1.一种音频识别模型的训练方法,其特征在于,所述方法包括:通过音频识别模型对样本音频进行音频分离,得到所述样本音频中属于第一音频类别的第一音频数据;获取样本音频数据集,所述样本音频数据集中的样本音频数据标注有用于指示音频类别的音频类别标签,所述样本音频数据集中包括属于第二音频类别的第二音频数据;将所述第一音频数据和所述第二音频数据进行混合,得到混合音频;通过所述音频识别模型对所述混合音频进行音频分离,得到所述混合音频中与所述第二音频类别对应的预测音频数据;基于所述预测音频数据与所述第二音频数据之间的差异,对所述音频识别模型进行训练,得到目标音频识别模型,所述目标音频识别模型用于进行音频分离。2.根据权利要求1所述的方法,其特征在于,所述通过音频识别模型对样本音频进行音频分离,得到所述样本音频中属于第一音频类别的第一音频数据,包括:通过所述音频识别模型对所述样本音频进行音频分离,得到多个音频类别分别对应的音频数据,其中包括所述第一音频类别对应的第一音频数据,以及所述第二音频类别对应的第三音频数据。3.根据权利要求1所述的方法,其特征在于,所述通过音频识别模型对样本音频进行音频分离,得到所述样本音频中属于第一音频类别的第一音频数据,包括:沿时域维度对所述样本音频进行片段分割,得到所述样本音频对应的多个音频片段;通过所述音频识别模型对多个音频片段进行音频分离,得到多个音频片段中分别属于所述第一音频类别的第一音频子数据;将多个音频片段中的所述第一音频子数据按所述时域维度进行拼接,得到所述第一音频数据。4.根据权利要求3所述的方法,其特征在于,所述沿时域维度对所述样本音频进行片段分割,得到所述样本音频对应的多个音频片段,包括:基于预设分割长度和预设重叠率沿所述时域维度对所述样本音频进行片段分割,其中,所述预设分割长度用于指示所述音频片段的分割长度要求,所述预设重叠率用于指示相邻两段音频片段之间的分割重叠关系。5.根据权利要求3所述的方法,其特征在于,所述将多个音频片段中的所述第一音频子数据按所述时域维度进行拼接,得到所述第一音频数据,包括:基于第一能量阈值对多个音频片段分别对应的第一音频子数据进行有效性过滤,得到过滤后的第一音频子数据,其中,所述第一能量阈值用于过滤所述第一音频子数据中低于所述第一能量阈值的子数据;将过滤后的第一音频子数据按所述时域维度进行拼接,得到所述第一音频数据。6.根据权利要求3所述的方法,其特征在于,所述通过所述音频识别模型对多个音频片段进行音频分离,得到多个音频片段中分别属于所述第一音频类别的第一音频子数据,包括:通过所述音频识别模型对多个音频片段进行音频分离,分析所述多个音频片段所分别对应的至少一种音频类别,得到每个音频片段中所述至少一种音频类别对应的分布比重;将所述多个音频片段中综合分布比重最大的音频类别作为所述第一音频类别;
对所述多个音频片段中属于所述第一音频类别的第一音频子数据分别进行获取。7.根据权利要求1至4任一所述的方法,其特征在于,所述通过音频识别模型对样本音频进行音频分离,得到所述样本音频中属于第一音频类别的第一音频数据,包括:通过所述音频识别模型对所述样本音频进行音频分离,得到所述样本音频中属于第一音频类别的第一候选音频数据;基于第二能量阈值对所述第一候选音频数据进行有效性过滤,得到所述第一音频数据,其中,所述第二能量阈值用于过滤所述第一候选音频数据中低于所述第二能量阈值的音频数据。8.根据权利要求1至6任一所述的方法,其特征在于,所述将所述第一音频数据和所述第二音频数据进行混合,得到混合音频,包括:将所述第一音频数据和所述第二音频数据在时域维度进行对齐,在对齐时域范围内,对对齐后的第一音频数据和第二音频数据进行叠加,得到所述混合音频。9.根据权利要求1至6任一所述的方法,其特征在于,所述基于所述预测音频数据与所述第二音频数据之间的差异,对所述音频识别模型进行训练,得到目标音频识别模型,包括:确定所述预测音频数据与所述第二音频数据之间的损失值,所述损失值用于表示所述预测音频数据与所述第二音频数据之间的差异;通过所述损失值对所述音频识别模型进行训练,得到所述目标音频识别模型。10.根据权利要求1至6任一所述的方法,其特征在于,所述第一音频类别是人声类别,所述第二音频类别是背景音类别。11.根据权利要求10所述的方法,其特征在于,所述通过音频识别模型对样本音频进行音频分离,得到所述样本音频中属于第一音频类别的第一音频数据,包括:通过音频识别模型对样本音频进行音频分离,得到所述样本音频中属于人声类别的第一音频数据和属于背景音类别的第三音频数据;所述将所述第一音频数据和所述第二音频数据进行混合,得到混合音频,包括:将所述第一音频数据和属于所述背景音类别的第二音频数据进行混合,得到所述混合音频。12.一种音频识别模型的训练装置,其特征在于,所述装置包括:分离模块,用于通过音频识别模型对样本音频进行音频分离,得到所述样本音频中属于第一音频类别的第一音频数据;获取模块,用于获取样本音频数据集,所述样本音频数据集中的样本音频数据标注有用于指示音频类别的音频类别标签,所述样本音频数据集中包括属于第二音频类别的第二音频数据;混合模块,用于将所述第一音频数据和所述第二音频数据进行混合,得到混合音频;预测模块,用于通过所述音频识别模型对所述混合音频进行音频分离,得到所述混合音频中与所述第二音频类别对应的预测音频数据;训练模块,用于基于所述预测音频数据与所述第二音频数据之间的差异,对所述音频识别模型进行训练,得到目标音频识别模型,所述目标音频识别模型用于进行音频分离。13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器
中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至11任一所述的音频识别模型的训练方法。14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至11任一所述的音频识别模型的训练方法。15.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至11任一所述的音频识别模型的训练方法。

技术总结
本申请公开了一种音频识别模型的训练方法、装置、设备、介质及程序产品,涉及语音识别领域。该方法包括:通过音频识别模型对样本音频进行音频分离,得到样本音频中属于第一音频类别的第一音频数据;获取样本音频数据集,其中包括属于第二音频类别的第二音频数据;将第一音频数据和第二音频数据进行混合得到混合音频;通过音频识别模型对混合音频进行音频分离,得到混合音频中与第二音频类别对应的预测音频数据;以预测音频数据与第二音频数据之间的差异对音频识别模型进行训练。通过以上方式,有效解决了训练样本不足的问题,利用训练得到的目标音频识别模型提高音频分离的质量和准确度。本申请可应用于云技术、人工智能、智慧交通等各种场景。慧交通等各种场景。慧交通等各种场景。


技术研发人员:罗艺 余剑威
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.05.25
技术公布日:2022/9/30
当前第2页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!