音频旋律识别模型的训练方法、音频处理方法及相关设备与流程

文档序号：33192193发布日期：2023-02-04 09:00阅读：来源：国知局

技术特征：
1.一种音频旋律识别模型的训练方法，其特征在于，包括：获取样本数据集，所述样本数据集包括多组音频数据，每组音频数据包括原唱歌曲数据、所述原唱歌曲数据的翻唱歌曲数据、除所述原唱歌曲数据和所述翻唱歌曲数据以外的其他歌曲数据三类歌曲数据，且每类歌曲数据具有各自的歌曲标注数据；从所述每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量，并对所述每一类歌曲数据的频谱峰值特征向量和所述无关特征向量进行拼接处理，得到所述每组音频数据中每一类歌曲数据的目标特征向量；所述无关特征向量为与所述音频数据的旋律无关的特征向量；将所述每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练，得到音频旋律识别模型。2.根据权利要求1所述的方法，其特征在于，所述从所述每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量，包括：从所述每组音频数据中提取所述每一类歌曲数据的峰值点序列，对所述每一类歌曲数据的峰值点序列进行归一化处理得到所述每一类歌曲数据的频谱峰值特征向量；以及，从所述每组音频数据中提取每一类歌曲数据的梅尔频谱特征，并根据所述每一类歌曲数据的梅尔频谱特征确定所述每一类歌曲数据的无关特征向量。3.根据权利要求2所述的方法，其特征在于，所述根据所述每一类歌曲数据的梅尔频谱特征确定所述每一类歌曲数据的无关特征向量，包括：将所述每一类歌曲数据的梅尔频谱特征输入预训练的用户识别模型，得到所述每一类歌曲数据的用户特征向量；将所述每一类歌曲数据的梅尔频谱特征输入预训练的音频情感类别识别模型，得到所述每一类歌曲数据的音频情感类别特征向量；确定所述每一类歌曲数据的用户特征向量和所述每一类歌曲数据的音频情感类别特征向量为所述每一类歌曲数据的无关特征向量。4.根据权利要求2所述的方法，其特征在于，所述对所述每一类歌曲数据的峰值点序列进行归一化处理得到所述每一类歌曲数据的频谱峰值特征向量，包括：对所述每一类歌曲数据的峰值点序列进行归一化得到归一化序列，计算所述归一化序列的均值和方差；根据所述归一化序列、均值和方差，计算得到所述每一类歌曲数据的频谱峰值特征向量。5.根据权利要求1所述的方法，其特征在于，所述歌曲标注数据包括用于指示所述原唱歌曲数据的第一标签、用于指示所述翻唱歌曲数据的第二标签、用于指示所述其他歌曲数据的第三标签；所述将所述每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练，得到音频旋律识别模型，包括：将所述每组音频数据中所述原唱歌曲数据的目标特征向量及所述第一标签，所述翻唱歌曲数据的目标特征向量及所述第二标签，以及所述其他歌曲数据的的目标特征向量及所述第三标签输入神经网络模型，得到所述每组音频数据中所述原唱歌曲数据的第一特征向量、所述翻唱歌曲数据的第二特征向量以及所述其他歌曲数据的第三特征向量；根据所述第一特征向量、所述第二特征向量以及所述第三特征向量确定目标损失函数
值，并根据所述目标损失函数值对所述神经网络模型进行训练得到所述音频旋律识别模型。6.根据权利要求5所述的方法，其特征在于，所述根据所述第一特征向量、所述第二特征向量以及所述第三特征向量确定所述目标损失函数值，包括：根据所述第一特征向量和所述第二特征向量计算所述每组音频数据中所述原唱歌曲数据与所述翻唱歌曲数据之间的第一距离；根据所述第一特征向量和所述第三特征向量计算所述每组音频数据中所述原唱歌曲数据与所述其他歌曲数据之间的第二距离；根据所述每组音频数据的所述第一距离和所述第二距离确定所述目标损失函数值。7.根据权利要求1所述的方法，其特征在于，还包括：将所述每组音频数据中的所述原唱歌曲数据和所述原唱歌曲数据对应的歌曲标注数据输入所述音频旋律识别模型，得到所述原唱歌曲数据的旋律特征向量；将所述原唱歌曲数据的旋律特征向量存储至指定数据库中。8.一种音频处理方法，其特征在于，包括：获取待识别音频，并从所述待识别音频中提取频谱峰值特征向量和无关特征向量，所述无关特征向量为与所述待识别音频的旋律无关的特征向量；对所述频谱峰值特征向量和所述无关特征向量进行拼接处理得到所述待识别音频的待识别特征向量；将所述待识别特征向量输入如权利要求1-7任一项所述的音频旋律识别模型，得到所述待识别音频的旋律特征向量；若所述待识别音频的旋律特征向量与指定数据库中各原唱歌曲数据的旋律特征向量之间的最小距离小于或等于预设阈值，则确定所述待识别音频为翻唱歌曲。9.一种计算机设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序，所述处理器被配置用于调用所述程序，执行如权利要求1-7任一项所述的方法。10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有程序指令，该程序指令被执行时，用于实现如权利要求1-7任一项所述的方法。

技术总结
本申请实施例公开了一种音频旋律识别模型的训练方法、音频处理方法及相关设备，该方法包括：获取样本数据集，样本数据集包括多组音频数据，每组音频数据包括原唱歌曲数据、原唱歌曲数据的翻唱歌曲数据、除原唱歌曲数据和翻唱歌曲数据以外的其他歌曲数据三类歌曲数据，且每类歌曲数据有各自的歌曲标注数据；从每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量，对频谱峰值特征向量和无关特征向量进行拼接处理，得到每一类歌曲数据的目标特征向量；将每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练，得到音频旋律识别模型。通过这种方式可以提高音频旋律识别模型的可靠性和训练识别的准确性。识别的准确性。识别的准确性。

技术研发人员：王武城
受保护的技术使用者：腾讯音乐娱乐科技（深圳）有限公司
技术研发日：2022.10.31
技术公布日：2023/2/3

完整全部详细技术资料下载

当前第2页1 2