一种音乐匹配方法、装置、终端及存储介质与流程

文档序号：20020408发布日期：2020-02-25 11:32阅读：来源：国知局

技术特征：

1.一种音乐匹配方法，其特征在于，包括：

获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；

提取出所述目标视频的视频视觉特征和原始音频特征，并根据所述视频视觉特征和所述原始音频特征生成目标视频特征；

根据所述目标视频特征和多个所述待匹配音频特征间的匹配程度，从多个所述待匹配音频特征中筛选出至少一个已匹配音频特征，并将与所述已匹配音频特征对应的待匹配音乐作为已匹配音乐。

2.根据权利要求1所述的方法，其特征在于，所述提取出所述目标视频的视频视觉特征，包括：

将所述目标视频输入至已训练完成的视频视觉提取模型，提取出所述目标视频的视频视觉特征，其中，所述视频视觉提取模型包括视频解析模块、第一卷积神经网络模块和循环神经网络模块，所述视频解析模块用于提取出所述目标视频中的目标视频数据并将所述目标视频数据解析为多帧目标图像。

3.根据权利要求2所述的方法，其特征在于，还包括：

获取历史视频和所述历史视频中的历史视频数据的第一历史分类结果，将所述历史视频和所述第一历史分类结果作为一组第一训练样本；

基于多个所述第一训练样本对第一原始神经网络模型进行训练，得到所述视频视觉提取模型，其中，所述第一原始神经网络模型包括所述视频解析模块、所述第一卷积神经网络模块、所述循环神经网络模块和第一分类模块，所述第一分类模块用于对所述循环神经网络模块输出的历史视觉特征进行处理，得到所述历史视觉特征的第一预测分类结果。

4.根据权利要求1所述的方法，其特征在于，所述提取出所述目标视频的原始音频特征，包括：

将所述目标视频输入至已训练完成的音频特征提取模型，提取出所述目标视频的原始音频特征，其中，所述音频特征提取模型包括音频转换模块和第二卷积神经网络模块，所述音频转换模块用于提取出所述目标视频中的目标音频数据并将所述目标音频数据转换为声谱图。

5.根据权利要求4所述的方法，其特征在于，还包括：

获取历史音频和所述历史音频的第二历史分类结果，将所述历史音频和所述第二历史分类结果作为一组第二训练样本；

基于多个所述第二训练样本对第二原始神经网络模型进行训练，得到所述音频特征提取模型，其中，所述第二原始神经网络模型包括所述音频转换模块、所述第二卷积神经网络模块和第二分类模块，所述第二分类模块用于对所述第二卷积神经网络模块输出的历史音频特征进行处理，得到所述历史音频特征的第二预测分类结果。

6.根据权利要求1所述的方法，其特征在于，所述根据所述视频视觉特征和所述原始音频特征生成目标视频特征，包括：

对视频视觉特征和原始音频特征进行拼接处理，得到目标拼接特征；

将目标拼接特征输入至已训练完成的多层感知机中，得到目标视频特征。

7.根据权利要求6所述的方法，其特征在于，还包括：

获取历史拼接特征和与所述历史拼接特征对应的待推荐音频特征，将所述历史拼接特征和所述待推荐音频特征作为一组第三训练样本，并基于多个所述第三训练样本对第三原始神经网络模型进行训练，得到所述多层感知机。

8.一种音乐匹配装置，其特征在于，包括：

获取模块，用于获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；

生成模块，用于提取出所述目标视频的视频视觉特征和原始音频特征，并根据所述视频视觉特征和所述原始音频特征生成目标视频特征；

匹配模块，用于根据所述目标视频特征和多个所述待匹配音频特征间的匹配程度，从多个所述待匹配音频特征中筛选出至少一个已匹配音频特征，并将与所述已匹配音频特征对应的待匹配音乐作为已匹配音乐。

9.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的音乐匹配方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的音乐匹配方法。

完整全部详细技术资料下载

当前第2页1 2 3