多媒体数据处理方法、装置、设备及计算机可读存储介质与流程

文档序号：34173825发布日期：2023-05-17 02:33阅读：95来源：国知局

本技术涉及信息处理技术，尤其涉及一种多媒体数据处理方法、装置、设备及计算机可读存储介质。

背景技术：

1、近年来，随着移动网络和互联网技术的发展，智能终端已成为人们日常生活、工作的必需品。随之而来的是，影视作品和短视频的兴起和繁荣，进而视频智能理解和编辑技术应运而生，例如为增加短视频效果可以为制作的短视频增加配乐、卡通头像等。

2、在为视频增加配乐的应用场景中，选择音乐的起止点显得尤为重要。在相关技术中，在确定配乐的起止点时，可以是采用人工标注的方法，也可以是歌词的段落确定。但是人工标注的方法效率过低，而基于歌词段落进行起止点确定不适用于自创歌曲等没有歌词的音乐，通用性差。

技术实现思路

1、本技术实施例提供一种多媒体数据处理方法、装置及计算机可读存储介质，能够提高视频配乐的效率、准确性和通用性。

2、本技术实施例的技术方案是这样实现的：

3、本技术实施例提供一种多媒体数据处理方法，包括：

4、获取待配乐的视频数据和待处理的音乐数据，对所述音乐数据进行信源分离，得到歌唱音轨和伴奏音轨；

5、基于所述歌唱音轨确定出非歌唱时间信息，基于所述伴奏音轨确定出参考起止点集合；

6、基于所述非歌唱时间信息，从所述参考起止点集合中确定目标起止点集合；

7、基于所述待配乐的视频数据的第一播放时长，从所述目标起止点集合中确定配乐起始点和配乐终止点；

8、将所述音乐数据中所述配乐起始点和配乐终止点之间的目标音乐数据确定为所述视频数据的目标配乐数据。

9、本技术实施例提供一种多媒体数据处理装置，包括：

10、信源分离模块，用于获取待配乐的视频数据和待处理的音乐数据，对所述音乐数据进行信源分离，得到歌唱音轨和伴奏音轨；

11、第一确定模块，用于基于所述歌唱音轨确定出非歌唱时间信息，基于所述伴奏音轨确定出参考起止点集合；

12、第二确定模块，用于基于所述非歌唱时间信息，从所述参考起止点集合中确定目标起止点集合；

13、第三确定模块，用于基于所述待配乐的视频数据的第一播放时长，从所述目标起止点集合中确定配乐起始点和配乐终止点；

14、第四确定模块，用于将所述音乐数据中所述配乐起始点和配乐终止点之间的目标音乐数据确定为所述视频数据的目标配乐数据。

15、在一些实施例中，该信源分离模块，还用于：

16、对所述音乐数据进行时频转换，获取所述音乐数据的频谱幅度谱；

17、对所述频谱幅度谱进行特征提取，得到歌唱特征和伴奏特征，并将所述歌唱特征和所述伴奏特征进行合并，得到合并后的特征；

18、基于所述合并后的特征、所述歌唱特征和所述伴奏特征确定歌唱掩码和伴奏掩码；

19、利用所述歌唱掩码和所述伴奏掩码分别对所述频谱幅度谱进行掩码计算，对应得到歌唱频谱幅度和伴奏频谱幅度；

20、对所述歌唱频谱幅度和所述伴奏频谱幅度分别进行频时转换，对应得到歌唱音轨和伴奏音轨。

21、在一些实施例中，该第一确定模块，还用于：

22、对所述歌唱音轨进行语音活动检测，以所述歌唱音轨中的冲激信号进行定位，确定所述歌唱音轨中的歌唱时间信息；

23、基于所述歌唱时间信息，确定所述歌唱音轨中的非歌唱时间信息。

24、在一些实施例中，该第一确定模块，还用于：

25、获取训练好的音频事件检测模型；

26、将所述歌唱音轨输入所述音频事件检测模型，得到所述歌唱音轨中的歌唱时间信息；

27、基于所述歌唱时间信息，确定所述歌唱音轨中的非歌唱时间信息。

28、在一些实施例中，该第一确定模块，还用于：

29、获取所述伴奏音轨的频谱特征序列和预设的滑动窗长；

30、基于所述滑动窗长对所述频谱特征序列进行滑窗处理，得到多个滑窗结果；

31、将各个滑窗结果划分为n个子结果，并确定各个滑窗结果中n个子结果的能量均值；

32、基于所述各个滑窗结果中n个子结果的能量均值，从多个滑窗结果中确定目标滑窗结果；

33、基于所述目标滑窗结果确定参考起止点集合。

34、在一些实施例中，该第一确定模块，还用于：

35、将n个子结果的能量均值满足递减条件的滑窗结果确定为第一目标滑窗结果；

36、将n个子结果的能量均值满足递增条件的滑窗结果确定为第二目标滑窗结果；

37、将所述第一目标滑窗结果的右边界点确定为参考终止点；

38、将所述第二目标滑窗结果的左边界点确定为参考起始点。

39、在一些实施例中，，所述非歌唱时间信息包括非歌唱时间区间，该第二确定模块，还用于：

40、基于所述参考起止点集合中落入所述非歌唱时间区间的参考起止点确定目标起止点集合，所述目标起止点集合中包括目标起始点和目标终止点。

41、在一些实施例中，该第三确定模块，还用于：

42、确定所述待配乐的视频数据的第一播放时长；

43、确定目标起止点集合中目标起始点与位于所述目标起始点之后的各个目标终止点之间的各个间隔时长；

44、确定各个间隔时长与所述第一播放时长之间的各个时长差值；

45、当存在时长差值小于预设阈值的至少一个目标间隔时长时，将所述至少一个目标间隔时长中最小值对应的目标起始点确定为配乐起始点，将所述最小值对应的目标终止点确定为配乐终止点。

46、在一些实施例中，该装置还包括：

47、第一获取模块，用于当不存在时长差值小于预设阈值的至少一个目标间隔时长时，获取所述待处理的音乐数据的曲目类型；

48、输出模块，用于基于所述曲目类型确定多个候选音乐数据，并输出所述多个候选音乐数据的多个音乐标识；

49、第五确定模块，用于基于接收到针对音乐标识的选择操作，确定选择出的目标音乐标识；

50、第六确定模块，用于基于所述目标音乐标识确定待处理的音乐数据。

51、在一些实施例中，该装置还包括：

52、第七确定模块，用于基于所述配乐起始点和所述配乐终止点，确定所述目标配乐数据的第二播放时长；

53、调整模块，用于基于所述第二播放时长对所述待配乐的视频数据进行播放时长的调整，得到调整后的视频数据；

54、合成模块，用于将所述调整后的视频数据和所述目标配乐数据进行合成处理，得到配乐后的视频数据。

55、本技术实施例提供一种计算机设备，包括：

56、存储器，用于存储可执行指令；

57、处理器，用于执行所述存储器中存储的可执行指令时，实现本技术实施例提供的多媒体数据处理方法。

58、本技术实施例提供一种计算机可读存储介质，存储有可执行指令，可执行指令被处理器执行时，实现本技术实施例提供的多媒体数据处理方法。

59、本技术实施例提供的一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时，实现本技术实施例提供的多媒体数据处理方法。。

60、本技术实施例具有以下有益效果：

61、在获取待配乐的视频数据和待处理的音乐数据之后，首先对所述音乐数据进行信源分离，得到歌唱音轨和伴奏音轨，然后基于歌唱音轨确定出非歌唱时间信息，基于所述伴奏音轨确定出参考起止点集合，进而再基于所述非歌唱时间信息，从所述参考起止点集合中确定目标起止点集合，并基于所述待配乐的视频数据的第一播放时长，从所述目标起止点集合中确定配乐起始点和配乐终止点，最后将将所述音乐数据中所述配乐起始点和配乐终止点之间的目标音乐数据确定为所述视频数据的目标配乐数据；如此，对待处理的音乐数据将歌唱音轨和伴奏音轨进行分离，能够保证在无歌词的场景也能够精确的定位到整首音乐中非歌唱的时间信息，提高视频配乐的通用性；之后基于伴奏音轨确定伴奏的能量淡入淡出时间位置，从而得到适合配乐的参考起止点，最后基于检测出的非歌唱时间段落从参考起始点中筛选出最终的配乐起止点，能够既可以保证歌唱完整性又能够定位到歌曲节奏能量淡入淡出渐变的位置，提高视频配乐的效率和准确性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯鑫
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。