视频文件的配乐方法、系统、设备及存储介质与流程

文档序号：17844910发布日期：2019-06-11 21:37阅读：187来源：国知局

本发明涉及视频配乐技术领域，尤其涉及一种视频文件的配乐方法、系统、设备及存储介质。

背景技术：

在制作面向受众群体的视频文件时，通常是先制作出视频内容，然后根据视频内容进行后期配乐，最终形成向广大用户播放的视频，这一点在时下的广告视频制作过程中体现的尤其明显。在现有的广告视频制作过程中，广告商设计人员会优先根据委托人的要求设计出视频内容，然后挑选已有的音频文件对视频进行后期配乐，如此，广告视频不仅整体成本高，且没有考虑到受众群体对于视频配乐的偏好要求。现有的也存在自动的音乐生成算法，但是，现有的音乐自动生成算法无法将音乐与视频内容特征结合起来，视频配乐效果一般。

技术实现要素：

本发明的主要目的在于提供一种视频文件的配乐方法、系统、设备及存储介质，旨在提高创作广告视频新配乐的质量，降低配乐成本，并结合广告视频内容特征和用户反馈，对广告视频配乐进行优化调整，从而使用户在收看广告视频时获得更好的收看体验。

为实现上述目的，本发明提供一种视频文件的配乐方法，所述视频文件的配乐方法包括以下步骤：

从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件；

基于所述初始视频文件和配乐音频文件，生成测试视频文件；

根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。

可选地，所述视频特征包括：光流强度特征、色度直方图特征、shot边界特征，

所述从待配乐的初始视频文件中提取出所述视频文件的各项视频特征的步骤包括：

提取所述初始视频文件中各视频图像对应的各光流图，和所述视频图像的色度直方图；

将各所述光流图的平均光流强度作为所述初始视频文件的光流强度特征；

将所述色度直方图进行归一化处理之后，作为所述初始视频文件的色度直方图特征；

检测所述视频图像的shot边界，将所述shot边界所述初始视频文件的shot边界特征。

可选地，所述视频特征还包括：视频情感分数特征，

所述从待配乐的初始视频文件中提取出所述视频文件的各项视频特征的步骤还包括：

读取所述初始视频文件的视频内容，检测并统计所述视频内容中标识视频情感的情感数据；

将所述情感数据输入至预设情感分析模型，以供所述预设情感分析模型对所述情感数据进行预测得到所述视频内容的情感分数；

将所述情感分数作为所述初始视频文件的视频情感分数特征。

可选地，结合各项所述视频特征生成所述初始视频文件的配乐音频文件的步骤包括：

将各项所述视频特征输入至预设配乐模型，所述预设配置模型通过添加的预设训练样本进行学习训练，所述预设训练样本包括：音视频数据和纯音频数据；

在所述预设配乐模型中，结合各项所述视频特征生成所述初始视频文件的配乐音频文件。

可选地，在所述将各项所述视频特征输入至预设配乐模型的步骤之前，所述方法还包括：

检测所述初始视频文件的lookback特征，并将所述lookback特征输入至所述预设配乐模型。

可选地，所述预设配乐模型为基于序列神经网络生成音频文件的配乐模型，

在所述预设配乐模型中，结合各项所述视频特征生成所述初始视频文件的配乐音频文件的步骤包括：

根据所述初始视频文件的各项所述视频特征和所述lookback特征，生成音符序列；

将所述音符序列输入音符时长序列神经网络，以供所述音符时长神经网络根据所述音符序列和所述lookback特征输出音符时长序列；

将所述音符序列输入鼓点序列神经网络，以供所述鼓点序列神经网络根据所述音符序列输出鼓点组合；

根据所述音符序列、音符时长序列和所述鼓点组合，生成所述初始视频文件的配乐音频文件。

可选地，基于所述初始视频文件和配乐音频文件，生成测试视频文件的步骤包括：

读取所述初始视频文件和所述配乐音频文件的播放时间序列；

基于所述播放时间序列，将所述初始视频文件和所述配乐音频文件合成为测试视频文件。

可选地，所述根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件的步骤包括：

检测所述测试视频文件的投放平台，从所述投放平台上获取所述测试视频文件收看对象的用户画像模型和评价参数；

读取相同用户画像模型的各用户在预设周期内收看所述测试视频文件的评价参数，并根据所述评价参数构建用户行为特征序列；

根据所述用户行为特征序列计算用户收看所述测试视频文件时，对所述配乐音频文件的偏好概率分布数据；

以所述偏好概率分布数据指导生成所述配乐音频文件的预设配乐模型，以对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。

此外，本发明还提供一种视频文件的配乐系统，所述视频文件的配乐系统基于序列神经网络生成视频文件的配乐音频，所述视频文件的配乐系统包括：

配乐音频生成模块，用于从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件；

待测视频生成模块，用于基于所述初始视频文件和配乐音频文件，生成测试视频文件；

配乐音频修正模块，用于根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。

可选地，所述视频文件的配乐系统还包括：

学习训练模块，用于添加预设训练样本对生成所述配乐音频文件的预设配乐模型进行学习训练，所述预设训练样本包括：音视频数据和纯音频数据。

此外，本发明还提供一种视频文件的配乐设备，所述视频文件的配乐设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频文件的配乐程序，所述视频文件的配乐程序被所述处理器执行时实现如上所述的视频文件的配乐方法的步骤。

此外，本发明还提供一种存储介质，应用于计算机，所述存储介质上存储有视频文件的配乐程序，所述视频文件的配乐程序被处理器执行时实现如上所述的视频文件的配乐方法的步骤。

本发明通过从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件；基于所述初始视频文件和配乐音频文件，生成测试视频文件；根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件；由此，结合从初始视频文件的视频内容中提取出的各项视频特征，由经过添加音视频数据和纯音频数据进行迁移学习训练，并由采集的收看该广告视频文件受众群体的用户特征数据进行指导优化的配音模型，生成当前初始视频文件经过配音后的待用视频文件。不仅通过自动配音算法实现自动配乐降低了视频文件配乐的高昂成本，并结合视频内容特征进行配乐进一步提升了配乐的整体质量，而且，还基于该视频文件受众群体的反馈评价对配乐音频文件进行优化调整，满足了用户对于配乐内容的偏好要求，提升了用户对于该视频文件的收看体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明视频文件的配乐方法第一实施例的流程示意图；

图3为图2中步骤s100的细化步骤示意图；

图4为本发明视频文件的配乐方法第二实施例的流程示意图；

图5为本发明视频文件的配乐方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为视频文件的配乐设备的硬件运行环境的结构示意图。本发明实施例视频文件的配乐设备可以是pc，便携计算机等终端设备。

如图1所示，该视频文件的配乐设备可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的视频文件的配乐设备结构并不构成对视频文件的配乐设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频文件的配乐程序。其中，操作系统是管理和控制样本视频文件的配乐设备硬件和软件资源的程序，支持视频文件的配乐程序以及其它软件或程序的运行。

在图1所示的视频文件的配乐设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频文件的配乐程序，并执行以下操作：

从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件；

基于所述初始视频文件和配乐音频文件，生成测试视频文件；

根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。