视频配乐方法、装置、设备及计算机可读存储介质与流程

文档序号：29562940发布日期：2022-04-09 01:31阅读：129来源：国知局

1.本技术涉及互联网技术，尤其涉及一种视频配乐方法、装置、设备及计算机可读存储介质。

背景技术：

2.近年来，随着短视频的兴起和繁荣，视频智能理解和编辑技术应运而生，例如为增加短视频效果可以为制作的短视频增加配乐、卡通头像等。相关技术中，视频智能配乐的方式至少有以下几种：一种是使用视频标签和配乐标签匹配进行智能配乐；另一种是使用双塔的跨模态学习进行智能配乐；还有一种是直接利用人工智能技术生成配乐，也称为自动作曲，创作出一个新的配乐。基于视频标签和配乐标签的方法，对配乐曲库的要求较高，如果曲库规模或者实时性不足时，不是得到准备的配乐，而基于双塔的跨模态学习方法所需要的模型训练难度大，且仅考虑了视频内容，准确性不够，直接利用人工智能技术生成配乐技术不够成熟，配乐准确性同样得不到保证。

技术实现要素：

3.本技术实施例提供一种视频配乐方法、装置及计算机可读存储介质，能够提高视频配乐的准确性。
4.本技术实施例的技术方案是这样实现的：
5.本技术实施例提供一种视频配乐方法，包括：
6.获取待配乐的视频文件和所述视频文件的上传时间；
7.获取所述视频文件中包含的各个视频帧，并提取所述各个视频帧的帧特征；
8.基于所述各个视频帧的帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征；
9.基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的至少一个第一候选配乐信息；
10.输出所述至少一个第一候选配乐信息。
11.本技术实施例提供一种视频配乐装置，包括：。
12.第一获取模块，用于获取待配乐的视频文件和所述视频文件的上传时间；
13.特征提取模块，用于获取所述视频文件中包含的各个视频帧，并提取所述各个视频帧的帧特征；
14.第一确定模块，用于基于所述各个视频帧的帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征；
15.第二确定模块，用于基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的至少一个第一候选配乐信息；
16.第一输出模块，用于输出所述至少一个第一候选配乐信息。
17.在一些实施例中，该第一确定模块还用于：
18.将所述各个视频帧的帧特征进行特征融合，得到所述视频文件的内容特征；
19.基于各个视频帧的帧特征，确定特征矩阵，并确定所述特征矩阵的外积；
20.基于所述特征矩阵的外积确定所述视频文件的风格特征。
21.在一些实施例中，该第一确定模块还用于：
22.确定所述上传时间与预设时间的时间间隔；
23.基于所述时间间隔确定所述视频文件的时间特征。
24.在一些实施例中，该第二确定模块还用于：
25.利用训练好的配乐网络模型中的分类模块将所述内容特征、所述风格特征和所述时间特征进行拼接，得到拼接后的特征；
26.基于所述拼接后的特征确定所述视频文件的至少一个目标配乐类型；
27.基于所述至少一个目标配乐类型从预先构建的曲库中确定所述视频文件的至少一个第一候选配乐信息。
28.在一些实施例中，该第二确定模块还用于：
29.从所述曲库中确定各个目标配乐类型对应的至少一个乐曲信息；
30.将各个目标配乐类型对应的至少一个乐曲信息确定为所述视频文件的第一候选配乐信息。
31.在一些实施例中，该装置还包括：
32.第二获取模块，用于获取视频库中的预设时间段内的各个视频数据，并提取所述各个视频数据中的音频数据；
33.第三确定模块，用于确定所述各个视频数据中的音频数据的音频特征；
34.特征聚类模块，用于对所述音频特征进行特征聚类，得到聚类结果，所述聚类结果包括多个聚类簇，各个聚类簇中包括至少一个音频特征；
35.曲库构建模块，用于基于所述聚类结果构建背景音乐的曲库。
36.在一些实施例中，该曲库构建模块还用于：
37.确定各个聚类簇中包括的音频特征总数和所述各个聚类簇的特征标准差；
38.将音频特征总数大于数量阈值且特征标准差小于标准差阈值的聚类簇确定为目标聚类簇；
39.确定所述目标聚类簇对应的配乐类型，并为所述目标聚类簇中音频特征对应的音频数据添加配乐类型标识；
40.基于添加有配乐类型标识的音频数据构建背景音乐的曲库。
41.在一些实施例中，该装置还包括：
42.第三获取模块，用于获取预设的配乐网络模型和训练数据，所述训练数据包括训练视频数据和所述训练视频数据的训练背景音乐；
43.预测模块，用于将所述训练视频数据输入所述配乐网络模型，得到所述训练视频数据的预测配乐类型；
44.第四确定模块，用于基于预先构建的曲库，确定所述训练背景音乐的配乐类型标签；
45.模型训练模块，用于基于所述预测配乐类型和所述配乐类型标签对所述配乐网络模型进行反向传播训练，直至得到训练好的配乐网络模型。
46.在一些实施例中，该装置还包括：
47.第四获取模块，用于获取音视频合成请求，所述音视频合成请求中携带有所述终端从所述至少一个第一候选配乐信息中选择出的目标配乐信息；
48.合成模块，用于响应于所述音视频合成请求，对所述视频文件和所述目标配乐信息进行合成处理，得到配乐后的视频文件；
49.第二输出模块，用于输出所述配乐后的视频文件。
50.在一些实施例中，该装置还包括：
51.第五获取模块，用于获取重新配乐请求，所述重新配乐请求是基于所述至少一个第一候选配乐信息中不存在目标配乐信息触发的；
52.第五确定模块，用于响应于所述重新配乐请求，基于所述至少一个目标配乐类型从预先构建的曲库中确定所述视频文件的第二候选配乐信息，所述第二候选配乐信息中不包括所述第一候选配乐信息；
53.第三输出模块，用于输出第二候选配乐信息。
54.在一些实施例中，该装置还包括：
55.第六获取模块，用于获取重新配乐请求，所述重新配乐请求是基于所述至少一个第一候选配乐信息中不存在目标配乐信息触发的；
56.模型更新模块，用于响应于所述重新配乐请求，更新目标配乐类型，得到更新后的目标配乐类型；
57.第六确定模块，用于基于所述更新后的目标配乐类型从预先构建的曲库中确定所述视频文件的第三候选配乐信息；
58.第四输出模块，用于输出所述第三候选配乐信息。
59.本技术实施例提供一种视频配乐设备，包括：
60.存储器，用于存储可执行指令；
61.处理器，用于执行所述存储器中存储的可执行指令时，实现本技术实施例提供的视频配乐方法。
62.本技术实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本技术实施例提供的视频配乐方法。
63.本技术实施例具有以下有益效果：
64.在获取待配乐的视频文件和所述视频文件的上传时间之后，对视频文件进行解码，以获取所述视频文件中包含的各个视频帧，并提取所述各个视频帧的帧特征；然后再基于所述各个视频帧的帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征，进而基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的至少一个第一候选配乐信息，并输出所述至少一个第一候选配乐信息发送至请求配乐的终端，由于第一候选配乐信息是基于内容特征、风格特征和时间特征综合确定出的，不仅能够使得在视频内容之上更精细的粒度进行配乐推荐，还能保证推荐的配乐更加考虑近期的流行音乐，时效性更强。
附图说明
65.图1是本技术实施例提供的视频配乐系统的网络架构示意图；
66.图2是本技术实施例提供的服务器400的结构示意图；
67.图3是本技术实施例提供的视频配乐方法的一种实现流程示意图；
68.图4为本技术实施例提供的构建曲库的实现流程示意图；
69.图5为本技术实施例提供的训练配乐模型的实现流程示意图；
70.图6为本技术实施例提供的视频配乐方法的另一种实现流程示意图；
71.图7为本技术实施例提供的视频配乐方法的再一种实现流程示意图；
72.图8为本技术实施例提供的进行视频配乐的网络模型结构示意图；
73.图9为本技术实施例提供的构建配乐库的实现流程示意图；
74.图10为本技术实施例提供的通过tsm提取图像特征的示意图。
具体实施方式
75.为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术作进一步地详细描述，所描述的实施例不应视为对本技术的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
76.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
77.在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
78.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
79.对本技术实施例进行进一步详细说明之前，对本技术实施例中涉及的名词和术语进行说明，本技术实施例中涉及的名词和术语适用于如下的解释。
80.1)智能配乐：自动化地给短视频推荐和该短视频相符的背景音乐。
81.2)视频标签：对每个视频语义的描述，每个标签是一个词或短语，一个视频通常可以用多个标签进行描述。例如，对于一个美食吃播的短视频，对应的视频标签可能是：“美食吃播”、“韩国冷面”、“美女播主”。
82.3)特征聚类：无监督地对特征进行分组过程，使得同一组的特征之间比较相似，不同组之间的特征比较部相似。得到的每个组成为一个聚类簇，每个特征最终对应到一个簇中。
83.为了更好地理解本技术实施例提供的视频配乐方法，首先对相关技术中的几种视频配乐方法及存在的缺点进行说明。
84.相关技术中进行视频配乐的实现方案有以下几种：
85.一、使用视频标签和配乐标签匹配进行智能配乐。
86.在实现时，事先需要收集一个配乐曲库，曲库中的每个配乐标注了人工标签，包括曲风、情绪、适用场合等。对于上传者提供的视频，首先使用视频标签算法预测该视频的标
签，然后用视频标签和曲库中的配乐标签进行匹配，比如计算视频标签和配乐标签交集的数量，找到曲库中与之相近的配乐。这种方法本质是将智能配乐问题转化为标签关键词搜索和匹配问题。
87.二、使用双塔的跨模态学习进行视频配乐。
88.该双塔模型本身是用于学习图像和文本两个模态之间的对应关系，该思路也可以用于智能配乐中。输入包括两个分支，一个分支是视频输入、另一个分支是配乐音频输入。在实现时，将视频特征和配乐音频特征映射到同一个空间中，这样可以通过视频和配乐特征度量视频和配乐之间的相似度。因此，视频智能配乐问题转化为在特征空间寻找和视频特征最近的配乐特征的问题。
89.以上两种方法虽然实现方法上不同，但都是从已有的配乐曲库中选择一个适合的视频配乐。在相关技术中，还有一种方法是直接利用人工智能技术生成配乐，也称为自动作曲，创作出一个新的配乐。
90.以上几种方式存在的缺点包括：
91.基于视频和配乐标签匹配的方法依赖于配乐曲库的规模和视频标签算法的准确率和丰富度，如果曲库规模不够大，或者视频标签预测不准或者不够丰富，则难以找到匹配的配乐。另一方面，配乐存在热度时期，因此曲库需要持续进行更新和标注。
92.基于双塔的跨模态学习的方法使用类似度量学习的方法，训练难度比较大。此外，这类方法通常只考虑了视频内容，没有兼顾视频风格和发布时间信息，这会使得配乐结果不够贴切。
93.基于自动作曲的方法技术上还不够成熟，还需要学术界和产业界合作持续进行研究。另外，现实中的视频配乐长尾现象严重，即大部分的视频倾向于使用当时最流行的一些配乐，因此即使能够自动作曲生成配乐，用户对自动生成的配乐是否满意存疑。
94.基于此，本技术实施例提供一种视频配乐方法、装置、设备和计算机可读存储介质，能够同时基于视频内容、风格和时间进行智能配乐，将智能配乐问题直接建模为一个多分类任务，基于待预测的视频直接预测该视频适合的配乐。相比基于双塔的跨模态学习的方法，本发明训练起来更加简单直接。同时，可以无监督地从全量短视频池中收集配乐库，无需人工标注，因此配乐库更新快，可以紧跟不同时期的配乐热点。
95.参见图1，图1是本技术实施例提供的视频配乐系统100的网络架构示意图，如图2所示，该视频配乐系统100包括终端200、网络300和服务器400，终端200通过网络300连接服务器400，网络300可以是广域网或者局域网，又或者是二者的组合。
96.用户可以通过终端200获取视频文件，该视频文件可以是用户通过终端20 0中的图像采集设备录制的，还可以是终端200通过即时通讯应用接收到的，也可以是终端200从视频服务器中下载的。在需要对视频进行配乐时，终端20 0通过网络300向服务器400发送配乐请求，该配乐请求中至少携带有视频文件，服务器400将智能配乐问题直接建模为一个多分类任务，基于视频的内容特征、风格特征和时间特征进行智能配乐，确定出m个背景音乐(m为大于或者等于1的整数)，并将m个背景音乐发送至终端200供用户选择。
97.在一些实施例中，服务器400可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台
array)或其他电子元件。
109.为了更好地理解本技术实施例提供的视频配乐方法，首先对人工智能以及本技术实施例涉及的人工智能分支进行说明。
110.人工智能(ai，artificial intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
111.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本技术实施例主要涉及语音处理技术和机器学习两个分支。
112.语音技术(speech technology)的关键技术有自动语音识别技术(asr) 和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
113.机器学习(ml，machine learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
114.将结合本技术实施例提供的计算机设备的示例性应用和实施，说明本技术实施例提供的视频配乐方法。
115.本技术实施例提供一种视频配乐方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本技术实施例中，以该方法由服务器执行为例进行说明。图3是本技术实施例提供的视频配乐方法的一种实现流程示意图，将结合图3示出的步骤对本技术实施例提供的视频配乐方法进行说明。
116.步骤s101，响应于接收到的配乐请求，获取待配乐的视频文件和所述视频文件的上传时间。
117.该配乐请求可以是终端在确定好待配乐的视频文件后，向服务器发送的，配乐请求中至少携带有待配乐的视频文件。服务器对配乐请求进行解析，从而获取到待配乐的视频文件。视频文件的上传时间，也即服务器接收到配乐请求的时间，服务器通过确定接收到配乐请求的时间，获取视频文件的上传时间。
118.步骤s102，获取所述视频文件中包含的各个视频帧，并提取所述各个视频帧的帧特征。
119.步骤s102在实现时，是通过对视频文件进行解码，获取到视频文件中包含的各个视频帧。由于视频文件中的各个视频帧之间是具有时间关联的，因此在本技术实施例中可以利用时序移位模块提取各个视频帧的帧特征，还可以是利用有效卷积算子(eco，
efficient convolution operators)模型、时间敏感型网络(tsn，timesensitive network)等提取各个视频帧的帧特征。
120.步骤s103，基于所述各个视频帧的帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征。
121.步骤s103在实现时，可以将各个视频帧的帧特征进行特征融合，得到视频文件的内容特征，例如可以通过netvlad进行特征融合。netvlad是平均汇合(average pooling)的改进，平均汇合认为每帧图像特征对整体的贡献是相同的，但是现实中视频帧存在大量冗余。netvlad的基本思路是，认为一整段视频虽然对应一个动作，但是这个动作有多个行为和实体。因此netvlad将所有帧特征划分为几个聚类，能对动作中的多个行为和实体进行刻画。在确定风格特征时，可以通过计算特征的gram矩阵，从而对图像中的风格进行总结，进而可以基于gram矩阵进行风格迁移。
122.在基于所述上传时间确定所述视频文件的时间特征时，是通过计算上传时间与预设时间点的间隔时长来确定的。
123.步骤s104，基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的至少一个第一候选配乐信息。
124.步骤104在实现时，是将内容特征、风格特征和时间特征进行拼接，得到拼接后的特征，然后再通过一个全连接层和softmax激活函数，预测该视频文件的配乐类型，之后通过配乐类型从预先构建的曲库中确定该视频文件的至少一个第一候选配乐信息。第一候选配乐信息中可以包括配乐音频，还可以包括配乐的乐曲名称、演唱者等信息。
125.步骤s105，输出所述至少一个第一候选配乐信息。
126.步骤s105在实现时，可以将该至少一个第一候选配乐信息携带于配乐响应中，发送至请求配乐的终端。在一些实施例中，终端在接收到该至少一个第一候选配乐信息后，播放各个第一候选配乐信息的音频数据，从而确定是否有心仪的目标配乐，如果有心仪的目标配乐则将该目标配乐的信息发送至服务器，由服务器进行合成，或者终端自身进行合成，然后将合成后的视频进行本地存储或者后台发布。
127.在一些实施例中，当视频配乐方法是由终端实现时，输出所述至少一个第一候选配乐信息在实现时可以是终端通过自身的输出装置输出该至少一个第一候选配乐信息。例如可以在显示装置上输出各个第一候选配乐信息的标识，通过音频输出装置播放各个第一候选配乐信息的音频，以使得用户确定至少一个候选配乐信息中是否有心仪的目标配乐。
128.在本技术实施例提供的视频配乐方法中，在获取待配乐的视频文件和所述视频文件的上传时间之后，对视频文件进行解码，以获取所述视频文件中包含的各个视频帧，并提取所述各个视频帧的帧特征；然后再基于所述各个视频帧的帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征，进而基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的第一候选配乐信息，并将所述第一候选配乐信息发送至请求配乐的终端，由于第一候选配乐信息是基于内容特征、风格特征和时间特征综合确定出的，不仅能够使得在视频内容之上更精细的粒度进行配乐推荐，还能保证推荐的配乐更加考虑近期的流行音乐，时效性更强。
129.在一些实施例中，上述步骤s103中的“基于所述各个视频帧的帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征”，可以通
过以下步骤实现：
130.步骤s1031，将各个视频帧的帧特征进行特征融合，得到所述视频文件的内容特征。
131.将各个视频帧的帧特征进行特征融合可以是通过池化操作进行融合，在本技术实施例中，还可以通过netvlad进行特征融合，在一些实施例中，还可以通过池化操作，例如通过平均池化进行特征融合，还可以通过nextvlad进行特征融合，从而得到该视频文件的内容特征。
132.步骤s1032，基于各个视频帧的帧特征，确定特征矩阵，并确定所述特征矩阵的外积。
133.在本技术实施例中，假设视频文件中包括t个视频帧(t为大于1的整数)，每个视频帧的帧特征的维数为1*d(d为大于1的整数)，那么这t个帧特征，构成的特征矩阵的维数为t*d，假设该特征数据为x
t*d
，那么可以将该特征矩阵和该特征矩阵的转置的乘积确定为该特征矩阵的外积。
134.步骤s1033，基于所述特征矩阵的外积确定所述视频文件的风格特征。
135.步骤s1033在实现时，可以是利用公式(1-1)通过该特征矩阵的外积确定 gram矩阵：
[0136][0137]
将gram矩阵展开为t2维的向量。之后，对向量逐元素取带符号的根号(s igned sqrt)，得到视频文件的风格特征，也即视频文件的风格特征的维度为1* t2。
[0138]
步骤s1034，确定所述上传时间与预设时间的时间间隔。
[0139]
由于配乐流行期通常以月为单位，因此在本技术实施例中，计算上传时间与预设时间间隔时，可以以月为单位，例如预设时间为2015年1月，上传时间为2016年4月20日，那么该上传时间与预设事件的时间间隔为16个月。
[0140]
步骤s1035，基于所述时间间隔确定所述视频文件的时间特征。
[0141]
在实现时，为了使得数值范围更加多样，在本技术实施例中同时使用时间间隔t、t2、三者确定为视频文件的时间特征。
[0142]
承接上述举例，当时间间隔为16个月时，该视频文件的时间特征为16、2 56、4。
[0143]
在上述的步骤s1031至步骤s1035中，通过将各个视频帧的帧特征进行特征融合确定出视频文件的内容特征，然后再将帧特征构建特征矩阵，通过计算特征矩阵的外积，确定视频文件的风格特征，并基于上传时间与预设事件的时间间隔确定时间特征，从而为后续确定视频文件的配乐信息提供必要的数据基础。
[0144]
在一些实施例中，上述步骤s104“基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的至少一个第一候选配乐信息”可以通过以下步骤s1041至步骤s1043实现，下面进行说明。
[0145]
步骤s1041，利用训练好的配乐网络模型中的分类模块将所述内容特征、所述风格特征和所述时间特征进行拼接，得到拼接后的特征。
[0146]
在实现时，可以是将内容特征、风格特征和时间特征依次进行拼接，得到拼接后的
特征。假设内容特征的维度为1*d，风格特征的维度为1*t2，时间特征的维度为3，那么拼接后的特征的维度为1*(d+t2+3)。
[0147]
步骤s1042，基于所述拼接后的特征确定所述视频文件的至少一个目标配乐类型。
[0148]
步骤s1042在实现时，可以将拼接后的特征输入配乐网络模型中的分类模型，从而得到该视频文件与各个配乐类型的匹配度。该视频文件该分类模块至少包括一个全连接层和softmax激活函数。
[0149]
在得到该视频文件与各个配乐类型的匹配度后，将匹配度最高的前n个配乐类型确定为目标配乐类型。n为大于或者等于1的整数。
[0150]
步骤s1043，基于所述至少一个目标配乐类型从预先构建的曲库中确定所述视频文件的至少一个第一候选配乐信息。
[0151]
在本技术实施例中，该步骤可以通过以下步骤s431和步骤s432实现，下面进行说明。
[0152]
步骤s431，从所述曲库中确定各个目标配乐类型对应的至少一个乐曲信息。
[0153]
预选构建的曲库中包括多个乐曲集合，每个乐曲集合对应一个配乐类型，并且每个乐曲集合中包括多个乐曲信息。例如配乐类型可以为舒缓型、搞笑型、励志型等等。在确定出至少一个目标配乐类型后，就可以从各个目标配乐类型对应的乐曲集合选择至少一个乐曲信息。在本技术实施例中，可以是每个目标配乐类型选择一个乐曲信息，也可以是每个目标配乐类型选择多个乐曲信息。
[0154]
例如有n个目标配乐类型，如果每个目标配乐类型选择一个乐曲信息，那么在该步骤中确定出n个乐曲信息，如果每个目标配乐类型选择2个乐曲信息，那么在该步骤中确定出2n个乐曲信息。
[0155]
在一些实施例中，曲库中每个配乐类型对应的乐曲集合是通过特征聚类得到的聚类簇。在确定出一个目标配乐类型后，从对应的乐曲集合中选择1个或多个乐曲信息时，可以是选择与聚类中心距离最近的1个或多个乐曲信息。
[0156]
在一些实施例中，目标配乐类型对应乐曲集合中各个音频数据可以对应有一个表征与目标配乐类型的匹配度的得分，得分越高，说明与目标配乐类型的匹配度越高。在该步骤中，可以是选择得分最高的一个或多个乐曲信息。
[0157]
步骤s432，将各个目标配乐类型对应的至少一个乐曲信息确定为所述视频文件的至少一个第一候选配乐信息。
[0158]
在该步骤中，将步骤s432确定出的多个乐曲信息确定为视频文件的第一候选配乐信息。
[0159]
在上述步骤s1041至步骤s1043中，是将视频文件的内容特征、风格特征和时间特征进行拼接，然后通过一个全连接层和softmax函数进行配乐信息的预测，如此，相比于仅使用内容特征，在本技术实施例中还考虑了风格特征，因此能够提高配乐推荐的准确性，另外还增加了时间特征，能够保证推荐的配乐的时效性和流行性。
[0160]
在一些实施例中，在执行上述步骤s101至步骤s105之前，还需要通过如图4所示的步骤s001至步骤s004完成曲库构建。
[0161]
步骤s001，获取视频库中的预设时间段内的各个视频数据，并提取各个视频数据中的音频数据。
[0162]
该步骤的视频库可以是视频发布平台中的视频库，预设时间段可以是从当前时间至之前一年或者18个月的时间段，在获取到预设时间段内的各个视频数据后，进行音频提取，从而得到各个视频数据中的音频数据，该音频数据可能是乐曲，也可能是对白。
[0163]
步骤s002，确定各个视频数据中的音频数据的音频特征。
[0164]
该步骤在实现时，可以是对音频数据进行傅里叶变换，从而得到音频数据的频谱，然后基于音频数据的频谱提取对应的音频特征，例如可以是通过深度学习网络提取音频的vggish特征。
[0165]
步骤s003，对所述音频特征进行特征聚类，得到聚类结果。
[0166]
在本技术实施例中，可以利用k均值(k-mean)算法，或者基于均值偏移 (mean shift)的聚类算法来进行特征距离，得到聚类结果。所述聚类结果包括多个聚类簇，各个聚类簇中包括至少一个音频特征。
[0167]
上述聚类算法进行示例性说明，在实际实现时，还可以利用其它聚类算法对音频特征进行聚类。
[0168]
步骤s004，基于所述聚类结果构建背景音乐的曲库。
[0169]
在本技术实施例中，该步骤s004可以通过下述的步骤s0041至步骤s004 4实现，下面进行说明。
[0170]
步骤s0041，确定各个聚类簇中包括的音频特征总数和所述各个聚类簇的特征标准差。
[0171]
计算各个聚类簇的特征标准差时，可以首先计算聚类簇中包括的音频特征的均值，然后在利用各个音频特征和该均值，确定出该聚类簇的特征标准差。
[0172]
步骤s0042，将音频特征总数大于数量阈值且特征标准差小于标准差阈值的聚类簇确定为目标聚类簇。
[0173]
由于视频配乐分布十分长尾，大部分视频的配乐倾向于使用热门配乐，并且有的视频没有配乐，比如旁白对话类视频，这类视频不适合加入配乐库中。因此，在本技术实施例中，分别设定一个数量阈值和标准差阈值，在该步骤中只保留音频特征总数大于数量阈值，且特征标准差小于标准差阈值的聚类簇，这些聚类簇也即目标聚类簇。
[0174]
步骤s0043，确定所述目标聚类簇对应的配乐类型，并为所述目标聚类簇中音频特征对应的音频数据添加配乐类型标识。
[0175]
在步骤s0043中，基于各个目标聚类簇中的各个乐曲的曲调确定对应的配乐类型，并确定为各个配乐类型分配配乐类型标识，之后为目标聚类簇中的各个音频特征对应的音频数据添加配乐类型标识。
[0176]
步骤s0044，基于添加有配乐类型标识的音频数据构建背景音乐的曲库。
[0177]
通过上述的步骤s001至步骤s004，就完成了背景音乐曲库的构建，并且在构建曲库的过程中通过对视频库中音频数据的聚类，确定出最终加入曲库的音频数据的配乐类型标识(也即配乐标签)，如此，通过无监督的方式构建乐库，相比人工标注配乐库的方式，无监督构建的方式更加高效。
[0178]
在一些实施例中，在通过上述的步骤s001至步骤s004完成曲库构建后，如图5所示，还可以通过以下步骤s011至步骤s014对预设的配乐网络模型进行训练，从而得到训练好的配乐网络模型。
[0179]
步骤s011，获取预设的配乐网络模型和训练数据。
[0180]
其中，训练数据包括训练视频数据和所述训练视频数据的训练背景音乐。该训练视频数据可以是从视频库中获取的。
[0181]
步骤s012，将所述训练视频数据输入所述配乐网络模型，得到所述训练视频数据的预测配乐类型。
[0182]
在一些实施例中，该配乐网络模型可以包括特征提取模块、视频内容模块、视频风格模块、视频时间模块和分类模块，步骤s012在实现时，可以是对训练视频数据进行解码得到多个训练视频帧，通过特征提取模块提取各个训练视频帧的帧特征，之后将各个帧特征输入视频内容模块和视频风格模块，从而得到训练视频数据的训练内容特征和训练风格特征，并通过视频时间模块确定训练时间特征，然后将训练内容特征、训练风格特征和训练时间特征输入分类模块，从而确定训练视频数据的预测配乐类型，
[0183]
步骤s013，基于预先构建的曲库，确定所述训练背景音乐的配乐类型标签。
[0184]
在实现时，从预先构建的曲库中搜索是否包括该训练背景音乐，如果曲库中包括该训练背景音乐，确定该训练背景音乐的配乐类型，并将该配乐类型确定为该训练背景音乐的配乐类型标签。
[0185]
步骤s014，基于所述预测配乐类型和所述配乐类型标签对所述配乐网络模型进行反向传播训练，直至得到训练好的配乐网络模型。
[0186]
在该步骤中，基于所述预测配乐类型和所述配乐类型标签对所述配乐网络模型进行反向传播训练，以对配乐网络模型的参数进行调整，直至得到训练好的配乐网络模型。
[0187]
通过上述的步骤s011至步骤s014，将配乐问题直接建模为一个多分类任务，基于待预测的视频直接预测该视频适合的配乐，相比基于双塔的跨模态学习的方法，训练起来更加简单直接，因此训练效率更高。
[0188]
基于上述的实施例，本技术实施例再提供一种视频配乐方法，应用于图1 所示的网络架构，图6为本技术实施例提供的视频配乐方法的另一种实现流程示意图，以下结合图6对本技术实施例提供的视频配乐方法进行说明。
[0189]
步骤s201，终端确定待配乐的视频文件。
[0190]
待配乐的视频文件可以是终端利用自身的图像采集装置采集的，还可以是从网络中下载的，还可以是其他终端发送的。
[0191]
步骤s202，终端响应于接收到的配乐操作，向服务器发送配乐请求。
[0192]
该配乐请求中至少携带有待配乐的视频文件。
[0193]
步骤s203，服务器基于接收到的配乐请求，获取待配乐的视频文件和所述视频文件的上传时间。
[0194]
步骤s204，服务器获取所述视频文件中包含的各个视频帧，并提取所述各个视频帧的帧特征。
[0195]
步骤s205，服务器基于所述各个视频帧帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征。
[0196]
步骤s206，服务器基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的至少一个第一候选配乐信息。；
[0197]
步骤s207，服务器输出所述至少一个第一候选配乐信息。
[0198]
如图6所示，步骤s207在实现时也即服务器将至少一个第一候选配乐信息发送至请求配乐的终端。
[0199]
上述步骤s203至步骤s207的实现过程可参考步骤s101至步骤s105。
[0200]
步骤s208，终端接收到至少一个第一候选配乐信息后，播放至少一个第一候选配乐信息。
[0201]
在本技术实施例中第一候选配乐信息至少包括配乐音频，因此播放至少一个第一候选配乐信息，可以认为是播放配乐音频。在该步骤中可以是播放了所有接收到的第一候选配乐信息，也可以是播放了部分第一候选配乐信息。
[0202]
步骤s209，终端确定是否接收到目标配乐信息的选择操作。
[0203]
当终端接收到目标配乐信息的选择操作时，说明该至少一个第一候选配乐信息中包括用户选中的配乐信息，此时进入步骤s210；当终端未接收到针对目标配乐信息的选择操作时，说明该至少一个第一候选配乐信息不包括用户喜欢的配乐信息，此时进入步骤s213。
[0204]
步骤s210，终端响应于该选择操作，向服务器发送音视频合成请求。
[0205]
该音视频合成请求中至少包括目标配乐信息，该目标配乐信息可以仅包括配乐标识，还可以包括目标配乐音频。
[0206]
步骤s211，服务器在接收到该音视频合成请求后，响应于所述音视频合成请求，对所述视频文件和所述目标配乐信息进行合成处理，得到配乐后的视频文件。
[0207]
步骤s212，服务器输出所述配乐后的视频文件。
[0208]
在实际实现时，服务器输出配乐后的视频文件也即服务器将配乐后的视频文件发送至所述终端。
[0209]
在一些实施例中，在步骤s209之后，可以不执行步骤s210至步骤s212，而是由终端自身将选择出的目标配乐信息和待配乐的视频文件进行合成，得到配乐后的视频文件。终端在获取到配乐后的视频文件后，可以存储于终端本地，也可以将配乐后的视频文件发送至其他终端，或者将配乐后的视频文件发布至视频发布平台。
[0210]
步骤s213，终端向服务器发送重新配乐请求。
[0211]
所述重新配乐请求是基于所述第一候选配乐信息中不存在目标配乐信息触发的。
[0212]
步骤s214，服务器接收所述终端发送的重新配乐请求，响应于所述重新配乐请求，基于所述至少一个目标配乐类型从预先构建的曲库中确定所述视频文件的至少一个第二候选配乐信息。
[0213]
步骤s214在实现时，可以从目标配乐类型对应的乐曲集合中筛选出处第一候选配乐信息之外的其他得分最高的至少一个第二候选配乐信息，也就是说，所述至少一个第二候选配乐信息中不包括所述第一候选配乐信息，但是第二候选配乐信息还是属于目标配乐类型的。
[0214]
步骤s215，服务器输出所述第二候选配乐信息。
[0215]
该步骤在实现时，可以是服务器将携带有第二候选配乐信息的重新配乐响应发送至所述终端。
[0216]
在步骤s215之后，可以重复步骤s209至步骤s215的过程，直至为终端提供满意的配乐信息。
[0217]
在本技术实施例中提供的视频配乐方法中，当终端确定出待配乐的视频文件并请求服务器进行配乐时，服务器在获取待配乐的视频文件和所述视频文件的上传时间之后，提取视频文件中各个视频帧的帧特征；然后再基于所述各个视频帧的帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征，进而基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的第一候选配乐信息，并将所述第一候选配乐信息发送至请求配乐的终端，如此不仅能够使得在视频内容之上更精细的粒度进行配乐推荐，还能保证推荐的配乐更加考虑近期的流行音乐，时效性更强；如果终端从多个第一候选配乐信息中选择出目标配乐信息，那么可以请求服务器进行音视频合成，如果终端从多个第一候选配乐信息中未选择出目标配乐信息，可以请求服务器重新进行配乐，服务器可以从目标配乐类型中再次选择多个候选配乐信息，并发送给终端，以使得终端能够选择出合适的配乐信息，而不需要人为筛选，不仅能够提高配乐效率，还能够提高配乐后视频的吸引力。
[0218]
在一些实施例中，在需要为待配乐的视频文件进行重新配乐时，可以不执行步骤s214，而是执行以下几个步骤，下面进行说明。
[0219]
步骤s314，服务器响应于重新配乐请求，更新目标配乐类型，得到更新后的目标配乐类型。
[0220]
在该步骤中，当服务器接收到重新配乐请求后，可以从该视频文件与各个配乐类型的匹配度中选择除目标配乐类型之外，选择匹配度最高的前n个其他配乐类型确定为更新后的目标配乐类型。n为大于或者等于1的整数。
[0221]
步骤s315，服务器基于所述更新后的目标配乐类型从预先构建的曲库中确定所述视频文件的第三候选配乐信息。
[0222]
与步骤s431类似，更新后的目标配乐类型对应乐曲集合中各个音频数据也可以对应有一个表征与更新后的目标配乐类型的匹配度的得分，得分越高，说明与更新后的目标配乐类型的匹配度越高。在该步骤中，可以是选择得分最高的一个或多个乐曲信息作为第三候选配乐信息。
[0223]
步骤s316，服务器输出第三配乐信息。
[0224]
在实际实现时，该步骤在实现时可以是服务器将携带有所述第三候选配乐信息的重新配乐响应发送至所述终端。
[0225]
在上述步骤s314至步骤s316中，当服务器接收到重新配乐请求后，可以重新选择目标配乐类型，从而再基于重新选择出的目标配乐类型确定第三候选配乐信息，能够在初始确定出的目标配乐类型不是用户所喜欢类型的时候，避免重复为用户推荐配乐而无法选择出心仪的配乐，提高配乐选择的多样性。
[0226]
下面，将说明本技术实施例在一个实际的应用场景中的示例性应用。
[0227]
图7为本技术实施例提供的视频配乐方法的再一种实现流程示意图，该配乐方法可以由服务器执行，如图7所示，该流程包括：
[0228]
步骤s701，接收用户上传的视频。
[0229]
步骤s702，自动地对短视频进行智能分析，以对背景音乐进行预测。
[0230]
步骤s703，获取预测出的m(在图7中以m＝3为例示出)个背景音乐。
[0231]
在本技术实施例中，服务器在获取到预测出的m个背景音乐后，将m的背景音乐发
送给用户。
[0232]
步骤s704，确定用户选择的背景音乐。
[0233]
步骤s705，合成视频，并上传平台或者供用户下载。
[0234]
在实现时，合成视频是指将背景音乐和视频进行合成处理，在合成之后，可以将合成后的视频上传至视频发布平台，供其他用户观看，也可以供上传视频文件的用户下载该合成后的视频。
[0235]
图8为本技术实施例提供的进行视频配乐的网络模型结构示意图，如图8 所示，该网络模型包括：特征提取模块801、视频内容模块802、视频风格模块 803、视频时间模块804和分类模块805，如图8所示，将待配乐的视频输入特征提取模块801，提取视频中各个视频帧的帧特征，之后将各个视频帧的帧特征输入到视频内容模块802和视频风格模块803，视频内容模块802用于对视频中的内容信息进行提取；视频风格模块803用于提取视频的风格；待配乐视频还会输入视频时间模块804，视频时间模804用于将视频的发布时间总结为特征。在得到视频内容特征、视频风格特征和视频时间特征之后，这三个特征输入至分类模块805，分类模块805对这些特征进行拼接，最后通过全连接层和softmax激活函数预测该视频对应的音频配乐。
[0236]
以下为本技术实施例利用图8所示的网络模型进行视频配乐的实现过程进行说明。
[0237]
在进行视频配乐之前，需要对该网络模型进行训练，而在对该网络模型进行训练之前首先需要构建配乐库。在本技术实施例中，是从视频库中收集背景音乐，从而构建配乐库。在实现时，可以由服务器进行配乐库构建，图9为本技术实施例提供的构建配乐库的实现流程示意图，如图9所示，该流程包括：
[0238]
步骤s901，服务器进行音频提取。
[0239]
在实现时，可以从短视频库中提取每个视频对应的音频(mp4
→
wav)。
[0240]
步骤s902，服务器提取vggish音频特征。
[0241]
该步骤在实现时，计算每个音频的频谱，并基于频谱提取每个音频的vgg ish特征。vggish是一种基于深度卷积神经网络的音频特征，其使用的网络结构类似于图像分类中的vgg-a。在vgg-a的基础上去掉了最后一组的卷积和汇合层，因此vggish模型只有4组卷积和汇合层；并且将全连接层的维度由1 000降低到了128。最终再利用平均汇合，最终音频特征的维度是128维。
[0242]
步骤s903，服务器进行特征聚类。
[0243]
对视频库中对应的音频特征进行特征聚类。假设聚类个数为k。在聚类之后，对于每个视频vi，可以得到该视频对应的聚类簇ci∈{1，2，...，k}。统计属于每个聚类簇下的视频数量mi和每个聚类簇下的特征标准差σi。
[0244]
步骤s904，服务器进行配乐库构建。
[0245]
由于视频配乐分布十分长尾，大部分视频的配乐倾向于使用热门配乐，并且有的视频没有配乐，比如旁白对话类视频，这类视频不适合加入配乐库中。因此，分别设定一个数量阈值和标准差阈值，只保留簇下视频数量大于等于数量阈值、以及簇下特征标准差小于等于标准差阈值的聚类簇。
[0246]
最终，被保留下来的聚类簇对应的音频组成了配乐库，每个聚类簇对应一个配乐。
令k’表示被保留下来的聚类簇个数，并将保留的聚类簇重新编号为1， 2，...，k’。
[0247]
在模型训练阶段，对于视频库中一个视频，首先从视频中采样得到视频帧，之后各帧图像经过时序移位模块(temporal shift module，tsm)网络提取各帧的图像特征，如图10所示。tsm通过对2d卷积进行改造，使其可以近似3 d卷积的效果。如图10所示，2d卷积在时间维度上独立运行，每一帧的2d 卷积只利用当前帧的信息，因此没有时间建模(见图10中的左边部分1001)。 tsm通过将部分通道沿着时间维度进行移位，进行相邻帧的信息交换，可以让 2d卷积感知到其他帧的信息。tsm将1/4的通道进行移位，包括离线和在线两种移位模式：离线时间移位让1/8的通道移位前一帧的信息，1/8的通道移位后一帧的信息(如图10中的中间部分1002)；在线时间移位让1/4的通道移位前一帧的信息(如图10中的右边部分1003)。图10中移位之后的空缺位置使用零填补(zero padding)。
[0248]
在本技术实施例中，视频特征提取模块示例性的使用了tsm网络结构，但是，并不具体限定深度神经网络的模型结构，可以替换为其他有效的新型视频模型结构，如eco、tsn、i3d、non-local、slowfast等。
[0249]
在通过特征提取模块得到视频帧的特征之后，在本技术实施例中，可以通过netvlad对各帧特征进行融合。netvlad是平均汇合(average pooling) 的改进，平均汇合认为每帧图像特征对整体的贡献是相同的，但是现实中视频帧存在大量冗余。netvlad的基本思路是，认为一整段视频虽然对应一个动作，但是这个动作有多个行为和实体，例如“投篮”的动作就包括“篮框”、“控球”、“跳”、“投球”等多个行为和实体。因此netvlad将所有帧特征划分为几个聚类，能对动作中的多个行为和实体进行刻画。
[0250]
需要说明的是，在本技术实施例中，视频内容模块使用netvlad进行了特征提取，此外也可以使用其他特征提取方式，如平均汇合、nextvlad等。
[0251]
在通过特征提取模块得到视频帧的特征之后，视频风格模块用于提取视频的风格。发现通过计算特征的gram矩阵，可以对图像中的风格进行总结，进而可以基于gram矩阵进行风格迁移。因此，我们将图像风格迁移的思路扩展到视频中。
[0252]
特征提取模块得到的视频帧特征为{x1,x2,...,x
t
}，可以将帧特征用矩阵表示为x∈r
t
×d，gram矩阵定义为特征矩阵的外积，如公式(1-1)：
[0253][0254]
gram矩阵的维度为g∈r
t
×
t
。随后，将gram矩阵展开为t2维的向量。之后，对向量逐元素取带符号的根号(signed sqrt)，即对向量中的每个元素执行公式(1-2)：
[0255][0256]
其中，sign(z)表示取元素z的符号，当输入大于0时，函数值为1；当输入小于0时，函数值为-1；当输入等于0时，函数值为0。得到的结果作为视频风格特征。
[0257]
在一些推荐系统中，将视频年龄(example age)作为推荐特征之一，其动机是，视频的流行期通常很短，用户倾向于观看新发布的视频。因此显式地将视频年龄作为特征，让推荐模型进行推荐时考虑视频的年龄。
[0258]
由于配乐存在流行期的问题，即使对于相同的视频，不同的时期适用的配乐也不同。机器学习算法，包括深度学习算法，由于是从训练数据中进行学习，而历史数据更多，会
更倾向于预测历史上适用的配乐，这会使得配乐趋向于“过时”。因此，该视频时间模块以视频的上传时间t为输入，由于配乐流行期通常以月为单位，在本技术实施例中，t的单位为视频上传时刻距离2005年1月的月数，如果上传时间在2005年1月之前，令t＝0。此外，为了使得数值范围更加多样，同时使用t、t2、三者一起作为视频时间模块特征。通过该时间特征，会使模型倾向于参考近期的视频配乐结果进行预测，以保证推荐的配乐的流行度。
[0259]
在得到上述的视频内容、风格、时间特征之后，分类模块将上述特征拼接在一起，组成最终的特征。然后，通过一个全连接层和softmax激活函数，预测该视频的配乐，这是一个多分类问题。类别数为k’+1，其中k’是配乐库构建时筛选下来的配乐聚类簇的个数，1表示该视频不适合或者没有对应的配乐。对于视频库中的一个视频，如果该视频对应的音频配乐出现在配乐库中，那么该视频对应的类别为配乐库构建时特征聚类的聚类簇的id；如果该视频对应的音频配乐没有出现在配乐库中，那么该视频不适合或者没有对应的配乐。
[0260]
在模型预测阶段，将待预测的视频输入训练好的网络模型中，得到该视频属于各个配乐的置信度，之后按置信度由高到低排序，得到前n个对应的配乐，反馈给视频上传者进行选择。
[0261]
给短视频添加一段合适的背景音乐可以使视频更有吸引力，用户的观看体验更佳。对视频上传者来说，尤其是没有过多经验的视频上传者，面对浩如烟海的音乐库，给短视频选择合适的配乐是一个挑战，需要花费大量的时间进行筛选。通过本技术实施例提供的视频配乐方法能够自动地根据用户上传的视频智能地提供第一候选配乐，方便用户进行选择。
[0262]
在本技术实施例中，可以无监督地收集配乐库，相比人工标注配乐库的方式，无监督收集的方式更加高效。配乐流行期短，更新速度快，无监督的方式可以更快地将新的配乐入库，入库之后加以训练，即可以推荐新的配乐。
[0263]
相比基于双塔的跨模态学习的方法，在本技术实施例中，将智能配乐问题直接建模为一个多分类任务，基于待预测的视频直接预测该视频适合的配乐，训练起来更加简单直接。
[0264]
在本技术实施例中，同时基于视频内容、风格和时间进行配乐预测。相比只基于视频内容进行智能配乐的方法，考虑视频风格特征可以使得在视频内容之上更精细的粒度进行配乐推荐。考虑视频时间之后，可以使得推荐的配乐更加考虑近期的训练数据，时效性更强。
[0265]
下面继续说明本技术实施例提供的视频配乐装置443的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器440的视频配乐装置443中的软件模块可以包括：
[0266]
第一获取模块4431，用于获取待配乐的视频文件和所述视频文件的上传时间；
[0267]
特征提取模块4432，用于获取所述视频文件中包含的各个视频帧，并提取所述各个视频帧的帧特征；
[0268]
第一确定模块4433，用于基于所述各个视频帧的帧特征确定所述视频文件的内容特征和风格特征，基于所述上传时间确定所述视频文件的时间特征；
[0269]
第二确定模块4434，用于基于所述内容特征、所述风格特征和所述时间特征确定所述视频文件的第一候选配乐信息；
[0270]
第一输出模块4435，用于将所述第一候选配乐信息发送至请求配乐的终端。
[0271]
在一些实施例中，该第一确定模块4433还用于：
[0272]
将所述各个视频帧的帧特征进行特征融合，得到所述视频文件的内容特征；
[0273]
基于各个视频帧的帧特征，确定特征矩阵，并确定所述特征矩阵的外积；
[0274]
基于所述特征矩阵的外积确定所述视频文件的风格特征。
[0275]
在一些实施例中，该第一确定模块4433还用于：
[0276]
确定所述上传时间与预设时间的时间间隔；
[0277]
基于所述时间间隔确定所述视频文件的时间特征。
[0278]
在一些实施例中，该第二确定模块4434还用于：
[0279]
利用训练好的配乐网络模型中的分类模块将所述内容特征、所述风格特征和所述时间特征进行拼接，得到拼接后的特征；
[0280]
基于所述拼接后的特征确定所述视频文件的至少一个目标配乐类型；
[0281]
基于所述至少一个目标配乐类型从预先构建的曲库中确定所述视频文件的至少一个第一候选配乐信息。
[0282]
在一些实施例中，该第二确定模块4434还用于：
[0283]
从所述曲库中确定各个目标配乐类型对应的至少一个乐曲信息；
[0284]
将各个目标配乐类型对应的至少一个乐曲信息确定为所述视频文件的第一候选配乐信息。
[0285]
在一些实施例中，该装置还包括：
[0286]
第二获取模块，用于获取视频库中的预设时间段内的各个视频数据，并提取所述各个视频数据中的音频数据；
[0287]
第三确定模块，用于确定所述各个视频数据中的音频数据的音频特征；
[0288]
特征聚类模块，用于对所述音频特征进行特征聚类，得到聚类结果，所述聚类结果包括多个聚类簇，各个聚类簇中包括至少一个音频特征；
[0289]
曲库构建模块，用于基于所述聚类结果构建背景音乐的曲库。
[0290]
在一些实施例中，该曲库构建模块还用于：
[0291]
确定各个聚类簇中包括的音频特征总数和所述各个聚类簇的特征标准差；
[0292]
将音频特征总数大于数量阈值且特征标准差小于标准差阈值的聚类簇确定为目标聚类簇；
[0293]
确定所述目标聚类簇对应的配乐类型，并为所述目标聚类簇中音频特征对应的音频数据添加配乐类型标识；
[0294]
基于添加有配乐类型标识的音频数据构建背景音乐的曲库。
[0295]
在一些实施例中，该装置还包括：
[0296]
第三获取模块，用于获取预设的配乐网络模型和训练数据，所述训练数据包括训练视频数据和所述训练视频数据的训练背景音乐；
[0297]
预测模块，用于将所述训练视频数据输入所述配乐网络模型，得到所述训练视频数据的预测配乐类型；
[0298]
第四确定模块，用于基于预先构建的曲库，确定所述训练背景音乐的配乐类型标签；
[0299]
模型训练模块，用于基于所述预测配乐类型和所述配乐类型标签对所述配乐网络模型进行反向传播训练，直至得到训练好的配乐网络模型。
[0300]
在一些实施例中，该装置还包括：
[0301]
第四获取模块，用于获取音视频合成请求，所述音视频合成请求中携带有所述终端从所述至少一个第一候选配乐信息中选择出的目标配乐信息；
[0302]
合成模块，用于响应于所述音视频合成请求，对所述视频文件和所述目标配乐信息进行合成处理，得到配乐后的视频文件；
[0303]
第二输出模块，用于输出所述配乐后的视频文件。
[0304]
在一些实施例中，该装置还包括：
[0305]
第五获取模块，用于获取重新配乐请求，所述重新配乐请求是基于所述至少一个第一候选配乐信息中不存在目标配乐信息触发的；
[0306]
第五确定模块，用于响应于所述重新配乐请求，基于所述至少一个目标配乐类型从预先构建的曲库中确定所述视频文件的第二候选配乐信息，所述第二候选配乐信息中不包括所述第一候选配乐信息；
[0307]
第三输出模块，用于输出第二候选配乐信息。
[0308]
在一些实施例中，该装置还包括：
[0309]
第六获取模块，用于获取重新配乐请求，所述重新配乐请求是基于所述至少一个第一候选配乐信息中不存在目标配乐信息触发的；
[0310]
模型更新模块，用于响应于所述重新配乐请求，更新目标配乐类型，得到更新后的目标配乐类型；
[0311]
第六确定模块，用于基于所述更新后的目标配乐类型从预先构建的曲库中确定所述视频文件的第三候选配乐信息；
[0312]
第四输出模块，用于输出所述第三候选配乐信息。
[0313]
这里需要指出的是：以上视频配乐装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果。对于本技术视频配乐装置实施例中未披露的技术细节，本领域的技术人员请参照本技术方法实施例的描述而理解。
[0314]
本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术实施例上述的视频配乐方法。
[0315]
本技术实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本技术实施例提供的方法，例如，如图3、图4、图5和图6示出的方法。
[0316]
在一些实施例中，计算机可读存储介质可以是fram、rom、prom、ep rom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器；也可以是包括上述存储器之一或任意组合的各种设备。
[0317]
在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在
计算环境中使用的其它单元。
[0318]
作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(h tml，hyper text markup language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。
[0319]
作为示例，可执行指令可被部署为在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
[0320]
以上所述，仅为本技术的实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张皓沈招益黄嘉文王烨鑫
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。