视频配乐方法、装置、计算机设备和存储介质与流程

文档序号：27081708发布日期：2021-10-24 12:59阅读：109来源：国知局

1.本技术涉及计算机技术领域，特别是涉及一种视频配乐方法、装置、计算机设备和存储介质。

背景技术：

2.随着互联网的发展，人们已经习惯将自行拍摄的视频通过网络进行分享。其中，短视频以音频节奏和视频剪辑节奏相匹配的酷炫效果成为当前最为流行的视频形式。当短视频中的画面和音乐有效结合时，会使观看视频的用户感受到视频中的氛围，具有身临其境的感受。
3.目前，主要是通过人耳倾听歌曲，主观感受音乐速度与已经剪辑生成的短视频之间的匹配度，并根据主观感受的匹配度进行音乐的挑选，得到匹配音乐。当挑选完匹配音乐后，再通过反复听曲，确认匹配音乐中应选取的大致段落，将应选取的大致段落与剪辑好的短视频进行合成，得到最终的视频。然而，通过人力来挑选用以进行配乐的音乐片段，会导致视频配乐的效率低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提升视频配乐效率的视频配乐方法、装置、计算机设备和存储介质。
5.一种视频配乐方法，所述方法包括：获取待配乐视频，并确定所述待配乐视频的分镜速度；确定多个候选配乐各自对应的长时音频速度；所述长时音频速度根据所述候选配乐的高阶点位和配乐时长确定，所述高阶点位基于所述候选配乐的基础点位确定；根据所述分镜速度和所述长时音频速度，从所述候选配乐中筛选匹配配乐；根据所述待配乐视频的视频时长和所述匹配配乐所对应的高阶点位，确定所述匹配配乐中各音乐片段各自对应的短时音频速度；根据所述分镜速度和所述短时音频速度，确定所述匹配配乐中的目标音乐片段，并将所述目标音乐片段与所述待配乐视频进行合成处理，得到目标视频。
6.一种视频配乐装置，所述装置包括：匹配配乐确定模块，用于获取待配乐视频，并确定所述待配乐视频的分镜速度；确定多个候选配乐各自对应的长时音频速度；所述长时音频速度根据所述候选配乐的高阶点位和配乐时长确定，所述高阶点位基于所述候选配乐的基础点位确定；根据所述分镜速度和所述长时音频速度，从所述候选配乐中筛选匹配配乐；短时音速确定模块，用于根据所述待配乐视频的视频时长和所述匹配配乐所对应的高阶点位，确定所述匹配配乐中各音乐片段各自对应的短时音频速度；合成模块，用于根据所述分镜速度和所述短时音频速度，确定所述匹配配乐中的目标音乐片段，并将所述目标音乐片段与所述待配乐视频进行合成处理，得到目标视频。
7.在一个实施例中，所述匹配配乐确定模块包括分镜速度确定模块，用于确定所述待配乐视频的视频时长和所述待配乐视频所包括的分镜头数量；根据所述视频时长和所述分镜头数量，确定所述待配乐视频的分镜速度。
8.在一个实施例中，所述匹配配乐确定模块包括长时音速确定模块，用于对于配乐库中的每个候选配乐，确定所述候选配乐中的基础点位，并根据所述基础点位，确定相应候选配乐中的高阶点位；根据所述候选配乐的配乐时长和所述高阶点位，确定相应候选配乐的长时音频速度。
9.在一个实施例中，所述视频配乐装置还包括高阶点位确定模块，用于确定与所述候选配乐相对应的特征能量曲线；对所述特征能量曲线进行峰值检测，得到所述特征能量曲线中的波峰，并根据所述波峰，确定所述候选配乐中的重音点位；确定所述特征能量曲线中的能量变化规律，并根据所述能量变化规律，确定所述候选配乐中的节拍点位。
10.在一个实施例中，所述高阶点位确定模，还用于对所述候选配乐进行分帧处理，得到至少一个音频帧；分别对所述音频帧进行傅里叶变换，得到每个音频帧各自对应的频谱图；沿时域对多个所述频谱图进行拼接，得到所述候选配乐的配乐频谱图；对所述配乐频谱图进行差分计算，得到所述配乐频谱图的特征能量曲线。
11.在一个实施例中，所述高阶点位确定模块还用于通过第一滑动窗口对所述特征能量曲线进行平滑处理，得到所述特征能量曲线中的能量变化规律；根据所述能量变化规律，得到所述候选配乐中的节拍点位。
12.在一个实施例中，所述高阶点位确定模块还用于对于所述候选配乐中的每个重音点位，以当前重音点位为中心设置时间窗口，并确定在所述时间窗口内是否存在节拍点位；所述时间窗口对应预设时间间隔；若所述时间窗口内存在节拍点位，则将所述时间窗口内存在的节拍点位和所述当前重音点位，作为具有对应关系的重音点位和节拍点位。
13.在一个实施例中，所述基础点位包括节拍点位和重音点位，所述高阶点位确定模块还用于若所述候选配乐中，在预设时间间隔内存在具有对应关系的重音点位和节拍点位，则将具有对应关系的重音点位和节拍点位中的一种，作为高阶点位。
14.在一个实施例中，所述匹配配乐确定模块还用于将配乐库中的每个候选配乐各自对应的长时音频速度均与所述分镜速度进行匹配处理，得到每个所述候选配乐各自对应的第一匹配值；根据所述第一匹配值，从所述配乐库中筛选出至少一个目标候选配乐；确定每个所述目标候选配乐各自对应的配乐标签，并根据所述配乐标签和所述第一匹配值，从所述至少一个目标候选配乐中筛选出匹配配乐。
15.在一个实施例中，所述短时音速确定模块还用于根据所述待配乐视频的视频时长对所述匹配配乐进行分段处理，得到至少一个音乐片段，并确定每个所述音乐片段各自对应的高阶点位数量；对于多个音乐片段中的每个音乐片段，根据所述音乐片段对应的高阶点位数量和所述音乐片段的片段时长，得到相应音乐片段的短时音频速度。
16.在一个实施例中，所述短时音速确定模块还用于获取第二滑动窗口，并以预设滑动步长，触发所述第二滑动窗在与所述匹配配乐对应的音频信号序列上滑动，得到所述第二滑动窗口所框选的至少一个音频信号片段；其中，所述第二滑动窗口所框选的音频信号片段的片段时长与所述待配乐视频的视频时长一致；将与所述音频信号片段相对应的音频，作为通过分段处理得到的音乐片段。
17.在一个实施例中，所述合成模块还用于将每个所述音乐片段各自对应的短时音频速度均与所述分镜速度进行匹配处理，得到每个所述音乐片段各自对应的第二匹配值；根据所述第二匹配值，从多个所述音乐片段中筛选出目标音乐片段。
18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取待配乐视频，并确定所述待配乐视频的分镜速度；确定多个候选配乐各自对应的长时音频速度；所述长时音频速度根据所述候选配乐的高阶点位和配乐时长确定，所述高阶点位基于所述候选配乐的基础点位确定；根据所述分镜速度和所述长时音频速度，从所述候选配乐中筛选匹配配乐；根据所述待配乐视频的视频时长和所述匹配配乐所对应的高阶点位，确定所述匹配配乐中各音乐片段各自对应的短时音频速度；根据所述分镜速度和所述短时音频速度，确定所述匹配配乐中的目标音乐片段，并将所述目标音乐片段与所述待配乐视频进行合成处理，得到目标视频。
19.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待配乐视频，并确定所述待配乐视频的分镜速度；确定多个候选配乐各自对应的长时音频速度；所述长时音频速度根据所述候选配乐的高阶点位和配乐时长确定，所述高阶点位基于所述候选配乐的基础点位确定；根据所述分镜速度和所述长时音频速度，从所述候选配乐中筛选匹配配乐；根据所述待配乐视频的视频时长和所述匹配配乐所对应的高阶点位，确定所述匹配配乐中各音乐片段各自对应的短时音频速度；根据所述分镜速度和所述短时音频速度，确定所述匹配配乐中的目标音乐片段，并将所述目标音乐片段与所述待配乐视频进行合成处理，得到目标视频。
20.一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上以下步骤：获取待配乐视频，并确定所述待配乐视频的分镜速度；确定多个候选配乐各自对应的长时音频速度；所述长时音频速度根据所述候选配乐的高阶点位和配乐时长确定，所述高阶点位基于所述候选配乐的基础点位确定；根据所述分镜速度和所述长时音频速度，从所述候选配乐中筛选匹配配乐；根据所述待配乐视频的视频时长和所述匹配配乐所对应的高阶点位，确定所述匹配配乐中各音乐片段各自对应的短时音频速度；根据所述分镜速度和所述短时音频速度，确定所述匹配配乐中的目标音乐片段，并将所述目标音乐片段与所述待配乐视频进行合成处理，得到目标视频。
21.上述视频配乐方法、装置、计算机设备、存储介质和计算机程序，通过获取待配乐视频，可确定待配乐视频的分镜速度。通过获取配乐库，可确定配乐库中每个候选配乐各自对应的长时音频速度和高阶点位，从而可基于长时音频速度和分镜速度，优先从配乐库中筛选出匹配配乐。通过确定匹配配乐，可基于高阶点位和待配乐视频的视频时长，确定匹配配乐中各音乐片段的短时音频速度，从而基于短时音频速度和分镜速度，从多个音乐片段中筛选出最为匹配的目标音乐片段，如此，便能使得基于最为匹配的目标音乐片段合成的
目标视频能够更贴近音乐节奏，进而使得目标视频中的场景转场时间点与重音或节拍的出现时间点更为匹配，从而大大提升了观看体验。由于可通过计算机设备自动对待配乐视频进行配乐，相比于传统的人工进行配乐，本技术还可提升视频配乐的配乐效率。
附图说明
22.图1为一个实施例中视频配乐方法的应用环境图；图2为一个实施例中视频配乐方法的流程示意图；图3为一个实施例中配乐频谱图的示意图；图4为一个实施例中重音点位的确定过程示意图；图5为一个实施例中节拍点位的示意图；图6为一个实施例中重音点位和节拍点位的对应关系确定示意图；图7为一个实施例中目标音乐片段的确定示意图；图8为一个实施例中视频配乐的整体架构示意图；图9为一个实施例中目标视频的播放示意图；图10为一个具体实施例中视频配乐的流程示意图；图11为一个实施例中视频配乐装置的结构框图；图12为另一个实施例中视频配乐装置的结构框图；图13为一个实施例中计算机设备的内部结构图。
具体实施方式
23.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
24.图1为一个实施例中描述视频配乐方法的应用环境图。参照图1，该视频配乐方法应用于视频配乐系统100。该视频配乐系统100包括终端102和服务器104。终端102和服务器104可单独用于执行本技术实施例中提供的视频配乐方法，终端102和服务器104也可协同用于执行本技术实施例中提供的视频配乐方法。以终端102和服务器104协同用于执行本技术实施例中提供的视频配乐方法为例进行说明，终端102运行有用以进行视频剪辑的视频剪辑应用，用户可通过该视频剪辑应用剪辑短视频，得到待配乐视频。终端102将该待配乐视频发送至服务器104，以使服务器104根据待配乐视频的分镜速度、和配乐库中各候选配乐的长时音频速度，从配乐库中筛选出匹配配乐，并根据匹配配乐中各音乐片段的短时音频速度和待配乐视频的分镜速度，从各音乐片段中筛选出目标音乐片段。服务器104将目标音乐片段与待配乐视频进行合成处理，得到目标视频，并将配乐视频返回至终端102，以使终端102播放该配乐视频。
25.其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但并不局限于此。终端102上可以设有客户端，该客户端可以是视频剪辑客户端、视频配乐客户端等。本技术对终端102和服务器104的数量不作限制。终端102以及服务器104可以通过有线或无
线通信方式进行直接或间接地连接，本技术在此不做限制。
26.在一个实施例中，如图2所示，提供了一种视频配乐方法，以该方法应用于计算机设备为例进行说明，该计算机设备具体可以为图1中的终端或者服务器。视频配乐方法包括以下步骤：步骤s202，获取待配乐视频，并确定所述待配乐视频的分镜速度。
27.其中，待配乐视频指的是包括有视频画面而未包括有配乐的视频，该视频可以为用户通过视频剪辑应用剪辑得到的视频，也可以为用户通过视频采集应用采集得到的视频。由于待配乐视频具有一定的视频时长，因此，待配乐视频中可包括有至少一个分镜头。其中，分镜头指的是视频拍摄（或剪辑）的分解镜头。当需要拍摄或剪辑视频时，用户可将整个视频的内容按景别、摄法、对话、镜头长度等因素，分切成许多准备拍摄或剪辑的镜头。
28.具体地，当需要对视频进行配乐时，计算机设备可获取待配乐视频，并确定待配乐视频所包括的分镜头数量，根据待配乐视频的视频时长和分镜头数量，得到待配乐视频的分镜速度。
29.在一个实施例中，终端中运行有视频剪辑应用，用户可通过视频剪辑应用剪辑得到待配乐视频。进一步地，终端还可获取配乐库。其中，配乐库中包括有多首候选配乐，该候选配乐可以是用户根据需求在音乐库中选定的，也可以是计算机设备预先存储的配乐。本实施例在此不做限定。
30.在一个实施例中，当需要获取配乐库时，计算机设备可获取该视频剪辑应用所支持的音乐，并将该视频剪辑应用所支持的音乐作为配乐库中的候选配乐。容易理解地，视频剪辑应用所支持的音乐可能随着音乐版权的变更而发生变化，因此，配乐库中的候选配乐也可进行相应变更。
31.在一个实施例中，用户可获取待剪辑素材，并确定分镜头数量和每个分镜头各自对应的视频素材，之后，通过视频剪辑应用对待剪辑视频进行剪辑，得到待配乐视频。其中，待剪辑素材可以为视频或者图片等。当待剪辑素材为图片时，用户可确定需要进行剪辑的图片数量，以及每张图片的展示时长，从而用户可通过视频剪辑应用、并按照所确定的图片数量和展示时长，对多张图片进行剪辑，得到待配乐视频。其中，待配乐视频中所展示的图片总数量，即为该待配乐视频的分镜头数量。
32.在一个实施例中，终端中运行的视频剪辑应用中可包括有视频配乐控件，当用户剪辑得到待配乐视频，并期望对该待配乐视频进行配乐时，用户可触控该视频配乐控件，从而终端可响应于用户的触控操作，获取配乐库并确定待配乐视频的分镜速度。
33.步骤s204，确定多个候选配乐各自对应的长时音频速度；长时音频速度根据候选配乐的高阶点位和配乐时长确定，高阶点位基于候选配乐的基础点位确定。
34.其中，基础点位包括重音点位和节拍点位。重音点位又可称作oneset点位，其指的是音频中的节奏鼓点所在的时间点，例如，重音点位可以为一段音频中出现鼓点的时间点，又或者为一段音频中的出现重音敲击声的时间点。在一个实施例中，重音点位具体可为音频信号序列中的波峰点所在的时间点。其中，音频信号序列指的是在以时间为横坐标、以声音幅值为纵坐标的目标坐标系中的一条曲线。对于一段音频，可以预设的采样频率对该音频进行采样处理，得到多个离散的音频采样点，并将多个音频采样点置于目标坐标系中，得到由离散音频采样点组成的音频信号序列。
35.节拍（beat）是音频在时间上的基本单位，它指强拍和弱拍的组合规律，具体可为每一小节的音符总长度。当歌曲中具有按照一定时间顺序循环重复的强弱拍时，该强弱拍的组合就为节拍。比如，当一首歌曲为4/4拍子，就是歌曲以4分音符为一拍，每小节4拍子时，每个小节中的4个拍子在强拍和弱拍的组合规律均为强，弱，次强，弱。相应的每小节3拍子的歌曲在强拍和弱拍的组合规律即为强，弱，弱。节拍点位指的是音频信号序列中节拍所在的点位，其具体可以为节拍中的起始拍子所对应的音频采样点。例如，歌曲中的1分20秒至1分22秒为一个小节时，该1分20秒即为节拍点位。
36.长时音频速度指的是整首配乐所对应的音频速度，该速度可通过整首配乐所包括的高阶点位和该配乐的配乐时长确定得到，其反映了整首音乐中出现高阶点位的频率。其中，高阶点位可通过配乐中的基础点位确定得到。配乐时长指的是配乐的播放时长，比如，当一首歌的时长为3分钟时，该歌曲的配乐时长即为3分钟。
37.具体地，当获取得到配乐库时，对于配乐库中的每个候选配乐，计算机设备均确定各候选配乐各自包括的高阶点位，以及确定每个候选配乐的配乐时长，并根据高阶点位的高阶点位数量和候选配乐的配乐时长，得到相应候选配乐的长时音频速度。比如，计算机设备确定当前候选配乐所包括的高阶点位的高阶点位数量和当前候选配乐的配乐时长，并将当前候选配乐的高节点为数量除以当前候选配乐的配乐时长，得到当前候选配乐的长时音频速度。
38.在一个实施例中，高阶点位的确定和长时音频速度的确定，可在步骤s202之前完成，也即，在对待配乐视频进行配乐之前，即可预先计算得到配乐库中各候选配乐各自对应的高阶点位和长时音频速度，从而后续在对待配乐视频进行配乐时，只需直接获取相应候选配乐的高阶点位和长时音频速度即可。容易理解地，高阶点位的确定过程和长时音频速度的确定过程也可在步骤s202之后完成，本实施例在此不作限定。
39.在一个实施例中，音频信号序列是由离散的音频采样点组成的，音频信号序列具有相位和幅度两种特性，其分别决定了整条音轨的走向和幅值。当音频信号序列中的音频采样点的幅值达到一个区域最大值时，该音频采样点所对应的时间点即重音点位，它意味着在这个时间点上的音频表现为一个较重的节奏鼓点。
40.在一个实施例中，确定多个候选配乐各自对应的长时音频速度，包括：对于配乐库中的每个候选配乐，确定候选配乐中的基础点位，并根据基础点位，确定相应候选配乐中的高阶点位；根据候选配乐的配乐时长和高阶点位，确定相应候选配乐的长时音频速度。
41.具体地，由于对于轻快的配乐来说，其包含的基础点位的数量较多，相应的，基础点位的出现密度也会较高，从而导致基于基础点位确定得到的匹配配乐的准确性不高。因此，为了提升筛选出的匹配配乐的准确性，可通过高阶点位从配乐库中筛选出匹配配乐。
42.对于配乐库中的每个候选配乐，计算机设备均确定候选配乐中的基础点位，也即可确定每个候选配乐所包括的重音点位和节拍点位，并根据重音点位和节拍点位之间的时间间隔，对重音点位或者节拍点位进行筛选，得到筛选后的重音点位或者节拍点位。进一步地，计算机设备将筛选后的重音点位或者节拍点位作为高阶点位。计算机设备统计每个候选配乐所包括的高阶点位的高阶点位数量，并确定每个候选配乐的配乐时长，将高阶点位数量除以相应的配乐时长，得到候选配乐的长时音频速度。为了更好地理解本实施例，下述对确定配乐库中的其中一个候选配乐的长时音频速度的确定过程进行进一步阐述。对于配
乐库中的当前候选配乐，计算机设备确定当前候选配乐所包括的基础点位，并对基础点位进行筛选处理，得到筛选后的基础点位，将筛选后的基础点位作为高阶点位。进一步地，计算机设备确定当前候选配乐的配乐时长，并根据当前候选配乐所包括的高阶点位的高阶点位数量和当前候选配乐的配乐时长，得到当前候选配乐的长时音频速度。
43.在其中一个实施例中，计算机设备可根据配乐中重音点位和节拍点位的出现时间间隔，对重音点位或者节拍点位进行筛选。比如，对于一首配乐，确定在预设时间段内，是否出现重音点位和节拍点位，若出现重音点位和节拍点位，则将在预设时间段内出现的重音点位或者节拍点位作为高阶点位。若在预设时间段内仅出现重音点位或者仅出现节拍点位，计算机暂停将该预设时间段内出现的重音点位或者节拍点位作为高阶点位。
44.在其中一个实施例中，计算机设备可通过公式，确定候选配乐的长时音频速度。其中，为候选配乐所包括的高阶点位的高阶点位数量，t为候选配乐的配乐时长。
45.上述实施例中，通过从基础点位中筛选出更体现音乐节奏的高阶点位，使得基于高阶点位确定得到的匹配配乐能够更为准确。
46.在一个实施例中，基础点位包括节拍点位和重音点位，根据基础点位，确定相应候选配乐中的高阶点位，包括：若候选配乐中，在预设时间间隔内存在具有对应关系的重音点位和节拍点位，则将具有对应关系的重音点位和节拍点位中的一种，作为高阶点位。
47.具体地，由于候选配乐中可包括有多个重音点位和多个节拍点位，因此，对于多个重音点位中的每个重音点位，计算机设备均确定在预设时间间隔内，相应重音点位是否具有对应的节拍点位。若重音点位具有对应的节拍点位，则将该重音点位或者与该重音点位相对应的节拍点位中的一种，作为高阶点位。
48.为了更好地理解本实施例，下述以确定与一个重音点位相对应的节拍点位的确定过程为例，进行进一步阐述。对于多个重音点位中的当前重音点位，计算机设备以当前重音点位为预设时间间隔的中心，判断在该预设时间间隔内是否存在节拍点位，若存在节拍点位，则将该节拍定位作为与当前重音点位相对应的节拍点位。例如，在当前候选配乐中，若约定预设时间间隔为4秒、且1分20秒出现重音，也即在当前重音点位为1分20秒时，计算机设备可以1分20秒为时间间隔的中心，确定在1分18秒至1分20秒的时间段内是否存在节拍点位、以及确定1分20秒至1分22秒的时间段内是否存在节拍点位。若在1分18秒至1分20秒的时间段内存在节拍点位，或者在1分20秒至1分22秒的时间段内存在节拍点位，则将该节拍点位作为与当前重音点位相对应的节拍点位。进一步地，计算机设备将当前重音点位或者与当前重音点位相对应的节拍点位中的一种，作为高阶点位。如此，便能使得基于重音点位和节拍点位筛选出的高阶点位既能体现重音特征又能体现节拍特征。
49.在其中一个实施例中，若在预设时间间隔内同时出现重音点位和节拍点位时，计算机设备还可统计在该预设时间间隔内出现的重音点位数量和节拍点位数量。当出现多个重音点位或者多个节拍点位时，可仅将多个重音点位中的一个作为高阶点位，也可仅将多个节拍点位中的一个作为高阶点位。
50.在一个实施例中，对于当前候选配乐中的多个具有对应关系的重音节点和节拍节点，可统一将重音节点作为高阶点位，也可统一将节拍节点作为高阶节点，还可随机将重音节点和节拍节点中的一个作为高阶节点。本技术实施例在此不作限定。
51.上述实施例中，由于高阶点位是对预设时间段内的重音点位或者节拍点位筛选而得，因此，高阶点位既能体现重音特征又能体现节拍特征。相比于仅通过重音特征或者仅通过节拍特征筛选出的匹配配乐，由于本技术实施例是综合重音特征和节拍特征得到高阶点位的，使得基于高阶点位确定得到的匹配配乐能够更为准确。
52.步骤s206，根据分镜速度和长时音频速度，从候选配乐中筛选匹配配乐。
53.具体地，为了筛选出符合待配乐视频卡点点位需求的匹配配乐，可将各候选配乐的长时音频速度与分镜速度进行匹配处理，得到相匹配的匹配配乐。例如，当待配乐视频的分镜速度为4秒一个分镜头时，计算机设备可将长时音频速度为每个4秒出现一个高阶点位的候选配乐作为匹配配乐，或者将具有倍速分镜速度的长时音频速度的候选配乐作为匹配配乐，例如，将具有目标长时音频速度的候选配乐作为匹配配乐，其中，目标长时音频速度是分镜速度的二分之一倍，也即将每隔2秒出现一个高阶点位的候选配乐作为匹配配乐。如此，便能使得基于匹配配乐生成的目标视频在分镜头切换时，也即在场景切换时，均能出现一个重音或者均为一个强弱拍。
54.步骤s208，根据待配乐视频的视频时长和匹配配乐所对应的高阶点位，确定匹配配乐中各音乐片段各自对应的短时音频速度。
55.具体地，由于一首完整歌曲的时长可能长于待配乐视频的视频时长，因此，还需要从匹配配乐中截取出目标音乐片段，将目标音乐片段作为待配乐视频的配乐。比如，当匹配配乐的配乐时长为3分钟，待配乐视频的视频时长为30秒时，计算机设备可从匹配配乐中截取30秒的音乐片段，并将截取出的音乐片段与待配乐视频进行合成处理，得到包括有音频的目标视频。
56.当需要从匹配配乐中截取出目标音乐片段时，计算机设备可确定待配乐视频的视频时长，并根据视频时长对匹配配乐进行截取处理，使得截取出的音乐片段的片段时长与视频时长一致。进一步地，对于多个音乐片段中的每个音乐片段，计算机设备均确定当前音乐片段所包括的高阶点位的高阶点位数量，并将当前音乐片段所包括的高阶点位的高阶点位数量除以当前音乐片段的片段时长，得到当前音乐判断的短时音频速度。也即，将当前音乐片段的高阶点位数量除以待配乐视频的视频时长，得到当前音乐片段的短时音频速度。其中，短时音频速度指的是音乐片段所对应的音频速度，短时音频速度反映了音乐片段中出现高阶点位的频率。在其中一个实施例中，计算机设备可通过公式，得到音乐片段的短时音频速度。其中，为音乐片段所包括的高阶点位的高阶点位数量，为音乐片段的片段时长。
57.步骤s210，根据分镜速度和短时音频速度，确定匹配配乐中的目标音乐片段，并将目标音乐片段与所述待配乐视频进行合成处理，得到目标视频。
58.具体地，当获取得到匹配配乐中各音乐片段的短时音频速度时，计算机设备可将各音乐片段各自对应的短时音频速度均与待配乐视频的分镜速度进行匹配处理，得到匹配结果。进一步地，计算机设备根据匹配结果，确定多个音乐片段中具有最高匹配值的音乐片段，并将具有最高匹配值的音乐片段作为与待配乐视频相匹配的目标音乐片段，将目标配乐片段与待配乐视频进行合成处理，得到目标视频。在一个实施例中，计算机设备将目标配乐片段与待配乐视频进行对齐处理，以将目标配乐片段与待配乐视频进行合成，使得视频和音乐能够同时播放。
59.现在有技术中，可通过音频中重音点位或者节拍点位的总数量和音频的时长，来估计重音点位密度和节拍点位密度，再根据重音点位密度或节拍点位密度来估计音频的音频速度，根据音频速度从配乐库中选择合适的配乐。但是，对于轻快的配乐来说，该配乐所包括的重音点位或者节拍点位的数量会多于轻柔配乐，相应的，重音点位密度或节拍点位密度则会高于每秒1个点位，而过于密集的重音点位或者节拍点位实际上无法很好地表征音乐的节奏，从而导致通过高密度的节拍点位或重音点位从配乐库中挑选出配乐，实际上并不适合待配乐视频的分镜头的卡点要求。本技术实施例通过对配乐中的节拍点位和重音点位进行筛选处理，得到密度较低的高阶点位，使得基于高阶点位确定得到的配乐不仅能够更符合待配乐视频的分镜头的卡点要求，还能够更贴近待配乐视频所需的音乐节奏，从而大大提升了用户体验。
60.上述视频配乐方法中，通过获取待配乐视频，可确定待配乐视频的分镜速度。通过获取配乐库，可确定配乐库中每个候选配乐各自对应的长时音频速度和高阶点位，从而可基于长时音频速度和分镜速度，优先从配乐库中筛选出匹配配乐。通过确定匹配配乐，可基于高阶点位和待配乐视频的视频时长，确定匹配配乐中各音乐片段的短时音频速度，从而基于短时音频速度和分镜速度，从多个音乐片段中筛选出最为匹配的目标音乐片段，如此，便能使得基于最为匹配的目标音乐片段合成的目标视频能够更贴近音乐节奏，进而使得目标视频中的场景转场时间点与重音或节拍的出现时间点更为匹配，从而大大提升了观看体验。由于可通过计算机设备自动对待配乐视频进行配乐，相比于传统的人工进行配乐，本技术还可提升视频配乐的配乐效率。
61.在一个实施例中，确定待配乐视频的分镜速度，包括：确定待配乐视频的视频时长和待配乐视频所包括的分镜头数量；根据视频时长和分镜头数量，确定待配乐视频的分镜速度。
62.具体地，当需要确定待配乐视频的分镜速度时，计算机设备可确定该待配乐视频的视频时长以及确定该待配乐视频所包括的分镜头数量，并根据分镜头数量和视频时长，得到待配乐视频的分镜速度。例如，计算机设备可将分镜头数量除以视频时长，得到分镜速度。
63.在其中一个实施例中，当需要对待配乐视频进行配乐时，用户可输入待配乐视频所包括的分镜头数量，以使计算机设备基于用户输入的分镜头数量确定相应的分镜速度。
64.在其中一个实施例中，计算机可对根据待配乐视频中的场景变化情况，确定待配乐视频所包括的分镜头数量。例如，每当切换一个场景时，计算机设备对分镜头数量进行加1处理。计算机设备可通过图像识别算法识别待配乐视频中的每一个视频帧所包括的元素，当相邻两个视频帧所包括元素之间的差异大于预设差异阈值时，确定相邻两个视频帧分别为不同场景中的视频帧，从而计算机设备可确定后一视频帧相较于前一视频帧进行了场景切换，此时计算机设备对分镜头数量进行加1处理。例如，当相邻两个视频帧所包括元素均不相同时，计算机设备将当前的分镜头数量加1。其中，视频帧中的元素包括但不限于是树木、房屋、动物或者人类等。
65.上述实施例中，通过确定分镜头数量和视频时长，可基于分镜头数量和视频时长确定分镜速度，从而后续可基于分镜速度确定相匹配的目标音乐片段。
66.在一个实施例中，基础点位包括节拍点位和重音点位，对于配乐库中的每个候选
配乐，确定候选配乐中的基础点位，包括：确定与候选配乐相对应的特征能量曲线；对特征能量曲线进行峰值检测，得到特征能量曲线中的波峰，并根据波峰，确定候选配乐中的重音点位；确定特征能量曲线中的能量变化规律，并根据能量变化规律，确定候选配乐中的节拍点位。
67.具体地，由于候选配乐在时域上很难确定信号的特性，因此可将候选配乐从时域转换成频域上的能量分布，通过观察候选配乐的能量分布来确定基础点位。当获取得到候选配乐时，计算机设备可确定与候选配乐相对应的特征能量曲线，并对该特征能量曲线进行波峰波谷检测，以确定该特征能量曲线中的波峰和波谷。其中，特征能量曲线指反映了候选配乐中各音频帧所对应的能量的变化情况。容易理解的，在配乐中重音的声音幅值会大于轻音的声音幅值，且音频帧的声音幅值越大，其蕴含的能量也就越大，因此能够将特征能量曲线中波峰所对应的采样时间点，作为重音点位。进一步地，由于节拍反映了强拍和弱拍的组合规律，因此，计算机设备可确定特征能量曲线中能量变化规律，并根据能量变化规律，确定候选配乐中的节点点位。
68.上述实施例中，只需确定候选配乐的特征能量曲线，即可基于特征能量曲线准确确定候选配乐中的基础点位，从而提升了基于基础点位所确定的高阶点位的准确性。
69.在一个实施例中，确定与候选配乐相对应的特征能量曲线，包括：对候选配乐进行分帧处理，得到至少一个音频帧；分别对音频帧进行傅里叶变换，得到每个音频帧各自对应的频谱图；沿时域对多个频谱图进行拼接，得到候选配乐的配乐频谱图；对配乐频谱图进行差分计算，得到配乐频谱图的特征能量曲线。
70.具体地，计算机设备对候选配乐进行分帧处理，得到至少一个音频帧，并分别对每个音频帧进行傅里叶变换，得到每个音频帧各自对应的频谱图。由于频谱图只能描述某一时间点上各频率的声音分布情况，不能表达一段时间的情况内的声音分布情况，因此，还需沿时域对多个频谱图进行拼接，得到相应的配乐频谱图。进一步地，计算机设备对配乐频谱图进行差分计算，得到各频谱图各自对应的频谱通量，连接各频谱通量，得到特征能量曲线。在其中一个实施例中，参考图3，图3示出了一个实施例中配乐频谱图的示意图。
71.在其中一个实施例中，可采用差值计算公式，对配乐频谱图进行差分计算。其中，sf(k)为配乐频谱图中第k个频谱图的频谱值，s(k,i)为第k个频谱图中第i个频率对应的振幅，为第k
‑
1个频谱图中第i个频率对应的振幅。亦即，从当前频谱中的相应频段的振幅中减去先前频谱的每个频段的振幅，并将计算得到的差值相加得到频谱通量。
72.在其中一个实施例中，为了去除配乐频谱图中的冗余数据，计算机设备还可利用梅尔滤波器对配乐频谱图进行滤波处理，得到梅尔频谱，并对梅尔频谱进行差分处理，得到候选配乐的特征能量曲线。其中。梅尔滤波器可以对配乐频谱图中的冗余数据进行滤除，保证其中的有效数据，以得到对应的梅尔频谱。由于可根据人耳听觉模型对梅尔滤波器进行设置，使得设置后的梅尔滤波器只关注某些特定频率，允许特定频率的信号通过，进而使得基于梅尔滤波器过滤后的梅尔频谱更能够代表人耳的听觉特性。
73.在其中一个实施例中，参考图4，图4示出了一个实施例中重音点位的确定过程示意图。当获取得到候选配乐时，计算机设备可对候选配乐进行傅里叶变化和梅尔滤波处理，得到相应的配乐频谱图，并对配乐频谱图进行差分运算，得到相应的特征能量曲线。计算机
设备通过预设的峰值检测函数对特征能量曲线进行峰值检测，得到特征能量曲线中的峰值，并将与该峰值相对应的目标音频采样点作为候选配乐中的出现重音时采集得到的采样点，记录目标音频采样点的目标采样时间，将目标采样时间作为重音点位，从而在重音点位上的音频表现为一个较重的节奏鼓点。
74.本实施例中，通过对候选配乐进行傅里叶变换和差分计算，可以得到候选配乐的特征能量曲线，以便后续对特征能量曲线进行检测，得到相应的基础点位。
75.在一个实施例中，确定特征能量曲线中的能量变化规律，并根据能量变化规律，确定候选配乐中的节拍点位，包括：通过第一滑动窗口对特征能量曲线进行平滑处理，得到特征能量曲线中的能量变化规律；根据能量变化规律，得到候选配乐中的节拍点位。
76.具体地，由于节拍反映了按照一定时间顺序循环重复强弱组合，且强拍所对应的特征能量较大、弱拍所对应的特征能量较小，因此，可通过预设的第一滑动窗口识别特征能量曲线中能量的变化规律，基于能量的变化规律，确定候选配乐中的节拍点位。
77.在其中一个实施例中，计算机设备确定用以识别能量变化规律的第一滑动窗口，并通过第一滑动窗口在特征能量曲线中进行滑动，得到第一滑动窗口所框选的特征能量曲线片段。对于第一滑动窗口所框选的多个特征能量曲线片段，计算机设备识别每个特征能量曲线片段中的波峰和波谷，并确定每个特征能量曲线片段中波峰和波谷的变化规律。当相邻两个特征能量曲线片段中的波峰和波谷的变化规律一致时，即可确定该相邻两个特征能量曲线片段分别对应于一个节拍。比如，当相邻两个特征能量曲线片段中波峰和波谷的变化规律均为波峰、波谷、波峰和波谷，且第一个波峰的峰值大于第二波峰的峰值时，即可确定该相邻两个特征能量曲线片段分别对应于一个节拍。其中，第一滑动窗口的窗口大小可根据需求自由设置。
78.进一步地，当确定特征能量曲线片段对应于一个节拍时，计算机设备确定与该特征能量曲线片段相对应音频序列片段，并将音频序列片段中的首个音频采样点的采集时间，作为节拍点位。在其中一个实施例中，由于特征能量曲线是由各频谱图的频谱通量确定得到的，而每个频谱图均对应于一个音频帧，因此，当确定特征能量曲线片段对应于一个节拍时，可确定组成该特征能量曲线片段的目标频谱通量，并确定生成目标频谱通量的目标音频帧。计算机设备确定各目标音频帧的采样时间点，将各采样时间点中的最小采样时间点作为目标时间点，将目标时间点作为节拍点位。
79.在其中一个实施例中，图5示出了一个实施例中，图5示出了一个实施例中节拍点位的示意图。计算机设备可根据特征能量曲线中的能量变化规律，确定音频信号序列中的节拍点位。
80.在一个实施例中，上述视频配乐方法还包括重音点位和节拍点位的对应关系确定过程，重音点位和节拍点位的对应关系确定过程包括：对于候选配乐中的每个重音点位，以当前重音点位为中心设置时间窗口，并确定在时间窗口内是否存在节拍点位；其中，时间窗口对应预设时间间隔；若时间窗口内存在节拍点位，则将时间窗口内存在的节拍点位和当前重音点位，作为具有对应关系的重音点位和节拍点位。
81.具体地，当确定候选配乐中的重音点位时，对于多个重音点位中的每个重音点位，计算机设备均以当前重音点位为中心设置时间窗口，并判断在该时间窗口内是否存在节拍定位。其中，时间窗口的框选的时间长度与预设时间间隔所对应的时间长度一致。若在该时
间窗口内存在节拍点位时，可认为该节拍点位与当前重音定位之间的时间差小于预设时间阈值，此时计算机设备将该时间窗口内存在的节拍点位和当前重音点位，作为具有对应关系的重音点位和节拍点位。
82.在其中一个实施例中，当确定候选配乐中的节拍点位和重音点位时，还可根据节拍点位和重音点位的出现时间点，在与候选配乐相对应的音频信号序列中对节拍点位和重音点位进行标注。进一步地，对于多个重音节点中的每个重音节点，计算机设备均在音频信号序列中以当前重音节点为中心，设置时间窗口，并判断在该时间窗口内是否存在节拍点位。若存在节拍点位，则将该节拍点位和当前重音点位作为具有对应关系的一对点位。参考图6，当候选配乐所对应的音频信号序列如图6所示时，计算机设备可确定音频信号序列中的当前重音点位，并根据时间窗口，确定与该当前重音点位相对应的节拍点位。图6示出了一个实施例中重音点位和节拍点位的对应关系确定示意图。
83.上述实施例中，由于只需通过时间窗口，即可确定与当前重音点位相对应的节拍点位，从而提升了各点位之间的对应关系的确定效率，进而提升了视频配乐的配乐效率。由于具有对应关系的重音点位和节拍点位均位于同一个时间窗内，使得基于具有对应关系的重音点位和节拍点位筛选出的高阶点位既符合人耳听觉特性，又能准确的定位到节奏位置，进而使得基于高阶点位确定得到的匹配配乐能够更为准确。
84.在一个实施例中，根据分镜速度和长时音频速度，从候选配乐中筛选匹配配乐，包括：将配乐库中的每个候选配乐各自对应的长时音频速度均与分镜速度进行匹配处理，得到每个候选配乐各自对应的第一匹配值；根据第一匹配值，从配乐库中筛选出至少一个目标候选配乐；确定每个目标候选配乐各自对应的配乐标签，并根据配乐标签和第一匹配值，从至少一个目标候选配乐中筛选出匹配配乐。
85.具体地，当确定得到候选配乐的长时音频速度和待配乐视频的分镜速度时，计算机设备可将待配乐视频的分镜速度与配乐库中的每个候选配乐各自对应的长时音频速度进行匹配处理，得到每个候选配乐与待配乐视频之间的第一匹配值。进一步地，计算机设备可根据第一匹配值，从配乐库中筛选出目标候选配乐。比如，计算机设备可将第一匹配值高于预设匹配阈值的候选配乐作为目标候选配乐。又比如，计算机设备可按照第一匹配值从高至低对各候选配乐进行排序处理，得到候选配乐序列，并从候选配乐序列的头部开始，提取预设数量的候选配乐，将提取出的候选配乐作为目标候选配乐。
86.进一步地，计算机设备确定每个目标候选配乐各自对应的配乐标签，并综合配乐标签和第一匹配值，对相应目标候选配乐进行评分处理，得到每个目标候选配乐各自对应的配乐评分，并将具有最高配乐评分的目标候选配乐作为匹配配乐。其中，配乐标签指的是用以反映配乐特征的信息，配乐标签具体可包括配乐流行程度、配乐发布时间和配乐播放量等。
87.在其中一个实施例中，计算机设备可根据分镜速度与长时音频速度之间的差异，确定相应的第一匹配值。比如，当分镜速度为3秒一个分镜头，当前候选配乐的长时音频速度为每隔3秒出现一个高阶点位时，即可确定当前候选配乐与待配乐视频之间的第一匹配值为100%。
88.在其中一个实施例中，对于多首目标候选配乐中的每首目标候选配乐，计算机设备可确定当前目标候选配乐的配乐标签，并基于当前目标候选配乐的配乐标签对当前目标
候选配乐进行评分，得到当前目标候选配乐所对应的标签评分。比如，当目标候选配乐的流行度越高、发布时间越近、播放量越多时，可设置相应的标签评分也越高。进一步地，计算机设备对当前目标候选配乐的标签评分和第一匹配值进行加权求和处理，得到当前目标候选配乐的配乐评分。
89.上述实施例中，由于是综合第一匹配值和配乐标签，从而配乐库中筛选出匹配配乐的，可使得筛选出的匹配配乐的长时音频速度不仅与分镜速度相匹配，而且使得筛选出的匹配配乐具有高流行度，如此，大大提升了用户体验。
90.在一个实施例中，根据待配乐视频的视频时长和匹配配乐所对应的高阶点位，确定匹配配乐中各音乐片段各自对应的短时音频速度，包括：根据待配乐视频的视频时长对匹配配乐进行分段处理，得到至少一个音乐片段，并确定每个音乐片段各自对应的高阶点位数量；对于多个音乐片段中的每个音乐片段，根据音乐片段对应的高阶点位数量和音乐片段的片段时长，得到相应音乐片段的短时音频速度。
91.具体地，为了从匹配配乐中截取出合适的目标音乐片段，还可确定匹配配乐中各音乐片段各自对应的短时音频速度，从而后续可基于短时音频速度确定相应的目标音乐片段。当需要确定短时音频速度时，计算机设备可对匹配配乐进行分段处理，得到至少一个音乐片段，并统计各音乐片段各自包括的高阶点位的高阶点位数量。计算机设备确定各音乐片段各自对应的片段时长，并根据片段时长和高阶点位数量，得到相应音乐片段的短时音频速度。比如，当确定当前音乐片段所对应的高阶点位数量和当前音乐片段的片段时长时，计算机设备可将当前音乐片段所对应的高阶点位数量除以当前音乐片段的片段时长，得到当前音乐片段的短时音频速度。
92.本实施例中，只需确定高阶点位数量和片段时长，即可基于高阶点位数量和片段时长快速得到短时音频速度，从而提升了短时音频速度的确定效率。
93.在一个实施例中，根据待配乐视频的视频时长对匹配配乐进行分段处理，得到至少一个音乐片段，包括：获取第二滑动窗口，并以预设滑动步长，触发第二滑动窗在与匹配配乐对应的音频信号序列上滑动，得到第二滑动窗口所框选的至少一个音频信号片段；其中，第二滑动窗口所框选的音频信号片段的片段时长与待配乐视频的视频时长一致；将与音频信号片段相对应的音频，作为通过分段处理得到的音乐片段。
94.具体地，计算机设备可生成第二滑动窗口，为了保证最终得到的目标音乐片段的片段长度与待配乐视频的视频长度一致，可将第二滑动窗框口所框选的音频信号片段的片段时长设置为待配乐视频的视频时长。其中，音频信号片段的片段时长指的是音频信号片段在音频信号序列中所跨越的时长。
95.进一步地，计算机设备以预设滑动步长，将第二滑动窗口在匹配配乐的音频信号序列中进行滑动，得到多个框选的音频信号片段。其中，滑动步长可根据需求自由设置。比如，当滑动步长为20秒，待配乐视频的视频时长为30秒时，计算机设备将音频信号序列中第0秒采集到的音频采样点至第30秒采集的音频采样点，确定为第一个音频信号片段所包含的音频采样定，将音频信号序列中第20秒采集到的音频采样点至第50秒采集到的音频采样点，确定为第二个音频信号片段所包含的音频采样点，依次类推，直至得到最后的音频信号片段。进一步地，计算机设备综合音频信号片段中的各音频采样点自对应的音频，得到相应的音乐片段。
96.在其中一个实施例中，计算机设备可根据预设滑动步长和第二滑动窗口所框选的音频信号片段的片段时长，确定用以对匹配配乐进行分段的分段时间点，并基于分段时间点对匹配配乐进行分分段处理，得到至少一个音乐片段。
97.在其中一个实施例中，当第二滑动窗口在音频信号序列上进行滑动时，还可同步确认第二滑动窗口当前框选的音频信号片段中包含的高阶点位的高阶点位数量，从而基于高阶点位数量和待配乐视频的视频时长，得到第二滑动窗口当前框选的音频信号片段的短时音频速度，也即得到相应音乐片段的短时音频速度。
98.上述实施例中，通过设置第二滑动窗口，可基于所设置的第二滑动窗口快速确定相应的音乐片段，从而提升了音乐片段的确定效率。
99.在一个实施例中，根据分镜速度和短时音频速度，确定匹配配乐中的目标音乐片段，包括：将每个音乐片段各自对应的短时音频速度均与分镜速度进行匹配处理，得到每个音乐片段各自对应的第二匹配值；根据第二匹配值，从多个音乐片段中筛选出目标音乐片段。
100.具体地，当获取得到匹配配乐中各音乐片段的短时音频速度时，计算机设备可将分镜速度与各音乐片段的短时音频速度进行匹配处理，得到音乐片段与待配乐视频之间的第二匹配值。比如，计算机设备可根据短时音频速度与分镜速度之间的差异，确定相应的第二匹配值。进一步地，计算机设备将具有最高第二匹配值的音乐片段，作为目标音乐片段，并将目标音乐片段与待配乐视频进行合成处理，得到目标视频。
101.在其中一个实施例中，参考图7，图7示出了一个实施例中目标音乐片段的确定示意图。当确定待配乐视频的分镜速度和候选配乐的长时音频速度时，计算机设备可将分镜速度与长时音频速度进行匹配处理，得到分镜速度与各长时音频速度之间的第一匹配值，也即得到待配乐视频与各候选配乐之间的第一匹配值。计算机设备将具有最高第一匹配值的候选配乐作为匹配配乐，并确定匹配配乐中各音乐片段各自对应的短时音频速度。计算机设备将分镜速度与各短时音频速度进行匹配处理，得到分镜速度与各短时音频速度之间的第二匹配值，也即得到待配乐视频与音乐片段之间的第二匹配值，并将具有最高第二匹配值的音乐片段作为目标音乐片段。
102.本实施例中，通过确定第二匹配值，可基于第二匹配值从多个音乐片段中筛选出最为匹配的目标音乐片段，从而基于目标音乐片段所生成的匹配配乐能更符合节奏上的卡点需求。
103.本技术还提供一种应用场景，该应用场景应用上述的视频配乐方法。具体地，该视频配乐方法在该应用场景的应用如下：参考图8，当用户期望对剪辑完成的短视频进行配乐时，用户可将短视频输入至视频配乐应用中，通过视频配乐应用确定输入的短视频的分镜速度。其中，视频配乐应用可为原生应用，也可为母应用中的子应用，还可以为网页应用。本实施例在此不做限定。进一步地，视频配乐应用确定各候选配乐的节拍点位和重音点位，并根据所确定的节拍点位和重音点位，确定相应的高阶点位。视频配乐应用根据高阶点位和候选配乐的配乐时长，确定长时音频速度，根据长时音频速度和分镜速度之间的匹配度，确定匹配配乐。视频配乐应用确定匹配配乐中各音乐片段中的高阶点位，确定相应的短时音频速度，并根据短时音频速度与分镜速度之间的匹配度，确定目标音乐片段，将目标音乐片段与短视频进行合成，得到目
标视频。图8示出了一个实施例中视频配乐的整体架构示意图。
104.本技术还另外提供一种应用场景，该应用场景应用上述的视频配乐方法。具体地，该视频配乐方法在该应用场景的应用如下：参考图9，当用户通过视频配乐应用对剪辑完成的短视频进行配乐，得到目标视频之后，还可通过该应用播放目标视频。用户可通过文件控件导入待播放的目标视频，从而视频配乐应用可在播放视频画面的同时播放相应的配乐。图9示出了一个实施例中目标视频的播放示意图。
105.上述应用场景仅为示意性的说明，可以理解，本技术各实施例所提供的业务相关数据上报方法的应用不局限于上述场景。
106.在一个具体实施例中，参考图10，上述视频配乐方法包括：s1002，对候选配乐进行分帧处理，得到至少一个音频帧；分别对音频帧进行傅里叶变换，得到每个音频帧各自对应的频谱图。
107.s1004，沿时域对多个频谱图进行拼接，得到候选配乐的配乐频谱图；对配乐频谱图进行差分计算，得到配乐频谱图的特征能量曲线。
108.s1006，对特征能量曲线进行峰值检测，得到特征能量曲线中的波峰，并根据波峰，确定候选配乐中的重音点位；确定特征能量曲线中的能量变化规律，并根据能量变化规律，确定候选配乐中的节拍点位。
109.s1008，对于候选配乐中的每个重音点位，在与候选配乐相对应的音频信号序列中，以当前重点点位为中心设置时间窗口，并确定在时间窗口内是否存在节拍点位；时间窗口对应预设时间间隔。
110.s1010，若时间窗口内存在节拍点位，则将时间窗口内存在的节拍点位和当前重音点位，作为具有对应关系的重音点位和节拍点位，将在预设时间间隔内存在具有对应关系的重音点位和节拍点位中的一种，作为高阶点位。
111.s1012，根据候选配乐的配乐时长和高阶点位，确定相应候选配乐的长时音频速度。
112.s1014，获取待配乐视频，并确定待配乐视频的视频时长和待配乐视频所包括的分镜头数量，根据视频时长和分镜头数量，确定待配乐视频的分镜速度。
113.s1016，将配乐库中的每个候选配乐各自对应的长时音频速度均与分镜速度进行匹配处理，得到每个候选配乐各自对应的第一匹配值，并根据第一匹配值，从配乐库中筛选出至少一个目标候选配乐。
114.s1018，确定每个目标候选配乐各自对应的配乐标签，并根据配乐标签和第一匹配值，从至少一个目标候选配乐中筛选出匹配配乐。
115.s1020，根据待配乐视频的视频时长对匹配配乐进行分段处理，得到至少一个音乐片段，并确定每个音乐片段各自对应的高阶点位数量。
116.s1022，对于多个音乐片段中的每个音乐片段，根据音乐片段对应的高阶点位数量和音乐片段的片段时长，得到相应音乐片段的短时音频速度。
117.s1024，将每个音乐片段各自对应的短时音频速度均与分镜速度进行匹配处理，得到每个音乐片段各自对应的第二匹配值；根据第二匹配值，从多个音乐片段中筛选出目标音乐片段。
118.s1026，将目标音乐片段与待配乐视频进行合成处理，得到目标视频。
119.上述视频配乐方法中，通过获取待配乐视频，可确定待配乐视频的分镜速度。通过获取配乐库，可确定配乐库中每个候选配乐各自对应的长时音频速度和高阶点位，从而可基于长时音频速度和分镜速度，优先从配乐库中筛选出匹配配乐。通过确定匹配配乐，可基于高阶点位和待配乐视频的视频时长，确定匹配配乐中各音乐片段的短时音频速度，从而基于短时音频速度和分镜速度，从多个音乐片段中筛选出最为匹配的目标音乐片段，如此，便能使得基于最为匹配的目标音乐片段合成的目标视频能够更贴近音乐节奏，进而使得目标视频中的场景转场时间点与重音或节拍的出现时间点更为匹配，从而大大提升了观看体验。由于可通过计算机设备自动对待配乐视频进行配乐，相比于传统的人工进行配乐，本技术还可提升视频配乐的配乐效率。
120.应该理解的是，虽然图2和图10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
121.在一个实施例中，如图11所示，提供了一种视频配乐装置1100，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：匹配配乐确定模块1102、短时音速确定模块1104和合成模块1106，其中：匹配配乐确定模块1102，用于获取待配乐视频，并确定待配乐视频的分镜速度；确定多个候选配乐各自对应的长时音频速度；长时音频速度根据候选配乐的高阶点位和配乐时长确定，高阶点位基于候选配乐的基础点位确定；根据分镜速度和长时音频速度，从候选配乐中筛选匹配配乐。
122.短时音速确定模块1104，用于根据待配乐视频的视频时长和匹配配乐所对应的高阶点位，确定匹配配乐中各音乐片段各自对应的短时音频速度。
123.合成模块1106，用于根据分镜速度和短时音频速度，确定匹配配乐中的目标音乐片段，并将目标音乐片段与待配乐视频进行合成处理，得到目标视频。
124.在一个实施例中，参考图12，匹配配乐确定模块1102包括分镜速度确定模块1121，用于确定待配乐视频的视频时长和待配乐视频所包括的分镜头数量；根据视频时长和分镜头数量，确定待配乐视频的分镜速度。
125.在一个实施例中，匹配配乐确定模块1102包括长时音速确定模块1122，用于对于配乐库中的每个候选配乐，确定候选配乐中的基础点位，并根据基础点位，确定相应候选配乐中的高阶点位；根据候选配乐的配乐时长和高阶点位，确定相应候选配乐的长时音频速度。
126.在一个实施例中，视频配乐装置1100还包括高阶点位确定模1108，用于确定与候选配乐相对应的特征能量曲线；对特征能量曲线进行峰值检测，得到特征能量曲线中的波峰，并根据波峰，确定候选配乐中的重音点位；确定特征能量曲线中的能量变化规律，并根据能量变化规律，确定候选配乐中的节拍点位。
127.在一个实施例中，高阶点位确定模1108，还用于对候选配乐进行分帧处理，得到至少一个音频帧；分别对音频帧进行傅里叶变换，得到每个音频帧各自对应的频谱图；沿时域对多个频谱图进行拼接，得到候选配乐的配乐频谱图；对配乐频谱图进行差分计算，得到配乐频谱图的特征能量曲线。
128.在一个实施例中，高阶点位确定模块1108还用于通过第一滑动窗口对特征能量曲线进行平滑处理，得到特征能量曲线中的能量变化规律；根据能量变化规律，得到候选配乐中的节拍点位。
129.在一个实施例中，高阶点位确定模块1108还用于对于候选配乐中的每个重音点位，以当前重音点位为中心设置时间窗口，并确定在时间窗口内是否存在节拍点位；时间窗口对应预设时间间隔；若时间窗口内存在节拍点位，则将时间窗口内存在的节拍点位和当前重音点位，作为具有对应关系的重音点位和节拍点位。
130.在一个实施例中，基础点位包括节拍点位和重音点位，高阶点位确定模块1108还用于若候选配乐中，在预设时间间隔内存在具有对应关系的重音点位和节拍点位，则将具有对应关系的重音点位和节拍点位中的一种，作为高阶点位。
131.在一个实施例中，匹配配乐确定模块1102还用于将配乐库中的每个候选配乐各自对应的长时音频速度均与分镜速度进行匹配处理，得到每个候选配乐各自对应的第一匹配值；根据第一匹配值，从配乐库中筛选出至少一个目标候选配乐；确定每个目标候选配乐各自对应的配乐标签，并根据配乐标签和第一匹配值，从至少一个目标候选配乐中筛选出匹配配乐。
132.在一个实施例中，短时音速确定模块1104还用于根据待配乐视频的视频时长对匹配配乐进行分段处理，得到至少一个音乐片段，并确定每个音乐片段各自对应的高阶点位数量；对于多个音乐片段中的每个音乐片段，根据音乐片段对应的高阶点位数量和音乐片段的片段时长，得到相应音乐片段的短时音频速度。
133.在一个实施例中，短时音速确定模块1104还用于获取第二滑动窗口，并以预设滑动步长，触发第二滑动窗在与匹配配乐对应的音频信号序列上滑动，得到第二滑动窗口所框选的至少一个音频信号片段；其中，第二滑动窗口所框选的音频信号片段的片段时长与待配乐视频的视频时长一致；将与音频信号片段相对应的音频，作为通过分段处理得到的音乐片段。
134.在一个实施例中，合成模块1106还用于将每个音乐片段各自对应的短时音频速度均与分镜速度进行匹配处理，得到每个音乐片段各自对应的第二匹配值；根据第二匹配值，从多个音乐片段中筛选出目标音乐片段。
135.关于视频配乐装置的具体限定可以参见上文中对于视频配乐方法的限定，在此不再赘述。上述视频配乐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
136.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机
程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、运营商网络、nfc（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种视频配乐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
137.本领域技术人员可以理解，图13中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
138.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
139.在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
140.在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。
141.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（read
‑
only memory，rom）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（random access memory，ram）或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器（static random access memory，sram）或动态随机存取存储器（dynamic random access memory，dram）等。
142.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
143.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯鑫
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。