背景音乐生成器的训练方法、设备和计算机程序产品与流程

文档序号：32309505发布日期：2022-11-23 11:06阅读：124来源：国知局

1.本技术涉及音频处理技术领域，特别是涉及一种背景音乐生成器的训练方法、计算机设备和计算机程序产品。

背景技术：

2.长音频是指包含说书、相声、播音节目等形式的音频，部分长音频以“说”为主，“唱”为辅，是大众消遣时光的重要突进。虽然部分长音频以“说”为主，但也不可缺少背景音乐作为辅助，为长音频配上合适的背景音乐可以引导用户理解音频内容，感受说者所表述的意境，也给用户更大的想象空间。因此，长音频配乐一直以来都是一个重要的创作环节。
3.而目前的长音频配乐需要人工参与，人工选择背景音乐给长音频配乐，较为耗时，长音频配乐效率较低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种背景音乐生成器的训练方法、计算机设备和计算机程序产品。
5.本技术提供一种背景音乐生成器的训练方法，所述方法包括：
6.获取至少一个背景音乐集合，其中每个所述背景音乐集合具有各自对应的长音频类别；
7.根据所述背景音乐集合对应的长音频类别，为所述背景音乐集合中的每首背景音乐适配至少一个长音频；
8.将所述至少一个背景音乐集合中的每首背景音乐以及所述背景音乐适配的长音频作为训练样本；利用所述训练样本训练对抗生成网络，并将训练完成的对抗生成网络中的生成器作为背景音乐生成器。
9.本技术提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行如下步骤：
10.获取至少一个背景音乐集合，其中每个所述背景音乐集合具有各自对应的长音频类别；
11.根据所述背景音乐集合对应的长音频类别，为所述背景音乐集合中的每首背景音乐适配至少一个长音频；
12.将所述至少一个背景音乐集合中的每首背景音乐以及所述背景音乐适配的长音频作为训练样本；利用所述训练样本训练对抗生成网络，并将训练完成的对抗生成网络中的生成器作为背景音乐生成器。
13.本技术提供一种计算机程序产品，其上存储有计算机程序，所述计算机程序被处理器执行如下步骤：
14.获取至少一个背景音乐集合，其中每个所述背景音乐集合具有各自对应的长音频类别；
15.根据所述背景音乐集合对应的长音频类别，为所述背景音乐集合中的每首背景音乐适配至少一个长音频；
16.将所述至少一个背景音乐集合中的每首背景音乐以及所述背景音乐适配的长音频作为训练样本；利用所述训练样本训练对抗生成网络，并将训练完成的对抗生成网络中的生成器作为背景音乐生成器。
17.上述背景音乐生成器的训练方法、计算机设备和计算机程序产品中，将训练完成的对抗生成网络中的生成器作为背景音乐生成器，利用该背景音乐生成器对待配乐长音频进行配乐，无需人工参与，自动为待配乐的长音频生成合适的背景音乐，实现长音频的自动配乐，提高长音频配乐效率；并且，背景音乐生成器的训练是基于对抗生成网络的，因此，可以使得背景音乐生成器生成的背景音乐更逼真，更接近真实的背景音乐；另外，根据背景音乐集合对应的长音频类别，为所述背景音乐集合中的每首背景音乐适配至少一个长音频，将所述至少一个背景音乐集合中的每首背景音乐以及所述背景音乐适配的长音频作为训练样本，通过这种训练样本，训练对抗生成网络，使得背景音乐生成器可以在兼顾到待配乐长音频的类别的基础上，为待配乐长音频生成合适的背景音乐。
附图说明
18.图1为一个实施例中背景音乐生成器的训练方法的流程示意图；
19.图2为一个实施例中训练集的构成示意图；
20.图3为一个实施例中对抗生成网络的结构图；
21.图4为一个实施例中迭代处理音频频谱的示意图；
22.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
23.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
24.在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本技术所描述的实施例可以与其它实施例相结合。
25.本技术提供了一种背景音乐生成器的训练方法，如图1所示，该方法可以由计算机设备执行，具体包括如下步骤：
26.步骤s101，获取至少一个背景音乐集合。
27.其中，每个背景音乐集合具有各自对应的长音频类别。长音频类别可以是按情感分类得到的，在此情况下，长音频类别可以包括伤感、治愈、电台、浪漫、激动、欢快等。另外，长音频类别还可以是按音乐流派分类得到的，在此情况下，长音频类别可以包括：摇滚、重金属、民歌、爵士等。本实施例中，在得到多个背景音乐后，按照长音频类别对这些背景音乐进行划分，得到至少一个背景音乐集合，针对所形成的背景音乐集合，同一背景音乐集合中的背景音乐对应的长音频类别相同。其中，每个背景音乐集合中的背景音乐数量可以相等。
28.步骤s102，根据背景音乐集合对应的长音频类别，为背景音乐集合中的每首背景音乐适配至少一个长音频。
29.在划分得到至少一个背景音乐集合后，给各背景音乐集合中的背景音乐确定对应适配的k个长音频，k为大于等于1的整数。例如，在某一背景音乐集合包括背景音乐a和b的情况下，若该背景音乐集合对应的长音频类别为伤感，则在伤感类别的长音频中，确定与背景音乐a对应适配的至少一个长音频，在伤感类别的长音频中，确定与背景音乐b对应适配的至少一个长音频，按照该方式，可以给各背景音乐集合中的每首背景音乐确定对应视频的k个长音频。
30.一些场景中，如果同个长音频被适配给对应不同长音频类别的背景音乐，例如，同个长音频被适配给伤感类别的背景音乐a和欢快类别的背景音乐m，那么，对抗生成网络的生成器难以学习到：在兼顾长音频类别的基础上，为长音频生成合适的背景音乐，学习难度增大。
31.基于此，为了降低生成器的学习难度，本技术的一些实施例中，同个长音频仅被适配给对应于同一长音频类别的背景音乐。
32.步骤s103，将至少一个背景音乐集合中的每首背景音乐以及背景音乐适配的长音频作为训练样本；利用训练样本训练对抗生成网络，并将训练完成的对抗生成网络中的生成器作为背景音乐生成器。
33.其中，对抗生成网络可以包括生成器和判别器。本实施例中，利用对抗生成网络的生成器和判别器之间的相互竞争关系，让生成器生成的背景音乐更逼真，更接近真实的背景音乐。
34.具体地，在给背景音乐集合的每首背景音乐适配至少一个长音频后，针对每首背景音乐及其适配的长音频，可以将该背景音乐作为对抗生成网络的判别器的判别标准，将对应适配的长音频作为输入至对抗生成网络的生成器的数据，根据作为判别标准的背景音乐，以及作为输入生成器数据的长音频，得到至少一个训练样本。
35.利用至少一个训练样本训练对抗生成网络过程中，将该训练样本中的长音频输入生成器，以使生成器根据输入的长音频生成背景音乐；将生成器生成的背景音乐输入判别器，以使判别器区分输入的背景音乐是生成器生成的背景音乐，还是训练样本中的背景音乐。
36.以生成器生成的背景音乐不能被判别器区分为训练目标，对对抗生成网络进行训练。其中，若输入至判别器的背景音乐是生成器生成的，但判别器认为是训练样本的，此时，认为生成器生成的背景音乐不能被判别器区分。在训练完成后，将训练完成的对抗生成网络中的生成器作为背景音乐生成器，接着，可以将待配乐的长音频输入背景音乐生成器，背景音乐生成器基于该长音频生成背景音乐，利用该背景音乐为该长音频配乐。
37.上述背景音乐生成器的训练方法中，将训练完成的对抗生成网络中的生成器作为背景音乐生成器，利用该背景音乐生成器对待配乐长音频进行配乐，无需人工参与，自动为待配乐的长音频生成合适的背景音乐，实现长音频的自动配乐，提高长音频配乐效率；并且，背景音乐生成器的训练是基于对抗生成网络的，因此，可以使得背景音乐生成器生成的背景音乐更逼真，更接近真实的背景音乐；另外，根据背景音乐集合对应的长音频类别，为背景音乐集合中的每首背景音乐适配至少一个长音频，将至少一个背景音乐集合中的每首
背景音乐以及背景音乐适配的长音频作为训练样本，通过这种训练样本，训练对抗生成网络，使得背景音乐生成器可以在兼顾到待配乐长音频的类别的基础上，为待配乐长音频生成合适的背景音乐。
38.为了形成与长音频类别对应的背景音乐集合，需要按照长音频类别对每首背景音乐进行划分，将对应同一长音频类别的背景音乐划分到一起，进而形成对应该长音频类别的背景音乐集合。
39.在确定每首背景音乐对应哪个长音频类别的时候，可以比较同首背景音乐分别与属于不同长音频类别的长音频间的匹配度，将匹配度最高的长音频所属的长音频类别作为该首背景音乐对应的长音频类别；需要说明的是，用来确定背景音乐对应哪个长音频类别的长音频，与步骤s102所说的长音频可以相同，也可以不同。
40.因此，计算机设备在获取至少一个背景音乐集合时，具体可以执行如下不后：获取多个背景音乐以及多个长音频；其中不同的长音频属于不同的长音频类别；在多个长音频中，为每首背景音乐确定最匹配的长音频；将最匹配的长音频所属同一长音频类别的背景音乐归为同一集合，得到至少一个背景音乐集合。
41.进一步地，为了给每首背景音乐确定最匹配的长音频，可以利用特征向量间的距离进行判断，根据特征向量间的距离大小，给背景音乐确定最匹配的长音频，进而为背景音乐确定较为准确的长音频类别，提高分类准确性。
42.具体地，计算机设备可以提取各长音频的特征向量，以及每首背景音乐的特征向量；获取每首背景音乐的特征向量分别与各长音频的特征向量之间的距离，并将距离最小的长音频作为与背景音乐最匹配的长音频。
43.本实施例中，长音频的特征向量和背景音乐的特征向量，可以通过embedding层进行提取，在此情况下，提取出的特征向量可以称为embedding向量。示例性地，可以获取多个长音频，这几个长音频可以分别对应伤感类别、治愈类别、电台类别、浪漫类别、激动类别和欢快类别，利用embedding层提取各长音频的embedding向量；接着，利用embedding层提取背景音乐的embedding向量，然后计算该背景音乐的embedding向量分别与各长音频的embedding向量之间的距离；在得到的多个距离中，确定距离最小对应的长音频，将该长音频作为与背景音乐最匹配的长音频。
44.如步骤s102所述，计算机设备可为每首背景音乐适配至少一个长音频；为了给每首背景音乐确定较为适配的长音频，可以利用特征向量间的距离进行判断，根据特征向量间的距离大小，给背景音乐确定较适配的长音频，提高背景音乐和长音频间的适配度。
45.具体地，计算机设备可以获取背景音乐集合中每首背景音乐的特征向量，以及背景音乐集合对应的长音频类别下的多个长音频各自的特征向量；获取每首背景音乐的特征向量分别与各长音频的特征向量之间的距离，将距离小于阈值对应的长音频作为与背景音乐适配的长音频。
46.其中，长音频的特征向量和背景音乐的特征向量，可以通过embedding层进行提取，在此情况下，提取出的特征向量可以称为embedding向量。
47.以为背景音乐a适配长音频为例介绍：
48.参照图2，背景音乐a所属的背景音乐集合对应的长音频类别为伤感类别，由此，计算机设备可以获取伤感类别下的多个长音频，获取背景音乐a的embedding向量以及这些长
音频各自的embedding向量，计算背景音乐a的embedding向量分别与每个长音频的embedding向量之间的距离，将确定距离小于阈值的长音频，作为背景音乐a适配的长音频，其中，距离小于阈值的长音频的数量可以是一个，也可以是多个，相应地，与背景音乐a适配的长音频的数量可以是一个，也可以是多个。
49.若与每首背景音乐适配的长音频数量为k个，此时，每个训练样本包括：一首背景音乐及其适配的k个长音频；如果对抗生成网络仅包括一个生成器，那么需要将训练样本的k个长音频依次输入生成器中，生成器依次生成对应的背景音乐，无法并行生成k个长音频对应的背景音乐，训练效率较低。
50.基于此，本技术提供的一些实施例中，对抗生成网络可以包括k个生成器，这些生成器参数共享，训练样本的k个长音频可以输入不同的生成器，进而并行生成k个长音频对应的背景音乐，提高训练效率。
51.在对抗生成网络包括k个生成器的情况下，其结构图如图3所示。参照图3，g表示生成器，该对抗生成网络包括k个生成器，各生成器用下标区分，例如，g
k-1
表示第k-1个生成器。z为训练样本中的长音频，pz为长音频的特征向量；g
k-1
(z；θ
gk-1
)中的θ
gk-1
表示第k-1个生成器的参数，当k个生成器共享参数时，g
k-1
(z；θ
gk-1
)中的θ
gk-1
与gk(z；θ
gk
)中的θ
gk
相同；x表示训练样本的背景音乐，pd为背景音乐的特征向量。
52.再次参照图3，d表示判别器。k个生成器生成的背景音乐的特征向量、以及训练样本的背景音乐的特征向量，共同输入判别器；若将训练样本的背景音乐称为“真”背景音乐，生成器生成的背景音乐称为“假”背景音乐，那么判别器得到“真”背景音乐的特征向量、各“假”背景音乐的特征向量后，会计算“真”背景音乐的特征向量分别与各“假”背景音乐的特征向量之间的距离，得到d1,d2,
…
,dk；其中，“真”背景音乐的特征向量与“假”背景音乐的特征向量之间的距离可以表征：“真”背景音乐与“假”背景音乐之间的相似度。另外，判别器还会计算“真”背景音乐的特征向量与其自身的距离，得到d
k+1
。
53.基于此，一些实施例中，以生成器生成的背景音乐不能被判别器区分为训练目标，对对抗生成网络进行训练，具体包括：获得输入判别器的背景音乐与训练样本包括的背景音乐之间的相似度，根据相似度确定损失函数的值；以最小化损失函数的值为目标调整背景音乐生成器的参数，以训练对抗生成网络。
54.对抗生成网络的训练目标是：生成器生成的背景音乐不能被判别器区分出来，具体表现为：“假”背景音乐的特征向量与“真”背景音乐的特征向量之间的距离尽可能靠近，判别器生成的d1,d2,
…
,dk尽可能地与d
k+1
一致。
55.训练过程具体为：在各生成器生成“假”的背景音乐后，先固定各生成器，然后训练判别器，对应的损失函数如下：
[0056][0057]
其中，第一项越大，表示判别器越能准确地将真实样本识别为真实样本的数学期望，本实施例中，只有一个真实的背景音乐，第一项为1；第二项越大，表示判别器能区分虚假样本和真实样本的数学期望。其中d(x)可以表示为判别器计算不同embedding向量之间的距离，也即图3所示的d1,d2,
…
,dk，d
k+1
，从损失函数来看，d1,d2,
…
，dk和d
k+1
越小，d(g(z))越小。
[0058]
在每个epoch(轮)中，判别器训练完成后，可以固定判别器，然后训练生成器，对应
的损失函数如下：
[0059][0060]
由于希望生成器更强，所以可以设定d(g(z))较大，利用较大的d(g(z))，更大幅度地调整生成器的参数，使得生成器生成的“假”背景音乐更加逼近“真”背景音乐。同样地，上述损失函数中，第一项越大，表示判别器越能准确地将真实样本识别为真实样本的数学期望，本实施例中，只有一个真实的背景音乐，第一项为1；第二项越大，表示判别器能区分虚假样本和真实样本的数学期望。其中d(x)可以表示为判别器计算不同embedding向量之间的距离，也即图3所示的d1,d2,
…
,dk，d
k+1
，从损失函数来看，d1,d2,
…
，dk和d
k+1
越小，d(g(z))越小。
[0061]
当损失函数的值收敛时，可以将此时的生成器作为背景音乐生成器，保存相应的参数。
[0062]
在一个实施例中，计算机设备得到背景音乐生成器之后，可以执行如下步骤：将待配乐长音频的频谱输入背景音乐生成器，得到背景音乐生成器输出的音频频谱；将音频频谱转换成背景音乐，并利用背景音乐对待配乐长音频进行配乐。
[0063]
进一步地，将音频频谱转换成背景音乐，可以包括：对音频频谱进行傅立叶逆变换，得到初始时域波形；若初始时域波形不稳定，以初始时域波形为首次迭代的输入进行多次迭代，且每次迭代输出时域波形；其中，每次迭代提取该次迭代输入的时域波形的相位进行傅里叶变换得到频谱，结合频谱和该次迭代输入的时域波形的相位进行傅里叶逆变换，得到作为该次迭代输出的时域波形；若迭代输出的时域波形不稳定，则将时域波形为下一次迭代的输入；若迭代输出的时域波形稳定则停止迭代，并基于稳定的时域波形得到背景音乐。
[0064]
本实施例中，在预测阶段将待配乐的长音频的频谱输入背景音乐生成器，在背景音乐生成器的输出端得到相应的音频频谱。
[0065]
为了将音频频谱转换成背景音乐，可以采用griffin-lim算法或其他算法进行傅立叶变换。如图4所示，计算机设备可以对音频频谱进行傅立叶逆变换，得到的时域波形称为初始时域波形yw(mt,ω)|，提取初始时域波形的相位θi，再傅立叶变换得到频谱结合该频谱和初始时域波形的相位θi，进行傅立叶逆变换，得到时域波形x
i+1
(n)，如果该时域波形x
i+1
(n)稳定，则停止迭代，并基于稳定的时域波形得到背景音乐；如果该时域波形x
i+1
(n)不稳定，则将该时域波形x
i+1
(n)作为下一次迭代的输入，对该时域波形x
i+1
(n)的相位θ
i+1
进行傅里叶变换，得到频谱结合该频谱和该时域波形x
i+1
(n)的相位θ
i+1
，进行傅立叶逆变换，得到再下一个的时域波形，如此迭代，直到得到的时域波形稳定。
[0066]
上述实施例中，通过傅立叶变换，迭代处理背景音乐生成器生成的音频频谱，可以得到更加稳定的背景音乐。
[0067]
应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而
且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0068]
在一个实施例中，提供了一种计算机设备，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储长音频配乐数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备还包括输入输出接口，输入输出接口是处理器与外部设备之间交换信息的连接电路，它们通过总线与处理器相连，简称i/o接口。该计算机程序被处理器执行时以实现一种背景音乐生成器的训练方法。
[0069]
本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0070]
在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述各个方法实施例中的步骤。
[0071]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
[0072]
在一个实施例中，提供了一种计算机程序产品，其上存储有计算机程序，所述计算机程序被处理器执行上述各个方法实施例中的步骤。
[0073]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
[0074]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0075]
以上的实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王武城赵伟峰
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人

上一篇：一种食用农产品加工设备的制作方法
上一篇：一种基于仿生海豹胡须的风洞喷口结构