本发明涉及ai音乐生成领域,具体而言,涉及一种利用音频、文本和图像数据的自动鼓点生成方法。
背景技术:
1、在ai音乐生成中,绝大多数技术针对于基于人声等旋律生成伴奏、和声声部,节奏部分往往占据较小的关注度。编曲过程中,编曲师在编排架子鼓时,要结合其他乐器,选择不同的架子鼓音色,添加到不同的节拍上,来完成架子鼓的编排,以完成在整首乐曲中节奏声部的任务。
2、自动鼓点生成(或者说鼓点序列生成)可以通过多种方式实现,其中之一是使用对抗生成网络(gan)。gan由一个生成器和一个判别器组成,它们相互对抗来生成更好的数据。具体到自动鼓点生成,gan中的生成器、判别器的作用分别如下:
3、生成器:接收一个随机噪声并生成一个鼓点序列。随着训练的进行,它会尝试生成那些听起来像真实鼓点的序列。
4、判别器:尝试分辨一个鼓点序列是真实的(来自真实数据集)还是假的(由生成器生成)。它的目标是正确识别出真实和伪造的序列。
5、gan在训练过程中,生成器和判别器相互对抗。生成器尝试制造出欺骗判别器的鼓点序列,而判别器则尝试更准确地分辨它们。最终的目标是让生成器生成出几乎无法被判别器区分的真实鼓点序列。
6、当前的音频生成和处理领域中,主要采用了以下几种技术方法:
7、(1)传统数字信号处理(dsp)方法:这些方法基于波形、频谱和节奏的特征提取来分析音频。例如,用于鼓声检测的频谱分析方法通常基于特定频率范围内的能量峰值来检测击打声。
8、(2)基于规则的方法:一些方法使用预定义的规则或模式来生成鼓点,如预设的鼓点模式或midi规则。
9、(3)深度学习方法:这些方法可以从大量的数据中学习鼓点的模式和结构。
10、(4)风格迁移:利用深度学习的风格迁移方法,可以将某一种音乐风格中的鼓点应用到另一种音乐风格中。
11、以上几种技术方法均存在一定的缺点,总结如下:
12、传统dsp方法:虽然在某些特定应用中表现良好,但它们缺乏对音频中复杂模式和结构的适应性。此外,这些方法通常需要手动调整参数,这在实际应用中可能是低效的。
13、基于规则的方法:它们可能对某些特定风格的音乐有效,但缺乏普遍性和灵活性。
14、深度学习方法:这些方法已经在多种音频任务中取得了很好的效果,但它们需要大量的标注数据进行训练,且可能过于复杂,导致计算成本高。
15、风格迁移:这种方法主要侧重于艺术效果,而不是实际的音频生成任务。
16、另一方面,大多数音乐人遇到的困难基本都包含架子鼓的编排。因为音乐人往往对键盘、吉他等更加熟悉,对架子鼓则较为生疏。且架子鼓含有多种音色,如何安排各音色来达到目的效果需要大量时间来尝试,在编曲软件上操作也不是很方便。
17、然而,已有的自动鼓点生成方法主要集中在音频数据上,而往往忽略了与音频相关的其他多模态数据,例如图像和文本。虽然这些方法可以根据音频数据自动生成鼓点,但它们没有充分利用图像和文本为歌曲提供的额外的情感和风格信息。
18、综上,现有的自动鼓点生成方法存在以下问题和缺点:
19、(1)单一模态数据源:大多数现有技术仅基于音频数据生成鼓点,忽略了与音频相关的其他多模态数据,如文本、图像内容。因此,它们可能无法捕捉到创作人想要表达的情感、节奏、动态、主题等,从而影响鼓点生成的准确性和创意性。
20、(2)普遍性与适应性问题:基于规则的方法或传统的数字信号处理方法在某些特定场景或音乐风格中可能有效,但对于不同风格的音乐或不同的场景,它们可能失去效果。
21、(3)风格限制:现有的风格迁移方法主要侧重于将特定的音乐风格迁移到其他音乐上,但并未真正解决如何结合音乐的内容和风格生成合适的鼓点。
22、(4)缺乏视觉元素:音乐的风格与图像有很强的关联。音乐风格能用图像更好的表达。当前的方法往往没有这一重要信息源,导致生成的鼓点可能与创作者想要表达的内容不一致。音乐的风格不能完全通过文字来呈现,使得生成的鼓点与创作者想表达的内容不一致。故艺术思想及其意境需要更多的方式来诠释。
技术实现思路
1、本发明提供一种利用音频、文本和图像数据的自动鼓点生成方法,用以解决上述现有技术存在的技术问题。
2、为达到上述目的,本发明提供了一种利用音频、文本和图像数据的自动鼓点生成方法,用于利用一完整音频数据、一文本数据和一图像数据自动生成一鼓点序列,其包括:
3、s1:从完整音频数据中截取一音频数据和一判别数据,其中音频数据为完整音频数据中没有鼓点的部分,判别数据为完整音频数据中有鼓点的部分;
4、s2:对音频数据、文本数据和图像数据进行预处理,分别获取音频向量、文本向量和图像向量;
5、s3:分别构建音频子网络、文本子网络和图像子网络并将音频子网络、文本子网络和图像子网络的输出层链接至一输出接口;
6、s4:使用音频子网络对音频向量进行处理,提取音频数据的时频特征,
7、使用文本子网络对文本向量进行处理,提取文本数据的语义信息,
8、使用图像子网络对图像向量进行处理,提取图像数据的空间特征,
9、由输出接口输出一统一特征向量;
10、s5:构建一生成器,生成器用于根据音频数据、文本数据、图像数据生成预测鼓点序列;
11、s6:构建一判别器,判别器用于判别输入的音频为真或假;
12、s7:按照以下步骤对判别器和生成器进行训练:
13、s71:固定生成器,更新判别器,使得音频数据被识别为真,由生成器生成的预测鼓点序列被识别为假,
14、s72:固定判别器,更新生成器,使得生成的预测鼓点序列被判别器识别为真,
15、s73:s71、s72交替进行,直至生成器和判别器组成的对抗网络模型收敛;
16、s8:将统一特征向量作为生成器的输入,以及将判别数据作为判别器的输入,生成鼓点序列并输出。
17、在本发明的一实施例中,步骤s2包括如下子步骤:
18、从音频数据中提取音频特征并将其存储为音频向量;
19、对图像数据进行预处理以获取适于对抗网络模型输入的图像向量,对图像数据进行预处理包括缩放、归一化和通过预训练深度学习模型获取其嵌入向量;
20、对文本数据进行处理以获取适于对抗网络模型输入的文本向量,对文本数据进行处理包括分词、将每个词转化为固定长度的向量,并通过预训练模型进行向量化。
21、在本发明的一实施例中,音频向量为梅尔频率倒谱系数表示。
22、在本发明的一实施例中,使用图像处理库对图像数据进行预处理,并采用已经去掉顶部全连接层的预训练深度学习模型获取图像数据的嵌入向量。
23、在本发明的一实施例中,采用预训练的词嵌入模型对文本数据进行向量化。
24、在本发明的一实施例中,音频子网络采用深度学习结构,音频子网络使用transformer编码器、多个卷积层或其组合,并至少包含一个全连接层;
25、文本子网络采用深度学习结构,文本子网络使用transformer编码器、lstm或其组合,并至少包含一个全连接层;
26、图像子网络采用深度学习结构,图像子网络使用transformer编码器、多个卷积层或其组合,并至少包含一个全连接层。
27、在本发明的一实施例中,生成器由多个层次组成,包括:
28、一维卷积结构层,用于初步特征提取;
29、包含残差块的层,每个残差块进一步提取特征并保持先前层的信息,每个残差块均包含卷积层和glu控制单元;
30、上采样结构层,通过子层进行特征上采样并增加数据分辨率;以及
31、二维卷积结构层,进一步处理和输出特征。
32、在本发明的一实施例中,判别器由多个层次组成,包括:
33、一维或二维卷积结构层,用于特征的初步提取,结合非线性激活函数进行特征转换;
34、下采样结构层,包含多个子块用于逐步降低特征图的空间维度,增强其语义信息;
35、gsp池化层或相似结构,用于将前层输出的特征图压缩到更低维度;以及
36、全连接层或密集层,用于将池化后的特征进行进一步转换;
37、判别器输出经过embedding处理,用于与其他信息的结合或比对;
38、其中,判别器采用projection结构设计。
39、在本发明的一实施例中,步骤s72中,对生成器进行训练时,采取策略使得生成的预测鼓点序列与音频数据之间的重建误差最小化。
40、在本发明的一实施例中,生成器和判别器组成的对抗网络模型采用adam优化器,并预先设置adam优化器的学习率、批次大小和周期数。
41、本发明通过综合音频、文本和图像数据的多模态信息,实现了一种自动鼓点生成方法。相较于传统的只依赖单一音频数据的鼓点生成技术,本发明提供了一个更为全面、深入和丰富的数据处理框架。
42、与现有技术相比的有益效果:
43、(1)更高的鼓点生成精确度:通过利用三种模态的信息,该方法能够更准确地捕捉歌曲的情感、风格和氛围,从而生成更符合歌曲特性的鼓点。
44、(2)强大的情感对齐:通过音频、歌词文本和图像的融合,生成的鼓点更能与整首歌曲的情感和氛围相匹配,从而增强了音乐的表现力。
45、(3)广泛的适应性:无论是什么风格的音乐、歌词或图像,该方法都具有很强的泛化能力,能够适应各种类型的数据,并生成相应风格的鼓点。
46、(4)增强的用户体验:由于生成的鼓点更为自然、与歌曲内容和情感高度匹配,用户的听觉体验得到了显著提升。
47、(5)提高创新性与应用价值:通过结合三种不同模态的数据,本发明在自动鼓点生成领域展现出显著的创新性,且其应用价值大大超过了传统方法。
48、综上所述,本发明利用音频、文本和图像数据的自动鼓点生成方法不仅为该领域带来了新的研究方向,还为实际应用和音乐产业带来了巨大的价值。