本发明涉及使用涉及神经网络系统的生成模型的音频信号处理。信号处理可以例如涉及信号增强或源分离。
背景技术:
1、一段时间以来,涉及经训练的神经网络系统的生成模型已在各种音频信号处理应用中使用。一般的方法是使用真值数据训练神经网络系统,此后可以使用经训练的模型以推断经处理的信号。已对包括解码的特定应用开发专门设计的神经网络系统。
2、在一些信号处理应用中,尽管可设想成功地训练神经网络以执行预期的信号处理,但是这样的神经网络系统会变得不切实际地复杂。这需要大量的训练数据,并且在推断期间也需要巨大的计算资源。
3、已进行一些尝试以缓解这个问题。在例如2020年dhariwal等人的jukebox: agenerative model for music中公开的一个方法中,输入信号在被输入到生成模型之前首先被变换到向量量化的表示。推断的信号然后被合成回到完整表示。作为这个方法的结果,生成模型在向量量化的空间中操作,从而显著降低计算复杂度。
技术实现思路
1、以上讨论的方法的缺点是向量量化(或任何其它复杂度降低)产生复杂度降低与可达到的质量之间的权衡。这个权衡难以优化。另一个缺点是直接应用到要被处理的信号的向量量化会去除与解决处理问题相关的一些信息,从而限制可实现的性能。
2、本发明寻求克服这些问题并且提供利用神经网络进行音频信号处理的改进的方法。
3、根据本发明的第一方面,这个目标由用于处理输入的音频信号的方法实现,该方法包括利用输入的音频信号的表示调节第一神经网络系统以预测经处理的输入的音频信号的位速率降低的表示,第一神经网络系统被训练以生成给定的音频信号的经处理版本的位速率降低的表示,其中位速率降低的表示具有与预定义的音频编码过程相关联的格式;利用位速率降低的表示调节第二神经网络系统以预测经处理的音频信号的增强表示,第二神经网络系统被训练以生成给定的位速率降低的音频表示的增强表示,其中位速率降低的表示具有与预定义的音频编码过程相关联的格式;以及将经处理的音频信号的增强表示变换成输出的音频信号。
4、处理因此在两个级中执行,具有位速率降低的中间处理结果。这个中间处理结果被称为潜在信号。
5、注意中间处理结果(潜在信号)具有与预定义的音频编码过程相关联的格式是重要的。这意味着对于给定(已知)的一对整体真值信号,即,原始的信号和经处理的(目标)信号,也可以确定性地确定第一级的中间处理目标。例如,在监督式训练的背景下,第一级的训练目标可以被定义为网络输出和音频编码的目标(不是未编码的目标)的函数。这个过程便于有效地对级进行解耦的音频编码潜在的定义。因此,可以使用分开的损失函数(单独地或联合地)训练每个级的神经网络系统。
6、两个神经网络系统的单独训练具有可能的优势,因为它可以更简单地执行,并且很可能实现网络的模型可以相对更小。预计联合训练提供更好的整体性能,但是很可能将需要更大的模型和更多的训练数据。
7、在推断期间,第一网络通过提供中间表示的结果来解决处理任务,而第二网络基于中间表示提供最终的处理结果。推断涉及两个专门的网络的事实对计算复杂度具有显著的影响(与端到端系统相比)。使用两个专门的网络便于将处理问题分解成子问题,这些子问题可以与它们各自的训练目标相关联。预计在端到端设置中解决处理任务的单个网络将需要显著更多的可训练参数和显著更大量的训练数据。
8、另外,根据预定义音频编码过程执行的潜在的位速率降低(量化)根据预定义的音频编码过程实现位速率降低与失真之间的权衡。音频编码算法以感知优化的方式优化它的位速率失真权衡,并且它的细节取决于编码算法。潜在的格式因此确保第一级执行的处理任务的性能与第二级执行的最终合成任务的性能之间的适当的权衡。
9、根据本发明的第二方面,这个目标由用于处理输入的音频信号的系统实现,该系统包括:第一神经网络系统,该第一神经网络系统被训练以生成给定的音频信号的经处理版本的位速率降低的表示,其中位速率降低的表示具有与预定义的音频编码过程相关联的格式,其中第一神经网络系统由输入的音频信号的表示进行调节以预测经处理的输入的音频信号的位速率降低的表示;第二神经网络系统,该第二神经网络系统被训练以生成给定的位速率降低的音频表示的增强表示,其中位速率降低的表示具有与预定义的音频编码过程相关联的格式,其中第二神经网络系统由第一神经网络系统预测的位速率降低的表示进行调节以预测经处理的音频信号的增强表示;以及处理级,用于将经处理的音频信号的增强表示变换成输出的音频信号。
1.一种用于处理输入的音频信号的方法,包括:
2.根据权利要求1所述的方法,其中所述输入的音频信号和所述输出的音频信号处于时间域中。
3.根据权利要求1或2所述的方法,其中所述增强表示具有与所述预定义的音频编码过程相关联的格式。
4.根据权利要求1至权利要求3中的任一项所述的方法,其中所述输入信号的表示、所述位速率降低的表示、以及所述增强表示全部处于相同的变换域中。
5.根据权利要求1至权利要求4中的任一项所述的方法,其中所述变换域是波形变换域。
6.根据权利要求1至权利要求5中的任一项所述的方法,其中所述输入信号的表示、所述位速率降低的表示、以及所述增强表示全部包括一组mdct线和相关联的包络信息。
7.根据权利要求6所述的方法,其中所述mdct线具有降低的信号动态。
8.根据权利要求1至权利要求7中的任一项所述的方法,其中所述变换的步骤包括增加所述增强表示的信号动态。
9.根据权利要求1至权利要求8中的任一项所述的方法,其中所述第一神经网络系统在生成设置中进行训练并且操作。
10.根据前述权利要求中的任一项所述的方法,其中所述第二神经网络系统在生成设置中进行训练并且操作。
11.根据前述权利要求中的任一项所述的方法,其中所述输入的音频信号是失真的音频信号,并且所述第一神经网络系统预测所述输入的音频信号的信号增强版本的位速率降低的表示。
12.根据前述权利要求中的任一项所述的方法,其中所述输入的音频信号是混合音频信号,并且所述第一神经网络系统预测所述输入的音频信号的源分离版本的位速率降低的表示。
13.一种用于处理输入的音频信号的系统,包括:
14.根据权利要求13所述的系统,其中所述输入的音频信号和所述输出的音频信号处于时间域中。
15.根据权利要求13或权利要求14所述的系统,其中所述增强表示具有与所述预定义的音频编解码器相关联的格式。
16.根据权利要求13至权利要求15中的任一项所述的系统,其中所述输入信号的表示、所述位速率降低的表示、以及所述增强表示全部处于相同的变换域中。
17.根据权利要求13至权利要求16中的任一项所述的系统,其中所述变换域是波形变换域。
18.根据权利要求13至权利要求17中的任一项所述的系统,其中所述输入信号的表示、所述位速率降低的表示、以及所述增强表示全部包括一组mdct线和相关联的包络信息。
19.根据权利要求18所述的系统,其中所述mdct线具有降低的信号动态。
20.根据权利要求13至权利要求19中的任一项所述的系统,其中所述变换的步骤包括增加所述增强表示的信号动态。
21.根据权利要求13至权利要求20中的任一项所述的系统,其中所述第一神经网络系统在生成设置中进行训练并且操作。
22.根据权利要求13至权利要求21中的任一项所述的系统,其中所述第二神经网络系统在生成设置中进行训练并且操作。
23.根据权利要求13至权利要求22中的任一项所述的系统,其中所述输入的音频信号是失真的音频信号,并且所述第一神经网络系统预测所述输入的音频信号的信号增强版本的位速率降低的表示。
24.根据权利要求13至权利要求23中的任一项所述的系统,其中所述输入的音频信号是混合音频信号,并且所述第一神经网络系统预测所述输入的音频信号的源分离版本的位速率降低的表示。
25.一种计算机程序产品,所述计算机程序产品包括计算机程序代码部分,所述计算机程序代码部分被配置为在计算机处理器上执行时执行根据权利要求1至权利要求12中的一项所述的方法。