用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法与流程

文档序号：13300044阅读：1170来源：国知局

本发明涉及用于处理音频信号以获得经处理的音频信号的装置和方法。实施例还示出了包括该装置在内的音频解码器和相应音频编码器、均包括该装置在内的音频源分离处理器和带宽增强处理器。根据其它实施例，示出了在信号重构中的瞬态恢复和在得分通知(score-informed)的音频分解中的瞬态恢复。

背景技术：

将叠加声音源的混合分离为其构成分量的任务在数字音频信号处理中已变得重要。在语音处理中，这些分量通常是受到噪声或同时说话人的干扰的目标说话者的话音。在音乐中，这些分量可以是单独的乐器或人声旋律、打击乐器、或甚至是个别音符事件。相关课题是信号重构和瞬态保存以及得分通知的音频合成(即，源分离)。

音乐源分离目的是将和弦多音色音乐录音分解成诸如唱歌声音、乐器旋律、打击乐器、或混合信号中出现的个别音符事件之类的分量信号。除了作为很多音乐分析和检索任务中的重要步骤之外，音乐源分离还是诸如音乐恢复、上混音(upmixing)和再混音(remixing)之类的应用的基本先决条件。为了这些用途，需要在经分离的分量的感知质量方面的高度保真。现有分离技术的主流是对混合信号的时间-频率(tf)表示进行处理，经常是短时傅立叶变换(stft)。目标分量信号通常是使用合适的逆变换来重构的，其进而可能引入可听伪像(artifact)，例如音乐噪声、模糊瞬态或预回声。现有方案受制于具有音乐噪声、模糊瞬态或预回声形式的可听伪像。这些伪像经常打扰人类听者。

近来存在多篇关于音乐源分离的论文。在大多数方案中，通过修改量值谱图在时间-频率(tf)域中执行分离。经分离的分量的相应时域信号是通过使用原始相位信息并应用合适的逆变换来导出的。当争取经分离的独奏信号的良好感知质量时，很多作者回到得分通知的分解技术上。其具有以下优点：可以通过与分量信号在时间(开始(onset)、移位(offset))和频率(音高(pitch)、音色(timbre))中的近似位置有关的信息来指导分离。很少有出版物处理诸如鼓之类的瞬态信号的源分离。其它出版物关注于对谐波分量相对于打击分量的分离[5]。

此外，在感知音频编码领域中已考虑到了预回声的问题，其中，预回声通常是由以下引起的：使用相对长的分析和合成窗口，结合对tf区间(bin)的中间操作(例如根据心理声学模型的频谱量值的量化)。在瞬态事件的邻域中使用块切换可被视为最先进技术[6]。在[13]中提出了有趣的方案，其中，沿频率轴通过线性预测对频谱系数进行编码，自动减少了预回声。稍后的工作提出将信号分解为瞬态和残余分量，并针对每个流使用优化编码参数[3]。在基于相位声码器(phase-vocoder)的时间尺度修改方法的上下文中已调查了瞬态保留。除了对瞬态分量的优化处理之外，若干作者遵循了对瞬态帧中的相位进行相位锁定或重新初始化的原则[8]。

信号重构的问题(也被称为量值谱图反演或相位估计)是经过深入研究的课题。在它们的经典论文[1]中，griffin和lim提出了所谓的lsee-mstftm算法，其用于根据经修改的stft量值(mstftm)谱图来进行迭代的盲信号重构。在[2]中，leroux等人通过使用tf一致性标准对其进行描述而开发了与该方法有关的不同视角。通过将必要操作完全保持在tf域中，可以引入若干种简化和近似，其与原始过程相比降低了计算负载。由于使用lsee-mstftm来获得的相位估计仅在局部最优处收敛，若干出版物考虑找到用于相位信息的良好初始估计[3，4]。sturmel和daudet[5]提供了信号重构方法的深入回顾并指出了未解决的问题。在[6]中提出了对lsee-mstftm的与收敛速度有关的扩展。其他作者尝试将相位估计问题归纳为凸(convex)优化方案，并得到了令人振奋的结果，尽管受到高计算复杂度的约束[7]。另一工作[8]考虑对来自基于小波的量值谱图的信号重构应用谱图一致性框架。

然而，用于信号重构的上述方案都有以下问题：音频信号的快速改变(其对于瞬态来说是常见的)可能经受较早描述的伪像，例如预回声。

因此，需要改进的方法。

技术实现要素：

本发明的目的是提供用于处理音频信号的改进概念。该目的是通过独立权利要求的主题来解决的。

本发明基于以下发现：可以在时域或频域中对频域帧序列的频谱值应用目标时域幅度包络。换言之，可以在使用时间-频率和频率-时间转换的信号处理之后来校正信号的相位，其中，依然维持或保持(不改变)该信号的幅度或量值。可以使用例如迭代算法(例如，由griffin和lim提出的算法)来恢复相位。然而，使用目标时域包络显著地改进了相位恢复的质量，其导致在使用迭代算法的情况下减少迭代数量。可以计算或近似目标时域包络。

实施例示出了用于处理音频信号以获得经处理的音频信号的装置。该装置可以包括用于计算表示音频信号的重叠帧的频域帧序列的频谱值的相位值的相位计算器。该相位计算器可以被配置为基于和与经处理的音频信号有关的目标时域包络相关的信息来计算相位值，使得经处理的音频信号至少近似具有该目标时域包络和由频域帧序列所确定的频谱域包络。可以在时域或频域中对频域帧序列应用与目标时域幅度包络有关的信息。

为了克服已知方案的前述限制，实施例示出了用于在重构源信号中更好地保存瞬态分量的技术、方法或装置。具体地，目的可以是减弱预回声，该预回声使得来自鼓和打击乐器以及钢琴和吉他的音符事件的开始清晰度劣化。

实施例还示出了对griffin和lim[1]的信号重构过程的扩展或改进，其例如更好地保存了瞬态信号分量。原方法通过在stft和时域信号之间往返来迭代估计根据stft量值(stftm)进行时域重构所必需的相位信息，其仅更新相位信息而保持stftm固定。所提出的扩展或改进对中间时域重构进行操作，以减弱可能在瞬态之前的预回声。

根据第一实施例，在时域中对频域帧序列应用与目标时域包络有关的信息。因此，可以根据频域帧序列来导出经修改的短时傅立叶变换(mstft)。基于经修改的短时傅立叶变换，可以执行短时傅立叶逆变换。由于短时傅立叶逆变换(istft)执行了重叠和相加过程，改变(更新、适配或调整)了初始mstft的量值和相位值。这导致了音频信号的中间时域重构。此外，可以对中间时域重构应用目标时域包络。这可以例如以下方式来执行：通过将时域信号与脉冲响应进行卷积或者通过将频谱乘以传递函数。可以使用短时傅立叶变换(stft)对具有目标时域包络(的近似)的音频信号的中间时域重构进行时间-频率转换。因此，可以使用重叠分析和/或合成窗口。

即使不应用目标时域包络的修改，由于istft和stft中的重叠和相加过程，音频信号的中间时域表示的stft也将不同于较早的mstft。这可以在迭代算法中执行，其中，对于经更新的mstft，使用前一stft操作的相位值且丢弃相应幅度或量值。相反，由于假定幅度(或量值)值是(完美)重构的而仅具有错误的相位信息，因此作为经更新的mstft的幅度或量值，可以使用初始量值。因此，在每个迭代步骤中，将相位值适配为正确(或原始)相位值。

根据第二实施例，可以在频域中对频域帧序列应用目标时域包络。因此，在时域中较早执行的步骤可以被转移(变换、应用或转换)到频域中。详细地，这可以是istft的合成窗口和stft的分析窗口的时间-频率变换。这导致在时域中变换了istft和stft之后将与当前帧重叠的相邻帧的频率表示。然而，将该部分移位到当前帧中的正确位置，且执行加法以导出音频信号的中间频域表示。此外，可以将目标时域包络变换到频域，例如使用stft，使得可以对中间频域表示应用目标时域包络的频率表示。再次地，可以使用(近似)具有目标时域包络的中间频域表示的经更新的相位来迭代地执行该过程。此外，使用mstft的初始量值，因为假定该量值已经被完美重构。

使用前述装置，可以假定多个其他实施例具有导出目标时域包络的不同可能性。实施例示出了包括前述装置在内的音频解码器。该音频解码器可以从(相关联)音频编码器接收音频信号。音频编码器可以分析音频信号以导出目标时域包络，例如针对音频信号的每个时间帧。可以将导出的目标时域包络与示例目标时域包络的预定列表相比较。与计算出的音频信号的目标时域包络最接近的预定目标时域包络可以与特定比特序列相关联，例如用于分配16个不同目标时域包络的四比特序列。音频解码器可以包括相同的预定目标时域包络，例如码本或查找表，且能够按从编码器发送的比特序列来确定(读取、计算或运算)(经编码的)预定目标时域包络。

根据其他实施例，上述装置可以是音频源分离处理器的一部分。音频源分离处理器可以使用对目标时域包络的粗略近似，因为仅具有音频信号的多个源中的一个源的音频信号(通常)不可用。因此，特别是对于瞬态恢复，当前帧中直到初始瞬态位置的部分可以被强制为零。这可以高效地减少瞬态前面的通常由于信号处理算法而导致并入的预回声。此外，可以使用公共开始(onset)作为用于目标时域包络的近似，例如用于每个帧的相同开始。根据另一实施例，可以将不同开始用于音频信号的不同分量，例如根据开始的预定列表导出的。例如，钢琴的目标时域包络或开始可以不同于吉他、踩镲(hi-hat)或语音的目标时域包络或开始。因此，可以分析该音频信号的当前源或分量，以例如检测音频信号的类型(乐器、语音等)，以确定目标时域包络的(理论)最佳拟合近似。根据其他实施例，如果音频源分离例如意在将一个或多个乐器(例如，吉他、踩镲、长笛或钢琴)或语音与音频信号的剩余部分分离，则音频信息的类型可以是(由用户)预设的。基于该预设，可以选择用于经分离的或经隔离的音频轨道的对应开始。

根据其他实施例，带宽增强处理器可以使用前述装置。带宽增强处理器使用核心编码器以对音频信号的一个或多个频带的高分辨率表示进行编码。此外，可以在带宽增强解码器中使用带宽增强编码器的参数来近似未使用核心编码器编码的频带。可以由编码器来发送目标时域包络，作为例如参数。然而，根据优选实施例，编码器不发送目标时域包络(作为参数)。因此，目标时域包络可以根据音频信号的核心解码部分或频带来直接导出。音频信号的核心解码部分的形状或包络是对原始音频信号的目标时域包络的良好近似。然而，在音频信号的核心解码部分中可能缺少高频分量，导致在与原始包络相比时可能不那么突出的目标时域包络。例如，该目标时域包络可以类似于音频信号或者音频信号的一部分的低通滤波版本。然而，与例如使用可以从带宽增强编码器向带宽增强解码器发送的目标时域包络的信息的码本相比，对来自核心解码音频信号的目标时域包络的近似(平均上)可以更精确。

根据其他实施例，示出了对griffin和lim提出的迭代信号重构算法的高效扩展。该扩展示出了在迭代重构内的使用经修改的短时傅立叶变换的中间步骤。该中间步骤可以强制实现应当重构的信号的所需或预定形状。因此，可以在每个迭代步骤中使用例如幅度调制对经重构(时域)信号应用预定包络。备选地，可以使用stft的卷积和时间-频率域中的包络对经重构信号应用包络。第二方案可以是有利的或更高效的，因为可以在时间-频率域中对逆stft和stft进行仿真(执行、变换或转移)，且因此这些步骤不需要显式执行。此外，可以实现诸如序列选择性处理执行的进一步简化。此外，由于实现了更快速的转换，对(第一mstft步骤的)具有有意义值的相位的初始化是有利的。

附图说明

在使用附图来详细描述实施例之前，要指出的是：在图中对相同或功能相同的要素给出相同的附图标记，且提出了对具有相同附图标记的要素的重复描述。因此，针对具有相同附图标记的要素所提供的描述是可互换的。

随后将参考附图来讨论本发明的实施例，其中：

图1示出了用于处理音频信号以获得经处理的音频信号的装置的示意框图；

图2示出了使用时间-频率-域或频域处理的根据另一实施例的装置的示意框图；

图3在示意框图中示出了使用时间-频率-域处理的根据另一实施例的装置；

图4示出了使用频域处理的根据实施例的装置的示意框图；

图5示出了使用时间-频率域处理的根据另一实施例的装置的示意框图；

图6a～d示出了根据实施例的瞬态恢复的示意图；

图7示出了使用频域处理的根据另一实施例的装置的示意框图；

图8示出了一段音频信号的示意时域图；

图9a～c示出了与示例鼓循环分离的不同踩镲分量信号的示意图；

图10a～b示出了打击信号混合的示意说明图，其包含用于鼓循环的源分离的作为源的三种乐器；

图11a示出了归一化不一致性度量对迭代数目的演进；

图11b示出了预回声能量对迭代数目的演进；

图12a示出了归一化不一致性度量对迭代数目的演进的示意图；

图12b示出了预回声能量对迭代数目的演进；

图13示出了典型nmf分解结果的示意图，其示出了实际上类似于v中的开始事件的原型版本(右下图)的经提取模板(三个最左侧的图)。

图14a示出了归一化不一致性度量对迭代数目的演进的示意图；

图14b示出了预回声能量对迭代数目的演进的示意图；

图15示出了根据实施例的用于对音频信号进行编码的音频编码器；

图16示出了包括装置和输入接口在内的音频解码器；

图17示出了包括频域帧序列的表示和目标时域包络的表示在内的音频信号；

图18示出了根据实施例的音频源分离处理器的示意框图；

图19示出了根据实施例的带宽增强处理器的示意框图；

图20示出了带宽增强的示意频域图；

图21示出了(中间)时域重构的示意表示图；

图22示出了用于处理音频信号以获得经处理的音频信号的方法的示意框图；

图23示出了音频解码方法的示意框图：

图24示出了音频源分离的方法的示意框图；

图25示出了经编码的音频信号的带宽增强的方法的示意框图；

图26示出了音频编码的方法的示意框图。

具体实施方式

在下文中，将进一步详细描述本发明的实施例。各图中示出的具有相同或相似功能的要素将具有与其相关联的相同附图标记。

图1示出了用于处理音频信号4以获得经处理的音频信号6的装置2的示意框图。装置2包括用于计算表示音频信号4的重叠帧的频域帧序列12的频谱值的相位值10的相位计算器8。此外，相位计算器8被配置为基于和与经处理的音频信号6有关的目标时域包络14相关的信息来计算相位值10，使得经处理的音频信号6至少具有目标时域幅度包络14的近似和由频域帧序列12所确定的频谱包络。因此，相位计算器8可以被配置为接收与目标时域包络有关的信息或被配置为从目标时域包络(的表示)中提取与目标时域包络有关的信息。

频域帧序列的频谱值10可以使用音频信号4的短时傅立叶变换(stft)来计算。因此，stft可以使用具有例如50％、67％、75％或甚至更多的重叠范围的分析窗口。换言之，stft可以使用以下跳跃大小(hopsize)：例如分析窗口长度的二分之一、三分之一、或四分之一。

与目标时域包络14有关的信息可以使用与当前实施例或使用实施例有关的不同或变化的方案来导出。在编码环境中，例如编码器可以(在编码之前)分析(原始)音频信号并例如向解码器发送表示与计算出的目标域包络接近的预定义目标域包络的码本或查找表索引。具有与编码器相同码本或查找表的解码器可以使用所接收的码本索引来导出目标时域包络。

在带宽增强环境中，音频信号的经核心解码的表示的包络可以是对原始目标时域包络的良好近似。

带宽增强涵盖了与在处理之前的输入信号的带宽相比增强经处理的信号的带宽的任何形式。一种带宽增强方式是间隙填充实现，例如在wo2015010948中公开的智能间隙填充或半参数化间隙填充，其中，在具有或不具有所发送的参数化信息的情况下，输入信号中的频谱间隙被输入信号的其他频谱部分所填充或“增强”。另一种带宽增强方式是如在he-aac(mpeg4)或相关过程中所使用的频带复制(sbr)，其中，通过处理来生成高于交叉频率的频带。相对于间隙填充实现，sbr中核心信号的带宽是受限的，而间隙填充实现具有全频带核心信号。因此，带宽增强表示了对高于交叉频率的频率的带宽扩展或者对位于(在频率方面)比核心信号的最大频率低的频谱间隙的带宽扩展。

此外，在源分离环境中，可以对目标时域包络加以近似。这可以是对直到瞬态的初始位置为止的零填充或者使用(不同的)开始作为对目标时域包络的近似或粗略估计。换言之，可以通过将当前时域包络强制为从音频信号的帧的开始或一部分直到瞬态的初始位置为止为零，来根据中间时域信号的当前时域包络导出近似的目标时域包络。根据其他实施例，用一个或多个(预定义)开始来(幅度)调制当前时域包络。开始对于音频信号的(整个)处理可以是固定的，或者换言之在处理音频信号的第一(时间)帧或一部分之前选择一次(或者为了处理音频信号的第一(时间)帧或一部分而选择一次)。

目标时域包络(的近似或估计)可以用于形成经处理的音频信号的形状，例如使用幅度调制或乘法，使得经处理的音频信号至少具有目标时域包络的近似。然而，经处理的音频信号的频谱包络是由频域帧序列来确定的，因为在与频域帧序列的频谱相比时，目标时域包络主要包括低频分量，使得保持频率的主要部分不变。

图2示出了根据另一实施例的装置2的示意框图。图2的装置示出了包括迭代处理器16在内的相位计算器8，迭代处理器16用于执行迭代算法，以使用要求重叠范围中的重叠块的一致性的优化目标，从初始相位值18开始计算频谱值的相位值10。此外，迭代处理器16被配置为：在另一迭代步骤中，使用取决于目标时域包络的经更新的相位估计20。换言之，相位值10的计算可以是使用由迭代处理器16执行的迭代算法来执行的。因此，频域帧序列的量值可以是已知的且保持不变。从初始相位值18开始，迭代处理器可以在每次迭代之后使用经更新的相位估计20来迭代更新频谱值的相位值，以执行迭代。

优化目标可以是例如迭代数目。根据其他实施例，优化目标可以是阈值，其中，当与前一迭代步骤的相位值相比时仅将相位值更新了较少程度，或者优化目标可以是频域帧序列的(初始)恒定量值在与迭代处理之后的频谱值的量值相比时之差。因此，可以改进或升级相位值，使得音频信号的帧的这些部分的个体频谱相等或至少相差较小程度。换言之，音频信号的重叠帧的彼此重叠的所有帧部分应当具有相同或相似的频率表示。

根据实施例，相位计算器被配置为：根据griffin和lim的迭代信号重构过程来执行迭代算法。参照后面的附图示出了其他(更详细)实施例。其中，将迭代处理器细分或替换为处理块序列，即频率至时间转换器22、幅度调制器24、以及时间至频率转换器26。为了方便，在其他附图中通常(不显式)指出迭代处理器16，然而前述处理块执行了与迭代处理器16相同的操作，或者迭代处理器监督或监视迭代处理的终止条件(或退出条件)，例如优化目标。此外，迭代处理器可以根据例如参照图4和图7所示的频域处理来执行操作。

图3在示意框图中示出了根据另一实施例的装置2。装置2包括频率至时间转换器22、幅度调制器24、以及时间至频率转换器26，其中，频率至时间转换和/或时间至频率转换可以执行重叠和相加过程。频率至时间转换器22可以根据频域帧序列12和初始相位值估计18或在先迭代步骤的相位值估计10来计算音频信号4的中间时域重构28。幅度调制器24可以使用目标时域包络14(有关的信息)来调制中间时域重构28，以获得经幅度调制的音频信号30。此外，时间至频率转换器被配置为将经幅度调制的信号30转换为具有相位值10的另一频域帧序列32。因此，相位计算器8被配置为：针对下一迭代步骤，使用(另一频域帧序列的)相位值10和频域帧序列(其不是另一频域帧序列)的频谱值。换言之，相位计算器使用另一频域帧序列32的在每个迭代步骤之后的经更新的相位值。可以丢弃另一频域帧序列的量值，或不将其用于进一步处理。此外，相位计算器8使用(初始)频域帧序列12的量值，因为假定量值已被(完美)重构。

更一般地，相位计算器8被配置为：在例如幅度调制器22中基于目标时域包络14对音频信号4的中间时域重构28应用幅度调制。幅度调制可以使用单边带调制、具有或不具有抑制载波传输的双边带调制、或使用目标时域包络与音频信号的中间时域重构的乘法来执行。当例如使用音频源分离时，初始相位值估计可以是音频信号的相位值、(任意)挑选的值(例如，零、随机值、或音频信号的频带的相位的估计)、或音频信号的源的相位。

根据其他实施例，相位计算器8被配置为：当满足迭代确定条件(例如，迭代终止条件)时，输出音频信号4的中间时域重构28作为经处理的音频信号6。迭代确定条件可以与优化目标紧密相关，且可以定义优化目标相对于当前优化值的最大偏差。此外，迭代确定条件可以是(最大)迭代数目、另一频域帧序列32的量值在与频域帧序列12的量值相比时的(最大)偏差、或者在当前帧和前一帧之间的相位值10的(最大)更新成果。

图4示出了根据实施例的装置2的示意框图，其可以是在与图3的实施例相比时的备选实施例。相位计算器8被配置为应用至少一个目标时域包络14的频谱表示14’和至少一个中间频域表示的卷积34，或音频信号4的至少一个目标时域包络14或者至少一个中间频域表示28’的所选部分或频带或仅高通部分或仅若干带通部分的卷积。换言之，图3的处理可以在频域而不是时域中执行。因此，可以使用卷积而不是幅度调制，将目标时域包络14(更具体地，其频率表示14’)应用于中间频域表示28’。然而，该理念是再一次将频域帧序列的(原始)量值用于每个迭代，且此外，在第一迭代步骤中使用初始相位值18之后，针对每个进一步迭代步骤来使用经更新的相位值估计10。换言之，相位计算器被配置为：使用通过卷积34获得的相位值10作为用于下一迭代步骤的经更新的相位值估计。此外，该装置可以包括目标包络转换器36，其用于将目标时域包络转换到频谱域中。此外，装置2可以包括频率至时间转换器38，其用于使用从最近迭代步骤中获得的相位值估计10以及频域帧序列12，根据中间频域重构28’来计算时域重构28。换言之，中间频域表示28’可以包括频域帧序列的量值和经更新的相位值估计的相位值10。时域重构28可以是经处理的音频信号6或至少是经处理的音频信号6的一部分。该部分可以涉及例如在与经处理的音频信号或音频信号4的频带的总数相比时的减少的数目的频带。

根据其他实施例，相位计算器8包括卷积处理器40。卷积处理器40可以应用卷积核、移位核、和/或添加到中心帧操作来获得音频信号4的中间频域表示28’。换言之，卷积处理器可以处理频域帧序列12，其中，卷积处理器40可以被配置为：在频域中对频域帧序列12应用时域重叠和相加过程的频域等价物，以确定中间频域重构。根据其他实施例，卷积处理器被配置为：基于当前频率帧来确定在频域中执行了时域重叠和相加之后相邻频域帧中对当前频域帧做出贡献的部分。此外，卷积处理器40还可以被配置为：确定相邻频域帧的该部分在当前频域帧中的重叠位置，以及执行将相邻频域帧的位置与当前频域帧在该重叠位置处相加。根据其他实施例，卷积处理器40被配置为：对时域合成和时域分析窗口进行时间至频率变换，以确定在频域中执行了时域重叠和相加之后相邻频域帧中对当前频域帧做出贡献的部分。此外，卷积处理器还被配置为：将相邻频域帧的该部分移位至当前频域帧中的重叠位置，以及在重叠位置处将相邻频域帧的该部分应用于当前帧。

换言之，图3所示的时域过程可以转移(变换、应用或转换)到频域中。因此，频率至时间转换器22和时间至频率转换器26的合成和分析窗口可以转移(变换、应用或转换)到频域中。合成和分析窗口的(作为结果的)频域表示确定(或切除)了相邻帧中在时域的重叠和相加过程中与当前帧重叠的部分。此外，将切除部分移位到当前帧内的正确位置处并添加到当前帧上，使得在频域中执行时域频率至时间变换和时间至频率变换。这是有利的，因为可以忽略或不执行显式信号变换，这可以增加相位计算器8和装置2的计算效率。

图5示出了根据另一实施例的装置2的示意框图，该另一实施例关注于音频信号4的分离声道或频带的信号重构。因此，可以使用时间-频率转换器(例如，stft42)将时域中的音频信号4变换为表示音频信号4的重叠帧的频域帧序列12。其中，经修改量值估计器44’可以导出频域帧序列的量值44或频域帧序列的分量或分量信号。此外，可以使用初始相位估计器18’根据频域帧序列12来计算初始相位估计18，或者初始相位估计器18’可以选择例如任意的相位估计18，其不是根据频域帧序列12来导出的。基于频域帧序列12的量值44和初始相位估计18，可以将mstft12’计算为具有(完美)重构量值44的初始频域帧序列12”，其在进一步处理中保持不变，以及仅初始相位估计18。使用相位计算器8来更新初始相位估计18。

在另一步骤中，频率至时间转换器22(例如，逆stft(istft))可以计算(初始)频域帧序列12”的中间时域重构28。可以使用目标包络(或更精确地，目标时域包络14)对中间时域重构28进行幅度调制，例如相乘。时间至频率转换器26(例如，stft)可以计算具有相位值10的另一频域帧序列32。mstft12’可以使用经更新的相位估计器10和经更新频域帧序列中频域帧序列12的量值44。在例如迭代处理器16中该迭代算法可以执行或重复l次，迭代处理器16可以执行相位计算器8的前述处理步骤。例如，在完成迭代处理之后，根据中间时域重构28来导出时域重构28”。

换言之，在下文中，示出了标注(notation)和信号模型且描述了所采用的信号重构方法。之后，结合所示示例示出了针对lsee-mstftm方法中瞬态保存的扩展。

将实值离散时域信号视为并发分量信号的混合。目的是将x分解为瞬态目标信号和残余分量信号使得

x≈x^t+x^r.(1’)

注意到：该分解表现为近似，因为焦点在于改进瞬态信号x^t的感知质量，且所接受的是x^t和x^r的叠加可能不精确得到原始x。暂时地，假定x^t精确包含一个瞬态，其时间位置已知。令(其中，)是在第m个时间帧和短时傅立叶变换(stft)的第k个频谱系数处的复值tf区间。该系数通过以下公式计算：

其中，是具有块大小的合适窗口函数，且是跳跃大小参数。为了简单，还可以将其写为根据将量值和相位谱图导出为：

其中，假定通过某个合适的源分离过程，估计表示瞬态分量信号的经修改stft(mstft)是可能的。更具体地，设置为其中，和是分别对量值和相位谱图的估计，且运算符⊙表示逐元素乘法。的时域重构是通过以下方式来实现的：首先对每个频谱帧应用逆离散傅立叶变换(dft)，得到中间时间信号ym，集合，其由以下公式定义：

其中，n∈[0：n-1]和ym(n)：＝0，其中，其次，应用最小二乘误差重构法：

其中，其中，将分析窗口w重用作合成窗口。为了简单，该过程标记为(参见[8]中的lsee-mstft)。

由于在tf(时间-频率)域中获得了对的估计，不能假定x^t是一致信号。实际中，在x^t中有可能遇到瞬态模糊和预回声。对于较大的n尤其如此。为了补救该问题，提出了通过以下过程来迭代求精其中，引入迭代索引并使用给定瞬态位置n0。给定和引入瞬态信号分量的初始mstft估计作为且针对来重复以下步骤：

1.经由(5’)和(6’)的

2.强制

3.经由(2’)和(4’)的

使用以来指示的分量信号，而不是用来指示的较早描述的瞬态信号，可以更一般地描述图5的实施例。一般而言，针对所有描述的实施例，由下标c指示的信号可以被以上标t指示的相应信号来代替，且反之亦然。下表c表示分量信号，其中上标t表示瞬态信号，其可以是分量信号。无论如何，具有上标t的信号也可以被具有下标c的(更一般的)信号来代替。参照瞬态信号描述的实施例不限于瞬态信号，且因此可以适用于其他分量信号。例如，可以被所替换，且反之亦然。

因此，将实值的离散时域信号视为与各个源(例如，乐器)相对应的分量信号xc的线性混合如图10a所示，每个分量信号包含由相应乐器(在本示例情况中，通过敲鼓)产生的至少一个瞬态音频事件。此外，假定符号转录(symbolictranscription)可用，其制定了每个音频事件的开始时间(即，瞬态位置)和乐器类型。根据该转录，导出开始事件s的总数以及独特(unique)乐器c的数目。目的是从如图10所示的混合x中提取单独分量信号xc。为了评估目的，假定使“神谕(oracle)”(即，真)分量信号xc可用。将x在tf域中分解，为此如下采用stft。令是在第m个时间帧和第k个频谱区间处的复值tf系数。该系数通过以下公式计算：

其中，是具有块大小的合适窗口函数，且是跳跃大小参数。频率区间的数目是k＝n/2，且频谱帧的数目m∈[1：m]是由可用信号采样来确定的。为了简单，还可以将其写为遵循[2]，将称为一致性stft，因为其是经由(1)根据实时域信号x来获得的复数的集合。相对地，不一致stft是以下复数的集合：该复数不是根据实时域信号来获得的。根据将量值和相位谱图导出为：

其中，

令为保存混合的量值谱图的转置版本的非负矩阵。目标是将v分解为如图10b所示的与不同乐器相对应的分量量值谱图vc。暂时地，假定某个神谕估计器提取了所需稍后将描述使用最新分解技术来估计分量量值的一种可能方案。为了重构特定分量信号xc，我们设置其中，和是分量相位谱图的估计。通常的做法是将混合相位信息用作对的估计，并经由来自[1]的lsee-mstft重构方法对作为结果的mstft求逆。该方法首先对中的每个频谱帧应用逆离散傅立叶变换(dft)，得到中间时间信号集合ym，其中，m∈[0：m-1]，其由以下公式定义：

其中n∈[0：n-1]和其次，通过以下方式来实现最小二乘误差重构：

其中，其中，将分析窗口w重用作合成窗口。为了简单，该过程标记为(参见[1]中的lsee-mstft)。

由于在tf域中重构必须假定其可以是stft，即可能不存在满足的实时域信号xc。从直觉上来说，一旦修改了特定tf区间中的量值，量值和相位之间的复相互作用(complexinterplay)就有可能被破坏。在实践中，该不一致性可能导致xc中的瞬态模糊和预回声，特别是对于大的n。

为了补救该问题，提出了通过对lsee-mstftm过程[1]的以下扩展来迭代式最小化的不一致性。暂时地，可以假定精确包含一个瞬态开始事件，其在时间中的精确位置n0是已知的。现在，引入迭代索引给定ac和某个初始相位估计引入目标分量信号的初始stft估计且针对来重复以下步骤。

1.通过(4)和(5)

2.强制

3.通过(1)和(3)

根据实施例，所述方法、编码器或解码器的有利点是中间步骤2，其在lsee-mstftm过程中强制执行了瞬态约束。

图6a～d示出了根据实施例的瞬态恢复的示意图，其指示了时域信号46、分析信号包络48和瞬态位置50。图6示出了所提出的方法或装置，其中，目标分量信号46与图6a中的其分析信号48的包络重叠。当波形从静默转换到指数衰减的正弦曲线或正弦波时，示例信号在n050附近呈现出瞬态行为或瞬态信号分量。图6b示出了根据istft(其中，)所获得的时域重构(即，对于所有tf区间的零相位)。通过重叠帧的破坏性干扰，完全破坏了瞬态，强烈减少了正弦曲线的幅度且包络看起来接近平坦。图6c示出了在l＝200次lsee-mstftm迭代之后表现出瞬态模糊的重构。图6d示出了在所提出的方法的l＝200次迭代之后所回复的瞬态更接近原始信号得多。在n。前方的包络中小的波纹可见，但是整体恢复更接近原始信号得多。在真实世界录音中，在信号中通常存在多个瞬态开始事件。在该情况下，可以如图9所示对在连续瞬态(相应的开始)之间本地化的信号摘录(signalexcerpts)应用所提出的方法。

图7示出了根据另一实施例的装置2的示意框图。类似于图4，相位计算器在频域中执行相位计算。频域处理可以等于参照图5所示实施例来描述的时域处理。同样地，可以使用stft(执行器)42对时域信号4进行时间-频率变换，以导出频域帧序列12。其中，经修改量值估计器44’可以根据频域帧序列12来导出经修改量值44。初始相位估计器18’可以根据频域帧序列来导出初始相位估计18，或者其可以提供例如任意的初始相位估计。使用经修改量值估计和初始相位估计，mstft12’计算或确定初始频域帧序列12”，其将接受每个迭代步骤之后的经更新相位值。不同于图5的实施例的是相位计算器8中的(初始)频域帧序列12”。基于时域合成和分析窗口，例如在图5中istft22或stft26中使用的合成和分析窗口，卷积核计算器52’可以使用合成和分析窗口的频域表示来计算卷积核52。卷积核通过在istft22中使用重叠和相加将当前频域帧的邻居或相邻帧的将于当前帧重叠的部分切除(片除或使用)。核移位计算器54’可以计算移位核52，并对相邻频域帧的部分应用移位核52，以将这些部分移位到当前频域帧的正确重叠位置处。这可以对istft22的重叠和相加过程的重叠操作进行仿真。此外，块56执行重叠和相加过程中的加法并将相邻帧的重叠部分加到中心帧时段(period)上。卷积核计算和应用、移位核计算和应用、以及块56中的加法可以在卷积处理器40中执行。卷积处理器40的输出可以是频域帧序列12或初始频域帧序列12”的中间频域重构28’。可以使用卷积将中间频域重构28’与目标包络14的频域表示进行(逐帧)卷积。卷积34的输出可以是具有相位值10的另一频域帧序列32’。在另一迭代步骤中的mstft12’中，相位值10取代了初始相位估计18。可以使用迭代处理器15来执行该迭代l次。在停止迭代过程之后，或者在迭代过程内的特定时间点上，可以从卷积处理器40导出最终频域重构28”’。最终频域重构28”’可以是最近迭代步骤的中间频域重构28’。通过使用频率至时间转换器38(例如，istft)，可以获得时域重构28”，其可以是经处理的音频信号6。

换言之，在lsee-mstftm迭代中应用中间步骤是有利的。其可以在再次计算stft以获得相位的经更新的估计之前强制瞬态之前的所有样本为零。还可以在tf域中直接强制执行该约束。因此，设置某种先决条件可以是有利的。首先，对(6)的分母中的经时间移位和平方的和进行归一化可以通过对w和h强加某些约束来省略(例如，使用对称hann窗口并要求冗余q＝n/h为基数(radix)4[2])。每帧的独特(取决于共轭)频谱区间的数目是k＝n/2，且针对k∈[-k：k]来评估频率自变量(frequencyargument)。暂时关注单个频谱帧，在tf域中可以将再次连续应用istft和stft的操作表达为来自在先和后续帧的加权频谱贡献的叠加。仅需要考虑与中心帧重叠的帧。这是通过邻居帧索引q∈[-(q-1)：(q-1)]来表达的。构造两个tf核，第一个是卷积核

其捕捉合成窗口与经截断和经时间移位版本的分析窗口的逐元素乘积的dft。第二个核是乘法核

β(q，k)：＝exp(2πik(-q/q))，(8’)

需要其用于将来自邻居帧的贡献移位到中心帧内的正确位置。连续对每个tf区间应用上述核

现在所提出的瞬态恢复可以用直观的方式被第二卷积操作所包括，该第二卷积操作仅需要被应用于n0所处的帧。可以根据恰当移位的heavyside函数的stft来逐帧获取相应卷积核。

注意：除了使用该阶梯形函数(stepshapedfunction)之外，还提出了使用具有任意形状包络的时域幅度包络信号的stft。据称可以通过在时域中的恰当信号调制、tf域中的相应卷积来强加各种重构约束。

如[4]中所示，可以通过将卷积核截断为较小数量的中心系数来减少应用频域运算符的计算负荷。这受到了以下观察的启发式激励：大多数显著的系数位于k＝0附近。试验已经表明：如果在频率方向上将α截断至k∈[-3：+3]，tf重构依然非常接近时域重构。此外，如果恰当选择窗口函数，则α是厄米特式(hermitian)的。基于这些共轭复对称性，可以节省复乘法以及因此节省处理能力。此外，没必要考虑每个频率区间的相位更新。相反，可以选择区间中呈现出最高量值的部分，并仅对它们应用(9’)，因为它们将主宰重构。如将要示出的，针对相位信息的第一个合理猜测将帮助加速重构的收敛。

为了评估，针对在两个不同的初始化策略的情况下，将传统lsee-mstftm(称为gl)与所提出的方法(称为tf)进行比较。以下，描述所使用的数据集、测试项生成、和所使用的评估度量。

在所有试验中，使用公开可用的“idmt-smt-drums”数据集。在“wavedrum02”子集中，存在60个鼓循环，假定每个都是三种乐器(踢鼓、小鼓和踩镲)的完美隔离的单轨道录音(即，神谕分量信号)。全部3x60个录音具有44∶1khz采样率、16比特、单声道的未压缩pcmwav格式。将全部三个单轨道混合在一起，获得60个混合信号。附加地，针对单个乐器，开始时间可用，且因此所有开始的近似n0可用。使用该信息，通过从混合中获取摘录来构造具有4421个鼓开始事件的测试集，每个鼓事件位于目标乐器的连续开始之间。在这样做时，对每个摘录之前的n个样本进行零填充。其理论基础是在局部瞬态位置的前方有意地前接一段静默。在该段内，可以排除在先音符开始的衰减影响，且可以测量潜在发生的预回声。进而，这导致了将局部瞬态位置虚拟移位到n0+n(为了标注方便其再次被标记为n0)。

图8示出了一段或一帧音频信号或测试项目的示意时域图。图8示出了混合信号61a、目标踩镲信号61b、与瞬态恢复61d相比的使用lsee-mstftm的重构61c，它们都是在针对每个开始摘录60应用200次迭代之后获得的，其是例如在虚线60’和60”之间的段。混合信号61a清楚地呈现出踢鼓和小鼓对目标踩镲信号61b的影响。

图9a～c示出了示例鼓循环的不同踩镲分量信号的示意图。瞬态位置n062由实线来指示，其中，摘录边界60’和60”由虚线来指示。图9a示出了上面的混合信号对下面的神谕踩镲信号。图9b示出了根据具有神谕量值和零相位时段的初始化所获得的踩镲信号。在图9b的上部示出了gl的l等于200次迭代之后的重构，图9b的下部示出了tr的l等于200次迭代之后的重构。图9c示出了根据在零相位基于nmfd的处理中具有基于nmfd的量值的初始化来获得踩镲信号，其将参考图12～14(的说明书)来描述。在图9c的上部呈现了gl的l等于200次迭代之后的重构对图9c的下部示出了tr的l等于200次迭代之后的重构。由于分解非常适用于示例鼓循环，在图9b和图9c中几乎没有值得注意的视觉差异。

图10示出了信号的示意说明图。图10a指示了作为c＝3个分量信号xc的混合信号x64a，每个分量信号xc包含合成鼓声音样本序列，例如来自rolandtr808鼓机。x164a”’指示了踢鼓，x264a”指示了小鼓，且x364a’指示了踩镲。图10b示出了混合的量值谱图v和c＝3个分量亮度谱图vc的时间-频率表示。为了更好的可见性，将频率轴重新采样为对数间隔，且对量值进行了对数压缩。此外，用附图标记64b来指示信号64a的时间-频率表示。此外，在图9中，用虚线使经调整的摘录边界可视化，且用实线使虚拟移位n0可视化。由于鼓循环是真实节奏，因此摘录表现出与同时弹奏的其余鼓乐器的变化叠加程度。在图9a中，混合(上方)呈现出与经隔离踩镲信号(下方)相比对踢鼓的显著影响。为了比较，图10a中两个上方的图示出了所使用示例信号的混合x和踩镲分量x3的放大版本。在下方的图中，可以看到隔离中的踢鼓x1。其是根据例如rolandtr808鼓计算机来采样的，且类似于衰减的正弦曲线。

在下文中，将示出针对不同测试场景的评估图，其中，使用用于初始化mstft的两个测试情况。情况1使用初始相位估计和固定量值估计根据瞬态标注，情况1使用初始相位估计和固定量值估计换言之，经分离信号或部分信号的相位信息取自混合音频信号的相位，而不是例如该经分离信号或部分信号的相位。此外，情况2使用初始相位估计和固定量值估计根据瞬态标注，情况2使用初始相位估计和固定量值估计本文中，即使可能获得图6b中所示效果，也使用(任意)值0来初始化初始相位估计。此外，两个测试情况都使用音频信号的经分离或部分信号的幅度值。同样地，可以看到标注是相互适用的。

引入以表示在上对istft和stft(核心至lsee-mstftm算法)的连续应用。遵循[10]，在每个迭代将归一化一致性度量(ncm)计算为

对上述两个测试情况都这样。作为用于瞬态恢复的更专用的度量，将预回声能量计算为

针对两种测试情况，其来自中间时域分量信号重构中在摘录开始和瞬态位置之间的段。

图11a示出了归一化一致性度量对迭代数目的演进。图11b示出了预回声能量对迭代数目的演进。曲线示出了平均整体测试摘录。此外，使用gl算法导出的结果由虚线来指示，其中，根据tr算法导出的结果通过使用实线来指示。此外，情况1的初始化用附图标记66a、66a’来指示，其中使用情况2的初始化导出的曲线用附图标记66b、66b’来指示。图11的曲线是通过经由(1)(其中，h＝1024且n＝4096)计算每个混合摘录的stft来导出的且将它们标记为作为参考目标，这次从每个单独鼓乐器的单个轨道获取相同摘录，且应用相同的零填充，将作为结果的stft标记为相应分量信号是使用lsee-mstftm(gl)和所提出的方法或装置(tf)的l＝200次迭代。

在图11中示出了关于的来自(11)和(12)的两个质量度量的演进。图(a)指示了：平均上，所提出的方法(tr)在不一致性减少方面与lsee-mstftm(gl)执行的一样好。在两个测试情况下，可以观察到用于tr(实线)和gl(虚线)的度量的相同相对行为。如预期的，曲线66a、66a’(情况1)与曲线66b、66b’(情况2)相比以远低得多的初始不一致性开始，这明显是由于用混合相位来初始化。图11b示出了用于预回声减少的tr的好处。在两个测试情况中，tr度量66a66b(实线)与gl度量(虚线)相比呈现出低了约20db的预回声能量。同样地，与情况266b、66b’相比，情况166a、66a’的更一致的初始(χ^t)⁽⁰⁾在预回声减少方面可以呈现出先拔头筹。令人惊讶的是，针对l＞100，对情况2所应用的所提出的tr处理在预回声减少方面的性能稍微超过了对情况1应用的gl的性能。根据这些结果，可以推断出：在合理初始相位和量值估计可用的场景中，仅应用所提出的方法的几个迭代(例如，l＜20)是足够的。然而，在良好量值估计结合较弱相位估计的情况下，可以应用更多的迭代(例如，l＜200)，且反之亦然可用。在图8中，示出了来自测试情况2的一个测试项目的不同版本的段。与使用lsee-mstftm61c的重构相比，tr重构61d清楚地呈现出减少的预回声。针对上文示出了参考踩镲信号61b和混合信号61a。

然而，使用如下描述的不同跳跃大小和不同窗口长度来导出了以下数字。

对于每个混合摘录，经由(1)来计算stft，其中h＝512且n＝2048，且将stft标记为由于所有测试项目具有44∶1khz采样率，则频率分辨率是大约21，5hz且时间分辨率是大约11，6ms。针对w使用大小为n的对称hann窗口。作为参考目标，但是这次从每个单独鼓乐器的单个轨道获取相同摘录边界，且应用相同的零填充，将作为结果的stft标记为随后，如上面详细描述的那样定义用于的初始化的两种不同情况。使用这些设置，与情况2相比，在情况1中预期作为结果的不一致性较低。在了解到存在一致的情况下，都经过了lsee-mstftm(gl)和所提出的方法或装置(tr)的l＝200次迭代。

图12a示出了归一化一致性度量对迭代数目的演进的示意图。图12b示出了预回声能量对迭代数目的演进。曲线示出了所有测试摘录的平均。换言之，图12示出了关于的来自(6)和(7)的两个质量度量的演进。图12a指示了：平均上，所提出的方法(tr)在不一致性减少方面与lsee-mstftm(gl)执行的一样好。在这两个测试情况中，tr(实线)和gl(虚线)的曲线几乎是不可区分的，这表明新的方案(意味着方法或装置)表现出与原方法详细的收敛性质。如预期的，曲线66a、66a’(情况1)与曲线66b、66b’(情况2)相比以远低得多的初始不一致性开始，这明显是由于用混合相位来初始化。图12b示出了用于预回声减少的tr的好处。在这两个测试情况下，与gl(虚线)相比，tr(实线)的预回声能量低约15db且在前几个迭代期间表现出更陡峭的降低。同样地，与情况266b、66b’相比，情况166a、66a’的更一致的初始在预回声减少方面呈现出先拔头筹。根据这些结果，推断出：在合理初始相位和量值估计可用的场景中，仅应用所提出的方法的几个迭代(例如，l＜20)是足够的。然而，在良好量值估计结合较弱相位估计的情况下，应用更多的迭代(例如，l＜200)可以是有利的，且反之亦然。

以下将描述在得分通知音频分解场景中如何应用所提出的瞬态恢复方法或装置。目的是从多音色鼓录音中提取隔离的鼓声，且增强瞬态保存。相对于之前使用的理想化实验室条件，估计来自混合的分量信号的量值谱图。为此，可以采用nmfd(非负矩阵因子反卷积(deconvolution))[3，4]作为分解技术。实施例描述了用于针对nmfd强制执行得分通知约束的策略。最终，在这些更现实的条件下重复试验并讨论观察结果。

下文中，简要描述为了分解x的tf表示所采用的nmfd方法。如已经指示的，存在各种备选分离方案。之前的工作[3，4]成功地将nmfd(nmf的卷积性(convolutive)版本)应用于鼓声分离。从直觉上说，底层的卷积性或卷积模型假定可以通过担当针对某个与开始相关的激活(例如，打击特定鼓)的脉冲响应的原型事件来解释分量信号之一中的所有音频事件。在图10b中，可以在踩镲分量v3中看到该类型的行为。此处，8个开始事件的所有实例看起来或多或少像是彼此的副本，其可以通过在每个开始位置处插入原型来解释。

nmf可以用于计算因式分解v≈w·h，其中，的列表示频谱基函数(也被称为模板)且的行包含时间变化增益(也被称为激活)。nmfd通过使用二维模板将该模型扩展至卷积性情况，使得c个频谱基中的每一个可被解释为包含t＜＜m个频谱帧的量值谱图。为此，将卷积性谱图近似v≈λ建模为：

其中

表示帧移位运算符。与之前一样，中的每一列表示特定分量的频谱基，而这次wτ的t个不同版本可用。通过将来自所有版本的wτ的特定列串接，可以获得如图13所示的原型量值谱图。nmfd通常开始于对矩阵(wτ)⁽⁰⁾和(h)⁽⁰⁾的合适初始化。随后，对这些矩阵迭代更新，以最小化卷积性近似λ和v之间的合适距离度量。

图13示出了根据图10的示例鼓录音来计算的nmfd模板和激活。在右下图中示出了量值谱图v。在这些图中的左侧三幅图是经由nmfd提取的wτ中的频谱模板。其对应激活78和得分通知初始化70b(h)⁽⁰⁾在上面三幅图中示出。

对(wτ)⁽⁰⁾和(h)⁽⁰⁾的正确初始化是约束nmfd迭代中的自由度且强制收敛到所需的在音乐方面有意义的解的有效手段。一种可能性是强加根据时间对准的符号转录所导出的分数通知约束。为此，如下初始化(h)⁽⁰⁾的各行。用具有单位幅度的脉冲来初始化与相应鼓乐器的开始相对应的每一帧，所有剩余帧用小常数来初始化。之后，应用非线性指数运动平均滤波器，以对鼓事件的典型短衰减进行建模。该初始化的结果70被示出为图13的上面三幅图中的曲线70b。

最佳分离结果可以通过对模板和激活的分数通知初始化来获得。对于有音高(pitched)的乐器(例如钢琴)的分离，可以在(wτ)⁽⁰⁾中构造原型泛音(overtone)系列。对于鼓，难以对原型频谱基进行建模。从而，已提出了用经隔离的鼓声的经平均或经因式分解的谱图来初始化基[21，22，4]。然而，使用简单的备选方案，其首先计算传统nmf，其激活h和模板w是通过得分通知的(h)⁽⁰⁾并设置(w)⁽⁰⁾：＝1来初始化的。

在采用这些设置的情况下，作为结果的因式分解模板通常是对每个所涉及的鼓乐器的平均频谱的相当不错的近似。针对所有τ＝[0：t-1]简单地复制这些频谱被用作对模板谱图的良好初始化。在一些nmfd迭代之后，每个模板谱图通常对应于相应鼓乐器的原型谱图，且每个激活函数对应于在录音中该特定鼓乐器的所有出现的反卷积激活。在图13中示出了典型的分解结果，其中，可以看到所提取的模板(最左侧的三幅图)确实类似于v中开始事件的原型版本(右下图)。此外，所提取的h70a的脉冲的位置(最上面三幅图)非常接近得分通知的初始化的极大值。

在下文中，描述了如何进一步处理nmfd结果，以提取所需的分量。令为通过nmfd了解到的激活矩阵。然后，对于每个c∈[1：c]，通过将除了包含之前经由nmfd找到的所需激活在内的第c行之外的所有元素设置为零来定义矩阵第c个分量量值谱图是由来近似的。由于nmfd模型仅得到了v的低秩近似，可能并未很好地捕捉到频谱细微差异。为了补救该问题，通常的做法是计算软掩码，其可以被解释为反映了λc对混合v的贡献的加权矩阵。与所需分量相对应的该掩码可被计算为其中，表示逐元素除法且∈是用于避免被零除的小的正的常数。对分量量值谱图的基于掩码的估计是作为vc：＝v⊙mc来获得的，且⊙表示逐元素乘法。该过程也经常被称为wiener滤波。

下文中，基本上重复图12a、b的之前试验。保持与较早示例中使用的相同的stft参数和摘录边界。然而这次分量量值谱图不是根据神谕分量信号导出的，而是使用30个nmfd迭代从混合中提取的。因此，引入两个新的测试情况。测试情况366c、66c’使用初始相位估计和固定量值估计其中，测试情况466d使用初始相位估计和固定量值估计

图14a示出了归一化一致性度量对迭代数目的演进。图14b示出了预回声能量对迭代数目的演进。曲线示出了平均整体测试摘录，轴线限制与图12一样。此外，在图14a中，使用tr重构66c、66d(实线)所获得的不一致性减少与gl方法66c’、66d’(虚线)不可区分。该改进相比于在使用神谕量值估计(比较图12a)时可以获得的数目来说较不明显。平均上，情况366c、66c’中的重构(以来初始化)看起来很快卡在了局部最优处。据推测，这是由于对与开始相关的谱图帧的不完美nmfd分解所造成的，其中，所有预期表现出或多或少的平坦量值分布且从而示出了增加的频谱间隙。

在图14b中，在采用基于nmfd的量值估计和零相位(情况4，图66d、66d’)的情况下的预回声减少比在情况2(比较图12b)稍微糟糕一些。这支持了早先的发现：弱的初始相位估计最受益于应用所提出的方法的很多次迭代。使用的gl重构(情况3，图66c、66c’)随着迭代稍微增加了预回声能量。相对地，应用tr重构得到了良好的改进。

在图9中，详细示出了对来自示例鼓循环的所选择踩镲开始的不同重构。不管使用的量值估计(图9b中的神谕或图9c中的基于nmfd)如何，所提出的tr重构(下方)清楚地呈现出与传统gl重构(上方)相比减少的预回声。通过非正式的听力测试(优选地使用头戴式耳机)，可以清楚地指出在开始清楚性方面的差异，这可以通过使用mstft初始化和重构方法的不同组合来实现。即使在不完美量值分解导致单个分量信号中不需要的串扰伪像的情况中，根据实施例的tr方法也比传统gl重构更好地保存了瞬态特性。此外，将混合相位用于mstft初始化看起来是良好的选择，因为经常可以注意到在鼓事件的衰减相位的重构中与参与信号相比的微妙差异。然而，由不完美量值分解所引起的音色差异要远远显著的多。

实施例示出了对griffin和lim的迭代lsee-mstftm过程的高效扩展，用于改进音乐源分离中对瞬态信号分量的恢复。装置、编码器、解码器或方法使用了与瞬态的位置有关的附加边信息(sideinformation)，该附加边信息可以在通知源分离场景中给出。

根据其他实施例，示出了对griffin和lim的迭代lsee-mstftm过程的高效扩展，用于改进音乐源分离中对瞬态信号分量的恢复。方法或装置使用了与瞬态的位置有关的附加边信息，该附加边信息假定在通知源分离场景中给出。针对公共可用的“idmtsmt-drums”数据集的两个试验表明：根据实施例的方法、编码器或解码器有益于减少在实验室条件下的预回声以及有益于减少针对使用现有技术的源分离技术而获得的分量信号的预回声。

根据实施例，改进了在音乐源分离的上下文中提取的瞬态信号分量的感知质量。很多现有技术基于对混合信号的量值短时傅立叶变换(stft)应用合适的分解。用于重构单独分量信号的相位信息通常取自混合，导致复值的经修改stft(mstft)。存在用于重构时域信号的不同方法，该时域信号的stft近似于目标mstft。由于相位不一致性，这些经重构的信号有可能包含诸如在瞬态分量之前的预回声之类的伪像。实施例示出了对griffin和lim的迭代信号重构过程的扩展，以补救该问题。使用公共可用测试集的仔细设计的试验表明该方法或装置相当程度地减弱了预回声，同时依然表现出与原始方案相似的收敛性质。

在另一试验中，示出了该方法或装置相当程度地减弱了预回声，同时依然表现出与griffin和lim的原始方案相似的收敛性质。涉及得分通知的音频分解的第三试验也表明了改进。

以下附图将涉及与装置2有关的其他实施例。

图15示出了用于对音频信号4进行编码的音频编码器100。音频编码器包括音频信号处理器和包络确定器。音频信号处理器102被配置用于对时域音频信号进行编码，使得经编码的音频信号108包括该时域音频信号的频域帧序列的表示和目标时域包络106的表示。包络确定器被配置用于根据该时域音频信号来确定包络，其中，包络确定器还被配置为比较该包络与预定包络集合，以基于该比较来确定目标时域包络的表示。包络可以是音频信号的一部分的时域包络，例如音频信号的帧或另一部分的包络。此外，可以向音频信号处理器提供包络，该音频信号处理器可以被配置为在经编码的音频信号中包括该包络。

换言之，可以通过确定包络，例如音频信号的一部分(例如，帧)的时域包络，将(标准)音频编码器扩展为音频编码器100。可以将所导出的包络与码本或查找表中的一组或多个预定时域包络进行比较。可以使用例如一定数目的比特对最佳拟合预定包络的位置进行编码。因此，可以使用四个比特对例如16个不同预定时域包络进行寻址，可以使用五个比特对例如32个不同预定时域包络进行寻址，或取决于不同的预定时域包络的数目而使用任何其他数目的比特。

图16示出了包括装置2和输入接口112在内的音频解码器110。输入接口112可以接收经编码的音频信号。经编码的信号可以包括频域帧序列的表示和目标时域包络的表示。

换言之，解码器110可以从例如编码器100接收经编码的音频信号。输入接口112或装置2或另一手段可以提取目标时域包络14或其表示，例如指示查找表或码本中的目标时域包络的位置的比特序列。此外，装置2可以通过例如调整经编码的音频信号的受破坏相位且依然具有未被破坏的量值对经编码的音频信号108进行解码，或者该装置可以校正经解码音频信号的相位值，例如来自解码单元，其充分或甚至完美的对经编码的音频信号的频谱量值进行了解码，且该装置还调整经解码音频信号的相位(该相位可能被解码单元所破坏)。

图17示出了包括频域帧序列12的表示和目标时域包络14的表示在内的音频信号114。时域音频信号12的频域帧序列的表示可以是根据标准音频编码方案的经编码的音频信号。此外，目标时域包络14的表示可以是目标时域包络的比特表示。该比特表示可以是例如使用对目标时域包络的采样和量化来导出的，或者是通过进一步数字化方法来导出的。此外，目标时域包络14的表示可以是例如由一定数量的比特来指示或编码的码本或查找表的索引。

图18示出了根据实施例的音频源分离处理器116的示意框图。音频源分离处理器116包括装置2和频谱遮蔽器118。频谱遮蔽器可以遮蔽原始音频信号4的频谱，以导出经修改的音频信号120。与原始音频信号4相比，经修改的音频信号120可以包括减少数目的频带或时间频率区间。此外，经修改的音频信号可以仅包括音频信号4的一个源或一个乐器或一个(人类)说话者，其中，隐藏或遮蔽掉其他源、说话者或乐器的频率贡献。然而，由于经修改的音频信号120的量值可以与(所需的)经处理的音频信号6的量值匹配，因此经修改的音频信号的相位值可能受到破坏。因此，装置2可以将经修改的音频信号的相位值相对于目标时域包络14来加以校正。

图19示出了根据实施例的带宽增强处理器122的示意框图。带宽增强处理器122被配置为用于处理经编码的音频信号124。此外，带宽增强处理器122包括增强处理器126和装置2。增强处理器126被配置为根据经编码的信号中包括的音频信号频带来生成增强信号127，以及其中，增强处理器126被配置为从经编码的信号122中包括的经编码的表示中提取目标时域包络14，或者从经编码的信号中包括的音频信号频带中提取目标时域包络。此外，装置2可以使用目标时域包络来处理增强信号126。

换言之，增强处理器126可以对音频信号频带进行核心编码，或者接收经编码的音频信号的经核心编码的音频信号。此外，增强处理器126可以使用例如经编码的音频信号和音频信号的经核心编码部分的示例参数来计算音频信号的其他频带。此外，目标时域包络14可以存在于经编码的音频信号124中，或者增强处理器可以被配置为根据音频信号的基带部分来计算目标时域包络。

图20示出了频谱的示意表示图。按比例因子频带scb来细分频谱，其中在图20所示示例中存在七个比例因子频带scb1至scb7。比例因子频带可以是在aac标准中定义的aac比例因子频带，并且对于上部频率具有增加的带宽，如图20所示意性示出的。优选地，不是从频谱的一开始(即在低频率处)执行智能间隙填充，而是在309处所示的igf起始频率处开始igf操作。因此，核心频带从最低频率延伸到igf起始频率。在igf起始频率之上，应用频谱分析以从由具有第二频谱部分的第二集合所表示的低分辨率分量中分离出高分辨率频谱分量304、305、306、307(具有第一频谱部分的第一集合)。图20示出了被示例性输入到增强处理器126中的频谱，即，核心编码器可以在全范围中操作，但是编码了大量的零频谱值，即这些零频谱值在量化之前或在量化之后被量化为零或被设置为零。无论如何，核心编码器在全范围中操作，即，就好像频谱将如图所示一样，即，核心解码器不必意识到对具有较低的频谱分辨率的第二频谱部分的第二集合的任何智能间隙填充或编码。

优选地，高分辨率由诸如mdct线之类的谱线的逐线编码来定义，而第二分辨率或低分辨率通过例如仅计算每个比例因子频带的单个频谱值来定义，其中比例因子频带覆盖若干频率线。因此，就其频谱分辨率而言，第二低分辨率比由核心编码器(例如aac或usac核心编码器)通常应用的逐行编码所定义的第一或高分辨率低得多。

由于编码器是核心编码器的这一事实并且由于可以(但不一定必须)存在每个频带中的频谱部分的第一集合的分量的这一事实，核心编码器不仅在低于igf起始频率309的核心范围内，而且还在高于igf起始频率一直到最大频率中计算针对每个频带的比例因子，该最大频率小于或等于采样频率的一半，即，fs/2。因此，图20的经编码音调部分302、304、305、306、307以及在该实施例中与比例因子scb1至scb7一起对应于高分辨率频谱数据。低分辨率频谱数据从igf起始频率开始计算并且对应于能量信息值e1、e2、e3、e4，它们与比例因子sf4到sf7一起被发送。

特别地，当核心编码器处于低比特率条件下时，可以另外应用核心频带(即频率比tgf起始频率低，即，比例因子频带scb1至scb3)中的附加的噪声填充操作。在噪声填充中，存在已被量化为零的若干相邻频谱线。在解码器侧，这些被量化为零频谱值的频谱值被重新合成，并且使用噪声填充能量在它们的量值方面调整经重新合成的频谱值。可以以绝对项或以具体地相对于在usac中的比例因子的相对项给出的噪声填充能量对应于被量化为零的频谱值集合的能量。这些噪声填充频谱线还可以被认为是具有第三频谱部分的第三集合，其通过直接噪声填充合成来再生，而没有依赖于使用来自其它频率的频率拼块(frequencytile)的频率再生的任何igf操作，该igf操作用于使用来自源范围的频谱值和能量信息e1、e2、e3、e4来重构频谱拼块。

优选地，计算能量信息所针对的频带与比例因子频带一致。在其它实施例中，应用能量信息值分组，使得例如对于比例因子频带4和5，仅发送单个能量信息值，但即使在该实施例中，经分组的重构频带的边界也与比例因子频带的边界一致。如果应用不同的频带间隔，则可以应用某些重新计算或同步计算，并且这取决于特定实现而可以是有意义的。

经编码的音频信号124的经核心编码部分或经核心编码频带可以包括音频信号的直到igf起始频率309的截止频率为止的高分辨表示。在该igf起始频率309之上，音频信号可以包括例如使用参数化编码以低分辨率来编码的比例因子频带。然而，使用经核心编码的基带部分和例如参数，可以对经编码的音频信号124进行解码。这可以被执行一次或多次。

这可以提供对甚至高于第一截止频率130的量值的良好重构。然而，至少在连续比例因子频带之间的截止频率周围，由于将经核心编码的基带部分填充到高于igf起始频率309的更高频率，因此经核心编码的基带部分128的最上或最高频率可以与经核心编码的基带部分的最低频率相邻，相位值可能受到破坏。因此，可以向装置2中输入经基带重构的音频信号，以重建经带宽扩展的信号的相位。

此外，带宽增强是适用的，因为经核心编码的基带部分包括与原始音频信号有关的很多信息。这导致以下结论：即使原始音频信号的包络由于音频信号的其他高频分量(其在经核心编码的基带部分中不存在或没有)而更加减弱，经核心编码的基带部分的包络也至少类似于原始音频信号的包络。

图21在上方示出了在第一数目迭代步骤之后的(中间)时域重构的示意表示图，以及在图21的下方示出了在大于第一数目迭代步骤的第二数目迭代步骤之后的(中间)时域重构的示意表示图。相对较高的波纹132由于频域帧序列的相邻帧的不一致性而产生。通常，从时域信号开始，时域信号的stft的逆stft再次得到该时域信号。本文中，相邻频域帧在应用stft之后是一致的，使得逆stft运算的重叠和相加过程最终得到或揭示原始信号。然而，从具有受破坏相位值的频域开始，相邻频域帧并不一致(即，不一致)，其中，频域信号的istft的stft不导致正确或一致的音频信号，如图21的上部所示。然而，在数学上证明了如果对原始量值迭代应用该算法，该算法在每个迭代步骤中减少了波纹132，得到(接近完美)重构的音频信号，如图21的下部所示。本文中，减少了波纹132。换言之，中间时域信号的量值转换为在每个迭代步骤之后频域帧序列的初始量值。必须注意到：在连续合成窗口136之间的跳跃大小0.5是为了方便而选择的，且可以被设置为任何恰当的值，例如0.75。

图22示出了用于处理音频信号以获得经处理的音频信号的方法2200的示意框图。该方法2200包括以下步骤2205：计算表示音频信号的重叠帧的频域帧序列的频谱值的相位值，其中，基于和与经处理的音频信号有关的目标时域包络相关的信息来计算相位值，使得经处理的音频信号至少近似具有该目标时域包络和由频域帧序列所确定的频谱域包络。

图23示出了音频解码的方法2300的示意框图。方法2300在步骤2305中包括方法2200，以及在步骤2310中包括：接收经编码的信号，该经编码的信号包括频域帧序列的表示和目标时域包络的表示。

图24示出音频源分离的方法2400的示意框图。方法2400包括用于执行方法2200的步骤2405，以及包括以下步骤2410：遮蔽原始音频信号的频谱，以获得向用于处理的装置中输入的经修改的音频信号，其中，经处理的音频信号是与目标时域包络有关的分离的源信号。

图25示出了对经编码的音频信号进行带宽增强的方法的示意框图。方法2500包括：步骤2505，根据经编码的信号中包括的音频信号频带来生成增强信号；步骤2510，执行方法2200；以及步骤2515，其中，一般操作包括：从经编码的信号中包括的经编码的表示中提取目标时域包络，或者从经编码的信号中包括的音频信号频带中提取目标时域包络。

图26示出了音频编码的方法2600的示意框图。方法2600包括：步骤2605，对时域音频信号进行编码，使得经编码的音频信号包括时域音频信号的频域帧序列的表示和目标时域包络的表示；以及步骤2610，根据时域音频信号来确定包络，其中，包络确定器还被配置为比较该包络与预定包络集合，以基于该比较来确定目标时域包络的表示。

此外，本发明的实施例涉及以下示例。这可以是用于以下各项的方法、装置或计算机程序：

1)根据时间-频率域表示来迭代重构时域信号，

2)生成针对量值和相位信息的初始估计和时间-频率域表示，

3)在迭代期间对某些信号属性应用中间信号操作，

4)将时间-频率域表示变换回时域，

5)用任意幅度包络来调制中间时域信号，

6)将经调制的时域信号变换回时间-频率域，

7)使用作为结果的相位信息来更新时间-频率域表示，

8)按照时间-频率域过程对逆变换和前向变换的序列进行仿真，该时间-频率域过程向中心帧添加了来自相邻帧的特别卷积和移位的贡献，

9)通过使用截断卷积核并利用对称属性来近似上述过程，

10)通过将所需帧于目标包络的时间-频率表示进行卷积对时域调制进行仿真，

11)以依赖于时间-频率的方式来应用时间-频率域操作，例如仅对所选时间-频率区间应用该操作，或者

12)将上述过程用于感知音频编码、音频源分离、和/或带宽增强。

对根据实施例的装置或方法应用音频分解场景中的多类评估，其中，目的是从多音色鼓录音中提取隔离的鼓声。可以使用公共可用的测试集，其富有所有必要的边信息，例如真实“神谕”分量信号及其精确瞬态位置。在一个试验中，在实验室条件下，使用了所有边信息，以专注于评估所提出的方法或装置对于信号重构中的瞬态保存的好处。在这些理想化条件下，所提出的方法可以相当程度地减弱预回声，同时依然呈现出与原始方法或装置相似的收敛特性。在另一试验中，采用了具有得分通知约束的最新分解技术[3，4]，以根据混合来估计分量信号的stftm。在这些(更现实)的条件下，所提出的方法依然得到了显著的改进。

应当理解：在本说明书中，线上的信号有时以线的附图标记来命名，或者有时用向这些线分配的他们自己的附图标记来指示。因此，标注使得具有特定信号的线正在指示该信号本身。线可以是硬连线实现中的物理线。然而在计算机化实现中，物理线可能不存在，但是由该线表示的信号是从一个计算模块向另一计算模块发送的。

尽管已在框图的背景(其中，所述块表示真实的或逻辑的硬件组件)下描述了本发明，但本发明也可以实现为计算机实施方法。在后者的情况下，块表示相应方法步骤，其中这些步骤代表由对应逻辑或实体硬件块执行的功能。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。

本创造性的经发送或编码的信号可以存储在数字存储介质上或可以在诸如无线传输介质或有线传输介质(例如，互联网)的传输介质上传输。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、dvd、blu-ray、cd、rom、prom和eprom、eeprom或闪存)来执行该实现，控制信号与可编程计算机系统合作(或能够与之合作)，使得执行各个方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本创造性方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本创造性方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质的非暂时性存储介质)，包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。

因此，本创造性方法的另一实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，配置为或适用于执行本文所述的方法之一的计算机或可编程逻辑器件。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传输计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是：本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

参考文献

[1]danielw.griffinandjaes.lim，“signalestimationfrommodifiedshort-timefouriertransform”，ieeetransactionsonacoustics，speechandsignalprocessing，vol.32，no.2，pp.236-243，april1984.

[2]jonathanleroux，nobutakaono，andshigekisagayama，“explicitconsistencyconstraintsforstftspectrogramsandtheirapplicationtophasereconstruction”inproceedingsoftheiscatutorialandresearchworkshoponstatisticalandperceptualaudition，brisbane，australia，september2008，pp.23-28.

[3]xingleizhu，geraldt.beauregard，andloncel.wyse，“real-timesignalestimationfrommodifiedshort-timefouriertransformmagnitudespectra”，ieeetransactionsonaudio，speech，andlanguageprocessing，vol.15，no.5，pp.1645-1653，july2007.

[4]jonathanleroux，hirokazukameoka，nobutakaono，andshigekisagayama，“phaseinitializationschemesforfasterspectrogram-consistency-basedsignalreconstruction”inproceedingsoftheacousticalsocietyofjapanautumnmeeting，september2010，number3-10-3.

[5]nicolassturmelandlaurentdaudet，“signalreconstructionfromstftmagnitude：astateoftheart”inproceedingsoftheinternationalconferenceondigitalaudioeffects(dafx)，paris，france，september2011，pp.375-386.

[6]perraudin，peterbalazs，andpeterl.“afastgriffin-limalgorithm”inproceedingsieeeworkshoponapplicationsofsignalprocessingtoaudioandacoustics(waspaa)，newpaltz，ny，usa，october2013，pp.1-4.

[7]dennisl.sunandjuliuso.smithiii，“estimatingasignalfromamagnitudespectrogramviaconvexoptimization”inproceedingsoftheaudioengineeringsociety(aes)convention，sanfrancisco，usa，october2012，preprint8785.

[8]tomohikonakamuraandhiokazukameoka，“fastsignalreconstructionfrommagnitudespectrogramofcontinuouswavelettransformbasedonspectrogramconsistency”inproceedingsoftheinternationalconferenceondigitalaudioeffects(dafx)，erlangen，germany，september2014，pp.129-135.

[9]volkergnannandmartinspiertz，“inversionofshorttimefouriertransformmagnitudespectrogramswithadaptivewindowlengths”inproceedingsoftheieeeinternationalconferenceonacoustics，speech，andsignalprocessing，(icassp)，taipei，taiwan，april2009，pp.325-328.

[10]jonathanleroux，hirokazukameoka，nobutakaono，andshigekisagayama，“fastsignalreconstructionfrommagnitudestftspectrogrambasedonspectrogramconsistency”inproceedingsinternationalconferenceondigitalaudioeffects(dafx)，graz，austria，september2010，pp.397-403.

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：克里斯蒂安·迪特马尔;梅纳德·穆勒;萨沙·迪施
技术所有人：弗劳恩霍夫应用研究促进协会
我是此专利的发明人