专利名称:提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码的制作方法
技术领域:
本发明涉及音频编码和解码,并且具体地针对具有谐波或语音内容的、可受到时间扭曲处理的音频信号的编码/解码。
背景技术:
在下文中,将给出对时间扭曲音频编码的领域的简要说明,该编码的概念可结合本发明的一些实施例一起应用。近年来,技术上的发展可将音频信号变换为频域表示,并且例如考虑到感知屏蔽阈值,可以对该频域表示进行有效地编码。如果发送编码频谱系数组的块长度很长,且如果仅相当小数目的频谱系数远在该全局屏蔽阈值之上,同时很大数目的频谱系数在该全局屏蔽阈值附近或之下并可能因而被忽略(或以最小码长进行编码)时,该音频信号编码的概念特别有效。例如,基于余弦或基于正弦的调制的重叠变换通常由于它们的能量压缩性质而用于源编码的应用。即,对于具有恒定基本频率(音调)的谐音而言,它们将信号能量浓缩于小数目的频谱分量(子频带)中,这导致了有效的信号表示。大体而言,应当将信号的(基本)音调理解为可与该信号频谱相区别的最低主频率。在普通语音模型中,该音调是由人类喉咙调制的激励信号的频率。如果仅一个单一基本频率存在,该频谱将极其简单,仅包括该基本频率及泛音。可以高效地对这种频谱编码。然而,对于具有变化音调的信号,对应于每个谐波分量的能量散布于若干变换系数上,因而导致编码效率的减少。为了克服编码效率的减少,在不均匀时间网格上对要编码的音频信号有效地重新采样。在随后的处理中,对通过不均匀重新采样所获得的采样位置就好像它们表示均匀时间网格上的值一样进行处理。该操作一般由短语“时间扭曲”来表示。可取决于该音调的时间变化来有利地选择采样时间,使得该音频信号的时间扭曲版本中的音调变化小于该音频信号的原始版本(时间扭曲前)中的音调变化。该音调变化也可用短语“时间扭曲轮廓”表示。在音频信号的时间扭曲之后,将该音频信号的时间扭曲版本转换为频域。该依赖于音调的时间扭曲具有如下效果时间扭曲音频信号的频域表示一般地显示出将能量压缩成远远小于该原始音频信号(未被时间扭曲)的频域表示的频谱分量数目。在解码器侧,将该时间扭曲音频信号的频域表示转换回时域,使得该时间扭曲音频信号的时域表示在解码器侧可用。然而,在解码器侧重建时间扭曲音频信号的时域表示中,不包括该编码器侧输入音频信号的原始音调变化。因此,通过对时间扭曲音频信号的解码器侧重建时域表示进行重新采样,来应用另一时间扭曲。为了在解码器处获得对编码器侧输入音频信号的良好重建,需要解码器侧时间扭曲至少近似编码器侧时间扭曲的反操作。为了获得恰当的时间扭曲,需要让允许调整解码器侧时间扭曲的信息在解码器处可用。因为一般要求将这种信息从音频信号编码器传输至音频信号解码器,需要将该发送所需的比特率保持为小,同时仍允许在解码器侧可靠重建所需的时间扭曲信息。鉴于上述讨论,需要创建一种概念,其允许有效应用音频编码器中时间扭曲概念的比特率。
发明内容
本发明的目的是创建以下概念基于在时间扭曲音频信号编码器或时间扭曲音频信号解码器中可用的信息,来增强由编码音频信号所提供的听觉印象。由根据权利要求1所述的用于基于音频信号的表示来提供时间扭曲激活信号的时间扭曲激活信号提供器、根据权利要求12所述的用于对输入音频信号编码的音频信号编码器、根据权利要求14所述的用于提供时间扭曲激活信号的方法、根据权利要求15所述的用于提供输入音频信号的编码表示的方法、或根据权利要求16所述的计算机程序来达成该目的。本发明的另一目的是提供一种增强的音频编码/解码方案,该方案提供较高的质量或较低的比特率。由根据权利要求17、26、32、37所述的音频编码器、根据权利要求20所述的音频解码器、根据权利要求23、30、35或37所述的音频编码方法、根据权利要求24所述的解码方法、或根据权利要求25、31、36或43所述的计算机程序来达成该目的。根据本发明的实施例与用于时间扭曲MDCT变换编码器的方法相关。一些实施例仅与编码器工具相关。然而,其它实施例还与解码器工具相关。本发明的实施例创建时间扭曲激活信号提供器,其用于基于音频信号的表示来提供时间扭曲激活信号。该时间扭曲激活信号提供器包括能量压缩信息提供器,被配置为提供能量压缩信息,该信息描述音频信号的时间扭曲变换频谱表示中的能量压缩。该时间扭曲激活信号提供器还包括比较器,该比较器被配置为将能量压缩信息与参考值相比较,且取决于比较结果来提供时间扭曲激活信号。该实施例基于如下发现如果音频信号的时间扭曲变换频谱表示由于将能量浓缩于一个或多个频谱区域(或频谱线)而包括充分压缩的能量分布,则从编码音频信号的比特率减少的意义上来说,音频信号编码器中的时间扭曲功能性的使用一般带来增强。这是由于如下的事实通过将模糊频谱(例如音频帧的模糊频谱)变换为具有一个或多个可辨别波峰的频谱,且因此变换为具有比原始(未时间扭曲)音频信号的频谱更高的能量压缩的频谱,则成功的时间扭曲带来减少比特率的效果。关于此问题,应理解音频信号帧(在该帧中音频信号的音调显著地变化)包括模糊频谱。音频信号的时间变化音调具有如下效果在音频信号帧上执行的时域到频域的变换导致信号能量在频域,具体地在较高频域,上的模糊分布。因此,这种原始(未时间扭曲)音频信号的频谱表示包括低能量压缩,且一般在该频谱的较高频率部分不显示频谱波峰,或仅在频谱中较高频率部分显示相对小的频谱波峰。相对地,如果时间扭曲成功(就提供该编码效率的增强而言),该原始音频信号的时间扭曲产生具有相对较高且清晰的波峰的频谱(具体地在该频谱的较高频率部分中)的时间扭曲音频信号。这是由于以下事实将具有时间变化音调的音频信号变换为具有较小音调变化或甚至近似恒定音调的时间扭曲音频信号。因此,该时间扭曲音频信号的频谱表示(可以将其视为该音频信号的时间扭曲变换频谱表示)包括一个或多个清晰频谱波峰。换言之,通过成功的时间扭曲操作来减少该原始音频信号(具有在时间上变化的音调)频谱的模糊,使得该音频信号的时间扭曲变换频谱表示包括比原始音频信号的频谱更高的能量压缩。然而,时间扭曲在增强编码效率中并不总是成功。例如,如果输入音频信号包括大的噪声分量,或如果所提取的时间扭曲轮廓不精确,则时间扭曲不增强编码效率。鉴于该情况,由能量压缩信息提供器提供的能量压缩信息就减少比特率而言是判定该时间扭曲是否成功的有价值指示符。本发明的实施例创建时间扭曲激活信号提供器,用于基于音频信号的表示提供时间扭曲激活信号。该时间扭曲激活提供器包括两个时间扭曲表示提供器,所述两个时间扭曲标识提供器被配置为使用不同的时间扭曲轮廓信息来提供该相同音频信号的两个时间扭曲表示。因此,该时间扭曲表示提供器可以用相同的方式配置(在结构上或功能上),且使用相同音频信号但是不同的时间扭曲轮廓信息。该时间扭曲激活信号提供器还包括两个能量压缩信息提供器,所述两个能量压缩信息提供器被配置为基于第一时间扭曲表示提供第一能量压缩信息,且基于第二时间扭曲表示提供第二能量压缩信息。该能量压缩信息提供器可以用相同方式配置,但是使用不同的时间扭曲表示。此外,该时间扭曲激活信号提供器包括比较器,以将两个不同能量压缩信息进行比较,且提供取决于比较结果的时间扭曲激活信号。在优选实施例中,该能量压缩信息提供器被配置为提供作为能量压缩信息的频谱平坦度度量,该频谱平坦度度量描述该音频信号的时间扭曲变换频谱表示。已发现如果时间扭曲将输入音频信号变换为表不该输入音频信号的时间扭曲版本的较不平坦的时间扭曲频谱时,就减少比特率而言,时间扭曲是成功的。因此,频谱平坦度度量可以用于判定在不执行全频谱编码处理的情况下,应当激活还是停用时间扭曲。在优选实施例中,该能量压缩信息提供器被配置为计算该时间扭曲变换功率频谱的几何平均与该时间扭曲变换功率频谱的算术平均的商,以获得频谱平坦度度量。已发现该商是非常适于描述通过时间扭曲来获得的可能比特率节约的频谱平坦度度量。在另一优选实施例中,该能量压缩信息提供器被配置为当与时间扭曲变换频谱表示的较低频率部分相比时,强调时间扭曲变换频谱表示的较高频率部分,以获得该能量压缩信息。该概念基于如下发现时间扭曲在较高频率范围上一般比在较低频率范围上具有更大的影响。因此,为了确定使用频谱平坦度度量的时间扭曲的有效性,主要评估该较高频率范围是恰当的。此外,典型的音频信号显示谐波内容(包括基本频率的谐波),其随频率的增加在强度上衰减。当与时间扭曲变换频谱表示的较低频率部分相比时,强调该时间扭曲变换频谱表示的较高频率部分也有助于补偿该频谱线随频率增加的这种典型衰减。总而言之,对频谱的较高频率部分的强调导致了能量压缩信息的可靠性增加,并因此允许更可靠地提供时间扭曲激活信号。在另一优选实施例中,能量压缩信息提供器被配置为提供频谱平坦度的多个逐频带度量,且被配置为计算频谱平坦度的多个逐频带度量的平均值,以获得该能量压缩信息。已发现逐频带频谱平坦度度量的考虑导致了与时间扭曲是否有效减少编码音频信号比特率的特别可靠信息。首先,一般以逐频带方式来执行对时间扭曲变换频谱表示的编码,使得频谱平坦度的该逐频带度量的组合非常适于该编码,且因此以良好精确度表示可获得的比特率增强。此外,频谱平坦度度量的逐频带计算实质上消除了能量压缩信息对谐波分布的依赖性。例如,即使较高频带包括相对小的能量(小于较低频带的能量),该较高频带可能仍然在感知上是相关的。然而,如果不以逐频带方式来计算该频谱平坦度度量,则在该较高频带上的时间扭曲的积极影响(从该频谱线的模糊的减少的意义上说)可能仅因该较高频带上的能量小而被认为是小的。相对地,通过应用逐频带计算,可以用恰当的权重来考虑时间扭曲的积极影响,因为该逐频带频谱平坦度度量独立于各自频带中的绝对能量。在另一优选实施例中,该时间扭曲激活信号提供器包括参考值计算器,所述参考值计算器被配置为计算频谱平坦度度量,以获得该参考值,该度量描述音频信号的未时间扭曲的频谱表示。因此,可基于输入音频信号的未时间扭曲(或“未扭曲的”)版本的频谱平坦度与输入音频信号的时间扭曲版本的频谱平坦度的比较来提供该时间扭曲激活信号。在另一优选实施例中,该能量压缩信息提供器被配置为提供作为能量压缩信息的感知熵度量,该度量描述音频信号的时间扭曲变换频谱表示。此概念基于下述发现时间扭曲变换频谱表示的感知熵是对编码该时间扭曲变换频谱所需要的比特数目(或比特率)的良好估计。因此,甚至由于如果使用时间扭曲,则必须对附加时间扭曲信息编码,该时间扭曲变换频谱表示的感知熵度量是是否可通过时间扭曲来预期比特率减少的良好度量。在另一优选实施例中,该能量压缩信息提供器被配置为提供作为能量压缩信息的自相关度量,该度量描述音频信号的时间扭曲表示的自相关。该概念基于如下发现可以基于时间扭曲(或不均匀重新采样)的时域信号来测量(或至少估计)时间扭曲的效率(就减少比特率而言)。已发现如果时间扭曲时域信号包括由自相关度量反映的相对高度的周期性,则时间扭曲是有效率的。相对地,如果时间扭曲时域信号不包括显著的周期性,则可以推断该时间扭曲是无效率的。该发现基于如下事实有效时间扭曲将变化频率(不包括周期性)的正弦信号的一部分变换为接近恒定频率(包括高度的周期性)的正弦信号的一部分。相对地,如果时间扭曲不能提供具有高度周期性的时域信号,那么可预期时间扭曲也不提供可证明其应用可行的显著比特率节约。在优选实施例中,该能量压缩信息提供器被配置为确定音频信号的时间扭曲表示的归一化自相关函数的绝对值之和(对多个延迟值),以获得该能量压缩信息。已发现在估计时间扭曲的效率上不要求对自相关峰值的计算复杂的确定。而是,已发现对(大)范围的自相关延迟值上的自相关的求和评估也产生非常可靠的结果。这是由于如下事实时间扭曲实际上将变化频率的多个信号分量(例如,基本频率及其谐波)变换为周期性信号分量。因此,这种时间扭曲信号的自相关在多个自相关延迟值处显示波峰。因此,求和形式是从自相关提取能量压缩信息的计算上高效率的方式。在另一优选实施例中,该时间扭曲激活信号提供器包括参考值计算器,所述参考值计算器被配置为基于音频信号的未时间扭曲频谱表示,或基于音频信号的未时间扭曲时域表示,来计算参考值。在该情况中,比较器一般被配置为使用能量压缩信息及参考值形成比值,该能量压缩信息描述音频信号的时间扭曲变换频谱的能量压缩。该比较器也被配置为将该比值与一个或多个阈值进行比较,以获得时间扭曲激活信号。已发现在未时间扭曲情况中的能量压缩信息与在时间扭曲情况中的能量压缩信息之间的比率允许产生计算上高效率但仍充分可靠的时间扭曲激活信号。本发明的另一优选实施例创建音频信号编码器,用于对输入音频信号编码,以获得该输入音频信号的编码表示。音频信号编码器包括时间扭曲变换器,被配置为基于输入音频信号,提供时间扭曲变换频谱表示。该音频信号编码器还包括如上所述的时间扭曲激活信号提供器。该时间扭曲激活信号提供器被配置为接收输入音频信号,且提供能量压缩信息,使得该能量压缩信息描述该输入音频信号的时间扭曲变换频谱表示中的能量压缩。该音频信号编码器还包括控制器,被配置为取决于时间扭曲激活信号,向时间扭曲变换器选择性地提供发现的非恒定(变化)时间扭曲轮廓部分或时间扭曲信息,或标准恒定(不变)时间扭曲轮廓部分或时间扭曲信息。这样,有可能选择性地接受或拒绝由该输入音频信号的编码音频信号表示推导出的发现的非恒定时间扭曲轮廓部分。该概念基于下述发现将时间扭曲信息引入该输入音频信号的编码表示并不总是有效,因为要求相当可观数目的比特用于编码该时间扭曲信息。此外,已发现由时间扭曲激活信号提供器计算出的能量压缩信息是判定将该发现的变化(非恒定)时间扭曲估计部分还是标准(不变、恒定)时间扭曲轮廓提供给时间扭曲变换器是否有利的一种计算上高效率的度量。已注意到当该时间扭曲变换器包括重叠变换时,可在两个或更多随后的变换块的计算中使用发现的时间扭曲轮廓部分。具体地,已发现为了能做出时间扭曲是否允许比特率的节约的判定,并无必要使用新发现的变化时间扭曲轮廓部分对该输入音频信号的时间扭曲变换频谱表示版本进行完全编码,以及并无必要使用标准(不变)时间扭曲轮廓部分对该输入音频信号的时间扭曲变换频谱表示版本进行完全编码。而是,已发现对输入音频信号的时间扭曲变换频谱表示的能量压缩的评估形成了该判定的可靠基础。因此,可以将所需的比特率保持为小。在又一优选实施例中,该音频信号编码器包括输出接口,被配置为取决于时间扭曲激活信号,选择性地包括时间扭曲轮廓信息,该信息将发现的变化时间扭曲轮廓表示为该音频信号的编码表示。因此,可获得高效的音频信号编码,而不管该输入信号是否非常适合于时间扭曲。根据本发明的另一实施例创建一种基于音频信号来提供时间扭曲激活信号的方法。该方法实现时间扭曲激活信号提供器的功能,且可由本文中与时间扭曲激活信号提供器相关描述的任何特征及功能来补充。根据本发明的另一实施例创建一种用于对输入音频信号编码,以获得输入音频信号的编码表示的方法。该方法可由本文中与音频信号编码器相关描述的任何特征及功能来补充。根据本发明的另一实施例创建一种用于执行本文所述方法的计算机程序。根据本发明的第一方面,一种音频信号分析,有利地使用音频信号是具有谐波特性还是语音特性,用于控制编码器侧和/或解码器侧的噪声填充处理。在使用时间扭曲功能的系统中易于获得该音频信号分析,因为时间扭曲功能一般包括音调追踪器和/或信号分类器,用于区分语音与音乐,和/或区分有发音语音与无发音语音。因为该信息在这种上下文中可用而不需任何此外的成本,因此可用的信息有利地用于控制该噪声填充特征,使得尤其对于语音信号,可减少谐波线之间的噪声填充,或具体地对于语音信号,甚至消除谐波线之间的噪声填充。甚至在获得强谐波内容但是语音检测器没有直接检测到语音的情况中,噪声填充的减少仍然将导致更高的感知质量。虽然该特征在无论如何也执行谐波/语音分析的系统中特别有用,且因此该信息可用且不需任何附加成本,甚至当必须将特定信号分析器插入该系统中时,对基于信号具有谐波还是语音特性的信号分析的噪声填充方案的控制也是附加有用的,因为增强质量而比特率没有增加,或换言之,比特率减少而质量没有损失,因此当减少可从编码器发送至解码器的噪声填充级别本身时,减少了用于对该噪声填充级别编码所需的比特。在本发明另一方面中,信号分析结果,即信号是谐波信号还是语音信号,用于控制音频编码器的窗口函数处理。已发现在语音信号或谐波信号开始的情况中,简单编码器将从长窗口切换至短窗口的可能性是很高的。然而这些短窗口具有对应地减少的频谱解析度,另一方面,该频率解析度将减少强谐波信号的编码增益,且因此增加对这种信号部分编码所需的比特数目。鉴于此,当检测到语音或谐波信号开始时,在本方面中定义的本发明使用比短窗口更长的窗口。备选地,选择具有与该长窗口大致相似长度的但具有更短重叠的窗口,以有效地减少前回声。大体上,音频信号的时帧具有谐波还是语音特性的信号特性用于选择针对该时帧的窗口函数。根据本发明的另一方面,基于底层信号是基于时间扭曲操作还是在线性域中来控制TNS(时域噪声修整)工具。一般地,已通过时间扭曲操作来处理的信号将具有强谐波内容。否则,与时间扭曲级相关联的音调追踪器将不会输出有效音调轮廓,且在缺少这种有效音调轮廓时,对与音频信号的该时帧将停用时间扭曲功能。然而,谐波信号将一般不适于经受TNS处理。当由TNS级处理的信号具有相当平坦的频谱时,TNS处理特别有用且产生比特率/质量上的重要增益。然而,当该信号的外观是音调的(tonal),即非平坦的,如同在具有谐波内容或有发音内容的频谱的情况中,则将减少由TNS工具提供的质量/比特率上的增益。因此,不使用该TNS工具的发明性修改,时间扭曲部分一般不由TNS处理,但是会在不使用TNS滤波的情况下来处理。另一方面,TNS的噪声修整特征仍然提供增强的质量,特别是在信号在振幅/功率上变化的情况中。在谐波信号或语音信号的开始存在,以及实施了块切换特征使得维持长窗口或者至少长于短窗口的窗口、而非该起始的情况中,该帧的时域噪声修整特征的激活将导致语音开始周围的噪声的浓缩,这有效地减少可能由于在随后的编码器处理中发生的帧量化而在语音开始之前发生的前回声。根据本发明的另一方面,由音频编码设备中的量化器/熵编码器来处理可变数目的线,以计入可变带宽,通过执行具有可变时间扭曲特性/扭曲轮廓的时间扭曲操作来引入该可变带宽。当该时间扭曲操作导致增加了时间扭曲帧中包括的帧时间(以线性)时,减少了单一频率线的带宽,且,对于恒定总带宽,在未时间扭曲情况下将增加要处理的频率线数目。另一方面,当时间扭曲操作导致在该时间扭曲域中音频信号的实际时间相对于在线性域中的音频信号块长度减少时,增加了单一频率线的频率带宽,且因此在未时间扭曲情况下,必须减少由源编码器处理的线数目,以具有减少的带宽变化或最好没有带宽变化。
随后通过附图来描述优选实施例,其中图1示出了根据本发明的实施例的时间扭曲激活信号提供器的示意框图;图2a示出了根据本发明的实施例的音频信号编码器的示意框图;图2b示出了根据本发明的实施例的时间扭曲激活信号提供器的另一示意框图;图3a示出了音频信号的未时间扭曲版本的频谱的图形表示;图3b示出了音频信号的时间扭曲版本的频谱的图形表示;图3c示出了针对不同频带的频谱平坦度度量的个别计算的图形表示;图3d示出了仅考虑频谱的较高频带部分的频谱平坦度度量的计算的图形表示;图3e示出了使用频谱表示的频谱平坦度度量的计算的图形表示,在该频谱表示中,相对于较低频率部分强调了较高频率部分;图3f示出了根据本发明的另一实施例的能量压缩信息提供器的示意框图;图3g示出了在时域中具有时间上可变音调的音频信号的图形表示;图3h示出了图3g的音频信号的时间扭曲(不均匀重新采样的)版本的图形表示;图3i示出了根据图3g的音频信号的自相关函数的图形表示;图3j不出了根据图3h的首频/[目号的自相关函数的图形表不;图3k示出了根据本发明另一实施例的能量压缩信息提供器的示意框图;图4a示出了用于基于音频信号来提供时间扭曲激活信号的方法的流程图;图4b示出了根据本发明的实施例的用于对输入音频信号编码,以获得该输入音频信号的编码表示的方法的流程图;图5a示出了具有创造性方面的音频编码器的优选实施例;图5b示出了具有创造性方面的音频解码器的优选实施例;图6a不出了本发明的噪声填充方面的优选实施例;图6b示出了定义由噪声填充级别操纵器所执行的控制操作的表格;图7a示出了根据本发明的用于执行基于时间扭曲的块切换的优选实施例;图7b示出了影响窗口函数的备选实施例;图7c示出了用于基于时间扭曲信息来说明窗口函数的另一备选实施例;图7d示出了在有发音启动处的正常AAC行为的窗口序列;图7e示出了根据本发明的优选实施例获得的备选窗口序列;图8a示出了 TNS(时域噪声整修)工具的基于时间扭曲的控制的优选实施例;图Sb示出了定义图8a中阈值控制信号产生器中所执行的控制步骤的表格;图9a_9e示出了不同的时间扭曲特性以及在解码器侧时间扭曲操作之后发生的对音频信号的带宽上的对应影响;图1Oa示出了用于控制编码处理器中的线的数目的控制器的优选实施例;图1Ob示出了针对采样率要丢弃/添加的线的数目之间的依赖性;图11示出了线性时间尺度与扭曲时间尺度之间的比较;图12a示出了在带宽扩展的上下文中的实施;以及图12b示出了表,该表示出了在时间扭曲域中的本地采样率与频谱系数的控制之间的依赖性。
具体实施例方式图1示出了根据本发明的实施例的时间扭曲激活信号提供器的示意框图。该时间扭曲激活信号提供器100被配置为接收音频信号的表示110,且基于该表示110提供时间扭曲激活信号112。时间扭曲激活信号提供器100包括能量压缩信息提供器120,被配置为提供能量压缩信息122,该信息122描述该音频信号的时间扭曲变换频谱表示的能量的压缩。时间扭曲激活信号提供器100还包括比较器130,被配置为将能量压缩信息122与参考值132作比较,以取决于该比较的结果提供时间扭曲激活信号112。如上所述,已发现能量压缩信息是允许对时间扭曲是否带来比特节约的计算上高效率估计的有价值信息。已发现比特节约的存在性与该时间扭曲是否导致能量压缩的问题密切相关。图2a示出了根据本发明的实施例的音频信号编码器200的示意框图。音频信号编码器200被配置为接收输入音频信号210 (也以a(t)标明),且基于该输入音频信号210提供该输入音频信号210的编码表示212。音频信号编码器200包括时间扭曲变换器220,被配置为接收输入音频信号210 (可在时域中表示该信号),且基于输入音频信号210提供该输入音频信号210的时间扭曲变换频谱表示222。音频信号编码器200还包括时间扭曲分析器284,被配置为分析输入音频信号210,且基于该输入音频信号210,提供时间扭曲轮廓信息286 (例如绝对或相对时间扭曲轮廓信息)。音频信号编码器200还包括切换机制,例如具有受控开关240的形式的切换机制,以判定是发现的时间扭曲轮廓信息286还是标准时间扭曲轮廓信息288用于进一步的处理。因此,该切换机制240被配置为取决于时间扭曲激活信息,选择性地将发现的时间扭曲轮廓信息286或标准时间扭曲轮廓信息288作为新时间扭曲轮廓信息242提供给例如时间扭曲变换器220用于进一步的处理。应注意,时间扭曲变换器220可例如针对音频帧的时间扭曲来使用新时间扭曲轮廓信息242 (例如新时间扭曲轮廓部分),且此外使用之前获得的时间扭曲信息(例如一个或多个之前获得的时间扭曲轮廓部分)。该可选的频谱后处理可包括例如时域噪声整修和/或噪声填充分析。音频信号编码器200还包括量化器/编码器260,被配置为接收频谱表示222 (可选地由频谱后处理250来处理),且量化及编码该变换频谱表示222。为此,量化器/编码器260可与感知模型270耦合,且从感知模型270接收感知关联信息272,以考虑感知屏蔽且根据人类感知以不同的频率槽来调整量化精确度。音频信号编码器200还包括输出接口 280,被配置为基于由量化器/编码器260所提供的已量化且编码的频谱表示262,提供该音频信号的编码表示212。音频信号编码器200还包括时间扭曲激活信号提供器230,被配置为提供时间扭曲激活信号232。时间扭曲激活信号232例如可用于控制切换机制240,以判定新发现时间扭曲轮廓信息286还是标准时间扭曲轮廓信息288用于进一步的处理步骤中(例如由时间扭曲变换器220)。此外,时间扭曲激活信息232可用于开关280中,以判定输入音频信号210的编码表示212是否包括已选择的新时间扭曲轮廓信息242 (从新发现时间扭曲轮廓信息286及标准时间扭曲轮廓信息中选择的)。一般地,如果已选择时间扭曲轮廓信息描述非恒定(变化)时间扭曲轮廓,则时间扭曲轮廓信息仅被包括在该音频信号的编码表示212中。同样,编码表示212可包括时间扭曲激活信息232其本身,例如具有指示该时间扭曲激活或停用的一比特旗标的形式。为了利于理解,应注意时间扭曲变换器220 —般包括分析加窗器220a、重新采样器或“时间扭曲器”220b及频谱域变换器(或时间/频率转换器)220c。然而,视实施而定,可将时间扭曲器220b放置于在信号处理方向上的分析加窗器220a之前。然而,在一些实施例中可将时间扭曲及时域到频谱域变换结合在单一单元中。在下文中,将描述关于时间扭曲激活信号提供器230的操作的细节。应注意时间扭曲激活信号提供器230可等效于时间扭曲激活信号提供器100。时间扭曲激活信号提供器230优选地被配置为接收时域音频信号表示210 (也以a(t)标明)、新发现时间扭曲轮廓信息286,及标准时间扭曲轮廓信息288。时间扭曲激活信号提供器230也被配置为使用时域音频信号210、新发现时间扭曲轮廓信息286及标准时间扭曲轮廓信息288,来获得描述由于新发现时间扭曲轮廓信息286而产生的能量压缩的能量压缩信息,且基于该能量压缩信息来提供时间扭曲激活信号232。图2b示出了根据本发明的实施例的时间扭曲激活信号提供器234的示意框图。时间扭曲激活信号提供器234在一些实施例中可发挥时间扭曲激活信号提供器230的作用。时间扭曲激活信号提供器234被配置为接收输入音频信号210,及两个时间扭曲轮廓信息286与288,且基于它们来提供时间扭曲激活信号234p。时间扭曲激活信号234p可发挥时间扭曲激活信号232的作用。时间扭曲激活信号提供器包括两个相同的时间扭曲表示提供器234a、234g,被配置为分别接收输入音频信号210及时间扭曲轮廓信息286与288,且基于它们分别提供两个时间扭曲表示234e及234k。时间扭曲激活信号提供器234还包括两个相同的能量压缩信息提供器234f及2341,被配置为分别接收时间扭曲表示234e及234k,且基于它们分别提供能量压缩信息234m及234η。时间扭曲激活信号提供器还包括比较器2340,被配置为接收能量压缩信息234m及234η,且基于它们提供时间扭曲激活信号234ρ0为了利于理解,应注意时间扭曲表示提供器234a与234g —般包括(可选)相同的分析加窗器234b及234h、相同的重新采样器或时间扭曲器234c及234i,及(可选)相同的频谱域变换器234d及234 j。在下文中,将讨论用于获得能量压缩信息的不同概念。事先将做介绍以说明典型音频信号上的时间扭曲效果。在下文中,将参考图3a及3b来描述音频信号上时间扭曲的效果。图3a示出了音频信号的频谱的图形表示。横坐标301描述频率,纵坐标302描述该音频信号的强度。曲线303描述了与频率f相关的非时间扭曲音频信号的强度。图3b示出了图3a中表示的音频信号的时间扭曲版本的频谱的图形表示。同样,横坐标306描述频率,纵坐标307描述该音频信号的扭曲版本的强度。曲线308描述该音频信号的时间扭曲版本的强度对频率。从图3a与3b的图形表示的比较可看出,该音频信号的未时间扭曲(“未扭曲”)版本包括模糊频谱,具体地在较高频域中。相对地,该输入音频信号的时间扭曲版本包括具有清晰可区分的频谱波峰的频谱,甚至在较高频域中。此外,甚至可在该输入音频信号的时间扭曲版本的较低频谱域中看到频谱波峰的中等锐化。应注意图3b中所示的输入音频信号的时间扭曲版本的频谱可由例如量化器/编码器260以比图3a所示的未扭曲输入音频信号的频谱更低的比特率来量化及编码。这是由于如下事实:模糊频谱一般包括很大数目的感知相关频谱系数(即相对很小数目的被量化为零或被量化为很小值的频谱系数),同时如图3所示的“不那么平坦的”频谱一般包括较大数目被量化为零或被量化为很小值的频谱系数。可以用比被量化为较高值的频谱系数更少的比特来对被量化为零或被量化为很小值的频谱系数进行编码,使得可使用比图3a的频谱更少的比特对图3b的频谱编码。然而,还应注意到时间扭曲的使用不总是导致时间扭曲信号的编码效率的显著增强。因此,在一些情况中,对时间扭曲信息(例如时间扭曲轮廓)编码所需的价格(在比特率的意义上)可能超出用于对时间扭曲变换频谱编码的节约(在比特率的意义上)(当与编码非时间扭曲变换频谱相比较时)。在此情况中,优选地使用标准(不变)时间扭曲轮廓提供该音频信号的编码表示,以控制该时间扭曲变换。因此,可忽略任何时间扭曲信息(即时间扭曲轮廓信息)的发送(除指示该时间扭曲的停用的旗标之外),从而保持该比特率很低。在下文中,将参考图3c_3k来描述用于对时间扭曲激活信号112、232、234p的可靠且计算上高效率的计算的不同概念。然而,在此之前,将简短概括该创造性概念的背景。基本假定是对具有变化音调的谐波信号应用时间扭曲使得该音调恒定,且使该音调恒定增强了通过随后的时间频率变换所获得的频谱的编码,因为仅有限数目的重要的线保留(参见图3b),而不是若干频谱容量上不同谐波的模糊(参见图3a)。然而,即使当检测到音调变化时,可忽略(例如,如果在谐波信号下有强噪声,或如果该变化太小以至较高谐波的模糊没有问题)编码增益上的增强(即所节约的比特的数量),或编码增益上的增强可少于需要将时间扭曲轮廓传输至解码器的比特的数量,或可简单地是错的。在这些情况中,优选地拒绝由时间扭曲轮廓编码器产生的变化时间扭曲轮廓(例如286),而相反使用有效的一比特信令,以信号方式发送标准(不变)时间扭曲轮廓。本发明的范围包括创建一种判定已获得的时间扭曲轮廓部分是否提供足够的编码增益(例如足以补偿时间扭曲轮廓编码所需的开销的编码增益)的方法。如上所述,时间扭曲的最重要的方面是较少数目线的频谱能量压缩(参见图3a及3b)。它们示出了能量压缩还对应于“不那么平坦的”的频谱(参见图3a及3b),因为增加了该频谱的波峰与波谷之间的差。将该能量浓缩于较少的线处,所述较少的线在具有比之前更少能量的线之间。图3a与3b示出了具有强谐波及音调变化的帧的未扭曲频谱(图3a)与同一帧的时间扭曲版本的频谱(图3b)的示意性示例。鉴于该情况,已发现将频谱平坦度度量用作该时间扭曲效率的可能的度量是有利的。可例如通过功率频谱的几何平均除以功率频谱的算术平均来计算该频谱平坦度。例如,可根据如下公式来计算该频谱平坦度(也以“平坦度”简短地标明):.Σ.'ν ,χ(")
N在上式中,χ(η)表示容量号码η的大小。此外,在上式中,N表示该频谱平坦度度量的计算所考虑到的频谱容量的总数目。在本发明的实施例中,可使用时间扭曲变换频谱表示234e、234k来执行作为能量压缩信息的“平坦度”的上述计算,使得可以保持如下关系:X (η) = IX Itw (η)在该情况中,N可以等于由频谱域变换器234d、234j提供的频谱线的数目,|Xtw(n)是时间扭曲变换频谱表示234e、234k。尽管该频谱度量是用于提供该时间扭曲激活信号的有用的量,类似于信号对噪声比(SNR)度量,该频谱平坦度度量的一个缺点是如果应用于整个频谱,则其强调具有较高能量的部分。通常,谐波频谱具有特定的频谱倾斜,意指大部分能量浓缩于头几个部分音调,然后随频率的增加而减少,导致该度量中较高部分的代表性不足。这在一些实施例中是不想要的,由于需要增强这些较高部分的质量,因为它们变得最模糊(参见图3a)。在下文中,将讨论该频谱平坦度度量的关联性的增强的若干可选概念。在根据本发明的实施例中,选择一种与所谓的“分段式SNR”度量相似的方法,导致逐频带频谱平坦度度量。在一定数目的频带中(例如分别地)执行该频谱平坦度度量的计算,且采用主要部分(或平均)。不同频带可具有相等的带宽。然而,优选地,这些带宽将遵循感知尺度,如关键频带,或对应于例如所谓的“高级音频编码”(也称为AAC)的扩缩因子频带。将在下文中参考图3c来简短解释上述概念,图3c示出了针对不同频带的频谱平坦度度量的单独计算的图形表示。如图所示,可将该频谱分为不同的频带311、312、313,它们可具有相等的带宽或可具有不同的带宽。例如,针对第一频带311,可使用例如上文给出的“平坦度”公式来计算第一频谱平坦度度量。在该计算中,可以考虑第一频带的频率槽(游动变量η可采用第一频带的频率槽的频率槽索引),且可以考虑该第一频带311的宽度(可变N可采用以第一频带的频率槽为单位的宽度)。因此,获得针对第一频带311的平坦度度量。相似地,可考虑到第二频带312的频率槽及第二频带的宽度来计算针对第二频带312的平坦度度量。此外,可以用相同方法来计算附加频带如第三频带312的平坦度度量。随后,可以计算针对不同频带311、312、313的平坦度度量的平均值,且该平均值可用作能量压缩信息。另一方法(用于该时间扭曲激活信号的导出的增强)是将该频谱平坦度度量仅应用于特定频率。图3d示出了这种方法。如图所示,针对该频谱坦平度度量的计算,仅考虑在频谱的高频部分316中的频率槽。针对该频谱平坦度度量的计算忽略该频谱的低频部分。针对该频谱平坦度度量的计算,可以逐频带的考虑高频部分316。备选地,针对该频谱平坦度度量的计算,可以作为整体地考虑全部高频部分316。综上所述,可以将频谱平坦度的减少(由时间扭曲的应用引起的)视为该时间扭曲的效果的第一度量。例如,时间扭曲激活信号提供器100、230、234(或其比较器130、234ο)可使用标准时间扭曲轮廓信息,将时间扭曲变换频谱表示234e的频谱平坦度度量与时间扭曲变换频谱表示234k的频谱平坦度度量进行比较,且基于所述比较来判定该时间扭曲激活信号是有效还是无效的。例如,当与没有时间扭曲的情况相比时,如果该时间扭曲导致频谱平坦度度量的充分减少,则通过时间扭曲激活信号的恰当设置来激活该时间扭曲。
除上述方法以外,针对该频谱平坦度的计算,可相对于低频部分来强调该频谱的高频部分(例如通过恰当的扩缩)。图3c示出了时间扭曲变换频谱的图形表示,在该时间扭曲变换频谱中,相对于低频部分强调了高频部分。因此,补偿了该频谱中的高频部分的代表性不足。因此如图3e所示,可在完成扩缩的、其中相对于低频率槽强调了高频率槽的频谱上计算平坦度度量。就比特节约而言,编码效率的典型度量将是感知熵,可以用一种如以下文献所述的方式来定义感知熵,使得其与对特定频谱进行编码所需的比特实际数目很好的联系起来:3GPP TS 26.403V7.0.0:3rdGeneration Partnership Project ;Technical Specification Group Servicesand System Aspects ;General audio codecaudio processing functions ;Enhanced aacPlus general audio codec ;Encoderspecification AAC part:Section 5.6.1.1.3Relation between bit demand andperceptual entropy。所以,该感知熵的减少是时间扭曲的效率的另一度量。图3f示出了能量压缩信息提供器325,可取代能量压缩信息提供器120、234f、2341,且可用在时间扭曲激活信号提供器100、290、234中。能量压缩信息提供器325被配置为接收该音频信号的表示,例如,以时间扭曲变换频谱表示234e、234k的形式,也以|X |tw标明。能量压缩信息提供器325还被配置为提供感知熵信息326,可取代能量压缩信息122、234m、234n。能量压缩信息提供器325包括波形因子计算器327,被配置为接收时间扭曲变换频谱表示234e、234k,且基于它们来提供波形因子信息328,该波形因子信息328可与频带相关联。能量压缩信息提供器325还包括频带能量计算器329,被配置为基于时间扭曲频谱表示234e、234k来计算频·带能量信息en(n) (330)。能量压缩信息提供器325还包括线数目估计器331,被配置为对具有索引η的频带提供线的估计数目的信息nl (332)。此外,能量压缩信息提供器325包括感知熵计算器333,被配置为基于频带能量信息330及线的估计数目的信息332,计算感知熵信息326。例如,波形因子计算器327可被配置为根据下述公式来计算波形因子:
权利要求
1.一种用于基于音频信号的表不(110 ;234e ;234k)来提供时间扭曲激活信号(112 ;232 ;234p)的时间扭曲激活信号提供器(100 ;230 ;234),所述时间扭曲激活信号提供器包括:能量压缩信息提供器(120 ;234f ;2341 ;325 ;370),被配置为提供能量压缩信息(122 ;234m ;234n ;326 ;374),所述能量压缩信息描述所述音频信号的时间扭曲变换频谱表示(222)的能量压缩;以及比较器(130 ;234o),被配置为将所述能量压缩信息(122 ;234m ;234n ;326 ;374)与参考值相比较,以及被配置为取决于比较结果提供时间扭曲激活信号(112 ;232 ;234p)。
2.根据权利要求1所述的时间扭曲激活信号提供器(100;230;234),其中,所述能量压缩信息提供器(120 ;234f ;2341)被配置为提供作为所述能量压缩信息(122 ;234m ;234η)的频谱平坦度度量,所述频谱平坦度度量描述所述音频信号的时间扭曲变换频谱表示(234e ;234k)。
3.根据权利要求2所述的时间扭曲激活信号提供器(100;230 ;234),其中,所述能量压缩信息提供器(120 ;234f ;2341)被配置为计算所述音频信号的时间扭曲变换功率频谱(234e ;234k)的几何平均与所述音频信号的时间扭曲变换功率频谱(234e ;234k)的算术平均的商,以获得所述频谱平坦度度量。
4.根据权利要求1所述的时间扭曲激活信号提供器(100;230 ;234),其中,所述能量压缩信息提供器(120 ;234f ;2341)被配置为:与所述时间扭曲变换频谱表示(234e ;234k)的较低频率部分相比时,强调所述时间扭曲变换频谱表示(234e ;234k)的较高频率部分,以获得所述能量压缩信息(122 ;234m ;234n)。
5.根据权利要求1所述的时间扭曲激活信号提供器(100;230 ;234),其中,所述能量压缩信息提供器(120 ;234m;234η)被配置为获得频谱平坦度的多个逐频带度量,以及被配置为计算所述频谱平坦 度的多个逐频带度量的平均值,以获得所述能量压缩信息(122,234m ;234n)。
6.根据权利要求1所述的时间扭曲激活信号提供器(100;230 ;234),其中,所述能量压缩信息提供器(120 ;234f ;2341 ;325)被配置为提供作为所述能量压缩信息(122 ;234m ;234η)的感知熵(pe)度量,所述感知熵(pe)度量描述所述音频信号的时间扭曲变换频谱表示(234e ;234k)。
7.根据权利要求6所述的时间扭曲激活信号提供器(100;230 ;234 ;235),其中,所述能量压缩信息提供器(120 ;234f ;2341 ;325)被配置为基于扩缩因子频带的波形因子信息(ffac(n)),计算所述音频信号的时间扭曲变换频谱表示(234e;234k)的一个或多个扩缩因子频带的非零线的估计数目(nl),以及被配置为将非零线的所述估计数目(nl)与在考察的扩缩因子频带的能量度量相乘,来计算所考察的所述扩缩因子频带的感知熵(326)度量。
8.根据权利要求1所述的时间扭曲激活信号提供器(100;230;234),其中,所述能量压缩信息提供器(120 ;234f ;2341 ;370)被配置为提供作为所述能量压缩信息的自相关度量(374),所述自相关度量(374)描述所述音频信号的时间扭曲时域表示(234e ;234k)的自相关。
9.根据权利要求8所述的时间扭曲激活信号提供器(100;230;234),其中,所述能量压缩信息提供器(120 ;234f ;2341 ;370)被配置为确定所述音频信号的时间扭曲表示(234e ;234k)的归一化自相关函数的绝对值之和,以获得所述能量压缩信息。
10.根据权利要求1所述的时间扭曲激活信号提供器(100;230),其中,所述时间扭曲激活信号提供器包括参考值计算器,所述参考值计算器被配置为基于所述音频信号的未扭曲频谱表示(210)、或基于所述音频信号的未扭曲时域表示(210),来计算所述参考值;以及其中,所述比较器被配置为使用描述所述音频信号的时间扭曲变换频谱表示的能量压缩的能量压缩信息(122)以及所述参考值,来形成比值,以及被配置为将所述比值与一个或多个阈值进行比较,以获得作为比较结果的所述时间扭曲激活信号。
11.根据权利要求1所述的时间扭曲激活信号提供器(230;234),其中,所述时间扭曲激活信号提供器包括参考值计算器,所述参考值计算器被配置为基于输入信号的时间扭曲表示(210)来计算所述参考值,所述输入信号(210)的时间扭曲表示(210)是使用标准时间扭曲轮廓信息(288)来进行时间扭曲的;以及其中,所述比较器被配置为使用描述所述音频信号的时间扭曲表示的能量压缩的所述能量压缩信息(234e)以及所述参考值,来形成比值,以及被配置为将所述比值与一个或多个阈值进行比较,以获得作为比较结果的所述时间扭曲激活信号。
12.一种用于对输入音频信号(210)编码以获得所述输入音频信号的编码表示(212)的音频信号编码器(200),所述音频信号编码器包括:时间扭曲变换器(220),被配置为基于所述输入音频信号(210),使用时间扭曲轮廓来提供时间扭曲变换频谱表示(222);根据权利要求1所述的时间扭曲激活信号提供器(100 ;230 ;234),其中,所述时间扭曲激活信号提供器被配置为接收所述输入音频信号(210),以及被配置为提供所述时间扭曲激活信号(112 ;232 ;234p);以及控制器(240),被配置为取决于所述时间扭曲激活信号(112 ;232 ;234p),选择性地向所述时间扭曲变换器(220)提供描述非恒定时间扭曲轮廓部分的新发现的时间扭曲轮廓信息(286),或提供描述恒定时间扭曲轮廓部分的标准时间扭曲轮廓信息(288),以描述由所述时间扭曲变换器(220)所使用的时间扭曲轮廓。
13.根据权利要求12所述的音频信号编码器,其中,所述音频信号编码器包括输出接(280),所述输出接(280)被配置为将所述时间扭曲变换频谱表示(222)包括在所述音频信号的编码表示(212)中,以及被配置为取决于所述时间扭曲激活信号(232)选择性地将时间扭曲轮廓信息包括在所述音频信号的编码表示(212)中。
14.一种基于音频信号提供时间扭曲激活信号的方法(400),所述方法包括:提供(410)描述所述音频信号的时间扭曲变换频谱表示的能量压缩的能量压缩信息;将所述能量压缩信息与参考值相比较(420);以及取决于比较结果来提供(430)所述时间扭曲激活信号。
15.一种用于对输入音频信号编码以获得所述输入音频信号的编码表示的方法(450),所述方法包括:提供(470)根据权利要求14的时间扭曲激活信号,其中,能量压缩信息描述所述输入音频信号的时间扭曲变换频谱表示的能量压缩;以及取决于所述时间扭曲激活信号,选择性地提供(480)所述输入音频信号的时间扭曲变换频谱表示的描述或所述输入音频信号的非时间扭曲变换频谱表示的描述,以将其包括在所述输入音频信号的编码表示中。
16.一种计算机程序,当所述计算机程序在计算机上运行时,用于执行权利要求14或15所述的方法 。
全文摘要
音频编码器包括窗口函数控制器(504)、加窗器(502)、具有最终质量检查功能的时间扭曲器(506)、时间/频率转换器(508)、TNS级(510)或量化器编码器(512),由时间扭曲分析器(516)或信号分类器(520)获得的信号分析结果来控制所述窗口函数控制器(504)、所述时间扭曲器(506)、所述TNS级(510)或附加的噪声填充分析器(524)。此外,解码器使用取决于音频信号的谐波或语音特性的经操纵的噪声填充估计来应用噪声填充操作。
文档编号G10L21/04GK103077722SQ20121049131
公开日2013年5月1日 申请日期2009年7月6日 优先权日2008年7月11日
发明者斯特凡·拜尔, 萨沙·迪施, 拉尔夫·盖格尔, 纪尧姆·福克斯, 马克斯·诺伊恩多夫, 杰拉尔德·舒勒, 贝恩德·埃德勒 申请人:弗劳恩霍夫应用研究促进协会