提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码的制作方法

文档序号:2823197阅读:214来源:国知局
专利名称:提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码的制作方法
技术领域
本发明涉及音频编码和解码,并且具体地针对具有谐波或语音内容的、可受到时 间扭曲处理的音频信号的编码/解码。
背景技术
在下文中,将给出对时间扭曲音频编码的领域的简要说明,该编码的概念可结合 本发明的一些实施例一起应用。近年来,技术上的发展可将音频信号变换为频域表示,并且例如考虑到感知屏蔽 阈值,可以对该频域表示进行有效地编码。如果发送编码频谱系数组的块长度很长,且如果 仅相当小数目的频谱系数远在该全局屏蔽阈值之上,同时很大数目的频谱系数在该全局屏 蔽阈值附近或之下并可能因而被忽略(或以最小码长进行编码)时,该音频信号编码的概 念特别有效。例如,基于余弦或基于正弦的调制的重叠变换通常由于它们的能量压缩性质而用 于源编码的应用。即,对于具有恒定基本频率(音调)的谐音而言,它们将信号能量浓缩于 小数目的频谱分量(子频带)中,这导致了有效的信号表示。大体而言,应当将信号的(基本)音调理解为可与该信号频谱相区别的最低主频 率。在普通语音模型中,该音调是由人类喉咙调制的激励信号的频率。如果仅一个单一基 本频率存在,该频谱将极其简单,仅包括该基本频率及泛音。可以高效地对这种频谱编码。 然而,对于具有变化音调的信号,对应于每个谐波分量的能量散布于若干变换系数上,因而 导致编码效率的减少。为了克服编码效率的减少,在不均勻时间网格上对要编码的音频信号有效地重新 采样。在随后的处理中,对通过不均勻重新采样所获得的采样位置就好像它们表示均勻时 间网格上的值一样进行处理。该操作一般由短语“时间扭曲”来表示。可取决于该音调的 时间变化来有利地选择采样时间,使得该音频信号的时间扭曲版本中的音调变化小于该音 频信号的原始版本(时间扭曲前)中的音调变化。该音调变化也可用短语“时间扭曲轮廓” 表示。在音频信号的时间扭曲之后,将该音频信号的时间扭曲版本转换为频域。该依赖于 音调的时间扭曲具有如下效果时间扭曲音频信号的频域表示一般地显示出将能量压缩成 远远小于该原始音频信号(未被时间扭曲)的频域表示的频谱分量数目。在解码器侧,将该时间扭曲音频信号的频域表示转换回时域,使得该时间扭曲音 频信号的时域表示在解码器侧可用。然而,在解码器侧重建时间扭曲音频信号的时域表示 中,不包括该编码器侧输入音频信号的原始音调变化。因此,通过对时间扭曲音频信号的 解码器侧重建时域表示进行重新采样,来应用另一时间扭曲。为了在解码器处获得对编码 器侧输入音频信号的良好重建,需要解码器侧时间扭曲至少近似编码器侧时间扭曲的反操 作。为了获得恰当的时间扭曲,需要让允许调整解码器侧时间扭曲的信息在解码器处可用。因为一般要求将这种信息从音频信号编码器传输至音频信号解码器,需要将该发送所需的比特率保持为小,同时仍允许在解码器侧可靠重建所需的时间扭曲信息。鉴于上述讨论,需要创建一种概念,其允许有效应用音频编码器中时间扭曲概念 的比特率。

发明内容
本发明的目的是创建以下概念基于在时间扭曲音频信号编码器或时间扭曲音频 信号解码器中可用的信息,来增强由编码音频信号所提供的听觉印象。由根据权利要求1所述的用于基于音频信号的表示来提供时间扭曲激活信号的 时间扭曲激活信号提供器、根据权利要求12所述的用于对输入音频信号编码的音频信号 编码器、根据权利要求14所述的用于提供时间扭曲激活信号的方法、根据权利要求15所 述的用于提供输入音频信号的编码表示的方法、或根据权利要求16所述的计算机程序来 达成该目的。本发明的另一目的是提供一种增强的音频编码/解码方案,该方案提供较高的质 量或较低的比特率。由根据权利要求17、26、32、37所述的音频编码器、根据权利要求20所述的音频解 码器、根据权利要求23、30、35或37所述的音频编码方法、根据权利要求M所述的解码方 法、或根据权利要求25、31、36或43所述的计算机程序来达成该目的。根据本发明的实施例与用于时间扭曲MDCT变换编码器的方法相关。一些实施例 仅与编码器工具相关。然而,其它实施例还与解码器工具相关。本发明的实施例创建时间扭曲激活信号提供器,其用于基于音频信号的表示来提 供时间扭曲激活信号。该时间扭曲激活信号提供器包括能量压缩信息提供器,被配置为提 供能量压缩信息,该信息描述音频信号的时间扭曲变换频谱表示中的能量压缩。该时间扭 曲激活信号提供器还包括比较器,该比较器被配置为将能量压缩信息与参考值相比较,且 取决于比较结果来提供时间扭曲激活信号。该实施例基于如下发现如果音频信号的时间扭曲变换频谱表示由于将能量浓缩 于一个或多个频谱区域(或频谱线)而包括充分压缩的能量分布,则从编码音频信号的比 特率减少的意义上来说,音频信号编码器中的时间扭曲功能性的使用一般带来增强。这是 由于如下的事实通过将模糊频谱(例如音频帧的模糊频谱)变换为具有一个或多个可辨 别波峰的频谱,且因此变换为具有比原始(未时间扭曲)音频信号的频谱更高的能量压缩 的频谱,则成功的时间扭曲带来减少比特率的效果。关于此问题,应理解音频信号帧(在该帧中音频信号的音调显著地变化)包括模 糊频谱。音频信号的时间变化音调具有如下效果在音频信号帧上执行的时域到频域的变 换导致信号能量在频域,具体地在较高频域,上的模糊分布。因此,这种原始(未时间扭曲) 音频信号的频谱表示包括低能量压缩,且一般在该频谱的较高频率部分不显示频谱波峰, 或仅在频谱中较高频率部分显示相对小的频谱波峰。相对地,如果时间扭曲成功(就提供 该编码效率的增强而言),该原始音频信号的时间扭曲产生具有相对较高且清晰的波峰的 频谱(具体地在该频谱的较高频率部分中)的时间扭曲音频信号。这是由于以下事实将 具有时间变化音调的音频信号变换为具有较小音调变化或甚至近似恒定音调的时间扭曲 音频信号。因此,该时间扭曲音频信号的频谱表示(可以将其视为该音频信号的时间扭曲变换频谱表示)包括一个或多个清晰频谱波峰。换言之,通过成功的时间扭曲操作来减少 该原始音频信号(具有在时间上变化的音调)频谱的模糊,使得该音频信号的时间扭曲变 换频谱表示包括比原始音频信号的频谱更高的能量压缩。然而,时间扭曲在增强编码效率 中并不总是成功。例如,如果输入音频信号包括大的噪声分量,或如果所提取的时间扭曲轮 廓不精确,则时间扭曲不增强编码效率。鉴于该情况,由能量压缩信息提供器提供的能量压缩信息就减少比特率而言是判 定该时间扭曲是否成功的有价值指示符。本发明的实施例创建时间扭曲激活信号提供器,用于基于音频信号的表示提供时 间扭曲激活信号。该时间扭曲激活提供器包括两个时间扭曲表示提供器,所述两个时间扭 曲标识提供器被配置为使用不同的时间扭曲轮廓信息来提供该相同音频信号的两个时间 扭曲表示。因此,该时间扭曲表示提供器可以用相同的方式配置(在结构上或功能上),且 使用相同音频信号但是不同的时间扭曲轮廓信息。该时间扭曲激活信号提供器还包括两个 能量压缩信息提供器,所述两个能量压缩信息提供器被配置为基于第一时间扭曲表示提供 第一能量压缩信息,且基于第二时间扭曲表示提供第二能量压缩信息。该能量压缩信息提 供器可以用相同方式配置,但是使用不同的时间扭曲表示。此外,该时间扭曲激活信号提供 器包括比较器,以将两个不同能量压缩信息进行比较,且提供取决于比较结果的时间扭曲 激活信号。在优选实施例中,该能量压缩信息提供器被配置为提供作为能量压缩信息的频谱 平坦度度量,该频谱平坦度度量描述该音频信号的时间扭曲变换频谱表示。已发现如果时 间扭曲将输入音频信号变换为表示该输入音频信号的时间扭曲版本的较不平坦的时间扭 曲频谱时,就减少比特率而言,时间扭曲是成功的。因此,频谱平坦度度量可以用于判定在 不执行全频谱编码处理的情况下,应当激活还是停用时间扭曲。在优选实施例中,该能量压缩信息提供器被配置为计算该时间扭曲变换功率频谱 的几何平均与该时间扭曲变换功率频谱的算术平均的商,以获得频谱平坦度度量。已发现 该商是非常适于描述通过时间扭曲来获得的可能比特率节约的频谱平坦度度量。在另一优选实施例中,该能量压缩信息提供器被配置为当与时间扭曲变换频谱表 示的较低频率部分相比时,强调时间扭曲变换频谱表示的较高频率部分,以获得该能量压 缩信息。该概念基于如下发现时间扭曲在较高频率范围上一般比在较低频率范围上具有 更大的影响。因此,为了确定使用频谱平坦度度量的时间扭曲的有效性,主要评估该较高频 率范围是恰当的。此外,典型的音频信号显示谐波内容(包括基本频率的谐波),其随频率 的增加在强度上衰减。当与时间扭曲变换频谱表示的较低频率部分相比时,强调该时间扭 曲变换频谱表示的较高频率部分也有助于补偿该频谱线随频率增加的这种典型衰减。总而 言之,对频谱的较高频率部分的强调导致了能量压缩信息的可靠性增加,并因此允许更可 靠地提供时间扭曲激活信号。在另一优选实施例中,能量压缩信息提供器被配置为提供频谱平坦度的多个逐频 带度量,且被配置为计算频谱平坦度的多个逐频带度量的平均值,以获得该能量压缩信息。 已发现逐频带频谱平坦度度量的考虑导致了与时间扭曲是否有效减少编码音频信号比特 率的特别可靠信息。首先,一般以逐频带方式来执行对时间扭曲变换频谱表示的编码,使得 频谱平坦度的该逐频带度量的组合非常适于该编码,且因此以良好精确度表示可获得的比特率增强。此外,频谱平坦度度量的逐频带计算实质上消除了能量压缩信息对谐波分布的 依赖性。例如,即使较高频带包括相对小的能量(小于较低频带的能量),该较高频带可能 仍然在感知上是相关的。然而,如果不以逐频带方式来计算该频谱平坦度度量,则在该较 高频带上的时间扭曲的积极影响(从该频谱线的模糊的减少的意义上说)可能仅因该较高 频带上的能量小而被认为是小的。相对地,通过应用逐频带计算,可以用恰当的权重来考虑 时间扭曲的积极影响,因为该逐频带频谱平坦度度量独立于各自频带中的绝对能量。在另一优选实施例中,该时间扭曲激活信号提供器包括参考值计算器,所述参考 值计算器被配置为计算频谱平坦度度量,以获得该参考值,该度量描述音频信号的未时间 扭曲的频谱表示。因此,可基于输入音频信号的未时间扭曲(或“未扭曲的”)版本的频谱 平坦度与输入音频信号的时间扭曲版本的频谱平坦度的比较来提供该时间扭曲激活信号。在另一优选实施例中,该能量压缩信息提供器被配置为提供作为能量压缩信息的 感知熵度量,该度量描述音频信号的时间扭曲变换频谱表示。此概念基于下述发现时间扭 曲变换频谱表示的感知熵是对编码该时间扭曲变换频谱所需要的比特数目(或比特率)的 良好估计。因此,甚至由于如果使用时间扭曲,则必须对附加时间扭曲信息编码,该时间扭 曲变换频谱表示的感知熵度量是是否可通过时间扭曲来预期比特率减少的良好度量。在另一优选实施例中,该能量压缩信息提供器被配置为提供作为能量压缩信息的 自相关度量,该度量描述音频信号的时间扭曲表示的自相关。该概念基于如下发现可以基 于时间扭曲(或不均勻重新采样)的时域信号来测量(或至少估计)时间扭曲的效率(就 减少比特率而言)。已发现如果时间扭曲时域信号包括由自相关度量反映的相对高度的周 期性,则时间扭曲是有效率的。相对地,如果时间扭曲时域信号不包括显著的周期性,则可 以推断该时间扭曲是无效率的。该发现基于如下事实有效时间扭曲将变化频率(不包括周期性)的正弦信号的 一部分变换为接近恒定频率(包括高度的周期性)的正弦信号的一部分。相对地,如果时 间扭曲不能提供具有高度周期性的时域信号,那么可预期时间扭曲也不提供可证明其应用 可行的显著比特率节约。在优选实施例中,该能量压缩信息提供器被配置为确定音频信号的时间扭曲表示 的归一化自相关函数的绝对值之和(对多个延迟值),以获得该能量压缩信息。已发现在估 计时间扭曲的效率上不要求对自相关峰值的计算复杂的确定。而是,已发现对(大)范围 的自相关延迟值上的自相关的求和评估也产生非常可靠的结果。这是由于如下事实时间 扭曲实际上将变化频率的多个信号分量(例如,基本频率及其谐波)变换为周期性信号分 量。因此,这种时间扭曲信号的自相关在多个自相关延迟值处显示波峰。因此,求和形式是 从自相关提取能量压缩信息的计算上高效率的方式。在另一优选实施例中,该时间扭曲激活信号提供器包括参考值计算器,所述参考 值计算器被配置为基于音频信号的未时间扭曲频谱表示,或基于音频信号的未时间扭曲时 域表示,来计算参考值。在该情况中,比较器一般被配置为使用能量压缩信息及参考值形成 比值,该能量压缩信息描述音频信号的时间扭曲变换频谱的能量压缩。该比较器也被配置 为将该比值与一个或多个阈值进行比较,以获得时间扭曲激活信号。已发现在未时间扭曲 情况中的能量压缩信息与在时间扭曲情况中的能量压缩信息之间的比率允许产生计算上 高效率但仍充分可靠的时间扭曲激活信号。
本发明的另一优选实施例创建音频信号编码器,用于对输入音频信号编码,以获 得该输入音频信号的编码表示。音频信号编码器包括时间扭曲变换器,被配置为基于输入 音频信号,提供时间扭曲变换频谱表示。该音频信号编码器还包括如上所述的时间扭曲激 活信号提供器。该时间扭曲激活信号提供器被配置为接收输入音频信号,且提供能量压缩 信息,使得该能量压缩信息描述该输入音频信号的时间扭曲变换频谱表示中的能量压缩。 该音频信号编码器还包括控制器,被配置为取决于时间扭曲激活信号,向时间扭曲变换器 选择性地提供发现的非恒定(变化)时间扭曲轮廓部分或时间扭曲信息,或标准恒定(不 变)时间扭曲轮廓部分或时间扭曲信息。这样,有可能选择性地接受或拒绝由该输入音频 信号的编码音频信号表示推导出的发现的非恒定时间扭曲轮廓部分。该概念基于下述发现将时间扭曲信息引入该输入音频信号的编码表示并不总是 有效,因为要求相当可观数目的比特用于编码该时间扭曲信息。此外,已发现由时间扭曲激 活信号提供器计算出的能量压缩信息是判定将该发现的变化(非恒定)时间扭曲估计部分 还是标准(不变、恒定)时间扭曲轮廓提供给时间扭曲变换器是否有利的一种计算上高效 率的度量。已注意到当该时间扭曲变换器包括重叠变换时,可在两个或更多随后的变换块 的计算中使用发现的时间扭曲轮廓部分。具体地,已发现为了能做出时间扭曲是否允许比 特率的节约的判定,并无必要使用新发现的变化时间扭曲轮廓部分对该输入音频信号的时 间扭曲变换频谱表示版本进行完全编码,以及并无必要使用标准(不变)时间扭曲轮廓部 分对该输入音频信号的时间扭曲变换频谱表示版本进行完全编码。而是,已发现对输入音 频信号的时间扭曲变换频谱表示的能量压缩的评估形成了该判定的可靠基础。因此,可以 将所需的比特率保持为小。在又一优选实施例中,该音频信号编码器包括输出接口,被配置为取决于时间扭 曲激活信号,选择性地包括时间扭曲轮廓信息,该信息将发现的变化时间扭曲轮廓表示为 该音频信号的编码表示。因此,可获得高效的音频信号编码,而不管该输入信号是否非常适 合于时间扭曲。根据本发明的另一实施例创建一种基于音频信号来提供时间扭曲激活信号的方 法。该方法实现时间扭曲激活信号提供器的功能,且可由本文中与时间扭曲激活信号提供 器相关描述的任何特征及功能来补充。根据本发明的另一实施例创建一种用于对输入音频信号编码,以获得输入音频信 号的编码表示的方法。该方法可由本文中与音频信号编码器相关描述的任何特征及功能来 补充。根据本发明的另一实施例创建一种用于执行本文所述方法的计算机程序。根据本发明的第一方面,一种音频信号分析,有利地使用音频信号是具有谐波特 性还是语音特性,用于控制编码器侧和/或解码器侧的噪声填充处理。在使用时间扭曲功 能的系统中易于获得该音频信号分析,因为时间扭曲功能一般包括音调追踪器和/或信号 分类器,用于区分语音与音乐,和/或区分有发音语音与无发音语音。因为该信息在这种上 下文中可用而不需任何此外的成本,因此可用的信息有利地用于控制该噪声填充特征,使 得尤其对于语音信号,可减少谐波线之间的噪声填充,或具体地对于语音信号,甚至消除谐 波线之间的噪声填充。甚至在获得强谐波内容但是语音检测器没有直接检测到语音的情况 中,噪声填充的减少仍然将导致更高的感知质量。虽然该特征在无论如何也执行谐波/语音分析的系统中特别有用,且因此该信息可用且不需任何附加成本,甚至当必须将特定信 号分析器插入该系统中时,对基于信号具有谐波还是语音特性的信号分析的噪声填充方案 的控制也是附加有用的,因为增强质量而比特率没有增加,或换言之,比特率减少而质量没 有损失,因此当减少可从编码器发送至解码器的噪声填充级别本身时,减少了用于对该噪 声填充级别编码所需的比特。在本发明另一方面中,信号分析结果,即信号是谐波信号还是语音信号,用于控制 音频编码器的窗口函数处理。已发现在语音信号或谐波信号开始的情况中,简单编码器将 从长窗口切换至短窗口的可能性是很高的。然而这些短窗口具有对应地减少的频谱解析 度,另一方面,该频率解析度将减少强谐波信号的编码增益,且因此增加对这种信号部分编 码所需的比特数目。鉴于此,当检测到语音或谐波信号开始时,在本方面中定义的本发明使 用比短窗口更长的窗口。备选地,选择具有与该长窗口大致相似长度的但具有更短重叠的 窗口,以有效地减少前回声。大体上,音频信号的时帧具有谐波还是语音特性的信号特性用 于选择针对该时帧的窗口函数。根据本发明的另一方面,基于底层信号是基于时间扭曲操作还是在线性域中来控 制TNS(时域噪声修整)工具。一般地,已通过时间扭曲操作来处理的信号将具有强谐波内 容。否则,与时间扭曲级相关联的音调追踪器将不会输出有效音调轮廓,且在缺少这种有效 音调轮廓时,对与音频信号的该时帧将停用时间扭曲功能。然而,谐波信号将一般不适于经 受TNS处理。当由TNS级处理的信号具有相当平坦的频谱时,TNS处理特别有用且产生比 特率/质量上的重要增益。然而,当该信号的外观是音调的(tonal),即非平坦的,如同在具 有谐波内容或有发音内容的频谱的情况中,则将减少由TNS工具提供的质量/比特率上的 增益。因此,不使用该TNS工具的发明性修改,时间扭曲部分一般不由TNS处理,但是会在 不使用TNS滤波的情况下来处理。另一方面,TNS的噪声修整特征仍然提供增强的质量,特 别是在信号在振幅/功率上变化的情况中。在谐波信号或语音信号的开始存在,以及实施 了块切换特征使得维持长窗口或者至少长于短窗口的窗口、而非该起始的情况中,该帧的 时域噪声修整特征的激活将导致语音开始周围的噪声的浓缩,这有效地减少可能由于在随 后的编码器处理中发生的帧量化而在语音开始之前发生的前回声。根据本发明的另一方面,由音频编码设备中的量化器/熵编码器来处理可变数目 的线,以计入可变带宽,通过执行具有可变时间扭曲特性/扭曲轮廓的时间扭曲操作来引 入该可变带宽。当该时间扭曲操作导致增加了时间扭曲帧中包括的帧时间(以线性)时, 减少了单一频率线的带宽,且,对于恒定总带宽,在未时间扭曲情况下将增加要处理的频率 线数目。另一方面,当时间扭曲操作导致在该时间扭曲域中音频信号的实际时间相对于在 线性域中的音频信号块长度减少时,增加了单一频率线的频率带宽,且因此在未时间扭曲 情况下,必须减少由源编码器处理的线数目,以具有减少的带宽变化或最好没有带宽变化。


随后通过附图来描述优选实施例,其中图1示出了根据本发明的实施例的时间扭曲激活信号提供器的示意框图;图加示出了根据本发明的实施例的音频信号编码器的示意框图;图2b示出了根据本发明的实施例的时间扭曲激活信号提供器的另一示意框14
图3a示出了音频信号的未时间扭曲版本的频谱的图形表示;图3b音频信号的时间扭曲版本的频谱的图形表示;图3c示出了针对不同频带的频谱平坦度度量的个别计算的图形表示;图3d示出了仅考虑频谱的较高频带部分的频谱平坦度度量的计算的图形表示;图3e示出了使用频谱表示的频谱平坦度度量的计算的图形表示,在该频谱表示 中,相对于较低频率部分强调了较高频率部分;图3际出了根据本发明的另一实施例的能量压缩信息提供器的示意框图;图3g示出了在时域中具有时间上可变音调的音频信号的图形表示;图3h了图3g的音频信号的时间扭曲(不均勻重新采样的)版本的图形表 示;图3i示出了根据图3g的音频信号的自相关函数的图形表示;图3j示出了根据图池的音频信号的自相关函数的图形表示;图3k示出了根据本发明另一实施例的能量压缩信息提供器的示意框图;图4a示出了用于基于音频信号来提供时间扭曲激活信号的方法的流程图;图4b示出了根据本发明的实施例的用于对输入音频信号编码,以获得该输入音 频信号的编码表示的方法的流程图;图5a示出了具有创造性方面的音频编码器的优选实施例;图5b示出了具有创造性方面的音频解码器的优选实施例;图6a示出了本发明的噪声填充方面的优选实施例;图6b示出了定义由噪声填充级别操纵器所执行的控制操作的表格;图7a示出了根据本发明的用于执行基于时间扭曲的块切换的优选实施例;图7b示出了影响窗口函数的备选实施例;图7c示出了用于基于时间扭曲信息来说明窗口函数的另一备选实施例;图7d示出了在有发音启动处的正常AAC行为的窗口序列;图7e示出了根据本发明的优选实施例获得的备选窗口序列;图示出了 TNS (时域噪声整修)工具的基于时间扭曲的控制的优选实施例;图8b示出了定义图8a中阈值控制信号产生器中所执行的控制步骤的表格;图9a_9e示出了不同的时间扭曲特性以及在解码器侧时间扭曲操作之后发生的 对音频信号的带宽上的对应影响;图1Oa示出了用于控制编码处理器中的线的数目的控制器的优选实施例;图1Ob示出了针对采样率要丢弃/添加的线的数目之间的依赖性;图11示出了线性时间尺度与扭曲时间尺度之间的比较;图12a示出了在带宽扩展的上下文中的实施;以及图12b示出了表,该表示出了在时间扭曲域中的本地采样率与频谱系数的控制之 间的依赖性。
具体实施例方式图1示出了根据本发明的实施例的时间扭曲激活信号提供器的示意框图。该时间 扭曲激活信号提供器100被配置为接收音频信号的表示110,且基于该表示110提供时间扭曲激活信号112。时间扭曲激活信号提供器100包括能量压缩信息提供器120,被配置为提 供能量压缩信息122,该信息122描述该音频信号的时间扭曲变换频谱表示的能量的压缩。 时间扭曲激活信号提供器100还包括比较器130,被配置为将能量压缩信息122与参考值 132作比较,以取决于该比较的结果提供时间扭曲激活信号112。如上所述,已发现能量压缩信息是允许对时间扭曲是否带来比特节约的计算上高 效率估计的有价值信息。已发现比特节约的存在性与该时间扭曲是否导致能量压缩的问题 密切相关。图加示出了根据本发明的实施例的音频信号编码器200的示意框图。音频信号 编码器200被配置为接收输入音频信号210 (也以a(t)标明),且基于该输入音频信号210 提供该输入音频信号210的编码表示212。音频信号编码器200包括时间扭曲变换器220, 被配置为接收输入音频信号210 (可在时域中表示该信号),且基于输入音频信号210提供 该输入音频信号210的时间扭曲变换频谱表示222。音频信号编码器200还包括时间扭曲 分析器观4,被配置为分析输入音频信号210,且基于该输入音频信号210,提供时间扭曲轮 廓信息观6(例如绝对或相对时间扭曲轮廓信息)。音频信号编码器200还包括切换机制,例如具有受控开关240的形式的切换机制, 以判定是发现的时间扭曲轮廓信息286还是标准时间扭曲轮廓信息288用于进一步的处 理。因此,该切换机制240被配置为取决于时间扭曲激活信息,选择性地将发现的时间扭曲 轮廓信息286或标准时间扭曲轮廓信息288作为新时间扭曲轮廓信息242提供给例如时间 扭曲变换器220用于进一步的处理。应注意,时间扭曲变换器220可例如针对音频帧的时 间扭曲来使用新时间扭曲轮廓信息例如新时间扭曲轮廓部分),且此外使用之前获得 的时间扭曲信息(例如一个或多个之前获得的时间扭曲轮廓部分)。该可选的频谱后处理 可包括例如时域噪声整修和/或噪声填充分析。音频信号编码器200还包括量化器/编码 器沈0,被配置为接收频谱表示222 (可选地由频谱后处理250来处理),且量化及编码该变 换频谱表示222。为此,量化器/编码器260可与感知模型270耦合,且从感知模型270接 收感知关联信息272,以考虑感知屏蔽且根据人类感知以不同的频率槽来调整量化精确度。 音频信号编码器200还包括输出接口观0,被配置为基于由量化器/编码器260所提供的已 量化且编码的频谱表示沈2,提供该音频信号的编码表示212。音频信号编码器200还包括时间扭曲激活信号提供器230,被配置为提供时间扭 曲激活信号232。时间扭曲激活信号232例如可用于控制切换机制M0,以判定新发现时间 扭曲轮廓信息286还是标准时间扭曲轮廓信息288用于进一步的处理步骤中(例如由时间 扭曲变换器220)。此外,时间扭曲激活信息232可用于开关观0中,以判定输入音频信号 210的编码表示212是否包括已选择的新时间扭曲轮廓信息从新发现时间扭曲轮廓 信息286及标准时间扭曲轮廓信息中选择的)。一般地,如果已选择时间扭曲轮廓信息描 述非恒定(变化)时间扭曲轮廓,则时间扭曲轮廓信息仅被包括在该音频信号的编码表示 212中。同样,编码表示212可包括时间扭曲激活信息232其本身,例如具有指示该时间扭 曲激活或停用的一比特旗标的形式。为了利于理解,应注意时间扭曲变换器220 —般包括分析加窗器220a、重新采样 器或“时间扭曲器”220b及频谱域变换器(或时间/频率转换器)220c。然而,视实施而定, 可将时间扭曲器220b放置于在信号处理方向上的分析加窗器220a之前。然而,在一些实施例中可将时间扭曲及时域到频谱域变换结合在单一单元中。在下文中,将描述关于时间扭曲激活信号提供器230的操作的细节。应注意时间 扭曲激活信号提供器230可等效于时间扭曲激活信号提供器100。时间扭曲激活信号提供器230优选地被配置为接收时域音频信号表示210(也以 a(t)标明)、新发现时间扭曲轮廓信息观6,及标准时间扭曲轮廓信息观8。时间扭曲激活 信号提供器230也被配置为使用时域音频信号210、新发现时间扭曲轮廓信息观6及标准时 间扭曲轮廓信息观8,来获得描述由于新发现时间扭曲轮廓信息286而产生的能量压缩的 能量压缩信息,且基于该能量压缩信息来提供时间扭曲激活信号232。图2b示出了根据本发明的实施例的时间扭曲激活信号提供器234的示意框图。时 间扭曲激活信号提供器234在一些实施例中可发挥时间扭曲激活信号提供器230的作用。 时间扭曲激活信号提供器234被配置为接收输入音频信号210,及两个时间扭曲轮廓信息 286与观8,且基于它们来提供时间扭曲激活信号234p。时间扭曲激活信号234p可发挥时 间扭曲激活信号232的作用。时间扭曲激活信号提供器包括两个相同的时间扭曲表示提供 器23^、234g,被配置为分别接收输入音频信号210及时间扭曲轮廓信息观6与观8,且基 于它们分别提供两个时间扭曲表示23 及234k。时间扭曲激活信号提供器234还包括两个 相同的能量压缩信息提供器234f及2341,被配置为分别接收时间扭曲表示23 及234k, 且基于它们分别提供能量压缩信息23 !及23如。时间扭曲激活信号提供器还包括比较器 234ο,被配置为接收能量压缩信息23細及23 ,且基于它们提供时间扭曲激活信号234p。为了利于理解,应注意时间扭曲表示提供器234a与234g —般包括(可选)相同 的分析加窗器234b及234h、相同的重新采样器或时间扭曲器23 及234i,及(可选)相 同的频谱域变换器234d及234 j。在下文中,将讨论用于获得能量压缩信息的不同概念。事先将做介绍以说明典型 音频信号上的时间扭曲效果。在下文中,将参考图3a及北来描述音频信号上时间扭曲的效果。图3a示出了音 频信号的频谱的图形表示。横坐标301描述频率,纵坐标302描述该音频信号的强度。曲 线303描述了与频率f相关的非时间扭曲音频信号的强度。图北示出了图3a中表示的音频信号的时间扭曲版本的频谱的图形表示。同样, 横坐标306描述频率,纵坐标307描述该音频信号的扭曲版本的强度。曲线308描述该音 频信号的时间扭曲版本的强度对频率。从图3a与北的图形表示的比较可看出,该音频信 号的未时间扭曲(“未扭曲”)版本包括模糊频谱,具体地在较高频域中。相对地,该输入音 频信号的时间扭曲版本包括具有清晰可区分的频谱波峰的频谱,甚至在较高频域中。此外, 甚至可在该输入音频信号的时间扭曲版本的较低频谱域中看到频谱波峰的中等锐化。应注意图北中所示的输入音频信号的时间扭曲版本的频谱可由例如量化器/编 码器沈0以比图3a所示的未扭曲输入音频信号的频谱更低的比特率来量化及编码。这是 由于如下事实模糊频谱一般包括很大数目的感知相关频谱系数(即相对很小数目的被量 化为零或被量化为很小值的频谱系数),同时如图3所示的“不那么平坦的”频谱一般包括 较大数目被量化为零或被量化为很小值的频谱系数。可以用比被量化为较高值的频谱系 数更少的比特来对被量化为零或被量化为很小值的频谱系数进行编码,使得可使用比图3a 的频谱更少的比特对图北的频谱编码。
然而,还应注意到时间扭曲的使用不总是导致时间扭曲信号的编码效率的显著 增强。因此,在一些情况中,对时间扭曲信息(例如时间扭曲轮廓)编码所需的价格(在比 特率的意义上)可能超出用于对时间扭曲变换频谱编码的节约(在比特率的意义上)(当 与编码非时间扭曲变换频谱相比较时)。在此情况中,优选地使用标准(不变)时间扭曲 轮廓提供该音频信号的编码表示,以控制该时间扭曲变换。因此,可忽略任何时间扭曲信息 (即时间扭曲轮廓信息)的发送(除指示该时间扭曲的停用的旗标之外),从而保持该比特 率很低。在下文中,将参考图3c_;3k来描述用于对时间扭曲激活信号112、232、234p的可靠 且计算上高效率的计算的不同概念。然而,在此之前,将简短概括该创造性概念的背景。基本假定是对具有变化音调的谐波信号应用时间扭曲使得该音调恒定,且使该音 调恒定增强了通过随后的时间频率变换所获得的频谱的编码,因为仅有限数目的重要的线 保留(参见图北),而不是若干频谱容量上不同谐波的模糊(参见图3a)。然而,即使当检 测到音调变化时,可忽略(例如,如果在谐波信号下有强噪声,或如果该变化太小以至较高 谐波的模糊没有问题)编码增益上的增强(即所节约的比特的数量),或编码增益上的增强 可少于需要将时间扭曲轮廓传输至解码器的比特的数量,或可简单地是错的。在这些情况 中,优选地拒绝由时间扭曲轮廓编码器产生的变化时间扭曲轮廓(例如观6),而相反使用 有效的一比特信令,以信号方式发送标准(不变)时间扭曲轮廓。本发明的范围包括创建一种判定已获得的时间扭曲轮廓部分是否提供足够的编 码增益(例如足以补偿时间扭曲轮廓编码所需的开销的编码增益)的方法。如上所述,时间扭曲的最重要的方面是较少数目线的频谱能量压缩(参见图3a及 3b) 0它们示出了能量压缩还对应于“不那么平坦的”的频谱(参见图3a及北),因为增加 了该频谱的波峰与波谷之间的差。将该能量浓缩于较少的线处,所述较少的线在具有比之 前更少能量的线之间。图3a与北示出了具有强谐波及音调变化的帧的未扭曲频谱(图3a)与同一帧的 时间扭曲版本的频谱(图北)的示意性示例。鉴于该情况,已发现将频谱平坦度度量用作该时间扭曲效率的可能的度量是有利 的。可例如通过功率频谱的几何平均除以功率频谱的算术平均来计算该频谱平坦度。 例如,可根据如下公式来计算该频谱平坦度(也以“平坦度”简短地标明)
权利要求
1.一种用于基于音频信号的表示(110 ;234e ;234k)来提供时间扭曲激活信号(112 ; 232 ;234p)的时间扭曲激活信号提供器(100 ;230 ;234),所述时间扭曲激活信号提供器包 括能量压缩信息提供器(120 ;234f ;2341 ;325 ;370),被配置为提供能量压缩信息(122 ; 234m ;234η ;326 ;374),所述能量压缩信息描述所述音频信号的时间扭曲变换频谱表示 (222)的能量压缩;以及比较器(130 ;234ο),被配置为将所述能量压缩信息(122 ;234m ;234η ;326 ;374)与参 考值相比较,以及被配置为取决于比较结果提供时间扭曲激活信号(112 ;232 ;234ρ)。
2.根据权利要求1所述的时间扭曲激活信号提供器(100;230;234),其中,所述能 量压缩信息提供器(120 ;234f ;2341)被配置为提供作为所述能量压缩信息(122 ;234m ; 234η)的频谱平坦度度量,所述频谱平坦度度量描述所述音频信号的时间扭曲变换频谱表 示(234e ; 234k)。
3.根据权利要求2所述的时间扭曲激活信号提供器(100;230 ;234),其中,所述能量 压缩信息提供器(120 ;234f ;2341)被配置为计算所述音频信号的时间扭曲变换功率频谱 (234e ;234k)的几何平均与所述音频信号的时间扭曲变换功率频谱(23 ;234k)的算术平 均的商,以获得所述频谱平坦度度量。
4.根据权利要求1至3中任一项所述的时间扭曲激活信号提供器(100;230 ;234),其 中,所述能量压缩信息提供器(120 ;234f ;2341)被配置为与所述时间扭曲变换频谱表示 (234e ;234k)的较低频率部分相比时,强调所述时间扭曲变换频谱表示;234k)的较 高频率部分,以获得所述能量压缩信息(122 ;234m ;234η)。
5.根据权利要求1至4中任一项所述的时间扭曲激活信号提供器(100;230 ;234),其 中,所述能量压缩信息提供器(120 ;234m ;234η)被配置为获得频谱平坦度的多个逐频带度 量,以及被配置为计算所述频谱平坦度的多个逐频带度量的平均值,以获得所述能量压缩 信息(122,234m ;234η)。
6.根据权利要求1所述的时间扭曲激活信号提供器(100;230 ;234),其中,所述能量 压缩信息提供器(120 ;234f ;2341 ;325)被配置为提供作为所述能量压缩信息(122 ;234m ; 234η)的感知熵(pe)度量,所述感知熵(pe)度量描述所述音频信号的时间扭曲变换频谱表 示(234e ; 234k)。
7.根据权利要求6所述的时间扭曲激活信号提供器(100;230;234;235),其中,所述 能量压缩信息提供器(120 ;234f ;2341 ;325)被配置为基于扩缩因子频带的波形因子信息 (ffaC(n)),计算所述音频信号的时间扭曲变换频谱表示(2Me;234k)的一个或多个扩缩 因子频带的非零线的估计数目(nl),以及被配置为将非零线的所述估计数目(nl)与在考 察的扩缩因子频带的能量度量相乘,来计算所考察的所述扩缩因子频带的感知熵(326)度 量。
8.根据权利要求1所述的时间扭曲激活信号提供器(100;230 ;234),其中,所述能量 压缩信息提供器(120 ;234f ;2341 ;370)被配置为提供作为所述能量压缩信息的自相关度 量(374),所述自相关度量(374)描述所述音频信号的时间扭曲时域表示;234k)的 自相关。
9.根据权利要求8所述的时间扭曲激活信号提供器(100;230;234),其中,所述能量压缩信息提供器(120 ;234f ;2341 ;370)被配置为确定所述音频信号的时间扭曲表示 (234e ;234k)的归一化自相关函数的绝对值之和,以获得所述能量压缩信息。
10.根据权利要求1至9中任一项所述的时间扭曲激活信号提供器(100;230),其中, 所述时间扭曲激活信号提供器包括参考值计算器,所述参考值计算器被配置为基于所述音 频信号的未扭曲频谱表示010)、或基于所述音频信号的未扭曲时域表示010),来计算所 述参考值;以及其中,所述比较器被配置为使用描述所述音频信号的时间扭曲变换频谱表示的能量压 缩的能量压缩信息(122)以及所述参考值,来形成比值,以及被配置为将所述比值与一个 或多个阈值进行比较,以获得作为比较结果的所述时间扭曲激活信号。
11.根据权利要求1至9中任一项所述的时间扭曲激活信号提供器O30;234),其中, 所述时间扭曲激活信号提供器包括参考值计算器,所述参考值计算器被配置为基于输入信 号的时间扭曲表示(210)来计算所述参考值,所述输入信号O10)的时间扭曲表示(210) 是使用标准时间扭曲轮廓信息(观8)来进行时间扭曲的;以及其中,所述比较器被配置为使用描述所述音频信号的时间扭曲表示的能量压缩的所述 能量压缩信息034e)以及所述参考值,来形成比值,以及被配置为将所述比值与一个或多 个阈值进行比较,以获得作为比较结果的所述时间扭曲激活信号。
12.一种用于对输入音频信号(210)编码以获得所述输入音频信号的编码表示(212) 的音频信号编码器O00),所述音频信号编码器包括时间扭曲变换器020),被配置为基于所述输入音频信号010),使用时间扭曲轮廓来 提供时间扭曲变换频谱表示022);根据权利要求1至11中任一项所述的时间扭曲激活信号提供器(100 ;230 ;234),其 中,所述时间扭曲激活信号提供器被配置为接收所述输入音频信号(210),以及被配置为提 供所述时间扭曲激活信号(112 ;232 ;234p);以及控制器040),被配置为取决于所述时间扭曲激活信号(112 ;232 ;234p),选择性地向 所述时间扭曲变换器(220)提供描述非恒定时间扭曲轮廓部分的新发现的时间扭曲轮廓 信息086),或提供描述恒定时间扭曲轮廓部分的标准时间扭曲轮廓信息088),以描述由 所述时间扭曲变换器(220)所使用的时间扭曲轮廓。
13.根据权利要求12所述的音频信号编码器,其中,所述音频信号编码器包括输出接 口 080),所述输出接口(观0)被配置为将所述时间扭曲变换频谱表示(22 包括在所述音 频信号的编码表示012)中,以及被配置为取决于所述时间扭曲激活信号(232)选择性地将时间扭曲轮廓信息包括在 所述音频信号的编码表示012)中。
14.一种基于音频信号提供时间扭曲激活信号的方法G00),所述方法包括提供(410)描述所述音频信号的时间扭曲变换频谱表示的能量压缩的能量压缩信息;将所述能量压缩信息与参考值相比较G20);以及取决于比较结果来提供(430)所述时间扭曲激活信号。
15. 一种用于对输入音频信号编码以获得所述输入音频信号的编码表示的方法 G50),所述方法包括提供(470)根据权利要求14的时间扭曲激活信号,其中,能量压缩信息描述所述输入音频信号的时间扭曲变换频谱表示的能量压缩;以及取决于所述时间扭曲激活信号,选择性地提供(480)所述输入音频信号的时间扭曲变 换频谱表示的描述或所述输入音频信号的非时间扭曲变换频谱表示的描述,以将其包括在 所述输入音频信号的编码表示中。
16.一种计算机程序,当所述计算机程序在计算机上运行时,用于执行权利要求14或 15所述的方法。
17.一种用于对音频信号编码的音频编码器,包括量化器(512),用于量化音频值,其中,所述量化器被配置为将量化阈值之下的音频值 量化为零;噪声填充计算器(5M),用于针对所述音频信号的时帧来估计被量化为零的音频值的 能量的度量;音频信号分析器(516、520),用于分析所述音频信号的时帧具有谐波还是语音特性; 操纵器(602),用于取决于所述音频信号的谐波或语音特性来操纵噪声填充度量,以获 得经操纵的噪声填充度量;以及输出接(522),用于产生用于发送或存储的编码信号,所述编码信号包括所述经操纵的 噪声填充度量(530)。
18.根据权利要求17所述的音频编码器,其中,所述音频信号分析器(516、520)包括音调触发器,用于当在所述音频信号的时 帧中发现音调时,产生音调的指示,以及其中,所述操纵器(60 被配置为当发现音调时,减少所述噪声填充度量。
19.根据权利要求17或18所述的音频编码器,其中,所述音频信号分析器包括有发音/无发音检测器(520),用于检测是否所述时帧 的至少一部分是有发音的,其中,所述操纵器(60 被配置为用于当检测到一部分为有发音时,减少所述噪声填 充度量,或将所述噪声填充度量归零,以及其中,所述操纵器(60 被配置为当检测到一部分为无发音时,不操纵或以较小程度 操纵所述噪声填充度量。
20.一种用于对编码音频信号解码的解码器,包括输入接口(539),用于处理所述编码音频信号,以获得噪声填充度量( 和编码音频 数据(546);解码器/重新量化器(547、550),用于产生重新量化数据;信号分析器(600),用于检索所述音频数据的时帧具有谐波还是语音特性的信息;以及噪声填充器(552),用于产生噪声填充音频数据,其中,所述噪声填充器( 被配置为响应于所述噪声填充度量以及所述音频数据的 谐波或语音特性而产生噪声填充数据;以及处理器(556、558、560),用于处理所述重新量化数据以及所述噪声填充音频数据,以获 得解码音频信号(564)。
21.根据权利要求20所述的解码器,其中,所述编码音频信号包括指示所述音频数据的时帧具有谐波还是语音特性的数据 (542、541),以及其中,所述信号分析器(600)被配置为分析所述编码音频信号,以检索指示所述音频 数据的时帧具有谐波还是语音特性的数据。
22.根据权利要求21所述的解码器,其中,所述数据是对所述时间部分已受到时间扭 曲处理的指示,以及其中,所述处理器包括时间反扭曲器(558),用于对从噪声填充数据和重新量化数据导 出的音频信号进行时间反扭曲。
23.一种用于对音频信号编码的方法,包括量化(51 音频值,其中,量化器被配置为将量化阈值之下的音频值量化为零; 针对所述音频信号的时帧,估计(524)被量化为零的音频值的能量的度量; 分析(516、520)所述音频信号的时帧具有谐波还是语音特性; 取决于所述音频信号的谐波或语音特性,操纵(60 所述噪声填充度量,以获得经操 纵的噪声填充度量;以及产生(52 用于发送或存储的编码信号,所述编码信号包括所述经操纵的噪声填充度 量(530)。
24.一种用于对编码音频信号解码的方法,包括处(539)所述编码音频信号,以获得噪声填充度量( 和编码音频数据(546); 产生(M7、550)重新量化数据;检索(600)所述音频数据的时帧具有谐波还是语音特性的信息;以及 响应于所述噪声填充度量和所述音频数据的谐波或语音特性,产生(552)噪声填充音 频数据;以及处(556、558、560)所述重新量化数据和所述噪声填充音频数据,以获得解码音频信号 (564)。
25.一种具有程序代码的计算机程序,当所述程序代码在计算机上运行时,所述程序代 码用于执行权利要求23所述的方法或权利要求M所述的方法。
26.一种用于产生编码音频信号的音频编码器,包括音频信号分析器(516、520),用于分析所述音频信号的时帧具有谐波还是语音特性; 窗口函数控制器(504),用于取决于所述音频信号的谐波或语音特性来选择窗口函数;加窗器(502),用于使用所选择的窗口函数将所述音频信号窗口化,以获得窗口化帧;以及处理器(508、512),用于进一步处理所述窗口化帧,以获得所述编码音频信号。
27.根据权利要求沈所述的音频编码器,其中,所述窗口函数控制器(504)包括用于检 测瞬变的瞬变检测器(700),所述窗口函数控制器被配置为用于当检测到瞬变且所述音频 信号分析器(516、520)未发现谐波或语音特性时,从针对长块的窗口函数切换至针对短块 的窗口函数,以及被配置为用于当检测到瞬变且所述音频信号分析器(516、520)发现谐波 或语音特性时,不切换至针对短块的窗口函数。
28.根据权利要求沈或27所述的音频编码器,其中,所述瞬变检测器(700)被配置为用于检测所述音频信号的定量特性,以及被配置为将所述定量特性与可控阈值相比较,当 所述定量特性具有与所述可控阈值的预定关系时,检测到瞬变,以及其中,所述音频信号分析器被配置为用于控制所述可变阈值,使得当所述音频信号分 析器(516、520)已经发现谐波或语音特性时,减少切换至针对短块的窗口函数的可能性。
29.根据权利要求27或观所述的音频编码器,其中,所述窗口函数控制器(504)被配置为用于当检测到瞬变且所述信号具有谐波或 语音特性时,切换至比针对短块的窗口函数(712)更长的窗口函数(706、707),或切换至比 针对长块的窗口函数(714)具有更短重叠的窗口函数(712)。
30.一种用于产生编码音频信号的方法,包括分析(516、520)所述音频信号的时帧具有谐波还是语音特性; 取决于所述音频信号的谐波或语音特性来选择(504)窗口函数; 使用所选择的窗口函数将所述音频信号窗口化(50 ,以获得窗口化帧;以及 处理(508、51幻所述窗口化帧,以获得所述编码音频信号。
31.一种具有程序代码的计算机程序,当所述程序代码在计算机上运行时,所述程序代 码用于执行权利要求30所述的方法。
32.一种用于产生音频信号的音频编码器,包括可控时间扭曲器(506),用于对所述音频信号进行时间扭曲,以获得时间扭曲音频信号;时间/频率转换器(508),用于将所述时间扭曲音频信号的至少一部分转换为频谱表示;时域噪声修整级,用于根据时域噪声修整控制指令(803),执行对所述频谱表示的频率 的预测滤波,其中,当所述时域噪声修整控制指令不存在时,不执行所述预测滤波;时域噪声修整控制器(800、802、804),用于基于所述频谱表示产生所述时域噪声修整 控制指令,其中,所述时域噪声修整控制器被配置为用于当所述频谱表示基于时间扭曲音频信号 时,增加在频率上执行所述预测滤波的可能性,或者被配置为用于当所述频谱表示不基于 时间扭曲音频信号时,减少在频率上执行所述预测滤波的可能性;以及处理器(512),用于进一步处理所述时域噪声修整级的输出,以获得所述编码音频信号 (532)。
33.根据权利要求32所述的音频编码器,其中,所述时域噪声修整控制器(800、802、804)被配置为当所述音频信号受到所述时 域噪声修整级(510)进行的所述预测滤波时,估计比特率或质量上的增益,以将所述估计 增益与判定阈值相比较(802),以及为了所述预测滤波,判定何时所述估计增益与所述判定阈值具有预定关系, 其中,所述时域噪声修整控制器还被配置为用于改变(804)所述判定阈值,使得对于 相同的估计增益,当所述频谱表示基于时间扭曲信号时,激活所述预测滤波,以及当所述频 谱表示不基于非时间扭曲音频信号时,不激活所述预测滤波。
34.根据权利要求32或33所述的音频编码器,其中,所述时间扭曲器包括用于检测有 发音或无发音语音的信号分类器(520),以及其中,所述时域噪声修整控制器(800、802、804)被配置为用于当检测到有发音语音 时,或当检测到无发音语音且所述频谱表示基于所述时间扭曲音频信号时,增加所述可能 性。
35.一种用于产生音频信号的方法,包括对所述音频信号进行时间扭曲(506),以获得时间扭曲音频信号; 将所述时间扭曲音频信号的至少一部分转换(508)为频谱表示; 根据时域噪声修整控制指令(803),在所述频谱表示的频率上执行预测滤波,其中,当 所述时域噪声修整控制指令不存在时,不执行所述预测滤波;基于所述频谱表示来产生(800、802、804)所述时域噪声修整控制指令, 其中,所述时域噪声修整控制器被配置为用于当所述频谱表示基于时间扭曲音频信号 时,增加在频率上执行所述预测滤波的可能性,或当所述频谱表示不基于非时间扭曲音频 信号时,减少在频率上执行所述预测滤波的可能性;以及处理(51 所述时域噪声修整级的输出,以获得所述编码音频信号(532)。
36.一种具有程序代码的计算机程序,当所述程序代码在计算机上运行时,所述程序代 码执行权利要求35所述的方法。
37.一种用于对音频信号编码的音频编码器,包括时间扭曲器(506),用于使用可变时间扭曲特性对音频信号进行扭曲; 时间/频率转换器(508),用于将时间扭曲音频信号转换为具有一定数目的频谱系数 的频谱表示;以及处理器(512),用于处理可变数目的频谱系数,以产生编码音频信号, 其中所述处理器(512、1000)被配置为用于基于所述帧的时间扭曲特性,可变地设置 所述音频信号的帧的一定数目的频谱系数,使得减少或消除帧和帧之间的由已处理数目的 频率系数所表示的带宽变化。
38.根据权利要求37所述的音频编码器,其中,所述可变时间扭曲特性包括帧的本地采样频率(fSK),以及 其中,所述处理器(512、1000)被配置为当增加所述本地采样频率时,增加频谱系数的 数目,或所述处理器(512、1000)被配置为用于当减少所述本地采样频率时,减少频谱系数 的数目。
39.根据权利要求37或38所述的音频编码器,还包括带宽扩展编码器,所述带宽扩展 编码器用于使用从交叉频率(1200)之上的频带的音频信号导出的参数来对所述交叉频率 (1200)之上的频带进行编码,其中,所述交叉频率是每帧的目标带宽的最大频率。
40.根据权利要求37至39中任一项所述的音频编码器,其中,在对所述音频信号进行 时间扭曲之前,使用正常采样频率(fN)对所述音频信号采样,以及所述处理器(512、1000) 被配置为当所述本地采样频率等于所述正常采样频率时,使用从所述交叉频率及所述正常 采样频率导出的预定数目的频谱系数(Nn),或被配置为当所述本地采样频率高于所述正常 采样频率(fN)时,使用比频谱系数的所述预定数目(Nn)更高数目的频谱系数,或被配置为 当所述本地采样频率低于所述正常采样频率(fN)时,使用比频谱系数的所述预定数目更低 的数目。
41.根据权利要求37至40中任一项所述的音频编码器,其中,所述处理器包括量化器,所述量化器用于量化所述频谱系数,以获得量化频谱系 数,以及包括熵编码器,所述熵编码器用于对所述量化频谱系数进行熵编码,其中,所述处理器(512、1000)包括选择器,用于在量化之前或之后丢弃不包括在所设 置数目的频谱系数中的频谱系数,使得所述编码音频信号仅包括还未被丢弃的频谱系数, 或者其中,所述处理器包括选择器,用于在量化之前或之后添加所设置数目的频谱系数所 需的频谱系数,使得所述编码音频信号附加地包括所添加的频谱系数。
42.一种用于对音频信号编码的方法,包括使用可变时间扭曲特性对音频信号进行时间扭曲(506);将时间扭曲音频信号转换(508)为具有一定数目频谱系数的频谱表示;以及处理(51 可变数目的频谱系数,以产生编码音频信号,其中,基于所述帧的时间扭曲特性来设置所述音频信号的帧的可变数目的频谱系数, 使得减少或消除帧和帧之间的由已处理数目的频率系数所表示的带宽变化。
43.一种具有程序代码的计算机程序,当所述程序代码在计算机上运行时,所述程序代 码执行权利要求42所述的方法。
全文摘要
音频编码器包括窗口函数控制器(504)、加窗器(502)、具有最终质量检查功能的时间扭曲器(506)、时间/频率转换器(508)、TNS级(510)或量化器编码器(512),由时间扭曲分析器(516)或信号分类器(520)获得的信号分析结果来控制所述窗口函数控制器(504)、所述时间扭曲器(506)、所述TNS级(510)或附加的噪声填充分析器(524)。此外,解码器使用取决于音频信号的谐波或语音特性的经操纵的噪声填充估计来应用噪声填充操作。
文档编号G10L21/04GK102150201SQ200980135837
公开日2011年8月10日 申请日期2009年7月6日 优先权日2008年7月11日
发明者拉尔夫·盖格尔, 斯特凡·拜尔, 杰拉尔德·舒勒, 纪尧姆·福克斯, 萨沙·迪施, 贝恩德·埃德勒, 马克斯·诺伊恩多夫 申请人:弗劳恩霍夫应用研究促进协会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1