音频信号解码器、音频信号编码器、用以将音频信号解码的方法、用以将音频信号编码的...的制作方法

文档序号:2832759阅读:513来源:国知局
专利名称:音频信号解码器、音频信号编码器、用以将音频信号解码的方法、用以将音频信号编码的 ...的制作方法
技术领域
依据本发明的诸实施例与基于一编码音频信号表不提供一解码音频信号表不的一种音频信号解码器有关。依据本发明的进一步实施例与提供一输入音频信号的一编码表不的一种音频信号编码器有关。根据本发明更进一步的实施例与一种基于一编码音频信号表示提供一解码音频信号表不的方法有关。·
根据本发明的另一些实施例与一种提供输入音频信号的一编码表不的方法有关。根据本发明的更进一步实施例与计算机程序有关。根据本发明的一些实施例与利用扭曲信息适应一算术编码器的上下文(context)的概念有关,该扭曲信息可与一时间扭曲修正型离散余弦转换结合利用(简称为TW-MDCT)。
背景技术
在下文中,将对时间扭曲音频编码范畴做一简短的介绍,该一范畴的概念可与本发明的一些实施例结合应用。近来,已有将一音频信号转换成一频域表示,并将频域表示有效地,例如计入知觉遮蔽阈值编码的技术研发。如果一组编码频谱系数被传输的区块长度长,且如果仅有一相对少数的频谱系数远高于总体遮蔽阈值、而大量的频谱系数接近或低于总体遮蔽阈值且因此可被忽略(或以最小的码长度编码),则此一音频信号编码概念特别有效率。适用该条件的频谱有时称为一稀疏频谱。举例而言,以余弦为基础或以正弦为基础的调制重迭转换因其能量压缩性质而经常被使用在信源编码的应用中。亦即,对具有一固定基本频率(音高)的谐波音,它们将信号能量集中到少数的频谱成分(子能带),导致一有效率的信号表示。通常,一信号的(基本)音高应被理解成能与信号频谱区别的最低主要频率。在常用语音模式中,音高是由人类咽喉调制的激发信号频率。若仅有一个单一基本频率存在,频谱将极其简单,只包含基本频率和泛音。此一频谱可被高度有效地编码。然而,对于具有变化音高的信号,对应于每一谐波成分的能量覆盖数个转换系数,因而导致一编码效率的降低。为了克服编码效率的减少,要编码的音频信号在一非均匀时间网格上被有效地重取样。在后续处理中,由非均匀重取样获得的样本位置被处理成犹如它们表示一均匀时间网格上的值。此一运算一般是表示成「时间扭曲」。取样次数可有利地依赖音高的时间变化被选择,以使得音频信号在音频信号的调谐扭曲版本中的一音高变化小于音频信号在原始版本(在时间扭曲之前)中的一音高变化。在音频信号的时间扭曲后,音频信号的时间扭曲版本转换成频域。音高相依的时间扭曲具有的效果为时间扭曲音频信号的频域表示典型地展现能量压缩成远比原初(非时间-扭曲音频信号)的频域表示为少的频谱成分数目。在解码器端时间扭曲音频信号的频域表示被转换至时域,以使得时间扭曲音频信号的一时域表示可在解码器端取得。然而,在解码器端重建时间扭曲音频信号的时域表示中,编码器端输入音频信号的原始音高变化未被包含。因此,又另一通过重取样时间扭曲音频信号的解码器端重建时域表示的时间扭曲被应用。为了要在解码器获得编码器端输入音频信号的良好重建,需要使解码器端时间扭曲至少大约是编码器端时间扭曲的反运算。为了要获得适当的时间扭曲,需要有一数据提供于解码器以容许编码器端时间扭曲的调整。因为典型地需要将此信息从音频信号编码器传递到音频信号解码器,理想地是保持此一传输所需要的位率低,同时仍容许需要的时间扭曲信息能在解码器端可靠重整。而且,当编码或解码频谱值时编码效率往往因使用一上下文相依编码器或一上下文相依解码器而增加。 然而,已经发现一音频编码器的一编码效率在一基本频率或一音高存有一变化下往往比较低,即使时间扭曲概念被应用亦然。鉴于此一情况,希望有一种即使当存在一基本频率变化仍允许一良好编码效率的概念。

发明内容
发明概要依据本发明的一实施例创作一种音频信号解码器,该解码器基于包括编码频谱表示及编码时间扭曲信息的一编码音频信号表示提供一解码音频信号表示。音频信号解码器包含一基于上下文的频谱值解码器,该解码器配置成依赖一上下文状态解码描述一或更多频谱值或一或更多频谱值的一数字表示的至少一部分的一码字,以获得解码频谱值。音频信号解码器也包含一上下文状态决定器,配置成依赖一或更多先前解码的频谱值决定一现行的上下文状态。音频信号解码器也包含一时间扭曲频域对时域转换器,配置成根据一组与特定音帧相关联且由该基于上下文频谱值决定器提供的解码频谱值、并依赖该时间曲信息提供一音巾贞的一时间扭曲时域表不。上下文状态决定器配置成使上下文状态的决定适应后续音帧之间的一基本频率变化。根据本发明的此一实施例是以一发现为基础,即若上下文状态被适应后续音帧之间的一基本频率改变,则以一基于上下文频谱值的解码器在一具有时间变化的音频信号存在下所实现的编码效率被改进,因为基本频率随时间的变化(在许多情况等同于音高变化)具有的效果为一特定音帧的频谱典型地相似于一先前音帧(在特定音帧之前)的频谱的频率比例缩放版本,使得依赖基本频率变化决定上下文的适应技术允许利用该相似性来改良编码效率。换言之,已发现基于上下文频谱值编码的编码效率(或解码效率)在二个后续音帧之间存在一基本频率的一显著改变时相对较差,且此一情况下编码效率可通过适应上下文状态的决定而被改善。此一决定上下文状态的适应技术允许利用先前音帧与现行音帧的频谱之间的相似性,同时也考虑先前音帧与现行音帧的频谱间的系统性差异,像是例如典型地出现在基本频率随着时间变化(即在二音帧之间)下的频谱的频率比例缩放。
概括而言,依据本发明的此一实施例有助于在不需要另外的旁侧信息或者位率之下改善编码效率(假定描述基本频率在后续音帧之间变化的信息利用一音频信号编码器或解码器的时间扭曲功能可在一音频比特流中使用)。在一较佳实施例中,时间扭曲频域对时域转换器包含一标准(非时间扭曲)频域对时域转换器,配置为根据一组与特定音帧相关联且由基于上下文解码器提供的一组解码频谱值提供一特定音帧的一时域表示,以及一时间扭曲重取样器,配置为依赖时间扭曲信息重取样该特定音巾贞的时域表不、或其一已处理版本,以获得该特定音巾贞的一重取样(时间扭曲)时域表示。一时间扭曲频域对时域转换器的此一实施易于施行,原因是其依赖一「标准」频域对时域转换器,且包括一时间扭曲重取样器为其功能扩充,该时间扭曲重取样器的功能可以独立于频域对时域转换器的功能外。因此,该频域对时域转换器可在一时间扭曲(或复原时间扭曲)停用的运算模式及一时间扭曲(或复原时间扭曲)现用的运算模式的两种运算模式中被重复利用。
在一较佳实施例中,时间扭曲信息描述音高随时间的变化。在此实施例中,上下文状态决定器配置成从时间扭曲信息导出一频率伸展信息(即,一频率比例缩放信息)扭曲信息。而且,上下文状态决定器最好配置成沿着频率轴依赖频率伸展信息伸展或压缩与一先前音帧相关联的过去上下文,以获得用于一现行音帧的一或更多频谱值的基于上下文解码的一适应上下文。已发现一描述一音高随时间的变化的时间扭曲信息非常适合导出频率伸展信息。而且,已经发现沿频率轴伸展或压缩与一先前音帧相关联的过去上下文典型地产生一伸展或压缩上下文,其允许导出一有意义上下文状态信息,该状态信息良好适应目前音帧的频谱且因而带来一良好的编码效率。在一较佳实施例中,上下文状态决定器配置成从时间扭曲信息导出一第一音帧的一第一平均频率信息,且从时间扭曲信息导出接着第一音帧之后的一第二音帧上的一第二平均频率信息。在此一情况,上下文状态决定器配置成在计算第二音帧上的第二平均频率信息与第一音帧上的第一平均频率信息之间的一比率,用以确定频率伸展信息。已发现典型地能够容易从时间扭曲信息导出平均频率信息,且亦发现第一与第二平均频率信息之间的比率允许一计算上有效的频率伸展信息导出。在另一较佳实施例中,上下文状态决定器配置成从时间扭曲信息导出一第一音帧上的一第一平均时间扭曲信息,且从时间扭曲信息出一在第一音帧之后的一第二音帧上的第二平均时间扭曲信息。在此一情况,上下文状态决定器配置成计算第一音帧上的第一平均时间扭曲轮廓信息与该第二音帧上的第二平均时间扭曲信息之间的比率,用以确定频率伸展信息。已发现计算第一与第二音帧(可能重迭)上的时间扭曲轮廓的平均时在计算上特别有效,且第一平均时间扭曲轮廓信息与第二平均时间扭曲轮廓信息间的一比率提供充分正确的频率伸展信息。在一较佳实施例中,上下文状态决定器配置成从一延伸在多个连续音帧上的共同时间扭曲轮廓导出第一和第二平均频率信息或第一和第二平均时间扭曲轮廓信息。已发现在多个连续音帧上建立一共同时间扭曲轮廓不仅促进重取样时间的正确和无失真计算,且也提供一非常好的基础以供判断二后续音帧之间的基本频率改变。因此,共同时间扭曲轮廓已被确认为一识别不同音帧之间一随着时间的相对频率改变的极佳方法。在一较佳实施例中,音频信号解码器包含一时间扭曲轮廓计算器,配置成根据时间扭曲信息计算描述多个连续音帧上的一相对音高的时间演变的时间扭曲轮廓信息。在此一情况,上下文状态决定器配置成使用时间扭曲轮廓信息导出频率伸展信息。已发现例如可针对一音帧的每一取样被定义的一时间扭曲轮廓信息构成上下文状态决定的适应技术的一极佳基础。在一较佳实施例中,音频信号解码器包含一重取样位置计算器。重取样位置计算器配置成根据时间扭曲轮廓信息计算重取样位置以供时间扭曲重取样器使用,以使得重取样位置的一时间变化由时间扭曲轮廓信息决定。已发现时间扭曲轮廓信息对于频率伸展信息的决定及重取样位置的决定的一般用途所具有的效果是,通过应用频率伸展信息所获得的一伸展上下文被良好适应一现行音帧的频谱的特性,其中该现行音帧的音频信号至少接近利用计算的重取样位置通过重取样操作被重建的先前音频信号的一音频信号延续。在一较佳实施例中,上下文状态决定器配置成依赖多个先前解码的频谱值(可能被上下文内存结构所包含或描述)导出一数字的现行上下文值,且依赖数字现行上下文值选择描述一码值映射至一表示一或更多频谱、或一或更多频谱值的一数字表示的至少一部分的码值的一映射规则。在此情况下,基于上下文的频谱值解码器配置成使用上下文状态决定器所选择的映射规则解码描述一或更多频谱值、或者一或更多频谱值的一数字表示的 至少一部分的码值。已发现一种上下文适应技术,其中一数字现行上下文值由多个先前解码频谱值导出,且其中一映射规则依据该数字(现行)上下文值被选择,因上下文状态例如数字(现行)上下文值的决定的一适应技术而显著获益,因为通过此一概念能避免一显著不适当映射规则的选择。相反地,如果上下文状态,即数字现行上下文值的导出不依赖后续音帧之间的基本频率改变被适应,则一映射规则的错误选择将在有一基本频率改变之下时常发生于,使得一编码增益可能减少。此一编码增益的减少通过所描述的机制而被避免。 在一较佳的实施例中,上下文状态决定器配置成建立及更新一初步上下文内存结构,以使得初步上下文内存结构的项目描述第一音帧的一或更多频谱值,其中初步上下文内存结构的项目的项目索引指示各别项目所关联的频域对时域转换器的一频率点或者一组相邻频率点(例如,在提供第一音帧的时域表示中)。上下文状态决定器更进一步被配置成根据初步上下文内存结构获得一频率比例缩放上下文内存结构以使得初步上下文的一个具有第一索引的特定项目或者子项目被映射至频率比例缩放上下文内存结构的具有一第二频率索引的对应项目或者子项目之上。第二频率索引与该第一频率索引是与该频域对时域转换器的一不同频率点或一不同组相邻频率点相关联。换言之,在对应于该频域对时域转换器的一第i频谱点(或频域对时域转换器的第i组频谱点)的一或更多频谱值的基础上所获得的初步上下文内存结构的一项目被映射至频率比例缩放上下文内存结构的一与频域对时域换器的一第j频率点(或者第j组频率点)相关联的一项目上,其中j不同于i。已发现此一将初步内存结构的项目映射至频率比例缩放上下文内存结构的项目上的概念提供一使上下文状态的决定适应基本频率改变的一种计算上特别有效的方法。该上下文的一频率比例缩放可以利用此一概念被轻松达成。因此。由脉频率比例缩放上下文内存结构导出一数字现行上下文值与从一无音高变化的常规(例如初步)上下文内存结构导出一数字现行上下文值可以是同样的。因此,所描述的概念容许以最小的努力在一现存的音频解码器下实施上下文适应技术。在一较佳实施例中,上下文状态决定器配置成导出描述现行上下文状态的一上下文状态值用于一码字的解码,该码字使用频率比例缩放上下文内存结构的值描述与一第三频率索引相关联的一第二音帧的一或更多频谱值、或第二音帧的一或更多频谱值的一数字表示的至少一部分,频率比例缩放上下文内存结构的该等值的频率索引是与第Ξ频率索引成一预定关系,该第三频率索引指定欲利用现行上下文状态值被解码的音帧所关联的频域对时域解码器的一频率点或者一组相邻频率点。已经发现使用一或更多欲被解码的频谱值的预定(且最好是固定)相对环境(以频率点的角度)导出上下文状态值(例如,一数字现行上下文值)允许使该上下文状态值的计算保持适度简单。通过使用频率比例缩放上下文内存结构作为上下文状态值导出的一输入,基本频率的变化能有效率地被考虑。在一较佳的实施例中,上下文状态决定器配置成将频率比例缩放上下文内存结构的具有一对应目标值频率索引的每一多个项目设定为初步上下文内存结构具有对应来源频率索引的一对应项目的值。上下文状态决定器配置成决定频率比例缩放上下文内存结构的一项目及初步上下文内存结构的一对应项目的对应频率索引,以使得该对应频率索引之间的一比率是由初步上下文内存结构的项目所关联的一现行音帧与解码上下文由频率比 例缩放上下文内存结构的项目决定的一后续音帧之间的基本频率改变决定。通过使用此一概念导出频率比例缩放上下文内存结构的项目,能保持小的复杂度同时仍可使频率比例缩放上下文内存结构适应基本频率的变化。在一较佳的实施例中,上下文状态决定器配置成建立初步上下文内存结构以使得初步上下文内存结构的每一多个项目是以一第一音帧的多个频谱为基础,其中初步上下文内存结构的项目的项目索引指示各别项目被关联(相对第一音帧)的频域对时转换的一组相邻频率点。上下文状态决定器配置成从初步上下文内存结构的项目提取具有关联的个别频率点索引的初步频率点个别上下文值。除此的外,上下文状态决定器配置成获得具有关联的个别频率点索引的频率比例缩放频率点个别上下文值,以使得具有一第一频率点索引的特定初步频率点个别上下文值被映射到一具有一第二频率点索引的对应频率比例缩放频率点个别上下文值,使得初步频率点个别上下文值的一频率点个别映射被获得。上下文状态决定器更进一步被配置为将多个频率比例缩放频率点个别上下文值组合成频率比例缩放上下文内存结构的一组合项目。因此,即使多个频率点被概括在上下文内存结构的一个项目中,仍能够使频率比例缩放上下文内存结构以一非常精细的方式适应基本频率的变化。因此,上下文对基本频率改变的一特别精确的适应可被达成。依据本发明的另一实施例创作一种音频信号编码器,提供包括一编码频谱表示与一编码时间扭曲信息的输入音频信号的一编码表示。音频信号编码器包含一频域表示提供者,其配置成提供表不依据一时间扭曲资被时间扭曲的输入音频信号的时间扭曲版本。音频信号编码器进一步包含一基于上下文的频谱值编码器,配置成依赖一上下文状态编码一描述频域表示的一或更多频谱值,或频域表示的一或更多频谱值的一数字表示的至少一部分的码字,以获得编码频谱表示的编码频谱值。音频信号解码器也包含配置成依赖一或更多个先前编码的频谱值决定一现行上下文状态的上下文状态决定器。上下文状态决定器配置成使上下文状态的决定适应后续音帧之间的基本频率改变。此一音频信号编码器与上述的音频信号解码器是以同一概念与发现为基础。同时,音频信号编码器能被增补有关于音频信号解码器所讨论的任何一特征及功能,其中先前编码频谱值担任先前解码频谱值在上下文状态计算中的角色。在一较佳的实施例中,上下文状态决定器配置成依赖多个先前编码频谱值导出一数字现行上下文值,并依赖该数字现行上下文值选择描述一或更多频谱值、或一或更多频谱值的一数字表示的一部分映射至一码值上的映射规则。在此情况下,基于上下文的频谱值编码器配置成使用由上下文状态决定器选择的映射规则提供描述一或更多频谱值或一或更多频谱值的一数字表示的至少一部分的码值。依据本发明的另一实施例创作一种在一编码音频信号的基础上提供一解码音频信号表示的方法。依据本发明的又一实施例创作一种提供一输入音频信号的编码表示的方法。依据本发明的另一实施例创作一可执行该等方法之一的一种计算机程序。诸方法及计算机程序是以与上述讨论的音频信号解码器和音频信号编码的相同考虑为基础。此外,音频信号编码器,诸方法和计算机程序能以有关于音频信号解码器的上述及下文所描述的任何一功能和功能补充。


图1a示出依据本发明的一实施例的一音频信号编码器的一方块概略图;图1b示出依据本发明的一实施例的一音频信号解码器的一方块概略图;图2a图示出依据本发明的另一实施例的音频信号编码器的一方块概略图;图2b图示出依据发明的另一实施例的音频信号解码器的一方块概略图;图2c示出依据发明的实施例的一使用在音频编码器中的算术编码器的一方块概略图;图2d示出依据发明的实施例的一使用在音频信号解码器中的算术解码器的一方块概略图;图3a示出一自适应上下文(编码/解码)的图标;图3b示出一相对音高轮廓的图示;图3c示出时间扭曲修正型离散余弦转换(tw-mdct)的一伸展效果的图示;图4a示出使用在本发明的实施例中的一上下文状态决定器的方块概略图;图4b示出可由依据图4的上下文状态决定器实施的一频率压缩的图标;图4c示出一用于伸展或压缩一上下文、可被应用在依据本发明的实施例中的一算法的一虚拟程序码表示;图4d和图4e示出一用于伸展或压缩一上下文、可被应用在依据本发明的实施例中的一算法的一虚拟程序码表示;图5a、图5b示出依据发明的一实施例的一音频信号解码器的方块概略图的一详细摘录部分;图6a、图6b示出依据发明的一实施例,一提供解码音频信号表示的映射程序的流程图的一详细摘录部分;图7a图示出使用在依据发明一实施例的一音频解码器中的数据元素和辅助元素的一定义的说明;图7b示出被使用在依据发明一实施例的一音频解码器中的常数的定义说明;
图8示出一码字索引映射至一对应的解码时间扭曲值之上的一映射的表表示;图9示出一用于在相等间隔的节点间线性内插的算法的一虚拟程序码表示;图IOa示出一辅助程序函数“warp mv vec”的一虚拟程序码表示;图IOb示出一辅助程序函数“warp mv vec”的一虚拟程序码表示;图11示出一用于计算一样本位置向量和一过渡长度的算法的一虚拟程序码表示;图12不出取决于一窗序列和一核心编码器音巾贞长度的合成窗长度N的值的表表示;图13示出一容许窗序列的真值表表示;
图14示出一用于一“EIGHT_SHORT_SEQUENCE”型态的窗序列的窗化及一内部重迭相加的算法的一虚拟程序码表示;图15示出用于非“EIGHT_SHORT_SEQUENCE”型的其它窗序列的窗化及一内部重迭相加的算法的一虚拟程序码表示,图16示出一用于重取样的算法的一虚拟程序码表示;且图17示出一用于状态计算的上下文图示,其可被使用在依据本发明的一些实施例中;图18示出一定义的说明;图19示出一算法“arith map context O ”的一虚拟程序码表示;图20示出一算法“arith_get_context O ”的一虚拟程序码表示;图21示出一算法“arith get pk() ”的一虚拟程序码表示;图22 不出一虚拟的 “arith decode () ” ;图23示出用于解码一或更多较不显著的位平面的一算法的一虚拟程序码表示;图24示出用于设定一系列算术解码频谱值的算法的一虚拟程序码表示项目一;图25示出一函数“arith_update_context O ”的一虚拟程序码表示;图26示出一算法“arith finish () ”的一虚拟程序码表示;图27a至与27f示出依据本发明一实施例图的音频流的语法元素的表示。
具体实施例方式较佳实施例的详细说明I.依据图Ia的音频信号编码器图Ia依据本发明的一实施例不出一音频信号编码器100的一方块概略图。音频信号编码器100配置成接收一输入音频信号110且提供输入音频信号的一编码表不112。输入音频信号的编码表不112包含一编码频谱表不和一编码时间扭曲信息。音频信号编码器100包含频域表示提供者120,其配置成接收输入音频信号110和一时间扭曲信息122。频域表示提供者120 (其可被视为一时间扭曲频域表示提供者)配置成提供一表不依据时间扭曲信息122被时间扭曲的输入音频信号110的一时间扭曲版本的一频域表示124。音频信号编码器100也包含一基于上下文频谱值编码器130,配置成依赖一上下文状态提供一描述频域表示124的一或更多频谱值、或频域表示124的一或更多频谱值的数字表示的至少一部分,以获得编码频谱表示的编码频谱值。上下文状态例如可被一上下文状态信息134描述。音频信号编码器100也包含上下文状态决定器140,配置成依赖一或更多先前编码频谱値24决定一现行上下文状态。上下文状态决定器140继而可提供上下文状态信息134给基于上下文的频谱值编码器130,其中上下文状态信息例如可采一数字现行上下文值(用于选择一映射规则或映射表)的形式、或一选择映射规则或映射表的参考数据的形式。上下文状态决定器140配置成使上下文状态的决定适应对后续音帧之间的一基本频率改变。因此,上下文状态决定器可评估有关后续首巾贞之间的基本频率改变的一信息。此一有关后续音帧间的基本频率改变的信息例如可以是以频域表示提供者120所使用的时间扭曲信息122为基础。因此,音频信号编码器在音频信号部分包括一随时间变化的基本频率、或一随时间变化的音高的情况下可提供一特别高的编码效率,因为上下文状态信息134的衍生信息被适应二个音帧之间的基本频率改变。因此,被基于上下文频谱值编码器130使用的上下文被良好适应频域表示124的频谱压缩(相对于频率)或频谱扩展(相对于频率),此在基本频率由一音帧改变至次一音帧(即在二音帧之间)时发生。因此,一上下文状态信息134甚·至在一基本频率改变的情况下平均而言被良好适应于频域表示124,进而产生基于上下文频谱值编码器的良好编码效率。已发现,若相反地上下文状态未被适应基本频率的改变,则上下文在基本频率改变的情形中是不适当的,因此造成编码效率的显著降级。因此,可以说音频信号编码器100在基本频率改变的情形中典型地表现超越使用一基于上下文频谱值编码的传统音频信号编码器。在此应指出者,使上下文状态的决定适应于后续音帧(即从第一音帧到第二、后续音帧)之间的基本频率改变的手段存在有许多不同的实施方式。例如,一项目是由频域表示124定义或由其衍生的上下文内存结构,(或更精确地,其内容)可在一描述上下文状态的数字现行上下文值被导出之前在频率上被伸展或压缩。此等概念将在下文中详细讨论。或者,也可能改变(或适应)算法以从上下文内存结构的项目导出上下文状态信息134,内存结构的项目是以频域表示124为基础。例如,此一非频率比例缩放上下文内存结构的哪一项目(多个项目)被考虑可以调整,尽管此一解决方案在本文中不予详细讨论。2.依据图Ib的音频信号解码器图Ib不出一音频信号解码器150的一方块概略图配置成接收一编码音频信号表示152,可能包含一编码频谱表示和一编码时间扭曲信息。音频信号解码器150配置成根据编码音频信号表示152提供一解码音频信号表示154。音频信号解码器150包含一基于上下文的频谱值解码器160,配置成接收编码频谱表示的码字且以的为基础提供解码频谱值162。而且,基于上下文的频谱值解码器160配置成接收一上下文信息164,举例而言,该信息可取采一选择的映射规则或一选择映射规则的参考数据的数字现行上下文值的形式。基于上下文的频谱值解码器160配置成依赖上下文状态(该状态可被上下文状态信息164描述)解码一描述一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分的码字,以获得解码频谱值162。音频信号解码器150也包含一时间扭曲频域对时域转换器180,配置成根据一组与基于上下文频谱值解码器所提供的一特定音帧相关联的解码频谱值162决定一现行上下文状态。时间扭曲频域对时域转换器180配置成接收一时间扭曲信息184以使得时间扭曲时域表不182的提供适应由编码音频号表不152的编码时间扭曲彳目息描述的需要时间扭曲,如此则时间扭曲时域表不182构成解码音频信号表示154 (或者,等效地,如果使用后处理,则形成解码音频信号表示的基础,)时间扭曲频域对时域转换器180例如可包含一频域对时域转换器,配置成根据与一特定音帧相关联且由基于上下文频谱值解码器160提供的成组解码频谱値162提供一特定音巾贞的时域表不。该时间扭曲频域对时域转换器也可以包含一时间扭曲重取样器,配置成依赖时间扭曲信息184对特定音帧的时域表示,或其处理版本重取样,以便获得特定音帧的重取样时域表示182。此外,上下文状态决定器170配置成将上下文状态(该状态由上下文状态信息164描述)的决定适应后续音帧之间(即,从第一音帧到第二后续音帧的)的基本频率改变。音频信号解码器150是以有关对音频信号编码器100所作讨论的发现为基础。尤其,音频信号解码器配置成将上下文状态的决定适应后续音帧之间的改变频率,以使得上下文状态(且结果是由基于上下文频谱值解码器160所使用、关于不同频谱值的发生的统计或然率的假设)至少平均而言良好适应一使用该上下文信息被解码的现行音帧的频谱。因此,由于在依据由上下文状态决定器170所提供的上下文状态选择的选出上下文与欲被 解码的频谱值之间的良好匹配通常造成相对较短的码字,故编码该现行音帧的频谱值的码字可以特别短,带来一良好的位率效率。此外,因为无论如何皆包含在编码音频信号表示152中以供时间扭曲频域对时域转换器使用的时间扭曲信息184可被上下文状态决定器170重复使用作为一有关后续音帧之间基本频率改变信息,故上下文状态决定器170可有效率地实施。因此,上下文状态的决定对后续音帧之间基本频率改变的适应技术甚至不需要任何另外的旁侧信息。因此,音频信号解码器150不需要任何另外的旁侧信息即可产生基于上下文频谱值解码的改良编码效率(而且给予编码器100端的改良编码效率),此构成位率效率上的重大进步。此外,应指出的是,不同的概念可被使用来将上下文状态的决定适应后续音帧之间的基本频率改变(即从一第一音帧到一第二、后续音帧)。举例而言,其项目为基于解码频谱值162的一上下文内存结构例如可在上下文状态信息164由上下文状态决定器170自频率比例缩放上下文内存结构导出前使用一频率比例缩放(例如,频率伸展或者频率压缩)被适应。然而,可选择地,一不同的运算法可被上下文状态决定器170用来导出上下文状态信息164。例如,一上下文内存结构的哪些项目被用来决定一上下文状态以用来解码一具有特定码字频率索引的码字可被适应。即使后者的概念尚未详细地在本文中描述,该一概念当然可以被应用在依据本发明的一些实施例中。同时,不同的概念可被使用来决定基本频率的改变。3.依据图2a的音频信号编码器图2a所示为依据本发明一实施例的音频信号编码器200的一方块概略图。应指出的是依据图2的音频信号编码器200与依据图Ia的音频信号编码器100非常相似,因此同一方法及信号将被标示相同的参考数字且不再详细解释。音频信号编码器200配置成接收一输入音频信号110且以该音频信号110的基础上提供一编码音频信号表示112。可自由选择地,音频信号编码器200也配置成接收一外部产生的时间扭曲信息214。
音频信号编码器200包含一频域表示提供者120,其功能可与音频信号编码器100的频域表示提供者120的功能完全相同。频域表示提供者120提供表示一输入音频信号110的时间扭曲版本的频域表示,该频域表示以124标示。音频信号编码器200也包含一基于上下文的频谱值编码器130和上下文状态决定器140,其操作是如相关于音频信号编码器100所讨论者。因此,基于上下文频谱值编码器130提供码字(例如,acod_m),每一码字代表编码频谱表示的一或更多频谱值,或者一或更多频谱值的一数字表示的至少一部分。音频信号编码器可自由选择地包含一时间扭曲分析器或基本频率分析器或音高分析器220,其为配置成接收输入音频信号110且以的为基础提供一时间扭曲轮廓信息222,该信息例如描述由频域表示提供者120向输入音频信号110施加一时间扭曲,以便补偿在一音帧期间的一基本频率改变,及/或输入音频信号110的一基本频率的时间演变,及或输入音频信号110的一音高的时间演变。音频信号编码器200也包含一时间扭曲轮廓编码器224,其配置成根据时间扭曲轮廓信息222提供一编码时间扭曲信息226。编码时间扭曲/[目息226最好被包含在编码首频彳目号表112中,且例如可米取(编码)时间扭曲比率值“tw_ratio[i]] ” 的形式。 此外,应指出者是时间扭曲轮廓信息222可被提供至频域表示提供者120且亦被提供至上下文状态决定器140。音频信号编码器200可能另外包含一音响心理学模型处理器228,配置成接收输入音频信号110,或其一预先处理版本,并执行一音响心理学的分析,举例而言决定时域遮蔽效应及/或频率遮蔽效应。因此,音响心理学模型处理器228可提供一控制信息230,举例而言代表输入音频信号的一不同频带的音响心理学关联,在频域音频编码器上广为人知。下文中,频域表示提供者120的信号路径将被简短地描述。频域表示提供者120包含可选择的预先处理120a,可以可选择地预先处理输入音频信号110,提供输入音频信号110的预先处理版本120b。频域表示提供者120也包含一取样器/重取样器,配置成依赖一接收自一取样位置计算器120e的取样位置信息120d而对该输入音频信号110、或其预处理版本120b取样或重取样。因此,取样器/重取样器120c可以对输入音频信号110(或其预先处理版本120b)应用一时变取样或重取样。通过应用此一时变取样(在有效样本点之间具有时间变化的时间距离),一取样或重取样的时域表示120f被获得,其中一音高或一基本频率的时间变化相较于输入音频信号110被减少。取样位置由取样位置计算器120e依赖时间扭曲轮廓信息222被计算。频域表示提供者120也包含一窗程序120g,其中窗程序120g被配置成使取样器或重取样器120c所提供的取样或重取样时域表示120f窗化。窗化被执行以便减少或消除块效应,藉此容许一音频信号解码器上的平顺迭加演算操作。频域表示提供者120也包含一时域对频域转换器120i,配置成接收窗化及取样/重取样的时域表示120h,且在其基础上提供一频域表示120 j,该频域表示120 j例如包含输入音频信号110每音帧的一组频谱系数(其中该输入音频信号的音帧举例而言可以是重迭处理或非重迭处理,其中一大约50%的重迭在一些重迭音帧实施例中是较佳者)。然而,应指出的是在一些实施例中,多个组频谱系数可被提供给一单一音帧。频域表示提供者120可选择地包含一频谱处理器120k,配置成执行一时间噪声成形以及/或一长期预测以及/或任何其它形式的频谱后处理,藉此获得一后处理频域表示1201。
频域表示提供者120可选择地包含一比例缩放器/量化器120m,其中比例缩放器/量化器120m关于举例而言可以配置成依据音响心理学模型处理器228提供的控制信息230比例缩放频域表示120j或其后处理版本1201的不同频率点(或频带)。因此,频率点(或频带,包含多个频率点)举例而言可根据音响心理学相关性被比例缩放,以使得,具有高度音响心理学相关性的频率点(或者频带)有效地通过一基于上下文频谱值编码器以高准确度被编码,而具有低音响心理学相关性的频率点(或者频带)则以低准确度被编码。此外,应指出者为控制信息230可以可选择地调整时域对频域转换器及/或频谱后处理的窗化参数。同时,控制信息230可以一编码形式被包含在编码音频信号表示112内,如熟习此技艺者所周知。关于音频信号编码器200的功能,可以说一时间扭曲(在一时变非均勻取样或者重取样的意义上)由取样器/重取样器120c依据时间扭曲轮廓信息220被应用。因此,即使存在一具有音高时间变化而在未有时变取样/重取样时将产生一模糊频谱的输入音频信号,仍可达成一具有显著的频谱波峰与波谷的频域表示120j。此外,由基 于上下文频谱值编码器130使用的上下文的导出依赖后续音帧间的一基本频率改变被适应,造成如上文所讨论的一特别高编码效率。除此的外,作为为取样器/重取样器120c的计算取样位置计算以及上下文状态决定的适应两者的基础的时间扭曲轮廓信息222使用时间扭曲轮廓编码器224被编码,以使得描述时间扭曲轮廓的编码时间扭曲信息226被包含在编码音频信号表示112之中。因此,编码音频信号表示112提供在一音频信号解码器端有效解码该编码输入音频信号110所需要的信息。此外,应指出者是音频信号编码器200的个别组件可以实质上执行音频信号解码器240的个别组件的一反转功能,将在下文参照图2b被描述。此外,本详细说明也在整体描述中提到有关音频信号解码器的功能,使得音频信号解码器的功能能被理解。同时也应予指出,音频信号解码器和个别的组件可作相当多的修改。举例而言,一些功能可被结合像是例如取样/重取样,窗化网域对频域转换。而且,在适当处可加入另外的处理。此外,依要求或需要,编码音频信号表示自然地可能包含另外的旁侧信息,当做需要或需要。4.依据图2b的音频信号解码器图2b不出依据本发明一实施例的音频信号解码器240的一方块概略图。音频信号解码器240可能与依据图Ib的音频信号解码器150非常类似,因此相同的方法和信号以相同的数字标示而不再详细讨论。音频信号解码器240配置成例如以比特流的形式接收一编码音频信号表示152。编码音频信号表不152包含一例如码字(举例而言,acod_m)形式的编码频谱表不,代表一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分。编码音频信号表示152也包含一编码时间扭曲信息。此外,音频信号解码器240配置成提供一解码音频信号表示154,举例而言,音频内容的一时域表不。音频信号解码器240包含一基于上下文的频谱值解码器160,其配置成接收代表来自编码音频信号表示152的频谱值的码字,且在其基础上提供解码频谱值162。
并且,音频信号解码器240也包含一上下文状态决定器170,配置成提供上下文状态信息164给基于上下文的频谱值解码器160。该音频信号解码器240也包含一时间扭曲频域对时域转换器180,其接收解码频谱值162且提供解码音频信号表示154。音频信号解码器240也包含一时间扭曲计算器(或者时间扭曲解码器)250,配置成接收被包含在编码音频信号表示152之中的编码时间扭曲信息,且在其基础上提供一解码时间扭曲信息254。编码时间扭曲信息例如可包含描述一基本频率或一音高的一时间变化的码字“tw_ratio [i] ”。解码时间扭曲信息254例如可采取一扭曲轮廓信息的形式。举例而言,解码时间扭曲信息254可包含值“warp_value_tbl [tw_ ratio [i] ”或值Prei [n ],将在下文中加以讨论。可任选地,音频信号解码器240也包含一时间扭曲轮廓计算器256,配置成从解码时间扭曲轮廓信息254导出一时间扭曲轮廓信息258。时间扭曲信息258例如可作为上下文状态决定器170、以及时间扭曲的频域对时域转换器180的一输入信息。在下文中,关于时间扭曲的频域对时域转换器的一些细号节将被描述。转换器180可任选地可包含一反量化器/比例重缩放器180a,其可配置成从基于上下文的频谱值解码器160接收解码频谱值162并提供解码频谱值162的一反量化及/或比例重缩放版本180b。举例而言,反量化器/比例重缩放器180可被配置成执行一运算,该运算至少大约与音频信号编码器200的比例缩放器/量化器120m相反。因此,一可任选的反量化器/比例重缩放器180可以接收一可对应于控制信息230的控制信息。时间扭曲频域对时域转换器180可任选地包含一频谱前处理器配置成的180c,配置成接收解码频谱值162或反量化/比例重缩放频谱值180b且在其基础上提供频谱预处理的频谱值180d。举例而言,频谱前处理器180c可执行一与音频信号编码器200的频谱后处理器120k相较之下的反运算。时间扭曲频域对时域转换器180也包含一频域对时域转换器180e,配置成接收解码频谱值162,反量化/比例重缩放频谱值180b或频谱预处理频谱值180d,且在其基础上提供一时域表示180f。举例而言,频域对时域转换器可配置成执行一频域对时域反转换,举例而言,一修正型离散余弦反转换(MDCT)。频域对时域转换器180e例如可根据一组解码频谱值,或可选择地,根据多个组解码频谱值提供编码音频信号的一音帧的一时域表示。然而,编码音频信号的音帧,举例而言,在某些情况中可以在时间上重迭。然而,在一些其它情况下音帧可能是非重迭的。时间扭曲频域对时域转换器180也包含一窗程序180g,被配置成窗化时域表不180f且根据由频域对时域转换器180e所提供的时域表示180f提供一窗化时域表示180h。时间扭曲频域对时域转换器180也包含一重取样器180i,配置成重取样该窗化时域表示180h,且以其为基础提供一窗化且重取样的时域表示180j。重取样器180i配置成从一取样位置计算器1801接收一取样位置信息180k。因此,重取样器180i对编码音频信号表不的每一音巾贞提供一窗化且重取样的时域表不180 j,其中后续音巾贞可能重迭。因此,一重迭器/相加器180m接收编码音频信号表示152的后续音帧的窗化与重取样时域表示180j,且重迭并相加该窗化及重取样时域表示180i以获得后续音帧之间的平滑过渡。时间扭曲频域对时域转换器可选择地包含一时域后处理180ο,配置成根据由重迭器/相加器180m提供的一组合音频信号180η执行一后处理。
时间扭曲轮廓信息258作为上下文状态决定器170的一输入信息,其配置成依赖时间扭曲轮廓信息258适应上下文状态信息164的导出。此外,时间扭曲频域对时域转换器180的取样位置计算器1801也接收时间扭曲信息且根据该时间扭曲轮廓信息258提供取样位置信息180k,藉此适应由重取样器180i依赖时间扭曲轮廓信息描述的时间扭曲轮廓而执行的时变重取样。因此,一音高变化根据时间扭曲轮廓信息258所描述的时间扭曲轮廓被引入由时域表示180f描述的时域信号。因此有可能根据具有一显著波峰和波谷的稀疏频谱180d提供具有随时间的明显音高变化(或基本频率随时间的一明显改变)的音频信号的一时域表示180j。此一频谱可被以高位率编码而且结果造成编码音频信号表示152的一较低位率需求。此外,上下文(或更普遍地,上下文状态信息164的导出)也使用上下文状态决定器170依赖时间扭曲轮廓彳目息258被适应。因此,编码时间扭曲/[目息252被重复使用两次,且通过容许一稀疏频谱的编码、及通过容许上下文状态信息在一时间扭曲或基本频率随时间的一变化存在下适应频谱的特定特性,而有助于改进编码效率。 关于音频信号编码器240的个别组件的功能的更进一步细节将在下文中被描述。5.依据图2c的算术编码器在下文中,一算术编码器290将被描述,它可代替基于上下文频谱值编码器130m与音频信号编码器100或音频信号编码器200中的上下文状态决定器140m的组合。算术编码器290配置成接收频谱值291 (举例而言,频域表示124的频谱值)且根据这些频谱值291 提供码字 292a,292b。换言之,算术编码器290例如可以配置成接收频域音频表示124的多个后处理及比例缩放且量化频谱值291。算术编码器包含一最高有效位平面提取器290a,其配置成由一频谱值提取一最高有效位面m。在此应指出者是,最高有效位平面可以包含一或甚至更多位(例如,二或三位),其为频谱值的最高有效位。因此,最高有效位平面提取器290a提供一频谱值的最高有效位平面值290b。算术编码器290也包含一第一码字决定器290c,其配置成决定代表最高有效位平面值m的算术石马字 acod_m[pki] [m]。可任选地,第一码字决定器290c也可能提供一或更多例如表示有多少较低有效位平面可利用(且结果是指示最高有效位平面的数字重量)的逸出码字(在本文中也被标示成“ARITH_ESCAPE”)。第一码字决定器290c可以被配置成使用一具有(或被引用)一累积频率表索引Pki的选择累积频率表提供与一最高有效位平面值m相关联的码字。为了要决定哪一累积频率表应被选择,算术编码器最好包含一例如可采用上下文状态决定器140的功能的状态追踪器290d。状态追踪器290d配置成追踪算术编码器的状态,举例而言,通过观察哪些频谱值先前已被编码。状态追踪器290d结果提供一可以是等同于上下文状态信息134的状态信息290e,例如有时为一标示为“s”或“t”的状态值的形式(其中状态值s不应该与频率伸展因子s混淆)。算术编码器290也包含一累积频率表选择器290f,配置成接收状态信息290e且提供一描述选出的累积频率表的信息290g给码字决定器290c。举例而言,累积频率表选择器290f可提供描述哪一累积频率表从一组例如64个累积频率表中被选出的一累积频率表索引“pki”。或者,累积频率表选择器290f可提供全部选出的累积频率给码字决定器290c。因此,码字决定器290c可使用选出的累积频率提供最高有效位平面值m的码字acod_m[pki] [m],以使得编码该最高有效位平面的值m的实际码字acod_m[pki] [m]取决于m的值及累积频率表索引pki,且结果取决于现行状态信息290e。关于编码程序和获得的码字格式的进一步细节将在下文中被描述。此外,关于等同于上下文状态决定器140的状态追踪器290d的运算的细节将在下文被讨论。算术编码器290进一步包含一较低有效位平面提取器290h,配置成比例缩放且量化频域音频表示291提取一或更多的较低有效位平面,如果一或更多欲被编码的频谱值超过仅使用最高有效位平面可编码的值的范围。则较低有效位平面可依需要包含一或更多位。因此,较低有效位平面提取器290h提供一较低有效位平面信息290i。
算术编码器290也包含第二码字决定器290j,配置成接收较低有效位平面信息290 并在其基础上提供代表零、一或更多较低有效位平面的内容的零、一或甚至更多码字“acod_r”。第二码字决定器290j可被配置成应用一算术编码算法或任一其它的编码算法以从该较低有效位平面信息290i导出较低有效位平面的码字“acod_r”。在此应指出者,该较低有效位平面的数目可依比例缩放且量化频谱值291而变化,因此如果欲被编码的比例缩放且量化频谱比较小可能完全没有较低有效位,如此使得如果欲被编码的现行比例缩放且量化频谱值具有一中等范围则可能有一较低有效位平面,以及使得如果欲被编码的比例缩放且量化频谱值采一比较大的值,则可能有超过一较低有效位平面。总结上述,算术编码器290配置成使用一阶层编码程序来编码由信息291描述的比例缩放且量化频谱值。最高有效位平面(举例而言每频谱值包含一、二或三位)被编码以获得最高有效位平面值的一算术码字“acod_m[pki] [m]”。一或更多的较低有效位平面(每一较低有效位平面例如包含一、二或三位)被编码以获得一或更多码字“acod_r”。当编码最高有效位平面时,最高有效位平面的值m被映射到一码字acod_m[pki] [m]。64个不同的累积频率表可用来依赖算术编码170的一状态值,即,依赖一先前编码频谱值来编码值m。因此,码字“acod_m[pki] [m]”被获得。除此的外,一或更多码字“acod_r”被提供,且若一或更多较低有效位平面存在则被包含至比特流中。然而,依据本发明,等同于上下文状态信息134的状态信息290e的导出被适应于由一第一音帧到一后续第二音帧(即在二个后续音帧之间)的基本频率改变。有关于此一可由状态追踪器290d执行的适应将在下文中被描述。6.依据图2d的算术解码器图2d示出算术解码器295的一方块概略图,其可代替基于上下文频谱值解码器160并取代依据图ID的音频信号解码器150以及依据图2b的音频信号解码器24。算术解码器295配置成接收一编码频域表示296,其例如可包含,码字“acodjn”及“acod_r”形式的算术编码频谱数据。编码频域表示296可等同于输入基于上下文频谱值解码器160的码字。此外,算术解码器配置成提供一解码频域音频表示297,其可等同于由基于上下文频谱值解码器160所提供的解码频谱值162。算术解码器295包含一最高有效位平面决定器295a,其配置成接收描述最高有效位平面的值m的算术码字acod_m[pki] [m]。最高有效位平面决定器295可被配置成使用一源于一组包含多个,例如64个累积频率表中的一累积频率表来从算术码字“acod_m[pkil [m] ”导出最高有效位平面值m。最高有效位平面决定器295a被配置成根据码字“acod_m”导出频谱值的一最高有效位平面的值295b。算术解码器295更进一步包含一配置成接收代表一频谱值的一或更多较低有效位平面的一或更多码字“acod_r”的较低有效位平面决定器295c。因此,较低有效位平面的决定 器295c配置成提供一或更多较低有效位平面的解码值295d。算术解码器295也包含一位平面组合器295e,配置成接收频谱值的最高有效位平面的解码值295b,以及如果较低有效位平面可用在现行频谱值时该频谱值的一或更多较低有效位平面的解码值295b。因此,位平面组合器295e提供编码频谱值,该编码频谱值是解码频域音频表示297的一部分。自然地,算术解码器295典型地被配置成提供多个频谱值以便获得与一音频内容现行音帧关联的一整组解码频谱值。算术解码器295更进一步包含一累积频率表选择器295f,配置成例如依赖描述算术解码器295的一状态的状态索引295g选择64个累积频率表中的一个。算术解码器295更进一步包含一状态追踪器295h,配置成依赖先前解码频谱值追踪算术解码器的一状态。状态追踪器295h可对应于上下文状态决定器170。有关状态追踪器295h的细节将在下文中被描述。因此,累积频率表的选择器295f配置成提供一选出累积频率表的索引(举例而言,pki ),或一选出的累积频率表本身,以便应用在依赖码字“acod_m”的最高有效位平面值m解码中。因此,算术解码器利用相邻频谱值的最高有效位平面的值的不同组合的不同概率。不同的累积频率表被选择且依赖上下文被应用。换言之,频谱值之间的统计相关性通过从一组包含例如64个不同累积频率表中依赖一状态索引295g选择不同的累积频率表而被利用(可能等同于上下文状态信息164),该状态索引295g是由观察先前解码的频谱值被获得。通过依赖一有关基本频率(或音高)改变信息使状态索引295g的导出适应后续音帧间的一基本频率改变(或音高改变)时一频谱比例缩放被考虑。7.适应上下文的概念的概观在下文中,将提出使用时间扭曲信息适应算术编码器的上下文的概念的概要陈述。7. 1背景资料在下文中,一些背景资料将被提出以帮助了解本发明。应指出者是在参考文献[3]中,一自适应上下文算术编码器(例如参见参考文献[5])被使用来无失真地编码量化频谱点。所使用的上下文在图3a中被描述,该图示出此一自适应上下文算术编码图标。在图3a中,可以看见来自先前音帧的已解码频率点被用来决定欲被解码的频率点的上下文。应指出者是上下文和编码是否以4元组或者线状或其它η元组一η可能改变,被组织为无关紧要者。再度参阅图3a,该图示出一自适应上下文算术编码或解码法,应指出者,一横坐标310描述时间而一纵坐标312描述频率。此处应指出者是4元组的频谱值使用一共同上下文状态依据图3a中所示的上下文被解码。例如,用于解码一与具有时间索引k与频率索引i的音帧相关联的频谱值的4元组320的上下文是基于一具有时间索引k和频率引i-1的第一 4元组322,一具有时间索引k-Ι和频率索引i-Ι的第二 4元组324,一具有时间索引k-Ι和频率索引i的第三4元组326以及一具有时间索引k-Ι和频率索引i+Ι的第四4元组328。应指出者是每一频率索引i-1、i、i+1指定(或更精确地,被关联于)时域对频域转换或频域对时间转换的四个频率点。因此,用于四元组321的解码的上下文是以四元组322、324、326、328的频谱值的频谱值为基础。因此,具有时间索引k_l的先前音帧的具有元组频率索引i-1、i和i+Ι的频谱值被用来导出用于解码具有时间索引k的现行音帧(典型地与具有时间索引k的现行解码音巾贞的具有元组频率索引i-Ι的频谱值组合)的具有元组频率索引i的频谱值的上下文。已经发现时间扭曲转换典型地导致具有基本频率变化的谐波信号的较佳能量压缩,导致频谱展现一清楚的谐波结构而非多少模糊化的分音,其在未应用时间扭曲时可能发生。扭曲时间的另一效果是由连续音帧的可能不同平均局部取样频率所引起。已经发现此一一效果造成具有另一固定谐波结构但不同基本频率的一信号的连续频谱沿频率轴被伸展。 图3c的下方曲线图390示出一实例。该实例包含二连续音帧(例如,在一具有一基本频率的谐波信号被一时间编码扭曲修正型离散余弦转换编码器TW-MDCT编码器编码的情况下被指定为“最后音帧”和“本音帧”的音帧)的曲线图(举例而言,一为频率点的函数的dB大小)。对应的相对音高演变能在图3b的一曲线图370中找到,显示一减少的相对音高以及因此一增加的谐波线的相对频率。此导致在应用时间扭曲算法(举例而言,时间扭曲取样或重取样)后的一谐波线的频率增加。可以清楚看见的是现行音帧(也指称为“本音帧”)的此一频谱是最后音帧的一近似复制,但是沿着频率轴392伸展(根据修正型离散余弦转换的频率点标记)。这也将意指,如果我们使用过去音帧(也指称为“最后音帧”)当做算术编码器的一上下文(例如,用于现行音帧(也指称为“本音帧”)的频谱值解码,因匹配分音现在将可能在不同频率点中发生,故上下文将会是次优的。图3c的一上方曲线图380将此(例如,使用一依赖上下文算术编码来编码频谱值的位需求)示出成与一通常被认为效果比算术编码系统差的霍夫曼编码系统相比较。由于次优的过去上下文(例如可能是由“最后音帧”定义的频谱值,由图3c中的曲线图390表示),在现行音帧的分音位于过去音帧中具有较低能量区域中的情况下,算术编码系统耗用较多的位,且反的亦然。另一方面,图3c的曲线图380显示,至少是在基本分音的情况下,如果上下文良好,则位分配在比较上低于使用霍夫曼编码者(举例而言,当使用一依赖上下文的算术编码时)。综上所述,图3b的曲线图370示出一相对音高轮廓的时间演变的一实例。一横坐标372描述时间且一纵坐标374描述一相对音高pMl与一相对频率fMl两者。一第一曲线376描述相对音高的一时间演变,且一第二曲线377描述相对频率的时间演变。可以看出,相对音高随着时间经过而减少,而相对频率则随着时间经过增加。此外,应指出者是一先前音中贞(也指称为“最后音巾贞”)的一时间延长378a与一现行音巾贞(也指称为“本音巾贞”)的一时间延长378b在图3b的曲线图370中非重迭。然而,典型地,后续音帧的时间延长378a、378b可以是重迭的。例如,重迭可能大约50%。现在参考图3c,应指出者,曲线图390显示两个后续音帧的MDCT频谱。一横坐标392根据修正型离散余弦转换的频率点描述频率。一纵坐标394描述个别频谱点的一相对大小(根据分贝)。可以看出,现行音帧(“本音帧”)的频谱的频谱波峰相对于先前音帧(“最后音帧”)的频谱的对应频谱波峰频率上被移动(以一依赖频率的方式)。因此,已经发现若上下文是根据先前音帧的频谱值的原始版本被形成,用于现行音帧的频谱值基于上下文编码的该一上下文未被良好适应,因为现行音帧的的频谱的频谱波峰与(根据频率)先前音帧的频谱的频谱波峰不一致。因此,频谱值基于上下文编码的位率对需求比较高,而且可能甚至比在非基于上下文的霍情况还要高。此可在图3c的曲线图380中看出,其中一横坐标描述频率(根据修正型离散余弦转换的频率点),且一纵坐标384描述频谱值编码需要的位数目。7. 2.解决方案的讨论
然而,依据本发明的实施例提供以上讨论问题的一种解决方法。已经发现音高变化信息能被用来导出一时间扭曲修正型离散余弦转换编码器的连续频谱之间的频率伸展因子的一近似值(例如,在连续音帧的频谱之间)。已经发现此一伸展因子接着可用来沿频率轴伸展过去上下文以导出一较佳的上下文且因此减少编码一频率线所需要的位数目并增加编码增益。已发现如果此一伸展因子大约是最后音帧与现行音帧的平均频率的比率,则可达成良好结果。此外,已发现此可逐行完成,或者如果算术编码器将η-元组线编码为一项目,逐元组完成。换言之,上下文的伸展可以被逐行完成(B卩,个别地根据修正型离散余弦转换的频率点)或者逐元组的(即根据修正型离散余弦转换的多个频谱点的元组或组)。此外,而且,伸展因子计算的分辨率也能够依赖改变实施例的需求改变。7.3.导出伸展因子的实例在下文中,导出伸展因子的一些概念将详细地被描述。被描述在参考[3]中的时间扭曲修正型离散余弦转换方法,以及,或者,本文中所描述的时间扭曲修正型离散余弦转换方法,提供一所谓的平滑音高轮廓当作中间信息。此一平滑化音高轮廓(其例如可以由数组“warp_contour [] ”的项目描述,或通过数组“new_warp_contour [] ”及包含一些连续音中贞上的相对音高演变信息的“past_warp_contour[] ”的项目描述,所以对一音巾贞内的每一样本而言,相对音高的估计是已知的。而且此样本的相对频率仅是相对音高的倒数。举例而言,下列的关系可适用./;,/ M = ~π
P ,AtA在以上方程序中,fMl[n]指称一特定时间索引η的相对音高,其可为一短期的相对音高(其中该时间索引η例如可指称一个别样本)。此外,frel[n]可指称时间索引η的一相对频率,且可以是一短期的相对频率值7. 3. I第一替代选择一音帧k (其中k是一音帧索引)的平均相对频率可被描述成此一音帧k中的所有相对频率的算术平均值
].V-I.frel,mean,k = T7 Σ M
n=Q在以上的方程式fMl中,平均值k指在具有时域框索引k的音帧上的平均相对频率。N指称具有时域框索引k的音帧的时域样本数目。η是运行在具有音帧索引k的现行音中贞的时域样本的时域样本索引n=0至n=N-l上的一变量。fMl[n]指称与具有一时域样本时间索引η的时域样本相关联的局部相对频率值。由此(即对现行音帧由fMl,m_,k的计算,且对先前音帧由Qmean^1的计算),现行音帧k的伸展因子s接着可被导出为 S= freLmam'k
J reljnem^k-l7-3-2第二替代选择在下文中,计算伸展因子s的另一替代选择被将描述。如果将相对音高平均接近一计入考虑,一较简单且较不精确的伸展因子s估计(例如,当与第一替代选择比较时)可被建立,所以相对音高和相对频率的关系大约是线性的,且因而可省略反转相对音高以获得相对频率的步骤,并使用平均相对音高
j /V-I Prel,mean,k ~ TT YjPrekA
^ n=Q在上述的万程式中,pMl,_n,k指称具有时域框索引k的音帧的一平均相对音高。N指称具有时间音帧索引k的音帧的时域样本的数目。运行变量η采取O与N-I之间的值且藉此运行在现行音帧的具有时间索引η的时域样本上。pMi[n]指称具有时间索引η的时间样本的一(局部)相对音高值。例如,相对音高值PMi [η]可等同于扭曲轮廓数组“warp_contour [] ” 的项目 warp_contour [η]。在此一情况,具有时域框k的音帧的伸展因子s可被估计为
^ _ Prel,mean. Ji-IS -
Prel .mean .k在上列方程式中,Preljmeanjk^i指具有时间音帧索引k-Ι的音帧的一平均音高值,且可变描述具有时间音帧k的音帧的一平均相对音高值。7. 3. 3更进一步的替代选择然而,应指出者是用于计算、或估计伸展因子s的显著不同概念可被使用,其中伸展因子s典型地也描述第一音巾贞和一后续第二音巾贞之间的一基本频率改变。举例而言,第一音帧与后绩第二音帧的频谱可通过一模式比较概念被比较,藉此导出伸展因子。然而,如前述所讨论的使用扭曲轮廓信息的频率伸展因子S计算似乎在计算上特别有效率,使得这是一优先的选项。8.关于上下文状态决定的细节8. I.依据图4a和图4b的实例在下文中,关于上下文状态的决定的细节将被描述。基于此一目的,上下文状态决定器400的功能,一示出在图4a中的该决定器一方块概略图将被描述。
上下文状态决定器400例如可以取代上下文状态决定器140或上下文状态决定器170。即便有关上下文状态决定器的细节将在下文中针对一音频信号解码器的情形描述,上下文状态决定器400也可以在一音频信号编码器的场合中被使用。上下文状态决定器400配置成接收关于先前解码频谱值或有关先前编码频谱值的一信息410。除此的外,上下文状态决定器400接收一时间扭曲信息或时间扭曲轮廓信息412。时间扭曲信息或时间扭曲轮廓信息412例如可能与时间扭曲信息122相等,且因此可描述(至少隐含地)后续音帧之间的基本频率的一改变。时间扭曲信息或时间扭曲轮廓信息412或者可能与时间扭曲信息184相等,且因而可描述后续音帧之间的基本频率的一改变。然而,时间扭曲信息/时间扭曲轮廓信息412或者可能与时间扭曲轮廓信息222或时间扭曲轮廓信息258相等。一般而言,可以说,时间扭曲信息/时间扭曲轮廓信息412能直接地或间接地描述后续音帧之间的频率改变。举例而言,时间扭曲信息/时间扭曲轮廓信息212可描述扭曲轮廓,且因此可包含数组“warp_C0nt0ur [] ”的项目,或可描述时间轮廓,且因而可包含数组“time_contour 口 ”的项目。
·
上下文状态决定器400提供上下文状态值420,该上下文状态值描述使用于编码或解码现行音帧的频谱值的上下文,且可被基于上下文频谱值编码器或基于上下文频谱值解码器使用以选择现行音帧的频谱值的编码或解码的映射规则。上下文状态值420例如可以与上下文状态信息134或上下文状态信息164相等。上下文状态决定器400包含初步上下文内存结构提供者430,配置成提供一初步上下文内存结构432,像是例如数组q[l][]。举例而言,初步上下文内存结构提供者430可被配置成依据图25和图26执行算法的功能,藉此提供一组,例如,数组q[l][]的N/4项目q[l][i](对于 i=0 至 i=M/4_l)。一般而言,初步上下文内存结构提供者430可配置成提供初步上下文内存结构432的项目以使得一具有项目频率索引i的项目是以一具有频率索引i的一(单一)频谱值为基础,或以一组具有共同频率索引i的频谱值为基础。然而,初步上下文内存结构提供者430最好被配置为提供初步上下文内存结构432,以使得初步上下文内存结构432的一项目的频率索引与该初步上下文内存结构432的项目作为基础的一或更多编码频谱值与解码频谱值的频率索引之间有一固定的频率索引关系。举例而言,该预定索引关系可以是使得初步上下文内存结构的项目q[l][i]以时域对频域转换器或频域对时域转换器的具有频率点索引i (或i-const,其中const是一常数)的频率点的频谱值为基础。然而,或者,初步上下文内存结构432的一索引q[l] [i]可以是基于时域对频域转换器或频域对时域转换器的具有频率点索引4i-3、4i-2、4i-l及4i的频率点的频谱值(或频率点索引的一被移转范围)。因此,初步上下文内存结构432的每一项目可与音帧的一预定频率索引的频谱值或多个预定频率索引的一组频谱值相关联,初步上下文内存结构432根据该频谱值被建立。上下文状态决定器400也包含一频率伸展因子计算器434,配置成接收时间扭曲信息/时间扭曲轮廓信息412并在其基础上提供一频率伸展因子信息436。举例而言,频率伸展因子计算器434可配置成从数组warp_contour[]的项目(其中相对音高信息Prai[η]例如可与数组warp_contour[]的一对应项目相等)导出一相对音高信息pMi [η][]。此外,频率伸展因子计算器434可配置成应用上述方程式的一从二个后续音帧的该相关音高信息Pm导出频率伸展因子信息S。一般来说,频率伸展因子计算器434可配置成提供频率伸展因子信息(例如,一值S,或相等地,一值m_ContextUpdateRatio),使得频率伸展因子信息描述一先前编码或解码音帧与欲使用现行上下文状态值420被编码或解码的现行音帧间的一基本频率改变。上下文状态决定器400也包含一频率比例缩放上下文内存结构提供者,配置成接收初步上下文内存结构432并在其基础上提供一频率比例缩放上下文内存结构。举例而言,频率比例缩放上下文内存结构可由数组q[l][]的一更新版本代表,该更新版本可以是承载初步上下文内存结构432的数组的一更新版本。频率比例缩放上下文内存结构提供者可能配置成使用一频率比例缩放从初步上下文内存结构432导出频率比例缩放上下文内存结构。在频率比例缩放中,初步上下文内存结构432的一具有项目索引i的值可被复制,或移转到频率比例缩放上下文内存结构440的一具有项目索引j的项目,其中频率索引中i可能不同于频率索引j。举例而言,如果初步上下文内存结构432的内容的一频率伸展被执行,频率比例缩放上下文内存结构440的一具有项目索引J1的项目可被设定成初步上下文内存结构432的一具有项目索引I1的项目的值,且频率比例缩放上下文内存结构440的一具有项目索引j2的项目可被设定成初步 上下文内存结构432的一具有项目索引I1的项目的值,其中J2 Ki1大,且其中ji Ki1大。对应的频率索引(举例而言,J1和I1、或上和i2)之间的一比率可采一预定值(除圆化误差以外)。同样地,如果由初步上下文内存结构432描述的内容的一频率压缩是由频率比例缩放上下文内存结构提供者438执行,频率比例缩放上下文内存结构440的一具有项目索引h的项目可被设定至初步上下文内存结构432的一具有项目索引j3的项目的值,且频率比例缩放上下文内存结构440的一具有项目索引J4的项目可被设定成初步上下文内存结构432的一具有项目索引η的项目的一值。在此一情况,项目索引J3可能比项目索引i3小,且项目索引J4可能比项目索引i4小。而且,对应的项目索引之间(举例而言,项目索引叉和i3之间,或项目索引1和i4之间)的一比率可能是常数(除了圆化误差以外),而且可能由频率伸展因子信息436决定。关于频率比例缩放上下文内存结构提供者440的运算的更进一步的细节将在下文中被描述。上下文状态决定器400也包含上下文状态值提供者442,配置成根据频率比例缩放上下文内存结构440提供上下文状态值420。举例而言,上下文状态值提供者442可以配置成提供描述一具有频率索引I。的频谱值根据频率比例缩放上下文内存结构440的项目解码的上下文的上下文状态值420,该频率比例缩放上下文内存结构440的项目的项目索引与频率索引中I。成一预定关系。举例而言,上下文状态值提供者442可配置成提供上下文状态值420以供具有频率索引I0的频谱值(或频谱值的元组)根据具有频率索引Itl-U L和1。+1的频率比例缩放上下文内存结构440的项目解码。因此,上下文状态决定器400可有效提供上下文状态值420用于解码具有一频率索引Io的频谱值(或者频谱值的元组),如果频率比例缩放上下文内存结构提供者438执行一频率伸展,根据频率索引各别小于lcrl、小于Ici及小于Io+I的初步上下文内存结构432的项目解码,在频率比例缩放上下文内存结构执行提供者438执行一频率压缩的情况下,根据频率索引各别大于Ici-K大于Io及大于Io+I的初步上下文内存结构432的项目解码。因此,上下文状态决定器400配置成通过根据一频率比例缩放上下文内存结构提供上下文状态值420以使上下文适应后续音帧之间的基本频率间的改变,该频率比例缩放上下文内存结构为初步上下文内存结构432的频率比例缩放版本,依赖频率伸展因子436被频率比例缩放,转而描述基本频率随时间的变化。图4b示出依据本发明的一实施例决定上下文状态的一图示。图4b示出初步上下文内存结构432的项目的一示意图,初步上下文内存结构432是由以参考数字450标示的初步上下文内存结构提供者430提供。例如,一具有频率索引h+Ι的项目450a,一项目450b和一具有频率索引i2+2的项目450e被标示。然而,以参考数字452标示,当提供频率比例缩放上下文内存结构440时,一具有频率索引I1的项目452a被设定成采用具有频率索引h+1的项目450a的值,且一具有频率索引i2_l的项目452c被设定成采用具有频率索引i2+2的项目450e的值。同样地,频率比例缩放上下文内存结构440的其它项目可依赖初步上下文内存结构430的项目被设定,其中,典型地,初步上下文内存结构的一些项目在一频率压缩的情况被丢弃,且其中,典型地,初步上下文内存结构432的一些项目在频率伸展的情况下被复制到频率比例缩放上下文内存结构440的多于一项目。
此外,图4b说明上下文状态如何被决定而用于根据率比例缩放上下文内存结构440 (以参考数字452代表)的项目解码具有时间索引k的音帧的频谱值。举例而言,当决定用于解码具有时间索引为k的音帧的具有频率索引I1的频谱值(或者频谱值的元组)的上下文状态时,时间索引k的音帧的一具有频率索引I1-I的上下文值及具有时间索引k-Ι及频率索引I1-U I1与h+Ι的音帧的频率比例缩放上下文内存结构的项目被评估。因此,具有时间索引k-Ι和频率索引I1-Uifl和i2+2的音帧的初步上下文内存结构的项目被有效地评估以决定用于解码具有时间索引k及频率索引I1的音帧的频谱值(或频谱值的元组)。因此,用于上下文状态的决定的频谱值环境有效地被初步上下文内存结构(或其内容)的频率伸展或频率压缩改变。8. 2依据图4c实施在下文中,一用于映射利用4元组的算术编码器的上下文的实例将参照图4c描述,该图示出一按元组的处理。图4c示出用于根据初步上下文内存结构(例如,初步上下文内存结构432)获得频率比例缩放上下文内存结构(举例而言,频率比例缩放上下文内存结构440)的算法的一虚拟程序码表示。依据图4c的算法460假定初步上下文内存结构432以一数组“self > base. m_qbuf”>被储存。此外,算法460假定频率伸展因子信息436被储存成一变量“seIf->base.m—ContextUpdateRat io,,。 在第一步骤460a中,一些变量被初始化。尤其,一目标元组索引变量“nLinTupleldx”以及来源元组索引变量“nWarpTupleldx”被初始化成零。此外,一重排序缓冲区数组“ Tqi4 ”被初始化。在一步骤460b中,初步上下文内存结构的项目“self_>base. m_qbuf”被复制到重排序缓冲区数组中。其次,只要目标元组索引变量和来源元组索引变量小于一描述最大元组数目的变量nTuples,则复制算法460c被重复。在一步骤460ca中,四个频率索引由来源元组索引变量(与一第一索引常数“firstldx”组合)的一现行值决定的重排序缓冲区项目被复制到上下文内存结构(self >base. m_qbuf [][])的项目,该等项目的频率索引是由目标元组索引变量(nLinTupleldx)(与第一索引常数“frstldx”组合)决定。在步骤460cb中,目标元组索引变量被增加一。在步骤460cc中,来源元组索引变量被设定成一值,是目标元组索引变量(nLinTupleldx)的现行值与频率伸展因子信息(self_>base. m_ContextUpdateRatio)的乘积四舍五入成最接近的整数值。因此,若频率伸展因子变量大于一,来源元组索引变量的值可大于目标元组索引变量的值,而若频率伸展因子变量小于一,则小于目标元组索引变量的值。

因此,来源元组变量的一值被关联于目标元组索引变量的每一值(如果目标元组索引变量的值和来源元组变量的值两者皆小于固定的nTuples)。执行步骤460cb和460cc之后,从重排序缓冲区复制项目到上下文内存结构在步骤460ca中使用一来源元组和一目标元组之间的更新关联被重复。因此,依据图4c的算法460执行频率比例缩放上下文内存结构提供者430a的功能,其中初步上下文内存结构以数组“self->base.m_qbuf”的原始项目代表且其中频率比例缩放上下文内存结构440由数组“self->base. m_qbuf”的更新项目代表。8. 3.依据图4d和图4e的实施在下文中,映射一使用4元组的算术编码器上下文的实例将参考图4c被描述,该图示出一逐线的处理。图4d和图4e示出执行一上下文的频率比例缩放(即,频率伸展或频率压缩)的算法的虚拟程序码表示。依据图4d和图4e的算法470接收数组“self > base. m_qbuf □□”(或至少该数组的一参照)及频率伸展因子信息“self_>base. m_ContextUpdateRatio”作为一输入信息。此外,算法470接收一描述现用线的数目的变量“self_>base. m_Icslnfo->mScaleFactorBandsTransmitted”当做一输入信息。此外,算法 470 修改数组 self > base. m_qbuf [][],以使得该数组的项目代表频率比例缩放上下文内存结构。算法470在步骤470a中包含多个变量的一初始化。尤其,一目标线索引变量(IinLineIdx)和一来源线索引变量(warpLineldx)被设定初始化为零。在下文中,二组上下文被处理,其包含不同的上下文索引(以变量“contextldx”标示)。然而,在其它的实施例中,仅处理一上下文也是足够的。在一步骤470c中,一行临时缓冲区数组“ImeTmpBuf”和一行重排序缓冲区数组“lineReorderBuf ”以零项目被初始化。在步骤470d中,与多个频谱值元组的不同频率点关联的初步上下文内存结构的项目被复制到行重排序缓冲区数组。因此,具有后续频率索引的行重排序缓冲区数组的项目被设定成与不同频率点相关联的初步上下文内存结构的项目。换言之,初步上下文内存结构每频谱值兀组包含一项目self_>base. m_qbuf [CurTuple] [contextldx],其中该项目包含与个别频谱线(或频谱点)相关联的子项目a、b、c、d。每一子项目a、b、c、d在步骤470d被复制到个别项目缓冲数组“lineReorderBuf [] ”。因此,线重排序缓冲区数组的内容在一步骤470e中被复制到线时间缓冲区数组^lineTmpBuf [] ”。
接着,目标线索引变量和来源线索引变量在一步骤470f中被初始化为采取零值。接着,线重排序缓冲区数组的项目“lineReorderBuf [warpLineldx] ”在步骤470g中复制到目标线索引变量“linLineldx”的多个值的线暂存缓冲区数组。只要目标线索引变量和来源线路索引变量是小于一表示有效(非零)频谱线总数的变量“activeLines”,步骤470g即被重复。由目标线索引变量“linLineldx”的现行值指定的线暂存缓冲区数组的一项目被设定成由来源线索引变量的现行值指定的线重排序缓冲区数组的值。因此,目标线索引变量被增量一。来源线索引变量“warpLineldx”设定成采取由目标线索引变量的现行值与频率伸展因子信息的乘积所决定的一值(由变量“self->baSe.m_ContextUpdateRatio,,代表)。在目标线路索引变量和来源线路索引变量的更新之后,只要目标线路索引变量和来源线路索引变量二者比变量“activeLines”为小,步骤470g即被重复。因此,初步上下文内存的上下文项目是以一线法而非按元组频率比例缩放。 在一最后步骤470h中,元组表示根据线暂存缓冲区数组的线项目被重建。元组表示“self>base. m_qbuf [curTuple] [contextldx] ” 的项目 a、b、C、d 依据线暂存缓冲区数组的四个项目 “ IineTmpBuft [ (curTuple-Ι) *4+0] ” 至“ IineTmpBuff [ (curTuple-Ι) *4+3] ” 被设定,该等项目频率上相邻。此外,一元组能量字段“ e ”可任由选择地被设定成代表与各自元组相关联频谱值的一能量。而且,如果与该频谱值相关联的频谱值的大小比较小,另一字段“V”可任由选择地被设定。然而,应指出者,在步骤470h被执行的有关于新元组的计算的细节,乃主要取决于上下文的实际表示且因此可显著地改变。然而,大致而言,一以元组为基础的表示是在步骤470h中根据步骤470h中的频率比例缩放上下文的一基于个别线的表示被建立。总结而言,依据算法470,一按元组的上下文表示(数组“self>base. m_qbuf [curTuple] [contextldx] ”的项目)首先被分解成一频率线法上下文表示(或频率点法的上下文表示)(步骤470d),接着,频率比例缩放以一逐线方式(步骤470g)被执行。最后,一按元组表示的上下文(数组“self>base. m_qbuf [curTuple] [contextldx] ”的更新项目)根据逐线频率比例缩放信息被重建(步骤470h)。9.频域对时域解码法算法的详细描述9. I.概观在下文中,根据本发明一实施例的一音频解码器执行的一些算法将被详细地描述。为此一目的而参照图 5a、5b、6a、6b、7a、7b、8、9、10a、10b、ll、12、13、14、15 及 16。首先,参考图7a,该图显示数据组件的定义的说明以及辅助组件的定义的说明。此夕卜,参见图7b,该图显示常数的定义的说明。一般而言,可以说本文所描述的方法能用来解码一根据一时间扭曲修正型离散余弦转换被编码的音频流。因此,当TW-MDCT对一音频流(可以用一标志指示,例如称为“ twMDCT”标志,其可被包含在一特定的配置信息中)被启用时,一时间扭曲滤波器排组和区块更换可取代一音频解码器中的标准滤波器排组及区块更换。修正型离散余弦反转换(IMCT)的外时间扭曲滤波器排和区块更换包含一从一任意间隔时间栅对一标准规律间隔或线性间隔时间栅的时域对时域映射以及一对应的窗形状适应。在此应指出者,本文所描述的解码算法例如可由扭曲时间扭曲频域对时域转换器180依据频谱的编码表示、且亦可依据时间扭曲信息184、252被执行。9-2.定义有关于数据组件的定义,辅助组件和常数,参考图7a和图7b。9. 3.解码程序-扭曲轮廓扭曲轮廓节点的码簿索引是依下列被解码成个别节点的扭曲值。
权利要求
1.一种音频信号解码器(150, 240),用于根据包含一编码频谱表不(ac_spectral_data[])及一编码时间扭曲信息(tw_data[])的一编码音频信号表不(152)提供一解码音频信号表示(154), 该音频信号解码器包含 一基于上下文的频谱值解码器(160),其配置成依赖一上下文状态解码一描述一或更多频谱值或一或更多频谱值的一数字表示的至少一部分(m)的码字(acod_m),以便获得解码频谱值(162,297,x_ac_dec []); 一上下文状态决定器(170,400),配置成依赖一或更多先前解码频谱值(162,297)决定一现行上下文状态(164,c); 一时间扭曲频域对时域转换器(180),配置成根据一组与特定音帧相关联且由基于上下文的频谱值解码器所提供的解码频谱值(162,297)并依赖该时间扭曲信息提供一特定音帧的时间扭曲时域表示(182); 其中该上下文状态决定器(170,400)配置成使该上下文状态的决定适应后续音帧之间的一基本频率改变。
2.根据权利要求I所述的音频信号解码器,其中该时间扭曲信息(tw_data)描述一音高随时间的变化(Pw);且 其中该上下文状态决定器(170,400)配置成从该时间扭曲信息(tw_data)导出一频率伸展信息(s, m_ContextUpdateRatio);以及 其中上下文状态决定器配置成依赖频率伸展信息(s, m_ContextUpdateRatio)沿频率轴伸展或压缩与先前音帧关联的一前上下文(432,q
[],450),以获得一适应上下文(440,q
[],452)用于一现行音帧的一或更多频谱值的基于上下文解码。
3.根据权利要求2所述的音频信号解码器,其中该上下文状态决定器(170,400)配置成从时间扭曲信息(tw_data, prel, warp_contour [])导出一第一音巾贞上的第一平均频率信息(f^nk-i),且从时间扭曲信息导出一接在第一音巾贞之后的第二音巾贞上的第二平均频率{r 肩、{f"rel, mean, k-^ ;且* 其中该上下文状态决定器配置成计算第二音帧上的第二平均频率信息与第一音帧上的第一平均频率信息(fMl, η)间的一比率,用以决定频率伸展信息(s,m_ContextUpdateRatio)。
4.根据权利要求2所述的音频信号解码器,其中该上下文状态决定器(170,400)是配置成从该时间扭曲信息(tw_data, prel, warp_contour [])决定一第一音巾贞上的第一平均时间扭曲轮廓信息(ΡΜ , _η, η ),且 其中该上下文状态决定器配置成从时间扭曲信息(252, tw_data, prel, warp_contour [])导出一接在该第一音帧之后的第二音帧上的第二平均时间扭曲轮廓信息(p,el,mean, k ),以及 其中该上下文状态决定器配置成计算第一音帧上的第一平均时间扭曲轮廓信息(pm1,k-i)与第二音帧上的第二平均时间扭曲信息(PMl, mean, k)之间的一比率,用以确定频率伸展信息(s, m_ContextUpdateRatio)。
5.根据权利要求3或4所述的音频信号解码器,其中该上下文状态决定器(170,400)配置成从延伸在多个连续音巾贞上的一共同时间扭曲轮廓信息(warp_contour [])导出第一和第二平均频率信息或者第一和第二平均时间扭曲轮廓信息。
6.根据权利要求3至5中的任一项所述的音频信号解码器,其中该音频信号解码器包含一配置成计算一时间扭曲轮廓信息(Pral [],warp_contour[] ,258)的时间扭曲计算器(250),该时间扭曲轮廓信息根据时间扭曲信息(tw_data, 252)描述多个连续音巾贞上的一相对音高的时间演变,且 其中该上下文状态决定器(170,400)配置成使用该时间扭曲轮廓信息导出频率伸展信肩、O
7.根据权利要求6所述的音频信号解码器,其中该音频信号解码器包含一重取样位置计算器(1801), 其中该重取样位置计算器(1801)配置成根据时间扭曲轮廓信息(pMl[],warp_contour [],258)计算可供时间扭曲重取样器(180i)使用的重取样位置,以使重取样位置的时间变化由该时间扭曲轮廓信息决定。
8.根据权利要求I至7中的任一项所述的音频信号解码器,其中该上下文状态决定器(170,400)配置成导出一数字现行上下文值(164,C),该值依赖多个先前解码频谱值描述上下文状态,且依赖该数字现行上下文值选择一映射规则(cum_freq[]),该映射规则描述一码值(acod_m)在一表示一或更多频谱值、或一或更多频谱值的一数字表示的一部分(m)的符号码(symbol)上的映射, 其中该基于上下文的频谱值解码器(160)配置成使用由该上下文状态决定器选择的映射规则(cum_freq[])解码该描述一或更多频谱值、或一或更多频谱值的数字表示的至少一部分(m)的码值(acod_m)。
9.根据权利要求8所述的音频信号解码器,其中该上下文状态决定器(170,400)配置成建立且更新一初步上下文内存结构(432,m_qbuf),以使初步上下文内存结构的项目描述第一音帧的一或更多频谱值(162,297),其中该初步上下文内存结构的项目的项目索引表示该各别项目所关联的频域对时域转换器(180e)的一频率点或一组相邻频率点; 其中该上下文状态决定器配置成获得一频率比例缩放上下文内存结构(440,m_qbuf),用于根据初步上下文内存结构解码一接在第一音帧之后的第二音帧,以使得一具有第一频率索引的初步上下文内存结构的一特定项目(450a,450c, self->base. m_qbuf [nffarpTupIeIdx])或一子项目(self_>base. m_qbuf [nffarpTupleldx]. a)被映射至具有第一频率索引(il+1,i2+2, nffarpTupleldx)的频率比例缩放上下文内存结构(440,m_qbuf,452)的一对应项目(452a,452c, self->base. m_qbuf [nLinTupleldx])或子项目之上(self->base. m_qbuf [nLinTupleldx] .a),其中该第二频率索引(il, i2_l, nLinTupleldx)与频域对时域转换器(180e)的不同于该第一频率索引所关联者的一频率点或一组相邻频率点相关联。
10.根据权利要求9所述的音频信号解码器,其中该上下文状态决定器(170,400)配置成导出一描述现行上下文状态的上下文状态值(164,420)用于解码一码字(&(0(1_111),该码字描述已使用频率比例缩放上下文内存结构的值与一第三频率索引相关联的第二音帧的一或更多频谱值,或第二音帧的一或更多频谱值的一数字表示的至少一部分U),频率比例缩放上下文内存结构(440,m_qbuf,452)的该等值的频率索引(il_l, il, il+Ι)与该第三频率索引(il)是成一预定关系, 其中该第三频率索引(il)指定该频域对时域转换器(180e)的一频率点或一组相邻频率点,欲使用现行上下文状态被解码的第二音帧的一或更多频谱值与该一频率点或一组相邻频率点相关联。
11.根据权利要求9或10所述的音频信号解码器,其中该上下文状态决定器(170 ;400)配置成将具有一对应目标频率索引(il, 2-1, nLinTupleldx)的频率比例缩放上下文内存结构(440, m_qbuf, 452)的多个项目(452a, 452c, self->base.m_qbuf [nLinTupleldx])的每一项目设定成具有一对应来源频率索引(il+1, 2+2,nffarpTupleldx)的初步上下文内存结构(432,450, m_qbuf )的一对应项目(450a, 450c,self->base. m_qbuf [nffarpTup I e I dx])的一值, 其中该上下文状态决定器配置成决定该频率比例缩放上下文内存结构的一项目和初步上下文内存结构的一对应项目的对应频率索引(il,il+1 ;i2-l, 2+2 ;nLinTupleIdx,nffarpTupleldx),以使得该对应频率索引(nLinTupleldx,nWarpTupleldx)之间的一比率是由一初步上下文内存结构的项目所关联的现行音帧,以及解码上下文由该频率比例缩放上下文内存结构的项目决定的后续音帧之间的基本频率改变决定。
12.根据权利要求9或10所述的音频信号解码器,其中该上下文状态决定器(170,400)配置成建立初步上下文内存结构以使得初步上下文内存结构(432,m_qbuf,450)的多个项目(450a,450c, self->base. m_qbuf [nffarpTupleldx])的每一项目是以一第一音巾贞的多个频谱值(a,b,c,d)为基础,其中该初步上下文内存结构(432,450,m_qbuf )的项目的项目索引(il+1,i2+2, nWarpTupleldx)指示各项目所关联的频域对时域转换器(180e)的一组相邻频率点; 其中该上下文状态决定器配置成从初步上下文内存结构的项目(self->baSe.m_qbuf [curTuple[][])提取具有关联的个别频率点索引的初步频率点个别上下文值(IineReorderBuf[(curTuple-1)*4+0],…,IineReorderBuf[(curTuple-1)*4+3]); 其中该上下文状态决定器配置成获得具有关联的个别频率点索引(IinLineIdx)的频率比例缩放频率点个别上下文值(IineTmpBuf [linLineldx]),以使得具有一第一频率点索弓丨(warpLine I dx)的特定初步频率点个别上下文值(I ineReorderBuf [warpLine I dx])被映射至具有一第二频率点索引(IinLineIdx)的对应频率比例缩放频率点个别上下文值(I ineTmpBuf [ I inLine I dx]),使得该初步频率点个别上下文值的一频率点个别映射被获得;且 其中上下文状态决定器配置成将多个频率比例缩放频率点个别上下文值(IineTmpBuf [ (curTuple-1) *4+0],…,IineTmpBuf [ (curTuple-1) *4+3])组合成为频率比例缩放上下文内存结构的一组合项目(self_>base. m_qbuf [curTuple][])。
13.—种用以提供包括一编码频谱表不(132)与一编码时间扭曲信息(226)的输入音频信号(110)的编码表示(112)的音频信号编码器(100,200),该音频信号编码器包含 一频域表示提供者(120),配置成依据该时间扭曲信息(122)提供代表输入音频信号的一时间扭曲版本的一频域表不(124); 一基于上下文的频谱值编码器(130),配置成依赖一上下文状态(134)提供描述该频域表示(124)的一或更多频谱值、或该频域表示(124)的一或更多频谱值的一数字表示的至少一部分(m)的一码字(acod_m),以获得该编码频谱表示(132)的编码频谱值;以及 一上下文状态决定器(140),配置成依赖一或更多先前编码的频谱值决定一现行的上下文状态(134),其中该上下文状态决定器(140)配置成使该上下文状态的决定适应后续音帧之间的一基本频率改变。
14.根据权利要求13所述的音频信号编码器,其中该上下文状态决定器配置成依赖多个先前编码频谱值导出一数字现行上下文值(134,C),且依赖该数字现行上下文值选择一描述一或更多频谱、或一或更多频谱值的一数字表示的一部分(m)映射至一码值(acod_m)上的一映射规则, 其中该基于上下文的频谱值编码器配置成使用由该上下文状态决定器选择的映射规则提供该描述一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分的码值。
15.—种根据包括一编码频谱表示(30_8口601以1_(^丨3[])与一编码时间扭曲信息(tw_data[])的一编码音频信号表示(154)提供一解码音频信号表示(152)的方法,该方法包含 依赖一上下文状态解码一描述一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分(m)的码字(acod_m),以便获得解码频谱值(162, 297, x_ac_dec []); 依赖一或更多个先前解码的频谱值(162,297)决定一现行上下文状态(164,c); 根据一组与特定音帧相关联且由该基于上下文频谱值解码器提供的解码频谱值(162,297)并依赖该时间扭曲信息提供该特定音帧的一时间扭曲时域表示(182); 其中该上下文状态的决定被适应于后续音帧之间的一基本频率改变。
16.—种用于提供包括一编码频谱表不(132)与一编码时间扭曲信息(226)的一输入音频信号(110)的编码表示(112)的方法,该方法包含 依据时间扭曲信息(122)提供一表不该输入音频信号的时间扭曲版本的频域表不(124); 依赖一上下文状态(134)提供一描述该频域表示(124)的一或更多频谱值、或该频域表示(124)的一或更多频谱值的一数字表示的至少一部分(m)的码字(acodjn),以便获得该编码频谱表示(132)的编码频谱值(acod_m);以及 依赖一或更多先前编码频谱值决定一现行上下文状态(134), 其中该上下文状态的决定被适应于后续音帧之间的一基本频率改变。
17.一种计算机程序,当该计算机程序在一计算机上执行时用以实施根据权利要求15或16所述的方法。
全文摘要
一种基于包含一编码频谱表示(ac_spectral_data[])和一编码时间扭曲信息(tw_data[])的编码音频信号表示(152)提供一解码音频信号表示(154)的音频信号解码器(150),该音频信号解码器包含一基于上下文的频谱值解码器(160),配置成依赖一上下文状态解码一描述一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分(m)的码字(acod_m)以获得解码频谱值(162,297,x_ac_dec[])。音频信号解码器也包含一配置成依赖一或更多先前解码频谱值(162,297)决定一现行上下文状态(164,c)的上下文状态决定器(170)。音频信号解码器也包含一时间扭曲频域对时域转换器(180),配置成基于一组与该特定音帧关联且由该基于上下文的频谱值解码器提供的解码频谱值(162)、并依赖时间扭曲信息而提供一特定音帧的时间扭曲时域表示(182)。上下文状态决定器(170)配置成使上下文状态的决定适应后续音帧之间的一基本频率改变。一音频信号编码器应用一类似的概念。
文档编号G10L19/02GK102884572SQ201180021269
公开日2013年1月16日 申请日期2011年3月9日 优先权日2010年3月10日
发明者斯特凡·拜尔, 汤姆·贝克斯特伦, 拉尔夫·盖尔, 贝恩德·埃德勒, 萨沙·迪施, 拉尔斯·维莱蒙斯 申请人:弗兰霍菲尔运输应用研究公司, 杜比Ab国际公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1