可缩放压缩音频位流和使用分级滤波器组和多通道联合编码的编码/译码器的制作方法

文档序号:7540050阅读:391来源:国知局

专利名称::可缩放压缩音频位流和使用分级滤波器组和多通道联合编码的编码/译码器的制作方法
技术领域
:本发明涉及音频信号的可缩放编码,并且更明确地说,涉及用来对多通道音频信号在有效实体中进行这种数据速率缩放的方法,该方法包括分级滤波(hierarchicalfiltering)、音调分量的联合编码及在残余信号中的时域分量的联合通道编码。
背景技术
:音频压缩算法的主要目的是,使用尽可能少的数字位创建输入音频信号的声音可接受表示。这允许输入音频信号的低数据速率版本在诸如互联网之类的有限带宽传输通道上传送,并且减小用于存储将来播放的输入音频信号必需的存储量。对于其中传输通道的数据容量被固定并且相对于时间不变化、或需要存储的音频量(以分钟计算)事先知道并且不增大的那些应用,传统音频压缩方法固定了数据速率并因而在压缩编码时固定了音频质量级。不能实现数据速率的进一步减小,如果不用更低数据速率记录原始信号或解压缩被压缩的音频信号然后以更低数据速率重新压缩这种解压缩信号。对于变化的通道容量、在固定存储器上存储额外的内容、或对不同应用以变化的数据速率提供位流这些问题而言,这些方法不是"可缩放的"。一种用来创建具有可缩放特性的位流并规避上述限制的技术,把输入音频信号编码成包括低数据速率位流的子集的高数据速率位流。这些编码低数据速率位流可从编码信号抽取,并且组合以提供输出位流,该输出位流的数据速率在宽数据速率范围上是可调节的。实现这个概念的一种手段是首先以最低支持数据速率编码数据、然后编码在原始信号与这种最低数据速率位流的译码版本之间的误差。这种编码误差被存储,并且也与最低支持数据速率位流相组合以创建第二低数据速率位流。在原始信号与这种第二低数据速率信号的译码版本之间的误差被编码、存储、及添加到第二低数据速率位流上以形成第三低数据速率位流,以此类推。这个过程被重复,直到与如此导出的每一个误差信号的位流相关的数据速率和最低支持数据速率位流的数据速率之和等于待支持的最高数据速率位流。最后可缩放高数据速率位流包括最低数据速率位流和每一个编码误差位流。第二种技术通常用来支持相距很广的最低和最高数据速率之间的较少数量的不同数据速率,釆用多于一个的压缩算法的使用以创建"分层,,可缩放位流。以这种方式对编码位流进行缩放操作的设备,依据输出数据速率要求,选择在分层位流中携带的多个位流的哪一个以用作编码音频输出。为了改进编码效率和提供较宽范围的缩放数据速率,在较低速率位流中携带的数据可由较高速率位流使用,以形成另外的较高质量、较高速率的位流。
发明内容本发明提供一种用来编码音频输入信号的方法,以形成可被缩放以形成具有任意规定数据速率的缩放位流的主位流、以及用来译码缩放位流以重建音频信号。这一般通过压缩音频输入信号并排列它们以形成主位流而实现。主位流包括量化分量,该量化分量基于它们对于译码信号质量的相对贡献而排列。输入信号通过把它分离成多个音调和残余分量、以及排列然后量化所述分量而被适当地压缩。所述分离使用分级滤波器组适当地进行。参考相同掩码功能或不同的心理声学标准,所述分量被适当地排列和量化。所述分量然后可以基于它们的排列被排序以利于有效缩放。主位流通过消除足够数量的低序分量而被缩放,以形成具有小于或近似等于所希望数据速率的缩放数据速率的缩放位流。缩放位流包括指示分量在频镨中的位置的信息。缩放位流使用逆分级滤波器组通过排列基于位置信息形成的量化分量、忽略丢失分量及译码被排列的分量而被适当地译码,以产生输出位流。在一个实施例中,编码器使用分级滤波器组把输入信号分解成多分辨率时间/频率表示。编码器在不同频率分辨率下在HFB的每次迭代中抽取音调分量,从输入信号除去那些音调分量以把残余信号传到HFB的下次迭代,及从最后残余信号抽取残佘分量。音调分量被分组成至少一个频率子域每频率分辨率,并且根据它们对于编码信号质量的心理声学重要性被排序。残余分量包括时间-样本分量(例如网格G)和修改时间-样本分量的缩放因子分量(例如网格GO、Gl)。时间-样本分量被分组成至少一个时间-样本子域,并且根据它们对于编码信号质量的贡献被排序。在译码器处,逆分级滤波器组可以用来抽取在一个有效滤波器组结构内的音调分量和残余分量。所有分量被逆量化,并且通过把缩放因子施加到时间样本上重建残余信号。频率样本被重建,并且添加到重建时间样本上以产生输出音频信号。注意,逆分级滤波器组可以用在译码器处,与在编码过程期间是否使用分级滤波器组无关。在典型实施例中,多通道音频信号中选择的音调分量使用差分编码被编码。对于每个音调分量,一个通道选作初级通道。初级通道的通道号和其振幅和相位被存储在位流中。位-掩码被存储,指示其它通道的哪一个包括所指示的音调分量,并因此应该编码成次级通道。然后对于存在该音调分量的每个次级通道,初级与次级振幅和相位之差;故熵-编码并存储。在典型实施例中,组成残余信号的时间-样本和缩放因子分量使用被扩展到多通道音频的联合通道编码(JCC)而编码。通道分组过程首先确定可以联合编码多个通道的哪一个,并且所有通道都形成组,最后的组可能不完整。本发明的另外目的、特征及优点包括在典型实施例的如下讨论中,该讨论应该参照附图阅读。尽管这些典型实施例适合音频数据,但将理解,以类似方式也可以处理视频、多媒体及其它类型的数据。图1是方块图,表明根据本发明使用残余编码拓朴的可缩放位流编码器;图2a和2b是供分级滤波器组使用的Shmunk窗口的频域和时域表示;图3是用来提供输入信号的多分辨率时间/频率表示的分级滤波器组的例示,借助于本发明可从该输入信号抽取音调和残余分量;图4是与分级滤波器组有关的步骤的流程图5a至5c表明'重叠-添加,窗口;图6是分级滤波器组的频率响应的曲线图7是供编码器之用的分级分析滤波器组的典型实施;图8a和8b是3-级分级滤波器组的简化方块图以及单级的更详细方块图9是用来把音调分量的差分编码扩展到多通道音频的位掩码;图10描绘在本发明的编码器的实施例中使用的残佘编码器的详细实施例;图ll是对于多通道音频用于联合编码的方块图12示意表示由本发明的可缩放位流编码器产生的可缩放数据帧;图13表示在本发明中使用的译码器的一种实施的详细方块图14是按照本发明用来由时间-样本和频率分量重建时间-序列数据的逆分级滤波器组的例示;图15是逆分级滤波器组的典型实施的方块图16是在译码器中使用逆分级滤波器组组合音调和残余分量的方块图17a和17b是3-级逆分级滤波器组的简化方块图以及单级的更详细方块图18是残余译码器的详细方块图;图19是Gl映像表;图20是基础功能合成校正系数表;及图21和22分别是编码器和译码器的功能方块图,表明在音频编码器/译码器中的分级滤波器组的多分辨率时间/频率表示的应用。具体实施例方式本发明提供一种方法用来压缩和编码音频输入信号以形成可被缩放以形成具有任意规定数据速率的缩放位流的主位流、以及用来译码缩放位流以重建音频信号。分级滤波器组(HFB)提供输入信号的多分辨率时间/频率表示,编码器可从该输入信号有效地抽取音调和残余分量。对于多通道音频,实现音调分量的联合编码和在残余信号中残余分量的联合通道编码。分量基于它们对于译码信号质量的相对贡献被排序,并且参考掩码函数而被量化。主位流通过消除足够数量的低序分量被缩放,以形成具有小于或近似等于所希望数据速率的缩放数据速率的缩放位流。使用逆分级滤波器组,通过基于位置信息排列量化分量、忽略丢失分量及译码排序分量而适当译码缩放位流,以产生输出位流。在一种可能的应用中,主位流被存储,并且为了记录在另一种介质上或为了在频带受限通道上传输而被缩小到希望数据速率。在多个缩放位流被存储在介质上的另一应用中,每个流的数据速率被独立地和动态地控制,以使所感觉的质量最大化,同时满足对所有位流的集总数据速率的约束。如这里4吏用的那样,术语"域"、"子域"、及"分量"描述在位流中可缩放元素的层级。例子将包括<table>complextableseeoriginaldocumentpage19</column></row><table>具有残余编码拓朴结构的可缩放位流编码器如图1中所示,在典型实施例中,可缩放位流编码器使用残余编码拓朴结构通过从芯(音调分量)和/或残余(时间-样本和缩放因子)分量选择性地消除最低排序分量把位流缩放到任意数据速率。编码器使用分级滤波器组把输入信号有效地分解成多分辨率时间/频率表示,从该多分辨率时间/频率表示编码器可有效地抽取音调和残余分量。这里描述的用来提供多分辨率时间/频率表示的分级滤波器组(HFB)可用在希望输入信号的这样一种表示的多种其它应用中。分级滤波器组的一般描述和其供音频编码器之用的构造、以及由具体音频编码器使用的〗务改HFB在下面描述。输入信号100施加到掩码计算器101和多阶音调抽取器102上。掩码计算器101分析输入信号100,并且辨别作为频率的函数的掩码水平,在该掩码水平之下,输入信号101中存在的频率对于人耳是听不到的。多阶音调抽取器102使用例如多重重叠FFT或所表示的基于MDCT的分级滤波器组(它们满足对于音调已经定义的心理声学标准)辨别在输入信号101中存在的频率,根据这种标准选择音调,量化这些选择音调的振幅、频率、相位及位置分量,及把这些音调放置到音调清单中。在每次迭代或水平下,从输入信号除去选择音调以把残余信号传到前面。一旦完成,不满足音调标准的所有其它频率从输入信号中抽取,并且从多阶音调抽取器102(具体而言是分级滤波器组MDCT(256)最后一级)在输出线111上作为最后残余信号在时域中输出。多阶音调抽取器102使用例如五阶的重叠变换,从最大开始向下工作到最小,以通过基函数的使用检测音调。对于取样速率是44100Hz的音频信号,分别使用大小为8192、4096、2048、1024、及512的变换。可选择其它变换尺寸。图7用图表示变换如何彼此重叠。基函数由如下公式定义其中Ai=振幅=(Rei'Rei+InvInii)-(Rei+1.Rei+1+Imi+1'Imi+1)t-时间(teN是正整数值)1=关于功率为2的变换尺寸(le512、1024、…、8192)f-频率<formula>complexformulaseeoriginaldocumentpage21</formula>在每个变换尺寸处检测的音调使用由本发明的译码器使用的相同译码过程被局部译码,下文将描述。这些局部译码音调被相位转换,并且通过时域求和与原始输入信号相组合,以形成传到HFB的下次迭代或水平的残余信号。来自掩码计算器101的掩码水平和来自多阶音调抽取器102的音调清单输入到音调选择器103。音调选择器103首先把从多阶音调抽取器102提供给它的音调清单通过对掩码计算器101提供的掩码水平相对功率而分类。它然后使用迭代过程,以确定哪些音调分量将装入主位流中的编码数据的帧中。帧中可用于音调分量的空间量取决于缩放之前预定的编码主位流的数据速率。如果把整个帧分配给音调分量,那么不进行残余编码。一般地,适用数据速率的一部分被分配给音调分量,剩余部分(负开销)保留给残余分量。对于多通道信号适当地选择通道组,并且在每个通道组内根据诸如对于感觉质量的贡献之类的度量辨别初级/次级通道。选择音调分量优选地使用差分编码被存储。对于立体声音频,两位字段指示初级和次级通道。对于初级和次级通道,分别存储振幅/相位和差分振幅/相位。对于多通道音频,初级通道存储有其振幅和相位,并且对于包括的次级通道,对于具有差分振幅/相位的所有次级通道存储有位-掩码(见图9)。位-掩码指示哪些其它通道与初级通道联合编码,并且对于初级通道中的每个音调分量,被存储在位流中。在这种迭代过程期间,确定不装入帧中的音调分量的一些或全部可以转换回时域中,并且与残余信号111相组合。如果,例如数据速率足够高,那么典型地所有未选择音调分量被重新组合。然而,如果数据速率较低,则较强'未选择,音调分量适当地排除在残余之外。已经发现这会改进较低数据速率下的感觉质量。由信号110代表的未选择音调分量经局部译码器104被局部译码以把它们转换回到线114上的时域中,并且在组合器105中与来自多阶音调抽取器102的残余信号111相组合以形成组合残佘信号113。注意,在114和111上出现的信号都是时域信号,从而这种组合过程可容易地实现。組合残余信号113由残余编码器107进一步处理。由残余编码器107进行的第一动作是通过滤波器组处理组合残余信号113,该滤波器组把信号细分成临界取样时域频率子带。在优选实施例中,当分级滤波器组用来抽取音调分量时,这些时间-样本分量可直接从分级滤波器组读出,由此消除对专用于残余信号处理的第二滤波器组的需要。在这种情况下,如图21中所示,组合器104处理分级滤波器组的最后级(MDCT(256))的输出,以在计算IMDCT2106之前把'未选择,的译码的音调分量114与残余信号111相组合,这产生子带时间-样本(也见图7步骤3906、3908及3910)。然后进行进一步分解、量化及排列这些子带到心理相关顺序。残余分量(时间-样本和缩放因子)使用联合通道编码被适当地编码,在该联合通道编码中,时间-样本由网格G代表,并且缩放因子由网格G0、Gl代表(见图11)。残余信号的联合编码使用施加到通道组上的部分网格,该部分网格代表在初级与次级通道组之间的信号能量比值。通过交叉相关、或其它度量来选择诸个组(动态地或静态地)。多于一个通道可被组合,并且用作初级通道(例如,L+R初级、C次级)。在时间/频率维度上使用缩放因子网格部分GO、Gl是新颖的,当施加到这些多通道组上时,并且多于一个次级通道能与给定初级通道相关。各个网格元素和时间样本按频率排序,使较低频率排列得较高。网格根据位速率排序。次级通道信息以比初级通道信息低的优先级被排列。代码串发生器108在线120上从音调选择器103以及在线122上从残余编码器107取得输入,并且使用本技术中熟知的熵编码把来自这两个输入的值编码成位流124。位流格式化器109保证来自音调选择器103和残余编码器107的心理声学元素在通过代码串发生器108被编码之后,出现在主位流126中的适当位置中。'排列,通过不同分量的排序隐含地包括在主位流中。22缩放器(scaler)115从编码器产生的主位流126的每个帧中消除足够数量的最低排序编码分量,以形成具有小于或近似等于希望数据速率的数据速率的缩放位流116。分级滤波器组多阶音调抽取器102优选地使用'修改的,分级滤波器组以提供多分辨率时间/频率分辨率,从该多分辨率时间/频率分辨率可有效地抽取音调分量和残余分量。HFB依次按较低频率分辨率把输入信号分解成变换系数,并且在每次依次迭代下,以连续地较精细时间缩放分辨率分解回成时域子带样本。由分级滤波器组产生的音调分量与由多重重叠FFT产生的那些精确相同,但计算负担小得多。分级滤波器组通过并行地、同时地分析不同时间/频率分辨率下的输入信号,解决模型化人类听觉系统的不相等时间/频率分辨率的问题,实现几乎任意时间/频率分解。分级滤波器组利用在已知分解中没有发现的在内变换中的加窗和重叠-添加步骤。这个步骤和窗口函数的新颖设计允许在这种结构在任意树中迭代以实现所希望的分解,并且能以信号-自适应方式进行。如图21中所示,单通道编码器2100在每次迭代2101a、…2101e从变换系数抽取音调分量,在音调清单2106中量化和存储抽取的音调分量。下面讨论用于多通道信号的音调和残余信号的联合编码。在每次迭代处,时域输入信号(残余信号)被加窗2107,并且N-点MDCT被应用2108以产生变换系数。音调从变换系数抽取2109,被量化2110,及添加到音调清单上。选择的音调分量被局部译码2111,并且在进行逆变换2113以前从变换系数减去2112,以产生形成用于HFB的下次迭代的残余信号2114的时域子带样本。具有比HFB的最后迭代较更低的频率分辨率的最后逆变换2115在最后组合残余113上进行,并加窗2116以抽取残余分量G2117。如上述的那样,《壬何'未选择,音调被局部译码104,并且在最后逆变换的计算之前与残余信号1〗1组合105。残余分量包括在2118和2119中从网格G抽取的时间-样本分量(网格G)和缩放-因子分量(网格GO、Gl)。网格G被重新计算2120,并且网格G和G1被量化2121、2122。下面描述网格G、G1及G0的计算。在音调清单上的量化音调、网格G及缩放因子网格Gl都被编码,并且放置在主位流中。在每次迭代从输入信号的除去选择音调和最后逆变换的计算是音频编码器对HFB所施加的^"改。在音频编码中的基本挑战是建模人类感觉的时间/频率分辨率。瞬态信号,如鼓掌声,要求在时域中的高分辨率,而谐波信号,如号声,要求在频域中的高分辨率,以由编码位流准确地表示。但熟知的原理是,时间和频率分辨率彼此互逆,并且单一变换在两个域中不能同时呈现高精度。有效音频编码/译码器(codec)的设计要求在时间和频率分辨率之间平衡这种折衷。对于这个问题的已知解决方案是利用窗口切换,使变换尺寸适应输入信号的瞬态本质(见K.Brandenburg等的"TheISO-MPEG-AudioCodec:AGenericStandardforCodingofHighQualityDigitalAudio",JournalofAudioEngineeringSociety,Vol,42,No.l0,1994年10月)。分析窗口大小的这种自适应引入额外的复杂性,并且要求在输入信号中检测瞬态事件。为了管理算法的复杂性,现有技术的窗口切换方法典型地把不同窗口大小的数量限制到两个。在这里讨论的分级滤波器组通过并行地提供多重时间/频率分辨率的滤波器组表示/处理输入信号,避免对于信号/听觉特性的这种粗调。有多种称作混合滤波器组的滤波器组,它们把输入信号分解成给定时间/频率表示。例如,在ISO/IEC11172-3中描述的MPEGLayer3算法,利用在每个子带中跟随有MDCT变换的Pseudo-QuadratureMirroFilterbank(伪正交镜像滤波器组)。在我们的分级滤波器组中,我们利用诸如MDCT之类的变换,跟随有对于谱线组的逆变换(例如,IMDCT),以进行输入信号的灵活的时间/频率变换。不像混合滤波器组,分级滤波器组使用来自两个连续、重叠的外变换以计算'重叠,内变换。借助于分级滤波器组有可能在第一变换的顶部上聚集多于一个变换。这借助于现有技术滤波器组(例如,树状滤波器组)也是可能的,但是由于随水平数量增大的频域分离快速退化,这是不实际的。分级滤波器组以某种时域退化为代价避免这种频域退化。然而,这种时域退化可通过窗口形状的适当选择而控制。借助于适当分析窗口的选择,也可使内变换系数相对于等于内变换尺寸(不像常规手段中那样等于最外变换的大小)的时间移位而不变。供分级滤波器组之用的、这里称作"ShmunkWindow"的适当窗口W(x)由如下定义<formula>complexformulaseeoriginaldocumentpage25</formula>其中x是时域样本指数(0<x<=L),并且L是在样本中窗口的长度。与普通使用Kaiser-Bessel导出窗口2602相比较的Shmunk窗口的频率响应2603表示在图2a中。可看到两个窗口在形状方面相类似,但旁瓣衰减对于所提出的窗口较大。Shmunk窗口的时域响应2604表示在图2b。具有提供时间/频率分解的一般适用性的分级滤波器組示出在图3和4。如以上描述的那样,为了用在音频编码/译码器中,HFB必须修改。在图3中,在每条虚线处的数量代表在每个水平下的相等间隔的频率仓(frequencybins)的数量(尽管不计算所有这些仓)。向下箭头代表得到N/2个子带的N-点MDCT变换。向上箭头代表IMDCT,取N/8个子带并且把它们变换成一个子带中的N/4个时间样本。每个方块代表一个子带。每个矩形代表N/2个子带。分级滤波器组完成如下步骤(a)如图5a中所示,输入信号样本2702緩存到N样本27(M的帧中,并且每个帧乘以N-样本窗口函数(图5b)2706以产生N窗口样本2708(图5c)(步骤2900);(b)如图3中所示,N-点变换(在图3中由向下箭头2802代表)施加到加窗样本2708上,以产生N/2变换系数2804(步骤"02);(c)可选的环形(ringing)减小通过施加一个或多个相邻变换系数的线性组合,其中通过应用变换系数2804的一个或多个(步骤2904);(d)N/2变换系数2804划分成P组Mi系数,从而Mi系数之和是N/2();<formula>complexformulaseeoriginaldocumentpage26</formula>(e)对于P组的每一个,(2*Mi)-点逆变换(在图3中由向上箭头2806代表)施加到变换系数上以由每个组产生(2*Mi)子带样本(步骤2906);(d)在每个子带中,(2*Mi)子带样本乘以(2*Mi)-点窗口函数2706(步骤2908);(e)在每个子带中,Mi个先前样本被重叠,并且添加到对应的当前值上,以对于每个子带产生Mi新样本(步骤2910);(f)把N设置成等于以前的Mi,并且选择用于P和Mi的新值,及(g)使用用于N的连续地较小的变换尺寸对Mi个新样本的子带的一个或多个重复以上步骤(步骤2912),直到实现希望的时间/变换分辨率(步骤2914)。注意,步骤可以迭代到所有子带,仅最低子带或其任何希望組合。如杲对于所有子带迭代步骤,则HFB是均匀的,否则它是不均匀的。图3的和以上描述的滤波器组实施的频率响应3300曲线图表示在图6中,其中N=128,Mi^6及P-4,并且对于在每一级的最低两个子带迭代步骤。对这种分级滤波器组的潜在应用可超出音频范围,到视频和其它类型的信号(例如,地震、医学、其它时间-序列信号)的处理。视频编码和压缩对于时间/频率分解具有类似要求,并且由分级滤波器组提供的分解的任意本质相对于基于离散余弦变换(DiscreteCosineTransform)和小波分解(Waveletdecomposition)的当前4支术状态技术可以具有显著优点。在分析和处理地震或机械测量、生物医学信号处理、自然或生理信号、语音、或其它时间序列信号的分析和处理时也可以应用滤波器组。频域信息可从在每次迭代在依次的较低频率分辨率下产生的变换系数抽取。同样时域信息可从在每次迭代在依次的较精细时间缩放下产生的时域子带样本抽取。分级滤波器组均匀间隔子带图7表示分级滤波器组3900的典型实施例的方块图,其实施了均匀间隔的子带滤波器组。对于均匀级滤波器组Mi=M=N/(2*P)。输入信号到子带信号3914的分解在下面描述1.输入时间窗口3902在N点、50%重叠帧3904中加窗。2.对于每个帧进行N点MDCT3卯6。3.把生成的MDCT系数分组成P组3908,每组M系数。4.对于每一组进行(2*1\1)点IMDCT3910,以形成(2*]\1)子带时间样本3911。5.生成的时间样本3911在(2*1^)点、50%重叠帧中加窗,并且重叠添加(OLA)3912以在每个子带中形成M个时间样本3914。在典型实施例中,N=256、P=32、及M=4。注意,不同的变换尺寸和对于N、P、及M的不同选择代表的子带分组也可用来实现希望的时间/频率分解。分级滤波器组非均匀间隔子带分级滤波器组3000的另一个实施例表示在图8a和8b中。在这个实施例中,一些滤波器组级是不完整的以产生具有三个不同频率范围的变换,在每个范围中使变换系数代表不同的频率分辨率。使用一系列级联单-元件滤波器组把时域信号分解成这些变换系数。详细滤波器组元件可以被迭代多次,以产生希望的时间/频率分解。注意,用于緩冲器大小、变换尺寸及窗口大小的数值、和用于变换的MDCT/IMDCT的使用仅用于典型实施例,并且不限制本发明的范围。也可以使用其它緩冲器窗口和变换尺寸及其它变换类型。一般地,Mi彼此不同,但满足Mi之和等于N/2的约束条件。图8b中所示,单个滤波器组元件緩冲器3022输入样本3020以形成256个样本的緩冲器3024,该256个样本的緩冲器通过把样本乘以256-样本窗口函数加窗3026。加窗样本3028经256-点MDCT3030变换以形成128个变换系数3032。在这128个系数中,96个最高频率系数为了输出3037被选择3034,并且被进一步处理。32个最低频率系数然后逆变换3042以产生64个时域样本,该时域样本然后加窗3044成样本3046,并且与以前输出帧重叠-添加3048,以产生32个输出样本3050。在8a中表示的例子中,滤波器组包括一个滤波器组元件3004,对于256个样本的输入緩沖器大小迭代一次,该滤波器组元件3004之后有一个滤波器组元件3010,也对于256个样本输入緩沖器大小迭代。最后一级3016代表简略的单个滤波器组元件,并且仅包括緩冲3016、加窗3026、及MDCT3030步骤,以输出代表0-1378Hz的最低频率范围的128个频域系数。因而,假定输入3002具有44100Hz的样本速率,表示的滤波器组产生在"Outl,,处代表频率范围5513至22040Hz的96个系数3008、在"Out2,,处代表频率范围1379至5512Hz的96个系数3014、及在"Out3"处代表频率范围0至1378Hz的128个系数3018。应该注意,对于频率变换/逆变换的MDCT/IMDCT的使用是示范性的,并且其它时间/频率变换可用作本发明的部分。用于变换尺寸的其它数值是可能的,并且对于这种手段,通过选择性地扩展上述层级中的任何分支,其它分解是可能的。音调和残余分量的多通道联合编码在图1中的音调选择器103把来自掩码计算器101的数据和来自多阶音调抽取器102的音调清单取作输入。音调选择器103首先相对于来自掩码计算器IOI的掩码水平通过相对功率分类音调清单,按心理声学重要性形成排序。采用的公式由如下给出<formula>complexformulaseeoriginaldocumentpage28</formula>其中Af谱线振幅Mi,,-用于i掩码子帧中的k谱线的掩码水平1=按照掩码子帧的基函数的长度对于子帧进行求和,其中语分量具有非零值。音调选择器103然后使用迭代过程,以确定来自用于帧的分类音调清单的哪些音调分量将装入位流中。在音调振幅在多于一个通道中大致相同的立体声或多通道音频信号中,只有全振幅和相位存储在初级通道中;初级通道是具有用于音调分量的最高振幅的通道。具有类似音调特性的其它通道存储与初级通道的差别。用于每个变换尺寸的数据包容多个子帧,覆盖2个子帧的最小变换尺寸;第二4个子帧;第三8个子帧;第四16个子帧;及第五32个子帧。对于1个帧有16个子帧。音调数据按其中找到音调信息的变换尺寸分组。对于每种变换尺寸,如下的音调分量数据被量化、被熵-编码及放置在位流中熵-编码子帧位置、熵-编码镨位置、熵-编码量化振幅、及量化相位。在多通道音频的情况下,对于每个音调分量,把一个通道选作初级通道。哪个通道应该是初级通道的确定可被固定,或者可以基于信号特性或感觉标准进行。初级通道的通道号和其振幅和相位存储在位流中。如图9中所示,位-掩码3602被存储,其指示其它通道的哪些包括所指示的音调分量,并因此应该被编码为次级通道。然后对于存在音调分量的每个次级通道,初级与次级振幅和相位之差>^皮熵-编码和存储。这个具体例子假定有7个通道,并且主通道是通道3。位-掩码3602指示在次级通道1、4及5上音调分量的存在。没有用于初级通道的位。多阶音调抽取器102的输出4211由在一个或多个分辨率下的MDCT系数的帧组成。音调选择器103基于音调分量与译码信号质量的相关性,确定哪些音调分量可保持以便由代码串发生器108插入到位流输出帧中。确定不装入帧中的那些音调分量输出IIO到局部译码器104。局部译码器104取出音调选择器103的输出110,并且通过添加借助于来自查阅表(图20)的合成系数2000缩放的每个音调分量合成所有音调分量,以产生MDCT系数的帧(见图16)。这些系数在组合器105中添加到多阶音调抽取器102的输出111上,以在分级滤波器组的最后迭代的MDCT分辨率下产生残余信号113。如图10中所示,每个通道的残余信号113在图7中表示的加窗和重叠添加3904和IMDCT3910的步骤以前,传到残余编码器107作为分级滤波器组3900的MDCT系数3908。IMDCT3910、加窗和重叠添加3912的后续步骤被进行,以在时域中对每个通道产生32个相等间隔的临界取样频率子带3914。组成时间-样本分量的32个子带称作网格G。注意,编码器中可使用分级滤波器组的其它实施例以实现除以上述一种之外的不同时间/频率分解,并且其它变换可用来抽取音调分量。如果分级滤波器组不用来抽取音调分量,则可使用另一种形式的滤波器组以抽取子带,但有较高计算负担。对于立体声或多通道音频,在通道选择块501中进行几种计算以确定用来编码音调分量的初级和次级通道、以及用来编码音调分量的方法(例如,左-右、或中部-侧部)。如图11中所示,通道分组过程3702首先确定多个通道的哪些可以联合编码,并且所有通道形成组,最后的组可能是不完整的。分组由听众的感觉标准和编码效率确定,并且通道组可以由多于两个通道的组合建造(例如,包括L、R、Ls、Rs及C通道的5通道信号可以分组成(L、R}、{Ls、Rs}、{L+R、C}。然后通道組排序成初级和次级通道。在典型多通道实施例中,基于在帧上通道的相对功率进行初级通道的选择。如下公式定义相对功率<formula>complexformulaseeoriginaldocumentpage30</formula>如在图11的步骤3704中所示,也确定分组模式。音调分量可以编码为左-右、或中部-侧部表示,或者这个步骤的输出可以只得到单个初级通道,如由虚线表示的那样。在左-右表示中,对于子带具有最高功率的通道当作初级,并且如果右通道是最高功率的通道,则在位流3706中设置用于该子带的单个位。如果子带满足如下条件则对于子带使用中部-侧部编码Pm>2Ps对于多通道信号,对于每个通道组完成以上操作。对于立体声信号,网格计算502提供立体声全声(panning)网格,在该立体声全声网格中可粗略地建造立体声全声并且施加到残余信号上。立体声网格是被4个时间间隔的4个子带,在立体声网格中的每个子带覆盖来自滤波器组500的输出的4个子带和32个样本,从高于3kHz的频带开始。其它网格大小、覆盖的频率子带、及时间划分可被选择。在立体声网格中单元的值是给定通道的功率与初级通道的功率的比值,用于单元覆盖的值的范围。比值然后被量化到与用来编码音调分量的表格相同的表格。对于多通道信号,对每个通道组计算以上立体声网格。对于多通道信号,网格计算502提供多重缩放因子网格,每个通道组一个,该多重缩放因子网格按它们在空间域中的心理声学重要性的顺序插入到位流中。计算给定通道的功率与4子带乘32样本的每个组的初级通道的功率的比值。这个比值然后被量化,并且这个量化值加上功率比值的算法符号插入到位流中。缩放因子网格计算503计算网格G1,其放置在位流中。现在描述用来计算网格G1的方法。首先从G导出GO。GO包含所有32个子带但只有G的时间分辨率的一半。在GO中的单元的内容是来自G的给定子带的两个相邻值的最大值的量化值。使用相同修改对数量化表格进行量化(在如下公式中称作Quantize),如用来在多阶音调抽取器102中编码音调分量那样。在GO中的每个单元因而由如下确定G0m,n=(Quantize(Maximun(Gm,2n,Gm,2n+i))ne[xFreql+=CurrentAmplitude*siii(2*Pi*Phase/8);ImliHxFreqI+=CurrentAmplitude*cos(2*Pi*Phase/8);Re[inxFreq+lj+=CurrentAmplitude*sin(2*Pi*Phase/8);Im[iHxFreq+ll+=CurrentAmplitude*cos(2*Pi*Phase/8);其中Amplitude、Freq及Phase与以前定义相同。Group是代表基函数变换尺寸的数,l用于最小变换并且5用于最大。length是用于Group的子帧,并且由如下给定length=2A(Group-l)。>>是右移算子。CurrentAmplitude和CurrentPhase对于下一个子帧被存储oEnvelope[Gro叩I[iI是用于每个组的适当长度(length)的三角形包,在任一端处是零值并且在中部中是l值。经上述方法在最大三个变换尺寸中的较低频率的重新合成,引起输出音频中的可听到失真,因此如下基于经验的校正应用于在组3、4、及5中比60小的谱线xFreq=Freq(Group-l);CurrentPhase=Phase-2*(2*xFreq+l);f—dlt=Freq-(xFreq《(Group-l));for(i=0;i<length;i=i+l)CurrentPhase+=2*(2*Freq+l)/length;CurrentAmplitude=Amplitude*Envelope[Group〗[i];Re—Amp=CurrentAmplitude*sin(2*Pi*Phase/8》Im—Amp=CurrentAmplitude*cos(2*Pi*Phase/8);aO=Re—Amp*CorrCf[fdlt;a3=ReAmp*CorrCf[fdlt][3;b3=Im—Amp*CorrCf[f—dlt[3;a4=Re—Amp*CorrCf[f—dlt[4;b4=Im—Amp*CorrCf[f一dlt][4;Re[i][abs(xFreq-2)-=a4;Im[il[abs(xFreq-2)I-=b4;Re[i[abs(xFreq-l)+=(a3-a0);Im[i[abs(xFreq-l)+=(b3-b0);Re[i[xFreq+=Re一Amp-a2-a3;Im[ij[xFreqj+=Im一Amp-b2-b3;Re卩〖xFreq+l+=al+a4-Re—Amp;Im[i][xFreq+l+=bl+b4-Im—Amp;Re[ij[xFreq+2j+=aO國al;Re[il[xFreq+3j+=a2;Imij[xFreq+31+=a2;其中Amplitude、Freq、Phase、Envelope[GroupI[i]、Group及length都如以前定义的那样。CorrCf由表格2(图20)给出。abs(val)是返回val的绝对值的函数。由于位流不包含关于编码音调分量的数量的任何信息,所以译码器仅读取用于每个变换尺寸的音调数据,直到它用光用于该大小的数据。因而,外部装置从位流除去的音调分量对于译码器处置仍包含在位流中的数据的能力没有影响。从位流除去元素仅把音频质量降低所除去数据分量的量。音调块也可被除去,在这种情况下,译码器对于该变换尺寸不进行音调分量的任何重建工作。逆频率变换604逆频率变换604是用来在编码器中创建频域表示的逆变换。当前实施例采用以上描述的逆分级滤波器组。可替换地,逆FFT是被用来抽取编码器的音调的最小FFT的逆变换,如果在译码时使用重叠FFT。残余译码器602残余译码器602的详细方块图表示在图18中。位流分析器600在线610上把Gl个元素从位流传递到网格译码器702。网格译码器702译码Gl以创建GO,其为32个频率子带乘64个时间间隔。位流包含量化Gl值和在这些值之间的距离。来自位流的Gl值使用与用来去量化音调分量振幅的相同的去量化表格被去量化。在来自位流的值之间的线性内插得到用于每个Gl子带的8个最后Gl振幅。Gl的子带0和1被初始化为零,当在位流中找到用于这两个子带的子带信息时,零值被替换。这些振幅然后使用从图19中的表格1得到的映像权重1900加权成重新创建的GO网格。用于GO的一般公式由如下给出<formula>complexformulaseeoriginaldocumentpage43</formula>其中m是子带号W是来自表格l的项n是GO列号k跨过11个Gl子带去量化器700由位流分析器600求出的时间样本在去量化器700中被去量化。去量化器700使用编码器的逆过程去量化来自位流的时间样本。来自子带零的时间样本被去量化到16个水平,子带1和2到8个水平,子带11至25到三个水平,及子带26至31到2个水平。任何丢失或无效时间样本用具有白噪音频镨能量分布的在-1至1的范围中的伪随机系列值替换。这改进缩放位流音频质量,因为这样一系列值具有比用零值替换更接近模拟原始信号的特性。通道多路分解器701在位流中的次级通道信息依据在位流中设置的标志,被存储作为一些子带与初级通道的差别。对于这些子带,通道多路分解器701从初级通道中的值以及位流中的差值恢复次级通道中的值。如果次级通道信息遗失该位流,则通过把初级通道信息复制到次级通道并使用立体声网格可从初级通道粗略地恢复次级通道信息,这在以后讨论。通道重建706当在位流中找不到次级通道信息(时间样本)时,立体声重建706应用于次级通道。网格译码器702重建的立体声网格被应用于通过复制初级通道时间样本信息而恢复的次级时间样本,以保持通道之间的原始立体声功率比值。多通道重建当在位流中不存在用于次级通道的次级信息(时间样本或网格)时,多通道重建706应用于次级通道。过程与立体声重建706类似,不同之处在于,由网格译码器702重建的部分网格应用于在每个通道组内、通过复制初级通道时间样本信息恢复的次级通道的时间样本,以保持在次级通道中的适当功率水平。部分网格分别应用于重建通道组中的每个次级通道,接着在缩放步骤703中由包括网格GO的其它缩放因子网格缩放,其中把网格G的时间样本乘以用于每个次级通道的部分网格的对应元素。部分网格网格GO可以按与本发明一致的任何顺序被施加。尽管已经表示和描述了本发明的几个说明性实施例,但对于本领域的技术人员将想到多种变更和可选择实施例。这样的变更和可选择实施例被预料到,并且可进行而不脱离在附属权利要求书中所定义的本发明的精神和范围。权利要求1.一种编码输入信号的方法,包括使用分级滤波器组(HFB)(2101a、...2101e)把输入信号(100)分解成多分辨率时间/频率表示;在多重频率分辨率下从所述时间/频率表示抽取音调分量(2109);从所述时间/频率表示抽取残余分量(2117、2118、2119);基于分量对于译码信号质量的相对贡献排序所述分量(103、107、109);量化并编码所述分量(102、107、108);及消除足够数量的最低排序编码分量(115),以形成具有小于或近似等于希望数据速率的数据速率的缩放位流(116)。2.根据权利要求1所述的方法,其中,通过在不同频率分辨率下首先把音调分量分組成至少一个频率子域(903、904、905、906、907)并且在不同的时间缩放和/或频率分辨率下把残余分量分组成至少一个残余子域(908、909、910)、基于子域对于译码信号质量的相对贡献排序子域及基于分量对于译码信号质量的相对贡献排序每个子域内的分量,来排序所述分量。3.根据权利要求2所述的方法,还包括形成主位流(126),在该主位流中,子域和在每个子域内的分量是基于它们的排序而排列(109),通过从最低排序子域中的最低排序分量开始并且依次消除分量而消除所述低排序分量,直到实现所述希望数据速率(115)。4.根据权利要求1所述的方法,还包括形成主位流(126),其包括排序的量化分量(109),其中通过消除足够数量的低排序分量来缩放主位流以形成缩放位流(115)。5.根据权利要求4所述的方法,其中,在具有所述希望数据速率作为约束条件的通道上记录或传输所述缩放位流(116)。6.根据权利要求5所述的方法,其中,所述缩放位流(116)是多个缩放位流之一,并且独立地控制每个各个位流的数据速率,其中约束条件是各个数据速率之和必须不超过最大总数据速率,在所有位流上根据译码信号质量实时地动态控制每个所述数据速率。7.根据权利要求1所述的方法,其中,从输入信号与音调分量之间的残余信号(113)导出残余分量,从而也从残余信号(2114)除去(2112)所述被消除以形成缩放位流的音调分量。8.根据权利要求1所述的方法,其中,残余分量包括时间-样本分量(2117)和缩放因子分量(2118、2119),缩放因子分量(2118、2119)在不同时间缩放和/或频率分辨率下修改时间-样本分量。9.根据权利要求8所述的方法,其中,时间-样本分量由网格G代表(21H),并且缩放因子分量包括在多个时间缩放和频率分辨率下的一系列一个或多个网格GO、Gl(2118、2119),其通过在时间/频率平面中把网格g除以G0、Gl的网格元素而应用于时间-样本分量,每个网格G0、Gl具有不同数量的时间或频率缩放因子。10.根据权利要求8所述的方法,其中,通过把两维变换应用于缩放因子分量并量化变换系数,来编码缩放因子(107)。11.根据权利要求10所述的方法,其中,所述变换是两维离散余弦变换。12.根据权利要求1所述的方法,其中,HFB在依次迭代中在依次的较低频率分辨率水平下把输入信号分解成变换系数,其中通过如下操作抽取所述音调和残余分量在每次迭代从变换系数抽取音调分量(2109),量化(2110)并存储抽取的音调分量在音调清单中(2106);从输入信号除去音调分量(2111、2112),以把残余信号(2114)传到HFB的下次迭代;及把具有相比HFB的最后迭代更低的频率分辨率的最后逆变换(2115)应用于残余信号(113),以抽取残余分量U117)。13.根据权利要求12所述的方法,还包括在最后迭代之后从音调清单除去一些音调分量(114);和局部译码并逆量化(104)除去的量化音调分量(114),并把它们与最后迭代处的残余信号(111)相组合(105)。14.根据权利要求13所述的方法,其中,至少一些从清单除去的相对较强音调分量不被局部译码和重组。15.根据权利要求12所述的方法,其中,在每个频率分辨率下的音调分量由如下操作抽取(2109):通过应用感觉模型辨别所希望的音调分量;选择感觉最显著的变换系数;把每个选择变换系数的参数存储为音调分量,所述参数包括振幅、频率、相位、以及对应变换系数在帧中的位置;及量化并编码(2110)每个音调分量的参数到音调清单中以用于插入到位流中。16.根据权利要求12所述的方法,其中,残余分量包括表示为网格G(2117)的时间-样本分量,残余分量的抽取还包括建造不同时间/频率分辨率的一个或多个缩放-因子网格(2118、2119),该缩放-因子网格的元素代表在时间/频率区域中的最大信号值或信号能量;把时间-样本网格G除以缩放-因子网格的对应元素,以产生缩放时间样本网格G(2120);及量化并编码缩放时间-样本网格G(2122)和缩放-因子网糾2121)以便插入到编码位流中。17.根据权利要求1所述的方法,其中,输入信号被分解,并且通过如下操作抽取音调和残余分量,(a)把输入信号的样本緩存到N个样本的帧中(2900);(b)把每个帧中的N个样本乘以N-样本窗口函数(2900);(c)施加N-点变换以产生N/2个原始变换系数(2902);(d)从N/2个原始变换系数抽取音调分量(2109),量化(2110)抽取的音调分量及把其存储在音调清单中(2106);(e)通过逆量化减去音调分量,并且从原始变换系数减去生成的音调变换系数(2112),以给出N/2个残余变换系数;(f)把N/2个残余变换系数划分成P组Mj个系数(2906),从而Mi个系数之和是N/2(||乾=w/2;)(g)对P组的每一个,把(2*Mi)点逆变换施加到残余变换系数,以从每个组产生(2*Mi)子带样本(2卯6);(h)在每个子带,把2*!\^子带样本乘以2*1\^点窗口函数(2908);(i)在每个子带,与Mi个先前样本重叠并且添加对应值,以对每个子带产生Mi新样本(2910);(j)使用依次的较小变换尺寸N对Mi新样本的一个或多个子带重复步骤(a)-(i)(2912),直到获得希望的时间/变换分辨率(2914);及(k)在最后迭代为每个子带输出把具有较低频率分辨率N的最后逆变换(2115)施加到Mi个新样本,以产生子带的网格G中的时间样本的子带和每个子带中的多重时间样本。18.根据权利要求1所述的方法,其中,输入信号是多通道输入信号,每个所述音调分量通过形成所述通道的组被联合编码以及对于每个所述组,选择初级通道和至少一个次级通道,该初级通道和次级通道通过位掩码(3602)辨别,位掩码的每个位辨别次级通道的存在,量化并编码初级通道(102、108);及量化并编码初级与每个次级通道之间的差(102、108)。19.根据权利要求18所述的方法,其中,基于指示哪种模式提供译码输出信号中的希望数据速率的最小感觉失真的度量,选择用于编码每个通道组的联合通道模式。20.根据权利要求1所述的方法,其中,输入信号是多通道信号,还包括从每个通道的输入信号减去抽取的音调分量,以形成残余信号(2109a、…2109e);把残余信号的通道形成由感觉标准和编码效率所确定的组(3702)j确定用于每个所述残余信号组的初级和次级通道(3704);计算部分网格(508),以编码每个残余信号组中配对的每个初级/次级通道之间的相对空间信息(502);量化并编码每个组中的初级通道的残余分量作为相应网格G(2210a);量化并编码所述部分网格以减小所述要求的数据速率(2110a);及把编码的部分网格和每组的网格G插入到缩放位流中(3706)。21.根据权利要求20所述的方法,其中,次级通道由一个或多个通道的线性组合而建造(3704)。22.—种编码音频输入信号的方法,包括把音频输入信号(100)分解成多分辨率时间/频率表示(2101a、…2101e);在每个频率分辨率下抽取音调分量(2109);从时间/频率表示中除去音调分量(2111、2112)以形成残余信号(113);从残余信号抽取残余分量(2117、2118、2119);把音调分量分组成至少一个频率子域(903、904、905、906、907);把残余分量分组成至少一个残余子域(908、909、910);基于心理声学重要性排序子域(103、107、109);基于心理声学重要性排序每个子域内的分量(103、107、109);量化并编码每个子域内的分量(102、107、108);以及从最低排序子域开始消除足够数量的低排序分量U15),以形成具有小于或近似等于希望数据速率的数据速率的缩放位流(116)。23.根据权利要求22所述的方法,其中,在不同频率分辨率下把音调分量分组成多个频率子域(卯3、904、905、906、907),并且所述残余分量包括在不同频率和/或时间分辨率下分组成多个残余子域(908、909、910)的网格。24.根据权利要求22所述的方法,还包括形成主位流(126),在该主位流中,子域和在每个子域内的分量基于它们的排序而排列,通过从最低排序子域中的最低排序分量开始并且按顺序消除分量而消除所述低排序分量(115),直到实现所述希望数据速率。25.—种用来编码输入音频信号和形成可缩放位流的可缩放位流编码器,包括分级滤波器组(HFB)(2100),它在依次的较低频率分辨率下把输入音频信号分解成变换系数(2108),并且在依次迭代中在依次较精细时间缩放下分解回时域子带样本(2114);音调编码器(102),(a)在每次迭代处从变换系数抽取音调分量(2109),量化(2110)它们及把它们存储在音调清单中(210",(b)从输入音频信号除去音调分量(2111、2112),以把残余信号(2114b)传到HFB的下次迭代,及(c)基于所有抽取音调分量对于译码信号质量的相对贡献而排序它们;残余编码器(107),它把具有比HFB(2101e)的最后迭代更低的频率分辨率的最后逆变换(2115)应用于最后残余信号(113)以抽取残余分量(2117、2118、2119),并且基于残余分量对于译码信号质量的相对贡献排序它们;位流格式化器(109),它逐帧地组合音调和残余分量,以形成主位流(126);及缩放器(115),它从主位流的每个帧消除足够数量的最低排序编码分量,以形成具有小于或近似等于希望数据速率的数据速率的缩放位流(116)。26.根据权利要求25所述的编码器,其中,音调编码器在不同频率分辨率下把音调分量分组成频率子域(903、卯4、卯5、卯6、907)并且排序每个子域的分量,残余编码器组在不同的时间缩放和/或频率分辨率下把残余分量分组成残余子域(908、909、910)并且排序每个子域的分量,及所述位流格式化器基于子域对于译码信号质量的相对贡献排序子域。27.根据权利要求26所述的编码器,其中,位流格式化器基于子域和在每个子域内的分量的排序而排列它们,所述缩放器(115)通过从最低排序子域中的最低排序分量开始并按顺序消除分量而消除所述低排序分量,直到实现希望数据速率。28.根据权利要求25所述的编码器,其中,输入音频信号是多通道输入音频信号,所述音调编码器通过形成所述通道组而联合编码每个所述音调分量以及对于每个所述组,选择初级通道和至少一个次级通道,该初级通道和至少一个次级通道通过位掩码(3602)被辨别,位掩码的每个位辨别次级通道的存在;量化并编码初级通道(102、108);及量化并编码在初级与每个次级通道之间的差(102、108)。29.根据权利要求25所述的编码器,其中,输入信号是多通道音频信号,所述残余编码器,把残佘信号的通道形成由感觉标准和编码效率确定的组(3702);确定每个所述残余信号组的初级和次级通道(3704);计算部分网格(508),以编码每个残余信号组中配对的每个初级/次级通道之间的相对空间信息(502);量化并编码每个组中的初级通道的残余分量作为相应网格G(2210a);量化并编码所述部分网格以减小所要求的数据速率(2110a);及把编码的部分网格和每组的网格G插入到缩放位流中(3706)。30.根据权利要求25所述的编码器,其中,残余编码器在多个时间缩放和频率分辨率下抽取由网格G(2117)代表的时间-样本分量和一系列一个或多个缩放因子网格GO、Gl(2118、2119),其通过在时间/频率平面中把网格G除以G0、Gl的网格元素而应用于时间-样本分量(2120),每个网格GO、Gl具有不同数量的时间和/或频率缩放因子。31.—种由编码位流重建时域输出信号的方法,包括接收具有给定范围内的预定数据速率的缩放位流(599)作为帧序列,每个帧包含如下的至少一个(a)代表输入信号的不同频率分辨率下的频域内容的多个量化音调分量(2407)、b)代表从重建音调分量与输入信号之差形成的时域残余的量化残余时间-样本分量(2403)、及c)代表残余信号的信号能量的缩放因子网格(2404),该信号能量至少部分跨过输入信号的频率范围;接收对于每个帧的关于量化分量和/或网格在频率范围内的位置信息(599);把缩放位流的帧解析成分量和网格(600);译码任何音调分量以形成变换系数(2408);译码任何时间-样本分量和任何网格(2401-2405);把时间-样本分量乘以网格元素以形成时域样本(2406);及把逆分级滤波器组(2400)应用于变换系数(2407)和时域样本(4002)以重建时域输出信号(6H)。32.根据权利要求31所述的方法,其中时域样本通过如下操作形成把位流解析成缩放因子网格Gl(2404)和时间样本分量(2403);译码并逆量化网格G1缩放因子网格,以产生GO缩放因子网格(2405);以及译码并逆量化时间样本分量,把这些时间样本值乘以GO缩放因子网格(2406),以产生重建的时间样本(4002)。33.根据权利要求32所述的方法,其中,信号是残余通道已经被分组和编码的多通道信号,每个所述帧也包含d)代表在通道组内的残余信号通道的信号能量比值的部分网格,还包括把位流分析成部分网格(508);译码并逆量化(2401)部分网格;及把重建时间-样本乘以施加到通道组中的每个次级通道上的部分网格(508),以产生重建时域样本。34.根据权利要求31所述的方法,其中,输入信号是多通道,其中音调分量组包含一个初级和一个或多个次级通道,每个所述帧也包含e)与每组中的初级通道有关的位掩码,在该位掩码中,每个位辨别已经与初级通道联合编码的次级通道的存在,把位流分析成位掩码(3602);译码每个组中的初级通道的音调分量(601);译码每个组中的联合编码音调分量;对每个组,使用位掩码从初级通道的音调分量和联合编码音调分量的音调分量重建每个所述次级通道的音调分量(601)。35.根据权利要求34所述的方法,其中,通过译码被熵-编码并为存在音调分量的每个次级通道存储的振幅及相位之间、初级和次级频率之间的差别信息,来译码次级通道音调分量。36.根据权利要求31所述的方法,其中,逆分级滤波器组(2400)重建输出信号(614),其通过把时域样本(4002)变换成残余变换系数(2411)、把它们与用于低频率分辨率下的音调分量集(2407)的变换系数(2409)相组合(2412)及逆变换(2413)组合的变换系数以形成部分重建输出信号(2415),并且用下一最高频率分辨率下的另一音调分量集的变换系数在该部分重建输出信号上重复所述步骤,直到重建输出信号(614)。37.根据权利要求36所述的方法,其中,时域样本表示为子带,所述逆分级滤波器组通过如下操作重建时域输出信号a)加窗在输入帧的每个时域子带中的信号,以形成加窗时域子带(2410);b)把时域到频域变换应用于每个加窗时域子带以形成变换系数(2411);c)级联所生成的变换系数以形成较大集的残余变换系数(2411);d)由音调分量集合成变换系数(2409);e)把由音调和时域分量重建的变换系数组合成单个组合变换系数集(2412);f)把逆变换应用于组合变换系数(2413),加窗及重叠添加(2414)先前的帧,以重建部分重建时域信号(2415);及g)对于部分重建时域信号使用下个音调分量集施加依次迭代步骤(a)至(f)(2407),直到重建时域输出信号(614)。38.根据权利要求36所述的方法,其中每个输入帧在P个子带的每一个中包含Mi个时间样本,所述逆分级滤波器进行如下步骤(a)在每个子带i中,緩存Mi个先前样本并且把Mi个先前样本与当前Mi个样本级联以产生2*]\1;新样本(4004);(b)在每个子带i中,把2*1^子带样本乘以2*]\^点窗口函数(4006)',(c)把(2*Mi)点变换应用于子带样本,以产生每个子带i的Mi变换系数(4008);(d)级联每个子带i的Mi变换系数以形成N/2个系数的单集(4010)5(e)合成来自译码和逆量化的音调分量集的音调变换系数,并且把它们与以前步骤的级联系数相组合以形成单个组合级联系数集(2407、2408、2409、2412)5(f)把N-点逆变换应用于組合级联系数以产生N个样本(4012);(g)把每帧的N个样本的乘以N-样本窗口函数以产生N个加窗样本(4014);(h)重叠添加所生成的加窗样本(4014)以产生在给定子带水平下的N/2个新输出样本作为部分重建输出信号(4016);及(i)使用下个音调分量集对N/2新输出样本重复步骤(a)-(h)(2407),直到已经处理所有子带并重建N个原始时间样本作为输出信号(614)。39.—种用来由编码位流重建时域输出音频信号的译码器,包括位流分析器(600),用来把缩放位流的每个帧解析成其音频分量,每个帧包含如下的至少一个(a)代表在输入信号的不同频率分辨率下的频域内容的多个量化的音调分量、b)代表由重建音调分量与输入信号之差形成的时域残余的量化残余时间-样本分量、及c)代表残余信号的信号能量的缩放因子网格;残余译码器(602),用来译码任何时间-样本分量和任何网格以重建时间样本;音调译码器(601),用来译码任何音调分量以形成变换系数;及逆分级滤波器组(2400),用于重建输出信号,其中通过把时间样本变换成残余变换系数、把它们与低频率分辨率下的音调分量集的变换系数相组合及逆变换组合的变换系数以形成部分重建输出信号,用下一最高频率分辨率下的另一个音调分量集的变换系数在所述部分重建输出信号上重复所迷步骤,直到重建输出音频信号。40.根据权利要求39所述的译码器,其中,每个输入帧在P个子带的每一个中包含Mi个时间样本,所述逆分级滤波器进行如下步骤(a)在每个子带i中,緩存Mi个先前样本并且把Mi个先前样本与当前Mi个样本级联以产生2力Mi个新样本(4004);(b)在每个子带i中,把2AMi个子带样本乘以2*1\^点窗口函数(4006);(c)把(2*Mi)-点变换应用于子带样本,以产生每个子带i的Mi个残余变换系数(4008);(d)级联用于每个子带i的Mi个残余变换系数以形成N/2个系数的单集(4010);(e)合成来自译码和逆量化的音调分量集的音调变换系数,并且把它们与级联残余变换系数相组合以形成单个组合级联系数集(2407、2408、2409、2412);(f)把N-点逆变换应用于组合级联系数以产生N个样本(4012);(g)把每一帧的N个样本乘以N-样本窗口函数以产生N个加窗样本(4014);(h)重叠添加所生成的加窗样本(4014)以产生给定子带水平下的N/2个新输出样本作为部分重建输出信号(4016);及(i)使用下个音调分量集对N/2个新输出样本重复步骤(a)-(h)(2407),直到已经处理所有子带并重建N个原始时间样本作为输出信号(614)。41.一种分级滤波输入信号以实现几乎任意时间/频率分解的方法,包括步骤(a)把输入信号的样本緩存到N个样本的帧中(2900);(b)把每个帧中的N个样本乘以N-样本窗口函数(2900);(c)施加N-点变换以产生N/2个变换系数(2902);(d)把N/2个残余变换系数划分成P组的Mj个系数(2906),从而Mi系数之和是N/2(^A/,=w/2;)(e)对于P组的每一个,把(2*Mi)-点逆变换施加到变换系数上以从每组产生(2*Mi)子带样本(2906);(f)在每个子带i中,把(2*Mi)子带样本乘以(2*Mi)-点窗口函数;(2908)(g)在每个子带i中,与Mi个先前样本重叠并且添加对应值,以对于每个子带产生Mi个新样本(2910);及(h)使用依次更小的变换尺寸N对Mi个新样本的一个或多个子带重复步骤(a)-(g)(2912),直到获得所希望的时间/变换分辨率(2914)。42.根据权利要求41所述的方法,其中,变换是MDCT变换。43.根据权利要求41所述的方法,其中,对Mi的所有子带重复步骤(a)-(g)。44.根据权利要求41所述的方法,其中,只对Mi的低频率子带的限定集重复步骤(a)-(g)。45.—种分级重建输入信号的时间样本的方法,其中每个输入帧在P个子带的每一个中包含Mi个时间样本,包括如下步骤(a)在每个子带i中,緩存Mi个先前样本并且把Mi个先前样本与当前Mi个样本级联以产生2*]\^个新样本(4004);(b)在每个子带i中,把2先Mi个子带样本乘以2*]\^点窗口函数(4006);(c)把(2*Mi)-点变换应用于加窗子带样本,以产生用于子带i的Mi个残余变换系数(4008);(d)级联用于每个子带i的Mi残余变换系数以形成N/2个系数的单集(4010);(e)把N-点逆变换应用于级联系数以产生N个样本的帧(4012);(f)把每一帧的N个样本乘以N-样本窗口函数以产生N个加窗样本(4014);(g)重叠添加所生成的加窗样本(4014)以产生给定子带水平下的N/2个新输出样本(4016);及重复步骤(a)-(h),直到已经处理所有子带并重建N个原始时间才羊本。全文摘要一种用来压缩音频输入信号以形成主位流的方法,该主位流可被缩放以形成具有任意规定数据速率的缩放位流。分级滤波器组(2100)把输入信号分解成多分辨率时间/频率表示,编码器可从该多分辨率时间/频率表示高效地抽取音调(2106)和残余分量(2117)。分量被排序,并且然后参照相同掩码函数或不同心理声学标准被量化。选择音调分量使用扩展到多通道音频的差分编码被适当地编码。使用扩展到多通道音频的联合通道编码(JCC),编码组成残余分量的时间-样本和缩放因子分量。译码器使用逆分级滤波器组,以从缩放位流中的音调和残余分量重建音频信号。文档编号H03M7/30GK101199121SQ200680021765公开日2008年6月11日申请日期2006年6月16日优先权日2005年6月17日发明者德米特里·V·施芒克,理查德·J·比登申请人:Dts(英属维尔京群岛)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1