处理音频信号的装置和方法

文档序号:2830104阅读:106来源:国知局

专利名称::处理音频信号的装置和方法
技术领域
:本发明涉及一种处理音频信号的方法,更具体地涉及一种编码和解码音频信号的方法和装置。
背景技术
:过去曾经以不同方法实现了音频信号的存储和重放。例如,音乐和语音业已通过留声技术(例如唱盘播放机)、磁技术(例如卡式磁带)和数字技术(例如光盘)来记录和保存。随着音频存储技术的发展,需要克服许多难题来优化音频信号的质量和可存储性。为了音乐信号的存档和宽带传输,无损重建在借助诸如MP3或AAC等在MPEG标准中定义的感性编码进行的压縮中正成为比高效率更为重要的特征。虽然DVD音频和超级CD音频包括专利无损压縮方案,但是在内容持有者和广播公司当中需要一种开放式和综合性的压縮方案。响应于这种需要,一种新的无损编码方案已经成为MPEG-4音频标准的延伸。无损音频编码法由于原始信号的完美重建而实现了没有任何质量损失的数字音频数据压縮。
发明内容本发明涉及处理音频信号的方法。在一个实施例中,随机存取单元信息被添加至包含多个随机存取单元的音频信号中。每个随机存取单元包括若干帧并且其中至少一个帧是随机存取帧。每个随机存取帧是以使得解码该随机存取帧不需要用到之前的帧的方式编码的帧。随机存取单元信息指示按字节计这些随机存取帧中的至少两个之间的距离。例如,随机存取单元信息可被添加至音频信号的配置信息,并且随机存取单元信息指示按字节计连续随机存取帧之间的距离。在一个实施例中,随机存取单元信息被与至少一个随机存取帧相关联地添加至音频信号,并且该随机存取单元信息指示按字节计该相关联的随机存取帧和下一随机存取帧之间的距离。在一个实施例中,该方法还包括将通用信息添加至配置信息。通用信息指示按帧计连续随机存取帧之间的距离。另一实施例还包括将通用信息添加至配置信息,其中通用信息指示随机存取单元信息是否是与随机存取帧相关联地定位和位于配置信息中这两者之一。在一个实施例中,随机存取单元信息可指示按字节计随机存取单元的大小。在本发明的一个实施例中,接收具有多个随机存取单元的音频信号。每个随机存取单元包括多个帧并且其中至少一个帧是随机存取帧,每个随机存取帧是以使得解码该随机存取帧不需要用到之前的帧的方式编码的帧。随机存取单元信息自音频信号中被读取,并且该随机存取单元信息指示按字节计这些随机存取帧中的至少两个之间的距离。这些随机存取帧中的至少一个是基于随机存取单元信息来解码的。在一个实施例中,随机存取单元信息自音频信号的配置信息中被读取,并且该随机存取单元信息指示按字节计连续随机存取帧之间的距离。在另一实施例中,相关联的随机存取帧的随机存取单元信息自音频信号中与该相关联的随机存取帧相关联的位置被读取,并且该随机存取单元信息指示按字节计该相关联的随机存取帧与下一随机存取帧之间的距离。在一个实施例中,通用信息自配置信息中被读取,其中通用信息指示按帧计连续随机存取帧之间的距离。这些随机存取帧中的至少一个基于随机存取单元信息和通用信息来被解码。在又一实施例中,通用信息自配置信息中被读取,其中通用信息指示随机存取单元信息是否是与随机存取帧相关联地定位和位于配置信息中这两者之一。随机存取单元信息基于通用信息被读出。本发明还涉及编码音频信号的方法和装置以及解码音频信号的方法和装置。包括于此以提供对本发明的进一步理解、并被结合在本申请中且构成其一部分的附图示出本发明的实施方式,其与说明书一起可用来解释本发明的原理。在附图中图1是根据本发明一个实施方式的编码器的示例图。图2是根据本发明一个实施方式的解码器的示例图。图3是根据本发明一个实施方式的压縮的M-声道文件的比特流结构的示例图。图4是根据本发明一个实施方式的分级块切换方法的概念图的示例图。图5是块切换示例及相应的块切换信息代码的示例图。图6是根据本发明实施方式的多个声道的块切换方法的示例图。具体实施方式下面将详细参考本发明的优选实施方式,其具体示例图示于附图中。只要有可能,即在所有附图中使用相同的附图标记表示相同或相似的部件。在对本发明进行叙述之前,应当指出的是本发明中揭示的大多数术语对应于本领域内公知的一般术语,但部分术语是由申请人根据需要选择的,并且将在本发明下文的描述中予以揭示。因此,由申请人定义的术语优选基于它们在本发明中的含义来理解。在无损音频编码方法中,由于编码过程必须是完全可逆而不会有信息损失的,因此编码器和解码器两者的若干部件必须以确定性的方式来实现。编解码器结构图1是根据本发明一个的编码器1的示例图。分割部件100将输入的音频数据分割成若干帧。在一帧内,每个声道还可进一步被细分成若干个音频采样块以做进一步处理。缓冲器110存储由分割部件100分割后的块和/或帧采样。系数估算部件120针对每个块估算最优的一组系数值。系数的数目,即预测器的阶数也可以自适应地做出选择。系数估算部件120针对数字音频数据块计算一组部分自相关系数(parcor)值。部分自相关系数值指示预测器系数的部分自相关系数表示。量化部件130将该组部分自相关系数值量化。第一熵编码部件140通过从部分自相关系数值减去一个偏移值来计算出部分自相关系数残差值,并使用由熵参数所定义的熵代码对部分自相关系数的残差值进行编码,其中偏移值和熵参数选自最优表。最优表是基于数字音频数据块的采样率从多个表中选择的。这多个表是分别对多个采样率范围预定义的以实现为传输而进行的数字音频数据的最优压縮。系数转换部件150将量化了的部分自相关系数转换成线性预测编码(LPC)系数。预测器160使用线性预测编码系数从存储在缓冲器110中的之前的原始采样估算当前预测值。减法器170使用存储在缓冲器IIO中的数字音频数据的原始值和在预测器160中估算出的预测值计算数字音频数据块的预测残差。第二熵编码部件180使用不同的熵代码编码预测残差并生成代码索引。所选择的代码索引作为辅助信息被发送。第二熵代码部件180使用具有不同复杂度的两种选择性编码技术之一编码预测残差。一种编码技术是公知的Golomb-Rice编码(在下文中简称为"Rice代码")法而另一种是公知的分块Gilbert-Moore代码(在下文中简称为"BGMC")法。Rice代码具有低复杂度但仍然是高效率的。BGMC算法编码方案以相比Rice代码复杂度稍高的代价提供更好的压縮。最后,多路复用部件190将编码的预测残差、代码索引、编码的部分自相关系数残差值和其它附加信息多路复用以形成压縮的比特流。编码器1还提供循环冗余校验(CRC)校验和,它主要被提供给解码器以校验解码的数据。在编码器方面,CRC用来保证压縮的数据能被无损地解码。其它编码选项包括柔性块切换方案、随机存取和联合声道编码。编码器1可使用这些选项提供若干具有不同复杂度的压縮级别。联合声道编码利用立体声声道或多声道信号之间的相关性。这可通过在能够比原始信道之一更高效率地编码两个声道之间的差异的片段(segments)中编码这种差异来实现。这些编码选项将在参数根据本发明的示例性解码器的说明之后更为详细地予以说明。图2是根据本发明的解码器2的示例图。更特别地,图2示出由于不必执行任何适应性调整因而复杂度显著低于编码器的无损音频信号解码器。多路分解部件200接收音频信号并将数字音频数据块的编码的预测残差、代码索引、编码的部分自相关系数残差值和其它附加信息多路分解。第一熵解码部件210使用由熵参数定义的熵代码以解码部分自相关系数残差值并通过将偏移值加至解码的部分自相关系数残差值计算一组部分自相关系数值;其中偏移值和熵参数被选自一个表,该表是由解码器从基于数字音频数据块的采样速率的多个表中选择的。第二熵解码部件220使用代码系数对经多路分解后的编码的预测残差进行解码。系数转换部件230将熵解码的部分自相关系数值转换成LPC系数。预测器240使用LPC系数估算数字音频数据块的预测残差。加法器250将解码的预测残差与估算的预测残差相加以获得数字音频数据的原始块。组装部件260将解码的块数据组装为帧数据。因此,解码器2将编码的预测残差和部分自相关系数残差解码,将部分自相关系数残差值转换成LPC系数,并运用逆预估滤波器以计算无损重构信号。解码器2的计算工作量取决于由编码器1选择的预测阶数。在多数情形下,实时解码即使在低端系统中也是可行的。图3是根据本发明的包括多个声道的(例如M声道)压縮音频信号的比特流结构的示例图。该比特流由包括多个声道(例如M声道)的至少一个音频帧构成。比特流配置语法(见下面的表6)中的"channels"字段指示声道数。使用根据本发明的块切换方案将每个声道分成多个块,这将在后面详细说明。每个再分块具有不同的大小并包括根据图1编码的编码数据。例如,一个再分块中的编码数据包含代码索引、预测阶数K、预测器系数和编码的残差值。如果使用声道对之间的联合编码法,则这两个声道的块分割是等同的,而且这些块以交织方式存储。比特流配置句法(表6)中的"js_Stereo"字段指示联合立体声(声道差)是开启的还是关闭的,而frame_data句法(见下面的表7)中的"js—switch"字段指示是否选择联合立体声(声道差)。否则,每个声道的块分割是独立的。下面将参照附图及其后的句法详细地说明前面提到的块切换、随机存取、预测和熵编码选项。块切换本发明的一个方面涉及在使用实际编码方案前将每个声道再分成多个块。下面,根据本发明的块分割(或再分)方法被称为"块切换方法"。分级块切换图4是根据本发明的分级块切换方法的概念图的示例图。例如,图4示出将一个声道按分级方式细分成32个块的方法。当在单个帧中提供多个声道时,每个声道被细分(或分割)成最多达32个块,并且每个声道的细分块配置成一个帧。因此,根据本发明的块切换方法由图1所示的分割部件100执行。此外,如上所述,预测和熵编码在细分的块单元上执行。一般而言,传统的音频无损编码(ALS)包括相对简单的块切换机制。每一个N个采样的声道或者使用一个全长块(NB=N)进行编码,或者使用四个长度Ns二N/4的块(例如1:4切换)进行编码,其中同一块分割法适用于所有声道。在某些情形下,该方案会具有某些局限性。例如,尽管只有l:l或l:4切换是用的,但其他切换法(例如l:2、1:8及其组合)在某些情形下却效率更高。另外在传统ALS中,对所有声道以等同的方式执行切换,虽然不同声道或许会从不同的切换法受益(如果声道并不相关时则尤为如此)。因此,根据本发明实施方式的块切换方法提供相对灵活的块切换方案,其中一个帧的每个声道可按分级方式被细分成多个块。例如,图4示出能以分级方式细分成最多达32个块的声道。在根据所给出的实施方式的声道内,NB=N、N/2、N/4、N/8、N/16和N/32的块的任意组合是可能的,只要每个块是通过对双倍长度的上级块进行细分产生的即可。例如,如图4中的例子所示,分割成N/4+N/4+N/2是可能的,而分割成N/4+N/2+N/4是不行的(例如在下面描述的在图5(e)和图5中示出的块切换示例)。换言之,声道被分成这多个块从而使每个块的长度等于N/(mi)中的一个值,其中i二l,2,p,N是声道的长度,m是大于或等于2的一个整数,而p表示在细分分级结构中的级数。因此,在本发明的实施例中,比特流包括指示块切换等级的信息以及指示块切换结果的信息。这里,与块切换相关的信息被包含在用于解码处理的语法中,这将在下面进行描述。例如,作出设定以使块切换处理后产生的最小块尺寸为NB二N/32。然而,这种设定仅为简化本发明说明的一个实例。因此,根据本发明的设定不局限于这一种设定。更具体地说,当最小块大小为NB二N/32时,这表示块切换处理已按分级方式进行了5次,故将其称为5级块切换。或者,当最小块大小为NB二N/16时,这表示块切换处理己按分级方式执行了4次,故将其称为4级块切换。同样,当最小块大小为NB=N/8时,这表示块切换处理已按分级方式执行了3次,故将其称为3级块切换。而当最小块大小为NB==N/4时,这表示块切换处理已按分级方式执行了2次,故将其称为2级块切换。.当最小块大小为NB-N/2时,这表示块切换处理己按分级方式执行了1次,故将其称为l级块切换。最后,当最小块大小为Ne二N时,这表示尚未执行块切换处理,故将其称为0级块切换。在本发明的实施例中,指示块切换等级的信息被称为第一块切换信息。例如,第一块切换信息可由表6中的语法中的2比特字段"block—switching"表示,这将在后面的处理中予以说明。更具体地说,"block—switching=00"表示0级,"block—switching=01"表示1级至3级中的任何一个,"block_switching=10"表示4级,而"block—switching=11"表示5级。另外,指示根据上述块切换等级对每个等级执行的块切换结果的信息在这些实施例中被称为第二块切换信息,这里,第二块切换信息可由"bsjnfb"字段表示,该字段在表7所示的语法中以8比特、16比特和32比特中的任何一个表示。更具体地说,如果"block—switching=01"(表示1级至3级的任何一个),则"bsJnfo"由8比特表示。如果"block—switching-10"(表示级4),则"bs—info"由16比特表示。换句话说,高达4级的块切换结果可用16比特表示。此外,如果"bbck_switching=ll"(表示级5),贝ij"bs—info"表示为32比特。换句话说,高达5级的块切换结果可用32比特指示。最后,如果"block—switching=00"(表示尚未进行块切换),则不发送"bs—info"。这表示一个声道构成一个块。分配给第二块切换信息的总比特数是基于第一块切换信息的等级值而确定的。这可能会减小最终的比特率。在下面的表1中简述第一块切换信息和第二块切换信息之间的关系。表l:块切换等级<table>tableseeoriginaldocumentpage13</column></row><table>下面,将详细描述配置(或映射)第二块切换信息(bs一info)中每个比特的的方法的一个实施例。bsjnfo字段根据上述实施方式可包括最多达4个字节。关于1级至5级的比特映射可以是[(0)12233334444444455555555555555555]。可保留第一比特以指示是独立块切换还是同步块切换,这将在后面的独立/同步块切换一节中更为详细地描述。图5(a)—5(f)示出可发生3级块切换的一个声道的不同块切换示例。因此,在这些示例中,最小块长度为NB=N/8,且bsjnfo由一个字节构成。从最大块长度NB二N开始,如果块被进一步细分,贝l』bsjnfo的比特被置位。例如,在图5(a)中,根本不存在细分,因此"bs—info"为(0)0000000。在图5(b)中,帧被细分((O)l……)而长度为N/2的第二块被进一步分((0)101……)成两个长度N/4的块;因此bs一info为(O)IOIO0000。在图5(c)中,帧被细分((O)l...),且只有长度为N/2的第一块被进一步分((O)llO...)成为两个长度为N/4的块;因此bsjnfo为(O)UOO0000。在图5(d)中,帧被细分((O)l……),长度为N/2的第一块和第二块被进一步分((0)111……)成长度为N/4的两个块,并且只有长度为N/4的第二块被进一步分((0)11101……)成长度为N/8的两个块;因此"bs—info"为(O)lll0100。如上所述,图5(e)和5(f)中的示例表示不被允许的块切换的情形,这是因为图5(e)中的N/2块和图5(f)中的第一个N/4块不可能是通过细分前一级的块来获得的。独立/同步块切换图6(a)—6(c)是根据本发明实施例的块切换的示例图。更具体地,图6(a)示出未对声道1、2和3执行块切换的示例。图6(b)示出的是其中两个声道(声道1和2)配置成一个声道对、且在声道1和声道2中同步地执行块切换的示例。在本例中还应用了交织处理。图6(c)示出的是其中两个声道(声道1和2)配置成一个声道对、且独立地对声道1和声道2执行块切换的示例。在本发明中,"声道对"指两个任意的音频声道。关于哪些声道组成声道对的决定可由编码器自动做出或由用户人工做出。(例如L和R声道、Ls和Rs声道)。在独立块切换中,尽管在所有声道中每个声道的长度可以是相同的,但可对每个声道个别地执行块切换。即,如图6(c)所示,各声道可以不同方式分成块。如果一个声道对的两个声道彼此相关并且使用差分编码,则该声道对的两个声道可被同步地进行块切换。在同步块切换中,各声道以相同方式进行块切换(即分成块)。图6(b)示出这样的一个示例,并进一步示出这些块是可以被交织的。如果声道对的两个声道彼此不相关,则差分编码并无益处,因而不需要对声道同步地进行块切换。相反,独立地切换声道可能更合适。此外,根据本发明的另一实施方式,所描述的独立或同步块切换方法可应用于声道数大于或等于3的多声道组。例如,如果该多声道组的所有声道彼此相关,则可以同步切换多声道组的所有声道。另一方面,如果多声道组的所有声道彼此不相关,则可以独立地切换多声道组的每个声道。此外,"bs—info"字段被用作指示块切换结果的信息。另外,"bs—info"字段还被用作指示对配置成声道对的每个声道是独立地执行了块切换还是同步地执行了块切换的信息。在这种情况下,如上所述,可使用"bs一info"字段中的特定比特(例如第一比特)。例如,如果声道对的两个声道彼此独立,则"bs—info"字段的第一比特被置为"l"。另一方面,如果声道对的两个声道彼此同步,则"bsjnfo"字段的第一比特被置为"0"。下面,将详细说明图6(a)、6(b)和6(c)。参照图6(a),由于没有一个声道执行块切换,因此并不生成相关的"bsjnfo"。参照图6(b),声道1和2配置成一个声道对,其中这两个声道彼此同步且同步执行了块切换。例如,在图6(b)中,声道1和声道2两者都被分割成长度为N/4的块,两者都具有相同的bs一info"bs—info=(Q)1010000"。因此,可针对每个声道对发送一个"bsjnfo",这导致比特率下降。此外,如果声道对是同步的,则声道对中的每个块会被要求彼此交织。这种交织是有益的(或有利的)。例如,一个声道对内的一个声道的块(例如图6(b)中的块1.2)对两个声道的之前的块(例如图6(b)中的块1.1和2.1)都有依赖关系,因此这些之前的块应当在当前块之前就已可用。参照图6(c),声道1和2配置成一个声道对。然而,在本例中,块切换是独立执行的。更具体地,声道l被分割成大小(或长度)达N/4的块,并且bs一info是"bs—info二(i)1010000"。声道2被分割成大小达N/2的块,并且bs—info是"bs—info二(丄)1000000"。在图6(c)所示例子中,在每个声道间独立地进行块切换,因此并不执行块之间的交织处理。换言之,对于独立地进行了块切换的声道,声道数据可单独编排。联合声道编码联合声道编码——也被称为联合立体声——可利用立体声信号的两个声道之间或多声道信号的任何两个声道之间的相关性。尽管独立地处理两个声道x"n)和X2(n)更为直接,但利用声道之间相关性的简单方法是对差分信号进行编码d(n"X2(n)—x"n)而不是对xl(n)或x2(n)进行编码。可通过对个体信号加以比较,根据哪两个信号能被最高效率地编码,在每个块中的Xi(ri)、X2(n)和d(n)之间进行切换。这种用切换的差分编码实现的预测在两个声道彼此非常相似的情形中是有利的。在多声道素材的情形中,可由编码器重新编排声道以指派合适的声道对。除了简单的差分编码,无损音频编解码器还支持更为复杂的利用多声道信号的任意声道之间的声道间冗余的方案。随机存取本发明涉及音频无损编码并能够支持随机存取。随机存取意味着对编码的音频信号任意部分的快速存取而无需浪费地对之前的各部分进行解码。这对采用压縮数据的查找、编辑或流送的应用是一个重要特征。为了实现随机存取,在随机存取单元内,编码器需要插入一个能在无需解码之前各帧的情况下进行解码的帧。插入的帧被称为"随机存取帧"。在此类随机存取帧中,没有任何来自之前各帧的采样可供用于预测。下面将详细描述根据本发明的用于实现随机存取的信息。参照配置句法(表6所示),与随机存取有关的信息作为配置信息发送。例如,"random_access"字段被用作指示是否允许随机存取的信息,它可用8比特表示。此外,如果允许随机存取,则该8比特"random—access"字段指定配置成一个随机存取单元的帧数。例如,当"random—access=00000000"时,不支持随机存取。换言之,当"random_access〉0"时,则支持随机存取。更具体地,当"random_access=00000001"时,这指示配置成随机存取单元的帧数为1。这表示在所有的帧单元中均允许随机存取。此外,当"random—access-11111111",这指示配置成随机存取单元的帧数为255。因此,"random一access"信息对应于当前随机存取单元内的随机存取帧与下一随机存取单元中的随机存取帧之间的距离。在本发明中,所述距离用帧数表达。一个32比特的"ra—unit—size"字段被包含在比特流中并且被发送。在本发明中,"ra—unit—size"字段指示以字节计的随机存取单元的大小并因此指示以字节计从当前随机存取帧到下一随机存取帧的距离。"m_unit—size"字段或者包含在配置句法(表6)中或者包含在帧数据句法(表7)中。配置句法(表6)还可包括指示"ra—unit—size"信息在比特流中的存储位置的信息。该信息被表示为2比特的"ra—flag"字段。更具体地,例如,当"ra—flag-00"时,这表示"rajnit—size"信息未存储在比特流中。当"ra—flag=01"时,这表示"ra—unit—size"信息被存储在比特流内的帧数据句法(表7)中。此外,当"ra_flag=10"时,"ra—unit—size"信息被存储在比特流的配置句法(表6)。如果"ra—unit_size"信息被包含在配置句法中,则这表示"ra—unit—size"信息只在比特流上发送一次并且被等同地应用于所有随机存取单元。或者,如果"ra—unit—size"信息包含帧数据句法中,则这表示当前随机存取单元内的随机存取帧和下一随机存取单元内的随机存取帧内之间的距离。因此,由于距离会改变,针对比特流中的每一个随机存取单元发送"ra—unit—size"信息。因此,配置句法(表6)内的"random—access"字段也可被称为第一通用消息。另外,"ra_flag"字段也可被称为第二通用消息。在本发明的这个方面中,音频信号包括配置信息和多个随机存取单元,每个随机存取单元含有一个或多个音频数据帧,所述音频数据帧中的一个是随机存取帧,其中所述配置信息包括指示诸帧中的两相邻随机存取帧之间的距离的第一通用信息、以及指示每个随机存取单元的随机存取单元大小信息被存储在哪里的第二通用信息。随机存取单元大小信息指示以字节计两相邻随机存取帧之间的距离。或者,在本发明的这个方面,一种解码音频信号的方法包括接收具有配置信息和多个随机存取单元的音频信号,每个随机存取单元含有一个或多个音频数据帧,所述音频数据帧中的一个是随机存取帧;从配置信息读取第一通用信息,所述第一通用信息指示诸帧中两相邻随机存取帧之间的距离;以及从配置信息读取第二通用信息,所述第二通用信息指示每个随机存取单元的随机存取大小信息被存储在哪里,而随机存取单元大小信息指示以字节计两相邻随机存取帧之间的距离。解码器随后访问随机存取单元大小信息并使用该信息以及第一和第二通用信息来执行对音频信号中的音频数据的随机存取。声道配置如图3所示,音频信号包括根据本发明的多声道信息。例如,每个声道可按与音频扬声器的位置一一对应的关系来映射。配置句法(下面的表6)包括声道配置信息,它被表示为16比特的"chan—eonfig—info"字段和16比特的"channels"字段。"chan—conflg—info"字段包括将声道映射到扬声器位置的信息,而16比特的"channels"字段包括指示声道总数的信息。例如,当"channels"字段等于"0"时,这表示声道对应于单声道。当"channels"字段等于"1"时,这表示这个声道对应于立体声声道中的一个。另外,当"channels"字段等于或大于"2"时,这表示这个声道对应于多声道中的一个。下面的表2示出配置成"ehan一conflgjnfo"字段的每个比特以及与之对应的各个声道的示例。更具体地,当所发送的比特流中存在相应声道时,"chan—eonfig—info"字段内的相应比特被置为"1"。或者,当所发送的比特流中不存在相应声道时,"chan一configjnfo"字段内的相应比特被置为"0"。本发明还包括指示配置句法(表6)内是否存在"chan—config—info"的信息。该信息被表示为1比特的"chan—config"标志。更具体地,"chan—config=0"指示"chan—config_info"字段不存在。而"ehan_config=1"指示"chan_config—info"字段存在。因此,当"chan—config=0"时,这表示"chan—config—info"字段不是在配置句法(表6)内新定义的。表2:声道配置<table>tableseeoriginaldocumentpage18</column></row><table>如图3所示,根据本发明的音频信号包括多个声道或多声道。因此,当执行编码时,关于配置成一帧的多声道的数目的信息以及关于每个声道的采样数的信息被插入到比特流中并被发送。参照配置句法(表6),32比特的"samples"字段被用作指示配置成每个声道的音频数据采样总数的信息。此外,16比特的"frame—length"(帧长度)字段被用作指示相应帧内每个声道的采样数的信息。此外,"frame—length"字段的16比特值是由编码器所使用的值确定的,并且被称为用户定义值。换言之,用户定义值不是固定值,而是可在编码过程中任意确定的值。例如,该值可由编码过程的用户设定。因此,在解码过程中,当通过图2所示的多路分解部件200接收到比特流时,应当首先获取每个声道的帧数。该值是根据下面所示的算法得到的。frame=samples/frame—length;rest=samples%frame—length;if(rest)frame++;frlen—last=rest;elsefrlen—last=frame—length;更具体地,每个声道的帧总数是通过将经由比特流发送的"samples"字段确定的每个声道的采样总数除以由"frame—length"字段确定的每个声道的一个帧内的采样数来计算得到的。例如,当由"samples"字段确定的采样总数恰好是由"frame—length"字段确定的每个帧内的采样数的倍数时,则该倍数值成为帧总数。然而,如果由"samples"字段确定的采样总数并非恰好是由"frame—length"字段确定的采样数的倍数,而是存在余数(或残差),则总帧数比倍数值增加"l"。此外,最末帧的采样数(frlen—last)被确定为该余数(或残差)。这表示仅最末帧的采样数与其之前的帧不同。通过如上所述地在编码器和解码器之间定义一套标准化的规则,编码器就可自由地确定并发送每个声道的采样总数("samples"字段)以及每个声道的一个帧内的采样数("frame」ength"字段)。此外,解码器可通过对所发送信息上使用上述算法而精确地确定要用于解码的每个声道的帧数。线性预测在本发明中,应用线性预测以实现无损音频编码。图1所示的预测器160包括至少一个或多个滤波器系数以从之前的采样值预测当前的采样值。随后,第二熵编码部件180对与预测值和原始值之差相对应的残差值执行熵编码。另外,应用于预测器160的每个块的预测器系数值是作为最优值从系数估算部件120选择的。此外,预测器系数值由第一熵编码部件140进行熵编码处理。已由第一熵编码部件140和第二熵编码部件180编码的数据作为比特流的一部分由多路复用部件190插入且随后被发送。下面将详细说明根据本发明的执行线性预测的方法。用FIR滤波器的预测线性预测在许多应用场合中被用于实现语音和音频信号处理。在下文中,基于有限冲激响应(FIR)滤波器描述预测器160的示例性操作。然而,本例明显不是对本发明范围的限制。时间离散信号x(n)的当前采样可根据之前的采样x(n—k)大致地预测出。预测由以下方程式给出。其中K是预测器的阶数。如果预测的采样接近原始采样,则残差如下所示它具有比x(n)本身更小的变化,因此能更有效地编码e(n)。从输入采样的片段估算预测器系数然后再对该片段进行滤波处理的程序被称为前向自适应。在这种情况下,应当发送这些系数。另一方面,如果是从之前已处理的片段或采样(例如从残差)估算系数,则称为后向自适应。后向适应程序的优点在于不需要发送系数,因为估算系数所需的数据对于解码器也是可用的。10阶左右的前向自适应预测方法被广泛地用于语音编码,并且可同样适用于无损音频编码。大多数前向自适应无损预测方案的最大阶数仍然相当小,例如K=32。一个例外是超级音频CD专用的1比特无损编解码器,它使用高达128的预测阶数。另一方面,具有几百个系数的后向自适应FIR滤波器通用于许多领域,例如声道均衡和回波抵消。这些系统大多数是基于LMS算法或其变型的,这些算法也被推荐用于无损音频编码。这类具有高阶数的基于LMS的编码方案是可行的,因为并非必须要将预测器系数作为辅助信息发送,因此它们的数目对数据速率不产生影响。然而,后向自适应的编解码器的缺点在于必须在编码器和解码器两者中作出自适应,这使解码器明显比前向自适应情况下的解码器更为复杂。向前适应预测作为本发明的示例性实施方式,前向自适应预测将作为一个示例在本文的描述中给出。在前向自适应线性预测中,一般使用自相关方法或协方差方法由系数估算部件120估算每个块的最优预测器系数hk(在残差方差最小化的意义上)。使用传统的Levinson-Durbin算法的自相关方法的额外优点是提供了一种迭代式自适应调整预测器阶数的简单方法。此外,该算法本身也计算相应的部分自相关系数。前向自适应预测的另一方面是确定合适的预测阶数。阶数增大使预测误差的方差减小,这导致残差的比特率&变小。另一方面,预测器系数的比特率Rc随着要被发送的系数的数目而提高。因此,任务是找到使总比特率最小化的最优阶数。这可通过关于预测阶数K使下面的等式最小化来表达及,。W(〖卜及e(iQ+及c(iQ,其中K是预测阶数。由于预测增益随阶数升高而单调上升,因此Re随着K值而下降。另一方面,由于要发送的系数的数目增加,因此Rc随K值单调上升。搜索最优阶数可由系数估算部件120高效率地执行,所述系数估算部件120用递归方式确定阶数递增的所有预测器。对于每个阶数,计算完整的一组预测器系数。另外,可推导出相应残差的方差oe2,从而得到残差的预期比特率的估算值。在每次迭代过程中——即针对每个预测阶数——在确定各系数的比特率的同时还可确定总比特率。最优阶数在总比特率不再减小的点找到。尽管从上述方程式可以清楚知道系数比特率对总比特率有直接的影响,但是,Rc缓慢的增长也使得Rt。^的最小值移至较高的阶数(其中Re同样较小),这可产生更好的压縮。因此,预测器系数的高效率但仍准确的量化在实现最大压縮中发挥着重要作用。预测阶数在本发明中,确定了预测阶数K,预测阶数K决定用于进行线性预测的预测器系数的数目。预测阶数K也是由系数估算部件120予以确定。在本发明中,关于所确定的预测阶数的信息被包含在比特流中并随后被发送。配置句法(表6)包括与预测阶数K有关的信息。例如,1比特至10比特的"max一order"字段对应于指示最大阶数值的信息。1比特至10比特的"max_order"字段的最大值是&=1023(例如10比特)。作为与预测阶数K有关的另一信息,配置句法(表6)包括1比特的"adapt_order"字段,它指示每个块是否存在最优阶数。例如,当"adapt—order=l"时,应当给每个块提供最优阶数。在block_data句法(表8)中,最优阶数作为1比特至10比特的"0pt_order"字段提供。此外,当"adapt—order=0"时,则不对每个块提供单独的最优阶数。在这种情况下,"max—order"字段即成为应用于所有块的最终阶数。最优阶数(opt—order)是基于max—order字段值和相应块的大小(NB)确定的。更具体地,例如当max—order被确定为K匪二10并且"adapt—order=l"时,则可考虑相应块的大小确定每个块的opt_order。在某些情况下,大于max_order(Kmax=10)的叩tjrder值是可能的。特别地,本发明涉及较高的预测阶数。根据本发明的实施方式,在没有分级块切换的情形中,在长和短的块长度之间可能是4倍因数的关系(例如4096与1024或8192与2048)。另一方面,在采用了分级块切换的实施方式中,这个因数可以提高(例如高达32),以使范围更大(例如从16384下至512或甚至在高采样率下从32768至1024)。在执行了分级块切换的实施方式中,为了更好地使用非常长的块,可采用更高的最大预测阶数。最大阶数可以是Kmax=1023。在这些实施方式中,Km^可由块长度NB界定,例如Kn^〈NB/8(例如当NB=2048时,Kmax=255)。因此,使用Kmax=1023需要至少Nb-8192的块长度。在这些实施方式中,配置句法(表6)中的"max—order"字段可高达10比特而block—data句法(表8)中的"opt_order"字段同样可高达10比特。具体块中的实际比特数可取决于一个块所允许的最大阶数。如果块是短块,则本地预测阶数可小于全局预测阶数。在本发明中,本地预测阶数是通过考虑相应块长度Nb碗定的,而全局预测阶数是通过配置句法中的"max—order"K,确定的。例如,如果Kmax=1023,但Nb:2048,则由于本地预测阶数为255,因此"opt—order"字段被确定为8比特(而不是10比特)。更具体地说,可基于下面的等式确定optorder:opt—order二min(全局预测阶数,本地预测阶数);另外,全局和本地预测阶数可通过下面的等式确定全局预测阶数二ceil(log2(最大预测阶数+1))本地预测阶数二max(ceil(log2((Nb〉>3)—1)),1)在这些实施方式中,预测了来自一个声道的细分块的数据采样。使用之前块的最末K个采样预测当前块的第一采样。K值是基于从上述方程式推导出的opt_order确定的。如果当前块是声道的第一个块,则不使用来自之前块的采样。在这种情形中,采用的是渐进阶数预测。例如,假设相应块的op^order值为K-5,则该块中的第一采样不执行预测。该块的第二采样使用该块的第一采样执行预测(如同K-1),该块的第三采样使用该块的第一采样和第二采样执行预测(如同K-2)等。因此,从第六采样开始以及对于这之后的采样,根据K=5的opt—order执行预测。如上所述,预测阶数从K二1渐进地增加至K二5。当在随机存取帧中使用时,上述渐进阶数型预测是非常有利的。由于随机存取帧对应于随机存取单元的基准帧,因此随机存取帧不是通过使用之前的帧采样执行预测。即,这种渐进预测技术在随机存取帧的开头处就可应用。预测器系数的量化上述预测器系数在图1的量化部件130中量化。由于即便很小的量化误差也会导致大大偏离最优预测滤波器所需的频谱特性,因此预测系数hk的直接量化对发送而言不是非常高效率的。为此,预测器系数的量化是基于可由系数估算部件120计算得到的部分自相关(反射)系数rk。例如,如上所述,系数估算部件120是使用传统Levinson—Durbin算法处理的。头两个部分自相关系数(相应地为Yi和Y2)通过使用下面的函数被量化<formula>formulaseeoriginaldocumentpage23</formula>而其余系数是使用简单的7比特的均匀量化器量化的在所有情况下,所得量化值ak被约束在范围[一64,63]内熵编码如图1所示,在本发明中应用了两种类型的熵编码。更具体地,第一熵编码部件140被用于编码上述预测器系数。另外,第二熵编码部件180被用来编码上述音频原始采样和音频残差采样。在下文中将详细说明这两种类型的熵编码。预测器系数的第一熵编码相关技术的Rice代码被用作根据本发明的第一熵编码方法。例如,量化系数ak的发送是通过生成残差值执行的5k=a「offsetk这些残差值进而是通过使用第一熵编码部件140——例如用Rice代码方法来编码的。该过程中使用的Rice代码的相应偏移和参数可从以下表3、4和5所示的诸组中的一个以全局方式进行选择。表索引(即2比特的"coef—table")在配置句法(表6)中指出。如果"coef_table=ll",则这表示未应用熵编码,并且量化的系数各自以7比特发送。在这种情形中,偏移始终是一64以获得被约束于的无符号值S^ak+64。相反,如果"coeff—table=00",则选择下面的表3,而如果"coeff—table=01",则选择下面的表4。最后,如果"coeff—table=10",则选择表5。当在图2的解码器中接收到这些经量化的系数时,第一熵解码部件220通过使用将残差值5k与偏移结合以生成部分自相关系数ak的量化索引的过程来重建预测器系数ak=Sk+0ffsetk其后,通过使用下面的方程式执行头两个系数(Y,和Y2)的重建-par,如Q」-r(q);Par2=j/22。」=—r(a2);其中29表示重构的系数的整数表示所需的恒量(Q=20)比例因数,而r(.)是根据经验确定的映射表(未示出,因为映射表会根据实现而变化)。因此,是根据采样频率提供用于进行第一熵编码的这三种类型的系数表。例如,采样频率可被分成48kHz、96kHz和192kHz。这里,三个表3、4、5中的每一个分别提供给每种采样频率。可对整个文件选择三个不同的表中的一个,而不是使用单个表。一般应当根据采样率来选择表。对于44.1kHz的素材,本发明的申请人推荐使用48kHz表。然而,一般而言,也可按其它准则来选择表。<table>tableseeoriginaldocumentpage24</column></row><table><table>tableseeoriginaldocumentpage25</column></row><table>表4:用于编码量化系数(96kHz)的Rice码参数<table>tableseeoriginaldocumentpage25</column></row><table><table>tableseeoriginaldocumentpage26</column></row><table><table>tableseeoriginaldocumentpage26</column></row><table><table>tableseeoriginaldocumentpage27</column></row><table>残差的第二熵编码本发明包含应用于图1的第二熵编码部件180的编码方法的两种不同的模式,这将在下面予以详细说明。在简单模式中,使用Rice代码对残差值e(n)进行熵编码。对于每个块,或者可使用同一Rice代码编码所有的值,或者可将块进一步分成四个部分,每个部分用一不同的Rice代码编码。如图1所示,发送所应用的代码的索引。由于存在不同的方法确定给定的一组数据的最优Rice代码,因此由编码器根据残差的统计结果选择合适的代码。或者,编码器可利用BGMC模式使用更为复杂和高效率的编码方案。在BGMC模式中,残差的编码是通过将分布划分成两个类别实现的。这两种类型包括属于分布的中心区域Ie(n)1<emax的残差,以及属于其尾部的残差。尾部的余数仅仅是被重新居中(re-centered)(即对于e(n)>emax,提供et(n)=e(n)—emax)并使用如上所述的Rice代码编码。然而,为了编码处于分布中心的残差,BGMC首先将残差分成LSB和MSB分量,随后BGMC使用块Gilbert_Moore(算术)代码编码MSB。最后,BGMC使用直接固定长度代码发送LSB。可以对参数em^和直接发送的LSB的数目加以选择,使它们仅些微地影响这种方案的编码效率,同时使编码的复杂度明显降低。根据本发明的配置句法(表6)和block—data句法(表8)包括与Rice代码和BGMC代码的编码有关的信息。现在对这种信息进行详细说明。配置句法(表6)首先包括一个1比特的"bgmC_mode"字段。例如,"bgmc—mode"=0表示Rice代码,"bgmc_mode"=1表示BGMC代码。配置句法(表6)还包括一个1比特的"sb_part"字段。"sb_part"字段对应于与将块分割成子块并对经分割的子块进行编码的方法有关的信息。这里,"sb_part"的意义根据"bgmc—mode"字段的值而改变。例如,当"bgmc_mode=0"时,即当应用Rice代码时,"sb_part=0"表示该块并不被分割成子块。或者,"sb_part=l"表示以1:4子块分割比分割该块。或者,当"bgmc—mode=l"时,即当采用BGMC代码时,"sb_part=0"表示以1:4子块分割比分割该块。或者,"sb_part=l"表示以1:2:4:8子块分割比分割该块。与包含在配置句法(表6)中的信息相对应的每个块的blod^data句法(表8)包括0比特至2比特的可变"ec_sub"字段。更具体地,"ec—sub"字段指示存在于实际相应块中的子块的数目。这里,"ec—sub"字段的意义根据配置句法(表6)内的"bgmC_mode"字段+"Sb_part"字段的值而变化。例如,"bgmc—mode+sb_part=0"表示Rice代码并不配置该子块。这里,"ec—sub"字段是个0比特字段,这表示不包含任何信息。除此之外,"bgmc_mode+sb_part=1"表示使用了Rice代码或BGMC代码来以1:4的比率将该块分割成若干子块。这里,只有1比特被指派给"ec_SUb"字段。例如,"ec—sub=0"指示一个子块(即该块没有分割成多个子块),而"ec_sub=l"指示配置了4个子块。此外,"bgmc_mode+sb_part=2"表示使用了BGMC代码来以1:2:4:8的比率将该块分割成若干子块。这里,2比特被指派给"ec一sub"字段。例如,"ec—sub=00"指示一个子块(即该块没有分割成多个子块),而"ec—sub=01"指示2个子块。另外,"ec一sub-10"指示4个子块,而"ec_sub=ll"指示8个子块。如上所述定义在每个块内的子块使用差分编码方法由第二熵编码部件180进行编码。下面描述使用Rice代码的一个示例。对于残差值的每个块,或者可使用同一Rice代码编码所有值,或者如果在配置句法中"sb_part"字段被设置,则该块可被分割成四个子块,每个编码的子块具有一不同的Rice代码。在后一种情况下,块数据句法(表8)中的"ec—sub"字段指示是使用一个块还是四个块。尽管第一子块的参数3[1=0]或者用4比特(分辨率《16比特)或者用5比特(分辨率〉16比特)直接发送,但仅发送下列参数s[iX)]的差分(s[i]—s[卜l])。这些差分还使用适当选择的Rice代码再行编码。在这种情况下,差分使用的Rice代码参数具有值"0"。语法根据本发明的实施方式,包含在音频位流中的各种信息的句法示出于下表中。表6示出音频无损编码的配置句法。这种配置句法可形成周期性地置于比特流中的头部,可形成每个帧的帧头等。表7示出一种帧一数据句法,而表8示出一种块一数据句法。表6:配置语法<table>tableseeoriginaldocumentpage30</column></row><table><formula>formulaseeoriginaldocumentpage31</formula>表7:Frame_data语法<table>tableseeoriginaldocumentpage31</column></row><table><table>tableseeoriginaldocumentpage32</column></row><table><formula>formulaseeoriginaldocumentpage33</formula>压縮结果下面,将无损音频编解码器与两种最流行的无损音频压縮程序——即开放式源代码编解码器FLAC和Monkey氏音频(MAC3.97)作比较。这里,开放式源代码编解码器FLAC使用前向自适应预测,而Monkey氏音频(MAC3.97)是作为压縮方面的当前技术发展水平的算法使用的后向自适应编解码器。这两种编解码器均在有提供最大压縮的选项(即flac—8和mac—c4000)的情况下运行。编码器的结果是针对中等压縮等级(其预测阶数限制于K_60)以及最大压縮等级(K_1023)来确定的,两者均具有500ms的随机存取。测试是在有1024MB内存的1.7GHz奔腾-M系统上进行的。测试包括采样率为48、96和192kHz、分辨率为16和24比特的将近1GB的立体声波形数据。压縮率下面,压縮率被定义为:〔=[(压縮的文件大小)/(原始文件大小)]*100%其中越小的值指示越好的压縮。所检査的音频格式的结果示于表9(FLAC编解码器不支持192kHz的素材)。表9:不同音频格式的平均压縮率比较(kHz/比特)<table>tableseeoriginaldocumentpage34</column></row><table>这些结果显示,最高等级的ALS在所有格式上性能都胜过FLAC和Monkey氏音频,但对于高清晰度素材(即,96kHz/24比特及以上)尤甚。即使在中间等级,ALS也提供最好的总压縮性。复杂度不同编解码器的复杂度强烈地取决于实际实现,尤其是编码器的实现。如上所述,本发明的音频信号编码器仍在发展之中。因此,我们将我们的分析限于解码器一简单的C语言代码实现而不作进一步的优化。压縮的数据由当前最佳的编码器实现生成。图IO中示出了对在不同复杂度等级上编码的各种音频格式进行实时解码所用的平均CPU负荷。即使是对于最大复杂度,解码器的CPU负荷也只在20-25%左右,这进而表示基于文件的解码比实时解码快至少4一5倍。表10:根据音频格式(kHz/比特)和ALS编码器复杂度的平均CPU负载(在1.7GHz奔腾-M上的百分比)<table>tableseeoriginaldocumentpage34</column></row><table>编解码器被设计成可提供大范围的复杂度等级。尽管最大等级以最慢编码和解码速度为代价实现最高压縮,但较快的中间等级仅些微地降低压縮性,解码的复杂度却显著地低于最大等级(即对于48kHz速材将近5。/。的CPU负荷)。使用低复杂度等级(即K—15,Rice编码)相比中间等级仅使压縮性降低1-1.5%,但解码器复杂度进一步降低3倍(即对于48kHz的素材而言低于2Q/。的CPU负荷)。因而,音频数据甚至可以在计算能力很低的硬件上完成解码。尽管编码器复杂度既会因较高的最大阶数也会因更复杂的块切换算法而增加(根据实施方式)而增大,但解码器会受到较高平均预测阶数的影响。前面的实施方式(例如分级块切换)和优点仅为示例性的,不应被解释为是对所附权利要求书的限制。本领域技术人员会明白,上述原理可应用于其它装置和方法。许多选择、修改和变化对本领域内技术人员而言是显而易见的。工业应用本领域内技术人员可以理解,可对本发明作出各种修改和变化而不脱离本发明的精神或范围。例如,本发明的诸方面和实施方式很容易在如有损音频信号编解码器等的另一种音频信号编解码器中采用。因此,本发明旨在涵盖本发明的所有这些修改和变化。权利要求1.一种处理音频信号的方法,所述方法包括将随机存取单元信息添加至包含多个随机存取单元的音频信号中,每个随机存取单元包括若干个帧且其中至少一个帧是随机存取帧,每个随机存取帧是以使得解码该随机存取帧不需要用到之前的帧的方式编码的帧,并且所述随机存取单元信息指示按字节计所述各随机存取帧中的至少两个之间的距离。2.如权利要求1所述的方法,其特征在于,所述添加步骤将所述随机存取单元信息添加至所述音频信号的配置信息中,并且所述随机存取单元信息指示按字节计连续随机存取帧之间的距离。3.如权利要求2所述的方法,其特征在于,所述随机存取单元信息指示按字节计所述随机存取单元之间的大小。4.如权利要求2所述的方法,其特征在于,还包括将第一通用消息添加至所述配置信息中,所述第一通用信息指示按帧计连续随机存取帧之间的距离。5.如权利要求4所述的方法,其特征在于,还包括将第二通用信息添加至所述配置信息中,所述第二通用信息指示所述随机存取单元信息位于所述配置信息中。6.如权利要求2所述的方法,其特征在于,还包括将位置信息添加至所述配置信息中,所述位置信息指示所述随机存取单元信息位于所述配置信息中。7.如权利要求1所述的方法,其特征在于,所述添加步骤将所述随机存取单元信息与至少一个随机存取帧相关联地添加至所述音频信号中,并且所述随机存取单元大小信息表示按字节计所述相关联的随机存取帧与下一随机存取帧之间的距离。8.如权利要求7所述的方法,其特征在于,所述随机存取单元信息表示按字节计包含所述相关联的随机存取帧的随机存取单元的大小。9.如权利要求7所述的方法,其特征在于,还包括将第一通用信息添加至所述配置信息中,所述第一通用信息指示按帧计连续随机存取帧之间的距离。10.如权利要求9所述的方法,其特征在于,还包括11.如权利要求7所述的方法,其特征在于,还包括将位置信息添加至所述配置信息中,所述位置信息指示所述随机存取单元信息与所述随机存取帧相关联地定位。12.如权利要求11所述的方法,其特征在于,所述位置信息指示所述随机存取单元信息位于所述相关联的随机存取帧的前面。13.如权利要求l所述的方法,其特征在于,所述随机存取单元信息表示按字节计一个随机存取单元的大小。14.如权利要求l所述的方法,其特征在于,还包括将第一通用信息添加至所述配置信息中,所述第一通用信息指示按帧计连续随机存取帧之间的距离。15.如权利要求14所述的方法,其特征在于,还包括将第二通用信息添加至所述配置信息中,所述第二通用信息指示所述随机存取单元信息是否是与所述随机存取帧相关联地定位和位于所述配置信息中这两者之一。16.如权利要求ll所述的方法,其特征在于,还包括将位置信息添加至所述配置信息中,所述位置信息指示所述随机存取单元信息是否是与所述随机存取帧相关联地定位和位于所述配置信息中这两者之17.—种处理音频信号的方法,所述方法包括接收具有多个随机存取单元的音频信号,每个随机存取单元包括多个帧且其中至少一个帧是随机存取帧,每个随机存取帧是以使得解码该随机存取帧不需要用到之前的帧的方式编码的帧;从所述音频信号读取随机存取单元信息,所述随机存取单元信息指示按字节计所述各随机存取帧中的至少两个之间的距离;以及基于所述随机存取单元信息解码所述各随机存取帧中的至少一个D18.如权利要求17所述的方法,其特征在于,所述读取步骤从所述音频信号的配置信息中读取所述随机存取单元信息,并且所述随机存取单元信息指示按字节计连续随机存取帧之间的距离。19.如权利要求18所述的方法,其特征在于,所述随机存取单元信息指示按字节计所述随机存取单元的大小。20.如权利要求18所述的方法,其特征在于,还包括从所述配置信息中读取第一通用信息,所述第一通用信息指示按帧计连续随机存取帧之间的距离;所述解码步骤基于所述随机存取单元信息和所述第一通用信息解码所述各随机存取帧中的至少一个。21.如权利要求20所述的方法,其特征在于,还包括从所述配置信息中读取第二通用信息,所述第二通用信息指示所述随机存取单元信息位于所述配置信息中,并且其中所述读取随机存取单元的信息步骤基于所述第二通用信息来读取所述随机存取单元信息。22.如权利要求18所述的方法,其特征在于,还包括从所述配置信息中读取位置信息,所述位置信息指示所述随机存取单元信息位于所述配置信息中;并且其中所述读取随机存取单元信息的步骤基于所述位置信息来读取所述随机存取单元信息。23.如权利要求17所述的方法,其特征在于,所述读取步骤从所述音频信号中与一相关联的随机存取帧相关联的位置读取关于该相关联的随机存取帧的随机存取单元信息,并且所述随机存取单元信息指示按字节计所述相关联的随机存取帧与下一随机存取帧之间的距离。24.如权利要求23所述的方法,其特征在于,所述随机存取单元信息指示按字节计包含所述相关联的随机存取帧的随机存取单元的大小。25.如权利要求23所述的方法,其特征在于,还包括.-从所述配置信息中读取第一通用信息,所述第一通用信息指示按帧计连续随机存取帧之间的距离;并且其中所述解码步骤基于所述随机存取单元信息和所述第一通用信息来解码至少一个随机存取帧。26.如权利要求25所述的方法,其特征在于,还包括从所述配置信息中读取第二通用信息,所述第二通用信息指示所述随机存取单元信息与所述随机存取帧相关联地定位;并且其中所述读取随机存取单元信息的步骤基于所述第二通用信息来读取所述随机存取单元信息。27.如权利要求23所述的方法,其特征在于,还包括从所述配置信息读取位置信息,所述位置信息指示所述随机存取单元信息与所述随机存取帧相关联地定位;并且所述读取随机存取单元信息的步骤基于所述位置信息来读取所述随机存取单元信息。28.如权利要求27所述的方法,其特征在于,所述位置信息指示所述随机存取单元信息位于所述相关联的随机存取帧的前面。29.如权利要求17所述的方法,其特征在于,所述随机存取单元信息指示按字节计一个随机存取帧的大小。30.如权利要求17所述的方法,其特征在于,还包括-从所述配置信息中读取第一通用信息,所述第一通用信息指示按帧计连续随机存取帧之间的距离;并且所述解码步骤基于所述随机存取单元信息和所述第一通用信息来解码所述随机存取帧中的至少一个。31.如权利要求30所述的方法,其特征在于,还包括从所述配置信息中读取第二通用信息;所述第二通用信息指示所述随机存取单元信息是否是与所述随机存取帧相关联地定位和位于所述配置信息中这两者之一;并且其中所述读取随机存取单元信息的步骤基于所述第二通用信息来读取所述随机存取单元信息。32.如权利要求17所述的方法,其特征在于,还包括从所述配置信息中读取位置信息,所述位置信息指示所述随机存取单元信息是否是与所述随机存取帧相关联地定位和位于所述配置信息中这两者之一;并且其中所述读取随机存取单元信息的步骤基于所述位置信息来读取所述随机存取单元信息。33.—种用于处理音频信号的装置,包括编码器,所述编码器被配置成将随机存取单元信息添加至含多个随机存取单元的音频信号中,每个随机存取单元包括多个帧且其中至少一个帧是随机存取帧,每个随机存取帧是以使得解码该随机存取帧不需要用到之前的帧的方式编码的帧,并且所述随机存取单元信息表示按字节计所述各随机存取帧中的至少两个之间的距离。34.—种用于处理音频信号的装置,包括解码器,所述解码器被配置成接收具有多个随机存取单元的音频信号,每个随机存取单元包括多个帧且其中至少一个帧是随机存取帧,每个随机存取帧是以使得解码该随机存取帧不需要用到之前的帧的方式编码的帧;所述解码器被配置成从所述音频信号中读取随机存取单元信息,所述随机存取单元信息指示按字节计所述各随机存取帧中的至少两个之间的距离;并且所述解码器被配置成基于所述随机存取单元信息来解码所述各随机存取帧中的至少一个。全文摘要在一个实施例中,随机存取单元信息被添加至含多个随机存取单元的音频信号。每个随机存取单元包括多个帧,并且这些帧中的至少一个为随机存取帧。每个随机存取帧是以使得解码该随机存取帧不需要用到之前的帧的方式编码的帧。随机存取单元信息指示按字节计各随机存取帧中的至少两个之间的距离。文档编号G10L19/02GK101218631SQ200680025137公开日2008年7月9日申请日期2006年7月10日优先权日2005年7月11日发明者T·利伯成申请人:Lg电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1