无损多通道音频编解码器的制作方法

文档序号:2829015阅读:534来源:国知局
专利名称:无损多通道音频编解码器的制作方法
技术领域
本发明涉及无损音频编解码器,尤其涉及具有改进的压缩性能的无损多通道音频编解码器。
背景技术
当前许多低比特率有损音频编码系统用于消费者以及专业音频重放产品和业务的宽范围。例如,杜比AC3(杜比数字)音频编码系统是一种利用高达640kbit/s的比特率,为激光盘、NTSC编码的DVD视频和ATV编码立体声和5.1通道音频声道的世界范围的标准。MPEG I和MPEG II音频编码标准被广泛用于比特率高达768kbit/s的PAL编码的DVD视频,欧洲陆地数字无线电广播和美国卫星广播的立体声和多通道声道编码。DTS(数字影院系统)相关声学音频编码系统以高达1536kbit/s的比特率经常用于光盘、DVD视频、欧洲卫星广播和激光盘的演播室质量5.1通道音频声道。
最近,许多消费者已经对这些所谓的“无损”编解码器表示兴趣。“无损”编解码器依靠压缩数据而不会丢弃任何信息的算法并产生与(数字化)的源信号相同的解码信号。这种性能的获得是以如下为代价的这种编解码器典型地需要比有损编解码器更多的带宽,并将该数据压缩到更少的程度。
图1是无损地压缩单个音频通道所涉及的操作的框图表示。尽管多通道音频中的通道通常不是独立的,这种依赖性通常很弱,并且很难估计。因此,各个通道典型地被分别压缩。然而,某些编码器将试图通过形成简单的残留信号并编码(Ch1,Ch1-CH2)来消除相关性。更为复杂的方法采用,例如,通道尺寸上的几个连续的正交投影步骤。所有的技术都是基于首先从信号中去除冗余,然后以有效的数字编码方案编码所产生的信号的原理。无损编码器包括MPL(DVD Audio),Monkey’s audio(计算机应用)、Apple lossless、Windows MediaProlossless、Audiopak、DVD、LTAC、MUSICcompress、OggSquish、Philips、Shorten、Sonarc和WA。对于多种这些编解码器的评论由Mat Hans、Ronald Schafer的“Lossless Compression of DigitalAudio”Hewlett Packard,1999年提供。
引入成帧10以便为可编辑性作准备,数据的绝对量禁止重复解压要被编辑的区域之前的全部信号。音频信号被划分成相等持续时间的独立的帧。该持续时间不应太短,因为可能从每个帧前缀的头部产生大量的开销。相反地,帧持续时间不应该太长,因为这将限制时间自适应性并使编辑更难。在许多应用中,帧尺寸受到其上传送音频的媒介的峰值比特率、解码器的缓冲能力,以及使每帧独立可解码的愿望的限制。
通道内解相关(即去相关)12通过对帧内每个通道中的音频采样解相关来去除冗余。大多数算法通过某种类型的信号线性预测建模来去除冗余。在这种方法中,将线性预测器应用于每帧中的音频采样,导致一系列预测误差采样。第二种不常用的方法是获得信号的低比特率量化或有损表示,并接着无损地压缩有损版本和原始版本之间的差异。熵编码14从来自残留信号的误差中去除冗余而不会丢失任何信息。典型的方法包括霍夫曼编码,行程长度编码和赖斯(Rice)编码。该输出是可能被无损地重建的压缩信号。
现有的DVD规格和初级HD DVD规格对一个数据存取单元的尺寸设置了硬性限制,其代表一旦提取就能被完全解码的音频流的一部分,以及发送到输出缓冲器的重建的音频采样。对于无损流其含意是,每个存取单元可以代表的时间量必须足够小,以至于峰值比特率的最坏情况,编码净荷不超过该硬性限制。由于采样率增大和通道数量增加,这样就增大了峰比特率,持续时间必须缩短。
为了保证兼容性,这些现有的编码器需要将整个帧的持续时间设置得足够短,以不超出最坏情况的通道/采样频率/比特宽度配置中的硬性限制。在大多数配置中,这将是不必要的过度行动并可能严重地劣化压缩性能。此外,这种最坏情况的方法不会随通道的增加而很好地变化(scale)。

发明内容
本发明提供了一种无损音频编解码器,其中在对每个独立可解码的数据单位的最大尺寸限制下优化压缩性能。
无损音频编解码器将每帧内的音频数据分段,以改善在每个片段必须完全可解码并小于最大尺寸的约束条件下的压缩性能。对于每帧而言,编解码器选择片段持续时间和编码参数,例如,用于每个片段的特定熵编码器和其参数,其将受到该约束的整个帧的编码净荷降至最小。可以为每个通道选择不同的编码参数集,或者为所有通道选择全局性编码参数集。可以通过为M-通道音频形成M/2解相关通道来进一步增强压缩性能。通道的三重组(基准、相关、解相关)提供了可以在分段和熵编码优化期间考虑的两种可能的成对组合(基准、相关)和(基准、解相关)以进一步提高压缩性能。通道对可以是每段指定或每帧指定。
在一个示例性的实施例中,编码器将音频数据成帧并随后提取包含基准通道和相关通道的有序通道对,并生成解相关通道以形成至少一个三重组(基准、相关、解相关)。如果通道的数量是奇数,则处理一个额外的基准通道。对每个通道应用自适应或固定多项式预测以形成残留信号。
编码器通过首先将帧分割成具有最小持续时间的最大数量的片段,确定片段持续时间、该帧的通道对((基准、相关)或(基准、解相关)),以及每个片段的编码参数集(熵代码选择和参数)。通过计算用于一个或多个熵编码器(二进制、赖斯、霍夫曼,等等)的参数,并为每个片段选择每个通道(基准、相关、解相关)具有最小编码净荷的编码器和参数来确定用于当前分割的最佳编码参数。对于每个三重组,选择具有最小编码净荷的通道对(基准、相关)或(基准、解相关)。利用所选择的通道对,可以为全部通道上的每个片段确定全局性编码参数集。编码器基于哪个具有最小总编码净荷(头部和音频数据)来选择全局性编码参数集或不同的编码参数集。
一旦已经确定了用于当前分割的编码参数集和通道对的最佳集,编码器计算所有通道上的每个片段中的编码净荷。假定满足对最大片段尺寸的约束条件,则编码器确定用于当前分割的整个帧的总编码净荷是否小于用于较早分割的当前最佳。如果是,则存储编码参数和编码净荷的当前集并且增大片段持续时间。该过程重复直到片段尺寸打破了最大尺寸约束条件或者片段持续时间增长至帧持续时间。编码器(利用所选择的熵编码器和参数)对所选择的通道对和所有不成对的通道的每个音频通道中的残留信号熵编码。
通过参照附图对以下优选实施例的详细描述,本发明的这些和其它特性和优点对于本领域的技术人员将是显而易见的。


图1,如上所述,是用于标准无损音频编码器的框图;图2a和2b是根据本发明的无损音频编码器和解码器各自的框图;图3是有关分段和熵代码选择的头部信息的示意图;图4a和4b是分析窗口处理和逆向分析窗口处理的框图;图5是交叉通道解相关的流程图;图6a和6b是自适应预测分析和处理以及逆向自适应预测处理的框图;图7a和7b是最佳分段和熵代码选择的流程图;
图8a和8b是用于通道集的熵代码选择的流程图;以及图9a和9b是核心加无损扩展编解码器的框图。
具体实施例方式
本发明提供了一种无损音频编解码器,其中在对每个独立可解码的数据单位的最大尺寸约束条件下优化压缩性能。音频编码器随多通道音频中的通道数量的增加而进行调节。
无损音频编解码器如图2a和2b所示,除了分段和熵代码选择之外,基本的操作功能块类似于现有无损编码器和解码器。多通道PCM音频20经受分析窗口处理22,其将数据分块为固定持续时间的帧并通过解相关帧内每个通道中的音频采样来去除冗余。代替直接对残留信号熵编码,本发明执行最佳分段和熵代码选择处理24,其将数据分段成多个片段并为每个片段确定段持续时间和编码参数,例如,选择特定熵编码器和其参数,使受到每个片段必须完全可解码并小于最大尺寸的约束的整个帧的编码净荷最小化。编码参数集被优化用于每个不同通道,也可以被优化用于全局性编码参数集。每个片段随后根据其不同的编码参数集被熵编码26。编码数据和头部信息被打包28到比特流30中。
如图3所示,头部32包括除了正常为无损编解码器提供的以外的附加信息,以实现分段和熵代码选择。具体而言,该头部包括诸如片段数量(NumSegments)和每个片段中的采样数量(NumSamplesInSegm)的通用头部信息34,诸如量化解相关系数(QuantChDecorrCoeff[][])的通道集头部信息36和诸如用于通道集的当前片段中的字节数量(ChSetByteCOns),指示是否使用了赖斯或二进制编码的全局优化标记(AllChSameParamFlag)和熵编码器标记(RiceCodeFlag[],CodeParam[])以及编码参数的片段头部信息38。
如图2b所示,为了执行解码操作,比特流30被拆包40以提取头部信息和编码的数据。根据分配的编码参数对每个通道的每个片段执行熵解码42以无损地重建残留信号。这些信号随后经受逆向分析窗口处理44,其执行逆向预测以无损地重建原始PCM音频20。
分析窗口处理如图4a和4b所示,分析窗口处理22的示例性实施例或从自适应预测46选择或从固定多项式预测48选择以便解相关每个通道,这是一个相当普通的方法。如同将参照图6所详细描述的,为每个通道估计最佳预测器级数。如果该级数大于0,则应用自适应预测。否则使用更简单的固定多项式预测。类似地,在解码器中,逆向分析窗口处理44要么从逆向自适应预测50选择,要么从逆向固定多项式预测52选择,以从残留信号重建PCM音频。该自适应预测器级数和自适应预测系数索引以及固定预测器级数被打包53到通道集头部信息中。
交叉-通道解相关根据本发明,通过实现根据通道之间的相关测量将M个输入通道排序成通道对的交叉通道解相关54,可以进一步增强压缩性能。其中一个通道被指定为“基准”通道,而另一个被指定为“相关”通道。为每个通道对生成解相关通道以形成“三重组”(基准、相关、解相关)。三重组的形成提供了两种可能的成对组合(基准、相关)和(基准、解相关),其可以在分段和熵编码优化期间被考虑以进一步提高压缩性能(参见图8a)。一种更简单但是较低效率的方法将以解相关通道代替相关通道,例如,如果其方差较小的话。
原始M-ch PCM 20和M/2-ch解相关PCM 56都被向前转发到为每个通道生成残留信号的自适应预测和固定多项式预测运算。如图3所示,在图3的通道集头部36中存储指示在成对解相关过程期间执行的排序之前的通道原始顺序的索引(OrigChOrder[])以及指示用于量化解相关系数的代码的存在的、每个通道对的标记PWChDecorrFlag[]。
如图4b所示,为了执行逆向分析窗口处理44的解码操作,头部信息被拆包58,并且根据头部信息,即每个通道的自适应和固定预测器级数,残留要么通过逆向固定多项式预测52,要么通过逆向自适应预测50。M-通道解相关PCM音频(M/2通道在分段期间被丢弃)通过逆向交叉通道解相关60,其从通道集头部读取OrigChOrder[]索引和PWChDecorrFlag[]标记,并且无损地重建M-通道PCM音频20。
图5示意了用于执行交叉通道解相关54的一个实例性过程。举例来说,PCM音频被提供为M=6个不同通道L、R、C、Ls、Rs和LFE,其也直接对应于存储在帧中的一个通道集配置。其它通道集例如可以是左中后环绕和右中后环绕,以产生7.1环绕音频。该过程是通过启动一个帧环路和启动一个通道集环路开始的(步骤70)。计算对于每个通道的零滞后自相关估计(步骤72)和对于通道集中通道对的所有可能组合的零滞后交叉相关估计(步骤74)。其次,将通道成对相关系数CORCOEF估计为,零滞后交叉相关估计除以该通道对中包括的通道的零滞后自相关估计的乘积(步骤76)。CORCOEF按照从最大绝对值到最小绝对值排序并存储在表格中(步骤78)。从表格的顶部开始,提取对应的通道对索引直到所有通道对都被配置(步骤80)。例如,这6个通道可以基于它们的CORCOEF被配对为(L,R),(Ls,Rs)和(C,LFE)。
该过程启动一个通道对环路(步骤82),并选择一个“基准”通道作为具有较小零滞后自相关估计的通道,较小零滞后自相关估计是较低能量的指示(步骤84)。在这个实例中,L,Ls和C通道形成基准通道。通道对解相关系数(ChPairDecorrCoeff)被计算为零滞后交叉相关估计除以基准通道的零滞后自相关估计(步骤86)。通过将基准通道采样与CHPairDecorrCoeff相乘并从相关通道的对应采样减去该结果来生成解相关通道(步骤88)。通道对和其相联系的解相关通道定义了“三重组”(L,R,R-ChPairDecorrCoeff[1]*L),(Ls,Rs,Rs-ChPairDecorrCoeff[2]*Ls),(C,LFE,LFE-ChPairDecorrCoeff[3]*C)(步骤89)。用于每个通道对(以及每个通道集)的ChPairDecorrCoeff[]和定义该对配置的通道索引被存储在通道集头部信息中(步骤90)。该过程对于帧内的每个通道集重复,然后对窗口化PCM音频中的每帧重复(步骤92)。
自适应预测自适应预测分析和残留生成线性预测试图去除音频信号的采样之间的相关性。线性预测的基本原理是利用先前的采样s(n-1),s(n-2),...来预测采样值s(n)的值以及从原始采样s(n)中减去预测值 。合成的残留信号e(n)=s(n)+s^(n)]]>在理想情况下将是非相关的并因此具有平坦的频谱。另外,残留信号将具有更小的方差,于是该原始信号则暗示其数字表达式需要更少的比特。
在音频编解码器的一个示例性实施例中,由以下公式描述FIR预测器模型e(n)=s(n)+Q{Σk=1Mak*s(n-k)}]]>其中,Q{}表示量化操作,M表示预测器级数,而ak是量化的预测系数。由于原始信号是利用各种有限精度处理器体系结构在解码侧重建的,因此特殊量化Q{}是无损压缩所必需的。Q{}的定义对于编码器和解码器都是可用的,并且通过下式可以简单地获得原始信号的重建s(n)=e(n)-Q{Σk=1Mak*s(n-k)}]]>在此假定相同的ak量化预测系数对于编码器和解码器都是可用的。每个分析窗口(帧)发送一组新的预测器参数,从而允许预测器适应于时间变化的音频信号结构。
设计上述的预测系数以将均方预测残留降至最小。量化Q{}使预测器为非线性预测器。然而,在该示例性实施例中,该量化是以24位的精度完成的,而且假定在预测器系数优化期间可以忽略由此产生的非线性效应是合理的。通过忽略量化Q{},潜在的优化问题可以被表示为包括信号自相关序列的滞后和未知预测器系数的一组线性方程式。这组线性方程式可以利用Levinson-Durbin(LD)算法来有效地解出。
由此产生的线性预测系数(LPC)需要被量化,以便它们可以有效地在编码流中发送。遗憾的是,由于小的量化误差可能引起大的频谱误差,LPC的直接量化不是最有效的方法。LPC的一个可选表达式是反射系数(RC)表达式,其对量化误差显现较小的灵敏度。还可以通过LD算法获得这种表达式。通过定义LD算法,保证RC具有量值≤1(忽略数值误差)。当RC的绝对值接近1时,对出现在量化的RC中的量化误差的线性预测的灵敏度变高。解决办法是以围绕单位(unity)的更精细量化级执行RC的非均匀量化。这可以通过两个步骤来完成1)将RC变换为log-area比(LAR)借助映射函数表示LAR=log1+RC1-RC]]>在此,log表示自然底对数。
2)对LAR均匀量化RC->LAR变换歪曲了参数的幅度比例,使得步骤1和2的结果等效于具有围绕单位(unity)的更精细量化级的非均匀量化。
如图6a所示,在自适应预测分析的示例性实施例中,量化的LAR参数用于表示自适应预测器参数并在编码比特流中发送。每个输入通道中的采样被相互独立地处理,因此该说明书将仅仅考虑在单个通道中的处理。
第一步骤是计算分析窗口(帧)的持续时间内自相关序列(步骤100)。为了将由帧边界处的间断性引起的阻塞效应降至最小,数据首先被窗口化。从窗口化的数据块估计指定数量(等于最大LP级数+1)的滞后的自相关序列。
Levinson-Durbin(LD)算法被应用于该组估计的自相关滞后和该组反射系数(RC),直到计算出最大LP级数(步骤102)。(LD)算法的中间结果是对于高达最大LP级数的每个线性预测级数,预测残留的一组估计方差。在下一个功能块中,利用该组残留方差,选择线性预测器(PrOr)级数(步骤104)。
对于所选择的预测器级数,利用以上陈述的映射函数将该组反射系数(RC)变换成该组log-aria比参数(LAR)(步骤106)。在变换之前引入RC的极限以防止除0 在此,Tresh表示接近但小于1的数。根据以下规则量化LAR参数(步骤108) 在此,QLARInd表示量化的LAR索引,x指示找到小于或等于x的最大整数值的运算,而q表示量化级大小。在该示例性实施例中,利用8比特编码区域-8至-8」,即,q=2*828,]]>因此QLARInd根据下式被限定 在打包之前(步骤110),利用以下映射将QLARInd从有符号值转换成无符号值PackLARInd=2*QLARInd∀QLARInd≥02*(-QLARInd)-1∀QLARIn<0]]>在“RC LUT”功能块中,在单个步骤中利用查找表完成LAR参数的逆向量化和对RC参数的转换(步骤112)。查找表由逆向RC->LAR映射(即由下式给出的LAR->RC映射)的量化值组成RC=eLAR-1eLAR+1]]>以等于0、1.5*q、2.5*q、...127.5*q的LAR的量化值计算查找表。对应的RC值,在以216比例换算后,被四舍五入为16比特的无符号整数,并被存储作为128个条目的表中Q16个无符号的固定点数。
量化的RC参数从该表中计算,且量化LAR索引QLARInd为QRC=TABLE[QLARInd]∀QLARInd≥0-TABLE[-QLARInd]∀QLARInd<0]]>根据以下算法,量化的RC参数QRCordfor ord=1、...PrOr被转换成量化的线性预测参数(LPordfor ord=1、...PrOr)(步骤114)For ord=0 to PrOr-1doForm=1 to ord doCord+1,m=Cord,m+(QRCord+1·Cord.ord+1,m+(1<<15))>>16endCord+1,ord+1=QRCord+1endForord=0to PrOr-1doLPord+1=CPrOr,ord+1end由于量化的RC系数是以Q16有符号的固定点格式表示的,以上算法还将以Q16有符号的固定点格式生成LP系数。设计无损解码器计算路径以支持多达24比特的中间结果。因此需要在计算每个Cord+1,m之后执行饱和检查。如果饱和发生在该算法的任何阶段,则设置饱和标记并且自适应预测器级数PrOr,对于特殊通道,被复位为0(步骤116)。对于PrOr=0的该特殊通道,将执行一个固定系数预测而不是自适应预测(参见固定系数预测)。注意,无符号的LAR量化索引{PackLARInd[n] for n=1,...PrOr[Ch]}被打包成仅用于PrOr[ch]>0的通道的编码流。
最后对于PrOr>0的每个通道,执行自适应线性预测,并且根据下式计算预测残留e(n)(步骤118)s(n)‾=[{Σk=1PrOrLRk*s(n-k)}+(1<<15)]>>16]]>Limits(n)‾to24-bitrange(-223to223-1)]]>e(n)=s(n)+s(n)‾]]>Llmif e(n)to 24-bit range(-223to223-1)for n=PrOr+1,...NamSamplInFrame
由于该示例性实施例中的设计目标是每个帧是“随机存取点”,采样历史不会在帧之间延续。取而代之的是,仅在该帧中的PrOr+1采样处进行预测。
自适应预测残留e(n)被进一步熵编码并被打包成编码的比特流。
解码侧的逆向自适应预测在解码侧,执行逆向自适应预测的第一步骤是将头部信息拆包并提取用于每个通道Ch=1,...NumCh的自适应预测级数PrOr[Ch](步骤120)。接下来,对于PrOr[Ch]>0的通道,提取LAR量化索引(PackLARInd[n]for n=1,...PrOr[Ch])的无符号版本。对于具有预测级数PrOr[Ch]>0的每个通道Ch,利用以下映射将无符号的PackLARInd[n]映射为有符号的值QLARInd[n]QLARInd[n]=PackLARInd[n]>>1∀evennumberedPackLARInd[n]-(PackLARInd[n]>>1)-1∀oddnumberedPackLARInd[n]]]>for n=1,...,PrOr[Ch]在此,>>表示整数右移运算。
在单个步骤中利用Quant RC LUT完成LAR参数的逆向量化和对RC参数的转换(步骤122)。它是与在编码侧定义查找表的相同的查找表TABLE{}。通过TABLE{}和量化LAR索引QLARInd[n]计算对于每个通道Ch(QRC[n] for n=1,...PrOr[Ch])的量化反射系数QRC[n]≡TABLE[QLARInd[n]]∀QLARInd[n]≥0-TABLE[-QLARInd[n]]∀QLARInd[n]<0]]>for n=1,...,PrOr[Ch]对于每个通道Ch,根据以下算法,量化的RC参数QRCordfor ord=1,...PrOr[Ch]被转换成量化的线性预测参数(LPordfor ord=1,...PrOr[Ch])(步骤124)
For ord=0 to PrOr-1doFor m=1 to ord doCord+1,m=Cord,m+(QRCord+1*Cord,ord+1,m+(1<<15))>>16endCord+1,ord+1=QRCord+1endForord=0 to PrOr-1doLPord+1=CPrOr,ord+1end中间结果的任何饱和可能性在编码侧被去除。因此在解码侧,在计算每个Cord+1,m之后不需要执行饱和检查。
最后对于Pror[Ch]>0的每个通道,执行逆向自适应线性预测(步骤126)。假设预测残留e(n)被预先提取并被熵解码,根据下式计算重建原始信号s(n)s(n)‾=[{Σk=1PrOr[Ch]LPk*s(n-k)}+(1<<15)]>>16]]>Limits(n)‾to24-bitrange(-223to223-1)]]>e(n)=s(n)-s(n)‾]]>forn=PrOr[Ch]+1,...NamnSamplInFrame由于采样历史没有在帧之间被保持,逆向自适应预测将从该帧中的(PrOr[Ch]+1)采样开始。
固定系数预测已经发现线性预测器的一种非常简单的固定系数格式会非常有用。该固定预测系数是根据由Shorten首先提出的非常简单的多项式近似方法得出的(T.Robinson.SHORTENSimple lossless and nearlossless waveform compression.Technical report 156.CambridgeUniversity Engineering Department Trumpington Street,CambridgeCB2 1PZ,UK December 1994)。在这种情况下,预测系数是那些通过将一个P阶多项式提供给最后P个数据点指定的预测系数。在以下四个近似式上展开
s^0[n]=0]]>s^1[n]=s[n-1]]]>s^2[n]=2s[n-1]-s[n-2]]]>s^3[n]=3s[n-1]-3s[n-2]+s[n-3]]]>这些多项式近似的有趣特性是,最终产生的残留信号ek[n]=s[n]-s^k[n]]]>可以以下列递归方式有效地实现。
e0[n]=s[n]e1[n]=e0[n]-e0[n-1]e2[n]=e1[n]-e1[n-1]e3[n]=e2[n]-e2[n-1]…固定系数预测分析以每帧为基础应用,并且不依赖在先前帧(ek[-1]=0)中计算的采样。在整个帧内具有最小和数量值的残余集被定义为最佳近似值。为每个通道分别计算最佳残留级并将其打包成流作为固定预测级(FPO[Ch])。当前帧内的残留eFPO[Ch][n]被进一步熵编码并打包成流。
反向固定系数预测处理,在解码侧,通过顺序递归公式定义,用于在采样时刻n计算k阶残留ek[n]=ek+1[n]+ek[n-1]在此,期望的原始信号s[n]通过下式给出s[n]=e0[n]并且在此对于每个k阶残留,ek[-1]=0。
举例来说,提供用于第3级固定系数预测的递归,在此残留e3[n]被编码,以流发送并在解码侧被拆包e2[n]=e3[n]+e2[n-1]e1[n]=e2[n]+e1[n-1]e0[n]=e1[n]+e0[n-1]s[n]=e0[n]分段和熵代码选择图7和8示意了分段和熵代码选择24的一个示例性实施例。为了设定最佳片段持续时间、编码参数(熵代码选择&参数)和通道对,为多个不同的片段持续时间确定编码参数和通道对,并且在那些候选对象中,选择每帧具有最小编码净荷、且满足每个片段必须独立可解码并不超过最大尺寸的约束条件的一个候选对象。“最佳”分段、编码参数和通道对自然受到编码处理的约束以及对片段尺寸的约束。例如,在该示例性的处理中,帧内所有片段的持续时间相等,在并矢格栅上执行对最佳持续时间的检索,并且通道对选择在整个帧上都是有效的。以额外的编码器复杂性和开销比特为代价,可以允许持续时间在帧内变化,可以更好地解决对最佳持续时间的检索,并且可以基于每片段完成通道对选择。
该示例性的处理是以初始化诸如片段内的采样的最小数量、片段的最大允许尺寸、片段的最大数量和分割的最大数量的片段参数开始的(步骤150)。此后,该处理启动一个分割环路,其索引是从0到分割的最大数量减1(步骤152),并且初始化包含片段数量、片段内的采样数量和在分割内消耗的字节数量的分割参数(步骤154)。在该特殊实施例中,这些片段具有相等的持续时间,并且片段的数量随着每次分割迭代换算为二次幂,片段的数量优选被初始化为最大值,因此初始化为最小的持续时间。然而,该处理可以使用持续时间变化的片段,其可能提供更好的音频数据压缩,但是以额外的开销为代价。此外,片段的数量不限于二次幂或者从最小到最大持续时间的检索。
一旦初始化,该处理启动一个通道集环路(步骤156),并为每个片段以及对应的字节消耗确定最佳熵编码参数和通道对选择(步骤158)。编码参数PWChDecorrFlag[][]、AllChSameParamFlag[][]、RiceCodeFlag[][][]、CodeParam[][][]和ChSetByteCons[][]被存储(步骤160)。对于每个通道集重复该处理,直到通道集环路结束(步骤162)。
该处理启动一个片段环路(步骤164),并计算所有通道集内每个片段中的字节消耗(SegmByteCons)(步骤166)并更新字节消耗(ByteConsInPart)(步骤168)。在该点处,将片段的尺寸与最大尺寸约束相比较(步骤170)。如果该约束被打破,则丢弃当前分割。此外,由于该处理是以最小持续时间开始的,一旦片段尺寸太大,则分割环路终结(步骤172)且对于该点的最佳解决办法(持续时间、通道对、编码参数)被打包到头部内(步骤174)并且该处理转至下一帧。如果对最小片段上尺寸的约束失败(步骤176),则由于不能满足最大尺寸约束,该处理终结并报告一个错误(步骤178)。假定满足该约束,则对于当前分割内的每个片段重复该处理直到片段环路结束(步骤180)。
一旦片段环路已经完成,且整个帧的字节消耗被计算为由ByteConsinPart表示,该净荷与来自先前分割迭代的当前最小净荷(MinByteInPart)相比较(步骤182)。如果当前分割表示一个改进,那么当前分割(PartInd)被存储作为最佳分割(OptPartind)并且更新最小净荷(步骤184)。这些参数和所存储的编码参数随后被存储作为当前最佳解决方案(步骤186)。这将重复一直到分割环路结束(步骤172),如图3所示,在该点分段信息和编码参数被打包到头部中(步骤150)。
图8a和8b示意了用于为当前分割的通道集确定最佳编码参数和相关比特消耗的一个示例性实施例(步骤158)。该处理启动一个分段环路(步骤190)和通道环路(步骤192),其中用于我们当前实例的通道是Ch1L,Ch2RCh3R-ChPairDecorrCoeff[1]*LCh4LsCh5RsCh6Rs-ChPairDecorrCoeff[2]*LsCh7CCh8LFE
Ch9LFE-ChPairDecorrCoeff[3]*C)该处理为基准和相关通道确定熵代码的类型,对应的编码参数和对应的比特消耗(步骤194)。在这个实例中,该处理计算用于二进制代码和赖斯代码的最佳编码参数,然后为通道和每个片段选择具有最低比特消耗的一个(步骤196)。通常,可以对一个、两个或多个可能的熵代码进行优化。对于二进制代码,从当前通道的片段中的所有采样的最大绝对值计算比特数量。从当前通道的片段中的所有采样的平均绝对值计算赖斯编码参数。基于该选择,设置RiceCodeFlag,设置BitCons,并设置CodeParam为NumBitsBinary或RiceKParam(步骤198)。
如果被处理的当前通道是相关通道(步骤200),则对对应的解相关通道重复相同的优化(步骤202),选择最佳熵代码(步骤204)并且设置编码参数(步骤206)。该处理重复直到通道环路结束(步骤208)和片段环路结束(步骤210)。
在该点处,已经确定用于每个片段和用于每个通道的最佳编码参数。可以为通道对(基准、相关)从原始PCM音频返回这些编码参数和净荷。然而,可以通过在三重组中的(基准、相关)和(基准、解相关)通道之间进行选择来提高压缩性能。
为了确定哪个通道对(基准、相关)或(基准、解相关)用于三个三重组,启动一个通道对环路(步骤211),并计算每个相关通道(Ch2、Ch5和Ch8)和每个解相关通道(Ch3、Ch6和Ch9)对总帧比特消耗的贡献(步骤212)。将对每个相关通道作贡献的帧消耗贡献与对对应的解相关通道作贡献的帧消耗贡献相比较,即,Ch2对Ch3,Ch5对Ch6,以及Ch8对Ch9(步骤214)。如果解相关通道的贡献大于相关通道,则设置PWChDecorrFlag为假(步骤216)。否则,以解相关通道代替相关通道(步骤218)并且设置PWChDecorrFlag为真,而且通道对被配置为(基准、解相关)(步骤220)。
基于这些比较,该算法将选择
1.Ch2或Ch3作为将与对应的基准通道Ch1成对的通道;2.Ch5或Ch6作为将与对应的基准通道Ch4成对的通道;以及3.Ch8或Ch9作为将与对应的基准通道Ch7成对的通道。
这些步骤对所有的通道对重复直到该环路结束(步骤222)。
在该点处,已经确定了用于每个片段和每个不同通道以及最佳通道对的最佳编码参数。用于每个不同的通道对和净荷的这些编码参数可以被返回到分割环路。然而,通过为所有通道上的每个片段计算一个全局性编码参数集可得到附加的压缩性能。最好,净荷的编码数据部分将与对每个通道优化的编码参数具有相同的尺寸,并且很有可能稍大。然而,开销比特的减少可能大于对数据编码效率的抵消。
利用相同的通道对,该处理启动一个片段环路(步骤230),利用不同的编码参数集为所有通道计算每个片段的比特消耗(ChSetByteCons[seg])(步骤232)并存储ChSetByteCons[seg](步骤234)。随后利用与之前的非用于所有通道的相同的二进制代码和赖斯代码计算,为所有通道的片段确定全局性编码参数(熵代码选择和参数)集(步骤236)。选择最佳参数,并且计算字节消耗(SegmByteCons)(步骤238)。将SegmByteCons与CHSetByteCons[seg]相比较(步骤240)。如果利用全局参数没有减少比特消耗,则将AllChSamParamFlag[seg]设置为假(步骤242)。否则,将AllChSameParamFlag[seg]设置为真(步骤244),并且保存全局编码参数和对应的每片段比特消耗(步骤246)。该过程重复直至片段环路的结束(步骤248)。整个处理重复直到通道集环路终结步骤250。
编码处理是以可以通过少数标记的控制来禁用不同的功能的方式来构建的。例如,一个单个标记控制是否执行成对通道解相关分析。另一个标记控制是否执行自适应预测(还有另一个标记用于固定预测)分析。另外,单个标记控制是否执行所有通道上的全局参数的检索。通过设置分割的数量和最小片段持续时间(在最简单的形式下,可以是具有预定片段持续时间的单个分割),分段也是可以控制的。本质上,通过在编码器中设置少量标记,该编码器可以破坏简单成帧和熵编码。
后向兼容无损音频编解码器无损编解码器可以用作与有损核心编码器结合的“扩展编码器”。“有损”核心代码流被打包为核心比特流,而无损编码的差分信号被打包为分离的扩展比特流。一旦在具有扩展的无损特性的解码器中解码,有损和无损流被合并以构建无损重建信号。在前一代解码器中,无损流被忽略,并且核心“有损”流被解码以提供具有核心流的带宽和信噪比特性的高质量、多通道音频信号。
图9示出了用于多通道信号的一个通道的后向兼容无损编码器400的系统级视图。在输入端402提供数字化的音频信号,适当的为M比特的PCM音频采样。优选地,数字化的音频信号具有超出修正的有损核心编码器404的采样率和带宽。在一个实施例中,数字化音频信号的采样率是96kHz(对应于采样音频的48kHz的带宽)。还应当理解的是,输入音频可以以及优选为多通道信号,其中每个通道以96kHz采样。下面将集中讨论单个通道的处理,但是扩展到多通道是直接了当的。输入信号在节点406被复制,并且在并行分支中被处理。在信号路径的第一个分支中,一个修正的有损、宽带编码器404编码该信号。在下面详细描述的修正的核心编码器404产生编码核心比特流408,其被传送到打包器或复用器410。核心比特流408还被传送到修正的核心解码器412,该核心解码器产生修正的重建核心信号414作为输出。
同时,并行路径中的输入数字化音频信号402经历补偿延迟416,该补偿延迟基本上等于(通过修正的编码器和修正的解码器)引入到重建音频流中的延迟,以产生延迟的数字化音频流。在加法节点420从延迟的数字化音频流414减去音频流400。求和节点420产生表示原始信号和重建核心信号的差分信号422。为了完成纯“无损”编码,需要以无损编码技术编码和发送该差分信号。因此,用无损编码器424编码差分信号422,并在打包器410中将扩展比特流426与核心比特流408打包,以产生输出比特流428。
注意,无损编码产生可变比特率的扩展比特流426,以适应无损编码器的需要。被打包的流随后任选地经过包括通道编码的编码的其它层,并且随后被发送或记录。注意,为了本公开内容的目的,记录可以被认为是通过通道传输的。
核心编码器404被描述为“修正的”,这是因为在能够处理扩展带宽的实施例中,核心编码器将需要修正。编码器内的64-频带分析滤波器组430丢弃其输出数据432的一半,并且核心子带编码器434仅仅编码较低的32个频带。这个丢弃的信息对于在任何情况下都不能重建信号谱上半部分的传统解码器而言是不涉及的。剩余信息经由未修正的编码器编码以形成后向兼容的核心输出流。然而,在以48kHz或低于48kHz的采样率工作的另一个实施例中,核心编码器可以是现有核心编码器的基本上未修正的版本。类似地,为了在上述的传统解码器的采样率以上工作,修正的核心解码器412包括以较低的32个子带解码采样的核心子带解码器436。修正的核心解码器从较低的32个子带取出子带采样,并且对于较高的32个频带438使未发送的子带采样归零,并且利用64-频带QMF合成滤波器440重建所有的64个频带。为了以常规采样率(例如,48kHz和48kHz以下)操作,核心解码器可以是现有核心解码器的基本上未修正版本或等效物。在一些实施例中,可以在编码时选择采样率,并且如同期望的那样,在那时通过软件重新配置编码和解码模块。
由于无损编码器将被用于编码差分信号,似乎简单的熵编码就足够了。然而,由于对现有有损核心编解码器的比特率限制,仍然需要大量的总比特以提供无损比特流。此外,由于核心编解码器的带宽限制,该差分信号中的24kHz以上的信息内容仍然相关。例如,大量的谐波成分,包括喇叭、吉他、三角铁..,远远超过30kHz。因此更为成熟的提高了压缩性能的无损编解码器可增值。另外,在一些应用中,核心和扩展比特流必须仍然满足可解码单位必须不超出最大尺寸的约束。本发明的无损编解码器同时提供了提高的压缩性能和改善的灵活性以满足这些约束。
举例来说,8个通道的24比特96kHz PCM音频需要18.5Mbps。无损压缩可以将其降低到大约9Mbps。DTS相关声学器件将以1.5Mbps编码核心,剩下7.5Mbps的差分信号。对于2K字节的最大片段尺寸,平均片段持续时间为2048*8/7500000=2.18msec或者大约209个采样@96kHz。满足该最大尺寸的有损核心的典型帧尺寸在10到20msec之间。
可以在系统级合并无损编解码器和后向兼容无损编解码器以在扩展带宽处无损地编码额外的音频通道,同时保持与现有有损编解码器的后向兼容性。例如,以18.5Mbps的8个通道的96kHz音频可以被无损地编码以包括以1.5Mbps的5.1通道的48kHz音频。核心加无损编码器将用于编码5.1通道。无损编解码器将用于编码5.1通道中的差分信号。剩余的2个通道利用无损编码器以分开的通道集编码。由于当试图优化片段持续时间时需要考虑所有通道集,所有的编码工具将以一种方式或另一种方式使用。一个兼容的解码器将解码所有8个通道并无损地重建96kHz的18.5Mbps音频信号。而较老的解码器将仅仅解码5.1通道并重建48kHz 1.5Mbps。
一般而言,为了计算解码器的复杂性,可以提供一个以上纯无损通道集。例如,对于10.2原始混频,可以如此来组织通道集-CHSET1携带5.1(具有嵌入的10.2到5.1下混频)并且利用核心+无损编码-CHSET1和CHSET2携带7.1(具有嵌入的10.2到7.1下混频),在此,CHSET2利用无损编码2个通道-CHSET1+CHSET2+CHSET3携带全离散10.2混频,在此,CHSET3仅利用无损编码剩余的3.1通道能够仅解码5.1的解码器将仅解码CHSET1并忽略所有其它通道集。能够仅解码7.1的解码器将解码CHSET1和CHSET2并忽略所有其它通道集。...
此外,有损加无损核心不局限于5.1。当前实现方案利用有损(core+XCh)和无损支持高达6.1,并且可以支持以任意数量的通道集组织的普通m.n通道。有损编码将具有5.1后向兼容核心,并且用有损编解码器编码的所有其它通道将进入XXCh扩展。这就提供了具有相当大的设计灵活性的总体无损编码,以保持与现有解码器的后向兼容,同时支持附加通道。
虽然已经示出并描述了本发明的多个示例性实施例,本领域的技术人员将想到多种变型和可选实施例。这些变型和可选实施例是可预期的,并且可以不偏离所附权利要求书中定义的本发明的精神和范围做出这些变型和可选实施例。
权利要求
1.一种无损地编码多通道音频的方法,包括将所述多通道音频分块成相等持续时间的帧;将每个帧分段成预定持续时间的多个片段,以减少在受到每个片段必须完全可解码并且小于最大尺寸的约束的帧的编码净荷;对所述帧内的每个通道熵编码所述片段;以及将用于每个片段的所述编码后的音频数据打包到所述帧中。
2.根据权利要求1的方法,其中通过以下步骤确定所述预定持续时间a)将所述帧分割成给定持续时间的多个片段;b)为每个通道中的每个片段确定编码参数集和编码净荷;c)为所有通道上的每个片段计算编码净荷;d)如果在所有通道上任一片段的编码净荷超过最大尺寸,则丢弃所述编码参数集;e)如果用于当前分割的帧的编码净荷低于用于先前分割的最小编码净荷,则存储当前编码参数集并更新最小编码净荷;以及f)对不同持续时间的多个片段重复步骤a至e。
3.根据权利要求2的方法,其中所述片段持续时间最初被设置在最小持续时间并在每次分割迭代时增加。
4.根据权利要求3的方法,其中所述片段持续时间最初被设置为二次幂并且在每次分割迭代时加倍。
5.根据权利要求3的方法,其中如果在所有通道上任一片段的编码净荷超过所述最大尺寸,则该分割迭代终结。
6.根据权利要求2的方法,其中所述编码参数集包括熵编码器及其参数的选择。
7.根据权利要求6的方法,其中选择熵编码器及其参数以将该通道中该片段的编码净荷降至最小。
8.根据权利要求2的方法,进一步包括为通道对生成解相关通道以便形成三重组(基准、相关、解相关),选择(基准、相关)通道对或(基准、解相关)通道对,并对所选择的通道对中的通道熵编码。
9.根据权利要求2的方法,其中,基于哪个产生包括所述帧的头部和音频数据在内的较小编码净荷,所述确定的编码参数集或者是针对每个通道的不同的编码参数集或者是针对所有通道的全局性编码参数集。
10.根据权利要求1的方法,其中所述片段的预定持续时间被确定以将每帧的编码净荷降至最小。
11.根据权利要求1的方法,其中所述片段的预定持续时间部分地是通过为每个片段选择包括多个熵编码器之一及其编码参数的编码参数集来确定的。
12.根据权利要求11的方法,其中所述片段的预定持续时间部分地是通过为每个通道选择不同的编码参数集或为所述多个通道选择全局性编码参数集来确定的。
13.根据权利要求11的方法,其中为不同的片段持续时间计算编码参数集,并且选择对应于具有满足上述对最大分段尺寸的约束条件的最小编码净荷的编码参数集的持续时间。
14.根据权利要求1的方法,进一步包括为通道对生成解相关通道以形成至少一个三重组(基准、相关、解相关),所述片段的预定持续时间部分地是通过为每个所述三重组选择(基准、相关)通道对或(基准、解相关)通道对用于熵编码而确定的。
15.根据权利要求14的方法,其中通过确定是解相关通道还是相关通道对编码净荷贡献最少比特来选择通道对。
16.根据权利要求14的方法,其中两个最相关的通道形成第一对,如此类推,直到通道被耗尽;如果剩余奇数通道,则其形成基准通道。
17.根据权利要求16的方法,其中在每对中,具有较小零滞后自相关估计的通道是基准通道。
18.根据权利要求17的方法,其中通过将基准通道与解相关系数相乘并从相关通道减去该乘积结果来生成解相关通道。
19.一种无损编码PCM音频数据的方法,包括将多通道音频分块成相等持续时间的帧;处理所述多通道音频以对包括基准通道和相关通道的通道对排序;为每个通道对生成解相关通道以形成至少一个三重组(基准、相关、解相关);基于所述基准和相关通道以及所述基准和解相关通道的可能的通道对组合选择编码参数;从每个所述三重组中选择通道对(基准、相关)或(基准、解相关);根据编码参数对所选通道对中的每个通道熵编码;以及将所述编码后的音频数据打包到比特流中。
20.根据权利要求19的方法,其中两个最相关的通道形成第一对,如此类推,直到通道被耗尽;如果剩余奇数通道,则其形成基准通道。
21.根据权利要求20的方法,其中在每对中,具有较小零滞后自相关估计的通道为基准通道。
22.根据权利要求21的方法,其中通过将基准通道与解相关系数相乘并从相关通道减去该乘积结果来生成解相关通道。
23.一种无损编码PCM音频数据的方法,包括处理多通道音频以创建包括基准通道和相关通道的通道对;为每个通道对生成解相关通道以形成至少一个三重组(基准、相关、解相关);将所述多通道音频分块成相等持续时间的帧;将每个帧分段成预定持续时间的多个片段并从所述至少一个三重组中选择通道对(基准、相关)或(基准、解相关),以将受到每个片段必须完全可解码并且小于最大尺寸的约束的帧的编码净荷降至最小;根据编码参数对所选通道对中每个通道的每个片段熵编码;以及将所述编码后的音频数据打包到比特流中。
24.根据权利要求23的方法,其中所述片段的预定持续时间部分地是通过选择多个熵编码器之一及其编码参数来确定的。
25.根据权利要求23的方法,其中每个通道被分配包括所选择的熵编码器和其参数的编码参数集,所述片段的持续时间部分地是通过为每个通道选择不同的编码参数集或为所述多个通道选择全局性编码参数集来确定的。
26.根据权利要求23的方法,其中对于帧中的每一个片段,所述预定持续时间相同。
27.根据权利要求23的方法,其中为每个帧确定所述预定持续时间,并且该预定持续时间在整个帧序列内变化。
28.一种多通道音频编码器,用于编码以已知采样率采样、具有音频带宽以及被分块成帧序列的数字音频信号,包括核心编码器,从数字音频信号提取核心信号并将其编码为核心比特;打包器,将核心比特加上头部信息打包成第一比特流;核心解码器,解码核心比特以形成重建的核心信号;求和节点,对多音频通道中每个通道从所述重建的核心信号和数字音频信号形成差分信号;无损编码器,将多通道差分信号的每帧分段成多个片段,并将所述片段熵编码成扩展比特,所述无损编码器选择片段持续时间以减小受到每个片段必须完全可解码并且小于最大尺寸的约束的帧内差分信号的编码净荷;以及打包器,将扩展比特打包成第二比特流。
29.根据权利要求28的多通道音频编码器,其中核心编码器包括丢弃较高的N/2子带的N频带分析滤波器组,和仅编码较低的N/2子带的核心子带编码器,该核心解码器包括将核心比特解码成用于较低的N/2子带的采样的核心子带解码器,和N频带合成滤波器组,该N频带合成滤波器组取出用于较低的N/2子带的采样,并使用于较高的N/2子带的未发送的子带采样归零,以及合成以已知采样率采样的重建音频信号。
30.根据权利要求28的多通道音频编码器,其中该无损编码器通过以下步骤确定片段持续时间,a)将帧分割成给定持续时间的若干片段;b)为每个通道中的每个片段确定编码参数集和编码净荷;c)为所有通道上的每个片段计算编码净荷;d)如果在所有通道上对于任一片段的编码净荷超过最大尺寸,则丢弃该编码参数集;e)如果当前分割的帧的编码净荷小于用于先前分割的最小编码净荷,则存储当前编码参数集并更新所述最小编码净荷;以及f)对于不同持续时间的多个片段重复步骤a至e。
31.根据权利要求30的多通道音频编码器,其中无损编码器为通道对生成解相关通道以形成三重组(基准、相关、解相关),选择(基准、相关)通道对或(基准、解相关)通道对,并对所选通道对中的通道熵编码。
32.根据权利要求28的多通道音频编码器,其中数字音频信号包括被组织成至少第一和第二通道集的多音频通道,所述第一通道集被核心编码器和无损编码器编码,所述第二通道集仅被所述无损编码器编码。
33.根据权利要求32的多通道音频编码器,其中编码所述第一通道集的无损编码器包括5.1通道配置。
34.根据权利要求33的多通道音频编码器,其中核心编码器具有编码核心信号的最大比特率。
35.根据权利要求32的多通道音频编码器,其中核心编码器以为预定采样率一半的采样率提取并编码核心信号。
36.一种解码无损比特流的方法,包括接收作为帧序列的比特流,该帧序列包括含有片段数和每片段采样数的通用头部信息,用于每个通道集的含有消耗的字节、熵代码标记和编码参数的片段头部信息,以及存储在多个片段中的编码残留多通道音频信号;对头部拆包以提取熵代码标记和编码参数以及编码的残留音频信号,并利用所选择的熵代码和编码参数对帧中每个片段执行熵解码,以便为每个片段生成残留音频信号;以及对头部拆包以提取预测系数并对残留音频信号执行逆向预测,以便为每个片段生成PCM音频。
37.根据权利要求36的方法,其中所述片段头部信息还包括所有通道相同参数标记,其指示熵代码和编码参数对于每个通道是否不同,或者它们对于所有通道是否相同。
38.根据权利要求36的方法,其中比特流进一步包括含有成对通道解相关标记、原始通道顺序、以及量化的通道解相关系数的通道集头部信息,所述逆向预测步骤生成解相关PCM音频,该方法进一步包括对该头部拆包以提取原始通道顺序、成对通道解相关标记和量化通道解相关系数,并执行逆向交叉通道解相关以生成多通道PCM音频。
39.根据权利要求38的方法,其中成对通道解相关标记指示用于三重组(基准、相关、解相关)的(基准、相关)通道对或(基准、解相关)通道对是否被编码,该方法进一步包括如果该标记指示(基准、解相关)通道对,则将相关通道与量化通道解相关系数相乘并将结果加到基准通道以生成相关通道。
40.一种制品,包括被分离为存储在媒介上的无损编码音频数据的帧序列的比特流,每个所述帧被细分为多个片段,所述片段持续时间被选择成将受到每个片段必须完全可解码并小于最大尺寸的约束的帧中的音频数据的编码净荷降至最小。
41.根据权利要求40的制品,其中每个片段被熵编码,所述比特流包括片段头部信息,该片段头部信息包含指示特定熵代码的熵代码标记和用于该熵代码的编码参数。
42.根据权利要求41的制品,其中,所述片段头部信息还包括指示熵代码和编码参数对于每个通道是否不同或者它们对于所有通道是否相同的所有通道相同参数标记。
43.根据权利要求41的制品,其中,音频数据的每个片段包括对于每对音频通道是(基准、相关)通道对或是(基准、解相关)通道对,所述比特流包括通道集头部信息,该通道集头部信息又包含指示包括哪一对的成对通道解相关标记、原始通道顺序和量化的通道解相关系数,如果包括的是解相关通道,则量化的通道解相关系数用于生成相关通道。
全文摘要
一种无损音频编解码器将每帧内的音频数据分段以便提高在每个片段必须完全可解码并小于最大尺寸的约束下的压缩性能。对于每个帧,编解码器选择片段持续时间和编码参数,例如,用于每个片段的特定熵编码器和其参数,其将受到上述约束的整个帧的编码净荷降至最小。可以为每个通道选择不同的编码参数集或者为所有通道选择全局编码参数集。还可以通过为M通道音频形成M/2解相关通道来进一步提高压缩性能。通道的三重组(基准、相关、解相关)提供了两种可能的配对组合基准、相关;和基准、解相关,其可以在分段和熵编码优化期间被考虑以进一步提高压缩性能。
文档编号G10L19/02GK101027717SQ200580013444
公开日2007年8月29日 申请日期2005年3月21日 优先权日2004年3月25日
发明者左兰·菲左 申请人:Dts公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1