音频编码的制作方法

文档序号:2833523阅读:301来源:国知局
专利名称:音频编码的制作方法
技术领域
本发明涉及音频编码。
音频信号的参数描述在最近几年中得到关注,特别是在音频编码领域。已经表明,传输描述音频信号的(量化的)参数只需要很少的传输容量以在接收端重新合成一个知觉上相同的信号。在诸如MPEG-LII、mp3和AAC(MPEG-2高级音频编码)之类的传统的基于波形的音频编码方案中,通过把两个单声道音频信号编码成一个比特流来编码立体声信号。这里明确编码每个信道,但代价是需要双倍的编码单个信道所需的数据量。
在许多情况下,两个信道所携带的内容主要是单声道的。因此,通过采用利用了诸如中/侧立体声编码和强度编码之类的技术的信道间的相关性和不相关性,可以实现比特率节省。本发明涉及的编码方法包括完全编码其中一个信道,以及编码关于如何能够从该完全编码的信道得出另一信道的参数描述。因此,在解码器中,通常单个音频信号是可利用的,该信号必须被修改以获得两个不同的输出信道。特别地,用于描述第二信道的参数可以包括信道间时间差(ITD)、信道间相位差(IPD)和信道间声级差(ILD)。
EP-A-1107232描述了一种用于编码立体声信号的方法,其中已编码的信号包括从左信道输入信号或右信道输入信号的其中之一得出的信息和允许恢复另一个输入信号的参数信息。
在如上面提到的参考文献所述的参数表示中,ITD表示输入信道间在相位或时间上的差异。因此,解码器可以通过采用已编码信道的内容并建立由ITD给出的相位差来生成非编码信道。这个过程引入了一定的自由度。例如,只有一个输出信道(即没有编码的信道)可以用规定的相位差修改。可替换地,编码的输出信道可以用负的规定相位差来修改。作为第三个例子,可以将规定相位差的一半应用于一个信道,并将负的规定相位差的一半应用于另一信道。因为只有相位差被规定,所以两个信道的相移中的偏移(或分布)是不固定的。尽管这对于解码声音的空间质量并不是个问题,但它可以导致听得见的伪信号。这些伪信号发生是因为总相移是任意的。在任意一个编码时间帧处的一个或两个输出信道的相位修改可能与前一帧的相位修改不相容。本申请的申请人发现在解码器中难以正确预测正确的总相移,并已经预先描述了一种方法,以便根据前一帧的相位修改来限制相位修改。这是对该问题的一个适用的解决方案,但并没有消除这个问题的起因。
如上所述,已经表明,在解码器级确定如何将规定的相移或时移分布在两个输出信道上是非常困难的。下面的例子更清楚地解释了这个难点。假设在解码器中,单声道信号分量由单个正弦信号组成。此外,该正弦信号的ITD参数随着时间(即在分析帧上)线性增长。在这个例子中,我们把注意力集中到IPD上,记住IPD仅仅是ITD的线性变换。IPD仅被定义在区间[-π:π]中。

图1示出了作为时间函数的IPD。
尽管乍一看这似乎是一个非常理论的例子,但是实际上这种IPD特性经常发生在音频记录过程中(例如,如果左、右信道中的音调频率相位差几Hz)。解码器的基本任务是从单个输入信号中产生两个输出信号。这些输出信号必须满足IPD参数。这可以通过把单个输入信号拷贝到两个输出信号、并单独修改各输出信号的相位来完成。假设在信道上的IPD的对称分布,这意味着左输出信道用+IPD/2修改,同时右输出信道的相位旋转-IPD/2。然而,该方法导致了由在时间t发生的相位跳变导致的清晰可闻的伪信号。这可以参考图2来理解,其中显示了被表示在恰好在相位跳变发生之前的某个时刻t-和恰好在相位跳变之后的某个时刻t+上的左、右输出信道上的相位变化。关于单声道输入信号的相位变化被示为复向量(即输出和输入信号间的角度表示每一个输出信道的相位变化)。
可以看到,恰好在时间t的相位跳变的前后,输出信号之间存在较大的相位不一致每个输出信道的向量被旋转了大约πrad(弧度)。如果各输出的后续帧通过重叠进行组合,则恰好位于相位跳变前后的输出信号的重叠部分将互相抵消。这导致了输出中的类似卡嗒声的伪信号。这些伪信号出现的原因是IPD参数是以2π为周期循环的,但如果IPD在信道上被分布,则每个单独信号的相位变化将变为以小于2π的周期循环(如果IPD被对称分布,则相位变化变成以π为周期循环)。因此,每个信道中的相位变化的实际周期依赖于IPD在信道上的分布方式,但它小于2π,这引起了解码器中的重叠相加(overlap-add)的问题。
尽管上面的例子是一个相对简单的情况,但是我们发现,对于复杂信号(在相同的相位修改频带内具有更多的频率分量,并且在时间上具有IPD参数的更复杂的特性)来说,很难找到IPD在输出信道上的准确分布。
在编码器处,规定如何在信道上分布IPD的信息是可利用的。因此,本发明的目的是在已编码信号中保留这些信息,而不明显已增加编码信号的大小。
为此,本发明提供了一种编码器和相关项,如在本说明书的独立权利要求中阐明的那样。
基于两个输入信道间的相对时移来估计信道间的时间差(ITD)或相位差(IPD)。在另一方面,总时移(OTD)或总相移(OPD)由完全编码的单声道输出信号和其中一个输入信号之间的最佳匹配延迟(或相位)确定。因此,在编码器级分析OTD(OPD)并将它的值添加到参数比特流中是很方便的。
这种时间差编码的优点是OTD(OPD)仅需要很少的比特来编码,因为听觉系统对总的相位变化相对不敏感(尽管双声道听觉系统对ITD的变化非常敏感)。
对于上面针对的问题,OPD具有如图3所示的特性。
这里,OPD主要描述了左信道在时间上的相位变化,而右信道的相位变化由OPD(t)-IPD(t)给出。由于两个参数(OPD和IPD)都是以2π为周期循环的,因此所得到的各独立输出信道的相位变化也变为以2π为周期循环。这样,所得到的两个输出信道在时间上的相位变化并没有显示出不存在于输入信号中的相位不连续性。
应该注意到,在这个例子中,OPD描述了左信道的相位变化,而右信道是随后利用IPD从左信道得出的。这些参数的其它线性组合原则上可用于传输。一个简单的例子是用OPD描述右输出信道的相位变化,并利用OPD和IPD得出左信道的相位变化。本发明的关键点是有效地描述了一对时变合成滤波器,其中,输出信道之间的相位差用一个(昂贵的)参数描述,并且相位变化的偏移用另一个(便宜得多的)参数来描述。
现在将以举例的方式并参考附图来详细描述本发明的各实施例,其中图1说明了IPD随时间线性增长的效果,并且已被讨论过;图2说明了恰好在IPD参数中的相位跳变之前(t-,左图)和之后(t+,右图)的输出信道L和R关于输入信道的相位变化,并且已被讨论过;图3说明了在线性增长的IPD的情况下的OPD参数,并且已被讨论过;图4是体现本发明的一个编码器的硬件框图;和图5是体现本发明的一个解码器的硬件框图;和图6显示了在单声道信号的各子帧和多信道层的对应帧中编码的瞬变位置。
实施例概述在本发明的一个实施例中的空间参数生成级将三个信号作为其输入。这些信号中的前两个(示为L和R)相应于立体声对的左、右信道。与本技术领域内的常规方法一样,例如通过使用滤波器组或频率变换而将每一个信道分解成多个时间-频率片(tile)。到编码器的另一个输入是作为其它信号L、R的和的单声道信号S。信号S是其它信号L、R的单声道组合,并具有与其它输入信号相同的时间-频率分割。编码器的输出是一个比特流,该比特流包含单声道音频信号S和由解码器在解码该比特流时使用的空间参数。
然后编码器通过确定L和R输入信号之间的时滞(time lag)来计算信道间的时间差(ITD)。该时滞相应于输入信号L(t,f)和R(t,f)的相应时间/频率片之间的互相关函数的最大值,使得ITD=arg(max(ρ(L,R))),其中,ρ(L,R)表示输入信号L(t,f)和R(t,f)之间的互相关函数。
总时移(OTD)可以以两种不同的方法定义作为和信号S和左输入信号L之间的时间差,或是作为和信号S和右输入信号R之间的时间差。测量相对于较强的(即较高能量的)输入信号的OTD是很方便的,从而给出if|L|>|R|OTD=arg(max(ρ(L,S)));elseOTD=arg(max(ρ(R,S)));endOTD值随后可以被量化并添加到比特流中。已发现,大约π/8弧度的量化误差可以被接受。与对于ITD值可接受的误差相比,这是一个相对较大的量化误差。因此空间参数比特流对于某些或所有频带包含了ILD、ITD、OTD和一个相关值。注意,仅仅对于那些传输了ITD值的频带,OTD才是必需的。
解码器基于ITD、OTD和ILD来确定输出信道的必要的相位修改,从而导致对于左信道的时移(TSL)和对于右信道的时移(TSR)if ILD>0(这表明|L|>|R|),TSL=OTD;TSR=OTD-ITD;elseTSL=OTD+ITD;TSR=OTD;end实施例的实现方式的细节应当理解,一个完整的音频编码器典型地将两个模拟时变音频信号作为输入、数字化这些信号、生成单声道的和信号、然后产生包括已编码单声道信号和空间参数的输出比特流。(可替换地,所述输入可以从两个已经数字化的信号得出。)本领域的技术人员将认识到,下面的许多内容可以用已知的技术容易地实现。
分析方法通常,编码器10包含对应的变换模块20,所述模块将每个进来的信号(L,R)分解成子带信号16(优选地具有随频率增加的带宽)。在优选实施例中,模块20采用后面跟随变换操作的时间加窗来执行时间/频率切片(slicing),然而,时间连续的方法也可以被使用(例如滤波器组)。
在分析模块18中执行用于和信号12的确定与参数14的提取的接下来的步骤,包括找出相应的子带信号16的声级差(ILD),找出相应的子带信号16的时间差(ITD或IPD),以及描述不能用ILD或ITD说明的波形相似性或相异性的数量。
ILD的分析对于一个给定频带,ILD由某一时刻的信号的声级差确定。确定ILD的一种方法是测量两个输入信道的相应频带的rms值,并计算这些rms值的比值(优选地用dB表示)。
ITD的分析ITD由给出了两个信道的波形之间的最佳匹配的时间或相位对准确定。获得ITD的一种方法是计算两个相应子带信号间的互相关函数并搜索最大值。相应于互相关函数中的这个最大值的延迟被用作ITD值。
第二种方法是计算左、右子带的分析信号(即计算相位和包络值),并把信道间的相位差用作IPD参数。这里,使用一个复滤波器组(例如FFT),并可以通过查看某一频率元(bin)(频率区域)来得出一个时间上的相位函数。通过对于左、右两个信道这样做,相位差IPD(而不是互相关的两个经滤波的信号)可以被估计。
对相关性的分析通过首先找到给出相应子带信号间的最佳匹配的ILD和ITD以及随后测量在补偿了ITD和/或ILD之后的波形的相似性,可以获得所述相关性。这样,在这个框架中,相关性被定义为不能归因于ILD和/或ITD的相应子带信号的相似性或相异性。对于该参数的适当的度量是相干性,它是互相关函数在一组延迟上的最大值。然而,也可以使用其它度量,例如在ILD和/或ITD补偿之后,差信号与相应子带的和信号(优选地也针对ILD和/或ITD进行了补偿)相比的相对能量。这个差参数基本上是(最大)相关性的线性变换。
参数量化参数传输的一个重点是参数表示的正确性(即量化误差的大小),这直接关系到必需的传输容量和音频质量。在这个部分中,讨论关于空间参数量化的几个问题。基本的想法是将所谓的空间信号的恰好可察觉差异(JND)作为量化误差的基础。更具体来说,量化误差由人类听觉系统对参数变化的灵敏度确定。由于众所周知对参数变化的灵敏度强烈依赖于参数值本身,所以下面的方法被应用来确定离散的量化步长。
ILD的量化从心理声学研究可知,对IID变化的灵敏度依赖于ILD本身。如果ILD用dB表示,则从0dB参考的大约1dB的偏差能够被检测到,而如果参考声级差等于20dB,则需要大约3dB的变化。因此,如果左、右信道的信号具有较大的声级差,则量化误差可以较大。例如,这可以通过首先测量信道间的声级差、接着对所获得的声级差进行非线性(压缩)变换、随后进行线性量化过程来应用,或者可以通过使用一个具有非线性分布的用于可用ILD值的查找表来应用。在优选的实施例中,ILD(以dB表示)被量化为在下面的集合I中的最接近的值。
I=[-19-16-13-10-8-6-4-2 0 2 4 6 8 10 13 16 19]ITD的量化人类对象对于ITD变化的灵敏度可以被表征为具有常数相位阈值。这意味着根据延迟时间,ITD的量化步长应该随着频率减小。可替换地,如果ITD被表示为相位差的形式,则量化步长应该与频率无关。实现这一点的一种方法是将一个固定的相位差作为量化步长,并为每一个频带确定相应的时间延迟。那么这个ITD值就被用作量化步长。在优选的实施例中,在每个0.1弧度(rad)的子带中,ITD量化步长由一个恒定相位差决定。因此,对于每个子带,相应于子带中心频率的0.1rad的时间差被用作量化步长。
另一种方法是传输遵循一个频率无关的量化方案的相位差。众所周知,在某一频率以上,人的听觉系统对精细结构的波形中的ITD不灵敏。这个现象可以被利用来最高仅以某一频率(典型地为2kHz)传输ITD参数。
比特流精简的第三种方法是合并依赖于ILD和/或同一子带的相关性参数的ITD量化步长。对于大的ILD,ITD可以以较低精度编码。此外,众所周知,如果相关性很低,则人类对于ITD变化的灵敏度减弱。因此,当相关性较小时,可以应用更大的ITD量化误差。这个想法的一个极端的例子是,如果相关性小于某一阚值,则根本不传输ITD。
相关性的量化相关性的量化误差依赖于(1)相关值本身,可能还依赖于(2)ILD。接近+1的相关值用高精度编码(即小的量化步长),而接近0的相关值用低精度编码(即大的量化步长)。在优选实施例中,一组非线性分布的相关值(r)被量化成下面集合R中的最接近的值R=[10.95 0.9 0.82 0.75 0.6 0.3 0]这对于每个相关值花费了另外3个比特。
如果当前子带的(量化的)ILD的绝对值等于19dB,则对于该子带没有ITD和相关值被传输。如果某一子带的(量化的)相关值等于零,对于该子带没有ITD值被传输。
这样,每一帧需要最多233比特来传输空间参数。在1024样本的更新帧长和44.1kHz的采样率下,传输的最大比特率总计小于10.25kbit/s[233*44100/1024=10.034kbit/s]。(应该注意的是,使用熵编码或差分编码,这个比特率将会进一步减小。)第二种可能性是对于依赖于同一子带的所测量ILD的相关性使用量化步长对于大的ILD(即,一个信道在能量方面占支配地位),相关性的量化误差变大。该原理的一个极端例子是,如果某个子带的IID绝对值超出某一阈值,则不为该子带传输相关值。
参考图4更详细地示出在模块20中,左、右进入信号被分解成不同的时间帧(44.1kHz采样率下的2048个样本),并用一个平方根汉宁窗(Hanning window)进行加窗。随后,计算FFT。负的FFT频率被丢弃,所得到的FFT被细分成FFT频率元的组或子带16。在子带g中组合的FFT频率元的数目依赖于频率在较高频率下所组合的频率元数目比在较低频率下更多。在当前实现方式中,相应于大约1.8EBR的FFT频率元被编组,从而得到20个子带,用来表示整个可听频率范围。所得到的每个后续子带(从最低频率开始)的FFT频率元数目S[g]为S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]这样,最初的三个子带包含4个FFT频率元,第四个子带包含5个FFT频率元,以此类推。对于每个子带,分析模块18计算相应的ILD、ITD和相关性(r)。通过将所有属于其它组的FFT频率元置为零、将来自左、右信道的所得到的(带限)FFT相乘、接着进行FFT逆变换,可以计算ITD和相关性。扫描所得到的互相关函数,以得到一个位于-64到+63样本之间的信道间延迟内的峰值。相应于该峰值的内部延迟被用作ITD值,在该峰值处的互相关函数值被用作该子带的声道间相关性。最后,针对每个子带,通过取得左、右信道的功率比来简单计算ILD。
和信号的生成分析器18包含一个和信号生成器17。和信号生成器生成一个和信号,它是输入信号的平均。(在其它实施例中,在和信号的产生过程中,可以执行附加的处理,例如包括相位校正。)如果必要的话,可以通过(1)在负频率上插入复共轭、(2)逆FFT、(3)加窗以及(4)重叠相加来将和信号转换到时域。
如前所述,给出了和信号12在时域和/或频域中的表示之后,信号可以以任意多种常规方式在比特流50的单声道层40中进行编码。例如,mp3编码器可以被用来生成比特流的单声道层40。当这样的编码器检测到输入信号中的快速变化时,它可以改变其用于该特定时间周期的窗的长度,以便在编码输入信号的该部分时改善时间和/或频率定位。然后,窗切换标志被嵌入到比特流中,用以向之后合成信号的解码器指示这个切换。
然而在优选的实施例中,在WO 01/69593-a1中描述的那类正弦编码器30被用来产生单声道层40。编码器30包含一个瞬变编码器11,一个正弦编码器13和一个噪声编码器15。该瞬变编码器作为可选特征被包含在本实施例中。
当信号12进入瞬变编码器11中时,对于每个更新间隔,编码器估计是否存在瞬变信号分量以及它在分析窗中的位置(精确到样本)。如果确定了瞬变信号分量的位置,则编码器11设法提取该瞬变信号分量(的主要部分)。通过利用一定数量(少许)的正弦分量,编码器11将一个形状函数与优选地从所估计的起始位置开始的信号片断相匹配,并确定该形状函数下的内容,这一信息被包含在瞬变码CT中。
减去瞬变分量的和信号12被提供给正弦编码器13,在那里其被分析以确定(确定性的)正弦分量。简而言之,正弦编码器将输入信号编码为从一个帧片断链接到另一个帧片段的正弦分量的轨迹。对于一个开始于给定片断(出生(birth))的正弦,所述轨迹最初由起始频率、起始幅度和起始相位表示。其后,后续片断中的轨迹用频率差、幅度差以及可能的话还有相位差(持续)来表示,直到轨迹结束(死亡)的片断,这一信息被包含在正弦码CS中。
假设减去瞬变分量和正弦分量后的信号主要包含噪声,优选实施例中的噪声分析器15产生一个噪声码CN以表示该噪声。按照惯例,比如在WO 01/89086-A1中,噪声编码器根据等价矩形带宽(ERB)标度用组合的AR(自动回归)MA(移动平均)滤波器参数(pi,qi)来模拟噪声的频谱。在解码器中,所述滤波器参数被馈送给噪声合成器,该合成器主要是一个具有与噪声频谱相近的频率响应的滤波器。该合成器通过使用ARMA滤波参数(pi,qi)对白噪声进行滤波来生成重构噪声,并接着把重构噪声添加到合成的瞬变信号和正弦信号中以生成对原始和信号的估计。
多路复用器41产生单声道音频层40,它被划分成帧42,帧42表示长度为16ms的重叠时间片断,并且每8ms更新一次(图6)。每一帧包括各自的CT、CS和CN码,在解码器中,当合成单声道和信号时,连续帧中的码在其重叠区域中被混合。在本实施例中,假设每一帧只包含最多一个瞬变码CT,这样的瞬变的例子被表示为数字44。
分析器18进一步包括一个空间参数层生成器19。如上所述,该部件针对每个空间参数帧执行对空间参数的量化。通常,生成器19将每个空间层信道14划分成帧46,帧46代表长度为64ms的重叠时间片断,并且每32ms更新一次(图4)。每一帧包括一个IID、一个ITD、一个OTD和一个相关值(r),并且在解码器中,当合成信号时,连续帧的值在其重叠区域中被混合,用以确定任意给定时间的空间层参数。
在优选的实施例中,由单声道层40中的瞬变编码器11(或由和信号12中的相应分析器模块)检测的瞬变位置被生成器19用来确定是否需要(一个或多个)空间参数层14中的非均匀时间分割。如果所述编码器正使用mp3编码器来生成单声道层,那么单声道流中的窗切换标志的存在被所述生成器用作瞬变位置的估计。
最后,一旦生成了单声道层40和空间表示层41,它们就被多路复用器43依次写入比特流50中。该音频流50被依次提供给数据总线、天线系统、存储介质等。
现在参考图5,与上述的编码器组合使用的解码器60包括一个多路分解器62,它将进入的音频流50分解成单声道层40’以及在这种情况下的单个空间表示层14’。该单声道层40’被相应于编码器的常规合成器64读取,该编码器生成用来提供对原始和信号12’的时域估计的该层。
由多路分解器62提取的空间参数14’被后处理模块66应用于和信号12’,以生成左、右输出信号。优选实施例的后处理模块还读取单声道层14’信息以用于确定该信号中的瞬变的位置,并适当地处理它们。当然,只有当此类瞬变已被编码入该信号时才是这种情况。(可选地,合成器64可以给后处理器提供这样的指示;然而这需要对常规合成器64进行某种细微的修改。)在后处理器66中,假设在分析部分中描述的和信号12’的频域表示对该处理是可用的。这个表示可以通过对由合成器64生成的时域波形进行加窗和FFT操作来获得。然后,和信号被拷贝到左、右输出信号路径。接着,由去相关器69’、69”使用参数r对左、右信号之间的相关性进行修改。
随后,在对应级70’、70”中,左信号的每个子带被延迟一个值TSL,右信号被延迟TSR,TSL和TSR由从相应于该子带的比特流中提取的OTD和ITD值给出(量化)。按照上面给出的公式计算TSL和TSR的值。最后,在对应级71’、71”中,左、右子带根据该子带的ILD被缩放。对应变换级72’、72”随后通过执行如下步骤将输出信号转换到时域(1)在负频率上插入复共轭,(2)逆FFT,(3)加窗,(4)重叠相加。
作为上面的编码方案的替换方案,存在许多其它可能的方式来编码相位差。例如,所述参数可以包括一个ITD和特定的分布关键字,比如x。然后,左信道的相位变化可以被编码成x*ITD,而右信道的相位变化可以被编码成(1-x)*ITD。显然,很多其它编码方案可以被用来实现发明的各实施例。
据观察,本发明可以在专用硬件中以及在DSP(数字信号处理器)或通用计算机上运行的软件中实现。本发明可以被具体化在载有用于运行依照本发明的编码方法的计算机程序的诸如CD-ROM或DVD-ROM的有形介质中。发明也可被具体化为在诸如因特网的数据网络上传输的信号或由广播服务传输的信号。本发明在因特网下载、因特网广播、固态音频(SSA)、带宽扩展方案的领域中具有特定应用,例如mp3PRO、CT-aaaPlus(参见www.codingtechnologies.com)和大多数音频编码方案。
权利要求
1.一种编码音频信号的方法,该方法包括从至少两个音频输入信道生成单声道信号;生成包括该单声道信号和一组参数的已编码信号,该组参数允许重现分别相应于各自输入信道的两个音频输出信号;其特征在于所述参数包括对总偏移的指示,这是对该已编码单声道输出信号和其中一个输入信号之间的延迟的度量。
2.依据权利要求1的方法,其中,为了传输,所述总偏移和信道间相位差或时间差的线性组合被使用。
3.依据权利要求1的方法,其中所述总偏移是一个总时移。
4.依据权利要求1的方法,其中所述总偏移是一个总相移。
5.依据权利要求1的方法,其中所述总偏移由完全编码的单声道输出信号和其中一个输入信号之间的最佳匹配延迟(或相位)确定。
6.依据权利要求5的方法,其中所述最佳匹配延迟相应于输入信号的相应时间/频率片之间的互相关函数的最大值。
7.依据权利要求1的方法,其中关于较大幅度的输入信号来计算所述总偏移。
8.依据权利要求1的方法,其中以小于所述总偏移的量化误差对所述相位差进行编码。
9.一种用于编码音频信号的编码器,包括用于从至少两个音频输入信道生成单声道信号的装置;用于生成包括该单声道信号和允许重现两个音频输出信号的参数的已编码信号的装置,其中每一个音频输出信号相应于各自的输入信道;其特征在于所述参数包括对总偏移的指示,这是对该已编码单声道输出信号和其中一个输入信号之间的延迟的度量。
10.一种用于提供音频信号的设备,该设备包括用于接收音频信号的输入端,依据权利要求9的用于编码音频信号以获得已编码音频信号的编码器,和用于提供该已编码音频信号的输出端。
11.一种已编码音频信号,该信号包括从至少两个音频输入信道得出的单声道信号;包括该单声道信号和允许重现两个音频输出信号的参数的已编码信号,其中每一个音频输出信号相应于各自的输入信道;其特征在于所述参数包括对总偏移的指示,这是对该已编码单声道输出信号和其中一个输入信号之间的延迟的度量。
12.依据权利要求11的已编码音频信号,其中,为了传输,所述总偏移和信道间相位差或时间差的线性组合被使用。
13.一种对包括已编码单声道信号和空间参数的已编码音频信号进行解码的方法,该方法包括从输入信号获得一个单声道信号和一组空间参数;其特征在于,该已编码信号包括参数,所述参数指示作为所述已编码单声道输出信号和其中一个输入信号之间的延迟的度量的总偏移;并且该方法进一步包括以由所述参数规定的间隔生成在时间和相位上偏移的输出音频信号的立体声对。
14.一种用于对包括已编码单声道信号和空间参数的已编码音频信号进行解码的解码器,包括用于从输入信号中获得一个单声道信号和一组空间参数的装置;其特征在于,该已编码信号包括参数,所述参数指示作为所述已编码单声道输出信号和到所述编码器的其中一个输入信号之间的延迟的度量的总偏移;并且该解码器进一步包括用于以由所述参数规定的间隔生成在时间和相位上偏移的输出音频信号的立体声对的装置。
15.依据权利要求14的解码器,其中,从用于传输的所述总偏移和信道间相位差或时间差的线性组合中获得所述总偏移。
16.一种用于提供解码音频信号的设备,该设备包括用于接收已编码音频信号的输入端,依据权利要求14的用于对该已编码音频信号进行解码以获得一个多信道输出信号的解码器,用于提供或重现该多信道输出信号的输出端。
全文摘要
参数立体声编码器采用输入信号的知觉上相关的参数来描述空间特性。这些参数的其中一个是输入信号之间的相位差(ITD或IPD)。时间差只确定输入信号间的相对时间差,而没有任何关于应该如何在解码器中在输出信号上划分这些时间差的信息。在已编码信号中包含用于描述应该如何在输出信道之间分布ITD或IPD的附加参数。为此,所计算的单声道信号和其中一个输入信号之间的延迟被使用。
文档编号G10L19/008GK1748247SQ200480003949
公开日2006年3月15日 申请日期2004年2月9日 优先权日2003年2月11日
发明者D·J·布里巴亚特, A·W·J·奥门 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1