兼容多通道编码/解码的制作方法

文档序号:7608397阅读:235来源:国知局
专利名称:兼容多通道编码/解码的制作方法
技术领域
本发明有关一种用于处理一种多通道声音信号的方法和装置,尤其是有关一种使用立体声兼容的方法处理一多通道声音信号的方法和装置。
背景技术
近年来,多通道声音重制技术变得越来越重要,这可能是因为声音压缩/编码技术,如公知的mp3技术,使得经由网际网络或其它具有限制频宽的传输散布音讯记录变得可行。mp3编码技术变得如此有名,乃是因为其允许所有的音讯记录以立体声方式散布,亦即,该音讯记录的数字表示方式包含一个第一或左立体声通道以及一个第二或右立体声通道。
然而,传统的二声道声音系统有个基本的缺点,因此,便发展出环绕声音技术。一个受欢迎的多通道环绕表现方式,除了两个立体声通道L和R之外,还包含一个额外的中间通道C和两个环绕通道Ls、Rs。此种参考声音是亦视为三/二立体声,亦即,三个前通道及两个环绕通道,一般来说,便需要五个传输通道。在录音环境中,至少需要分别在五个不同的位置上放置五个喇叭,以便从五个放置适当的扩音器获取在一特定距离的最佳化甜蜜点。
在此领域中,已经有数种已知的技术,用于减少多通道声音信号传输所需要的数据量,这类技术便称为接合立体声技术。到目前为止,请参考图10,其所示为一接合立体装置60,此装置可为一个实施,例如强度立体声编码(intensity stereo,IS)或立体信号编码(Binaural Cue Coding,BCC)技术的装置。这类装置通常在输入端接受至少两个通道(CH1、CH2、CH3、...、CHn),且输出一个单一的载波通道和参数数据,该参数数据是定义为,在一解码器中,可计算出原始通道(CH1、CH2、CH3、...、CHn)的近似值。
通常,该载波通道将包含子频带样本、频谱系数、时间域样本等等,其相对之下提供基本信号较佳的表现,然而,该参数数据并未包含频谱系数样本,但是包含控制参数,以控制特定的重建算法,如由乘法、时间位移、频率位移所进行的加权等。因此,参数数据仅包含相对之下较粗糙的信号表示或相关通道表示。就数据而言,载波通道所需要的数据量会落在60-70kbits/s的范围内,而一通道的参数端信息所需要的数据量则在1.5-2.5kbits/s范围内。一个参数数据的知名例子便是尺度因子(scale factor)、立体声编码信息、或是立体信号编码参数,其将于下文中描述。
强度立体声编码是于AES预行刊物3799的「强度立体声编码」中描述,由J.Herre,K.H.Brandenburg,D.Lederer于1994年二月在阿姆斯特丹发表。强度立体声编码的概念是基于两个立体声音通道的数据上进行主轴变换,如果大多数的数据点压缩在第一主要轴的附近,则可在编码之前通过使用一特定角度对两个信号进行旋转达到编码增益。然而,对真实的立体声制造技术来说,情况并非如此。因此,此技术便通过在该位串流传输中将第二正交组成排除而修正,也因此,同一个传输信号的左右两通道的重建信号会由不同的权值和尺度所组成。即便如此,该重建信号在振幅上是相异的,但相对于其相位信息而言却是相同的,然而,两个原始声音通道的能量-时间封装则通过所选的尺度运算保留,其典型地以频率选择方式运作。此是顺应人类在高频率的知觉,其中,支配的空间信号是由能量封装所决定。
除此之外,在特定的实施方式中,该传输信号,亦即该载波通道,是由左通道和右通道的信号总和产生,而不旋转两个部份。除此之外,此程序,亦即产生用于执行尺度运算的立体声编码参数,是由频率选择所执行,亦即对每个尺度因子频带来说皆独立,亦即编码器频率分割。较佳地,两个通道是组合以形成一个组合或是「载波」通道,且除了该组合通道之外,该立体声编码信息是根据该第一通道的能量、该第二通道的能量、或是该组合或通道的能量所决定。
该BCC技术是于AES预行刊物5574的「用于立体声和多通道声音压缩的立体信号编码」中描述,由C.Faller,F.Baumgarte于2002年五月在慕尼黑发表。在BCC编码中,是使用一种以DFT为基础的变换,将一数量的声音输入通道转换成一频谱表示法,所产生的均质频谱是分成不互相重叠的分割,每一个分割都具有一个索引。每个分割具有一个频宽,其正比于等价长方形频宽(equivalentrectangular bandwidth,ERB),且针对每该帧k的每该分割估测内通道等级差(ICLD)及内通道时间差(ICTD)。该ICLD及ICTD是量子化并编码产生一个BCC位串流,该内通道等级差及内通道时间差是针对每该通道相对于一参考通道所给予,接着,该参数便根据前述的函式计算,其是根据欲处理的信号的特定分割计算。
在解码器端,该解码器接收一单声道信号及BCC位串流,该单声道信号是转换成频率域并输入至空间合成区块,其亦接收解码的ICLD及ICTD值。在该空间合成区块中,该BCC参数(ICLD及ICTD)值是用于执行单声道信号的加权运算,以便合成多通道信号,在频率/时间转换之后,其是代表原始多通道声音信号的重建。
在BCC的例子中,该接合立体声模块60是运作以输出该通道端信息,使得该参数通道数据可量子化并将ICLD及ICTD参数编码,其中,该原始通道其中之一是用于作为参考通道以编码该通道端信息。
通常,该载波通道是关联原始通道总和的形式。
自然地,上述技术仅提供解码器单声道的表现,其仅能处理该载波通道,但其能处理参数数据,以产生一个以上的输入通道的一个或多个逼近。
为了以一种兼容的方式传输五个通道,亦即,以一种串流格式方式传输,其亦为一般的立体声解码器所了解,所谓的矩阵技术已经在由G.Theile及G.Stoll于1992年10月,在旧金山所发表的AES预行刊物3403中的「音乐环绕一个兼容于ISO 11172-3的通用多通道编码系统」描述。五个输入通道L、R、C、Ls和Rs输入至矩阵装置以执行矩阵化运算,以便由该五个输入通道计算基本或兼容的立体声通道Lo、Ro。这些基本的立体声通道Lo/Ro是以下列方程式计算Lo=L+xC+yLsRo=R+xC+yRs其中,x和y是常数,而除了基本立体声层之外,其是包含该基本立体声信号Lo/Ro的编码版本,其它三个通道C、Ls、Rs便视为在延伸层中传输。至于位串流方面,此Lo/Ro基本立体声层包含一表头、如尺度因子的信息、以及子频带样本。该多通道延伸层,亦即中央通道及两个环绕通道是包含于多通道延伸层,其亦称为辅助数据域位。
在解码端,是执行一个反矩阵化运算,一便形成该五个通道中的左通道和右通道的重建,该五个通道是使用基本立体声通道Lo、Ro、以及三个额外的通道表现。除此之外,三个额外的通道是由辅助信息中解码,以便获得一个解码过的原始多通道声音信号的五通道或环绕表现。
另一个多通道编码的方式是由B.Grill、J.Herre、K.H.Brandenburg、E.Eberlein、J.Koller、J.Mueller于1994年二月于阿姆斯特丹在AES预行刊物3865中所发表,其是于「改进MPEG-2声音多通道编码」中描述,其中,为了与之前的技术兼容,便需要考虑到与之前兼容的模式。至此,便使用兼容矩阵以便由原始五个输入通道获得两个所谓的下行混合(downmix)通道Lc、Rc,除此之外,还可动态地选择三个辅助通道传输以作为辅助数据。
为了发展立体声的不相关性,便在通道群组上使用接合立体声技术,例如,再三个前置通道上使用,亦即,对左通道、右通道和中央通道使用。至此,这三个通道是组合在一起以获得一个组合通道,此组合通道是量子化并封装成一个位串流,接着,该组合通道是与对应的接合立体声信息一起输入至一接合立体声解码模块中,以便获得接合立体声解码通道,亦即,一个接合立体声解码左通道、一个接合立体声解码右通道、以及一个接合立体声解码中央通道。这些接合立体声解码通道会与左环绕通道和右环绕通道一起输入至一个兼容矩阵区块,以便形成该第一和第二下行混合通道Lc、Rc,接着,两个下行通道的量子化结果及该组合通道的量子化结果便会与接合立体声编码信息一起封装成位串流。
因此,使用强度立体声编码,独立的原始通道信号群组是于一个单一部份的「载波」数据内传输,该解码器接着将相关信号重建为相同的数据,其是根据他们的原始能量-时间封装重新度量,最终,该传输通道的一个线性组合便会得到一个结果,其是与原始的下行混合大不相同,任何根据强度立体声编码概念的接合立体声编码技术都会有这个问题。对于提供与下行混合通道兼容的编码系统而言,便可导出一个直接的结果使用上文所描述的反矩阵技术重建,会有因不完美重建所造成的失真现象。使用所谓的接合立体声预失真机制,其中,该左、右、以及中央通道的接合立体声编码是于编码的矩阵化运算前执行,便可避免这个问题。依此方式,重建的反矩阵机制仅会有少数的失真,这是因为在编码器端,接合立体声解码信号便已经用于产生该下行混合通道的缘故,因此,该不完美的重建程序便会移到兼容的下行矩阵通道Lc及Rc,而在该处,其更可能可由该声音信号本身屏蔽掉。
尽管此种系统已经因为在解码器端的反矩阵化运算而只有少数的失真,不过,其还是有一些缺点存在。其中一个便是,该立体声兼容下行混合通道Lc和Rc并非由原始通道而来,而是由原始通道的强度立体声编码/解码结果而来,因此,由于强度立体声编码系统所造成的数据损失便会包含在该兼容下行混合通道中。因此,一个专门对兼容通道解码而非对增强的强度立体声编码通道解码的立体声解码器,便会提供一个输出信号,其是由包含在数据损失中的强度立体声所影响。
除此之外,一个全额外通道必须在两个下行混合通道之间传输,此通道是组合通道,其是由该左通道、右通道、以及中央通道的接合立体声编码所形成。除此之外,由该组合通道重建该原始通道L、R、C的该强度立体声信息,亦必须传输至解码器。在解码器端,执行一个反矩阵,亦即,一个反矩阵化运算,以便得到来自两个下行混合通道的环绕通道。除此之外,该原始左、右、以及中央通道是使用传输组合通道和传输接合立体声参数进行接合立体声解码逼近。值得注意的是,该原始左、右、以及中央通道是由该组合通道的接合立体声解码所得。

发明内容
本发明的目的在于提供一个有效位和降低失真处理或多通道声音信号反处理概念。
根据本发明的第一个样态,此目的可通过一个用于处理多通道声音信号的装置达成,该多通道声音信号具有至少三个原始通道,该装置包含用于提供一第一下行混合通道及一第二下行混合通道的提供装置,该第一和第二下行混合通道是由该原始通道而得;用于计算该原始信号的一选择原始通道的通道端信息的计算装置,该计算装置是运作以便在当使用该通道端信息加权时,计算该通道端信息,如一下行混合通道或是包含该第一和第二下行混合通道的一组合下行混合通道,而产生该选择原始通道的一近似结果;以及用于产生输出数据的一产生装置,该输出数据包含该通道端信息、该第一下行混合通道或是来自该第一下行混合通道的一信号、以及该第二下行混合通道或是来自该第二下行混合通道的一信号。
根据本发明的第二个样态,此目的是通过一种处理多通道声音信号的方法所达成,该多通道声音信号具有至少三个原始通道,该方法的步骤包含提供一第一下行混合通道以及一第二下行混合通道,该第一和第二下行混合通道是得自该原始通道;当使用该通道端信息加权时,计算该原始通道的一选择原始通道的通道端信息,如一下行混合通道或是包含该第一和第二下行混合通道的一组合下行混合通道,而产生该选择原始通道的一近似结果;以及产生输出数据,该输出数据包含该通道端信息、该第一下行混合通道或是来自该第一下行混合通道的一信号、以及该第二下行混合通道或是来自该第二下行混合通道的一信号。
根据本发明的第三个样态,此目的可通过一种输入数据的反处理装置达成,该输入数据包含通道端信息、该第一下行混合通道或是来自该第一下行混合通道的一信号、以及该第二下行混合通道或是来自该第二下行混合通道的一信号,其中,该第一下行混合信号及该第二下行混合信号是得自一多通道声音信号的至少三原始通道,以及其中,当使用该通道端信息加权时,便计算通道端信息,如一下行混合通道或是包含该第一和第二下行混合通道的一组合下行混合通道,而产生该选择原始通道的一近似结果,该装置包含一输入数据读取器,用于读取该输入数据,以获得该第一下行混合通道或是得自该第一下行混合通道的一信号、以及该第二下行混合通道或是得自该第二下行混合通道的一信号、以及该通道端信息;以及一通道重建器,用于重建该选择原始通道的近似结果,其是使用该通道端信息、以及该下行混合通道、或是该组合下行混合通道,以获得该选择原始通道的该近似结果。
根据本发明的第四个样态,此目的可通过一种输入数据的反处理方式达成,该输入数据包含通道端信息、该第一下行混合通道或是得自该第一下行混合通道的一信号、以及第二下行混合通道或是得自该第二下行混合通道的一信号,其中,该第一下行混合信号及该第二下行混合信号是得自一多通道声音信号的至少三原始通道,以及其中,当使用该通道端信息加权时,便计算通道端信息,如一下行混合通道或是包含该第一和第二下行混合通道的一组合下行混合通道,而产生该选择原始通道的一近似结果,该方法的步骤是包含读取该输入数据,以获得该第一下行混合通道或是得自该第一下行混合通道的一信号、以及该第二下行混合通道或是得自该第二下行混合通道的一信号、以及该通道端信息;重建该选择原始信号的近似结果,其是使用该通道端信息、以及该下行混合通道、或是该组合下行混合通道,以获得该选择原始通道的该近似结果。
根据本发明的第五个样态和第六个样态,此目的可通过一种包含该处理方法或是反处理方法的计算机程序所达成。
本发明是基于,当两个下行混合通道较佳地表现左和右立体声通道时,将所获得的多通道声音信号的一有效和降低失真的编码封装成输出数据。
较佳地,可获得一个以上的原始通道的参数通道端信息,其是相关于该下行混合通道之一,而非一个如同先前技术的额外的「组合」接合立体声通道。这表示参数通道端信息是于,举例来说,一解码器端计算。一通道重建器是使用该通道端信息及该下行混合通道其中之一、或是该下行混合通道的一组合,以便重进该原始声音通道的近似结果,其中,该通道端信息是被分派至该原始声音通道。
本发明概念的优势在于,其提供一个有效位的多通道延伸方式,使得一多通道声音信号可于一解码器上播放。
此外,本发明概念与先前标准兼容,这是因为一个较低尺度的解码器,其是仅能用于处理二声道,可简单地忽延伸信息,亦即,该通道端信息。该较低尺度解码器仅能播放两个下行混合通道以获得该原始多通道声音信号的立体声表现。然而,一个较高尺度解码器,其是可供多通道运作,可使用该传输通道端信息,以重建出该原始通道的近似结果。
与先前技术相比,本发明的优势在于,其是有效位,这是因为在该第一和第二下行混合通道Lc、Rc之间不需要额外的载波通道,反之,该通道端信息是与一个或两个下行混合通道相关这表示该下行混合通道本身是作为载波通道用,其中,该通道端信息是组合以重建一原始声音通道。这表示该通道端信息较佳地是参数端信息,亦即,不包含在任何子频带样本或是频谱系数中的信息,反之,该参数端信息是用于加权(时间及/或空间)该个别下行混合通道或是该个别混合通道的组合,以获得一选择原始通道的一重建结果。
在本发明的一较佳实施例中,可得到一个根据兼容立体声信号的多通道信号兼容编码法。较佳地,该兼容立体声信号(下行混合信号)是使用该多通道声音信号的原始通道的矩阵产生。
较佳地,一选择原始通道的通道端信息是根据接合立体声技术获得,如强度立体声编码或是立体声信息编码,因此,在该解码器端,并不需要进行反矩阵化运算。与反矩阵有关的问题,亦即,在反矩阵化运算中,关于量子化噪声分布的特定失真便可避免。这是由于该解码器使用一个通道重建器,其是重建一个原始信号,其通过使用该下行混合通道或是该下行混合通道和该传输通道端信息的组合进行重建信号。
较佳地,本发明的概念可用于具有五个通道的多通道声音信号,这五个通道是左通道L、右通道R、中央通道C、左环绕通道Ls、以及右环绕通道Rs。较佳地,下行混合通道是立体声兼容下行通道Ls和Rs,其提供原始多通道声音信号的立体声表现。
根据本发明的一较佳实施例,对每个原始通道而言,通道端信息是于一编码器端计算并封装入输出数据。原始左通道的通道端信息是使用左下行混合通道而得,原始左环绕通道的通道端信息是使用左下行混合通道而得,原始右通道的通道端信息是使用右下行混合通道而得,原始右环绕通道的通道端信息是使用右下行混合通道而得。
根据本发明的较佳实施例,原始中央通道的通道信息是使用该第一下行混合通道及该第二下行混合通道而得,亦即,使用该两个下行混合通道的组合而得。较佳地,此组合是总和。
因此,该分组,亦即,通道端信息和载波信号之间的关系,亦即,该使用下行混合通道以提供一选择原始通道的通道端信息,对最佳化品质来说,是选择特定下行混合通道,其包含该个别原始多通道信号的最高可能关联量,其是使用通道端信息表现。对于一接合立体声载波信号而言,便会使用该第一和该第二下行混合通道。较佳地,亦可使用该第一和第二下行混合通道的总和,自然地,该第一和第二下行混合通道总和可用于计算每该原始通道的通道端信息。然而,较佳地,该下行混合通道的总和是用于计算在一环绕环境中,该原始中央通道的通道端信息,如五通道环绕、七通道环绕、5.1环绕或是7.1环绕。使用该第一和第二下行混合通道的总和尤其具有优势,因为不需要执行额外的传输负担,这是因为两个下行混合通道是于该解码器中出现,使得可轻易地对这些下行混合通道加总,而不需要任何额外的传输位。
较佳地,形成该多通道延伸的该通道端信息是以一种兼容方式输入至该输出数据位串流,使得一较低尺度解码器可简单地忽略该多通道延伸数据且仅提供该多通道声音信号的立体表现,不过,一个高尺度编码器不仅使用两个下行混合通道,还利用该通道端信息以重建该原始声音信号的完整多通道表现。
本发明的一解码器是如下运作。首先,将两个下行混合通道解码,并读取该选择原始通道的通道端信息。接着,该通道端信息及该下行混合通道是用于重建该原始通道的近似结果。至此,较佳地,不需要执行任何反矩阵化运算,这表示,在此实施例中,举例来说,每该五原始输入通道是使用五组不同的通道端信息进行重建。在解码器中,执行与在编码器中相同的分组,以便计算该重建的通道近似结果。在一个五通道的环境中,此表示,对重建该原始左通道而言,会使用到该左下行混合通道及该左通道的通道端信息。为了重建该原始右通道,便会使用到该右下行混合通道及该右通道的通道端信息。为了重建该原始中央通道,便会使用到由该第一下行混合、该第二下行混合通道、以及该中央通道端信息所形成的一组合通道。
自然地,亦可能重新播放该第一和第二下行混合通道以作为左和右通道,使得仅有三组(而不是五组)通道端信息参数传输。然而,这只有在某些情况下才会合理,那便是对品质无较严苛的规则下才可行。这是因为,一般来说,左下行混合通道和右下行混合通道与原始左通道或原始右通道不同,只有在使用者不能负担传输每该原始通道的通道端信息时,此种处理方式才有优势。


通过下文中一较佳实施例的描述、所给予的范例,并参照对应的附图,本发明可获得更详细地了解,其中图1所示为根据本发明的编码器的较佳实施例;图2所示为根据本发明的解码器的较佳实施例;图3A所示为一较佳实施装置的方块图,该装置是用于计算以获得频率选择调端信息;图3B所示为实施接合立体声处理的计算器的较佳实施例,该接合立体声处理可为强度立体声编码或是立体声信号编码;图4所示为另一个用于计算通道端信息的装置的较佳实施例,其中,该通道端信息是增益因子;图5所示为实施解码器的较佳实施例,其是当该编码器如图4实施时;图6所示为用于提供下行混合通道的装置的较佳实施方式;图7所示为原始和下行混合通道分组方式,用于计算个别原始通道的通道端信息;图8所示为根据本发明的编码器的另一较佳实施例;图9所示为根据本发明的解码器的另一较佳实施例;图10所示为根据先前技术的接合立体声编码器。
具体实施例方式
图1所示为一种用于处理一个多通道声音信号10的装置,其具有至少三个原始通道,如R、L以及C,较佳地,原始声音信号具有三个以上的通道,如在环绕环境中的五个通道,其是如图1所示。五个通道是左通道L、右通道R、中央通道C、左环绕通道Ls、以及右环绕通道Rs。本发明的装置包含提供装置12,用于提供一个第一下行混合通道Lc以及一个第二下行混合通道Rc,该第一和第二下行混合通道可由原始通道获得。为了由该原始通道获得该下行混合通道,有数种可行的方式。一个方式便是通过使用图6的矩阵化运算对原始通道矩阵化,以便获得该下行混合通道Lc和Rc,此矩阵化运算是于时间域中执行。
选择该矩阵参数a、b、c,使得其低于或等于1,较佳地,a及b是等于0.7或0.5,而较佳地选择总加权参数t,可避免该通道缩减。
或者,如图1所示,该下行混合通道Lc及Rc亦可由外部提供,当该下行混合通道Lc及Rc为「手动混合(hand mixing)」运算时,便可达成。依此方式,一声音引擎自身将该下行混合频混合,而不是通过使用自动混合矩阵化运算,该声音引擎执行产生混合,以便获取最佳化下行混合Lc和Rc,其是给予该原始多通道声音信号可能最佳的立体声表现。
在由外部提供下行混合通道的例子中,提供装置并不执行矩阵化运算,而是单纯地将外部所提供的下行混合通道转送至接续的计算装置14。
该计算装置14是运作以分别计算所选择的原始通道(例如L、Ls、R、或Rs)的该通道端信息(例如li、lsi、ri、或rsi),该计算装置14是运作以计算该通道端信息,使得当使用该通道端信息加权时,一下行混合通道可产生该所选原始通道的近似结果。
或者或是此外,用于计算该通道端信息的计算装置还运作以计算一选择原始通道的通道端信息,使得在使用该计算通道端信息加权时,包含该第一和第二下行混合通道的一组合下行混合通道可产生该所选原始通道的近似结果。为了在附图中展示此特征,因此便在图中增加一加法器14a以及一组合通道端信息计算器14b。
对于熟悉本技术的人士而言,很清楚地,这些组件并不需要以分开组件实施,反之,方块14、14a、及14b的所有功能皆可以一特定处理器执行,其可为一般化功能的处理器或是任何用于执行所需功能的其它装置。
此外,在此必须注意的是,为子频带样本或是频率域值的通道信号是以大写字母指示,与通道本身相反,通道端信息则是以小写字母表示,因此,该通道端信息ci是原始中央通道C的通道端信息。
由一声音编码器16所产生的通道端信息及该下行混合通道Lc和Rc,或是编码版本Lc’及Rc’,是输入至一输出数据格式器18。一般来说,该输出数据格式器18是用于作为产生输出数据的装置,该输出数据包含至少下列其中之一的该通道端信息一原始通道、该第一下行混合通道或是来自该第一下行混合通道(例如其编码版本)的一信号、以及该第二下行混合通道或是来自该第二下行混合通道(例如其编码版本)的一信号。
该输出数据或是输出位串流20接着可传输至一位串流解码器,或是可储存或是分散。较佳地,该输出位串流20是一兼容位串流,其亦可由不具有多通道延伸功能的较低尺度解码器所读取,此类较低尺度解码器,如大多数现存的mp3解码器,将简单地略去该多通道延伸数据,亦即,该通道端信息,其将仅解码该第一和第二下行混合通道以便产生一立体声输出。较高尺度解码器,如多通道解码器,将读取该通道端信息,且将产生该原始声音通道的一近似结果,以便可获得多通道声音表现。
图8所示为本发明在五通道环绕/mp3环境中的较佳实施例。在此,其较佳地是将该环绕增强数据写入在标准化mp3位串流语法的该辅助数据域位中,以便可获得一个「mp3环绕」位串流。
图2所示为本发明的解码器,其是运作以作为在输入数据端口22所接收的输入数据的反处理装置。于该输出数据端口22所接收的数据是与图1中的该输出数据端口20输出的相同数据。或者,在数据输入端口22所接收的数据亦可使用该编码器由该原始数据产生而获得。
该解码器输入数据是输入至一数据串流读取器24,用于读取该输入数据,以便最终获得该通道端信息26及该左下行混合通道28和该右下行混合通道30。在输入数据包含该下行混合通道的编码版本的案例中,其对应图1所示的该声音编码器16的案例,该数据串流读取器24亦包含一声音解码器,其是对应用于编码该下行混合通道的声音编码器。在此案例中,该声音解码器,其是该数据串流读取器24的一部份,是运作以产生该第一下行混合通道Lc及该第二下行混合通道Rc,或者,更精确地说,这些通道的解码版本。为了方便说明,信号和其解码版本之间是仅在明白标示时才有区别。
由该数据串流读取器24所输出的该通道端信息26及该左和右下行混合通道28和30,是输入至一多通道重建器32,用于提供该原始声音信号的一重建版本34,其可由多通道播放器36播放。在多通道重建器于频率域运作的案例中,该多通道播放器36将接收频率域输入数据,其必须以特定方式解码,如在播放前转换成时间域。至此,该多通道播放器36亦可包含解码功能。
在此,值得注意的是,一个较低尺度的解码器将仅具有该数据串流读取器24,其是仅输出该左和右下行混合通道28和30至一立体声输出38。然而,本发明的增强解码器将撷取该通道端信息26,并使用这些通道端信息和下行混合通道28和30,以使用该多通道重建器32重建该原始通道的重建版本34。
图3A所示为本发明计算器14的较佳实施例,其是用于计算该通道端信息,其中,一方面一声音编码器,而另一方面该通道端信息计算器,是于与多通道信号的表现相同的频谱上运作。然而,图1显示了另一种方式,其中,一方面一声音编码器,而另一方面该通道端信息计算器,是于与多通道信号的表现不同的频谱上运作。当计算资源不如声音品质重要时,图1方式较佳,因为滤波储会个别对声音编码最佳化,且可使用通道端信息,然而,当考虑到计算资源时,图3A的方式较佳,因为组件共享资源的关系,此方式仅需较少的计算功率。
图3A所示的装置是运作以接收两个通道A、B。图3A所示的装置是运作以计算通道B的通道端信息,以便该所选原始通道B的通道端信息,通道B的一重建版本可由该通道信号A计算。此外,图3A所示的装置是运作以形成频率域通道端信息,如加权参数(例如通过如在BCC编码中的乘法和时间处理)频谱值或是子频带样本。至此,本发明的计算器包含窗口和时间/频率转换装置140a,以便在一输出140b获得通道A的频率表现,或是在一输出140c获得通道B的频率域表现。
在该较佳实施例中,该端信息决定(由该端信息决定装置140f)是使用量子化频谱值执行,接着,亦使用一量子化器140d,其较佳地控使用一心理声学的模型控制,其是具有一心理声学模型控制输入140e。除此之外,当该端信息决定装置140c使用该通道A的非量子化表现时,亦可不需要一量子化器来决定通道B的通道端信息。
在通道B的通道端信息由该通道A的频率域表现和该通道B的频率域表现计算的案例中,该窗口和时间/频率转换装置140a可与用于以滤波储为基础的声音编码器中相同。在此案例中,当考虑AAC(ISO/IEC 13818-3)时,装置140a是以具有50%重叠及增加功能的MDCT滤波储实施(MDCT=修正离散余弦变换)。
在此案例中,该量子化器140d是一迭代量子化器,如同当mp3或AAC产生编码声音信号时所使用。通道A的频率域表现,其较佳地是已经量子化,接着并可直接用于使用一熵编码器140g的熵编码,其可为一个以霍夫曼(Huffman)为基础的编码器或是实施计算编码(arithmetic)的熵编码器。
当与图1比较时,图3A的装置输出是一原始通道(对应在装置140f的输出的B的端信息)的端信息li,通道A的熵编码位串流对应图1的方块16的输出的编码左下行户合通道Lc’。由图3A可清楚地知道,组件14(图1),亦即,用于计算该通道端信息的计算装置,以及该声音编码器(图1),可以分离的装置实施,或是可以共享版本的方式实施,使得两个装置可以共享数个组件,如MDCT滤波储140a、量子化器140e、以及该熵编码器140g。自然地,万一需要不同变换方式以决定该通道端信息,该编码器16及该计算器14(图1)将以不同装置实施,以便两个组件不会共享该滤波储。
一般来说,用于计算该端信息的决定器(或是计算器14),可实施为一接合立体声组件,如同图3B所示,其是根据任何接合立体声技术运作,如强度立体声编码或是立体声信号编码技术。
相对于现有的强度立体声编码器,本发明的决定装置140f并不需要计算组合通道。该「组合通道」或是载波通道已经存在,且是该左兼容下行混合通道Lc、或是该右兼容下行混合通道Rc、或是这些下行混合通道的组合版本,如Lc+Rc。因此,本发明装置140f仅需要计算衡量个别下行混合通道的衡量信息,以便当该下行混合通道使用该衡量信息或该强度导向信息加权时,获得该个别所选原始通道的能量/时间封装。
因此,在图3B中的该接合立体声组件140f,是说明其作为一输入接收该「组合」通道A,其是该第一或第二下行混合通道或是该下行混合通道的组合,以及该原始所选通道。自然地,此组件输出该「组合」通道A及该接合立体声参数作为通道端信息,以便使用该组合通道A及该接合立体声参数来计算该原始所选通道B的一近似结果。
或者,该接合立体声组件140f可实施以执行立体声信号编码。
在BCC的案例中,该接合立体声组件140f是运作以输出该通道端信息,以便量子化该通道端信息并编码ICLD和ICTD参数,其中该所选原始通道是作为确实预处理的通道,同时用于计算该端信息的该个别下行混合通道,如该第一、第二或是该第一和第二下行混合通道的一组合,是用于作为BCC编码/解码技术中的参考通道。
请参照图4,所示为一个简单的能量导向实施组件140f。该装置包含一频率带选择器44,用于由通道A选择一频率带及通道B的一对应频率带。接着,在两个频率带中,由一能量计算器42为每该分支计算能量,该能量计算器的详细实施将端视方块40的输出信号是否为子频带信号或是频率系数。在其它的实施方式,其中,尺度因子带的尺度因子被计算,可使用该第一和第二通道A、B的尺度因子作为能量值EA以及EB,或是至少作为该能量的估测值。在一增益因子计算装置44中,该所选频率带的一增益因子ga是根据一特定法则决定,如图4的方块44中所说明的增益决定法则。在此,该增益因子ga可直接地用于加权时间域样本或是稍后将在图5所描述的频率系数。至此,该增益因子gB,其是对所选频率带有效,是用于作为视为该所选原始通道的该通道B的通道端信息,此所选原始通道B将不需要传输至解码器,但将由如同图1中的计算器14所计算的参数通道端信息所表现。
在此,值得注意的是,并不需要传输增益值作为通道端信息,传输关于该所选原始通道的决定能量的频率相依值便足够。接着,该解码器必须计算该下行混合通道及该增益因子的确实能量,其是根据该通道B的下行混合通道能量及传输能量。
图5所示为一个可能的解码器实施方式,其是设定连接以变换为基础的知觉声音编码器。与图2相比,该熵解码器及反转量子化50(图5)的功能将包含于图2中的方块24中。然而,该频率/时间转换组件52a、52b(图5)的功能,将实施于图2的组件36中,图5的组件50接收该第一或第二下行混合信号Lc′或Rc′的编码版本,在该组件50的输出上,便有该第一和该第二下行混合通道的至少部份编码版本,其接着将称为通道A。通道A是输入至一频率带选择器54,用于由通道A选择一特定频率带,此所选频率带是使用一乘法器56加权,用于进行乘法运算的该乘法器56接收一特定增益因子gB,其是分派给该由该频率带选择器54所选择的所选频率带,其是对应图4在编码器端的该频率带选择器40。在频率时间转换器52a的输出端,便有通道A的频率A表现及其它频带。在乘法器56的输出,及尤其在该频率/时间转换装置52b的输入,将会有通道B的频率域表现。因此,在组件52a的输出,将会有通道A的时间域表现,同时,在组件52b的输出,会有重建通道B的时间域表现。
值得注意的是,根据该特定实施,该解码下行混合通道Lc或Rc并未于多通道增强解码器中播放,在多通道增强解码器中,该解码下行混合通道仅用于重建该原始通道,该解码下行混合通道是仅在较低尺度立体声解码器中播放。
至此,请参照图9,其所示为本发明在环绕/mp3环境中的较佳实施例。一mp3增强环绕位串流是输入至一标准mp3解码器24,其输出该原始下行混合通道的解码版本,此下行混合通道接着可直接地以较低阶的解码器回放。或者,这两个通道是输入至较高等的接合立体声解码装置32,其亦接收该多通道延伸数据,其较佳地是输入至在mp3位串流的辅助数据域位。
接着,请参照图7,所示为该所选原始通道及个别下行混合通道或是组合下行混合通道的分组。在此,图7的右边字段是对应图3A、图3B、图4、图5的通道A,同时,在中央的字段对应这些图的通道B。在图7的左边字段中,这些个别通道端信息是清楚地描述,根据图7的表,该左通道L的该通道端信息li是使用左下行混合通道Lc计算,该左环绕通道端信息lsi是由该原始所选左环绕通道Ls决定,且该左下行混合通道Lc是载波。该右通道R的该通道端信息ri是使用右下行混合通道Rc计算,此外,该右环绕通道Rs的通道端信息是使用该该右下行混合通道Lc作为载波所决定。最后,该中央通道C的该中央端通道信息ci是使用该组合下行混合通道决定,其是由该第一和第二下行混合通道的组合获得,其可轻易地在编码器和解码器中计算,且并不需要传输额外的位。
自然地,举例来说,亦可根据一组合下行混合通道或是甚至一下行混合通道,计算该中央通道的通道端信息,其是由该第一和第二下行混合通道的加权加法所获得,如0.7 Lc及0.3 Rc,只要该加权参数可由加码器获知或是传输该加权参数。然而,对大多数的应用而言,其较佳地仅由该组合下行混合通道获得该中央通道的通道端信息,亦即,该第一和第二下行混合通道的一组合获得。
为了展示本发明节省位的潜力,因此给予下列的典型例子。在五通道声音信号方面,一个一般的编码器,每通道需要64kbit/s的位率,五个通道总共需要320kbits/s。该左和右立体声信号需要128kbits/s的位率,一个通道的通道端信息约介于1.5和2kbits/s之间。因此,在此案例中,每该五通道的通道端信息是被传输,此额外数据仅需增加7.5至10kbits/s,因此,本发明概念使得五个通道传输使用138kbits/s的位率(与320(!)kbits/s相比),而仍具有很好的品质,因为该解码器并未使用有问题的反矩阵运算。更重要的可能是,本发明的概念完全跟以前的技术兼容,因为每该现存的mp3播放器可回放该第一下行混合通道及该第二下行混合通道,以产生一个传统的立体声输出。
根据应用环境,本发明处理或反处理的方法可用于硬件或是软件,该实施可为数字储存媒体,如具有电子可读控制信号的光盘或是CD,其可与可程序化的计算机系统合作,以便本发明用于处理或反处理的方法可执行。一般来说,本发明因此亦可与具有储存于一机器可读载体织程序代码的计算机程序产品相关,当该计算机程序产品在计算机上执行时,该程序代码是适用于执行本发明。换句话说,当该计算机程序在计算机上执行时,本发明因此亦与用于执行本发明的程序代码相关。
尽管本发明的特征和组件皆于实施例中以特定组合方式所描述,但实施例中每一特征或组件能独自使用,而不需与较佳实施方式的其它特征或组件组合,或是与/不与本发明的其它特征和组件做不同的组合。尽管本发明已经通过较佳实施例描述,其它不脱离本发明权利要求的变型,对熟悉本技术的人士来说还是显而易见的。
权利要求
1.一种用于处理一多通道声音信号的装置,该多通道声音信号具有至少三个原始通道,其包含一提供装置(12),用于提供一第一下行混合通道及一第二下行混合通道,该第一和该第二下行混合通道由该原始通道而得;一计算装置(14),用于计算该原始信号的一个所选原始通道的通道端信息,该计算装置是运作以计算该通道端信息,使得当使用该通道端信息加权时,包含该第一和该第二下行混合通道的一下行混合通道或是一组合下行混合通道可产生该所选原始通道的一近似结果;一产生装置(18),用于产生输出数据,该输出数据包含该通道端信息。
2.如权利要求1所述的装置,其特征在于该产生装置(18)是运作以产生该输出数据,使得该输出数据还包含该第一下行混合通道或是来自该第一下行混合通道的一信号、以及该第二下行混合通道或是来自该第二下行混合通道的一信号。
3.如权利要求1或2所述的装置,其特征在于该计算装置(14)是运作以决定该通道端信息,该通道端信息作为不包含时间域样本或频谱值的参数数据。
4.如权利要求1至3中任一所述的装置,其特征在于该计算装置(14)是运作以执行接合立体声编码,使用下行混合通道作为其一载波通道,且使用该所选原始通道作为一输入通道以产生接合立体声参数以作为该所选原始通道的通道端信息。
5.如权利要求3所述的装置,其特征在于该计算装置(14)是运作以执行强度立体声编码或是立体声信号编码,使得该通道端信息代表该所选原始通道的一能量分布或是立体声信号参数,其中一下行混合信号或是一组合下行混合信号可作为一载波通道。
6.如权利要求1至5中任一所述的装置,其特征在于该多通道声音信号包含一左通道、一左环绕通道、一右通道、以及一右环绕通道;其中该提供装置(12)是运作以提供该第一下行混合通道作为一左下行混合通道,且提供该第二下行混合通道作为一右下行混合通道,形成该左和该右下行混合通道,使得当播放时,该多通道声音信号为一立体声表现,以及;其中该计算装置(14)是运作以使用该左下行混合通道计算该左通道的通道端信息,以作为该所选原始通道;使用该右下行混合通道计算该右通道的通道端信息,以作为该所选原始通道;使用该左下行混合通道计算该左环绕通道的通道端信息,以作为该所选原始通道;使用该右下行混合通道计算该右环绕通道的通道端信息,以作为该所选原始通道。
7.如权利要求1至6中任一所述的装置,其特征在于该原始通道包含一中央通道;其还包含一组合器(14a),用于组合该第一下行混合通道及该第二下行混合通道,以获得该组合下行混合通道;以及其中计算该中央通道作为该所选原始通道的通道端信息的计算装置,是运作以计算(14b)该通道端信息,使得当使用该通道端信息加权时,该组合下行混合通道可产生该原始中央通道的一近似结果。
8.如权利要求1至7中任一所述的装置,其特征在于该提供装置(12)是运作以使用该第一下行混合通道的一第一预设线性加权组合,及使用该第二下行混合通道的一第二预设线性加权组合,获得该第一下行混合通道及该第二下行混合通道。
9.如权利要求7所述的装置,其特征在于该第一预设线性加权组合定义如下Lc=t·(L+a·Ls+b·C);或是其中该第二线性加权组合定义如下Rc=t·(R+a·Rs+b·C),其中Lc为该左下行混合通道,Rc为该第二下行混合通道,t、a、以及b为小于1的加权因子,L为一原始左通道,C为一原始中央通道,R为一原始右通道,Ls为一原始左环绕通道,以及Rs为一原始右环绕通道。
10.如权利要求1至9中任一所述的装置,其特征在于该提供装置(12)是运作以接收外部提供的第一和第二下行混合通道。
11.如权利要求1至10中任一所述的装置,其特征在于该第一下行混合通道及该第二下行混合通道为组合通道,其为该原始通道以不同程度组合,其中,该计算装置为了计算该通道端信息,是运作以使用该下行混合通道之间的下行混合通道,当与其它下行混合通道相比,其对该所选原始通道具有较强的影响。
12.如权利要求1至11中任一所述的装置,其特征在于该产生装置(18)是运作以形成该输出数据,使得该输出数据与由一低阶解码器所使用的输出数据语言兼容,以处理该第一下行混合通道或是来自该第一下行混合通道的一信号、或是该第二下行混合通道或来自该第二下行混合通道的一信号,以获得该多通道声音信号的一解码立体声表现。
13.如权利要求12所述的装置,其特征在于该输出数据语言为结构化,使其包含一特殊数据域位,其由一低阶解码器忽略,以及其中该产生装置是运作以将该通道端信息插入该特殊数据域位。
14.如权利要求13所述的装置,其特征在于该语言为mp3语言,且该特殊数据域位为一辅助数据域位。
15.如权利要求12至14中任一所述的装置,其特征在于该产生装置(18)是运作以将该通道端信息插入该输出数据,使得该通道端信息仅由一高阶解码器使用,而由该低阶解码器所忽略。
16.如权利要求2至15中任一所述的装置,其特征在于该装置还包含一编码器(16),用于编码该第一下行混合通道,以获得来自该第一下混通道的该信号,或是用于编码该第二下行混合通道,以获得来自该第二下行混合通道的该信号。
17.如权利要求16所述的装置,其特征在于该编码器(16)为一知觉编码器,其包含一转换装置,用于将预编码的一信号转换成一知觉表现;一量子化装置,用于使用一生理声学模型量子化该知觉表现;以及一熵编码装置,用于编码一量子化知觉表现,以获得一熵编码量子化知觉表现,作为得自该第一下行混合通道的该信号,或是得自该第二下行混合通道的该信号。
18.如权利要求17所述的装置,其特征在于该知觉编码器(16)为根据MPEG-1/2层III(mp3)或MPEG-2/4高等声音编码(ACC)的一编码器。
19.如权利要求1至18中任一所述的装置,其特征在于该计算装置(14)是运作以计算该下行混合通道或是该组合下行混合通道的下行混合能量值;计算该所选原始通道的一原始能量值;以及计算一增益因子作为该通道端信息,该增益因子得自该下行混合能量值及该原始能量值。
20.如权利要求1至19中任一所述的装置,其特征在于该计算装置(14)是运作以计算频率相依通道端信息参数,使得对多个频率带来说,可获得多个不同通道端信息参数。
21.一种用于处理多通道声音信号的方法,该多通道声音信号具有至少三个原始通道,其步骤包含提供(12)一第一下行混合通道及一第二下行混合通道,该第一和该第二下行混合通道由该原始通道而得;计算(14)该原始信号的一所选原始通道的通道端信息,使得当使用该通道端信息加权时,包含该第一和该第二下行混合通道的一下行混合频号或是一组合下行混合通道,可产生该所选原始通道的一近似结果;产生(18)输出数据,该输出数据包含该通道端信息。
22.一种用于反处理输入数据的装置,该输入数据包含通道端信息、一第一下行混合通道或是来自该第一下行混合通道的一信号、以及一第二下行混合通道或是来自该第二下行混合通道的一信号,其中该第一下行混合通道及该第二下行混合通道来自一多通道声音信号的至少三个原始通道,以及其中计算该通道端信息,使得当使用该通道端信息加权时,包含该第一下行混合通道及该第二下行混合通道的一下行混合通道或是一组合下行混合通道,可产生该所选原始通道的一近似结果,该装置包含一输入数据读取器(24),用于读取该输入数据,以获得该第一下行混合通道或是来自该第一下行混合通道的一信号、以及该第二下行混合通道或是来自该第二下行混合通道的一信号、以及该通道端信息;以及一通道重建器(32),用于重建该所选原始通道的该近似结果,其使用该通道端信息及该下行混合通道或该组合下行混合通道,以获得该所选原始通道的该近似结果。
23.如权利要求22所述的装置,其特征在于还包含一知觉解码器(24),用于解码来自该第一下行混合通道的一信号,以获得该第一下行混合通道的该解码版本,以及用于解码来自该第二下行混合通道的该信号,以获得该第二下行混合通道的一解码版本。
24.如权利要求22至23所述的装置,其特征在于还包含一组合器,用于组合该第一下行混合通道及该第二下行混合通道,以获得该组合下行混合通道。
25.如权利要求22至24中任一所述的装置,其特征在于该原始信号包含一左通道、一左环绕通道、一右通道、一右环绕通道、以及一中央通道;其中,该第一下行混合通道及该第二下行混合通道分别为一左下行混合通道及一右下行混合通道;以及其中,该输入数据包含该左通道、该左环绕通道、该右通道、该右环绕通道、以及该中央通道中至少其中三个的通道端信息;其中,该通道重建器(32)是运作以使用该左通道及该左下行混合通道的通道端信息,重建该左通道的一近似结果;使用该左环绕通道及该左下行混合通道的通道端信息,重建该左环绕通道的一近似结果;使用该右通道及该右下行混合通道的通道端信息,重建该右通道的一近似结果;使用该右环绕通道及该右下行混合通道的通道端信息,重建该右环绕通道的一近似结果。
26.如权利要求22至25中任一所述的装置,其特征在于该通道重建器是运作以使用该中央通道及该组合下行混合通道的通道端信息,重建该中央通道的一近似果。
27.一种用于反处理输入数据的方法,该输入数据包含通道端信息、一第一下行混合通道或是来自该第一下行混合通道的一信号、以及一第二下行混合通道或是来自该第二下行混合通道的一信号,其中该第一下行混合通道及该第二下行混合通道来自一多通道声音信号的至少三个原始通道,以及其中,计算该通道端信息,使得当使用该通道端信息加权时,包含该第一下行混合通道及该第二下行混合通道的一下行混合通道或是一组合下行混合通道,可产生该所选原始通道的一近似结果,其步骤包含读取(24)该输入数据,以获得该第一下行混合通道或是来自该第一下行混合通道的一信号、以及该第二下行混合通道或是来自该第二下行混合通道的一信号、以及该通道端信息;以及重建(32)该所选原始通道的该近似结果,其使用该通道端信息及该下行混合通道或该组合下行混合通道,以获得该所选原始通道的该近似结果。
28.一种具有一程序代码的计算机程序,其特征在于该程序代码用于执行根据权利要求21或27中任一所述的方法。
全文摘要
在处理一个具有至少三个原始通道的多通道声音信号中,提供一第一下行混合通道及一第二下行混合通道(12),其来自该原始通道。对该原始通道的一所选原始通道而言,计算该通道端信息(14),使得当使用该通道端信息加权时,包含该第一和该第二下行混合通道的一下行混合通道或是一组合下行混合通道,可产生该所选原始通道的一近似结果。该通道端信息及该第一和该第二下行混合通道形成输出数据(20),以传输至一解码器,其中,在一低阶解码器的情形中,仅解码该第一和第二下行混合通道,或是在一高阶解码器的情形中,根据该下行混合通道及该通道端信息,提供一个完整的多通道声音信号。因为该通道端信息仅占有少量的位,且因为该解码器并不需要反矩阵化,因此,对立体声播放器而言,可获得一个有效率且高品质的多通道延伸并增强多通道播放器。
文档编号H04S3/02GK1864436SQ200480028776
公开日2006年11月15日 申请日期2004年9月30日 优先权日2003年10月2日
发明者约尔根·赫瑞, 约翰内斯·希勒佩特, 史蒂芬·盖尔斯贝尔格尔, 安德鲁·霍尔茨尔, 克劳斯·史宾格尔 申请人:德商弗朗霍夫应用研究促进学会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1