多信道音频编码的制作方法

文档序号:7649131阅读:85来源:国知局
专利名称:多信道音频编码的制作方法
技术领域
本发明一般涉及音频信号处理。本发明尤其适用于低比特率和甚低比特率音频信号处理。具体地说,本发明的方面涉及编码器(或编码过程),解码器(或解码过程),和音频信号的编码/解码系统(或编码/解码过程),其中多个音频信道用复合单声音频信道和辅助(“侧链”)信息来表示。或者,多个音频信道用多个音频信道和侧链信息来表示。 本发明的方面还涉及多信道-复合单声信道下混合器(或下混合过程),单声信道-多信道上混合器(或上混合过程),和单声信道-多信道解相关器(或解相关过程)。本发明其他方面涉及多信道-多信道下混合器(或下混合过程),多信道-多信道上混合器(或上混合过程),和解相关器(或解相关过程)。
背景技术
在AC-3数字音频编码和解码系统中,当系统缺少比特时,可以有选择地在高频对信道进行合并或“耦合”。AC-3系统的细节在本技术领域是众所周知的,例如参见ATSC Standard A52/A :Digital AudioCompression Stan dard(AC-3), Revision A, Advanced TelevisionSystems Committee, 20Aug. 2001。A/52A 文献可以从万维网上的 http://www. atsc. org/standards. html得到。A/52A文献在此全部包含作为参考。AC-3系统根据需要以高于某一频率对信道进行合并,这一频率被称为“耦合”频率。高于耦合频率时,所耦合的信道被合并成“耦合”或复合信道。编码器为每一信道中高于耦合频率的每一子带产生“耦合坐标”(振幅比例因子)。耦合坐标表示每一耦合信道子带的原始能量与复合信道中相应子带的能量的比率。低于耦合频率时,信道被分立地编码。 为了减少异相信号分量抵消,耦合信道的子带的相位极性在该信道与一个或多个其他耦合信道合并之前可以先被反向。复合信道与侧链信息(按每一子带含有耦合坐标以及信道相位是否反向)一起被发送到解码器。实际上,AC-3系统的商用实施方式中所用的耦合频率的范围是从约 IOkHz 到约 3500Hzο 美国专利 5,583,962,5, 633,981,5, 727,119,5, 909,664 和6,021,386包括一些教导,涉及将多个音频信道合并成复合信道以及辅助或侧链信息, 和由此恢复出原始多个信道的近似。所述专利中的每一个在此全部包含作为参考。

发明内容
本发明的方面可以被认为是AC-3编码和解码系统的“耦合”技术的改进,同时也是如下其他技术的改进将多个音频信道合并成单声复合信号,或合并成多个音频信道连同相关辅助信息,以及重建多个音频信道。本发明的方面还可以被认为是这样一些技术的改进将多个音频信道下混合到单声音频信号或下混合到多个音频信道,和将从单声音频信道或从多个音频信道得到的多个音频信道解相关。
本发明的方面可以用于N: 1 :N的空间音频编码技术中(其中“N”是音频信道数) 或M: 1 :N的空间音频编码技术中(其中“M”是编码的音频信道数而“N”是解码的音频信道数),这些技术尤其通过提供改进的相位补偿、解相关机制和与信号相关的可变时间常数来改进信道耦合。本发明的方面还可以用于N:X:N和M:X:N的空间音频编码技术中(其中 “X”可以是1或大于1)。目的在于,在下混合之前通过调整信道间相对相位来减小编码过程中的耦合抵消人为产物,和通过在解码器中恢复相角和解相关度来改进再现信号的空间维度。本发明的方面在实际实施方式中体现时,应当考虑到连续不断的而不是请求式的信道耦合以及比例如AC-3系统中更低的耦合频率,从而降低所需的数据率。


图1是示出体现本发明的方面的N: 1编码配置的主要功能或设备的理想化框图。图2是示出体现本发明的方面的1:N解码配置的主要功能或设备的理想化框图。图3示出了下述内容的简化的概念性结构的一个例子沿(纵向)频率轴的bin 和子带,和沿(横向)时间轴的块和帧。该图没有按比例绘制。图4具有混合流程图和功能框图的性质,示出了用于实现体现本发明的方面的编码配置的功能的编码步骤或设备。图5具有混合流程图和功能框图的性质,示出了用于实现体现本发明的方面的解码配置的功能的解码步骤或设备。图6是示出体现本发明的方面的第一种N:X编码配置的主要功能或设备的理想化框图。图7是示出体现本发明的方面的x:M解码配置的主要功能或设备的理想化框图。图8是示出体现本发明的方面的第一种可选X:M解码配置的主要功能或设备的理想化框图。图9是示出体现本发明的方面的第二种可选x:M解码配置的主要功能或设备的理想化框图。
具体实施例方式基本N: 1编码器参照图1,示出了体现本发明的方面的N:1编码器功能或设备。该图是作为体现本发明的方面的基本编码器所实现的功能或结构的一个例子。实施本发明的方面的其他功能或结构配置也可以使用,包括如下所述的可选和/或等价的功能或结构配置。两个或两个以上音频输入信道输入到编码器。尽管原则上本发明的方面可以用模拟、数字或混合模拟/数字实施方式来实施,但本文所公开的例子是数字实施方式。因此, 输入信号可以是已从模拟音频信号中得到的时间样值。时间样值可以被编码成线性脉码调制(PCM)信号。每个线性PCM音频输入信道都由具有同相和正交输出的滤波器组功能或设备进行处理,比如通过512点开窗的正向离散傅里叶变换(DFT)(由快速傅里叶变换(FFT) 所实现)进行处理。滤波器组可以被认为是一种时域-频域变换。图1示出了各自输入到滤波器组功能或设备“滤波器组” 2的第一 PCM信道输入 (信道“1”)和输入到另一滤波器组功能或设备“滤波器组” 4的第二 PCM信道输入(信道“η”)。可以有“η”个输入信道,其中“η”是大于等于2的正整数。因此,相应地有“η”个滤波器组,每个都接收“η”个输入信道中的唯一一个信道。为了便于说明,图1只示出了两个输入信道“1”和“η”。当用FFT实现滤波器组时,输入时域信号被分割成连续的块,然后通常以交叠的块进行处理。FFT的离散频率输出(变换系数)称之为bin,每个bin都有一个具有实部和虚部(分别相应于同相和正交分量)的复值。邻接的变换bin可以组合成接近于人耳听觉临界带宽的子带,并且由编码器产生的大部分侧链信息(如下所述)可以按每一子带进行计算和发送,以便最大限度地减少处理资源和降低比特率。多个连续的时域块可以组合成帧,单个块的值在每帧上进行平均或反过来进行合并或累积,以便最大限度地降低侧链数据率。在本文所述的例子中,每一滤波器组都通过FFT实现,邻接的变换bin被组合成子带, 块被组合成帧,而侧链数据每帧发送一次。或者,侧链数据可以每帧发送一次以上(如每块一次)。例如参见以下图3及其描述。众所周知,在发送侧链信息的频率与所需的比特率之间有一个折衷。当使用48kHz采样率时,本发明的方面的一种适宜的实际实现方式可以使用约32 毫秒的固定长度帧,每一帧有6个相互间隔约为5. 3毫秒的块(例如采用持续时间约为 10. 6毫秒有50%交叠的块)。然而,假如这里所述的按每帧发送的信息以不低于约每隔40 毫秒的频率发送,那么这种时序、固定长度帧的使用及其固定个数的块的划分对实施本发明的方面而言都不是关键所在。帧可以具有任意长度,而且其长度可以动态变化。正如上述AC-3系统中那样,可以使用可变块长度。条件是在此要参照“帧”和“块”。实际上,如果复合单声或多信道信号或者复合单声或多信道信号和离散低频信道通过例如感觉编码器来编码(如下所述),那么可以方便地使用感觉编码器中所用的相同的帧和块结构。此外,如果该编码器使用可变块长度使得可以随时从一个块长度切换到另一个块长度,那么,当这种块切换发生时,最好更新本文所述的一个或多个侧链信息。为了使数据开销增量最小,当随着这种切换的发生而更新侧链信息时,可以降低所更新侧链信息的频率分辨率。图3示出了下述内容的简化的概念性结构的一个例子沿(纵向)频率轴的bin 和子带,和沿(横向)时间轴的块和帧。当一些bin被划分为接近于临界频带的子带时,最低频率子带具有最少的bin(比如1个),而每一子带的bin个数随频率提高而增加。回到图1,由每个信道的各自滤波器组(本例中的滤波器组2和4)所产生的η个时域输入信道中的每一个的频域形式通过加性合并功能或设备“加性合并器”6被一起合并 (“下混合”)为单声复合音频信号。下混合可以应用于输入音频信号的整个频率带宽,或者它可以可选地限于给定 “耦合”频率以上的频率,因为下混合过程的人为产物在中频到低频可听得更清楚。在这些情况下,在耦合频率以下信道可以离散传送。这种策略即使在处理人为产物不成问题时也能合乎要求,这是因为,将变换bin组合成临界频带类的子带(宽度与频率大致成比例)所构成的中/低频子带使得在低频时有较少的变换bin(在甚低频只有一个bin),并可以直接用少数几个比特或比发送具有侧链信息的下混合单声音频信号所需更少的比特来编码。低至4kHz、2300Hz、1000Hz甚至低至输入到编码器的音频信号的频带的最低频率的耦合或过渡频率可适用于某些应用,尤其适用于甚低比特率显得重要的应用。其他频率可以在节省比特与听众接受之间提供有益的平衡。具体耦合频率的选择对本发明来说并不是关键。耦合频率可以变化,而且如果变化,那么该频率可以例如直接或间接地取决于输入信号特性。本发明的一个方面在于,在下混合之前改进信道彼此之间的相角对准,以便当信道被合并时减少异相信号分量抵消并提供改进的单声复合信道。这可以通过随时间可控地对这些信道中的一些信道上的某些或所有变换bin的“绝对角度”进行偏移来实现。例如, 必要时,在每一信道中或者当以某个信道作参考时在除该参考信道外的所有信道中,随时间可控地对表示高于耦合频率的音频(从而规定了所关心的频带)的所有变换bin进行偏移。bin的“绝对角度”可以认为是滤波器组所产生的每一复值变换bin的幅度-角度表达式中的角度。信道中的bin的绝对角度的可控偏移可以利用角度转动功能或设备(“转动角度”)来实现。滤波器组2的输出在被应用于加性合并器6所提供的下混合合并之前, 转动角度8先对其进行处理,而滤波器组4的输出在被应用于加性合并器6之前,转动角度 10先对其进行处理。应当理解,在某些信号条件下,特定的变换bin在某一时间段(在这里所述的例子中为一帧的时间段)上可以不需要角度转动。低于耦合频率时,信道信息可以离散编码(图1中未示出)。原则上,信道彼此之间的相角对准的改善可以通过在所关心的整个频带上的每个块中使每个变换bin或子带偏移其绝对相角的负值来完成。尽管这样基本上避免了异相信号分量抵消,然而,尤其当孤立倾听所得到的单声复合信号时,往往会造成可听得见的人为产物。因此,最好采用“最少处理”原则根据需要只对信道中bin的绝对角度进行偏移,以便最大限度地减少下混合过程中的异相抵消和最大限度地减少解码器所重建的多信道信号的空间声像崩溃。一些用于确定这种角度偏移的技术如下所述。这些技术包括时间和频率平滑方法以及信号处理对发生瞬变作出响应的方式。此外,如下所述,还可以在编码器中按每一 bin进行能量归一化,以进一步减少孤立bin的其余任意异相抵消。如下进一步所述,还可以(在解码器中)按每一子带进行能量归一化,以确保单声复合信号的能量等于起作用信道的能量总和。每一输入信道都有一个与其相关的音频分析器功能或设备(“音频分析器”),用于产生该信道的侧链信息,和用于在控制了应用于信道的角度转动量或度数之后才将其输入到下混合合并6。信道1和η的滤波器组输出分别输入到音频分析器12和音频分析器14。 音频分析器12产生信道1的侧链信息和信道1的相角转动量。音频分析器14产生信道η 的侧链信息和信道η的相角转动量。应当理解,本文中这些所谓“角度”指的是相角。每个信道的音频分析器所产生的每个信道的侧链信息可以包括振幅比例因子(“振幅SF” ),角度控制参数,解相关比例因子(“解相关SF” ),瞬变标志,和可选内插标志。这样的侧链信息可以表征为“空间参数”,表示信道的空间特性和/或表示可能与空间处理有关的信号特性(比如瞬变)。在每种情况下,侧链信息都将应用于单个子带(除了瞬变标志和内插标志之外,每一侧链信息都将应用于信道内的所有子带),并且可以每帧更新一次(如以下例子中所述)或者当在相关编码器中出现块切换时进行更新。各种空间参数的进一步的细节如下所述。编码器中的具体信道的角度转动可以被认为是极性反向的角度控制参数,它是侧链信息的一部分。如果使用参考信道,那么该信道可以不需要音频分析器,或者可以需要只产生振幅比例因子侧链信息的音频分析器。如果解码器可以根据其他非参考信道的振幅比例因子推断出具有足够精度的振幅比例因子,那么未必发送该振幅比例因子。如下所述,如果编码器中的能量归一化确保任意子带内的所有信道上的比例因子实际平方和为1,那么在解码器中可以推断出参考信道的振幅比例因子的近似值。由于振幅比例因子的相对粗量化导致所再现的多信道音频中的声像移位,因此推断出的近似参考信道振幅比例因子值可能有误差。然而,在低数据率情况下,这种人为产物与使用比特来发送参考信道的振幅比例因子的情况相比更可接受。不过,在某些情况下,参考信道最好使用至少能产生振幅比例因子侧链信息的音频分析器。图1用虚线来表示到每个音频分析器的可选输入(从PCM时域输入到该信道中的音频分析器)。音频分析器利用这一输入来检测某一时间段(在这里所述的例子中为一个块或帧的时间段)上的瞬变,并响应这一瞬变产生瞬变指示符(例如1比特“瞬变标志”)。 或者,如以下图4的步骤408的解释中所述,可以在频域中检测瞬变,这样,音频分析器不必接收时域输入。单声复合音频信号和所有信道(或除参考信道外的所有信道)的侧链信息可被存储、传送或者存储和传送到解码过程或设备(“解码器”)。在进行存储、传送或者存储和传送之前,各种音频信号和各种侧链信息可以被复用和打包到一个或多个适用于存储、传送或者存储和传送媒介或媒体的比特流中。在进行存储、传送或者存储和传送之前,单声复合音频可以输入到数据率下降编码过程或设备(比如感觉编码器)或者输入到感觉编码器和熵编码器(比如算术或霍夫曼编码器)(有时也称之为“无损”编码器)。此外,如上所述, 只对于高于某一频率(“耦合”频率)的音频,才可以从多个输入信道中得到单声复合音频和相关侧链信息。在这种情况下,多个输入信道的每一个中的低于耦合频率的音频可以作为离散信道进行存储、传送或者存储和传送,或者可以按与这里所述不同的某种方式进行合并或处理。这些离散的或反过来合并的信道也可以输入到数据下降编码过程或设备(比如感觉编码器,或者感觉编码器和熵编码器)。单声复合音频和离散多信道音频都可以输入到综合感觉编码或者感觉和熵编码过程或设备。在编码器比特流中载送侧链信息的具体方式对本发明而言并不是关键。需要时, 侧链信息可以按比如比特流与老式解码器兼容(即比特流是向后兼容的)的方式进行载送。完成这项工作的许多合适技术是已知的。例如,许多编码器产生了具有解码器忽略的未用或无效比特的比特流。这种配置的一个例子如美国专利6,807,528B1中所述,该专利在此全部包含作为参考,它由iTruman等人于2004年10月19日申请,名称为“Adding Data to a Compressed Data Frame”。这些比特可以用侧链信息来代替。另一个例子是,侧链信息可以在编码器的比特流中进行加密编码。此外,还可利用允许这种侧链信息和与老式解码器兼容的单声/立体声比特流一同传送或存储的任意技术,将侧链信息与向后兼容的比特流分别存储或传送。基本1 N和1 M解码器
参照图2,示出了体现本发明的方面的1:N解码器功能或设备(“解码器”)。该图是作为体现本发明的方面的基本解码器所实现的功能或结构的一个例子。实施本发明的方面的其他功能或结构配置也可以使用,包括如下所述的可选和/或等价的功能或结构配置。解码器接收单声复合音频信号和所有信道(或除参考信道外的所有信道)的侧链信息。必要时,将复合音频信号和相关侧链信息去复用、拆分和/或解码。解码可以采用查寻表。目的是要从单声复合音频信道中得到与输入到图1的编码器的音频信道中的各个信道接近的多个单独音频信道,以遵照本文所述的本发明的比特率下降技术。当然,可以选择不恢复输入到编码器的所有信道或者只使用单声复合信号。此外, 利用如下申请中所述发明的方面,还可以从根据本发明的方面的解码器的输出中得到除了这些输入到编码器的信道以外的信道于2002年2月7日申请并于2002年8月15日公布的指定美国的国际申请PCT/US02/03619,及其于2003年8月5日申请的相应美国国家申请系列号10/467,213 ;和于2003年8月6日申请并于2001年3月4日公布为WO 2004/019656 的指定美国的国际申请PCT/US03/24570,及其于2005年1月27日申请的相应美国国家申请系列号10/522,515。所述申请在此全部包含作为参考。实施本发明的方面的解码器所恢复的信道尤其可以与所述参考的申请中的信道相乘技术结合起来使用,这是因为,所恢复信道不仅具有有用的信道间振幅关系,而且还具有有用的信道间相位关系。信道相乘的另一种变通办法是使用矩阵解码器来得到附加信道。本发明的信道间振幅和相位保持的方面使得体现本发明的方面的解码器的输出信道尤其适用于对振幅和相位敏感的矩阵解码器。 许多这样的矩阵解码器使用宽带控制电路,这种控制电路严格地仅当输入给它的信号在整个信号带宽上都是立体声时才工作。因此,如果在N等于2的N: 1:N系统中体现本发明的方面,那么解码器所恢复的两个信道可以输入到2:M的有源矩阵解码器。如上所述,低于耦合频率时,这些信道可以是离散信道。许多合适的有源矩阵解码器在技术上是众所周知的,包括例如称为“Pro Logic”和“Pro Logic II”解码器的矩阵解码器("Pro Logic”是Dolby Laboratories Licensing Corporation的商标)。Pro Logic角军码器的有关方面如美国专利4,799,260和4,941,177中所公开,这些专利中的每一个在此全部包含作为参考。Pro Logic II解码器的有关方面如以下专利申请所公开=Fosgate于2000年3月22日申请并于2001年6月7日公布为WO 01/41504的未决美国专利申请系列号09/532,711,名称为 "Method for Deriving at Least Three Audio Signalsfrom Two Input Audio Signals,,; 和Fosgate等人于2003年2月25日申请并于2004年7月1日公布为US 2004/0125960A1 的未决美国专利申请系列号10/362,786,名称为“Method for Apparatus for Audio MatrixDecoding”。所述申请中的每一个在此全部包含作为参考。例如,在Roger Dressier 的论文"Dolby Surround Pro Logic Decoder Principlesof Operation”禾口 Jim Hilson 的论文"Mixing with Dolby Pro Logic IITechnology,,中,角军释了 Dolby Pro Logic 禾口 Pro Logic II解码器的操作的某些方面,这些论文可以从Dolby Laboratories的网站(www. dolby.com)上得到。其他合适的有源矩阵解码器可以包括下列美国专利和公开的国际申请(每个都指定美国)中的一个或多个中所述的有源矩阵解码器,这些专利和申请中的每一个在此全部包含作为参考5, 046,098 ;5,274,740 ;5,400,433 ;5,625,696 ;5,644,640 ; 5,504,819 ;5,428,687 ;5,172,415 ;和 WO 02/19768。
再回到图2,接收到的单声复合音频信道应用于多个信号通道,从中得到所恢复的多个音频信道中的各自一个信道。各信道得到通道包括(按任一次序)振幅调整功能或设备(“调整振幅”)和角度转动功能或设备(“转动角度”)。调整振幅是对单声复合信号施加增益或衰减,这样,在某些信号条件下,从复合信号中得到的输出信道的相对输出幅度(或能量)类似于编码器输入端的信道的幅度(或能量)。此外,如下所述,在强加“随机”角度变动时的某些信号条件下,还可以对所恢复信道的振幅强加一个可控的“随机”振幅变动量,从而改进它相对于所恢复信道中的其他信道的解相关性。转动角度应用了相位转动,这样,在某些信号条件下,从单声复合信号中得到的输出信道的相对相角类似于编码器输入端的信道的相角。最好,在某些信号条件下,还可以对所恢复信道的角度强加一个可控的“随机”角度变动量,从而改进它相对于所恢复信道中的其他信道的解相关性。如以下进一步所述,“随机”角度振幅变动不仅包括伪随机和真随机变动,而且包括确定性产生的变动(具有减小信道之间的互相关的作用)。这还将在以下图5A的步骤 505的解释中作进一步的讨论。从概念上讲,具体信道的调整振幅和转动角度是要确定单声复合音频DFT系数, 以便得到信道的重建变换bin值。每个信道的调整振幅可以至少由具体信道的所恢复侧链振幅比例因子进行控制, 或者,在有参考信道的情况下,既根据参考信道的所恢复侧链振幅比例因子又根据从其他非参考信道的所恢复侧链振幅比例因子中推断出的振幅比例因子进行控制。可选地,为了增强所恢复信道的解相关性,调整振幅还可以由从具体信道的所恢复侧链解相关比例因子以及具体信道的所恢复侧链瞬变标志中得出的随机振幅比例因子参数进行控制。每个信道的转动角度可以至少由所恢复的侧链角度控制参数进行控制(在这种情况下,解码器中的转动角度基本上可以取消编码器中的转动角度所提供的角度转动)。为了增强所恢复信道的解相关性,转动角度还可以由从具体信道的所恢复侧链解相关比例因子以及具体信道的所恢复侧链瞬变标志中得出的随机角度控制参数进行控制。信道的随机角度控制参数以及信道的随机振幅比例因子(如果使用该因子的话)可以由可控的解相关器功能或设备(“可控解相关器”)从信道的所恢复解相关比例因子和信道的所恢复瞬变标志中得出ο参照图2中的例子,所恢复的单声复合音频输入到第一信道音频恢复通道22,通道22得出信道1音频;同时输入到第二信道音频恢复通道M,通道M得出信道η音频。 音频通道22包括调整振幅沈、转动角度观和反向滤波器组功能或设备(“反向滤波器组”)30 (如果需要PCM输出的话)。同样,音频通道M包括调整振幅32、转动角度34和反向滤波器组功能或设备(“反向滤波器组”)36(如果需要PCM输出的话)。至于图1中的情况,为了便于说明,只示出了两个信道,应当理解可以有两个以上的信道。第一信道(信道1)的所恢复侧链信息可以包括振幅比例因子、角度控制参数、解相关比例因子、瞬变标志和可选内插标志(如以上结合基本编码器的描述中所述)。振幅比例因子输入到调整振幅26。如果使用可选内插标志,那么可以使用可选频率内插器或内插器功能(“内插器”)27在整个频率上(例如信道的每一子带中的所有bin上)内插角度控制参数。这种内插可以是例如每个子带中心点之间的bin角度的线性内插。1比特内插标志的状态可以选择是否在频率上进行内插,如以下进一步所述。瞬变标志和解相关比例因子输入到可控解相关器38,该解相关器根据这一输入产生一个随机角度控制参数。1比特瞬变标志的状态可以选择随机角度解相关的两种复方式之一,如以下进一步所述。可在整个频率上进行内插(如果使用内插标志和内插器的话)的角度控制参数和随机角度控制参数通过加性合并器或合并功能40相加在一起,以便提供用于转动角度观的控制信号。可选地,可控解相关器38除了产生随机角度控制参数之外,还可以根据瞬变标志和解相关比例因子产生一个随机振幅比例因子。振幅比例因子与这种随机振幅比例因子通过加性合并器或合并功能(未示出)相加在一起,以便提供用于调整振幅26的控制信号。同样,第二信道(信道η)的所恢复侧链信息也可以包括振幅比例因子、角度控制参数、解相关比例因子、瞬变标志和可选内插标志(如以上结合基本编码器的描述中所述)。振幅比例因子输入到调整振幅32。可以使用频率内插器或内插器功能(“内插器”)33 在整个频率上内插角度控制参数。与信道1的情况一样,1比特内插标志的状态可以选择是否在整个频率上进行内插。瞬变标志和解相关比例因子输入到可控解相关器42,该解相关器根据这一输入产生一个随机角度控制参数。与信道1的情况一样,1比特瞬变标志的状态可以选择随机角度解相关的两种复方式之一,如以下进一步所述。角度控制参数和随机角度控制参数通过加性合并器或合并功能44相加在一起,以便提供用于转动角度34的控制信号。可选地,如以上结合信道1所述,可控解相关器42除了产生随机角度控制参数之外, 还可以根据瞬变标志和解相关比例因子产生一个随机振幅比例因子。振幅比例因子与随机振幅比例因子通过加性合并器或合并功能(未示出)相加在一起,以便提供用于调整振幅 32的控制信号。尽管刚刚所述的过程或布局便于理解,然而,实际上利用能达到相同或类似结果的其他过程或布局也可以得到相同的结果。例如,调整振幅沈(32)和转动角度观(34)的次序可以反过来,和/或可以有一个以上的转动角度(一个用于响应角度控制参数,而另一个用于响应随机角度控制参数)。转动角度还可以被认为是三个(而不是一个或两个)功能或设备,如以下图5的例子中所述。如果使用随机振幅比例因子,那么,可以有一个以上的调整振幅(一个用于响应振幅比例因子,而另一个用于响应随机振幅比例因子)。由于人耳听觉对振幅比对相位更敏感,因此,如果使用随机振幅比例因子,那么,最好调整随机振幅比例因子的影响相对于随机角度控制参数的影响的比例,使得随机振幅比例因子对振幅的影响小于随机角度控制参数对相角的影响。作为另一种可选的过程或布局,解相关比例因子还可以用来控制随机相角与基本相角的比例(而不是将表示随机相角的参数与表示基本相角的参数相加),以及(如果使用的话)随机振幅变动与基本振幅变动的比例(而不是将表示随机振幅的比例因子与表示基本振幅的比例因子相加)(即每种情况下的可变叠化)。如果使用参考信道,那么,如以上结合基本编码器所述,由于参考信道的侧链信息可能只包括振幅比例因子(或者,如果该侧链信息不含参考信道的振幅比例因子,那么,当编码器中的能量归一化确保子带内的所有信道上的比例因子平方和为1时,该振幅比例因子可以从其他信道的振幅比例因子中推断出),因此可以省略该信道的可控解相关器和加性合并器。为参考信道提供振幅调整,并且可以由接收到的或所得出的参考信道的振幅比例因子来该控制振幅调整。无论参考信道的振幅比例因子是从该侧链中得出还是在解码器中推断出,所恢复参考信道都是单声复合信道的振幅定标形式。因此它不需要角度转动,这是因为它是其他信道的转动的参考。尽管调整所恢复信道的相对振幅可以提供适度的解相关,然而,如果使用单独的振幅调整很可能导致许多信号条件下再现的声场实际上缺乏空间化或映像(例如“崩溃” 的声场)。振幅调整可能影响耳边的耳间电平差,这只是耳朵所用的心理声学定向提示之一。因此,根据本发明的方面,可以根据信号条件使用某些角度调整技术,以提供附加的解相关。可以参照表1,表中给出了简要解释,这些解释便于理解根据本发明的方面所采用的多种角度调整解相关技术或操作模式。除了表1中的技术之外,还可以采用其他解相关技术(如以下结合图8和9的例子所述)。实际上,实施角度转动和幅度变更可能导致循环回旋(circularconvolution) (也称为循环性或周期性回旋)。尽管通常要求避免循环回旋,然而,在编码器和解码器中通过互补角度偏移可以稍微减轻循环回旋所带来的令人不快的听得见的人为产物。此外, 在本发明的方面的低成本实现方式中,尤其是在只有部分音频频带(比如1500Hz以上)下混合到单声或多个信道的那些实现方式中(这种情况下听得见的循环回旋的影响最小), 可以容忍这种循环回旋的影响。可选地,利用任意合适的技术(包括例如适当使用“0”填充)可以避免或最大限度地减小循环回旋。使用“0”填充的一种方式是将所提出的频域变动(表示角度转动和振幅定标)变换到时域,对其开窗(利用任意窗口),为其填充一些 “0”,然后再变换回到频域并乘以所要处理的音频的频域形式(该音频不必被开窗)。表 1角度调整解相关技术
权利要求
1.一种用于对M个编码音频信道以及具有第一时间分辨率的一组一个或多个空间参数进行解码的方法,所述M个编码音频信道表示N个音频信道,其中N大于等于2,所述方法包括以下步骤a)接收所述M个编码音频信道以及所述具有第一时间分辨率的该组一个或多个空间参数,b)采用随时间的内插,以从所述具有第一时间分辨率的该组一个或多个空间参数产生具有第二时间分辨率的一组一个或多个空间参数,c)从所述M个编码音频信道得出N个音频信号,其中每个音频信号被划分成多个频带, 其中每个频带包括一个或多个频谱分量,以及d)从所述N个音频信号以及具有第二时间分辨率的该组一个或多个空间参数生成多信道输出信号,其中,M大于等于2,所述N个音频信号中的至少一个是从所述M个编码音频信道中的至少两个的加权组合得出的相关信号,具有第二时间分辨率的该组一个或多个空间参数包括指示要与相关信号混合的不相关信号的量的第一参数,以及步骤d)包括从所述至少一个相关信号得到至少一个不相关信号,并且响应于所述具有第二时间分辨率的空间参数中的一个或多个控制在所述多信道输出信号的至少一个信道中的所述至少一个相关信号与所述至少一个不相关信号的比例,其中所述控制至少部分地依照所述第一参数进行。
2.根据权利要求1所述的方法,其中,步骤d)包括通过对于所述至少一个相关信号应用人工混响滤波器得到所述至少一个不相关信号。
3.根据权利要求1所述的方法,其中,步骤d)包括通过对于多个相关信号应用多个人工混响滤波器得到多个不相关信号。
4.根据权利要求3所述的方法,其中,所述多个人工混响滤波器中的每一个具有独特的滤波器特性。
5.根据权利要求1所述的方法,其中,步骤d)中的所述控制包括至少部分地根据所述第一参数,得到对于所述多个频带中的每一个的所述至少一个相关信号与所述至少一个不相关信号的单独的比例。
6.根据权利要求1所述的方法,其中,通过包括对所述M个编码音频信道解矩阵化的处理,从所述M个编码音频信道得到所述N个音频信号。
7.根据权利要求6所述的方法,其中,所述解矩阵化至少部分地响应于所述具有第二时间分辨率的空间参数中的一个或多个进行。
8.根据权利要求1-7中任一个所述的方法,所述方法进一步包括响应于所述具有第二时间分辨率的空间参数中的一个或多个,变动所述N个音频信号中的至少一个中的频谱分量的幅度。
9.根据权利要求1-8中任一个所述的方法,其中,所述多信道输出信号是在时域中。
10.根据权利要求1-8中任一个所述的方法,其中,所述多信道输出信号是在频域中。
11.根据权利要求1-10中任一个所述的方法,其中,N为3或更大。
12.根据权利要求1-11中任一个所述的方法,其中,所述内插为线性内插。
13.包括用于执行根据权利要求1-12中任一个所述方法的步骤中的每一个的部件的装置。
14.一种介质,所述介质承载指令程序,并且可由设备读取以执行所述指令程序以实行权利要求1-12中任一个所述的方法的所有步骤。
全文摘要
将多个音频信道合并成单声复合信号,或合并成多个音频信道,连同用于重建多个音频信道的相关辅助信息,包括改进的下混合将多个音频信道下混合到单声音频信号或下混合到多个音频信道,和改进的解相关将从单声音频信道或从多个音频信道得到的多个音频信道解相关。所公开的本发明的方面可用于音频编码器、解码器、编码/解码系统、下混合器、上混合器和解相关器。
文档编号H04S5/00GK102176311SQ20111010470
公开日2011年9月7日 申请日期2005年2月28日 优先权日2004年3月1日
发明者马克·F·戴维斯 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1