多通道音频编码的制作方法

文档序号:2830027阅读:409来源:国知局
专利名称:多通道音频编码的制作方法
专利说明多通道音频编码 本发明涉及一种多通道音频编码器,用于将N个音频信号编码成M个音频信号及相关参量数据,M和N为整数,N>M,M≥1。
本发明还涉及一种多通道音频解码器、一种编码多通道音频信号的方法、一种解码多通道音频信号的方法、一种编码的多通道音频信号、一种在其上存储了该编码多通道音频信号的存储介质、一种用于发送和接收编码多通道音频信号的传输系统、一种用于发送编码多通道音频信号的发送器、一种用于接收编码多通道音频信号的接收器、一种发送和接收编码多通道音频信号的方法、一种发送编码多通道音频信号的方法、一种接收编码多通道音频信号的方法、一种多通道音频播放器、一种多通道音频记录器,以及一种用于执行任意前述方法的计算机程序产品。
一段时间以来,多通道音频信号再现引人关注。多通道音频信号是一种具有两个或两个以上音频通道的音频信号。众所周知的多通道音频信号示例是二通道立体声音频信号和具有两个前音频通道、两个后音频通道、一个中心音频信号以及一个附加的低频增强(LFE)通道的5.1通道音频信号。这种5.1通道音频信号用于DVD(数字多功能盘)和SACD(超级音频压缩盘)系统。由于多通道材料变得更为普及,多音频材料的高效编码变得愈发重要。
5.1-2-5.1多通道音频编码系统是公知的。在这个公知音频编码系统中,一个5.1输入音频信号被编码成并表示成两个向下混音(down-mix)通道以及相关参数。该向下混音信号也统称为空间向下混音。在该公知系统中,空间向下混音形成一个具有立体图象的立体声音频信号,从质量上看,它能够同来自5.1输入通道的固定ITU向下混音相比。只有立体声装置的用户可以听这种空间立体声向下混音,而具有5.1通道装置的听众可以听由该空间立体声向下混音及相关参数构成的5.1通道再现。5.1通道装置从空间立体声向下混音(即,立体声音频信号)和相关参数解码/重建该5.1通道音频信号。
然而,演播室工程师往往发现这种空间立体声向下混音很迟钝。这是他们进行艺术立体声向下混音的原因,这种艺术立体声向下混音不同于空间立体声向下混音。例如附加额外的混响和源,使立体图象变宽,等等。为了使用户能够享受这种艺术立体声向下混音,这种艺术立体声向下混音,而不是空间向下混音,可以通过传输介质传输或者存储在存储介质上。但是,这种方法严重影响5.1通道音频信号再现的质量。这种输入5.1通道音频信号被编码成一个空间立体声向下混音以及相应的参数。通过由艺术立体声向下混音代替空间立体声向下混音,在系统的解码端不再得到空间立体声向下混音,且5.1通道音频信号的高质量重建不再可能。
本发明的一个目的是提供一种开篇段落中阐述的多通道音频编码器,它减轻了上述问题。在根据本发明的多通道音频编码器中实现了这一目的,其中多通道音频编码器包括 -第一单元,用于将N个音频信号编码成M个音频信号和第一相关参量数据,其中M个音频信号和第一相关参量数据表示N个音频信号;以及 -第二单元,耦合到第一单元,该第二单元被安排成从这M个音频信号产生用以表示这M个音频信号的第二相关参量数据,其中相关参量数据包括第一和第二相关参量数据。
通过从空间向下混音(即,M个音频信号)产生表示该空间向下混音的参数,解码器能够重建至少部分该空间向下混音,例如,通过合成一个同该空间向下混音相似的信号。这些参数(即第二相关参量数据)表示该空间向下混音,例如通过空间向下混音信号的一个或多个相关特性。其后,重建的空间向下混音可以同第一相关参量数据(即,常规多通道参数)一起使用,用以解码并重建多通道音频信号(即,N个音频信号)。本发明基于这样一种认识,即同以备选向下混音为解码基础得到的多通道音频信号相比,这样的多通道音频信号具有更高的质量。此外,当编码器处没有备选向下混音时或者当备选向下混音失真时,解码器仍然能够使用这些参数来重建一个具有良好质量的多通道音频信号。
在根据本发明的多通道音频编码器的一个实施例中,第二单元被安排成产生第二相关参量数据,使得第二相关参量数据包括修正参数,该修正参数使得能够从K个另外的音频信号重建M个音频信号。这样,解码器能够执行更优的空间向下混音重建。这种重建可以在备选向下混音,即K个另外的音频信号(例如艺术向下混音)的基础上完成。解码器可以将所述修正参数施加到备选向下混音信号,以便该向下混音信号更加近似空间向下混音。
在根据本发明的多通道音频编码器的一个实施例中,第二单元被安排成从M个音频信号和K个另外的音频信号产生第二相关参量数据,使得修正参数表示M个音频信号和K个另外的音频信号之间的差异。在这个实施例中,编码器可使用备选向下混音,且可完成修正参数的有效表示。通过比较空间向下混音和备选向下混音,第二单元能够产生修正参数,该修正参数表示空间向下混音同备选向下混音之间的差异。同前一实施例中的“绝对”修正参数相比,这种“相对”修正参数在编码多通道音频信号中要求更少的空间/位。备选向下混音优选为多通道音频编码器从外部源接收的艺术向下混音。或者,可以在多通道音频编码器内例如从N个输入音频信号产生备选向下混音。
编码器可包括一个选择器,用于选择备选向下混音或空间向下混音以进行输出。随后,被选的向下混音将成为编码音频信号的一部分。例如,没有备选向下混音时,可以选择空间向下混音。
在根据本发明的多通道音频编码器的一个实施例中,第二单元被安排成产生第二相关参量数据,使得修正参数包括M个音频信号的特性或M个音频信号的特性同K个另外的音频信号的特性之间的差异。发明人发现,修正参数优选地包括统计信号特性(之间的差异),例如一个(多个)向下混音信号的方差、协方差和相关性以及标准差。这些统计信号特性使空间向下混音能够得到良好的重建。
在根据本发明的多通道音频编码器的一个实施例中,第二单元被安排成产生第二相关参量数据,使得该特性包括 -至少部分音频信号的一个能量或功率值;或者 -至少部分音频信号的一个相关性数值;或者 -至少部分音频信号的各能量或功率值之间的一个比值。
这些特性或者单独或任意可行组合都能使空间向下混音得到高效和/或高质量的重建。能量或功率值和相关性数值允许得到高质量重建。包括各能量或功率值之间比值的特性十分有效,因为它在编码多通道音频信号/比特流中只需要相对小的空间/少的比特位。
修正参数通常被分析为时间和频率的函数(即,对于一组时间/频率片段)。它们可以包含在编码多通道音频信号所包括的参数比特流中。为了进一步提高空间向下混音的重建质量,可以进一步通过空间向下混音的(编码)低频内容扩充参数比特流。
在解码器处,从编码多通道音频信号获得修正参数,并使用这些参数从该备选向下混音或从头开始重建空间向下混音。解码器转换该备选向下混音,使所获得的转换后的向下混音信号具有空间向下混音的性质。根据修正参数的表示方法,解码器可采用两种方式工作。如果这些参数表示从备选向下混音到空间向下混音(的所需要的特性)的(相对)转换,则从所发送的参数直接获得转换变量。另一方面,如果所发送的参数表示空间向下混音的(绝对)特性,则解码器首先计算备选向下混音的相应特性。使用这一信息(所发送的参数和所发送的向下混音的求得特性)便可确定转换变量,这些转换变量描述从所发送的向下混音(的特性)到空间向下混音(的特性)的转换。最后,空间参数(即,第一相关参量数据)被应用于重建的空间向下混音,用以解码多通道音频信号。
相同的发明构思可用在具有以下发送器和接收器的传输系统中,所述发送器具有1个多通道音频编码器,所述接收器具有1个多通道音频解码器。这种传输系统例如可用于通过传输介质(例如无线电通道、同轴电缆或光纤)传输语音信号或音频信号。这种传输系统还可用于在记录介质(例如磁带、磁盘或光盘或者固态存储器)上记录编码的音频或语音信号。所述发明构思还可有利地用在音频播放器/记录器中,所述音频播放器/记录器是例如具有1个多通道音频解码器/编码器的光盘音频播放器/记录器或硬盘驱动音频播放器/记录器或固态存储音频播放器/记录器。
通过参考附图对优选实施例的下列描述,本发明的上述目的和特征将变得更加明显,附图中

图1示出根据本发明的多通道音频编码器10的一个实施例的框图; 图2示出根据本发明的多通道音频解码器20的一个实施例的框图; 图3示出根据本发明的传输系统70的一个实施例的框图; 图4示出根据本发明的多通道音频播放器/记录器60的一个实施例的框图; 图5示出根据本发明的多通道音频编码器10的另一个实施例的框图; 图6示出根据本发明的多通道音频解码器20的另一个实施例的框图。
图中,对相同的部分提供了相同的参考数字。
图1示出根据本发明的多通道音频编码器10的一个实施例的框图。这个多通道音频编码器10被安排成将N个音频信号101编码成M个音频信号102和相关参量数据104、105。其中,M和N都是整数,且N>M,M≥1。多通道音频编码器10的一个示例是5.1-2编码器,其中N等于6,即5+1通道,M等于2。这种多通道音频编码器将5.1通道输入音频信号编码成2通道输出音频信号(例如立体声输出音频信号)及相关参数。多通道音频编码器10的其它示例是5.1-1、6.1-2、6.1-1、7.1-2和7.1-1编码器。只要N大于M且M大于或等于1,具有其它N、M值的编码器也是可以的。
编码器10包括第一编码单元110和与其耦合的第二编码单元120。第一编码单元110接收N个输入音频信号101,并将这N个音频信号101编码成M个音频信号102和第一相关参量数据104。M个音频信号102和第一相关参量数据104表示N个音频信号101。第一单元110执行的N个音频信号101到M个音频信号102的编码还可以称为向下混音,且M个音频信号102还可以称为空间向下混音102。单元110可以是常规参数多通道音频编码器,它将多通道音频信号101编码成单声道或立体声向下混音音频信号102和相关参数104。相关参数104能使解码器从该单声道或立体声向下混音音频信号102重建多通道音频信号101。应该注意,向下混音102也可以具有两个以上通道。
第一单元110将空间向下混音102提供给第二单元120。第二单元120从空间向下混音102生成第二相关参量数据105。第二相关参量数据105表示空间向下混音102,即这些参数105包括空间向下混音102中的某些特征和性质,这些特征和性质使解码器能够例如通过合成1个同空间向下混音102相近的信号来重建至少部分空间向下混音102。该相关参量数据包括第一和第二相关参量数据104和105。
第二相关参量数据105可包括多个修正参数,它们使得能够从K个另外的音频信号103重建空间向下混音102。这样,解码器可以对空间向下混音102实施更好的重建。可以在备选向下混音103的基础上完成这种重建,所述备选向下混音103即K个另外的音频信号103,例如艺术向下混音。解码器可将修正参数应用于备选向下混音信号103,使得它与空间向下混音102更加类似。
第二单元120可在其输入端接收备选向下混音103。可从编码器10的一个外部源接收该备选向下混音103(如图1所示),或者可在编码器10内,例如从N个音频信号101产生该备选向下混音103(未示出)。第二单元120可将空间向下混音102同该备选向下混音103相比较,并产生修正参数105,用以表示空间向下混音102同备选向下混音103之间的差异,例如空间向下混音102的特性同备选向下混音103的特性之间的差异。在编码的多通道音频信号中,这种表示差异的“相对”修正参数比仅表示空间向下混音102(的一个或多个特性)的“绝对”修正参数所要求的空间/比特位要少。修正参数105优选地包括向下混音信号(之间差异)的一个或多个统计信号特性,例如方差、协方差和相关性,或者这些特性的比(之间的差异)。应该注意,信号的方差等价于该信号的能量或功率。这些统计信号特性使得空间向下混音得以被良好重建。
图2示出根据本发明的多通道音频解码器20的一个实施例的框图。解码器20被安排成将K个音频信号103及相关参量数据104、105解码成N个音频信号203。这里,K和N为整数,且N>K,K≥1。该K个音频信号103(即,备选向下混音103)及相关参量数据104、105表示N个音频信号203(即,多通道音频信号203)。多通道音频解码器20的一个示例是2-5.1解码器,其中N等于6,即5+1通道,且K等于2。这种多通道解码器将2通道输入音频信号(例如立体声输入音频信号)及相关参数解码成5.1通道输出音频信号。多通道音频解码器20的其它示例为1-5.1、2-6.1、1-6.1、2-7.1和1-7.1解码器。只要满足N大于K,且K大于等于1,具有其它N、K值的解码器也是可能的。
多通道音频解码器20包括第一单元210和与其耦合的第二单元220。第一单元210接收备选向下混音103和修正参数105,并从该备选向下混音103和修正参数105重建M个另外的音频信号202,即空间向下混音202或其近似信号。这里,M为整数,且M≥1。修正参数105表示空间向下混音202。第二单元220从第一单元210接收空间向下混音202并接收修正参数104。第二单元220将空间向下混音202和修正参数104解码成多通道音频信号203。第二单元220可以是常规参数多通道音频解码器,它将单声道或立体声向下混音音频信号202及相关参数104解码成多通道音频信号203。
第一单元210可被安排成确定是否有必要或希望从输入信号103重建信号202。当空间向下混音信号202取代备选向下混音103而被提供到第一单元210时,无法应用这种重建。第一单元210通过从输入信号103产生与修正参数105中所包括的相近或相同的信号特性,并通过将这些产生的信号特性同修正参数105相比较来进行上述确定。如果比较显示,产生的信号特性等价于或基本上等价于修正参数105,则输入信号103与空间向下混音信号202充分相似,且第一单元210可将输入信号103转发至第二单元220。如果比较显示,所产生的信号特性不等价于或不充分等价于修正参数105,则输入信号103与空间向下混音信号202不充分相似,且第一单元210可从输入信号103和修正参数105重建/近似空间向下混音信号202。
修正参数105可表示备选向下混音103同空间向下混音202之间的差异,例如统计信号特性中的差异,使得第一单元210能够从备选向下混音103重建空间向下混音202。
第一单元210可从备选向下混音产生表示该备选向下混音103的另外的修正参数/特性。这种情况下,第一单元210可从备选向下混音103、修正参数105和该另外的修正参数(之间的差异)重建空间向下混音202。
修正参数105和该另外的修正参数可分别包括空间向下混音202和备选向下混音103的统计特性。从一些信号导出的诸如方差、相关性和协方差等的统计特性为这些信号提供良好表示。它们在重建空间向下混音202中是有用的,该重建例如通过转换备选向下混音来完成,这种转换使得其相关特性同修正参数105中包含的特性相匹配。
图3示出根据本发明的传输系统70的一个实施例的框图。传输系统70包括1个发送器40,用于通过传输信道30(例如,有线或无线通信链路)将编码多通道音频信号发送到接收器50。发送器40包括1个如上所述的多通道音频编码器10,用于将多通道音频信号101编码成空间向下混音102和相关参数104、105。发送器40还包括装置41,用于通过传输信道30将包括参数104、105和空间向下混音102或备选向下混音103的编码多通道音频信号发送到接收器50。接收器50包括装置51和如上所述的多通道音频解码器20,装置51用于接收编码多通道音频信号,多通道音频解码器20用于将备选向下混音103或空间向下混音102及相关参数104、105解码成多通道音频信号203。
图4示出根据本发明的多通道音频播放器/记录器60的一个实施例的框图。音频播放器/记录器60包括根据本发明的1个多通道音频解码器20和/或1个多通道音频编码器10。音频播放器/记录器60可具备自身存储器,例如固态存储器或硬盘。音频播放器/记录器60还可方便可分离式存储装置,例如(可记录)DVD盘或(可记录)CD盘。可以通过解码器解码所存储的包括备选向下混音103和参数104、105的编码多通道音频信号,并通过音频播放器/记录器60播放或再现。编码器10可编码多通道音频信号以便在存储装置上存储。
图5示出根据本发明的多通道音频编码器10的另一个实施例的框图。编码器10包括第一单元110和与其耦合的第二单元120。第一单元110接收1个5.1多通道音频信号101,它分别包括左前、左后、右前、右后、中心以及低频增强音频信号lf、lr、rf、rr、co和lfe。第二单元120接收分别包括左艺术音频信号la和右艺术音频信号ra的艺术立体声向下混音103。多通道音频信号101和艺术向下混音103为时域音频信号。在第一和第二单元110和120中,这些信号101和103被分割并被转换到频-时域。
第一单元110中,在三个阶段导出参量数据104。在第一阶段,在分割和转换单元112、113和114中,三对音频信号lf和rf、rf和rr以及co和lfe分别被分割,而且分割信号分别被转换到频域。得到的分割信号的频域表示分别被示为频域信号Lf、Lr、Rf、Rr、Co和LFE。在第二阶段,分别在向下混音器115、116、117中将这三对频域信号Lf和Lr、Rf和Rr、Co和LFE向下混音,用以分别产生单声道音频信号L、R、C及相关参数141、142、143。向下混音器115、116、117可为常规MPEG4参数立体声编码器。最后在第三阶段,在向下混音器118中将这三个单声道音频信号L、R、C向下混音,以便获得空间立体声向下混音102及相关参数144。空间向下混音102包括信号Lo和Ro。
参量数据141、142、143和144被包含在第一相关参量数据104中。参量数据104和空间向下混音102表示5.1输入信号101。
在第二单元中,首先在分割单元121中将在时域中分别由音频信号la和ra表示的艺术向下混音信号103分割。得到的分割音频信号127分别包括信号las和ras。接下来,分割音频信号127由转换器122转换到频域。得到的频域信号126包括信号La和Ra。最后,作为分割艺术向下混音103的频域表示的频域信号126和分割空间向下混音102的频域表示被提供给发生器123,该发生器123产生修正参数105,修正参数105使解码器能够修正/转换艺术向下混音103,从而使其更接近空间向下混音102。分割时域信号127也被提供给选择器124。这一选择器124的另外两个输入是空间立体声向下混音102的频域表示和控制信号128。控制信号128确定选择器124将艺术向下混音103还是空间向下混音102作为编码多通道音频信号的一部分输出。无法得到艺术向下混音时可以选择空间向下混音102。可人工设置或通过检测艺术向下混音103的存在自动生成控制信号128。控制信号128可包含在参数比特流中,从而相应的解码器20可以按下述方式对其进行利用。
选择器124的输出信号102、103被示为信号lo和ro。如果选择器124输出艺术立体声向下混音127,则在选择器124中通过重叠-附加将分割时域信号las和ras组合成信号lo和ro。如果按控制信号128指示的那样输出空间立体声向下混音102,则选择器124将信号Lo和Ro转换回时域,并通过重叠-附加将它们组合成信号lo和ro。时域信号lo和ro形成5.1-2编码器10的立体声向下混音。
下面是对发生器123更为详细的阐述。发生器123的功能是确定对艺术向下混音103的转换进行描述的修正参数,使得从某种意义上说,它类似于初始空间向下混音102。通常,这一转换可描述为 [Ld Rd]=[La Ra A1…AN]T (1) 其中La和Ra为向量,包括艺术向下混音103左右通道的时/频片段样本,且其中Ld和Rd为向量,包括修正艺术向下混音左右通道的时/频片段采样,其中A1…AN包括可选辅助通道时/频片段的样本,且其中T为转换矩阵。注意任何向量V都定义为列向量。修正的艺术向下混音是经过转换的艺术向下混音103,使得它同初始空间向下混音102相似。辅助通道A1…AN例如可以是艺术向下混音信号的去相关版本,或者包含空间向下混音信号的低频成分。后一种情况下,这一低频成分可以包含在参数105中。(N+2)×2转换矩阵T描述自艺术向下混音103和辅助通道到修正艺术向下混音的转换。转换矩阵T或其元素优选地包含在修正参数105中,使得解码器20能够重建至少部分转换矩阵T。此后,解码器20可(如下所述)将转换矩阵T应用于艺术向下混音103,用以重建空间向下混音102。
或者,修正参数105包括空间向下混音102的信号特性,例如能量或功率值和/或相关性数值。随后,解码器20可从艺术向下混音103产生这些信号特性。空间向下混音102和艺术向下混音103的信号特性使解码器20能够建立转换矩阵T(下面阐述),并能够将该矩阵应用到艺术向下混音103,用以重建空间向下混音102(同样在下面阐述)。
还有几种使艺术立体声向下混音103同初始立体声向下混音102相似的可能 I.波形的匹配。
II.统计特性的匹配 左右通道能量或功率的匹配。
左右通道协方差矩阵的匹配。
III.在左右通道能量或功率匹配的约束下获得波形的最佳可能匹配。
IV.混合上述方法I-III。
下面,不考虑(1)的辅助通道A1…AN,由此可将转换矩阵T写成 [Ld Rd]=[La Ra]T (2) I.波形匹配(方法I) 通过将修正艺术向下混音的左右信号表示成艺术立体声向下混音103的左右信号的线性组合,可以获得艺术向下混音103同空间向下混音102的波形匹配 Ld=α1La+β1Ra,Rd=α2La+β2Ra (3) 则,(2)的矩阵T可写成 一种选择参数α1、α2、β1、β2的方式是最小化空间向下混音信号L0、R0同其估计(即,修正艺术向下混音信号Ld、Rd)之间的欧几里德距离的平方,因此 且 II.统计特性的匹配(方法II) 方法II.a现在讨论左右通道能量的匹配。现将分别由Ld和Rd表示的修正左右艺术向下混音信号计算为 Ld=αLa,Rd=βRa (6) 其中,实参数的情况下,α和β由下式给出 从而,可将转换换矩阵T写成 这些选择能够保证信号Ld和Rd分别同信号L0和R0具有相同的能量。
方法II.b为了匹配艺术立体声向下混音103和空间立体声向下混音102的协方差矩阵,可按下式通过特征值分解对这些矩阵进行分解 其中,艺术立体声向下混音103的协方差矩阵Ca由下式给出 Ca=[La Ra]H[La Ra](10) Ua为酉矩阵,Sa为对角阵。C0为空间立体声向下混音102的协方差矩阵,U0为酉矩阵,S0为对角阵。计算 Xaw=[Law Raw]=[La Ra]UaSa-1/2(11) 时,获得了两个互不相关信号Law和Raw(由于乘以矩阵Ua),它们具有单位能量(由于乘以矩阵Sa-1/2)。通过计算 Xd=[LdRd]=[LaRa]UaSa-1/2UrS01/2U0H(12) 首先将[La Ra]的协方差矩阵转换成等于单位阵的协方差矩阵,即[La Ra]UaSa-1/2的协方差矩阵。应用任何酉矩阵Ur都不会改变协方差结构,应用S0-1/2U0H产生一个协方差结构,该结构同空间立体声向下混音102的协方差结构等价。
将矩阵S0w和信号L0w和R0w定义为 S0w=[L0w R0w]=[L0 R0]U0S01/2 (13) 可以这样选择矩阵Ur,使得在最小欧几里德距离平方意义上,在信号L0w同Law、信号R0w同Raw得最佳可能波形匹配,其中Law同Raw由(11)给出。通过Ur的这一选择,可在统计方法范围内使用波形匹配。
从(12)可以看到,转换矩阵T可由下式给出 III.在能量约束下获得最佳波形匹配(方法III) 假设(3)可通过在如下能量约束下最小化(4)、(5)来获得参数α1、α2、β1、β2 IV.混合方法(方法IV) 就混合不同的方法而言,可能的组合是混合方法II.a和II.b,或者混合方法II.a和III。可按下述进行 如果通过方法II.b/III获得的L0同Ld之间、R0同Rd之间的波形匹配都良好,使用方法II.b/III。
如果这一波形匹配较差,使用方法II.a。
通过混合它们的变换矩阵,保证两种方法之间的一个逐步转换,作为这一波形匹配质量的函数。
这在数学上可表示如下 通过(3)和(2),可将转换矩阵T写成下面的通用形式 通过两个向量TL和TR,可将这一矩阵重写成下式形式 采用方法II.b或方法III得到的L0同Ld之间的波形匹配质量由γL表示。它定义为 采用方法II.b或方法III得到的R0同Rd之间的波形匹配质量由γR表示。它定义为 γL和γR都在0和1之间。左通道的混合系数δL和右通道的混合系数δR可可按下式定义

其中μL,min、μL,max、μR,min、μR,max是0到1之间的值,μL,min,<μL,max,且μR,min<μR,max。式(20)确保混合系数δL和δR在0到1之间。
将方法II.a、II.b和III的转换矩阵T分别定义为(8)给出的Te、(14)给出的Ta和Tce。类似(17)中T的分解,每个转换矩阵都可按下式分为两个向量 Ta=[Ta,L Ta,R],Te=[Te,L Te,R],
用于混合方法II.a和方法II.b的转换矩阵T可获得为 T=[TL TR]=[δLTa,L+(1-δL)Te,L δRTa,R+(1-δR)Te,R](22) 用于混合混合方法II.a和方法III的转换矩阵T可获得为
转换矩阵T的元素可以是实值的或复值的。可如下将这些元素编码到修正参数中可将转换矩阵T中实的、正的元素像MPEG4参数立体声中使用的IID参数那样按对数量化。可以对参数的数值设定一个上限,以避免小信号的过分放大。这一上限可以是固定的,也可以是自动生成的左通道同艺术左通道之间相关性以及自动生成的右通道同艺术右通道之间相关性的函数。对于T的复元素,可通过IID参数对其幅值进行量化,并可线性量化其相位。可采用取元素绝对值的对数来对T中实的、可能为负的元素进行编码,同时保证负、正数值之间的区别。
图6示出根据本发明的多通道音频解码器20的另一个实施例的框图。解码器20包括第1个一单元210和1个与其耦合的第二单元220。第一单元210接收向下混音信号lo、ro和修正参数105作为输入。向下混音信号lo和ro可以是空间向下混音102或艺术向下混音103的一部分。第一单元210包括分割和变换单元211以及向下混音修正单元212。在分割和变换单元211中,分别对向下混音信号lo和ro进行分割,并将分割信号变换到频域。分别将得到的分割向下混音信号的频域表示用频域信号Lo和Ro表示。接下来,频域信号Lo和Ro在向下混音修正单元212中进行处理。这一向下混音修正单元212的功能是修正输入向下混音,使其同空间向下混音202相似,即从艺术向下混音103和修正参数105重建空间向下混音202。如果空间向下混音102被解码器20接收,则向下混音修正单元212不必修正向下混音信号Lo和Ro,且这些向下混音信号Lo和Ro可作为空间向下混音202的向下混音信号Ld和Rd简单传送到第二单元220。控制信号217可指示是否需要修正输入向下混音,即输入向下混音是空间向下混音还是备选向下混音。可例如通过分析输入向下混音及相关参数105在解码器20内产生控制信号217,其中输入向下混音及相关参数105可以描述期望空间向下混音的信号特性。如果输入向下混音匹配期望的信号特性,控制信号217可以被设置来指示不需要修正的情况。或者,可人工设置控制信号217,或将其设置作为编码多通道音频信号的一部分例如在参数组105中来接收。
如果编码器20接收艺术向下混音103,且控制信号217指示接收的向下混音信号Lo和Ro将被向下混音修正单元212修正,则解码器可以有两种运行方式,这依赖于所发送的参数的表示。如果参数表示从发送的向下混音到空间向下混音(的所需特性)的(相对)转换,则直接从所发送的参数获得转换变量。通过这些转换变量就直接构成了变换矩阵T。
另一方面,如果所发送的参数表示空间向下混音的(绝对)特性,则解码器首先计算实际发送的向下混音的相应特性。使用这一信息(发送的参数和所发送的向下混音的求得特性),转换变量随后被确定,它描述从所发送的向下混音(的特性)向空间向下混音(的特性)的转换。更具体地,可通过前述方法II.a或(轻微修正的)II.b确定转换矩阵T。
如果在参量数据中仅发送(绝对)能量,则使用方法II.a。所发送的(绝对)参数ELo和ERo分别表示空间向下混音左右信号的能量,并由下式给出 在解码器处计算所发送的向下混音的能量EDLo和EDRo。使用这些变量,我们可按下式计算(7)中的参数α和β 转换矩阵T由下式给出 如果(绝对)能量和(绝对)相关性都被发送,则使用方法II.b。所发送的(绝对)能量参数ELo和ERo分别表示空间向下混音的左右信号的能量,并由(24)给出。这些能量以及所发送的空间向下混音的左右信号之间的相关性ρLoRo,可被用来按下式确定空间向下混音的协方差矩阵Co 在解码器处计算所发送的向下混音的协方差矩阵Ca。对两个协方差矩阵进行(9)给出的特征值分析,除了任意酉矩阵Ur外,我们可以通过(14)计算转换矩阵T。由于空间向下混音的波形无法得到,所以不能按前述方式选择这个矩阵。例如,现在可以将转换矩阵T选择为尽可能接近对角结构的形式。
使用辅助信号时,同样构成了它们。如果不修正所接收的向下混音,转换矩阵T等于单位阵,且不使用辅助通道。使用式(1)计算输出信号Ld和Rd。应该注意,图5和图6将类似Ld和Rd的向量分别示为Ld和Rd。
第二单元220是常规2-5.1多通道解码器,它将重建的空间向下混音202和相关参量数据104解码成一个5.1通道输出信号203。正如前面阐述的那样,参量数据104包括参量数据141、142、14和144。第二单元220执行编码器10中第一单元110的相反处理。第二单元220包括1个向上混音器221,它将立体声向下混音202及相关参数144转换成3个单声道音频信号L、R和C。接下来,分别在去相关器222、225、228中去相关各单声道音频信号L、R和C。然后,混音矩阵223将单声道音频信号L、其去相关对应部分及相关参数141转换成信号Lf和Lr。类似地,混音矩阵226将单声道音频信号R、其去相关对应部分及相关参数142转换成信号Rf和Rr,且混音矩阵229将单声道音频信号C、其去相关对应部分及相关参数143转换成信号Co和LFE。最后,3对分割的频域信号Lf和Lr、Rf和Rr、Co和LFE在逆转换器224、227、230中分别被转换到时域,并通过重叠-附加进行组合,以分别获得三对输出信号lf和lr、rf和rr,以及co和lfe。输出信号lf、lr、rf、rr、co和lfe形成解码的多通道音频信号203。
可通过数字硬件,或通过由数字信号处理器或通用微处理器执行的软件来实现多通道音频编码器10和多通道音频解码器20。
本发明的范畴不限于明确公开的实施例所给出的范围。本发明体现在每个新特征和每个新特征组合中。任何参考符号不限制权利要求的范围。词“包括”不排除出现权利要求列出以外的其它元素或步骤。在元素之前使用词“一个”不排除出现多个这种元素。
权利要求
1.一种多通道音频编码器(10),用于将N个音频信号(101)编码成M个音频信号(102)和相关参量数据(104、105),M和N为整数,N>M,M≥1,其中多通道音频编码器(10)包括
-第一单元(110),用于将N个音频信号(101)编码成M个音频信号(102)和第一相关参量数据(104),其中M个音频信号(102)和第一相关参量数据(104)表示所述N个音频信号(101),以及
-第二单元(120),它耦合到第一单元(110),第二单元(120)被安排成从所述M个音频信号(102)产生表示所述M个音频信号(102)的第二相关参量数据(105),其中相关参量数据(104、105)包括第一和第二相关参量数据。
2.根据权利要求1的多通道音频编码器(10),其中第二单元(120)被安排成产生第二相关参量数据(105),使得第二相关参量数据(105)表示所述M个音频信号(102)的一个特性。
3.根据权利要求1或2的多通道音频编码器(10),其中第二单元(120)被安排成产生第二相关参量数据(105),使得第二相关参量数据(105)包括能够从K个另外的音频信号(103)重建M个音频信号(102)的修正参数。
4.根据权利要求3的多通道音频编码器(10),其中第二单元(120)被安排成从M个音频信号(102)并从所述K个另外的音频信号(103)产生第二相关参量数据(105),使得修正参数表示M个音频信号(102)同所述K个另外的音频信号(103)之间的一个差异。
5.根据权利要求3的多通道音频编码器(10),其中第二单元(120)被安排成产生第二相关参量数据(105),使得修正参数包括M个音频信号(102)的特性或者M个音频信号(102)的特性同K个所述另外的音频信号(103)的特性之间的差异。
6.根据权利要求2的多通道音频编码器(10),其中第二单元(120)被安排成产生第二相关参量数据(105),使得所述特性包括
-至少部分音频信号(102、103)的一个能量或功率值;或者
-至少部分音频信号(102、103)的一个相关性值;或者
-至少部分音频信号(102、103)的能量或功率值之间的比率。
7.一种多通道音频解码器(20),用于将K个音频信号(103)及相关参量数据(104、105)解码成N个音频信号(203),K和N为整数,N>K,K≥1,其中K个音频信号(103)及相关参量数据(104、105)表示N个音频信号(203),且其中多通道音频解码器(20)包括
-第一单元(210),用于从K个音频信号(103)和相关参量数据(105)的至少第一部分重建M个另外的音频信号(202),M为整数,M≥1,其中相关参量数据(105)的第一部分表示所述M个另外的音频信号(202);以及
-第二单元(220),它耦合到第一单元(210),第二单元(220)被安排成将所述M个另外的音频信号(202)和相关参量数据(104)的至少第二部分解码成N个音频信号(203),其中所述M个另外的音频信号(202)和相关参量数据(104)的第二部分表示N个音频信号(203)。
8.根据权利要求7的多通道音频解码器(20),其中相关参量数据(105)的第一部分表示所述M个另外的音频信号(202)的一个特性。
9.根据权利要求7或8的多通道音频解码器(20),其中相关参量数据(105)的第一部分包括能够从K个音频信号(103)重建所述M个另外的音频信号(202)的修正参数。
10.根据权利要求9的多通道音频解码器(20),其中修正参数包括所述M个另外的音频信号(202)的特性或所述M个另外的音频信号(202)的特性同K个音频信号(103)的特性之间的差异。
11.根据权利要求9的多通道音频解码器(20),其中第一单元(210)被安排成从K个音频信号(103)产生表示K个音频信号(103)的另外的修正参数,其中第一单元(210)进一步被安排成从K个音频信号(103)、包含在相关参量数据(105)的第一部分中的修正参数以及所述另外的修正参数重建所述M个另外的音频信号(202)。
12.根据权利要求11的多通道音频解码器(20),其中修正参数包括所述M个另外的音频信号(202)的特性,且其中所述另外的修正参数包括K个音频信号(103)的特性,且其中第一单元(210)被安排成从K个音频信号(103)、所述M个另外的音频信号(202)的特性同K个音频信号(103)的特性之间的差异重建所述M个另外的音频信号(202)。
13.根据权利要求8的多通道音频解码器(20),其中特性包括
-至少部分音频信号(103、202)的一个能量或功率值;或者
-至少部分音频信号(103、202)的一个相关性值;或者
-至少部分音频信号(103、202)的能量或功率值之间的一个比率。
14.一种用于将N个音频信号(101)编码成M个音频信号(102)及相关参量数据(104、105)的方法,M和N为整数,N>M,M≥1,其中该方法包括
-将N个音频信号(101)编码成M个音频信号(102)和第一相关参量数据(104),其中M个音频信号(102)和第一相关参量数据(104)表示N个音频信号(101);以及
-从M个音频信号(102)产生表示M个音频信号(102)的第二相关参量数据(105),其中相关参量数据(104、105)包括第一和第二相关参量数据。
15.一种用于将K个音频信号(103)及相关参量数据(104、105)解码成N个音频信号(203)的方法,K和N为整数,N>K,K≥1,其中K个音频信号(103)及相关参量数据(104、105)表示N个音频信号(203),且其中该方法包括
-从K个音频信号(103)和相关参量数据(105)的至少第一部分重建M个另外的音频信号(202),M为整数,M≥1,其中相关参量数据(105)的所述第一部分表示所述M个另外的音频信号(202);以及
-将所述M个另外的音频信号(202)和相关参量数据(104)的至少第二部分解码成N个音频信号(203),其中所述M个另外的音频信号(202)和相关参量数据(104)的第二部分表示N个音频信号(203)。
16.一种编码的多通道音频信号,包括K个音频信号(103)及相关参量数据(104、105),其中K个音频信号(103)和相关参量数据(104、105)表示N个音频信号(101),K和N为整数,N>K,K≥1,且其中相关参量数据(104、105)包括第一和第二部分,其中相关参量数据(105)的第一部分表示M个另外的音频信号(202),M为整数,M≥1,且其中所述M个另外的音频信号(202)和相关参量数据(104)的第二部分表示N个音频信号(101)。
17.一种存储介质,其上存储着根据权利要求16的信号。
18.一种传输系统(70),包括发送器(40),用于将编码多通道音频信号经由传输信道(30)发送到接收器(50),发送器(40)包括根据权利要求1的多通道音频编码器(10),该多通道音频编码器(10)用以将N个音频信号(101)编码成M个音频信号(102)和相关参量数据(104、105),发送器(40)还包括用于将K个另外的音频信号(103)及相关参量数据(104、105)经由传输信道(30)发送至接收器(50)的装置,接收器(50)包括用于接收所述K个另外的音频信号(103)和相关参量数据(104、105)的装置,接收器(50)还包括根据权利要求7的多通道音频解码器(20),该多通道音频解码器(20)用以将所述K个另外的音频信号(103)和相关参量数据(104、105)解码成N个音频信号(203)。
19.一种用于发送编码多通道音频信号的发送器(40),所述发送器(40)包括根据权利要求1的多通道音频编码器(10),该多通道音频编码器(10)用以将N个音频信号(101)编码成M个音频信号(102)及相关参量数据(104、105),发送器(40)还包括用于发送K个另外的音频信号(103)及相关参量数据(104、105)的装置。
20.一种用于接收编码多通道音频信号的接收器(50),所述接收器(50)包括用于接收K个音频信号(103)及相关参量数据(104、105)的装置(51),接收器(50)还包括根据权利要求7的多通道音频解码器(20),该多通道音频解码器(20)用于将K个音频信号(103)和相关参量数据(104、105)解码成N个音频信号(203)。
21.一种用于发送和接收编码多通道音频信号的方法,该方法包括将N个音频信号(101)编码成M个音频信号(102)和相关参量数据(104、105),M和N为整数,N>M,M≥1,其中编码包括
-将N个音频信号(101)编码成M个音频信号(102)和第一相关参量数据(104),其中M个音频信号(102)和第一相关参量数据(104)表示N个音频信号(101);以及
-从M个音频信号(102)产生表示该M个音频信号(102)的第二相关参量数据(105),其中相关参量数据(104、105)包括第一和第二相关参量数据,
该方法还包括发送和接收K个音频信号(103)及相关参量数据(104、105)、将K个音频信号(103)和相关参量数据(104、105)解码成N个音频信号(203),该解码包括
-从K个音频信号(103)和相关参量数据(105)的至少第一部分重建M个另外的音频信号(202),M为整数,M≥1,其中相关参量数据(105)的第一部分表示所述M个另外的音频信号(202);以及
-将所述M个另外的音频信号(202)和相关参量数据(104)的至少第二部分解码成N个音频信号(203),其中所述M个另外的音频信号(202)和相关参量数据(104)的第二部分表示N个音频信号(203)。
22.一种发送编码多通道音频信号的方法,该方法包括将N个音频信号(101)编码成M个音频信号(102)及相关参量数据(104、105),M和N为整数,N>M,M≥1,其中编码包括
-将N个音频信号(101)编码成M个音频信号(102)和第一相关参量数据(104),其中M个音频信号(102)和第一相关参量数据(104)表示所述N个音频信号(101);以及
-从M个音频信号(102)产生表示该M个音频信号(102)的第二相关参量数据(105),其中相关参量数据(104、105)包括第一和第二相关参量数据,
该方法还包括发送K个另外的音频信号(103)及相关参量数据(104、105)。
23.一种接收编码多通道音频信号的方法,该方法包括接收K个音频信号(103)及相关参量数据(104、105),并将K个音频信号(103)和相关参量数据(104、105)解码成N个音频信号(203),K和N为整数,N>K,K≥1,其中K个音频信号(103)和相关参量数据(104、105)表示N个音频信号(203),且其中解码包括
-从K个音频信号(103)和相关参量数据(105)的至少第一部分重建M个另外的音频信号(202),M为整数,M≥1,其中相关参量数据(105)的第一部分表示所述M个另外的音频信号(202);以及
-将所述M个另外的音频信号(202)和相关参量数据(104)的至少第二部分解码成N个音频信号(203),其中所述M个另外的音频信号(202)和相关参量数据(104)的第二部分表示N个音频信号(203)。
24.一种多通道音频播放器(60),包括根据权利要求7的多通道音频解码器(20)。
25.一种多通道音频记录器(60),包括根据权利要求1的多通道音频编码器(10)。
26.一种计算机程序产品,运行使处理器实施权利要求14、15、21、22、23中任何一个所述方法的步骤。
全文摘要
一种多通道音频编码器(10),用于将多通道音频信号(101)编码成空间向下混音(102)和相关参数(104、105),所述多通道音频信号(101)例如为5.1通道音频信号,空间向下混音(102)例如为立体声信号。编码器(10)包括第一和第二单元(110、120)。第一单元(110)将多通道音频信号(101)编码成空间向下混音(102)和参数(104)。这些参数(104)使多通道解码器(20)能够从空间向下混音(102)重建多通道音频信号(203)。第二单元(120)从空间向下混音(102)产生参数(105),这些参数(105)使解码器能够从备选向下混音(103)重建空间向下混音(202),所述备选向下混音(103)例如为录音棚中人工混合的所谓艺术向下混音。这样,解码器(20)能够有效处理这样的情况,这种情况下接收备选向下混音(103)取代规则的空间向下混音(102)。在解码器(20)中,首先从另一个向下混音(103)和参数(105)重建空间向下混音(202)。接下来,空间向下混音(202)被解码成多通道音频信号(203)。
文档编号G10L19/008GK101151660SQ200680010652
公开日2008年3月26日 申请日期2006年3月16日 优先权日2005年3月30日
发明者G·H·霍索, D·J·布里巴特, E·G·P·舒杰斯, A·C·登布林克, L·F·维勒莫斯, H·普尔恩哈根, K·J·罗登 申请人:皇家飞利浦电子股份有限公司, 编码技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1