把两频道矩阵编码音频重构为多频道音频的解码方法

文档序号：7669030阅读：390来源：国知局

专利名称：把两频道矩阵编码音频重构为多频道音频的解码方法
技术领域：
本发明涉及多频道音频，更具体地说，涉及一种把两频道矩阵编码音频重构为较接近地模拟一分离环绕声演示的多频道音频的解码方法。
背景技术：
多频道音频已成为电影院及家庭影院的标准，也在音乐、汽车、电脑、游戏及其他的音频应用中迅速地得到认同，也正被考虑应用于电视广播上。多频道音频提供一环绕立体声环境，大大地加强了收听的感受及任何音视系统的整体演示。由立体声进展到多频道音频，是由多种的因素所推动，其中最主要的是消费者需求更高质素的音频演示。高质素并不只代表更多的频道，而是更高传真度的频道及更进步的频道分离。另一个对消费者及生产商同样重要的因素是维持现有扬声器系统和编码内容的逆向相容及在现有的系统和内容上提高音频演示。
早期的多频道系统矩码是将多音频频道，例如左、右、中及环绕声(L，R，C，S)频道，阵编成左全和右全(Lt，Rt)频道及以标准立体声把它们录制。虽然，这两频道矩阵编码系统(如Dolby Prologictm)提供环绕声音频，但音频演示不是分离的，而是特征为串音干扰及相位失真。矩阵解码算法确认一单一显性信号及确定这信号在一五点声场的位置以重构L，R，C及S信号。结果可能是一糊状的音频演示，当中，不同的信号在空间上并没有清楚地的被分离，尤其是较不显性但重要的信号实际上可能会被遗失。
现今消费者应用的标准是分离5.1频道音频，把环绕声频道分为左及右环绕声频道再加上一次低音频道(L，R，C，Ls，Rs，Sub)。每一个频道是被独立地压缩，之后再混合为一5.1格式，从而维持每一个信号的分离性。Dolby AC-3tm，Sony SDDStm及DTS Coherent Acousticstm都是5.1系统的例子。近期也推出了，加入了一中央环绕声频道Cs的6.1频道音频。真正的分离音频可提供一清晰的音频频道空间分离，同时也能支援多重显性信号从而提供更丰富及更自然的声音演示。
当消费者习惯了分离多频道音频及已于家中装设了5.1扬声器系统后，他们将不愿意接受明显地较为差的环绕声演示。可惜，现时只有少部分的内容是5.1格式。大多数的内容也只是两频道矩阵编码格式，主要是Dolby Prologictm。因为Prologic解码器已被大量采用，预计5.1内容会继续以Prologic格式编码。因此，在本行业中，对提供一种以两频道矩阵编码音频来重构更接近分离多频道音频的多频道音频的解码方法仍有未达到的需求。
Dolby Prologictm是最早提供两频道矩阵编码多频道系统中之一种。Prologie采用相位偏移环绕声界标把两频道(Lt，Rt)挤压成四频道(L，R，C，S)。然后将这两频道之后被编码成现时的两频道格式。解码是一种两个步骤的程序，当中一现时的解码器接收Lt，Rt，之后一Prologic解码器把Lt，Rt展开成L，R，C，S。由于四个的信号只是两频道的延伸，Prologic解码运作只是一近似值而不能提供真正的分离多频道音频。
如图1所示，一录音室2可混合多个，例如48，音频来源以提供一四频道混音(L，R，C，S)。Prologic编码器4如下矩阵编码这混音Lt＝L+0.707C+S(+90°)，及 (1)Rt＝R+0.707C+S(-90°) (2)那是由两个分离频道所延伸，编码成现时的两频道格式及录制于一媒体6如胶卷、CD或DVD。
一Prologic矩阵解码器8解码两个分离频道Lt，Rt及它们展开成四个被放大及分配到一5扬声器系统10的分离重构频道Lr，Rr，Cr及Sr。
很多不同的专有算法被用于进行一动态解码，所有也是根据测量Lt+Rt，Lt-Rt，Lt及Rt的功率以计算增益因数Gi，因此Lr＝G1*Lt+G2*Rt (3)Rr＝G3*Lt+G4*Rt (4)Cr＝G5*Lt+G6*Rt，及 (5)Sr＝G7*Lt+G8*Rt. (6)更具体地说，如图2所示Dolby提供为一5点声场11的中心零点一组扩大率系数。解码器测量两频道矩阵编码信号Lt及Rt的绝对的功率和根据以下计算L，R，C及S频道的功率水平Lpow(t)＝C1*Lt+C2*Lpow(t-1) (7)Rpow(t)＝C1*Rt+C2*Rpow(t-1) (8)Cpow(t)＝C1*(Lt+Rt)+C2*Cpow(t-1)(9)Spow(t)＝C1*(Lt+Rt)+C2*Spow(t-1)(10)当中C1及C2是控制时间平均值程度的系数而参数(t-1)是于先前的瞬间的个别的功率水平。
随后用这些功率水平并根据以下公式计算L/R及C/S显性向量If Lpow(t)＞Rpow(t)，Dom L/R＝1-Rpow(t)/Cpow(t)，Else Dom L/R＝Lpow(t)/Rpow(t)-1，(11)及If Cpow(t)＞Spow(t)，Dom C/S＝1-Spow(t)/Cpow(t)，Else Dom C/R＝Cpow(t)/Spow(t)-1，(12)L/R及C/S显性向量的向量总和定义一显性向量12，其在5点声场中并由此会发出单一的显性信号。解码器根据以下的显性向量调整零点上的增益系数集[G]Dom＝[G]Null+Dom L/R*[G]R+Dom C/S*[G]C (13)当中[G]代表增益系数集G1，G2，...G8.
这假设显著点是位于5点声场的R/C象限。一般来说，适当的功率水平会根据显著点所在象限而被加入于方程式中。之后，根据方程式3-6用[G]Dom系数作重显L，R，C及S频道，再被传到扩音器及扬声器配置。
当与分离5.1系统作比较时缺点便很明显。环绕声演示包括串音干扰和相位失真及最佳的近似分离音频演示。除了单一显著信号外，由不同位置发出或存在于不同的频谱频带的一些信号，倾向于被单一显性信号删除。
如Dolby AC-3TM、Sony SDDSTM及DTS Coherent AcousticsTM等的5.1环绕声系统可保持多频道音频的分离性，因此可提供更丰富及更自然的声音演示。如图3所示，录音室20可提供一5.1频道混音。一5.1编码器22独立地压缩每一信号或频道，把它们多路复用及以特定的5.1格式把音频数据封装，及录制于适合的媒体24(例如；DVD)中。一5.1解码器26以每一次一帧籍由压缩音频数据作解码位流，把它多路分用为5.1频道及解压每频道以再产生信号(Lr，Rr，Cr，Lsr，Rsr，Sub)使位流解码。这些5.1分离频道载有5.1分离音频信号会被引进于扬声器配置28(超低音扬声器图中)的合适分离扬声器。
本发明的概述鉴于以上的问题，本发明提供一两频道矩阵编码音频的解码方法来重构更一接近分离环绕声演示的多频道音频。
这可以藉由子频带过滤两频道矩阵编码音频，把每一子频带信号变换为一扩大声场以产生多频道子频带信号，及把这些子频带信号合成为重构多频道音频而实现。藉由分开地控制在一扩大声场的子频带，可在于不同的点的声场使不同声音同时定位，这允许更准确的配置及更清楚的定义每一个音元。
子频带过滤的程序为多重的显著信号提供每一个子频带中的一个。所以，可能被单一信号所掩盖而对音频演示很重要的信号是可得以保持于环绕声演示，只要它们位于不同的子频带。为要最优化表现与计算的平衡，在调整子频带到适合于人类听觉的敏感度中，最好是用一吼叫(bark)过滤器方法。
藉由扩大声场，解码器可更准确地于声场中把音频信号定位。所以，似乎于自相同的位置发出的信号可被分开到更分离。要优化表现，最好把扩大声场和多频道输入调配。例如九点声场提供分离点，每一个有一组优化了的增益系数，包括供L，R，C，Ls，Rs及Cs每一个频道的点。
以下，将结合附图对于最佳实施例进行详细地述，由此本发明的一些和其他特征以及优点对本领域技术人员是显而易见的。

图1，如上所述，是一两频道矩阵编码环绕声系统的方框图；图2，如上所述，是一5点声场的解说图；图3，如上所述，是一5.1环绕声系统的方框图；图4是一本发明由两频道矩阵编码音频重构多频道音频的解码器的方框图；
图5是一说明本发明由两频道矩阵编码音频重构多频道音频的步骤的流程图；图6a及6b分别说明子频带过滤器及示于图4用作重构分离多频道音频的合成过滤器；图7说明特别的吼叫(bark)子频带过滤器；及图8是一调配分离多频道音频演示的九点扩大声场的图解。

发明内容
本发明满足本行业对提供以两频道矩阵编码音频来重构更接近分离多频道音频的多频道音频的解码方法的需要。这技术有可能结合于多频道影音接收机内以致于一单一装置可供应真正的5.1(或6.1)多频道音频及两频道矩阵编码音频。虽然较差于真正的分离多频道音频，由两频道矩阵编码内容的环绕声演示可提供更丰富及更自然的声音体验。这是经由以下来达到的子频带过滤两频道音频而行，控制在一扩大声场的子频带，包括一有优化增益系数的分离点供每一个扬声器配置及再合成多频道子频带以重构多频道音频。虽然较佳的实施会使用子频带过滤及扩大声场功能，但是它们也可独立使用。
如图4所叙述，一解码器30接收一两频道矩阵编码信号32(Lt，Rt)及重构一多频道信号34，再被扩大和分配到扬声器36以演示更自然及更丰富的环绕声体验。解码算法是独立于特别的两频道矩阵编码，因此信号32(Lt，Rt)可代表一标准Prologic混合(L，R，C，S)，一5.0混合(L，R，C，Ls，Rs)，一6.0混合(L，R，C，Ls，Rs，Cs)或是其他。重构多频道音频是取决于用户扬声器配置。例如对于一6.0信号，解码器会产生一分离中央环绕Cs频道，如果一Cs扬声器存在的话，否则这信号将会被混音到Ls及Rs频道以提供一幻象(Phantom)中央环绕。相似地，如果用户有少于五个扬声器，解码器会混音。注意，超低音或.1频道是不包括于此混合中。低音反应是由分开的软件所提供，其由重构频道中抽取一低频信号并不是本发明的部分。
解码器30包括一子频带过滤器38，一矩阵编码器40及一合成过滤器42，它们一起解码两频道矩阵编码音频Lt和Rt及重构多频道音频。如图5所示，解码及重构需要如下顺序的步骤
1.选取每一输入频道(Lt，Rt)一段样，例如64供(步骤50)。
2.用多频带过滤器列38，例如图6a所示类型的64频带多相过滤器列52过滤每一段以形成子频带音频信号(步骤54)。
3.如图7所示(选择性)把结果频带样集合成最接近结果吼叫(bark)频带56，(步骤58)。吼叫(bark)频带可被进一步结合以减少计算负荷。
4.测量每一Lt及Rt子频带的功率水平(步骤60)。
5.计算每一L，R，C及S子频带的功率水平(步骤62)。
Lpow(t)i＝C1*Lt+C2*Lpowi(t-1) (14)Rpow(t)i＝C1*Rt+C2*Rpowi(t-1) (15)Cpow(t)i＝C1*(Lt+Rt)+C2*Cpowi(t-1) (16)Spow(t)i＝C1*(Lt-Rt)+C2*Spowi(t-1) (17)当中，i表示子频带，C1及C2是时间平均系数，及(t-1)表示先前的瞬间。
6.计算每一子频带L/R及C/S显性向量(步骤64)。
If Lpow(t)i＞Rpow(t)i，DomL/Ri＝1-Rpow(t)i/Lpow(t)i，else Dom L/Ri＝Lpow(t)i/Rpow(t)i-1 (18)andIf Cpow(t)i＞Spow(t)i，DomC/Si＝1-Spow(t)i/Cpow(t)i，else Dom C/Ri＝Cpow(t)i/Spow(t)i-1 (19)7.使用一慢和快的平均值及临界值均分每一子频带的L/R及C/S显性向量以确定那一个平均值将会被用作计算矩阵变数(步骤66)。当适合时，这可容许作快速操控，即当防止无意识漂移时，出现大变化。
8.映射/变换Lt、Rt子频带信号为一于图8所示的类型的扩大声场68，其配合活动影像/DVD频道配置的扬声器布局(步骤70)。九点的座标(可藉助更大的处理器功能而扩大)确认于声音空间的位置。每一点对应一组以[G]代表的增益值G1，G2，...G12，其被确定当L/R及C/S显性向量限定义出一对应那点的信号向量72时以产生每一个扬声器的最佳输出。
如上述方程式18及19所定义，每一Dom L/R及Dom C/S都有一范围在[-1，1]的值，当中显性向量的信号指示象限向量72所在处及向量值显示在每一个子频带象限之内的有关位置。
在每一个子频带的信号向量72的增益系数最好基于信号向量72所在的象限之四角的增益系数值来计算。一种方法是基于角点的系数值基础于那点内插增益系数。
以下方程为左上方象限的一点的一般化内插法方程式[G]vectori＝D1i*[G]Null+D2i*[G]L+D3i*[G]c+D4i*[G]UL(20)虽然可用较高阶函数，但起始的测试显示，一简单一阶的或线性内插法最好，当中系数由以下提供当中|*|是一重要的函数而i表示子频带。
如果信号向量72是与零点符合，系数预设成零点系数。如果该点是位于象限(1/2，1/2)的中央，所有的四角点相等地给予它们的四分之一数值。如果该点处于越靠近将给予的一点，那一点便越重，除了以一线性方式以外。例如如果点是位于(1/4，1/4)，近于零点，则基值为9/16[G]Null，3/16[G]L，3/16[G]C及1/16[G]UL。
9.根据(步骤74)重构多频道子频带音频信号Lri＝G1i*Lti+G2i*Rti (21)Rri＝G3i*Lti+G4i*Rti (22)Cri＝G5i*Lti+G6i*Rti， (23)Lsri＝G7i*Lti+G8i*Rti，(24)Rsri＝G9i*Lti+G10i*Rti，and(25)Csri＝G11i*Lti+G12i*Rti(26)Where[G]vectori provide G1i，G2i，...G12i.
10.使多频道子频带音频信号通过如图6b所示类型的合成过滤器42，例如一倒转的多相过滤器76，以产生重整多频道音频(步骤78)。依照音频内容而定，重整音频可能会包含多显性信号，每一子频带最多到一个。
本方法比已知的引导矩阵系统，如Prologic，具有两个主要的优点1.籍由分开引导子频带，不同的声音可以同时地被定位于矩阵中的不同点，这允许更准确的布局及更清楚的解晰每一个声音元素。
2.现时的矩阵观测三前频道及两或三后频道的活动影像/DVD频道配置。因此，最佳的运用是透过矩阵以单一扬声器配置作5.1/6.1分离的DVD及Lt/Rt播放。
虽然说明书已说明及述了本发明的各种不同的具体实施例，但是对本领域的技术人员来说，将会出现多种改型及变换。在不脱离由所附的权利要求书限定的本发明的的精神及范围下，这样一些改型及变换是可以预料并可做到的。
权利要求
1.一种把两频道矩阵编码音频(32)重构为近似模拟一分离环绕声演示的多频道音频(34)的方法，其特征在于，包括子频带过滤(54)两频道矩阵编码音频至多重两频道子频带音频信号；分开引导(70)于一声场(68)的两频道子频带音频信号而形成多频道子频带音频信号；及合成(78)于子频带的多频道子频带音频信号而重构多频道音频。
2.如权利要求1的方法，其特征在于，重构多频道音频包括一多重显性音频信号。
3.如权利要求2的方法，其特征在于，所述显性音频信号存在于不同的子频带。
4.如权利要求3的方法，其特征在于，引导两频道子频带音频信号，包括计算(64)每一所述子频带在所述声场的一显性向量(72)，所述显性向量由在子频带的显性音频信号所决定。
5.如权利要求1的方法，其特征在于，子频带过滤集合(58)子频带音频信号为一多重吼叫(bark)频带。
6.如权利要求1的方法，其特征在于，两频道矩阵编码音频包括至少左、右、中、左环绕及右环绕(L，R，C，Ls，Rs)音频频道，所述两频道子频带音频信号会被引导为一扩大声场(68)那包括一供每一所述音频频道的分离点。
7.如权利要求6的方法，其特征在于，每一所述分离点对应一组增益值预定作于每一L，R，C，Ls，Rs扬声器产生一最佳音频输出，分别地，当两频道子频带音频信号被引导到于扩大声场的那点时。
8.如权利要求7的方法，其特征在于，每一所述分离点进一步包括一增益值预定作于中央环绕(Cs)扬声器产生一最佳音频输出，当两频道子频带音频信号被引导到于扩大声场的那点时。
9.如权利要求7的方法，其特征在于，引导音频信号包括为每一所述子频带计算(64)于所述声场的一显性向量，所述显性向量被在子频带的显性音频信号所决定；使用所述显性向量及所述预定增益值供每一子频带的每一分离点计算一组的增益值；及使用所述两频道子频带音频信号及所述增益值计算多频道子频带音频信号。
10.如权利要求9的方法，其特征在于，每一子频带的增益值是把围绕在显性向量的预定增益值进行一线性内插而计算，而定义在声场那点的一组增益值由显性向量指示。
11.如权利要求1的方法，其特征在于，扩大声场包括一9点声场，每一所述分离点对应于一组增益值预定作在每一L，R，C，Ls，Rs扬声器产生一最佳音频输出，分别地，当两频道子频带音频信号被引导到于扩大声场的那点时。
12.一种把两频道矩阵编码音频(32)重构为近似模拟一分离环绕声演示的多频道音频(34)的方法，其特征在于，它包括提供包括至少左、右、中、左环绕及右环绕(L，R，C，Ls，Rs)音频频道的两频道矩阵编码音频；引导于一扩大声场(68)的两频道矩阵编码音频，包括一供每一所述音频频而重构多频道音频的分离点；及分配多频道音频到一扬声器配置(36)，那包括一扬声器供每一所述L，R，C，Ls及Rs音频频道。
13.如权利要求12的方法，其特征在于，每一所述分离点对应一组增益值预定作于每一L，R，C，Ls，Rs扬声器产生一最佳音频输出，分别地，当两频道矩阵编码音频被引导到于扩大声场的那点时。
14.如权利要求13的方法，其特征在于，每一所述分离点进一步包括一增益值预定作于中央环绕(Cs)扬声器产生一最佳音频输出，当子频带音频信号被引导到于扩大声场的那点时。
15.一种把两频道矩阵编码音频(32)重构为近似模拟一分离环绕声演示的多频道音频(34)的方法，其特征在于，它包括提供包括至少左、右、中、左环绕及右环绕(L，R，C，Ls，Rs)音频频道的两频道矩阵编码音频；分开引导(70)于一声场(68)的两频道子频带音频信号而形成多频道子频带音频信号，所述声场有一供每一所述音频频道的分离点，每一所述分离点对应一组增益值预定作于每一L，R，C，Ls，Rs扬声器产生一最佳音频输出，分别地，当两频道子频带音频信号被引导到于扩大声场的那点时；及合成(78)于子频带中多频道子频带音频信号而重构多频道音频。
16.如权利要求15的方法，其特征在于，重构多频道音频包括一存在于不同子频带的多重显性音频信号。
17.如权利要求15的方法，其特征在于，子频带过滤集合(58)子频带音频信号为一多重的吼叫(bark)频带。
18.如权利要求15的方法，其特征在于，每一所述分离点进一步包括一增益值预定作于中央环绕(Cs)扬声器产生一最佳音频输出，当两频道子频带音频信号被引导到于扩大声场的那点时。
19.如权利要求15的方法，其特征在于，扩大声场包括一9点声场。
全文摘要
本发明提供一种把两频道矩阵编码音频(32)重构为较接近地模拟一分离环绕声演示的多频道音频(34)的解码方法。这可以藉由子频带过滤两频道矩阵编码音频，把每一子频带信号变换为一扩大声场以产生多频道子频带信号，及把这些子频带信号合成为重构多频道音频而实现。藉由分开地控制在一扩大声场的子频带，可在于不同的点的声场使不同声音同时定位，这允许更准确的配置及更清楚的定义每一个音元。
文档编号H04S3/00GK1575621SQ01820126
公开日2005年2月2日申请日期2001年10月4日优先权日2000年10月6日
发明者W·P·史密斯, S·M·史密斯, 严明申请人:数字剧场系统股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：W.P.史密斯;S.M.史密斯;严明
技术所有人：数字剧场系统股份有限公司
我是此专利的发明人

上一篇：使用多重展开码的简易区块空时传输多样化的制作方法
上一篇：高频放大电路的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。