多声道音频信号的去相关编码方法和装置与流程

文档序号:12065445阅读:407来源:国知局
多声道音频信号的去相关编码方法和装置与流程

本发明涉及数字音频编码技术,更具体地说,涉及一种多声道音频信号的去相关编码方法和装置。



背景技术:

随着超高清电视等应用的发展,对于音频的要求也进一步提高,以便获得身临其境的沉浸式听觉效果。为此,输入音频信号的声道数明显增多(例如5.1.4、7.1.4和22.2等),这就使得音频声道信号在空间中的密度增大,相应的声道间的冗余也会增加,因此去除声道间的冗余来提高压缩效率成为3D音频编码的关键技术之一。

当前数字音频编码中对于声道间的冗余处理技术已经有几种经典的方法。这些方法都可以实现无损伤(无失真)压缩多声道(包含立体声)数字音频信号的目的,可以作为传统感觉音频编码技术的预处理模块,可以在时域进行冗余处理,也可以在变换域进行冗余处理。

第一种已有的声道间冗余处理技术是M/S(Middle/Side)立体声编码技术。对于输入立体声信号,如L(左声道)和R(右声道),M/S立体声编码是对这个声道对进行冗余度压缩,其算法如下:

M=L+R

S=L-R

或者通过处理(如延时或增益调整等)之后再进行以上运算。

如果左右声道(或一个声道对)之间相关性较强,那么一般情况下差声道S的动态范围大大降低,其方差值与原来右声道比小很多,这样后面感觉编码通常可以使用更少的比特来编码,而提高总的编码效率。

M/S立体声编码技术仅仅适合于一对输入声道的冗余去除。当输入音频信号具有更多声道时,也只能对多个声道分别配成几个声道对的方式进行编码,例如5.1声道时,如图1所示,L和R一对,LS(左环绕)和RS(右环绕)一对。然而,当输入为5.1声道时,有时L和LS之间也有相关性,R和RS之间同样有相关性,M/S立体声编码没有考虑后面的这种冗余去除情况。

而当输入为3D音频信号时,通常输入包括:

9.1(5.1.4)声道:在5.1声道基础上,在L、R、LS和RS上方增加4个声道;

11.1(7.1.4)声道:在7.1声道基础上,在L、R、LS和RS上方增加4个声道;

22.2模式:扬声器具有三层配置结构,如图2所示,顶层有9个声道,中间层有10个声道,底层有3个声道,还具有两个LFE(低频增强)声道。

当输入音频信号为以上声道模式时,如果仅仅以声道对方式进行M/S编码,并没有充分利用各个声道间的相关性去除冗余信息。

第二种已有的声道间冗余处理技术是正交变换编码。通过正交变换去除声道间相关的方法,可以较好地去除声道间的冗余度,但是由于每帧需要计算正交变换的矩阵,非常复杂;而且随着声道数增加,复杂度急剧增加。另外变化系数矩阵也需要编码传输给解码端,从而可能使得总的编码效率并不高。

例如输入音频信号为2声道立体声时,需要一个2x2的矩阵;而5.1声道时需要一个5x5矩阵(低音声道不处理);22.2声道时,需要一个22x22的矩阵(2个低音声道不处理)。定义系数矩阵为M,则输出与输入之间的关系如下:

Y=MX

其中X为输入向量,一般是长度为2048点的PCM信号。

对于每帧输入信号X,系数矩阵M的计算一般可通过各个声道间的相关计算出来。

第三种已有的声道间冗余处理技术是声道间预测编码。通过声道间预测也可以去除声道间的冗余,这种方法理论上和正交变换方法相似。由于滤波器系数计算比较复杂(特别是声道增多时),同时会带来预测滤波运算的延时,并且还要求传输滤波器系数而可能使得总编码效率不高等原因,因此这种方法在实际的感觉音频编码中一般不会使用。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的上述M/S编码相对简单但是一般声道对的结构不能自适应、编码效率低,正交变换编码和预测编码实现都过于复杂且可能带来延时等问题,提供一种可在低复杂度条件下较好地去除声道间的冗余度、获得较高的编码增益的多声道音频信号的去相关编码方法和装置。

本发明为解决其技术问题在第一方面提出一种多声道音频信号的去相关编码方法,包括如下步骤:

S1、根据输入的多声道音频信号的声道模式构建声道对并对每一声道对进行相关性分析,选择其中最相关的一对声道作为第一个2声道单元,选择剩余声道中最相关的一对声道作为第二个2声道单元,以此类推形成第一层编码结构的所有2声道单元,并为每个2声道单元自适应地选择效率最高的编码模式;

S2、分析编码输出的2声道单元之间的相关性,选择其中最相关的一对2声道单元作为第一个4声道单元,选择剩余2声道单元中最相关的一对2声道单元作为第二个4声道单元,以此类推形成第二层编码结构的所有4声道单元,并为每个4声道单元自适应地选择效率最高的编码模式;

S3、以此类推形成更高一层编码结构的多声道单元,并为每个多声道单元自适应地选择效率最高的编码模式,直至达到预定的某一层编码结构;

S4、按照所述步骤S1-S3中确定的编码结构和编码模式对输入的多声道音频信号进行编码,得到去除声道间冗余的编码信号,并将所述编码结构和编码模式作为参数嵌入到所述编码信号中输出。

根据本发明第一方面的一个实施例中,所述步骤S1中根据输入的多声道音频信号的声道模式构建声道对进一步包括:

对于与其他声道相关性较小的某一个或多个声道不参与声道对的构建而直接输出,以保留偶数个声道进行声道对的构建。

根据本发明第一方面的一个实施例中,所述步骤S1中根据输入的多声道音频信号的声道模式构建声道对进一步包括:

将在空间上相邻的两个声道构建成声道对。

根据本发明第一方面的一个实施例中,所述步骤S1-S3中为每个2/4/多声道单元自适应地选择效率最高的编码模式进一步包括:

为构成更高一层编码结构的多声道单元的两个多声道单元选择相同的编码模式。

根据本发明第一方面的一个实施例中,所述编码模式包括M/S编码和MCR编码。

本发明为解决其技术问题在第二方面提出一种多声道音频信号的去相关编码装置,包括:

自适应结构和模式确定模块,用于根据输入的多声道音频信号的声道模式构建声道对并对每一声道对进行相关性分析,选择其中最相关的一对声道作为第一个2声道单元,选择剩余声道中最相关的一对声道作为第二个2声道单元,以此类推形成第一层编码结构的所有2声道单元,并为每个2声道单元自适应地选择效率最高的编码模式;分析编码输出的2声道单元之间的相关性,选择其中最相关的一对2声道单元作为第一个4声道单元,选择剩余2声道单元中最相关的一对2声道单元作为第二个4声道单元,以此类推形成第二层编码结构的所有4声道单元,并为每个4声道单元自适应地选择效率最高的编码模式;以此类推形成更高一层编码结构的多声道单元,并为每个多声道单元自适应地选择效率最高的编码模式,直至达到预定的某一层编码结构;

编码模块,用于按照所述自适应结构和模式确定模块确定的编码结构和编码模式对输入的多声道音频信号进行编码,得到去除声道间冗余的编码信号,并将所述编码结构和编码模式作为参数嵌入到所述编码信号中输出。

根据本发明第二方面的一个实施例中,所述自适应结构和模式确定模块根据输入的多声道音频信号的声道模式构建声道对进一步包括:

对于与其他声道相关性较小的某一个或多个声道不参与声道对的构建而直接输出,以保留偶数个声道进行声道对的构建。

根据本发明第二方面的一个实施例中,所述自适应结构和模式确定模块根据输入的多声道音频信号的声道模式构建声道对进一步包括:

将在空间上相邻的两个声道构建成声道对。

根据本发明第二方面的一个实施例中,所述自适应结构和模式确定模块为每个2/4/多声道单元自适应地选择效率最高的编码模式进一步包括:

为构成更高一层编码结构的多声道单元的两个多声道单元选择相同的编码模式。

根据本发明第二方面的一个实施例中,所述编码模式包括M/S编码和MCR编码。

实施本发明的多声道音频信号的去相关编码方法和装置,具有以下有益效果:本发明利用多声道音频信号的声道间相关性,通过自适应的声道配置结构和自适应的声道单元编码方式进行编码,可以在低复杂度条件下有效地去除声道间的冗余,从而获得较高的编码增益。本发明比M/S编码效率高,比正交变换编码或预测编码实现简单。本发明适用于超高清电视的3D音频系统或者其他需要3D音频的应用领域。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是现有技术中5.1声道的M/S编码的示意图;

图2是现有技术中22.2声道扬声器配置的示意图;

图3是本发明一个实施例的多声道音频信号的去相关编码方法的流程图;

图4是本发明一个实施例中自适应编码结构和模式选择的示意图;

图5是现有技术中5.1.4声道扬声器配置的示意图;

图6是本发明一个实施例中对5.1.4声道音频信号进行去相关编码的示意图;

图7是本发明另一实施例中对5.1.4声道音频信号进行去相关编码的示意图;

图8是本发明一个实施例中对5.1声道音频信号进行去相关编码的示意图;

图9是本发明一个实施例的多声道音频信号的去相关编码装置的逻辑结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明利用多声道音频信号的声道间相关性,提出了一种自适应选取不同的声道配置结构和不同的编码方式的去相关编码方法,以便有效地去除声道间的冗余,从而获得较高的编码增益。

图3示出了根据本发明一个实施例的多声道音频信号的去相关编码方法100的流程图。如图3所示,该方法包括如下步骤:

步骤S110中,根据输入的多声道音频信号的声道模式构建声道对并对每一声道对进行相关性分析,选择其中最相关的一对声道作为第一个2声道单元,选择剩余声道中最相关的一对声道作为第二个2声道单元,以此类推形成第一层编码结构的所有2声道单元,并为每个2声道单元自适应地选择效率最高的编码模式。

具体来说,步骤S110中会根据不同的声道模式来构建声道对并进行声道间相关性分析。当全频带声道信号为奇数时,可将与其他声道相关性较小的某一个或多个声道不做冗余度去除的编码处理而直接输出给下一级,以保留偶数个声道进行声道对的构建。例如,5.1声道(或7.1声道)的电影信号中的中央声道(FC声道)通常为对白语音信号,一般不做处理而直接输出,低频增强声道(LFE)一般也不做处理直接输出,仅需要对其他四个声道间的相关性进行分析。

在构建声道对时,一种简化的处理方法是根据声道空间相邻的方法,将在空间上相邻的两个声道构建成声道对,从而只需选择部分声道对进行相关性分析,这样可以大大降低该步骤的计算复杂性,而一般并不影响最终结果。例如5.1.4声道情况下(声道命名可参考图2的22.2声道配置),通常可以计算12对声道的相关性:FL(5.1声道时的L)和FR(5.1声道时的R)、FL(5.1声道时的L)和BL(5.1声道时LS)、FR(5.1声道时的R)和BR(5.1声道时的RS)、BL和BR、FL和TpFL、R和TpFR、BL和TpBL、BR和TpBR、TpFL和TpFR、TpFL和TpBL、TpFR和TpBR、TpBL和TpBR。

然后,根据每一声道对相关性分析的结果,选择最相关的一对声道作为第一个2声道单元,选择剩余声道中最相关的一对声道作为第二个2声道单元,以此类推,构造出第一层编码结构的所有2声道单元。以偶数N个输入声道为例,在此步骤S110中形成的第一层编码结构具有N/2个2声道单元,如图4所示。对于每个2声道单元,可以从几种编码方式中自适应地选择效率最高的编码模式进行编码。例如,该编码模式可以是传统的M/S编码和MCR(Maximal Coherence Rotation,最大相关度旋转技术)编码。有关MCR编码,可以参见如下文件:

Shuhua Zhang,Weibei Dou,Huazhong Yang,Maximal coherence rotation for stereo coding,in IEEE International Conference on Multimedia&Expo 2010(ICME2010),Singapore,July 19–23,2010;

CN101350197A,“立体声音频编/解码方法及编/解码器”。

考虑到两个2声道单元会进一步构成一个4声道单元进行进一步编码,因此应尽可能为将构成第二层编码结构的4声道单元的两个2声道单元选择相同的编码模式。

然后步骤S120中,分析编码输出的2声道单元之间的相关性,选择其中最相关的一对2声道单元作为第一个4声道单元,选择剩余2声道单元中最相关的一对2声道单元作为第二个4声道单元,以此类推形成第二层编码结构的所有4声道单元,并为每个4声道单元自适应地选择效率最高的编码模式。

具体来说,本发明在步骤S120中针对第一层编码结构中每个2声道单元的编码输出分析2声道单元之间的相关性,这通常可以利用步骤S110中针对每一声道对的相关性分析结果,即可以从每个2声道单元中的两个声道与另一个2声道单元中的两个声道间的相关性直接推导出两个2声道单元间的相关性。根据2声道单元之间的相关性分析结果,可选择其中最相关的一对2声道单元作为第一个4声道单元,选择剩余2声道单元中最相关的一对2声道单元作为第二个4声道单元,以此类推,从而构造出第二层编码结构的所有4声道单元。参见图4所示,在此步骤S120中形成的第二层编码结构具有N/4个4声道单元。对于每个4声道单元,再进行第二层自适应编码模式选择,从例如M/S编码和MCR编码中选择效率最高的编码模式。同样,考虑到两个4声道单元会进一步构成更高一层编码结构的8声道单元进行进一步编码,因此应尽可能为将构成更高一层编码结构的8声道单元的两个4声道单元选择相同的编码模式。

然后步骤S130中,按照前述步骤S110和步骤S120相同的方法,形成更高一层编码结构的多声道单元,并为每个多声道单元自适应地选择效率最高的编码模式,直至达到预定的某一层编码结构。该预定的某一层编码结构可以是最高层,也可以是为了减少复杂度而预定选择的第M层,参见图4所示。

最后步骤S140中,按照前述步骤S110-S130中确定的编码结构和编码模式对输入的多声道音频信号进行编码,得到去除声道间冗余的编码信号,传送给音频编码器的下一级处理单元。同时,将前述确定的编码结构和编码模式以参数的形式嵌入到编码码流中一起输出。

对于3D音频信号,本发明的上述多声道音频信号的去相关编码方法100通过声道间的相关性分析,自适应地构建编码结构和编码模式,可获得较高的编码增益。这种方法比传统M/S编码的压缩效率高,比正交变换或声道间预测编码的复杂性小。

图5示出了一种比较典型的3D音频输入信号模式5.1.4(9.1)声道的扬声器配置示意图。如图5所示,5.1.4声道模式由传统的5.1声道和上层4个声道构成,声道名称分别为FL、FR、BL、BR、FC、LFE和TpFL、TpFR、TpBL、TpBR。以该5.1.4声道模式,采用本发明上述介绍的多声道音频信号的去相关编码方法进行编码的具体实现如下:

步骤一、为了保留偶数声道,FC声道(通常为对白声道)和LFE声道(低频增强声道)直接输出而不做处理。剩余的8个声道在本实例中简化相关性分析,仅将空间上相邻的两个声道构成声道对(即2声道单元),包括:

声道对G1(FL、FR)

声道对G2(BL、BR)

声道对G3(TpFL、TpFR)

声道对G4(TpBL、TpBR)

声道对G5(FL、TpFL)

声道对G6(FR、TpFR)

声道对G7(BL、TpBL)

声道对G8(BR、TpBR)

声道对G9(FL、BL)

声道对G10(FR、BR)

声道对G11(TpFL、TpBL)

声道对G12(TpFR、TpBR)

步骤二、分别计算以上12个声道对的相关性,选取其中相关性最强的第一个2声道单元,例如G1的相关值最大。

步骤三、根据如图5所示的扬声器的位置和结构对称性,4声道单元可以简化为前4后4、左4右4、上4下4三种结构。由于步骤二中选取了G1作为第一个2声道单元,那么后面只存在前4后4和上4下4两种4声道单元结构。然后根据G1与G2之间的相关性、G1和G3之间的相关性来确定选择哪种4声道单元结构。本实例中若G1和G3存在更强相关性,则选定为前4后4结构,即G1和G3构成第一个4声道单元,G2和G4构成第二个4声道单元。

步骤四、对于步骤三选取的前4后4结构,可以根据前4声道单元与后4声道单元间的相关性,构成一个8声道单元。本实例选择不构成8声道单元,也就是说,构成8声道单元结构不能带来较高编码增益,或者为了降低复杂度因素。

步骤五、自适应选取编码模式。本实例仅在M/S和MCR两种编码模式中选择。参见图6所示,由于步骤二确定了G1声道对(2声道单元)相关性最强,则对这个声道对编码,选择效率最高的一种编码模式,可为MCR编码;作为前4后4结构,前4声道单元中的另一个声道对(即G3)也可分析出其编码模式,可以为MCR编码。考虑到两个声道对构成一个4声道单元需要进一步编码,应尽可能选取相同的编码模式。最后确定4声道单元中两个声道对间(G1的M和G3的M、G1的S和G3的S)的编码模式,由于不需要再构成8声道单元,因此两个声道对间的编码模式可以根据各自编码增益最高原则任意选取,如图6所示。

针对以上5.1.4声道模式的示例,如果步骤二中计算得到G5声道对的相关性最大,步骤三中得到G5和G6之间的相关性最大,也可以构建出另外一种前4后4的4单元编码结构。此时,前4的4声道单元由G5和G6构成,后4的4声道单元由G7和G8构成。首先,G5和G6统一选取最佳编码模式例如M/S编码,然后G5的M和G6的M、G5的S和G6的S再分别选取最佳编码模式,如图7所示。

进一步以更简单的5.1声道环绕声为例,采用本发明上述介绍的多声道音频信号的去相关编码方法进行编码的具体实现如下:

步骤一、FC声道和LFE声道不处理而直接输出。

步骤二、构建声道对G1(FL、FR)、G2(BL、BR)、G3(FL、BL)、G4(FR、BR),共4个声道对,计算该4个声道对的相关性,选择最大相关性的声道对,本实例选择G1最大。

步骤三、5.1声道模式仅仅存在一个水平方向的4声道单元。进一步比较G1与G2和G3与G4的相关性,确定首先编码的一个4声道单元。本实例中G1与G2相关性最大,则先对G1和G2分别进行编码,并选取最佳编码模式例如MCR编码。

步骤四、对G1和G2编码的结果进一步进行声道对编码,并选取最佳编码模式,参见图8所示。

基于以上所介绍的多声道音频信号的去相关编码方法,本发明还提出一种多声道音频信号的去相关编码装置。图9示出了根据本发明一个实施例的多声道音频信号的去相关编码装置200的逻辑结构图。如图9所示,该装置200包括自适应结构和模式确定模块210和编码模块220。自适应结构和模式确定模块210用于根据输入的多声道音频信号的声道模式构建声道对并对每一声道对进行相关性分析,选择其中最相关的一对声道作为第一个2声道单元,选择剩余声道中最相关的一对声道作为第二个2声道单元,以此类推形成第一层编码结构的所有2声道单元,并为每个2声道单元自适应地选择效率最高的编码模式。自适应结构和模式确定模块210在构建声道对时,对于与其他声道相关性较小的某一个或多个声道不做处理而直接输出,以保留偶数个声道进行声道对的构建。为了简化处理,自适应结构和模式确定模块210可根据声道空间相邻的方法,将在空间上相邻的两个声道构建成声道对,从而只选择部分声道对进行相关性分析,这样可以大大降低计算复杂度。自适应结构和模式确定模块210还分析编码输出的2声道单元之间的相关性,选择其中最相关的一对2声道单元作为第一个4声道单元,选择剩余2声道单元中最相关的一对2声道单元作为第二个4声道单元,以此类推形成第二层编码结构的所有4声道单元,并为每个4声道单元自适应地选择效率最高的编码模式。以此类推,自适应结构和模式确定模块210进一步形成更高一层编码结构的多声道单元,并为每个多声道单元自适应地选择效率最高的编码模式,直至达到预定的某一层编码结构为止。优选实施例中,自适应结构和模式确定模块210在为每一层编码结构的多声道单元选择编码模式时,会尽量为将构成更高一层编码结构的两个多声道单元选择相同的编码模式。在通过自适应结构和模式确定模块210确定好最终的编码结构和编码模式之后,编码模块220按照自适应结构和模式确定模块210所确定的编码结构和编码模式对输入的多声道音频信号进行编码,得到去除声道间冗余的编码信号,传送给音频编码器的下一级处理单元。同时,编码模块220将前述确定的编码结构和编码模式以参数的形式嵌入到编码码流中一起输出。图9所示的装置200可用于执行前述图3所示的多声道音频信号的去相关编码方法100,具体可参见前述对方法100的描述。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1