用于压缩高阶高保真立体声(HOA)信号的方法、用于解压缩压缩的HOA信号的方法、用于压缩HOA信号的装置以及用于解压缩压缩的HOA信号的装置与流程

文档序号:12288470阅读:232来源:国知局
用于压缩高阶高保真立体声(HOA)信号的方法、用于解压缩压缩的HOA信号的方法、用于压缩HOA信号的装置以及用于解压缩压缩的HOA信号的装置与流程

本发明涉及一种用于压缩高阶高保真立体声(HOA)信号的方法、用于解压缩压缩的HOA信号的方法、用于压缩HOA信号的装置以及用于解压缩压缩的HOA信号的装置。



背景技术:

高阶高保真立体声(HOA)提供了表示三维声音的可能性。其他已知的技术是波场合成(WFS)或基于通道的方法(比如22.2)。然而,与基于通道的方法相反,HOA表示提供了独立于特定扩音器设置的优点。然而,该灵活性是以HOA表示在特定扩音器设置上的回放需要解码处理为代价的。与所需扩音器的数量通常非常大的WFS方法相比,HOA也可以被渲染到仅由少量扩音器组成的设置。HOA的进一步的优点是,相同的表示也可以被没有任何修正地用于对于耳机的双耳渲染。

HOA是基于通过截断球谐函数(SH)展开得出的复谐波平面波振幅的所谓空间密度的表示。每个展开系数是角频率的函数,其可以等同地用时域函数表示。因此,不失一般性地,整个HOA声场表示实际上可以被假定为由O个时域函数组成,其中,O表示展开系数的数量。在下面,这些时域函数将被等同地称为HOA系数序列或HOA通道。通常,使用球坐标系,在球坐标系中,x轴指向前向的位置,y轴指向左边,z轴指向顶部。空间x=(r,θ,φ)T中的位置用半径r>0(即,到坐标原点的距离)、从极轴z测量的倾角θ∈[0,π]、以及在x-y平面中从x轴逆时针测量的方位角φ∈[0,2π[表示。此外,(·)T表示转置。

下面提供HOA编码的更详细的描述。

用表示的声压相对于时间的傅立叶变换(即,其中,ω表示角频率,i指示虚数单位)可以根据被展开为球谐函数的级数。

这里,cs表示声音的速度,k表示通过与角频率ω相关的角波数,jn(·)表示第一种球贝塞尔函数,表示阶次n和度数m的实数值球谐函数。展开系数仅取决于角波数k。注意到,已经隐含地假定声压在空间上是带限的。因此,级数关于阶次索引n在上限N处被截断,阶次索引n被称为HOA表示的阶次。如果声场用不同角频率ω的并且从角度元组(θ,φ)指定的所有可能的方向到达的无限个谐波平面波的叠加来表示,则相应的平面波复振幅函数C(ω,θ,φ)可以用以下球谐函数展开来表达:

其中,展开系数通过与展开系数相关。

假定各个系数是角频率ω的函数,那么逆傅立叶变换(用表示)的应用对于每个阶次n和度数m提供时域函数:

这些时域函数可以通过聚集在单个矢量c(t)中。时域函数在矢量c(t)内的位置索引由n(n+1)+1+m给出。矢量c(t)中的元素的总数由O=(N+1)2给出。函数的离散时间版本被称为高保真立体声系数序列。基于帧的HOA表示通过将所有这些序列划分为如下的长度为B、索引为k的帧C(k)而获得:

C(k):=[c((kB+1)TS) c((kB+2)TS)...c((kB+B)TS)],

其中,TS表示采样周期。帧C(k)本身于是可以如下地表示为其各个行ci(k),i=1,...,O的复合:

其中,ci(k)表示高保真立体声系数序列的位置索引为i的帧。HOA表示的空间分辨率随着展开的最大阶次N增长而改进。不幸的是,展开系数的数量O随着阶次N二次方地增长,具体为O=(N+1)2.。例如,典型的使用阶次N=4的HOA表示需要O=25个HOA(展开)系数。根据这些考虑,给定期望的单通道采样速率fs和每个采样的位数Nb,用于传输HOA表示的总位速率由O·fs·Nb确定。因此,每个采样利用Nb=16个位、以fs=48kHz的采样速率传输阶次N=4的HOA表示导致19.2MBits/s的位速率,该位速率对于许多实际的应用(例如流传输)是非常高的。因此,HOA表示的压缩是非常希望的。

以前,HOA声场表示的压缩在欧洲专利申请EP2743922A、EP2665208A和EP2800401A中被提出过。这些方法的共同之处是,它们执行声场分析,并且将给定的HOA表示分解为方向分量和残差环境分量。

最终的压缩的表示被假定为一方面,包括若干个由方向信号的感知编码得到的量化信号以及环境HOA分量的相关系数序列。另一方面,它被假定为包括与量化信号相关的附加副信息,该副信息对于从HOA表示的压缩版本重构HOA表示是必需的。

此外,类似的方法在ISO/IEC JTC1/SC29/WG11 N14264(Working draft 1-HOA text of MPEG-H 3D audio,2014年1月,San Jose)中有描述,其中,方向分量扩展为所谓的主导声音分量。作为方向分量,主导声音分量被假定为部分地用方向信号(即,具有对应方向的单耳信号,这些单耳信号被假定为从该方向传到收听者)、连同用于从方向信号预测原始HOA表示的各部分的一些预测参数来表示。

另外,主导声音分量被假设为用所谓的基于矢量的信号来表示,基于矢量的信号意指具有对应矢量的单耳信号,该矢量限定基于矢量的信号的方向分布。已知的压缩的HOA表示由I个量化的单耳信号和某些附加的副信息构成,其中,这些I个量化的单耳信号中的固定数量OMIN个单耳信号表示环境HOA分量CAMB(k-2).的前OMIN个系数序列的空间变换版本。其余的I-OMIN个信号的类型在连续的帧之间可以有所变化,并且可以是方向的、基于矢量的、空的、或者表示环境HOA分量CAMB(k-2)的附加系数序列。

用于压缩具有HOA系数序列的输入时间帧(C(k))的HOA信号表示的已知方法包括对输入时间帧进行空间HOA编码、随后进行感知编码和源编码。如图1a)所示的空间HOA编码包括在方向和矢量估计模块101中执行HOA信号的方向和矢量估计处理,其中,包括关于方向信号的第一元组集合和关于基于矢量的信号的第二元组集合的数据被获得。第一元组集合中的每个包括方向信号的索引和相应的量化方向,第二元组集合中的每个包括基于矢量的信号的索引和限定信号的方向分布的矢量。下一个步骤是将HOA系数序列的每个输入时间帧分解103为多个主导声音信号XPS(k-1)的帧和环境HOA分量CAMB(k-1)的帧,其中,主导声音信号XPS(k-1)包括所述方向声音信号和所述基于矢量的声音信号。分解进一步提供预测参数ξ(k-1)和目标分配矢量vA,T(k-1)。预测参数ξ(k-1)描述如何从主导声音信号XPS(k-1)内的方向信号预测HOA信号表示的各部分以便丰富主导声音HOA分量,目标分配矢量vA,T(k-1)包含关于如何将主导声音信号分配给给定数量I个通道的信息。根据目标分配矢量vA,T(k-1)提供的信息修正104环境HOA分量CAMB(k-1),其中,确定环境HOA分量的哪些系数序列将在给定数量I个通道中传输,这取决于有多少个通道被主导声音信号占据。修正的环境HOA分量CM,A(k-2)和时间预测的修正的环境HOA分量CP,M,A(k-1)被获得。此外,最终的分配矢量vA(k-2)从目标分配矢量vA,T(k-1)中的信息获得。使用最终的分配矢量vA(k-2)提供的信息将通过分解获得的主导声音信号XPS(k-1)以及所确定的修正的环境HOA分量CM,A(k-2)和时间预测的修正的环境HOA分量CP,M,A(k-1)的系数序列分配到给定数量的通道,其中,输送信号yi(k-2),i=1,...,I和预测的输送信号yP,i(k-2),i=1,...,I被获得。然后,对输送信号yi(k-2)和预测的输送信号yP,i(k-2)执行增益控制(或规范化),其中,增益修正的输送信号zi(k-2)、指数ei(k-2)和异常标志βi(k-2)被获得。

如图1b)所示,感知编码和源编码包括:对增益修正的输送信号zi(k-2)进行感知编码,其中,感知编码的输送信号被获得;对副信息进行编码,副信息包括所述指数ei(k-2)和异常标志βi(k-2)、第一元组集合和第二元组集合预测参数ξ(k-1)和最终的分配矢量vA(k-2),并且编码的副信息被获得。最后,感知编码的输送信号和编码的副信息被复用到位流中。



技术实现要素:

提议的HOA压缩方法的一个缺点是它提供整体式的(即,不可缩放的)压缩的HOA表示。然而,对于某些应用,比如广播或互联网流传输,可取的是能够将压缩的表示划分为低质量基本层(BL)和高质量增强层(EL)。基本层被假设为提供HOA表示的低质量压缩版本,该版本可以被独立于增强层进行解码。这样的BL对传输误差通常应是高度鲁棒的,并且应被以低数据速率传输以便即使在不良传输状况下也保证解压缩的HOA表示的某个最低质量。EL包含改进解压缩的HOA表示的质量的附加信息。

本发明提供一种用于修改现有的HOA压缩方法以便能够提供包括(低质量)基本层和(高质量)增强层的压缩表示的解决方案。此外,本发明提供一种用于修改现有的HOA解压缩方法以便能够对根据本发明压缩的至少包括低质量基本层的压缩表示进行解码的解决方案。

一个改进涉及获得自含的(低质量)基本层。根据本发明,被假设为包含环境HOA分量CAMB(k-2)的(不失一般性的)前OMIN个系数序列的空间变换版本的OMIN个通道被用作基本层。选择前OMIN个通道形成基本层的优点是它们的时不变类型。然而,照惯例,各个信号缺少声音场景必需的任何主导声音分量。这从环境HOA分量CAMB(k-1)的常规计算也是清楚的,环境HOA分量CAMB(k-1)的常规计算是通过根据下式从原始HOA表示C(k-1)减去主导声音HOA表示CPS(k-1)来进行的:

CAMB(k-1)=C(k-1)-CPS(k-1) (1)

因此,本发明的一个改进涉及这样的主导声音分量的添加。根据本发明,该问题的解决方案是将低空间分辨率的主导声音分量包括到基本层中。为了这个目的,通过根据本发明的空间HOA编码器中的HOA分解处理输出的环境HOA分量CAMB(k-1)被其修正版本取代。修正的环境HOA分量将原始HOA分量的系数序列包括在被假设总是以空间变换形式传输的前OMIN个系数序列中。HOA分解处理的这个改进可以被看作使HOA压缩在分层模式(例如双层模式)下工作的初始操作。该模式提供例如两个位流、或者可以被划分为基本层和增强层的单个位流。使用或者不使用该模式是由总位流的访问单元中的模式指示位(例如,单个位)来信号告知的。

在一个实施例中,基本层位流仅包括感知编码的信号以及对应的编码的增益控制副信息,该副信息由指数ei(k-2)和异常标志βi(k-2),i=1,...,OMIN构成。其余的感知编码的信号i=OMIN+1,...,O和编码的其余的副信息被包括到增强层位流中。在一个实施例中,代替前述总位流基本层位流和增强层位流然后被联合传输。

用于压缩具有高阶高保真立体声(HOA)系数序列的时间帧的HOA信号表示的方法在权利要求1中公开。用于压缩具有高阶高保真立体声(HOA)系数序列的时间帧的HOA信号表示的装置在权利要求10中公开。

用于解压缩具有高阶高保真立体声(HOA)系数序列的时间帧的HOA信号表示的方法在权利要求8中公开。用于解压缩具有高阶高保真立体声(HOA)系数序列的时间帧的HOA信号表示的装置在权利要求18中公开。

具有使计算机执行用于压缩具有高阶高保真立体声(HOA)系数序列的时间帧的HOA信号表示的方法的可执行指令的非暂时性计算机可读存储介质在权利要求20中公开。

具有使计算机执行用于解压缩具有高阶高保真立体声(HOA)系数序列的时间帧的HOA信号表示的方法的可执行指令的非暂时性计算机可读存储介质在权利要求21中公开。

本发明的有利的实施例在从属权利要求、下面的描述和附图中公开。

附图说明

参照附图描述本发明的示例性实施例,附图在以下图中示出了:

图1 HOA压缩器的常规架构的结构;

图2 HOA解压缩器的常规架构的结构;

图3根据本发明的一个实施例的HOA压缩器的空间HOA编码和感知编码部分的架构的结构;

图4根据本发明的一个实施例的HOA压缩器的源编码器部分的架构的结构;

图5根据本发明的一个实施例的HOA解压缩器的感知解码和源解码部分的架构的结构;

图6根据本发明的一个实施例的HOA解压缩器的空间HOA解码部分的架构的结构;

图7从环境HOA信号到修正的环境HOA信号的帧变换;

图8用于压缩HOA信号的方法的流程图;

图9用于解压缩压缩的HOA信号的方法的流程图;以及

图10根据本发明的一个实施例的HOA解压缩器的空间HOA解码部分的架构的各部分的细节。

具体实施方式

为了更易于理解,下面概括了图1和图2中的现有技术的解决方案。

图1示出了HOA压缩器的常规架构的结构。在[4]中描述的方法中,方向分量扩展为所谓的主导声音分量。作为方向分量,主导声音分量被假定为部分地用方向信号(指的是具有对应方向的单耳信号,这些单耳信号被假定为从该方向传到收听者)、连同用于从方向信号预测原始HOA表示的各部分的一些预测参数来表示。另外,主导声音分量被假设为用所谓的基于矢量的信号来表示,基于矢量的信号意指具有对应矢量的单耳信号,该矢量限定了基于矢量的信号的方向分布。[4]中提议的HOA压缩器的总体架构在图1中示出。它可以被再分为图1a中描绘的空间HOA编码部分与图1b中描绘的感知和源编码部分。空间HOA编码器提供第一压缩HOA表示,该第一压缩HOA表示由I个信号连同描述如何创建其HOA表示的副信息构成。在感知和副信息源编码器中,对所提及的I个信号进行感知编码,并且对副信息进行源编码,之后对该两个编码的表示进行复用。

照惯例,空间编码如下工作。

在第一步中,原始HOA表示的第k帧C(k)输入到方向和矢量估计处理模块,该模块提供元组集合和元组集合由其第一元素表示方向信号的索引、其第二元素表示相应的量化方向的元组构成。元组集合由其第一元素指示基于矢量的信号的索引、其第二元素表示限定信号的方向分布的矢量(即,基于矢量的信号的HOA表示如何被计算)的元组构成。

通过使用这两个元组集合和初始HOA帧C(k)在HOA分解中被分解为所有主导声音信号(即,方向信号和基于矢量的信号)的帧XPS(k-1)、和环境HOA分量的帧CAMB(k-1)。注意到分别有一个帧的延迟,该延迟是由于为了避免成块效应的重叠相加处理而导致的。此外,HOA分解被假定输出一些预测参数ζ(k-1),这些预测参数描述如何从方向信号预测原始HOA表示的各部分以便丰富主导声音HOA分量。另外,目标分配矢量vA,T(k-1)被提供,该目标分配矢量vA,T(k-1)包含关于在HOA分解处理模块中确定的主导声音信号对于I个可用通道的分配的信息。受到影响的通道可以被假定被占据,这意味着它们不可用于在相应时间帧中输送环境HOA分量的任何系数序列。

在环境分量修正处理模块中,根据目标分配矢量vA,T(k-1)提供的信息修正环境HOA分量的帧CAMB(k-1)。特别地,确定环境HOA分量的哪些系数序列将在给定的I个通道中传输,这尤其取决于关于哪些通道是可用的、但尚未被主导声音信号占据的信息(该信息包含在目标分配矢量vA,T(k-1)中)。另外,如果被选系数序列的索引在连续的帧之间变化,则系数序列的淡入或淡出被执行。

此外,假定环境HOA分量CAMB(k-2)的前OMIN个系数序列总是被选择被进行感知编码并且被传输,其中,OMIN=(NMIN+1)2,NMIN≤N通常是比原始HOA表示的阶次小的阶次。为了使这些HOA系数序列去相关,提出了将它们变换为从一些预定义方向ΩMIN,d,d=1,...,OMIN传来的方向信号(即,一般平面波函数)。连同修正的环境HOA分量CM,A(k-1)一起,时间预测的修正的环境HOA分量CP,M,A(k-1)被计算以供以后用在增益控制处理模块中以便允许有合理的前瞻。

关于环境OHA分量的修正的信息与所有可能的类型的信号对于可用通道的分配直接相关。关于分配的最终信息包含在最终的分配矢量vA(k-2)中。为了计算该矢量,利用目标分配矢量vA,T(k-1)中所包含的信息。

通道分配使用分配矢量vA(k-2)提供的信息将XPS(k-2)中所包含的和CM,A(k-2)中所包含的适当信号分配给I个可用通道,得到信号yi(k-2),i=1,...,I。此外,XPS(k-1)中所包含的和CP,AMB(k-1)中所包含的适当信号也被分配给I个可用通道,得到预测信号yP,i(k-2),i=1,...,I。信号yi(k-2),i=1,...,I中的每个最后均被增益控制进行处理,其中,信号增益被平滑地修正以实现适合于感知编码器的值范围。预测信号帧yP,i(k-2),i=1,...,I允许有一种前瞻以便避免连续的块之间的严重的增益变化。增益修正被假定在空间解码器中通过增益控制副信息被恢复,增益控制副信息由指数ei(k-2)和异常标志βi(k-2),i=1,...,I构成。

图2示出了如[4]中提出的HOA解压缩器的常规架构的结构。照惯例,HOA解压缩由HOA压缩器组件的对应物构成,这些对应物显然按相反次序布置。它可以被再分为图2a)中描绘的感知和源解码部分与图2b)中描绘的空间HOA解码部分。

在感知和副信息源解码器中,位流首先被解复用为I个信号的感知编码的表示以及编码的副信息,该副信息描述如何创建其HOA表示。相继地,执行所述I个信号的感知解码和副信息的解码。然后,空间HOA解码器从所述I个信号和副信息创建重构的HOA表示。

照惯例,空间HOA解码如下工作。

在空间HOA解码器中,感知解码的信号中的每个首先连同相关联的增益校正指数ei(k)和增益校正异常标志βi(k)一起输入到逆增益控制处理模块。第i逆增益控制处理提供增益校正的信号帧

所有的I个增益校正的信号帧连同分配矢量vAMB,ASSIGN(k)以及元组集合和一起被传递到通道再分配。元组集合和在上文被定义(针对空间HOA编码),分配矢量vAMB,ASSIGN(k)由I个分量构成,这些分量对于每个传输通道指示它是否包含环境HOA分量的系数序列以及它包含环境HOA分量的哪个系数序列。在通道再分配中,增益校正的信号帧被重新分布以重构所有的主导声音信号(即,所有的方向信号和基于矢量的信号)的帧以及环境HOA分量的中间表示的帧CI,AMB(k)。另外,环境HOA分量的在第k帧中起作用的系数序列的索引集合以及环境HOA分量的在第(k-1)帧中必须被启用、被禁用以及保持起作用的系数索引集合和被提供。

在主导声音合成中,使用元组集合和预测参数集合ζ(k+1)、元组集合和集合和从所有主导声音信号的帧计算主导声音分量的HOA表示。

在环境合成中,使用环境HOA分量的在第k帧中起作用的系数序列的索引集合从环境HOA分量的中间表示的帧CI,AMB(k)创建环境HOA分量帧注意到有一帧的延迟,该延迟是由于与主导声音HOA分量的同步而引入的。最后,在HOA复合中,环境HOA分量帧和主导声音HOA分量的帧被叠加以提供解码的HOA帧

从以上HOA压缩和解压缩方法的粗略描述已经变得清楚的是,压缩的表示由I个量化的单耳信号和某些附加的副信息构成。这些I个量化的单耳信号中的固定数量OMIN个单耳信号表示环境HOA分量CAMB(k-2)的前OMIN个系数序列的空间变换版本。其余的I-OMIN个信号的类型可在连续的帧之间变化,是方向的、基于矢量的、空的、或者表示环境HOA分量CAMB(k-2)的附加系数序列。照其原样来看,压缩的HOA表示意在于是整体式的。具体地说,一个问题是如何将所描述的表示划分为低质量基本层和增强层。

根据公开的本发明,低质量基本层的候选是包含环境HOA分量CAMB(k-2)的前OMIN个系数序列的空间变换版本的OMIN个通道。使这些(不失一般性地,前)OMIN个通道成为形成低质量基本层的良好选择的是它们的时不变类型。然而,相应的信号缺少声音场景必需的任何主导声音分量。这从环境HOA分量CAMB(k-1)的常规计算也可以看出,环境HOA分量CAMB(k-1)的常规计算是通过根据下式从原始HOA表示C(k-1)减去主导声音HOA表示CPS(k-1)来进行的:

CAMB(k-1)=C(k-1)-CPS(k-1) (1)

该问题的解决方案是将低空间分辨率的主导声音分量包括到基本层中。

下面描述提出的对于HOA压缩的修改。

图3示出了根据本发明的一个实施例的HOA压缩器的空间HOA编码和感知编码部分的架构的结构。为了还将低空间分辨率的主导声音分量包括基本层中,通过空间HOA编码器(参见图1a)中的HOA分解处理输出的环境HOA分量CAMB(k-1)被修正版本取代:

该修正版本的元素由下式给出:

换句话说,被假设总是被以空间变换形式传输的环境HOA分量的前OMIN个系数序列被原始HOA分量的系数序列取代。空间HOA编码器的其他处理模块可以保持不变。

重要的是注意到,HOA分解处理的这个变化可以被看作使HOA压缩在所谓的“双层”或“两层”模式下工作的初始操作。该模式提供了可以被划分为低质量基本层和增强层的位流。使用或者不使用该模式是由总位流的访问单元中的单个位以信号告知的。

提供用于基本层和增强层的位流的位流复用的可能的随后的修正在下面进一步描述的图3和4中示出。

基本层位流仅包括感知编码的信号以及对应的编码的增益控制副信息,该副信息由指数ei(k-2)和异常标志βi(k-2),i=1,...,OMIN构成。其余的感知编码的信号和编码的其余的副信息被包括到增强层位流中。代替前述总位流基本层位流和增强层位流然后被联合传输。

在图3和图4中,示出了用于压缩HOA信号的装置,所述HOA信号是具有HOA系数序列的输入时间帧(C(k))的输入HOA表示。所述装置包括用于输入时间帧的空间HOA编码以及随后的感知编码的空间HOA编码和感知编码部分(该部分在图3中示出)以及用于源编码的源编码器部分(该部分在图4中示出)。空间HOA编码和感知编码部分包括方向和矢量估计模块301、HOA分解模块303、环境分量修正模块304、通道分配模块305以及多个增益控制模块306。

方向和矢量估计模块301适于执行HOA信号的方向和矢量估计处理,其中,包括关于方向信号的第一元组集合和关于基于矢量的信号的第二元组集合的数据被获得,第一元组集合中的每个包括方向信号的索引和相应的量化方向,第二元组集合中的每个包括基于矢量的信号的索引和限定信号的方向分布的矢量。

HOA分解模块303适于将HOA系数序列的每个输入时间帧分解为多个主导声音信号XPS(k-1)的帧和环境HOA分量的帧,其中,主导声音信号XPS(k-1)包括所述方向声音信号和所述基于矢量的声音信号,并且其中,环境HOA分量包括表示输入HOA表示和主导声音信号的HOA表示之间的残差的HOA系数序列,并且其中,分解进一步提供预测参数ξ(k-1)和目标分配矢量vA,T(k-1)。预测参数ξ(k-1)描述如何从主导声音信号XPS(k-1)内的方向信号预测HOA信号表示的各部分以便丰富主导声音HOA分量,目标分配矢量vA,T(k-1)包含关于如何将主导声音信号分配给给定数量I个通道的信息。

环境分量修正模块304适于根据目标分配矢量vA,T(k-1)提供的信息修正环境HOA分量CAMB(k-1),其中,确定环境HOA分量CAMB(k-1)的哪些系数序列将在给定数量I个通道中传输,这取决于有多少个通道被主导声音信号占据,并且其中,修正的环境HOA分量CM,A(k-2)和时间预测的修正的环境HOA分量CP,M,A(k-1)被获得,并且其中,最终的分配矢量vA(k-2)从目标分配矢量vA,T(k-1)中的信息获得。

通道分配模块305适于使用最终的分配矢量vA(k-2)提供的信息将从分解获得的主导声音信号XPS(k-1)、所确定的修正的环境HOA分量CM,A(k-2)和时间预测的修正的环境HOA分量CP,M,A(k-1)的系数序列分配给给定数量I个通道,其中,输送信号yi(k-2),i=1,...,I和预测的输送信号yP,i(k-2),i=1,...,I被获得。

所述多个增益控制模块306适于对输送信号yi(k-2)和预测的输送信号yP,i(k-2)执行增益控制(805),其中,增益修正的输送信号zi(k-2)、指数ei(k-2)和异常标志βi(k-2)被获得。

图4示出了根据本发明的一个实施例的HOA压缩器的源编码器部分的架构的结构。如图4所示的源编码器部分包括感知编码器310、具有两个编码器320、330(即,基本层副信息源编码器320和增强层副信息编码器330)的副信息源编码器模块、以及两个复用器340、350(即,基本层位流复用器340和增强层位流复用器350)。副信息源编码器可以在单个副信息源编码器模块中。

感知编码器310适于对所述增益修正的输送信号zi(k-2)进行感知编码806,其中,感知编码的输送信号被获得。

副信息源编码器320、330适于对副信息进行编码,副信息包括所述指数ei(k-2)和异常标志βi(k-2)、所述第一元组集合和第二元组集合所述预测参数ξ(k-1)和所述最终的分配矢量vA(k-2),其中,编码的副信息被获得。

复用器340、350适于将感知编码的输送信号和编码的副信息复用为复用的数据流其中,在分解中获得的环境HOA分量包括输入HOA表示cn(k-1)的在OMIN个最低位置(具有最低索引的那些位置)的第一HOA系数序列、以及在其余的较高位置上的第二HOA系数序列cAMB,n(k-1)。如下面关于式(4)-(6)说明的,第二HOA系数序列是输入HOA表示和主导声音信号的HOA表示之间的残差的HOA表示的一部分。此外,前OMIN个指数ei(k-2),i=1,...,OMIN和异常标志βi(k-2),i=1,...,OMIN在基本层副信息源编码器320中被编码,其中,编码的基本层副信息被获得,并且其中,OMIN=(NMIN+1)2,O=(N+1)2,NMIN≤N并且OMIN≤I,NMIN是预定义整数值。前OMIN个感知编码的输送信号和编码的基本层副信息在基本层位流复用器340(其是所述复用器之一)中被复用,其中,基本层位流被获得。基本层副信息源编码器320是副信息源编码器之一,或者它在副信息源编码器模块内。其余的I-OMIN个指数ei(k-2),i=OMIN+1,...,I和异常标志βi(k-2),i=OMIN+1,...,I、所述第一元组集合和第二元组集合所述预测参数ξ(k-1)以及所述最终的分配矢量vA(k-2)在增强层副信息编码器330中被编码,其中,编码的增强层副信息被获得。增强层副信息源编码器330是副信息源编码器之一,或者在副信息源编码器模块内。

其余的I-OMIN个感知编码的输送信号和编码的增强层副信息在增强层位流复用器350(其也是所述复用器之一)中被复用,其中,增强层位流被获得。此外,模式指示LMFE被添加在复用器或指示插入模块中。模式指示LMFE以信号告知分层模式的使用,分层模式用于压缩的信号的正确的解压缩。

在一个实施例中,用于编码的装置进一步包括适于选择模式的模式选择器,模式由模式指示LMFE指示,是分层模式和非分层模式之一。在非分层模式下,环境HOA分量仅包括表示输入HOA表示和主导声音信号的HOA表示之间的残差的HOA系数序列(即,不包括输入HOA表示的系数序列)。

下面描述提出的HOA解压缩的修改。

在分层模式下,在HOA解压缩处通过适当地修正HOA复合来考虑HOA压缩中的环境HOA分量CAMB(k-1)的修正。

在HOA解压缩器中,根据图5执行基本层位流和增强层位流的解复用和解码。基本层位流被解复用为基本层副信息的编码表示和感知编码的信号。随后,基本层副信息的编码表示和感知编码的信号被解码以一方面提供指数ei(k)和异常标志、另一方面提供感知解码的信号。类似地,增强层位流被解复用并且被解码以提供感知解码的信号和其余的副信息(参见图5)。就该分层模式而言,空间HOA解码部分也必须被修正以考虑空间HOA编码中的环境HOA分量CAMB(k-1)的修正。修正在HOA复合中实现。

具体地说,重构的HOA表示

被其修正版本取代:

修正版本的元素由下式给出:

这意味着主导声音HOA分量没有被添加到前OMIN个系数序列的环境HOA分量,因为它已经被包括在其中。HOA空间解码器的所有的其他的处理模块保持不变。

在下面,简要地考虑仅存在低质量基本层位流时的HOA解压缩。

该位流首先被解复用并且被解码以提供重构的信号和对应的增益控制副信息,该副信息由指数ei(k)和异常标志βi(k),i=1,...,OMIN构成。注意到,在不存在增强层时,感知编码的信号是不可用的。解决这种情况的可能的方式是将信号设置为零,这自动地使重构的主导声音分量CPS(k-1)为零。

在下一个步骤中,在空间HOA解码器中,前OMIN个逆增益控制处理模块提供增益校正的信号帧这些信号帧被用于通过通道再分配来构造环境HOA分量的中间表示的帧CI,AMB(k)。注意到,环境HOA分量的在第k帧中起作用的系数序列的索引集合仅包含索引1,2,...,OMIN。在环境合成中,前OMIN个系数序列的空间变换被恢复以提供环境HOA分量帧CAMB(k-1)。最后,根据式(6)计算重构的HOA表示。

图5和图6示出了根据本发明的一个实施例的HOA解压缩器的架构的结构。所述装置包括如图5所示的感知解码和源解码部分、如图6所示的空间HOA解码部分、以及适于检测分层模式指示LMFD的模式检测器,分层模式指示LMFD指示压缩的HOA信号包括压缩的基本层位流和压缩的增强层位流。

图5示出了根据本发明的一个实施例的HOA解压缩器的感知解码和源解码部分的架构的结构。感知解码和源解码部分包括第一解复用器510、第二解复用器520、基本层感知解码器540和增强层感知解码器550、基本层副信息源解码器530和增强层副信息源解码器560。

第一解复用器510适于对压缩的基本层位流进行解复用,其中,第一感知编码的输送信号和第一编码的副信息被获得。第二解复用器520适于对压缩的增强层位流进行解复用,其中,第二感知编码的输送信号和第二编码的副信息被获得。

基本层感知解码器540和增强层感知解码器550适于对感知编码的输送信号进行感知解码904,其中,感知解码的输送信号被获得,并且其中,在基本层感知解码器540中,基本层的所述第一感知编码的输送信号被解码,并且第一感知解码的输送信号被获得。在增强层感知解码器550中,增强层的所述第二感知编码的输送信号被解码,并且第二感知解码的输送信号被获得。

基本层副信息源解码器530适于对第一编码的副信息进行解码905,其中,第一指数ei(k),i=1,...,OMIN和第一异常标志βi(k),i=1,...,OMIN被获得。

增强层副信息源解码器560适于对第二编码的副信息进行解码906,其中,第二指数ei(k),i=OMIN+1,...,I和第二异常标志βi(k),i=OMIN+1,...,I被获得,并且其中,进一步的数据被获得。进一步的数据包括关于方向信号的第一元组集合和关于基于矢量的信号的第二元组集合第一元组集合的每个元组包括方向信号的索引和相应的量化方向,第二元组集合的每个元组包括基于矢量的信号的索引和限定基于矢量的信号的方向分布的矢量。此外,预测参数ξ(k+1)和环境分配矢量vAMB,ASSIGN(k)被获得,其中,环境分配矢量vAMB,ASSIGN(k)包括对于每个传输通道指示它是否包含环境HOA分量的系数序列以及它包含环境HOA分量的哪个系数序列的分量。

图6示出了根据本发明的一个实施例的HOA解压器的空间HOA解码部分的架构的结构。空间HOA解码部分包括多个逆增益控制单元604、通道再分配模块605、主导声音合成模块606、环境合成模块607、HOA复合模块608。

多个逆增益控制单元604适于执行逆增益控制,其中,所述第一感知解码的输送信号根据第一指数ei(k),i=1,...,OMIN和第一异常标志βi(k),i=1,...,OMIN被变换为第一增益校正的信号帧并且其中,第二感知解码的输送信号根据第二指数ei(k),i=OMIN+1,...,I和第二异常标志βi(k),i=OMIN+1,...,I被变换为第二增益校正的信号帧

通道再分配模块605适于将第一和第二增益校正的信号帧重新分布911给I个通道,其中,主导声音信号的帧被重构,主导声音信号包括方向信号和基于矢量的信号,并且其中,修正的环境HOA分量被获得,并且其中,分配是根据所述环境分配矢量vAMB,ASSIGN(k)以及所述第一和第二元组集合进行的。

此外,通道再分配模块605适于产生修正的环境HOA分量的在第k帧中起作用的系数序列的第一索引集合以及修正的环境HOA分量的在第(k-1)帧中必须被启用、被禁用以及保持起作用的系数序列的第二索引集合

主导声音合成模块606适于从所述主导声音信号合成912主导HOA声音分量的HOA表示,其中,第一元组集合第二元组集合预测参数ξ(k+1)以及第二索引集合被使用。

环境合成模块607适于从修正的环境HOA分量合成913环境HOA分量其中,对前OMIN个通道的逆空间变换被执行,并且其中,第一索引集合被使用,第一索引集合是环境HOA分量的在第k帧中起作用的系数序列的索引。

如果分层模式指示LMFD指示具有至少两个层的分层模式,则环境HOA分量在其OMIN个最低位置(即,具有最低索引的那些位置)包括解压缩的HOA分量的HOA系数序列、以及在其余的较高位置包括作为残差的HOA表示的一部分的系数序列。该残差是解压缩的HOA信号和主导HOA声音分量的HOA表示之间的残差。

另一方面,如果分层模式指示LMFD指示单层模式,则不包括解压缩的HOA信号的HOA系数序列,并且环境HOA分量是解压缩的HOA信号和主导声音分量的HOA表示之间的残差。

HOA复合模块608适于将主导声音分量的HOA表示与环境HOA分量相加,其中,主导声音信号的HOA表示的系数和环境HOA分量的对应系数相加,并且其中,解压缩的HOA信号被获得,并且其中,

如果分层模式指示LMFD指示具有至少两个层的分层模式,则只有最高的I-OMIN个系数通道通过主导HOA声音分量和环境HOA分量的相加获得,解压缩的HOA信号的最低的OMIN个系数通道是从环境HOA分量复制的。另一方面,如果分层模式指示LMFD指示单层模式,则解压缩的HOA信号的所有的系数通道通过主导HOA声音分量和环境HOA分量的相加获得。

图7示出了从环境HOA信号到修正的环境HOA信号的帧变换。

图8示出了用于压缩HOA信号的方法的流程图。

用于压缩高阶高保真立体声(HOA)信号(该信号是具有HOA系数序列的输入时间帧C(k)的、阶次为N的输入HOA表示)的方法800包括输入时间帧的空间HOA编码以及随后的感知编码和源编码。

空间HOA编码包括以下步骤:

在方向和矢量估计模块301中执行HOA信号的方向和矢量估计处理801,其中,包括关于方向信号的第一元组集合和关于基于矢量的信号的第二元组集合的数据被获得,第一元组集合中的每个包括方向信号的索引和相应的量化方向,第二元组集合中的每个包括基于矢量的信号的索引和限定信号的方向分布的矢量;

在HOA分解模块303中将HOA系数序列的每个输入时间帧分解802为多个主导声音信号XPS(k-1)的帧和环境HOA分量CAMB(k-1)的帧,其中,主导声音信号XPS(k-1)包括所述方向声音信号和所述基于矢量的声音信号,并且其中,环境HOA分量包括表示输入HOA表示和主导声音信号的HOA表示之间的残差的HOA系数序列,并且其中,分解702进一步提供预测参数ξ(k-1)和目标分配矢量vA,T(k-1),预测参数ξ(k-1)描述了如何从主导声音信号XPS(k-1)内的方向信号预测HOA信号表示的各部分以便丰富主导声音HOA分量,目标分配矢量vA,T(k-1)包含关于如何将主导声音信号分配给给定数量I个通道的信息;

在环境分量修正模块304中根据目标分配矢量vA,T(k-1)提供的信息修正802环境HOA分量CAMB(k-1),其中,确定环境HOA分量CAMB(k-1)的哪些系数序列将在给定数量I个通道中传输,这取决于有多少个通道被主导声音信号占据,并且其中,修正的环境HOA分量CM,A(k-2)和时间预测的修正的环境HOA分量CP,M,A(k-1)被获得,并且其中,最终的分配矢量vA(k-2)从目标分配矢量vA,T(k-1)中的信息获得;

在通道分配模块105中使用最终的分配矢量vA(k-2)提供的信息将从分解获得的主导声音信号XPS(k-1)以及修正的环境HOA分量CM,A(k-2)和时间预测的修正的环境HOA分量CP,M,A(k-1)的确定的系数序列分配给804给定数量I个通道,其中,输送信号yi(k-2),i=1,...,I和预测的输送信号yP,i(k-2),i=1,...,I被获得;

以及在多个增益控制模块306中对输送信号yi(k-2)和预测的输送信号yP,i(k-2)执行增益控制805,其中,增益修正的输送信号zi(k-2)、指数ei(k-2)和异常标志βi(k-2)被获得。

感知编码和源编码包括以下步骤:

在感知编码器310中对所述增益修正的输送信号zi(k-2)进行感知编码806,其中,感知编码的输送信号被获得;

在一个或多个副信息源编码器320、330中对副信息进行编码807,副信息包括所述指数ei(k-2)和异常标志βi(k-2)、所述第一元组集合和第二元组集合所述预测参数ξ(k-1)和所述最终的分配矢量vA(k-2),其中,编码的副信息被获得;以及

对感知编码的输送信号和编码的副信息进行复用808,其中,复用的数据流被获得。

在分解步骤802中获得的环境HOA分量包括输入HOA表示cn(k-1)的在OMIN个最低位置(即,具有最低索引的那些位置)的第一HOA系数序列以及在其余的较高位置的第二HOA系数序列cAMB,n(k-1)。第二系数序列是输入HOA表示和主导声音信号的HOA表示之间的残差的HOA表示的一部分。

前OMIN个指数ei(k-2),i=1,...,OMIN和异常标志βi(k-2),i=1,...,OMIN在基本层副信息源编码器320中被编码,其中,编码的基本层副信息被获得,并且其中,OMIN=(NMIN+1)2,O=(N+1)2,NMIN≤N并且OMIN≤I,NMIN是预定义整数值。

前OMIN个感知编码的输送信号和编码的基本层副信息在基本层位流复用器340中被复用809,其中,基本层位流被获得。

其余的I-OMIN个指数ei(k-2),i=OMIN+1,...,I和异常标志βi(k-2),i=OMIN+1,...,I、所述第一元组集合和第二元组集合所述预测参数ξ(k-1)以及所述最终的分配矢量vA(k-2)(在图中也被示为vAMB,ASSIGN(k))在增强层副信息编码器330中被编码,其中,编码的增强层副信息被获得。

其余的I-OMIN个感知编码的输送信号和编码的增强层副信息在增强层位流复用器350中被复用810,其中,增强层位流被获得。

如上所述,信号告知分层模式的使用的模式指示被添加811。该模式指示由指示插入模块或复用器添加。

在一个实施例中,所述方法进一步包括将基本层位流增强层位流和模式指示复用到单个位流中的最终步骤。

在一个实施例中,所述主导方向估计取决于能量占主导的HOA分量的方向功率分布。

在一个实施例中,在修正环境HOA分量中,如果被选HOA系数序列的HOA序列索引在连续的帧之间变化,则系数序列的淡入和淡出被执行。

在一个实施例中,在修正环境HOA分量中,环境HOA分量CAMB(k-1)的部分去相关被执行。

在一个实施例中,第一元组集合中所包括的量化方向是主导方向。

图9示出了用于解压缩压缩的HOA信号的方法的流程图。在本发明的这个实施例中,用于解压缩压缩的HOA信号的方法900包括获得HOA系数序列的输出时间帧的感知解码和源解码以及随后的空间HOA解码,并且所述方法包括检测901分层模式指示LMFD的步骤,分层模式指示LMFD指示压缩的高阶高保真立体声(HOA)信号包括压缩的基本层位流和压缩的增强层位流

感知解码和源解码包括以下步骤:

对压缩的基本层位流进行解复用902,其中,第一感知编码的输送信号和第一编码的副信息被获得;

对压缩的增强层位流进行解复用903,其中,第二感知编码的输送信号和第二编码的副信息被获得;

对感知编码的输送信号进行感知解码904,其中,感知解码的输送信号被获得,并且其中,在基本层感知解码器540中,基本层的所述第一感知编码的输送信号被解码,并且第一感知解码的输送信号被获得,并且其中,在增强层感知解码器550中,增强层的所述第二感知编码的输送信号被解码,并且第二感知解码的输送信号被获得;

在基本层副信息源解码器530中对第一编码的副信息进行解码905,其中,第一指数ei(k),i=1,...,OMIN和第一异常标志βi(k),i=1,...,OMIN被获得;以及

在增强层副信息源解码器560中对第二编码的副信息进行解码906,其中,第二指数ei(k),i=OMIN+1,...,I和第二异常标志βi(k),i=OMIN+1,...,I被获得,并且其中,进一步的数据被获得,进一步的数据包括关于方向信号的第一元组集合和关于基于矢量的信号的第二元组集合第一元组集合的每个元组包括方向信号的索引和相应的量化方向,第二元组集合的每个元组包括基于矢量的信号的索引和限定基于矢量的信号的方向分布的矢量,并且进一步其中,预测参数ξ(k+1)和环境分配矢量vAMB,ASSIGN(k)被获得。环境分配矢量vAMB,ASSIGN(k)包括对于每个传输通道指示它是否包含环境HOA分量的系数序列以及它包含环境HOA分量的哪个系数序列的分量。

空间HOA解码包括以下步骤:

执行910逆增益控制,其中,所述第一感知解码的输送信号根据所述第一指数ei(k),i=1,...,OMIN和所述第一异常标志βi(k),i=1,...,OMIN被变换为第一增益校正的信号帧并且其中,所述第二感知解码的输送信号根据所述第二指数ei(k),i=OMIN+1,...,I和所述第二异常标志βi(k),i=OMIN+1,...,I被变换为第二增益校正的信号帧

在通道再分配模块605中将第一和第二增益校正的信号帧重新分布911给I个通道,其中,主导声音信号的帧被重构,主导声音信号包括方向信号和基于矢量的信号,并且其中,修正的环境HOA分量被获得,并且其中,分配是根据所述环境分配矢量vAMB,ASSIGN(k)以及所述第一和第二元组集合进行的;

在通道再分配模块605中产生修正的环境HOA分量的在第k帧中起作用的系数序列的第一索引集合以及修正的环境HOA分量的在第(k-1)帧中必须被启用、被禁用以及保持起作用的系数序列的第二索引集合

在主导声音合成模块606中,从所述主导声音信号合成912主导HOA声音分量的HOA表示,其中,第一元组集合第二元组集合预测参数ξ(k+1)以及第二索引集合被使用;

在环境合成模块607中,从修正的环境HOA分量合成913环境HOA分量其中,对前OMIN个通道的逆空间变换被执行,并且其中,第一索引集合被使用,第一索引集合是环境HOA分量的在第k帧中起作用的系数序列的索引,其中,环境HOA分量具有至少两种不同配置之一,这取决于分层模式指示LMFD;以及

在HOA复合模块608中将主导HOA声音分量的HOA表示与环境HOA分量相加914,其中,主导声音信号的HOA表示的系数和环境HOA分量的对应系数被相加,并且其中,解压缩的HOA信号被获得,并且其中,以下条件适用:

如果分层模式指示LMFD指示具有至少两个层的分层模式,则只有最高的I-OMIN个系数通道通过主导HOA声音分量和环境HOA分量的相加获得,解压缩的HOA信号的最低的OMIN个系数通道是从环境HOA分量复制的。否则,如果分层模式指示LMFD指示单层模式,则解压缩的HOA信号的所有的系数通道通过主导HOA声音分量和环境HOA分量的相加获得。

环境HOA分量的取决于分层模式指示LMFD的配置如下:

如果分层模式指示LMFD指示具有至少两个层的分层模式,则环境HOA分量在其OMIN个最低位置包括解压缩的HOA信号的HOA系数序列以及在其余的较高位置包括如下的系数序列,该系数序列是主导HOA声音分量的HOA表示和解压缩的HOA信号之间的残差的HOA表示的一部分。

另一方面,如果分层模式指示LMFD指示单层模式,则环境HOA分量是主导声音分量的HOA表示和解压缩的HOA信号之间的残差。

在一个实施例中,压缩的HOA信号表示在复用的位流中,用于解压缩压缩的HOA信号的方法进一步包括对压缩的HOA信号表示进行解复用的初始步骤,其中,所述压缩的基本层位流所述压缩的增强层位流以及所述分层模式指示LMFD被获得。

图10示出了根据本发明的一个实施例的HOA解压器的空间HOA解码部分的架构的各部分的细节。

有利地,例如,如果没有EL被接收到,或者如果BL质量足够,则可以仅对BL进行解码。对于这种情况下,EL的信号在解码器处可以被设置为零。于是,在通道再分配模块605中将第一和第二增益校正的信号帧重新分布911给I个通道是非常简单的,因为主导声音信号的帧是空的。修正的环境HOA分量的在第(k-1)帧中必须被启用、被禁用以及保持起作用的系数序列的第二索引集合被设置为零。在主导声音合成模块606中从主导声音信号合成912主导HOA声音分量的HOA表示因此可以被跳过,并且在环境合成模块607中从修正的环境HOA分量合成913环境HOA分量对应于常规的HOA合成。

用于HOA压缩的原始(即,整体式的、不可缩放的、非分层的)模式对于不需要低质量基本层位流的应用、例如对于基于文件的压缩可能仍然是有用的。对环境HOA分量CAMB(其是原始HOA表示和方向HOA表示之间的差值)的空间变换的前OMIN个系数序列、而不是原始HOA分量C的空间变换的系数序列进行感知编码的主要优点是,在前一种情况下,将被感知编码的所有信号之间的互相关性降低。信号zi,i=1,...,I之间的任何互相关性可以引起空间解码处理期间感知编码噪声的建设性叠加,同时无噪声的HOA系数序列在叠加时被取消。这种现象被称为感知噪声揭露。

在分层模式下,在信号zi,i=1,...,OMIN中的每个之间、还有在信号zi,i=1,...,OMIN和zi,i=OMIN+1,...,I之间存在高互相关性,因为环境HOA分量的修正的系数序列包括方向HOA分量的信号(参见式3)。相反,对于原始的非分层模式来说情况并非如此。因此可以推断由分层模式引入的传输鲁棒性可能是以压缩质量为代价的。然而,压缩质量的降低与传输鲁棒性的提高相比低。以上已经表明,提出的分层模式至少在上述情况下是有利的。

虽然已经示出、描述并指出了应用于本发明的优选实施例的、本发明的基本的新颖的特征,但是将理解的是,在不脱离本发明的精神的情况下,本领域技术人员可以在所描述的装置和方法中、在所公开的设备的形式和细节上以及在它们的操作中做出各种省略、替换和改变。明确的意图是,以基本上相同的方式执行基本上相同的功能以实现相同结果的那些元件的所有组合都在本发明的范围内。从所描述的一个实施例对于另一个描述的实施例的元件的替换也被充分预期和设想。

将理解的是,已经纯粹以举例的方式描述了本发明,并且在不脱离本发明的范围的情况下,可以进行细节的修改。

在描述以及(在适当的情况下)权利要求和附图中公开的每个特征可以独立地提供或者按任何适当的组合提供。特征在适当的情况下可以用硬件、软件或两者的组合来实现。连接可以在适用的情况下可以实现为无线连接或有线(不一定是直接的或专用的)连接。

在权利要求中出现的标号仅仅是例示说明,不应当限制权利要求的范围。

引用的参考文献

[1]EP12306569.0

[2]EP12305537.8(作为EP2665208A发布)

[3]EP133005558.2

[4]ISO/IEC JTC1/SC29/WG11N14264.Working draft 1-HOA text of MPEG-H 3D audio,2014年1月

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1