本发明涉及对声场的高阶立体混响表示进行压缩和解压缩的方法和设备。
背景技术:
高阶立体混响(表示为hoa)提供了表示三维立体声的一种方式。其它的技术是波场合成(wfs)或者像22.2的基于声道的方法。相比于基于声道的方法,hoa表示提供了独立于特定扬声器配置的优点。然而,这种灵活性是以牺牲解码过程为代价的,对于在特定扬声器配置上的hoa表示的回放,需要解码过程。与需要的扬声器数量通常很大的wfs方法相比,hoa也可以被提供给只包括较少扬声器的配置。hoa的其它优点是,在没有针对对耳机的双耳呈现的任何修改的情况下,也可以采用相同的表示。
hoa是基于按照截短的球面谐波(sh)展开的、复杂谐波平面波振幅的空间密度的表示。每个展开系数是角频率的函数,所述角频率的函数可以通过时域函数来等价表示。因此,不失一般性地,实际上可以假设完整的hoa声场表示由o个时域函数组成,其中o表示展开系数的数量。在下文中,这些时域函数将会等同地称为hoa系数序列。
hoa表示的空间分辨率随着展开的最大阶n的增长而提高。不幸地,展开系数o的数量随着阶n二次方地增长,具体地是o=(n+1)2。例如,典型的使用阶n=4的hoa表示需要o=25的hoa(展开)系数。根据上述考虑,给定期望的单声道采样速率fs以及每个样本的比特数量nb,针对hoa表示的传输的总比特率由o·fs·nb确定。使用每个样本nb=16个比特、以样本速率fs=48khz传输阶n=4的hoa表示将会导致19.2mbits/s的比特率,这对于许多实际应用(例如流传输)来说非常的高。因此,非常需要hoa表示的压缩。
技术实现要素:
处理hoa表示(具有n>1)的压缩的现有方法是很少的。由e.hellerud,i.burnett,asolvangandu.p.svensson,"encodinghigherorderambisonicswithaac",124thaesconvention,amsterdam,2008提出的最直接的方法是使用高级音频编码(aac)执行各个hoa系数序列的直接编码,所述高级音频编码(aac)是感知编码算法。然而,该方法固有的问题是从未听见的信号的感知编码。重建的回放信号经常通过hoa系数序列的加权和来获得,并且当解压缩的hoa表示在特定的扬声器配置上呈现时,有很大的可能会暴露感知编码噪音。针对感知编码噪音暴露的主要问题是各个hoa系数序列之间的高互相关性。由于各个hoa系数序列中的编码噪音信号经常是相互之间不相关的,因此可能会出现感知编码噪音的有益的叠加,同时无噪音hoa系数序列在叠加处消除。其它的问题是,这些互相关性导致感知编码器效率下降。
为了使两种效果的程度降到最低,在ep2469742a2中提出了在感知编码之前,将hoa表示变换为离散空间域中的等价表示。从形式上看,该离散空间域是在一些离散方向处采样的、复杂谐波平面波振幅的空间密度的时域等价物。因此离散空间域由o个传统时域信号来表示,如果扬声器恰好位于与针对空间域变换假设的方向相同的方向,则传统时域信号可以解释为从采样方向冲击的大体平面波,并且传统时域信号将会与扬声器信号相对应。
向离散空间域的变换降低了各个空间域信号之间的互相关性,但是没有完全消除这些互相关性。相对高的互相关性的示例是方向在由空间域信号覆盖的相邻方向中间的方向的定向信号。
两种方法的主要缺点是:感知编码信号的数量是(n+1)2,并且针对压缩的hoa表示的数据速率随着立体混响阶n二次方地增长。
为了降低感知编码信号的数量,专利申请ep2665208a1提出了将hoa表示分解为给定的最大数量的主导定向信号和残余环境分量。要感知编码的信号数量的降低是通过降低残余环境分量的阶来实现的。该方法背后的原理是:在通过较低阶hoa表示使用足够精度来表示残余的同时,保持关于主导定向信号的高空间分辨率。
只要满足关于声场的假设,该方法会很好的工作,即,假设声场由少量的主导定向信号(代表使用完整的阶n编码的大体平面波函数)和没有任何方向性的残余环境分量组成。然而,如果在分解之后残余环境分量仍然包含一些主导定向分量,则阶降低会导致在分解之后的呈现处明显可以感知到的错误。违反了假设的hoa表示的典型示例是以低于n的阶编码的大体平面波。这样的阶低于n的大体平面波可以产生于艺术创作,以便使得声源看起来更广泛,并且这样的阶低于n的大体平面波还可以随着通过球形麦克风记录hoa声场表示而出现。在两种示例中,由大量高度相关的空间域信号来表示声场(其解释还可以参见spatialresolutionofhigherorderambisonics)。
本发明要解决的问题是消除专利申请ep2665208a1中描述的过程引起的缺点,由此也避免了上述其它引用的现有技术的缺点。该问题是由说明书中所公开的方法解决的。说明书中公开了利用这些方法的对应的设备。
本发明改进了专利申请ep2665208a1中描述的hoa声场表示压缩过程。首先,像ep2665208a1中描述的,针对主导声源的存在对hoa表示进行分析,估计所述主导声源的方向。利用主导声源方向的信息,将hoa表示分解为多个表示大体平面波的主导定向信号和残余分量。然而,将该残余hoa分量的阶变换到离散空间域,而不是立即降低该残余hoa分量的阶,以便获得在表示残余hoa分量的均匀采样方向处的大体平面波函数。此后,根据主导定向信号预测这些平面波函数。该操作的原因在于,残余hoa分量的一部分可能与主导定向信号高度相关。
所述预测可以是简单的预测,从而只产生少量的辅助信息。在最简单的情况下,预测由适当的缩放和延时组成。最后,预测误差变换回hoa域,并且当作残余环境hoa分量,针对所述残余环境hoa分量执行阶降低。
有利的是,从残余hoa分量中减去可预测的信号的效果是减小其总功率并且保持主导定向信号的数量,并且通过这种方式来减少由于阶降低导致的分解误差。
在原则上,本发明的压缩方法适用于压缩声场的高阶立体混响(表示为hoa)表示,所述方法包括以下步骤:
-根据hoa系数的当前时帧,估计主导声源方向;
-基于所述hoa系数并且基于所述主导声源方向,将所述hoa表示分解为时域中的主导定向信号和残余hoa分量,其中所述残余hoa分量变换到离散空间域,以便在表示所述残余hoa分量的均匀采样方向处获得平面波函数,并且其中所述平面波函数是根据所述主导定向信号预测的,由此提供描述所述预测的参数,并且对应的预测误差变换回hoa域;
-将所述残余hoa分量的当前阶降低到更低的阶,得到降阶残余hoa分量;
-对所述降阶残余hoa分量进行去相关,以获得对应的残余hoa分量时域信号;
-对所述主导定向信号和所述残余hoa分量时域信号进行感知编码,从而提供压缩的主导定向信号和压缩的残余分量信号。
原则上,本发明的压缩设备适用于压缩声场的高阶立体混响(表示为hoa)表示,所述设备包括:
-适于根据hoa系数的当前时间帧来估计主导声源方向的装置;
-适于基于所述hoa系数并且基于所述主导声源方向,将所述hoa表示分解为时域中的主导定向信号和残余hoa分量的装置,其中所述残余hoa分量变换到离散空间域,以便在表示所述残余hoa分量的均匀采样方向处获得平面波函数,并且其中所述平面波函数是根据所述主导定向信号预测的,由此提供描述所述预测的参数,并且对应的预测误差变换回hoa域;
-适于将所述残余hoa分量的当前阶降低到更低的阶,得到降阶残余hoa分量的装置;
-适于对所述降阶残余hoa分量进行去相关,以获得对应的残余hoa分量时域信号的装置;
-适于对所述主导定向信号和所述残余hoa分量时域信号进行感知编码,从而提供解压缩的主导定向信号和解压缩的残余分量信号的装置;
原则上,本发明的解压缩方法适用于解压缩根据上述压缩方法压缩的高阶立体混响表示,所述解压缩方法包括以下步骤:
-对所压缩的主导定向信号和所压缩的残余分量信号进行感知解码,从而提供解压缩的主导定向信号和表示空间域中的残余hoa分量的解压缩的时域信号;
-对所述解压缩的时域信号进行重新相关,来获得对应的降阶残余hoa分量;
-将所述降阶残余hoa分量的阶增大到原始的阶,从而提供对应的解压缩残余hoa分量;
-使用所述解压缩主导定向信号、所述原始阶解压缩残余hoa分量、所述估计的主导声源方向和描述所述预测的所述参数来组成对应的hoa系数的解压缩且重新组成的帧。
在原则上,本发明的解压缩设备适于解压缩根据上述压缩方法压缩的高阶立体混响表示,所述解压缩设备包括:
-适于对所压缩的主导定向信号和所压缩的残余分量信号进行感知解码,从而提供解压缩的主导定向信号和表示空间域中的残余hoa分量的解压缩的时域信号的装置;
-适于对所述解压缩的时域信号进行重新相关,以获得对应的降阶残余hoa分量的装置;
-适于将所述降阶残余hoa分量的阶增大到原始的阶,从而提供对应的解压缩的残余hoa分量的装置;
-适于通过使用所述解压缩的主导定向信号、所述原始阶解压缩的残余hoa分量、所述估计的主导声源方向和描述所述预测的所述参数,来组成对应的hoa系数的解压缩且重新组成的帧的装置。
在对应的从属权利要求中公开了有利的附加实施例。
附图说明
参照附图对本发明的示例性实施例进行描述,其中:
图1a压缩步骤1:将hoa信号分解为多个主导定向信号、残余环境hoa分量和辅助信息;
图1b压缩步骤2:阶降低,针对环境hoa分量进行去相关,以及对两个分量进行感知编码;
图2a解压缩步骤1:对时域信号进行感知解码,对表示残余环境hoa分量的信号进行重新相关,以及阶增大;
图2b解压缩步骤2:总hoa表示的组成;
图3hoa分解
图4hoa组成
图5球形坐标系
图6针对不同的n值的归一化函数vn(θ)的示例性曲线
具体实施方式
压缩过程
根据本发明的压缩过程包括分别在图1a和图1b中示出的两个连续的步骤。各个信号的准确定义在hoa分解和重新组成的详细描述部分中描述。使用了针对长度b的hoa系数序列的非重叠输入帧d(k)的压缩的逐帧处理,其中k表示帧索引。关于方程式(42)中指定的hoa系数序列,帧定义如下:
d(k):=[d((kb+1)ts)d((kb+2)ts)…d((kb+b)ts)](1)
其中ts表示采样周期。
在图1a中,hoa系数序列的帧d(k)输入到主导声源方向估计步骤或阶段11,所述主导声源方向估计步骤或阶段针对主导定向信号的存在来分析hoa表示,估计主导定向信号的方向。可以例如通过专利申请ep2665208al中描述的处理过程来执行方向的估计。估计的方向由
隐含地假设通过将方向估计分配给来自先前的帧的方向估计,来对所述方向估计进行适当的整理。因此,假设各个方向估计的时间序列描述主导声源的方向轨迹。具体地,如果第d个主导声源不应当运行,则可以通过向
在图1b中示出了定向信号xdir(k-1)的感知编码和残余环境hoa分量da(k-2)的感知编码。定向信号xdir(k-1)是能够使用任何现有感知压缩技术来分别压缩的传统时域信号。环境hoa域分量da(k-2)的压缩在两个连续的步骤或阶段中执行。在阶降低的步骤或阶段13中执行立体混响的阶nred的降低,其中例如nred=1,得到环境hoa分量da,red(k-2)。通过在da(k-2)中保留nred个hoa系数并且丢弃其它系数来实现这样的阶的降低。在解码器一侧,如下文的解释,针对省略的值,附加对应的零值。
应当注意的是,与专利申请ep2665208al中的方法相比,由于总功率以及残余环境hoa分量的方向性的残余量较小,所以降低的阶nred一般来说可以选择为更小的。因此与专利申请ep2665208al相比,所述阶的降低会导致更小的误差。
在后面的去相关步骤或阶段14中,对表示阶降低的环境hoa分量da,red(k-2)的hoa系数序列进行去相关,以获得时域信号wa,red(k-2),所述时域信号wa,red(k-2)输入到(一组)并行的感知编码器或按照任何已知感知压缩技术操作的压缩器15。执行去相关以便在解压缩之后呈现hoa表示时,避免暴露感知编码噪音(其解释参见专利申请ep12305860.4)。通过将da,red(k-2)转化为变换为空间域中ored个等价信号可以实现近似的去相关,所述变换通过应用专利申请ep2469742a2中描述的球谐变换来实现。
备选地,可以使用专利申请ep12305861.2中提出的自适应球谐变换,其中将采样方向的网格旋转以实现可能的最佳去相关效果。另一个备选去相关技术是专利申请ep12305860.4中描述的karhunen-loève变换(klt)。应当注意的是,针对最后两种去相关,要提供表示为α(k-2)的某种辅助信息以便能够在hoa解压缩阶段对去相关进行恢复。
在一个实施例中,联合地执行所有时域信号xdir(k-1)和da,red(k-2)的感知压缩,以便提高编码效率。
感知编码的输出是压缩的定向信号
解压缩步骤
图2a和图2b中示出了解压缩过程。与压缩类似,所述解压缩过程由两个连续的步骤组成。在图2a中,在感知解码或解压缩步骤或阶段21中执行对定向信号
在图2b中,在组成步骤或阶段24中,根据解压缩的主导定向信号
在联合地执行所有时域信号xdir(k-1)和wa,red(k-2)的感知压缩以便提高编码效率的情况下,也以对应的方式联合地执行压缩的定向信号
在hoa重新组织部分中提供对重新组织的详细描述。
hoa分解
图3中给出了示出针对hoa分解执行的操作的框图。该操作被总结如下:首先,计算平滑的主导定向信号xdir(k-1),并且将其输出用于感知压缩。接着,由o个定向信号
在描述细节之前,需要指出的是,在组成期间,连续帧之间的方向变化可以导致所有计算的信号中断。因此,首先计算针对重叠帧的相应信号的瞬时估计,所述瞬时估计的长度为2b。第二,使用适当的窗口函数使连续的重叠帧的结果平滑。然而,每次平滑引入了单个帧的迟滞。
计算瞬时主导定向信号
步骤或阶段30中针对hoa系数序列的当前帧d(k)根据
此外,不失一般性地,假设一向量可以唯一地指定有效主导声源的每个方向估计
首先,根据
对基于有效声源的方向估计的模式矩阵进行计算,其
在方程式(4)中,dact(k)表示针对第k个帧的有效方向的数量,并且dact,j(k)(1≤j≤dact(k))指示它们的索引。
第二,计算定义如下的包含第(k-1)个帧和第k个帧的所有主导定向信号的瞬时估计的矩阵
其中
这通过两个步骤来实现。在第一个步骤中,将对应于无效方向的行中的定向信号样本设置为零,即
其中
然后对该矩阵进行计算,以使误差的欧几里德范数
最小化。解是由以下方程式给出的:
时间平滑
针对步骤或阶段31,只针对定向信号
该窗函数必须满足这样的条件:它与其在以下重叠区域中的偏移版本(假设b样本的偏移)之和为‘1’:
由以下方程式定义的周期性hann窗给出了针对这样的窗函数的示例:
通过根据以下方程式的加窗的瞬时估计的适当叠加来对第(k-1)个帧的平滑的定向信号进行计算:
针对第(k-1)个帧的所有平滑的定向信号的样本被设置在以下的矩阵中:
其中
平滑的主导定向信号xdir,d(l)应当是连续地输入到感知编码器的连续信号。
计算平滑的主导定向信号的hoa表示
在步骤或阶段32中,基于连续信号xdir,d(l),根据xdir(k-1)和
ddir(k-1)=ξact(k)xdir,act,win1(k-1)+ξact(k-1)xdir,act,win2(k-1)(18),
其中,
并且
通过均匀网格上的定向信号来表示残余hoa表示
在步骤或阶段33中,根据ddir(k-1)和d(k-1)(即通过帧延时381延时的d(k)d(k)),对由均匀网格上的定向信号表示的残余hoa表示进行计算。该操作的目的是:获得从一些固定的、几乎均匀分布的方向
首先,关于网格方向,如下计算模式矩阵ξgrid:
其中
由于在整个压缩过程期间网格方向是固定的,所以模式矩阵ξgrid只需要计算一次。
如下获得在对应的网格上的定向信号:
根据主导定向信号预测均匀网格上的定向信号
在步骤或阶段34中,根据
预测的。
首先,包含在
第二,通过分配的主导定向信号
其中,ko(k-1)表示缩放因子并且δo(k-1)指示样本延时。选择这些参数来使预测误差最小化。
如果预测误差的功率大于网格信号本身的功率,则假设预测已经失败。然后,对应的预测参数可以设置为任何非有效值。
应当注意的是,其它类型的预测也是可以的。例如,替代计算全频带缩放因子,针对感知取向频带来确定缩放因子也是可以的。然而,该操作改进预测是以辅助信息量增加为代价的。
所有的预测参数可以如下方程式设置在参数矩阵中:
假设所有的预测信号
计算预测的均匀网格上的定向信号的hoa表示
在步骤或阶段35中,根据以下公式,根据
计算残余环境声场分量的hoa表示
在步骤或阶段37中,通过公式:
根据
hoa表示
在对图4中的各个步骤或阶段的过程进行详细描述之前,提供摘要。使用预测参数
计算主导定向信号的hoa表示
将
其中,
并且
根据主导定向信号预测均匀网格上的定向信号
将
所述单元
计算预测的均匀网格上的定向信号的hoa表示
在计算均匀网格上的预测的定向信号的hoa表示的步骤或阶段44中,通过方程式
组成hoa声场表示
在步骤或阶段46中,如以下方程式,根据
高阶立体混响的基本原理
高阶立体混响是基于感兴趣的紧凑区域中的声场的描述,假设所述紧凑区域中没有声源。在这种情况下,在该感兴趣的区域中,在时间t和位置x的声压p(t,x)的时-空特性物理上完全由均匀波方程来确定。下述内容基于图5中示出的球形坐标系。x轴指向正面位置,y轴指向左方,并且z轴指向上方。通过半径r>0(即到坐标原点的距离)、从极轴z测量的倾角θ∈[0,π]和在x-y平面中从x轴逆时针方向测量的方位角φ∈[0,π]来表示空间中的位置x=(r,θ,φ)t。(·)t表示转置。
可以看出(参见e.g.williams,"fourieracoustics",volume93ofappliedmathematicalsciences,academicpress,1999),声压关于时间的傅里叶变换(由
(其中ω表示角频率,i表示虚数单位)可以如下展开成一系列球形函数
其中cs表示声音的速度,并且k表示角波数,所述角波数k通过公式
如果声场由不同角频率ω的谐波平面波的无穷大量的叠加来表示,并且声场可以从由角度元组(θ,φ)指定的所有可能的方向到达,则可以看出(参见b.rafaely,"plane-wavedecompositionofthesoundfieldonaspherebysphericalconvolution",j.acoust.soc.am.,4(116),pages2149-2157,2004),对应的平面波复振幅函数可以由以下球谐函数展开来表示:
其中展开系数
假设各个系数
所述函数可以收集在如下的单个矢量中:
由n(n+1)+1+m来给出矢量d(t)中的时域函数
最终的立体混响格式提供使用采样频率fs的d(t)的采样的版本如下:
其中ts=1/fs表示采样周期。d(lts)单元被称为立体混响系数。需要注意的是,时域信号
实值的球谐函数的定义
实值的球谐函数
其中
使用勒让德多项式pn(x),并且并不像上文提到的e.g.williamstextbook,在不使用condon-shortley项的情况下,如以下方程式定义关联的legendre函数pn,m(x):
高阶立体混响的空间分辨率
从方向ω0=(θ0,φ0)t到达的平面波函数x(t)在hoa中由以下方程式来表示:
平面波振幅
可以从方程式(48)中看出,它是大体平面波函数x(t)和空间分散函数vn(θ)的乘积,空间分散函数vn(θ)可以被视为仅取决于ω和ω0之间的、具有如下特性的角度θ:
cosθ=cosθcosθ0+cos(φ-φ0)sinθsinθ0(49)。
如预期的,在无限的阶的限制下,即n→∞,空间分散函数转换为狄拉克delta函数δ(·),即
然而,在有限阶n的情况下,来自方向ω0的大体平面波的贡献涂到相邻方向,模糊程度随着阶的提高而减少的。图6中示出了针对不同的n值的归一化函数vn(θ)的曲线。应当指出的是,任何平面波振幅的空间密度的时域特性的方向ω是它在其它任何方向上的特性的倍数。特别是,针对一些固定方向ω1和ω2,函数d(t,ω1)和d(t,ω2)关于时间t相互高度关联。
离散空间域
如果平面波振幅的空间密度在数量为o的、在单位球面上几乎均匀分布的空间方向ω0(1≤o≤0)上是离散的,则获得o个定向信号d(t,ωo)。将这些信号集合到如以下方程式的矢量中:
dspat(t):=[d(t,ω1)...d(t,ωo)]t(51)
通过使用方程式(47)可以证明,可以通过单一矩阵乘法,根据方程式(41)中限定的连续的立体混响表示d(t)来计算该矢量,所述单一矩阵乘法的方程式为:
dspat(t)=ψhd(t),(52)
其中(·)h指示联合置换和共轭,并且ψ表示由以下方程式限定的模式矩阵:
ψ:=[s1...so](53),
其中
由于方向ω0在单位球面上是几乎均匀分布的,所以模式矩阵一般来说是可逆的。因此,通过方程式
d(t)=ψ-hdspat(t)(55)
根据定向信号d(t,ωo)可以计算连续的立体混响表示。两个方程式构在立体混响表示与空间域之间的变换和逆变换。在该应用中,这些变换被称为球谐变换和球谐逆变换。
因为在单位球面上方向ω0是几乎均匀分布的,ψh≈ψ-1(56)
这证明了在方程式(52)中使用ψ-1而不使用ψh是可行的。有利地,上述所有的关系对于离散时域也是有效的。
在编码侧以及解码侧,本发明的过程可以通过单一处理器或电路来执行,或者通过若干个处理器或电路并行操作和/或在本发明过程的不同部分中操作。
本发明能够用于处理可以在家庭环境中的扬声器设备或电影院中的扬声器设备上呈现或播放的对应的声音信号。