压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置与流程

文档序号：11691867阅读：220来源：国知局

本申请是申请号为201380025029.9、申请日为2013年5月6日、发明名称为“压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置”的发明专利申请的分案申请。

本发明涉及一种压缩和解压缩高阶高保真度立体声响复制(higherorderambisonics)信号表示的方法及装置，其中以不同的方式处理方向和环境(ambient)分量。

背景技术：

高阶高保真度立体声响复制(hoa)提供了以下优点：捕获三维空间中的特定位置附近的完整声场，该位置被称为“最佳听音位置(sweetspot)”。与像立体声或环绕声这样的基于信道的技术相反，这种hoa表示不依赖于具体的扩音器结构。但是，这种灵活性以在特定扩音器结构上回放该hoa表示所需的解码处理为代价。

hoa基于使用截断的球谐函数(sh)展开式的在期望的听者位置附近的位置x的单独的角形波数量k的气压的复数幅度的描述，其中，在不失一般性的情况下，可以将期望的听者位置假设为球坐标系统的原点。这种表示的空间分辨率随着该展开式的增长的最大阶n提高。不幸的是，展开式系数的数量o随阶n而平方地增长，亦即o＝(n+1)²。例如，使用阶n＝4的典型的hoa表示需要o＝25个hoa系数。给出期望的采样率.fs和每个样本的比特数量nb，传送hoa信号表示的总的比特率按照o·fs·nb来确定，并且在针对每个样本采用nb＝16个比特，采样率为fs＝48khz的情况下的阶n＝4的hoa信号表示的传输导致19.2mbits/s的比特率。因此，压缩hoa信号表示是非常值得做的。

关于现存空间音频压缩方法的概述可以在专利申请ep10306472.1中或者在i.elfitri、b.günel、a.m.kondoz的“multichannelaudiocodingbasedonanalysisbysynthesis”(proceedingsoftheieee，第99卷，第4期，657-670页，2011年4月)中找到。

下面的技术与本发明更相关。

可以如v.pulkki在“spatialsoundreproductionwithdirectionalaudiocoding”(journalofaudioeng.society，第55(6)卷，503-516页，2007年)中所述的使用方向音频编码(dirac)来压缩b格式信号(等效于一阶高保真度立体声响复制表示)。在对电子会议应用提出的一个版本中，将b格式信号编码成单个全向信号以及以单一方向形式的边信息和针对每个频带的扩散参数。然而，作为结果的数据率的显著降低以在再现时得到的较小的信号质量为代价。另外，dirac受限于一阶高保真度立体声响复制表示的压缩，其受到非常低的空间分辨率的影响。

已知的用于压缩具有n＞1的hoa表示的方法相当少。其中之一利用感知高级音频编码(aac)编码解码器对单独的hoa系数序列进行直接编码，参见e.hellerud、i.burnett、a.solvang、u.petersvensson的“encodinghigherorderambisonicswithaac”(第124届aes大会，阿姆斯特丹，2008年)。然而，该方法的固有问题是永远不会被听到的信号的感知编码。通常通过hoa系数序列的加权和来获得重构的回放信号。这是为什么当在特定的扩音器结构上呈现解压缩后的hoa表示时未屏蔽感知编码噪声的概率很高的原因。以更技术性的术语，感知编码噪声未屏蔽的主要问题是单独的hoa系数序列之间的高度的互相关性。因为在单独的hoa系数序列中的编码后的噪声信号通常彼此不相关，所以可能出现感知编码噪声的结构重叠，同时与噪声无关的hoa系数序列在重叠处被消去。另一个问题是所提到的互相关性导致感知编码器的效率降低。

为了将这些影响的程度最小化，在ep10306472.1中提出在感知编码之前将hoa表示变换为空间域中的等效表示。空间域信号对应于常规的方向信号，并且如果扩音器被置于与对空间域变换假设的那些方向完全相同的方向上，则将对应于扩音器信号。

到空间域的变换降低了单独的空间域信号之间的互相关性。然而，并未彻底消除互相关性。关于相对较高的互相关性的示例是其方向落入空间域信号所覆盖的相邻方向之间的方向信号。

ep10306472.1和上述的hellerud等人的论文的另一个不足是经感知编码的信号的数量是(n+1)²，其中，n是hoa表示的阶。因此，压缩后的hoa表示的数据率随高保真度立体声响复制阶而平方地增长。

本发明的压缩处理将hoa声场表示分解为方向分量和环境分量。具体对于计算方向声场分量，在下面描述了一种新的处理，用于估计若干主声音方向。

关于基于高保真度立体声响复制的方向估计的现存方法，上述的pulkki的论文描述了一种结合dirac编码的方法，用于基于b格式声场表示来估计方向。方向根据平均强度矢量获得，其指向声场能量流动的方向。在d.levin、s.gannot、e.a.phabets的“direction-of-arrivalestimationusingacousticvectorsensorsinthepresenceofnoise”(ieeeproc.oftheicassp，105-108页，2011年)中提出了一种基于b格式的替代。通过搜索对引入到那个方向的波束形成器输出信号提供最大能量的那个方向，迭代地进行方向估计。

然而，对于方向估计，两种方法都受约束于b格式，其受到相对较低的空间分辨率的影响。另一不足之处是该估计被限制于仅仅单个主方向。

hoa表示提供了改善的空间分辨率，从而允许对若干主方向的改善的估计。现存的基于hoa声场表示对若干方向进行估计的方法相当稀少。在n.epain、c.jin、a.vanschaik的“theapplicationofcompressivesamplingtotheanalysisandsynthesisofspatialsoundfields”(127thconventionoftheaudioeng.soc.，纽约，2009年)中以及在a.wabnitz、n.epain、a.vanschaik、cjin的“timedomainreconstructionofspatialsoundfieldsusingcompressedsensing”(ieeeproc.oftheicassp，465-468页，2011年)中提出了一种基于压缩传感的方法。主要想法是假设声场是空间稀疏的，亦即由仅仅少量的方向信号构成。在球上分配大量的测试方向之后，采用最优化算法以便发现尽可能少的测试方向以及对应的方向信号，使得它们被给出的hoa表示良好地描述。与实际上由给出的hoa表示提供的空间分辨率相比，该方法提供了一种改善的空间分辨率，因为其避开了从给出的hoa表示的有限阶导致的空间离差。然而，该算法的性能高度依赖于是否满足稀疏性假设。具体地，如果声场包括任何的较小的附加环境分量，或者如果hoa表示受到将在从多信道记录计算时出现的噪声的影响，则该方法将失败。

另一个更直观的方法是将给出的hoa表示变换成在b.rafaely的“plane-wavedecompositionofthesoundfieldonaspherebysphericalconvolution”(j.acoust.soc.am.，第4卷，第116号，2149-2157页，2004年10月)中所述的空间域，然后搜索方向功率中的最大值。该方法的不足之处是环境分量的存在将导致方向功率分布的模糊，并且与不存在任何环境分量相比，将导致方向功率的最大值的移位。

技术实现要素：

本发明要解决的问题是提供一种hoa信号的压缩，由此仍然保持hoa信号表示的高空间分辨率。通过在权利要求1和2中所述的方法解决该问题。在权利要求3和4中公开了利用这些方法的装置。

本发明解决声场的高阶高保真度立体声响复制hoa表示的压缩。在本申请中，术语“hoa”是指所述高阶高保真度立体声响复制表示以及对应地编码或表示后的音频信号。估计主声音方向，并且将hoa信号表示分解成时域中的若干主方向信号和相关的方向信息以及hoa域中的环境分量，继之以通过降低其阶来压缩环境分量。在该分解之后，将降低了阶的环境hoa分量变换到空间域，并且与方向信号一起进行感知编码。

在接收器或解码器侧，感知地解压缩编码后的方向信号和阶降低后经编码的环境分量。将经感知解压缩的环境信号变换成降低了阶的hoa域表示，继之以阶扩展。从方向信号和对应的方向信息以及从原始阶的环境hoa分量重新组成总的hoa表示。

有利地，环境声场分量可以通过具有低于原始的阶的hoa表示以足够的准确度来表示，并且主方向信号的提取确保了在压缩和解压缩之后仍然获得高空间分辨率。

原则上，本发明的方法适于压缩高阶高保真度立体声响复制hoa信号表示，所述方法包括以下步骤：

-估计主方向，其中，所述主方向估计取决于能量上的主hoa分量的方向功率分布；

-将hoa信号表示分解或解码成时域中的若干主方向信号和相关的方向信息以及hoa域中的残差环境分量，其中，所述残差环境分量表示所述hoa信号表示和所述主方向信号的表示之间的差异；

-通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述残差环境分量；

-将降低了阶的所述残差环境hoa分量变换到空间域；

-对所述主方向信号和所述变换后的残差环境hoa分量进行感知编码。

原则上，本发明的方法适于对通过以下步骤进行了压缩的高阶高保真度立体声响复制hoa信号表示进行解压缩：

-估计主方向，其中，所述主方向估计取决于能量上的主hoa分量的方向功率分布；

-通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述残差环境分量；

-将降低了阶的所述残差环境分量变换到空间域；

-对所述主方向信号和所述变换后的残差环境hoa分量进行感知编码；

所述方法包括以下步骤：

-对所述经感知编码的主方向信号和所述经感知编码的变换后的残差环境hoa分量进行感知解码；

-对经感知解码的变换后的残差环境hoa分量进行逆变换以便取得hoa域表示；

-对经逆变换的残差环境hoa分量进行阶扩展以便建立原始阶的环境hoa分量；

-组成所述经感知解码的主方向信号、所述方向信息以及所述经原始阶扩展的环境hoa分量以便取得hoa信号表示。

原则上，本发明的装置适于压缩高阶高保真度立体声响复制hoa信号表示，所述装置包括：

-适于估计主方向的部件，其中，所述主方向估计取决于能量上的主hoa分量的方向功率分布；

-适于将hoa信号表示分解或解码成时域中的若干主方向信号和相关的方向信息以及hoa域中的残差环境分量的部件，其中，所述残差环境分量表示所述hoa信号表示和所述主方向信号的表示之间的差异；

-适于通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述残差环境分量的部件；

-适于将降低了阶的所述残差环境分量变换到空间域的部件；

-适于对所述主方向信号和所述变换后的残差环境hoa分量进行感知编码的部件。

原则上，本发明的装置适于对通过以下步骤进行了压缩的高阶高保真度立体声响复制hoa信号表示进行解压缩：

-估计主方向，其中，所述主方向估计取决于能量上的主hoa分量的方向功率分布；

-通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述残差环境分量；

-将降低了阶的所述残差环境分量变换到空间域；

-对所述主方向信号和所述变换后的残差环境hoa分量进行感知编码；

所述装置包括：

-适于对经感知编码的主方向信号和经感知编码的变换后的残差环境hoa分量进行感知解码的部件；

-适于对经感知解码的变换后的残差环境hoa分量进行逆变换以便取得hoa域表示的部件；

-适于对所述经逆变换的残差环境hoa分量进行阶扩展以便建立原始阶的环境hoa分量的部件；

-适于组成所述经感知解码的主方向信号、所述方向信息以及所述经原始阶扩展的环境hoa分量以便取得hoa信号表示的部件。

在相应的从属权利要求中公开了本发明的有利的另外的实施例。

附图说明

参照附图说明本发明的示例性实施例，附图中：

图1是关于不同的高保真度立体声响复制阶n和角θ∈[0，π]的规一化离差函数vn(θ)；

图2是根据本发明的压缩处理的框图；

图3是根据本发明的解压缩处理的框图。

具体实施方式

高保真度立体声响复制信号使用球谐函数(sh)展开式描述无源区域内的声场。这种描述的灵活性可以归因于声压的时间和空间行为基本上由波动方程确定这一物理特性。

波动方程和球谐函数展开式

为了对高保真度立体声响复制进行更详细的描述，下面假设球坐标系统，其中，通过半径r＞0(亦即，到坐标原点的距离)、从极轴z测量的倾斜角θ∈[0，π]以及从x轴在x＝y平面中测量的方位角φ∈[0，2π[来表示空间x＝(r，θ，φ)^t中的点。在该球坐标系统中，关于连通的无源区域内的声压p(t，x)(其中，t表示时间)的波动方程由earlg.williams的教科书“fourieracoustics”(appliedmathematicalsciences第93卷，academicpress，1999年)给出：

其中，cs指示声音的速度。因此，关于时间的声压的傅里叶变换为

其中，i表示虚数单位，根据williams的教科书可以展开成sh的级数：

应当注意到，该展开式对于连通的无源区域(其对应于序列的收敛的区域)内的所有点x均有效。

在等式(4)中，k表示由下式定义的角形波数量：

并且指示sh展开式系数，其只取决于乘积kr。

另外，是阶n以及次数(degree)m的sh函数：

其中，表示相关联的勒让德函数，并且(·)！表示阶乘。

关于非负次数指数m的相关联的勒让德函数通过勒让德多项式pn(x)定义，如下：

对于负次数指数，亦即m＜0，相关联的勒让德函数定义如下：

继而勒让德多项式pn(x)(n≥0)可以使用罗德里格公式定义为：

在现有技术中，例如在m.poletti的“unifieddescriptionofambisonicsusingrealandcomplexsphericalharmonics”(proceedingsoftheambisonicssymposium2009，2009年6月25至27日，格拉茨，奥地利)中，还存在关于sh函数的定义，其通过关于负次数指数m的因子(-1)^m从等式(6)得出。

替代地，关于时间的声压的傅里叶变换可以使用实数sh函数表示为

在文献中，存在关于实数sh函数的多种定义(例如，参见上述的poletti的论文)。一种在本文档中应用的可行的定义由下式给出：

其中，(·)^*表示复数共轭。通过将等式(6)插入到等式(11)中得到一种替代的表示：

其中，

虽然实数sh函数针对每个定义都是实数值的，但是一般地，对于对应的展开式系数这并不满足。

复数sh函数涉及如下实数sh函数：

复数sh函数以及具有方向矢量ω：＝(θ，φ)^t的实数sh函数形成三维空间中的单位球上的平方可积分复数值函数的正交基，因此满足如下条件：

其中，δ表示克罗内克δ函数。使用等式(15)和等式(11)中的实数球谐函数的定义可以得出第二结果。

内部问题和高保真度立体声响复制系数

高保真度立体声响复制的目的是表示坐标原点附近的声场。在不失一般性的情况下，此处假设感兴趣的这个区域为以坐标原点为中心的半径为r的球形体，其通过集合{x|0≤r≤r}指定。关于该表示的关键假设是假定该球形体不包含任何声源。找出该球形体内的声场表示被称为“内部问题”，参见上述的williams的教科书。

可以示出，关于该内部问题，sh函数展开式系数可以表示为

其中，jn(.)表示一阶球贝塞尔函数。根据等式(17)，其满足关于声场的完整信息包含在被称为高保真度立体声响复制系数的系数中。

类似地，可以对实数sh函数展开式的系数进行因式分解为

其中，系数被称为关于使用实数值的sh函数的展开式的高保真度立体声响复制系数。它们还通过下式与相关：

平面波分解

在中心位于坐标原点的声音无源球形体内的声场可以通过从所有可能方向碰撞到该球形体上的无限数量的角形波数量k不同的平面波的重叠表示，参见上述的rafely的“plane-wavedecomposition…”论文。假设来自方向ω0的具有角形波数量k的平面波的复数幅度由d(k，ω0)给出，可以使用等式(11)和等式(19)以类似的方式示出关于实数sh函数展开式的对应的高保真度立体声响复制系数由下式给出：

因此，关于从无限数量的角形波数量为k的平面波的重叠得到的声场的高保真度立体声响复制系数从等式(20)在所有可能的方向的积分得到：

函数d(k，ω)被称为“幅度密度”，并且假设在单位球上是平方可积分的。可以将其展开成实数sh函数的级数，如下

其中，展开系数等于出现在等式(22)中的积分，亦即

通过将等式(24)插入到等式(22)中，可以看出高保真度立体声响复制系数是展开式系数的缩放后的版本，亦即

在对缩放后的高保真度立体声响复制系数以及幅度密度函数d(k，ω)应用关于时间的逆傅里叶变换时，得到对应的时域量

然后，在时域中，可以将等式(24)用公式表示为

时域方向信号d(t，ω)可以通过实数sh函数展开式根据下式表示

使用sh函数是实数值的这一事实，其复数共轭可以表示为

假设时域信号d(t，ω)是实数值的，亦即d(t，ω)＝d^*(t，ω)，根据等式(29)与等式(30)的比较，可以得出系数在该情况下是实数值的，亦即

下面，将系数称为缩放后的时域高保真度立体声响复制系数。

下面，还假设声场表示通过将在下面的处理压缩的部分更详细地描述的这些系数给出。

注意，通过用于根据本发明的处理的系数进行的时域hoa表示等效于对应的频域hoa表示因此，在对等式进行了较小的相应修改的情况下，可以在频域中等效地实现所述压缩和解压缩。

具有有限阶的空间分辨率

实践中，仅使用有限数量的阶n≤n的高保真度立体声响复制系数描述坐标原点附近的声场。相对于真实幅度密度函数d(k，ω)，根据下式从截断的sh函数级数计算幅度密度函数引入了一种空间离差

参见上述的“plane-wavedecomposition…”论文。这可以通过使用等式(31)

对来自方向ω0的单个平面波计算幅度密度函数来实现：

其中

其中，θ表示满足下述属性的指向方向ω和ω0的两个矢量之间的角

cosθ＝cosθcosθ0+cos(φ-φ0)sinθsinθ0(39)

在等式(34)中，利用在等式(20)中给出的平面波的高保真度立体声响复制系数，而在等式(35)和(36)中利用一些数学理论，参见上述的“plane-wavedecomposition…”论文。可以使用等式(14)示出在等式(33)中的属性。

比较等式(37)与真实幅度密度函数

其中，δ(·)表示迪拉克δ函数，从将缩放后的迪拉克δ函数替换为离差函数vn(θ)(其在按照其最大值进行了归一化之后，针对不同的高保真度立体声响复制阶n和角θ∈[0，π]，在图1中示出)，空间离差变得显而易见。

因为对于n≥4，vn(θ)的第一个零近似地位于(参见上述的“plane-wavedecomposition…”论文)，随着增加高保真度立体声响复制阶n，离差效应降低(并且因此空间分辨率提高)。

对于n→∞，离差函数vn(θ)收敛到缩放后的迪拉克δ函数。在以下情况下可以看到这一点：勒让德多项式的完整关系

与等式(35)一起使用以将关于n→∞的vn(θ)的极限表示为

在通过

定义阶n≤n的实数sh函数的矢量时，其中，o＝(n+1)²，并且(.)^t表示转置，等式(37)与等式(33)比较示出离差函数可以通过两个实数sh矢量的标量乘积表示为

vn(θ)＝s^t(ω)s(ω0)(47)

在时域中，可以将离差等效地表示为

采样

对于一些应用，期望根据在有限数量j的离散方向ωj上的时域幅度密度函数d(t，ω)的样本确定缩放后的时域高保真度立体声响复制系数然后，根据b.rafaely的“analysisanddesignofsphericalmicrophonearrays”(ieeetransactionsonspeechandaudioprocessing，卷13，第1号，页135-143，2005年1月)通过有限求和近似等式(28)中的积分：

其中，gj表示一些适当选取的采样加权。相对于“analysisanddesign…”论文，近似(50)是指使用实数sh函数的时域表示而不是使用复数sh函数的频域表示。使近似(50)变得精确的必要条件是幅度密度是有限谐函数阶n的，意味着

如果该条件不满足，则近似(50)受到空间混叠误差的影响，参见b.rafaely的“spatialaliasinginsphericalmicrophonearrays”(ieeetransactionsonsignalprocessing，卷55，第3期，第1003-1010页，2007年3月)。

第二必要条件需要采样点ωj和对应的加权满足在“analysisanddesign…”论文中给了的对应条件：

条件(51)和(52)联合起来对于精确采样就足够了。

采样条件(52)由一组线性等式组成，可以使用单个矩阵等式简洁地用公式表示为

ψgψ^h＝i(53)

其中，ψ表示由下式定义的模式矩阵

并且g表示在其对角线上具有加权的矩阵，亦即

g：＝diag(g1，，gj)(55)

从等式(53)可以看出，满足等式(52)的必要条件是采样点的数量j满足j≥o。将在j个采样点处的时域幅度密度的值聚集到如下矢量中

w(t)：＝(d(t，ω1)，…，d(t，ωj))(56)并且通过下式定义缩放后的时域高保真度立体声响复制系数的矢量

两个矢量通过sh函数展开式(29)相关。这种关系提供了下面的线性等式系统：

w(t)＝ψ^hc(t)(58)

使用所引入的矢量记号，从时域幅度密度函数样本的值计算缩放后的时域高保真度立体声响复制系数可以写作：

c(t)≈ψgw(t)(59)

给出固定的高保真度立体声响复制阶n，经常无法实现通过计算j≥o数量的采样点ωj和对应的加权使得满足采样条件等式(52)。然而，如果选取采样点使得良好地近似采样条件，则模式矩阵ψ的秩为o，并且其条件数低。在该情况下，存在模式矩阵ψ的伪逆

ψ⁺：＝(ψψ^h)^-1ψψ⁺(60)

并且通过下式给出从时域幅度密度函数样本的矢量到缩放后的时域高保真度立体声响复制系数矢量c(t)的合理近似

c(t)≈ψ⁺w(t)(61)

如果j＝o并且模式矩阵的秩为o，则其伪逆与其逆一致，因为

ψ⁺＝(ψψ^h)^-1ψ＝ψ^-hψ^-1ψ＝ψ^-h(62)

如果额外满足采样条件等式(52)，则满足

ψ^-h＝ψg(63)

并且两个近似(59)和(61)是等价的并且是精确的。

可以将矢量w(t)解释为空间时域信号的矢量。从hoa域到空间域的变换可以例如通过使用等式(58)进行。这种变换在本申请中被称为“球谐函数变换”(sht)并且在降低了阶的环境hoa分量变换到空间域时使用。隐含地假设sht的空间采样点ωj近似地满足在并且j＝o情况下的等式(52)中的采样条件。

在这些假设下，sht矩阵满足在sht的绝对缩放不重要的情况下，则可以忽略常量

压缩

本发明涉及对给出的hoa信号表示的压缩。如上所述，将hoa表示分解成时域中的预定义数量的主方向信号以及hoa域中的环境分量，继之以通过降低环境分量的阶来压缩环境分量的hoa表示。该操作利用如下被收听测试支持的假设：环境声场分量可以通过具有低阶的hoa表示以足够的精确度来表示。对主方向信号的提取确保了在压缩和对应的解压缩之后保持高空间分辨率。

在分解之后，降低了阶的环境hoa分量被变换到空间域，并且与如在专利申请ep10306472.1的exemplaryembodiments部分中所述那样与方向信号一起被感知地编码。

压缩处理包括在图2中图示的两个相继步骤。在下面的压缩的细节部分描述单独信号的确切定义。

在图2a中示出的第一步骤或阶段中，在主方向估计器22中估计主方向，并且进行将高保真度立体声响复制信号c(l)分解成方向分量以及残差或环境分量，其中l表示帧索引。在方向信号计算步骤或阶段23中计算方向分量，由此高保真度立体声响复制表示被转换到由具有对应的方向的d个常规方向信号x(l)的集合表示的时域信号。在环境hoa分量计算步骤或阶段24中计算残差的环境分量，并且表示为hoa域系数ca(l)。

在图2b中示出的第二步骤中，对方向信号x(l)和环境hoa分量ca(l)执行感知编码，如下：

-可以在感知编码器27中使用任何已知的感知压缩技术单独地压缩常规时域方向信号x(l)。

-在两个子步骤或阶段中执行环境hoa域分量ca(l)的压缩。

第一子步骤或阶段25执行将原始高保真度立体声响复制阶n降低至nred，例如nred＝2，得到环境hoa分量ca，red(l)。此处，利用如下假设：可以通过具有低阶的hoa足够精确地表示环境声场分量。第二子步骤或阶段26基于在专利申请ep10306472.1中所述的压缩。通过应用球谐函数变换，将在子步骤/阶段25计算的环境声场分量的ored：＝(nred+1)²个hoa信号ca，red(l)变换成空间域中的ored个等效信号wa，red(l)，得到可以输入给一组并行的感知编码解码器27的常规时域信号。可以应用任何已知的感知编码或压缩技术。输出编码后的方向信号和阶降低了的编码后的空间域信号并且它们可以被传送或存储。

有利地，可以在感知编码器27中联合地执行对所有时域信号x(l)和wa，red(l)的感知压缩，以便通过利用可能剩余的信道间相关性提高总体的编码效率。

解压缩

在图3中图示了对收到的或重放的信号的解压缩处理。如同压缩处理，其包括两个相继步骤。

在图3a中示出的第一步骤或阶段中，在感知解码31中执行对编码后的方向信号以及阶降低了的编码后的空间域信号的感知解码或者解压缩，其中，是表示分量并且表示环境hoa分量。在逆球谐函数变换器32中经由逆球谐函数变换将经感知解码或解压缩的空间域信号变换成阶为nred的hoa域表示此后，在阶扩展步骤或阶段33中，通过阶扩展从估计阶为n的适当的hoa表示

在图3b示出的第二步骤或阶段中，在hoa信号组装器34中从方向信号和对应的方向信息以及从原始阶的环境hoa分量重新组成总的hoa表示

可达到的数据率降低

本发明所解决的问题是与现有的用于hoa表示的压缩方法相比显著地降低数据率。下面论述与非压缩的hoa表示相比的可达到的压缩率。压缩率得自传送阶为n的非压缩的hoa信号c(l)所需的数据率与传送由d个经感知编码的方向信号和对应的方向以及nred个表示环境hoa分量的经感知编码的空间域信号wa，red(l)组成的压缩后的信号表示所需的数据率的比较。

为了传送非压缩的hoa信号c(l)，需要o·fs·nb的数据率。相反，传送d个经感知编码的方向信号x(l)需要d·fb，cod的数据率，其中，fb，cod表示经感知编码的信号的比特率。类似地，传送nred个经感知编码的空间域信号wa，red(l)信号需要ored·fb，cod的比特率。假设基于与采样率fs相比低得多的速率计算方向亦即假设它们对于由b个样本组成的信号帧的持续时间是固定的，例如对于fs＝48khz的采样率，b＝1200，并且对于压缩后的hoa信号的总的数据率的计算，可以忽略对应的数据率份额。

因此，传送压缩后的表示需要大约(d+ored)·fb，cod的数据率。因此，压缩率rcompr为

例如，使用降低的hoa阶nred＝2并且的比特率将采用采样率fs＝48khz并且对于每个样本nb＝16比特的阶n＝4的hoa表示压缩成具有d＝3个主方向的表示将导致rcompr≈25的压缩率。传送压缩后的表示需要大约的数据率。

降低的出现编码噪声未屏蔽的概率

如在背景技术中所述，在专利申请ep10306472.1中所述的空间域信号的感知压缩受到信号之间的剩余的相互相关性的影响，其可能导致未屏蔽感知编码噪声。根据本发明，主方向信号在被感知编码之前，首先从hoa声场表示提取将其提取。这意味着，在组成hoa表示时，在感知解码之后，编码噪声具有与方向信号完全相同的空间方向性。具体地，编码噪声以及方向信号对任何任意方向的影响通过在具有有限阶的空间分辨率部分中解释的空间离差函数确定性地描述。换言之，在任何时刻，表示编码噪声的hoa系数矢量恰好是表示方向信号的hoa系数矢量的倍数。因此，噪声hoa系数的任意加权的和将不会导致对感知编码噪声的任何未屏蔽。

另外，正如在ep10306472.1中所提出那样地处理降低了阶的环境分量，但是因为针对每个定义，环境分量的空间域信号在彼此之间具有相当低的相关性，所以感知噪声未屏蔽的概率很低。

改进的方向估计

本发明的方向估计取决于能量上的主hoa分量的方向功率分布。从hoa表示的秩降低了的相关性矩阵(其通过对hoa表示的相关性矩阵的特征值分解得到)计算方向功率分布。与在上述的“plane-wavedecomposition…”论文中使用的方向估计相比，提供了更准确这一优点，因为关注于能量上的主hoa分量而不是对方向估计使用完整的hoa表示降低了方向功率分布的空间模糊。

与在上述的“theapplicationofcompressivesamplingtotheanalysisandsynthesisofspatialsoundfields”和“timedomainreconstructionofspatialsoundfieldsusingcompressedsensing”论文中提出的方向估计相比，提供了更加健壮这一优点。原因是将hoa表示分解成方向分量和环境分量几乎永远不会完美的实现，使得在方向分量中保留少量环境分量。然后，像在这两个论文中那样的压缩采样方法由于它们对环境信号的存在的高度敏感性而无法提供合理的方向估计。

有利地，本发明的方向估计不会受到该问题的影响。

hoa表示分解的替代应用

根据在上述的pulkki的论文“spatialsoundreproductionwithdiretionalaudiocoding”中所提出的，所述的将hoa表示分解成带有相关方向信息的若干方向信号以及在hoa域中的环境分量可以用于hoa表示的信号自适应类dirac呈现。

可以不同地呈现每个hoa分量，因为两个分量的物理特征是不同的。例如，可以使用如基于矢量的幅度摇摄(vbap)这样的信号摇摄技术对扩音器呈现方向信号，参见v.pulkki的“virtualsoundsourcepositioningusingvectorbaseamplitudepanning”(journalofaudioeng.society，卷45，第6期，第456-466页，1997年)。可以使得已知的标准hoa呈现技术呈现环境hoa分量。

这样的呈现不限于阶为“1”的高保真度立体声响复制表示，并且因此可以被视为到阶n＞1的hoa表示的类dirac呈现的扩展。

对来自hoa信号表示的若干方向的估计可以用于任何相关类型的声场分析。

下面的部分更详细地描述信号处理步骤。

压缩

输入格式的定义

作为输入，假设在等式(26)中定义的缩放后的时域hoa系数以速率进行采样。将矢量c(j)定义为由属于采样时间t＝jts，的所有系数组成，其根据：

成帧

在成帧步骤或阶段21中，对缩放后的hoa系数的进入的矢量c(j)进行成帧成为长度为b的非重叠的帧，其根据：

假设fs＝48khz的采样率，对应于25ms的帧持续时间，适当的帧长度为b＝1200个样本。

主方向的估计

对于主方向的估计，计算下面的相关性矩阵

在当前帧l和l-1个先前帧上的求和指出方向分析基于具有l·b个样本的帧的长重叠组，亦即，对于每个当前帧，考虑邻近帧的内容。这有助于方向分析的稳定性，理由有两个：更长的帧导致更大数量的观测，方向估计由于重叠帧而平滑。

假设fs＝48khz并且b＝1200，对应于100ms的总体帧持续时间，l的合理值是4。

接下来，根据下式确定相关性矩阵b(l)的特征值分解

b(l)＝v(l)a(l)v^t(l)(68)

其中，矩阵v(l)由特征矢量vi(l)，1≤i≤o组成，如下

并且λ(l)是具有对应的特征值λi(l)，1≤i≤o的对角矩阵，在其对角线上：

假设以非升序编排特征值的索引，亦即，

λ1(l)≥λ2(l)之…≥λo(l)(71)

之后，计算主特征值的索引集合一种对此进行管理的可行方式是定义所期望的最小宽带方向对环境功率比darmin，然后确定使得

关于darmin的合理选择是15db。主特征值的数量进一步地被约束为不大于d，以便集中于不超过d个主方向。这通过将索引集替换为来实现，其中

接下来，通过下式得到b(l)的秩近似

该矩阵应当包含主方向分量对b(l)的贡献。

之后，计算矢量

其中，ξ表示关于大量近似相等分布的测试方向ωq：＝(θq，φq)，1≤q≤q的模式矩阵，其中，θq∈[0，π]表示从极轴z测量的倾斜角θ∈[0，π]，并且φq∈[-π，π[表示从x轴在x＝y平面中测量的方位角。

通过下式定义模式矩阵ξ

其中，对于1≤q≤q

σ²(l)中的个元素是从方向ωq入射的对应于主方向信号的平面波的功率的近似。在下面的关于方向搜索算法的解释部分中提供与此相关的理论上的解释。

根据σ²(l)，计算用于方向信号分量的确定的若干(个)主方向从而约束主方向的数量以满足以便确保不变的数据率。然而，如果允许可变的数据率，则主方向的数量可以适配于当前的声音场景。

计算个主方向的一种可行方式是将第一主方向设置成具有最大功率的那个，亦即，其中，并且假设由主方向信号创建功率最大值，并且考虑使用有限阶n的hoa表示得到方向信号的空间离差的事实(参见，上述的“plane-wavedecomposition…”论文)，则可以断定：在ωcurrdom，1(l)的方向领域中，应当出现属于相同的方向信号的功率分量。因为可以通过函数(参见等式(38))表示空间信号离差，其中，表示ωq和ωcurrdom，1(l)之间的角，属于方向信号的功率根据下降。因此，对于另外的主方向的搜索，排除在具有θq，1≤θmin的的方向领域中的所有方向ωq，这是合理的。可以将距离θmin选取为vn(x)(对于n≥4，其近似地通过给出)的第一个零。然后，将第二主方向设置为在剩余的方向上具有最大功率的那个，其中，以类似的方式确定剩余的主方向。

可以通过以下方式确定主方向的数量考虑分配给单独的主方向的功率并且搜索比值超过所期望的方向对环境率比darmin的值的情况。这意味着，满足

关于计算所有主方向的总体处理可以按照下面执行：

接下来，对在当前帧中得到的方向和先前帧中的方向进行平滑，得到平滑的方向1≤d≤d。该操作可以分成两个相继部分：

(a)对先前帧中的平滑的方向(1≤d≤d)分配当前的主方向确定分配函数使得分配的方向之间的角的和

最小化。可以使用著名的匈牙利算法(参见h.w.kuhn的“thehungarianmethodfortheassignmentproblem”，navalresearchlogisticsquarterly2，第1-2期，第83-97页，1955年)解决这样的分配问题。将当前方向和先前帧中的不活动的方向(关于术语“不活动的方向”的解释，参见下面)之间的角设置为2θmin。该操作的效果是，试图将比2θmin更接近于先前活动的方向的当前方向分配给它们。如果距离超过2θmin，则假设对应的当前方向属于新的信号，这意味着其优选分配给先前不活动的方向注释：当允许全体压缩算法的更大等待时间时，相继方向估计的分配可以更健壮的进行。例如，可以更好地识别突然的方向改变，而不会将它们与从估计误差得到的离群值混合在一起。

(b)使用步骤(a)中的分配计算平滑的方向1≤d≤d。平滑是基于球的几何形状而不是欧几里得几何形状。对于当前的主方向中的每个，沿着由方向和指定的跨越球上的两个点的大圆的劣弧进行平滑。显然，通过用平滑因子αω计算经指数加权的移动平均数，独立地平滑方位角和倾斜角。对于倾斜角，这得到下面的平滑操作：

对于方位角，必须修改平滑以在从π-ε(ε＞0)到-π的平移时以及在相反方向的平移时得到正确的平滑。可以对此进行考虑，通过首先将以2π为模的差分角计算为

其通过下式被转换到区间[-π，π[

这个以2π为模的平滑后的主方位角被确定为

并且通过下式最终被转换成位于区间[-π，π[内

在的情况下，存在未取得分配的当前主方向的先前帧中的方向对应的索引集合被表示为

从上一帧复制相应的方向，亦即，对于

对预定数量(lia)的帧未分配的方向被称为是不活动的。

之后，计算通过表示的活动的方向的索引集合。其基数表示为

然后，将所有平滑后的方向连接成单个方向矩阵，作为

方向信号的计算

方向信号的计算基于模式匹配。具体地，对于那些hoa表示得到给出的hoa信号的最佳近似的方向信号进行搜索。因为相继帧之间的方向的改变会导致方向信号的不连续性，所以可以计算重叠帧的方向信号的估计，继之以使用适当的窗口函数平滑相继的重叠帧的结果。然而，该平滑引入单个帧的等待时间。

下面解释关于方向信号的详细估计：

首先，根据下式计算基于平滑后的活动的方向的模式矩阵

其中，

其中，dact，j，1≤j≤dact(l)表示活动的方向的索引。

接下来，计算包含关于第(l-1)个和第l个帧的所有方向信号的非平滑的估计的矩阵xinst(l)：

其中，

这在两个步骤中完成。在第一步骤中，将对应于不活动的方向的行中的方向信号样本设置成零，亦即

在第二步骤中，通过首先根据下式将对应于活动的方向的方向信号样本安排在矩阵中来得到它们

然后计算该矩阵，以便将误差的欧几里得范数

ξact(l)xinst，act(l)-[c(l-1)c(l)](97)最小化。其解通过下式给出

通过适当的窗口函数w(j)对方向信号xinst，d(l，j)(1≤d≤d)的估计进行窗口处理：

xinst，win，d(l，j)：＝xinst，d(l，j)·w(j)，1≤j≤2b(99)

关于窗口函数的示例由周期汉明窗口给出，定义如下

其中，kw表示被确定为使得移位后的窗口的和等于“1”的缩放因子。根据下式通过进行了窗口处理的非平滑的估计的适当重叠来计算第(l-1)个帧的平滑后的方向信号

xd((l-1)b+j)＝xinst，win，d(l-1，b+j)+xinst，win，d(l，j)(101)

对第(l-1)个帧的所有平滑后的方向信号的样本布置在矩阵x(l-1)中，如下

其中，

环境hoa分量的计算

根据下式通过从总的hoa表示c(l-1)减去总的方向hoa分量cdir(l-1)得到环境hoa分量ca(l-1)

其中，通过下式确定cdir(l-1)

其中，ξdom(l)表示通过下式定义的基于所有平滑的方向的模式矩阵

因为总的方向hoa分量的计算还基于重叠的相继瞬间总方向hoa分量的空间平滑，还得到具有单个帧的等待时间的环境hoa分量。

环境hoa分量的阶降低

通过ca(l-1)的分量将其表示为

通过删去所有n＞nred的hoa系数完成阶降低：

环境hoa分量的球谐函数变换

通过降低了阶的环境hoa分量ca，red(l)与模式矩阵的逆的相乘执行球谐函数变换

其中，

基于ored是均匀分布的方向ωa，d

1≤d≤ored：wa，red(l)＝(ξa)^-1ca，red(l)(111)

解压缩

逆球谐函数变换

经由逆球谐函数变换通过下式将经感知解压缩的空间域信号变换成阶为nred的hoa域表示

阶扩展

根据下式通过附加零将hoa表示的高保真度立体声响复制阶扩展成n

其中，0m×n表示具有m行和n列的零矩阵。

hoa系数组成

最终的解压缩后的hoa系数根据下式由方向和环境hoa分量相加组成

在该阶段，再次引入单个帧的等待时间以允许基于空间平滑计算方向hoa分量。由此，避免了在声场的方向分量中由相继帧之间的方向改变导致的可能的不期望的不连续性。

为了计算平滑后的方向hoa分量，将包含所有单独方向信号的估计的两个相继帧连接成单个长帧，如下

在该长帧中包含的每个单独信号选段乘以例如等式(100)的窗口函数。当按照下式通过长帧的分量表示该长帧时

可以将窗口处理操作用公式表示为计算经窗口处理的信息选段1≤d≤d，如下

最后，通过将所有经窗口处理的方向信号选段编码成适当的方向并且以重叠的方式将它们重叠，得到总的方向hoa分量cdir(l-1)：

方向搜索算法的解释

下面，解释在主方向估计部分中所述的方向搜索处理之后的动机。其基于首先定义的一些假设。

假设

hoa系数矢量c(j)通常通过下式与时域幅度密度函数d(j，ω)相关

假设hoa系数矢量c(j)符合以下模型：

该模型表明，一方面，hoa系数矢量c(j)通过来自第l个帧的方向的i个主方向源信号xi(j)(1≤i≤i)创建。具体地，假设对于单个帧的持续时间，方向是固定的。假设主源信号的数量i明显地小于hoa系数的总数量o。另外，假设帧长度b明显地大于o。另一方面，矢量c(j)由残差分量ca(j)组成，可以将其视为表示理想的各向同性环境声场。

假设单独的hoa系数矢量分量具有以下性质：

●假设主源信号是零平均值，亦即

并且假设主源信号彼此无关，亦即

其中表示第l个帧的第i个信号的平均功率。

●假设主源信号与hoa系数矢量的环境分量无关，亦即

●假设环境hoa分量矢量是零平均值，并且假设其具有协方差矩阵

●每个帧l的方向对环境功率比dar(l)在此处通过下式定义

假设其大于预定义的期望值darmin，亦即

dar(l)≥darmin(126)

方向搜索的解释

为了进行解释，考虑以下情况：仅基于第l个帧的样本而不考虑l-1个先前帧的样本，计算相关性矩阵b(l)(参见等式(67))。该操作对应于设置l＝1。因此，相关性矩阵可以表示为

通过将等式(120)中的模型假设替换到等式(128)中，并且通过使用等式(122)和(123)以及等式(124)中的定义，可以将相关性矩阵b(l)近似为(129)

根据等式(131)可以看出，b(l)近似地由对方向和环境hoa分量有贡献的两个附加分量组成。其秩近似提供方向hoa分量的近似，亦即

其根据关于方向对环境功率比的等式(126)得出。

然而，应当强调的是，∑a(l)的一部分将不可避免地漏到中，因为∑a(l)一般具有完整的秩，因此矩阵的列和∑a(l)跨过的子空间彼此不正交。通过等式(132)，用于主方向搜索的等式(77)中的矢量σ²(l)可以表示为

在等式(135)中，使用在等式(47)中示出的球谐函数的以下属性：

s^t(ωq)s(ωq′)＝vn(∠(ωq，ωq′))(137)

等式(136)示出，σ²(l)的个分量是来自测试方向ωq(1≤q≤q)的信号的功率的近似。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.克鲁格;S.科唐;J.贝姆;J-M.巴特克
技术所有人：杜比国际公司
我是此专利的发明人

上一篇：一种语音降噪的方法及系统以及智能终端与流程
上一篇：一种基于多人说话的声纹识别方法与流程