压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置制造方法

文档序号:7793055阅读:172来源:国知局
压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置制造方法
【专利摘要】高阶高保真度立体声响复制(HOA)表示在最佳听音位置附近的完整声场,其不依赖于扩音器结构。高空间分辨率需要大量的HOA系数。在本发明中,估计主声音方向,并且将HOA信号表示分解成时域中的主方向信号和相关的方向信息以及HOA域中的环境分量,继之以通过降低它的阶来压缩环境分量。阶降低后的环境分量被变换到空间域,并且与方向信号一起被感知编码。在接收器侧,编码后的方向信号和阶降低后经编码的环境分量被感知地解压缩,被感知地解压缩的环境信号被变换到降低的阶的HOA域表示,继之以阶扩展。从方向信号、对应的方向信息以及原始阶的环境HOA分量重新组成总的HOA表示。
【专利说明】压缩和解压缩高阶高保真度立体声响复制信号表示的方法 及装置

【技术领域】
[0001] 本发明涉及一种压缩和解压缩高阶高保真度立体声响复制(Higher Order Ambisonics)信号表示的方法及装置,其中以不同的方式处理方向和环境(ambient)分量。

【背景技术】
[0002] 高阶高保真度立体声响复制(Η0Α)提供了以下优点:捕获三维空间中的特定位置 附近的完整声场,该位置被称为"最佳听音位置(sweet spot)"。与像立体声或环绕声这样 的基于信道的技术相反,这种Η0Α表示不依赖于具体的扩音器结构。但是,这种灵活性以在 特定扩音器结构上回放该Η0Α表示所需的解码处理为代价。
[0003] Η0Α基于使用截断的球谐函数(SH)展开式的在期望的听者位置附近的位置X的 单独的角形波数量k的气压的复数幅度的描述,其中,在不失一般性的情况下,可以将期望 的听者位置假设为球坐标系统的原点。这种表示的空间分辨率随着该展开式的增长的最大 阶N提高。不幸的是,展开式系数的数量0随阶N而平方地增长,亦即0= (N+1)2。例如, 使用阶N = 4的典型的Η0Α表示需要0 = 25个Η0Α系数。给出期望的采样率fs和每个样 本的比特数量Nb,传送Η0Α信号表示的总的比特率按照0 · fs · Nb来确定,并且在针对每个 样本采用Nb = 16个比特,采样率为fs = 48kHz的情况下的阶N = 4的Η0Α信号表示的传 输导致19. 2MBits/s的比特率。因此,压缩Η0Α信号表示是非常值得做的。
[0004] 关于现存空间音频压缩方法的概述可以在专利申请EP 10306472. 1中或者在 I.Elfitri、B.GUnel、A.M.Kondoz 的"Multichannel Audio Coding Based on Analysis by Synthesis"(Proceedings of the IEEE,第 99 卷,第 4 期,657-670 页,2011 年 4 月)中找 到。
[0005] 下面的技术与本发明更相关。
[0006] 可以如 V· Pulkki 在"Spatial Sound Reproduction with Directional Audio Coding"(Joumal of Audio Eng. Society,第 55(6)卷,5〇3-516 页,2007 年)中所述的使用 方向音频编码(DirAC)来压缩B格式信号(等效于一阶高保真度立体声响复制表示)。在 对电子会议应用提出的一个版本中,将B格式信号编码成单个全向信号以及以单一方向形 式的边信息和针对每个频带的扩散参数。然而,作为结果的数据率的显著降低以在再现时 得到的较小的信号质量为代价。另外,DirAC受限于一阶高保真度立体声响复制表示的压 缩,其受到非常低的空间分辨率的影响。
[0007] 已知的用于压缩具有N> 1的Η0Α表示的方法相当少。其中之一利用感知高 级首频编码(AAC)编码解码器对单独的Η0Α系数序列进彳了直接编码,参见E. Hellerud、 I. Burnett、A_Solvang、U. Peter Svensson 的"Encoding Higher Order Ambisonics with AAC"(第1?届AES大会,阿姆斯特丹,2008年)。然而,该方法的固有问题是永远不会被 听到的信号的感知编码。通常通过Η0Α系数序列的加 权和来获得重构的回放信号。这是为 什么当在特定的扩首器结构上呈现解压缩后的Η0Α表示时未屏蔽感知编码噪声的概率很 高的原因。以更技术性的术语,感知编码噪声未屏蔽的主要问题是单独的HOA系数序列之 间的高度的互相关性。因为在单独的H0A系数序列中的编码后的噪声信号通常彼此不相 关,所以可能出现感知编码噪声的结构重叠,同时与噪声无关的H0A系数序列在重叠处被 消去。另一个问题是所提到的互相关性导致感知编码器的效率降低。
[0008] 为了将这些影响的程度最小化,在EP 10306472. 1中提出在感知编码之前将H0A 表示变换为空间域中的等效表示。空间域信号对应于常规的方向信号,并且如果扩音器被 置于与对空间域变换假设的那些方向完全相同的方向上,则将对应于扩音器信号。
[0009] 到空间域的变换降低了单独的空间域信号之间的互相关性。然而,并未彻底消除 互相关性。关于相对较高的互相关性的示例是其方向落入空间域信号所覆盖的相邻方向之 间的方向信号。
[0010] EP 10306472. 1和上述的Hellerud等人的论文的另一个不足是经感知编码的信 号的数量是(N+1)2,其中,N是Η0Α表示的阶。因此,压缩后的Η0Α表示的数据率随高保真 度立体声响复制阶而平方地增长。
[0011] 本发明的压缩处理将Η0Α声场表示分解为方向分量和环境分量。具体对于计算方 向声场分量,在下面描述了一种新的处理,用于估计若干主声音方向。
[0012] 关于基于高保真度立体声响复制的方向估计的现存方法,上述的Pulkki的论文 描述了一种结合DirAC编码的方法,用于基于B格式声场表示来估计方向。方向根据平 均强度矢量获得,其指向声场能量流动的方向。在0.]^^;11!、5.63111!〇1;、£.八.?^^3613的 "Direction-of-Arrival Estimation using Acoustic Vector Sensors in the Presence ofNoise"(IEEE Proc. Of the ICASSP,105-108 页,2011 年)中提出了一种基于 B 格式的替 代。通过搜索对引入到那个方向的波束形成器输出信号提供最大能量的那个方向,迭代地 进行方向估计。
[0013] 然而,对于方向估计,两种方法都受约束于B格式,其受到相对较低的空间分辨率 的影响。另一不足之处是该估计被限制于仅仅单个主方向。
[0014] Η0Α表示提供了改善的空间分辨率,从而允许对若干主方向的改善的估计。现存的 基于Η0Α声场表示对若干方向进行估计的方法相当稀少。在N. Epain、C. Jin、A. van Schaik 的"The Application of Compressive Sampling to the Analysis and Synthesis of Spatial Sound Fields"(127th Convention of the Audio Eng. Soc·,纽约,2009 年)中 以及在 A. Wabnitz、N. Epain、A. van Schaik、C Jin 的 "Time Domain Reconstruction of Spatial Sound Fields Using Compressed Sensing"(IEEE Proc. of the ICASSP,465-468 页,2011年)中提出了一种基于压缩传感的方法。主要想法是假设声场是空间稀疏的,亦即 由仅仅少量的方向信号构成。在球上分配大量的测试方向之后,采用最优化算法以便发现 尽可能少的测试方向以及对应的方向信号,使得它们被给出的Η0Α表示良好地描述。与实 际上由给出的Η0Α表示提供的空间分辨率相比,该方法提供了一种改善的空间分辨率,因 为其避开了从给出的Η0Α表示的有限阶导致的空间离差。然而,该算法的性能高度依赖于 是否满足稀疏性假设。具体地,如果声场包括任何的较小的附加环境分量,或者如果Η0Α表 示受到将在从多信道记录计算时出现的噪声的影响,则该方法将失败。
[0015] 另一个更直观的方法是将给出的Η0Α表示变换成在B· Rafaely的"Plane-wave decomposition of the sound field on a sphere by spherical convolution"(J. Acoust. Soc. Am.,第4卷,第116号,2149-2157页,2004年10月)中所述的空间域,然后搜索方向 功率中的最大值。该方法的不足之处是环境分量的存在将导致方向功率分布的模糊,并且 与不存在任何环境分量相比,将导致方向功率的最大值的移位。


【发明内容】

[0016] 本发明要解决的问题是提供一种Η0Α信号的压缩,由此仍然保持Η0Α信号表示的 高空间分辨率。通过在权利要求1和2中所述的方法解决该问题。在权利要求3和4中公 开了利用这些方法的装置。
[0017] 本发明解决声场的高阶高保真度立体声响复制Η0Α表示的压缩。在本申请中,术 语"Η0Α"是指所述高阶高保真度立体声响复制表示以及对应地编码或表示后的音频信号。 估计主声音方向,并且将Η0Α信号表示分解成时域中的若千主方向信号和相关的方向信息 以及Η0Α域中的环境分量,继之以通过降低其阶来压缩环境分量。在该分解之后,将降低了 阶的环境Η0Α分量变换到空间域,并且与方向信号一起进行感知编码。
[0018] 在接收器或解码器侧,感知地解压缩编码后的方向信号和阶降低后经编码的环境 分量。将经感知解压缩的环境信号变换成降低了阶的Η0Α域表示,继之以阶扩展。从方向 信号和对应的方向信息以及从原始阶的环境Η0Α分量重新组成总的Η0Α表示。
[0019] 有利地,环境声场分量可以通过具有低于原始的阶的Η0Α表示以足够的准确度来 表示,并且主方向信号的提取确保了在压缩和解压缩之后仍然获得高空间分辨率。
[0020] 原则上,本发明的方法适于压缩高阶高保真度立体声响复制Η0Α信号表示,所述 方法包括以下步骤:
[0021] -估计主方向,其中,所述主方向估计取决于能量上的主Η0Α分量的方向功率分 布;
[0022] -将Η0Α信号表示分解或解码成时域中的若干主方向信号和相关的方向信息以及 Η0Α域中的残差环境分量,其中,所述残差环境分量表示所述Η0Α信号表示和所述主方向信 号的表示之间的差异;
[0023] -通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述 残差环境分量;
[0024] -将降低了阶的所述残差环境Η0Α分量变换到空间域;
[0025] -对所述主方向信号和所述变换后的残差环境Η0Α分量进行感知编码。
[0026] 原则上,本发明的方法适于对通过以下步骤进行了压缩的高阶高保真度立体声响 复制Η0Α信号表示进行解压缩:
[0027] -估计主方向,其中,所述主方向估计取决于能量上的主Η0Α分量的方向功率分 布;
[0028] -将Η0Α信号表示分解或解码成时域中的若千主方向信号和相关的方向信息以及 Η0Α域中的残差环境分量,其中,所述残差环境分量表示所述Η0Α信号表示和所述主方向信 号的表示之间的差异;
[0029] -通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述 残差环境分量;
[0030] -将降低了阶的所述残差环境分量变换到空间域;
[0031]-对所述主方向信号和所述变换后的残差环境Η0Α分量进行感知编码;
[0032] 所述方法包括以下步骤:
[0033] -对所述经感知编码的主方向信号和所述经感知编码的变换后的残差环境Η0Α分 量进行感知解码; ^ ^
[0034] -对经感知解码的变换后的残差环境Η0Α分量进行逆变换以便取得Η0Α域表不;
[0035] -对经逆变换的残差环境Η0Α分量进行阶扩展以便建立原始阶的环境Η0Α分量;
[0036] -组成所述经感知解码的主方向信号、所述方向信息以及所述经原始阶扩展的环 境Η0Α分量以便取得Η0Α信号表不。
[0037] 原则上,本发明的装置适于压缩高阶高保真度立体声响复制Η0Α信号表示,所述 装置包括:
[0038] -适于估计主方向的部件,其中,所述主方向估计取决于能量上的主Η0Α分量的方 向功率分布;
[0039] -适于将Η0Α信号表示分解或解码成时域中的若干主方向信号和相关的方向信息 以及Η0Α域中的残差环境分量的部件,其中,所述残差环境分量表示所述Η0Α信号表示和所 述主方向信号的表示之间的差异;
[0040] -适于通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩 所述残差环境分量的部件;
[0041] -适于将降低了阶的所述残差环境分量变换到空间域的部件;
[0042] -适于对所述主方向信号和所述变换后的残差环境Η0Α分量进行感知编码的部 件。 一一
[0043] 原则上,本发明的装置适于对通过以下步骤进行了压缩的高阶高保真度立体声响 复制Η0Α信号表示进行解压缩:
[0044] -估计主方向,其中,所述主方向估计取决于能量上的主Η0Α分量的方向功率分 布;
[0045] -将Η0Α信号表示分解或解码成时域中的若干主方向信号和相关的方向彳目息以及 Η0Α域中的残差环境分量,其中,所述残差环境分量表不所述Η0Α彳胃号表不和所述主方向?旨 号的表示之间的差异;
[0046] -通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述 残差环境分量;
[0047] -将降低了阶的所述残差环境分量变换到空间域;
[0048] -对所述主方向信号和所述变换后的残差环境Η0Α分量进行感知编码;
[0049] 所述装置包括:
[0050] -适于对经感知编码的主方向信号和经感知编码的变换后的残差环境Η0Α分量进 行感知解码的部件;
[0051] -适于对经感知解码的变换后的残差环境Η0Α分量进行逆变换以便取得Η0Α域表 不的部件;
[0052] -适于对所述经逆变换的残差环境Η0Α分量进行阶扩展以便建立原始阶的环境 Η0Α分量的部件;
[0053] -适于组成所述经感知解码的主方向信号、所述方向信息以及所述经原始阶扩展 的环境HOA分量以便取得HOA信号表示的部件。
[0054]在相应的从属权利要求中公开了本发明的有利的另外的实施例。

【专利附图】

【附图说明】
[0055] 参照【专利附图】
附图
【附图说明】本发明的示例性实施例,附图中:
[0056]图1是关于不同的咼保真度立体声响复制阶N和角Θ e [0, JI ]的规一化离差函 数 VN (Θ);
[0057] 图2是根据本发明的压缩处理的框图;
[0058] 图3是根据本发明的解压缩处理的框图。

【具体实施方式】
[0059]高保真度立体声响复制信号使用球谐函数(SH)展开式描述无源区域内的声场。 这种描述的灵活性可以归因于声压的时间和空间行为基本上由波动方程确定这一物理特 性。
[0060] 波动方程和球谐函数展开式
[0061] 为了对高保真度立体声响复制进行更详细的描述,下面假设球坐标系统,其中,通 过半径r >0(亦即,到坐标原点的距离)、从极轴z测量的倾斜角Θ e [0, π]以及从X轴 在X = y平面中测量的方位角Φ e [0,2 π [来表示空间x = (r,θ,φ)τ中的点。在该球 坐标系统中,关于连通的无源区域内的声压p(t,x)(其中,t表示时间)的波动方程由Earl G. Williams 的教科书 "Fourier Acoustics"(Applied Mathematical Sciences 第 93 卷, Academic Press,1999 年)给出:
[0062]

【权利要求】
1. 一种用于压缩高阶高保真度立体声响复制信号表示(c(i))的方法,所述方法包括 以下步骤: -估计主方向(22),其中,所述主方向估计取决于能量上的主HOA分量的方向功率分 布; -将HOA信号表不分解或解码(23,24)成时域中的若干主方向信号(X(I))和相关的方 向信息>以及HOA域中的残差环境分量(CA (1)),其中,所述残差环境分量表示 所述HOA信号表示(C(I))和所述主方向信号(X(I))的表示(Cdik(I))之间的差异; -通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩(25)所 述残差环境分量; _将降低了阶的所述残差环境HOA分量(CA,KED(1))变换(26)到空间域;以及 -对所述主方向信号和所述变换后的残差环境HOA分量进行感知编码(27)。
2. -种用于对通过以下步骤进行了压缩的高阶高保真度立体声响复制HOA信号表示 (C(I))进行解压缩的方法: -估计主方向(22),其中,所述主方向估计取决于能量上的主HOA分量的方向功率分 布; -将HOA信号表不分解或解码(23,24)成时域中的若干主方向信号(X(I))和相关的方 向信息(:iD〇Ma):)以及HOA域中的残差环境分量(CA (1)),其中,所述残差环境分量表示 所述HOA信号表示(C(I))和所述主方向信号(X(I))的表示(Cdik(I))之间的差异; -通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩(25)所 述残差环境分量; _将降低了阶的所述残差环境HOA分量(CA,KED(1))变换(26)到空间域;以及 -对所述主方向信号和所述变换后的残差环境HOA分量进行感知编码(27), 所述方法包括以下步骤: -对所述经感知编码的主方向信号(X?)和所述经感知编码的变换后的残差环境HOA 分量(,A,RED?)进行感知解码(31); -对所述经感知解码的变换后的残差环境HOA分量(《^REDW)进行逆变换(32)以便 取得HOA域表示(CA,RBD(〇); -对所述经逆变换的残差环境HOA分量执行(33)阶扩展以便建立原始阶的环境HOA分 量以及 -组成(34)所述经感知解码的主方向信号所述方向信息以及 所述经原始阶扩展的环境HOA分量(匕(〇:)以便取得HOA信号表示5.根据权利 要求1、3和4之一所述的方法,其中,联合地对所述主信号(X(I))和所述变换后的HOA(WA, ⑴)进行感知压缩(27)。
3. -种用于压缩高阶高保真度立体声响复制HOA信号表示(C(L))的装置,所述装置包 括: -适于估计主方向的部件(22),其中,所述主方向估计取决于能量上的主HOA分量的方 向功率分布; -适于将HOA信号表不分解或解码成时域中的若干主方向信号(X(I))和相关的方向信 息(Idom(O)以及HOA域中的残差环境分量(Ca(I))的部件(23, 24),其中,所述残差环境 分量表示所述HOA信号表示(C(I))和所述主方向信号(X(I))的表示(Cdik(I))之间的差 异; -适于通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述 残差环境分量的部件(25); -适于将降低了阶的所述残差环境HOA分量(CA, KED(1))变换到空间域的部件(26);以 及 -适于对所述主方向信号和所述变换后的残差环境HOA分量进行感知编码的部件 (27)。
4. 一种用于对通过以下步骤进行了压缩的高阶高保真度立体声响复制HOA信号表示 (C(I))进行解压缩的装置: -估计主方向(22),其中,所述主方向估计取决于能量上的主HOA分量的方向功率分 布; -将HOA信号表不分解或解码(23,24)成时域中的若干主方向信号(X(I))和相关的方 向信息(:iD£)M(0:)以及HOA域中的残差环境分量(Ca(I)),其中,所述残差环境分量表示 所述HOA信号表示(C(I))和所述主方向信号(X(I))的表示(Cdik(I))之间的差异; -通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩(25)所 述残差环境分量; _将降低了阶的所述残差环境HOA分量(CA,KED(1))变换(26)到空间域;以及 -对所述主方向信号和所述变换后的残差环境HOA分量进行感知编码(27), 所述装置包括: -适于对所述经感知编码的主方向信号(KO)和所述经感知编码的变换后的残差环 境HOA分量(WrAjiED(O)进行感知解码的部件(31); -适于对所述经感知解码的变换后的残差环境HOA分量(》a,REDW)进行逆变换以便取 得HOA域表示(eA,RSD(o)的部件(32); -适于对所述经逆变换的残差环境HOA分量执行阶扩展以便建立原始阶的环境HOA分 量(亡A(O)的部件(33);以及 -适于组成所述经感知解码的主方向信号(1(1〕)、所述方向信息(Idom(O)以及 所述经原始阶扩展的环境HOA分量以便取得HOA信号表示的部件(34)。
5. 根据权利要求1所述的方法的方法或者根据权利要求3所述的装置的装置,其中,将 HOA系数的进入矢量(c(j))成帧(21)为非重叠的帧(C(l)),并且其中,帧持续时间可以是 25ms 〇
6. 根据权利要求I或5所述的方法的方法或者根据权利要求3或5所述的装置的装 置,其中,所述主方向估计(22)取决于帧的长重叠组,使得对于每个当前帧,考虑邻近帧的 内容。
7. 根据权利要求1、5和6之一所述的方法的方法或者根据权利要求3、5和6之一所述 的装置的装置,其中,联合地对所述主方向信号(X(I))和所述变换后的环境HOA分量(W A, ⑴)进行感知压缩(27)。
8. 根据权利要求1和5至7之一所述的方法的方法或者根据权利要求3和5至7之一 所述的装置的装置,其中,所述将HOA信号表示分解成时域中的若干主方向信号和相关的 方向信息以及HOA域中的残差环境分量被用于对HOA表不的信号自适应类DirAC呈现,其 中,DirAC表示根据Pulkki的方向音频编码。
9. 一种根据权利要求1和5至8之一所述的方法压缩的HOA信号。
【文档编号】H04H20/89GK104285390SQ201380025029
【公开日】2015年1月14日 申请日期:2013年5月6日 优先权日:2012年5月14日
【发明者】A.克鲁格, S.科唐, J.贝姆, J-M.巴特克 申请人:汤姆逊许可公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1