本申请是基于申请号为201380036698.6、申请日为2013年7月16日、发明名称为“用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备”的专利申请的分案申请。
本发明涉及用于对多信道高阶高保真度立体声响复制音频信号进行编码以便降噪的方法和设备、以及对多信道高阶高保真度立体声响复制音频信号进行解码以便降噪的方法和设备。
背景技术:
高阶高保真度立体声响复制(higherorderambisonics,hoa)是多信道声场表示[4],并且hoa信号是多信道音频信号。在特定扬声器装配上回放某些多信道音频信号表示,特别是hoa表示,需要特殊的呈现,这通常包括矩阵化运算。在解码之后,高保真度立体声响复制(ambisonics)信号被“矩阵化”,亦即,被映射到与例如扬声器的实际空间位置相对应的新的音频信号。通常,在单个信道之间存在高的互相关性。
问题是经历到在矩阵化运算之后编码噪声增大。在现有技术下,原因似乎是未知的。当在通过感知编码器进行压缩之前例如通过离散球面谐波变换(discretesphericalharmonicstransform,dsht)将hoa信号变换到空间域时,也发生该效应。
用于高阶高保真度立体声响复制音频信号表示的压缩的通常方法是将独立的感知编码器应用于个体高保真度立体声响复制系数信道[7]。具体地,感知编码器仅考虑对在每个个体单信道信号中发生的噪声掩蔽效应进行编码。然而,这种效应典型地是非线性的。如果将这种单信道矩阵化成新信号,则可能发生噪声去掩蔽(unmasking)。当在用感知编码器进行压缩之前通过离散球面谐波变换将高阶高保真度立体声响复制信号变换到空间域时,也发生该效应[8]。
这种多信道音频信号表示的传输或存储通常要求适当的多信道压缩技术。通常,在最终将i个经解码的信号
术语“矩阵化”源自以下事实:在数学上通过以下矩阵运算从
其中,a表示由混合权重(mixingweight)构成的混合矩阵(mixingmatrix)。在此同义地使用术语“混合”和“矩阵化”。混合/矩阵化用于呈现任何特定扬声器装配的音频信号的目的。矩阵依赖的特定的个体扬声器装配以及因此用于在运算期间的矩阵化的矩阵在感知编码阶段通常是未知的。
技术实现要素:
本发明提供对多信道高阶高保真度立体声响复制音频信号进行编码和/或解码以便获得降噪的改善。具体地,本发明提供对3d音频比率压缩抑制编码噪声解蔽(de-masking)的方式。
本发明描述使(不期望的)噪声去掩蔽效应最小化的自适应离散球面谐波变换(adsht)的技术。此外,描述如何可以将adsht集成在压缩编码器架构中。所描述的技术至少对于hoa信号是特别有利的。本发明的一个优点是减少要传输的边信息(sideinformation)的量。原则上,仅需要传输旋转轴和旋转角。可以通过所传输的信道的数量,间接地用信号通知dsht采样网格。与需要传输多于一半的相关矩阵的其它方法(例如karhunenloève变换(klt))相比,该边信息的量非常小。
根据本发明的一个实施例,用于对多信道hoa音频信号进行编码以便降噪的方法包括以下步骤:使用逆自适应dsht对信道进行解相关,所述逆自适应dsht包括旋转运算和逆dsht(idsht),所述旋转运算旋转idsht的空间采样网格;对每个经解相关的信道进行感知编码;对旋转信息进行编码,所述旋转信息包括定义所述旋转运算的参数;以及,传输或存储经感知编码的音频信道和经编码的旋转信息。使用逆自适应dsht对信道进行解相关的步骤在原则上是空间编码步骤。
根据本发明的一个实施例,用于对具有降低的噪声的经编码的多信道hoa音频信号进行解码的方法包括以下步骤:接收经编码的多信道hoa音频信号和信道旋转信息;对所接收的数据进行解压缩,其中使用感知解码;使用自适应dsht(adsht)对每个信道进行空间解码,使经感知解码和空间解码的信道相关,其中执行根据所述旋转信息的adsht的空间采样网格的旋转;以及,对相关的经感知解码和空间解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现的音频信号。
在权利要求11中公开一种用于对多信道hoa音频信号进行编码的设备。在权利要求12中公开一种用于对多信道hoa音频信号进行解码的设备。
一方面,计算机可读介质具有可执行的指令,以使计算机执行包括以上公开的步骤的用于进行编码的方法,或者执行包括以上公开的步骤的用于进行解码的方法。在从属权利要求、下面的描述以及附图中公开本发明的有利的实施例。
附图说明
参考附图描述本发明的示例性实施例,附图中:
图1示出用于对m个系数的块进行比率压缩的已知的编码器和解码器;
图2示出使用传统的dsht(离散球面谐波变换)和传统的逆dsht将hoa信号变换到空间域中的已知的编码器和解码器;
图3示出使用自适应dsht和自适应逆dsht将hoa信号变换到空间域中的编码器和解码器;
图4示出测试信号;
图5示出在编码器和解码器构建块中使用的码本的球面采样位置的示例;
图6示出信号自适应dsht构建块(pe和pd);
图7示出本发明的第一实施例;
图8示出编码处理和解码处理的流程图;以及
图9示出本发明的第二实施例。
具体实施方式
图2示出使用逆dsht将hoa信号变换到空间域中的已知的系统。对信号进行使用idsht21的变换、比率压缩e1/解压缩d1,并且使用dsht24重新变换到系数域s24。与此不同,图3示出根据本发明的一个实施例的系统:已知的解决方案的dsht处理块被替换为分别控制逆自适应dsht和自适应dsht的处理块31、34。在比特流bs内传输边信息si。该系统包括用于对多信道hoa音频信号进行编码的设备的元件以及用于对多信道hoa音频信号进行解码的设备的元件。
在一个实施例中,用于对多信道hoa音频信号进行编码以便降噪的设备enc包括使用逆自适应dsht(iadsht)对信道b进行解相关的解相关器31,所述逆自适应dsht包括旋转运算单元311和逆dsht(idsht)310。旋转运算单元旋转idsht的空间采样网格。解相关器31提供经解相关的信道wsd和包括旋转信息的边信息si。此外,该设备包括用于对每个经解相关的信道wsd进行感知编码的感知编码器32以及用于对旋转信息进行编码的边信息编码器321。旋转信息包括定义所述旋转运算的参数。感知编码器32提供经感知编码的音频信道和经编码的旋转信息,从而降低数据率。最后,用于进行编码的设备包括用于从经感知编码的音频信道和经编码的边信息创建比特流bs以及用于传输或存储比特流bs的接口装置320。
用于对具有降低的噪声的多信道hoa音频信号进行解码的设备dec包括:用于接收经编码的多信道hoa音频信号和信道旋转信息的接口装置330;以及用于对所接收的数据进行解压缩的解压缩模块33,其包括用于对每个信道进行感知解码的感知解码器。解压缩模块33提供所恢复的经感知解码的信道w’sd和所恢复的边信息si’。此外,用于进行解码的设备包括:使用自适应dsht(adsht)使经感知解码的信道w’sd相关的相关器34,其中执行dsht和根据所述旋转信息的dsht的空间采样网格的旋转;以及用于对相关的经感知解码的信道进行矩阵化的混合器mx,其中获得映射到扬声器位置的可再现的音频信号。在相关器34内的dsht单元340中,至少可以执行adsht。在一个实施例中,在网格旋转单元341中完成空间采样网格的旋转,这在原则上重新计算原始的dsht采样点。在另一实施例中,在dsht单元340内执行旋转。
下面给出定义和描述去掩蔽的数学模型。假设给定的离散时间多信道信号包括i个信道xi(m),i=1,...,i,其中m表示时间样本索引(timesampleindex)。个体信号可以是实数值或复数值。考虑以时间样本索引mstart+1开始的m个样本的帧,其中假设个体信号是固定的。根据下式在矩阵
x:=[x(mstart+1),...,x(mstart+m)](1)
其中
x(l):=[x1(m),...,xl(m)]t(2)
其中(·)t表示转置。对应的经验相关矩阵由下式给出:
∑x:=xxh(3)
其中(·)h表示联合复共轭和转置。
现在假设多信道信号帧已被编码,从而在重构时引入编码误差噪声。因此,用
其中
e:=[e(mstart+1),...,e(mstart+l)](5)
并且
e(m):=[e1(m),...,el(m)]t(6)
因为假设每个信道已经被独立地编码,所以对于i=1,...,i,可以假设编码噪声信号ei(m)彼此独立。利用该特性以及噪声信号是零均值的假设,噪声信号的经验相关矩阵由如下对角矩阵给出:
这里,
另外的基本假设是,执行编码使得对于每个信道满足预定义的信噪比(snr)。在不失一般性的情况下,假设预定义的snr是对于每个信道相等的,亦即:
其中
从现在开始,考虑将经重构的信号矩阵化为j个新信号yj(m),j=1,...,j。在不引入任何编码误差的情况下,经矩阵化的信号的样本矩阵可以表示为:
y=ax(11)
其中
y:=[y(mstart+1),...,y(mstart+m)](12)
其中
y(m):=[y1(m),...,yj(m)]t(13)
然而,由于编码噪声,经矩阵化的信号的样本矩阵被给出为:
其中,n是包含经矩阵化的噪声信号的样本的矩阵。其可以表示为:
n=ae(15)
n=[n(mstart+1)...n(mstart+m)(16)
其中
n(m):=[n1(m)...nj(m)]t(17)
是在时间样本索引m时的所有的经矩阵化的噪声信号的矢量。
使用等式(11),经矩阵化的无噪声信号的经验相关矩阵可以用公式表示为:
∑y=a∑xah(18)
因此,作为∑y的对角线上的第j个元素的第j个经矩阵化的无噪声信号的经验幂(empiricalpower)可以写为:
其中aj是根据下式的ah的第j列:
ah=[a1,...,aj](20)
类似地,利用等式(15),经矩阵化的噪声信号的经验相关矩阵可以写为:
∑n=a∑eah(21)
作为∑n的对角线上的第j个元素的第j个经矩阵化的噪声信号的经验幂由下式给出:
因此,对于通过下式定义的经矩阵化的信号的经验snr,
可以使用等式(19)和(22)重新用公式表示为:
通过将∑x如下地分解成其对角线分量和非对角线分量:
以及
并且通过利用从假设(7)和(9)以及在所有信道上的snr常量得到的如下特性:
最终获得关于经矩阵化的信号的经验snr的所期望的表达式:
从该表达式可以看出,从预定义的snr(snrx),通过乘以取决于信号相关矩阵∑x的对角线分量和非对角线分量的项来获得该snr。具体地,如果信号xi(m)彼此不相关,使得∑x,ng变成零矩阵,则经矩阵化的信号的经验snr等于预定义的snr,亦即:
snryj=snrx对于所有的j=1,...,j,如果∑x,ng=oi×i(30)
其中oi×i表示具有i个行和i个列的零矩阵。也就是说,如果信号xi(m)是相关的,则经矩阵化的信号的经验snr可能偏离预定义的snr。在最差的情况下,snryj可能比snrx低得多。这种现象在此被称为矩阵化时的噪声去掩蔽。
下面的部分给出对高阶高保真度立体声响复制(hoa)的简要介绍,并定义要处理的信号(数据率压缩)。
高阶高保真度立体声响复制(hoa)基于对在被假设为无声源的所关注的紧密区域内的声场的描述。在该情况下,在时间t时和在所关注的区域内的(以球面坐标的)位置x=[r,θ,φ]t处的声压p(t,x)的时空行为在物理上完全由齐次波动等式来确定。可以示出,相对于时间的声压的傅立叶变换,亦即,
其中ω表示角频率(并且
可以根据[10]展开为球面谐波级数(shs):
在等式(32)中,cs表示声音的速度,并且
应当注意到,shs一般是复数值的函数。然而,通过它们的适当的线性组合,能够获得实数值的函数,并且关于这些函数,能够进行展开。
与等式(32)中的压力声场描述相关地,源场(sourcefield)可以被定义为:
其中,源场或幅值密度(amplitudedensity)[9]d(kcs,ω)取决于角波数和角方向ω=[θ,φ]t。源场可以包括远场/近场、离散/连续的源[1]。根据下式[1],源场系数
__________________________________________
1对于进入的波(与e-ikr有关)使用正频率以及第二类球面汉克尔函数
其中
可以在频域或时域中将hoa域中的信号表示为源场或声场系数的逆傅立叶变换。下面的描述将假设使用有限数量的源场系数的时域表示:
所述有限数量:(33)中的无穷级数在n=n处被截断。截断对应于空间带宽限制。系数(或hoa信道)的数量由下式给出:
o3d=(n+1)2对于3d(36)
或者对于仅仅2d的描述,由o2d=2n+1给出。系数
并且通过矩阵b表示m个时间样本的块:
b:=[b(mstart+1),b(mstart+2),..,b(mstart+m)](38)
可以通过圆形谐波的展开来得到声场的二维表示。这可以被看作是使用固定的倾斜
下面描述从hoa系数域到基于信道的空间域的变换,反之亦然。可以对单位球面上的l个离散的空间样本位置ωl=[θl,φl]t使用时域hoa系数重写等式(33):
假设lsd=(n+1)2个球面样本位置ωl,这可以针对hoa数据块b以矢量标记来重写:
w=ψib(36)
其中,w:=[w(mstart+1),w(mstart+2),..,w(mstart+m)],并且
ψfψi=i,(37)
其中,i是o3d×o3d的单位矩阵。然后,到等式(36)的对应变换可以定义为:
b=ψfw(38)
等式(38)将lsd个球面信号变换到系数域,并可重写为正向变换(forwardtransform):
b=dsht{w},(39)
其中,dsht{}表示离散球面谐波变换。对应的逆变换将o3d系数信号变换到空间域以形成lsd个基于信道的信号,并且等式(36)变成:
w=idsht{b}(40)
这里,离散球面谐波变换的该定义对于关于hoa数据的数据率压缩的考虑是足够的,因为开始于给出的系数b并且仅关注b=dsht{idsht{b}}的情况。在[2]中给出了离散球面谐波变换的更严格的定义。可以在[3]、[4]、[6]、[5]中回顾dsht的适当的球面样本位置以及得到这样的位置的过程。在图5中示出采样网格的示例。
具体地,图5示出在编码器和解码器构建块pe、pd中使用的码本的球面采样位置的示例,即,在图5a)中对于lsd=4,在图5b)中对于lsd=9,在图5c)中对于lsd=16,并且在图5d)中对于lsd=25。
下面描述高阶高保真度立体声响复制系数数据的比率压缩和噪声去掩蔽。首先,定义测试信号以强调下面使用的一些特性。
位于方向
bg=ygt(45)
其中,矩阵bg类似于等式(38),并且编码矢量
考虑hoa信道的直接压缩,下面示出为何在hoa系数信道被压缩时出现噪声去掩蔽。实际的hoa数据块b的o3d系数信道的直接压缩和解压缩将引入类似于等式(4)的编码噪声e:
假设如等式(9)中的常量
其中,解码矩阵
其中,
∑b=bbh(49)的非对角线元素。
解码矩阵a不应当受到影响(因为其应当能够针对任意的扬声器布局进行解码),因此矩阵∑b需要变成对角线以获得
下面描述为何在使用dsht之后在空间域中压缩hoa系数时出现噪声去掩蔽。
在压缩之前使用等式(36)中给出的球面谐波变换将hoa系数数据的当前块b变换到空间域中:
wsd=ψib(50)
其中,逆变换矩阵ψi与lsd≥o3d个空间样本位置有关,并且空间信号矩阵
其中,编码噪声分量e根据等式(5)。再次假设对于所有空间信道均恒定的snr,即snrsd。使用变换矩阵ψf将该信号变换到系数域等式(42),其具有特性(41):ψfψi=i。系数的新的块
通过应用解码矩阵
这里,a变成具有
其中,
的非对角线元素。
因为决不会影响ad(由于其应当可以针对任意的扬声器布局来呈现),并且因此决不会对a有任何影响,所以
其中,c=gtg恒定。使用固定的球面谐波变换(ψi、ψf固定),
本发明的基本思想是通过使用自适应dsht(adsht)来最小化噪声去掩蔽,自适应dsht由与hoa输入信号的空间特性有关的dsht的空间采样网格的旋转以及dsht本身构成。
下面描述具有与hoa系数的数量o3d相匹配的许多球面位置lsd的信号自适应dsht(adsht),(36)。首先,选择如传统的非自适应dsht中的默认球面样本网格。对于m个时间样本的块,旋转球面样本网格使得最小化项
的对数,其中,
直观化地,如图4所示,该处理对应于以单个空间样本位置匹配最强的源方向的方式的dsht的球面采样网格的旋转。使用来自等式(45)(b=bg)的简单测试信号,可以示出等式(55)的项wsd变成矢量
图4示出被变换到空间域的测试信号bg。在图4a)中,使用默认的采样网格,并且在图4b)中,使用adsht的旋转的网格。通过对应的样本位置周围的voronoi单元的颜色/灰度变化示出空间信道的相关的
下面描述在压缩编码器和解码器内使用的adsht的主要构建块。
在图6中示出编码器和解码器处理构建块pe和pd的细节。两个模块拥有作为dsht的基础的相同的球面采样位置网格的码本。最初,使用系数的数量o3d根据通用码本选择具有lsd=o3d个位置的模块pe中的基础网格。必须将lsd传输给块pd进行初始化以选择与图3中所指示的相同的基础采样位置网格。通过矩阵
对旋转发现块(构建块“发现最佳旋转”)320的输入是系数矩阵b。该构建块负责旋转基础采样网格,使得等式(57)的值最小化。该旋转用“轴-角”表示来表示,并且将与该旋转有关的压缩的轴ψrot和旋转角
构建块“构建ψi”330将旋转轴和角解码为
在构建块“idsht”310中,通过wsd=ψib将hoa系数数据的实际块b变换到空间域中。
解码处理块pd的构建块“构建ψf”350接收旋转轴和角并将其解码为
在解码器处理块34内的构模块“dsht”340中,将空间域数据的实际块
下面描述包括压缩编解码器的总体架构的各种有利的实施例。第一实施例使用单个adsht。第二实施例使用谱带中的多个adsht。
在图7中示出第一(“基本”)实施例。具有o3d个系数信道b(m)的索引m的hoa时间样本首先被存储在缓冲器71中以形成m个样本的块和时间索引μ。在上述的构建块pe72中使用自适应idsht,将b(μ)变换到空间域。将空间信号块wsd(μ)输入到lsd个音频压缩单声道(mono)编码器73(如aac或mp3编码器)或单个aac多信道编码器(lsd个信道)。比特流s73包括具有集成的边信息si的多个编码器比特流帧的复用的帧或集成了边信息si(优选地作为辅助数据)的单个多信道比特流。
在一个实施例中,相应的压缩解码器构建块包括用于将比特流s73分用为lsd个比特流和边信息si并且将该比特流馈送给lsd个单声道解码器的分用器d1,将它们解码为具有m个样本的lsd个空间音频信道以形成块
在解码器处理块pd75中,使用自适应dsht和si将
在某些条件下,上述的第一实施例可能具有两个缺点:首先,由于空间信号分布的改变,可能存在来自先前块(即,来自块μ至μ+1)的组块伪像(blockingartifact);其次,可能同时存在多于一个的强信号,并且adsht的解相关效应可能相当小。
在工作于频域中的第二实施例中解决两个缺点。adsht应用于组合多个频带数据的标度因子带数据。通过利用重叠添加(overlayadd,ola)处理重叠时频变换(tft)的块来避免组块伪像。可以通过使用本发明在j个谱带内以传输sij的数据率中的增大的开销的成本来实现改善的信号解相关。
下面描述图9所示的第二实施例的一些更多的细节:对信号b(m)的每个系数信道进行时频变换(tft)912。广泛使用的tft的示例是修正余弦变换(mdct)。在tft成帧单元911中,构造50%的重叠数据块(块索引μ)。tft块变换单元912执行块变换。在谱带化单元913中,组合tft频带以形成j个新的谱带和有关的信号
解码器接收或存储比特流(至少其若干部分),将其解包921,并且将用于音频数据馈送给不利用tft进行信道无关的音频解码的多信道音频解码器922,并且将边信息sij馈送给多个解码处理块pdj923。用于不利用tft进行信道无关的音频解码的音频解码器922对音频信息进行解码,并且格式化j个谱带信号
本发明基于如下发现:由信道之间的互相关性产生snr增加。感知编码器仅考虑出现在每个个体单信道信号内的编码噪声掩蔽效应。然而,这种效应典型地是非线性的。因此,在将这样的单信道矩阵化为新的信号时,可能发生噪声去掩蔽。这是通常在矩阵化运算之后编码噪声增大的原因。
本发明提出通过使不需要的噪声去掩蔽效应最小化的自适应离散球面谐波变换(adsht)对信道进行解相关。adsht被集成在压缩编码器和解码器架构内。因为其包括针对hoa输入信号的空间特性来调节dsht的空间采样网格的旋转运算,所以其是自适应的。adsht包括自适应旋转和实际的传统dsht。实际的dsht是可以如现有技术中描述的那样地构造的矩阵。对该矩阵应用自适应旋转,从而导致信道间相关性的最小化,并且因此导致矩阵化之后的snr增加的最小化。通过自动搜索运算(而不是分析地)发现旋转轴和角。对旋转轴和角进行编码和传输,以使得能够在解码之后和在矩阵化之前进行重新相关,其中使用逆自适应dsht(iadsht)。
在一个实施例中,执行时频变换(tft)和谱带化,并且将adsht/iadsht独立地应用于每个谱带。
图8a)示出本发明的一个实施例中的用于对多信道hoa音频信号进行编码以便降噪的方法的流程图。图8b)示出本发明的一个实施例中的用于对多信道hoa音频信号进行解码以便降噪的方法的流程图。
在图8a)所示的实施例中,用于对多信道hoa音频信号进行编码以便降噪的方法包括以下步骤:使用逆自适应dsht对信道进行解相关81,所述逆自适应dsht包括旋转运算和逆dsht812,所述旋转运算旋转811idsht的空间采样网格;对每个经解相关的信道进行感知编码82;对(作为边信息si的)旋转信息进行编码83,所述旋转信息包括定义所述旋转运算的参数;以及,传输或存储84经感知编码的音频信道和经编码的旋转信息。
在一个实施例中,逆自适应dsht包括以下步骤:选择初始的默认球面样本网格;确定最强的源方向;以及,对m个时间样本的块,旋转球面样本网格,使得单个空间样本位置匹配最强的源方向。
在一个实施例中,旋转球面样本网格,使得以下项的对数最小化:
其中,
在图8b)所示的实施例中,一种用于对具有降低的噪声的经编码的多信道hoa音频信号进行解码的方法包括以下步骤:接收85经编码的多信道hoa音频信号和信道旋转信息(在边信息si内);对接收的数据进行解压缩86,其中使用感知解码;使用自适应dsht对每个信道进行空间解码87,其中执行dsht872和根据所述旋转信息的dsht的空间采样网格的旋转871,并且其中对经感知解码的信道进行重新相关;以及,对重新相关的经感知解码的信道进行矩阵化88,其中获得映射到扬声器位置的可再现的音频信号。
在一个实施例中,自适应dsht包括以下步骤:选择自适应dsht的初始的默认球面样本网格;以及,对m个时间样本的块,根据所述旋转信息来旋转球面样本网格。
在一个实施例中,旋转信息是具有三个分量的空间矢量
在一个实施例中,旋转信息是由3个角构成的矢量:θaxis、φaxis、
在一个实施例中,通过用信号通知(亦即,指示)重用先前的值以便创建边信息(si)的逃逸模式(亦即,专用比特模式),对角进行量化和熵编码。
在一个实施例中,一种用于对多信道hoa音频信号进行编码以便降噪的设备包括:解相关器,用于使用逆自适应dsht对信道进行解相关,所述逆自适应dsht包括旋转运算和逆dsht(idsht),其中旋转运算旋转idsht的空间采样网格;感知编码器,用于对每个经解相关的信道进行感知编码;边信息编码器,用于对旋转信息进行编码,所述旋转信息包括定义所述旋转运算的参数;以及接口,用于传输或存储经感知编码的音频信道和经编码的旋转信息。
在一个实施例中,一种用于对具有降低的噪声的多信道hoa音频信号进行解码的设备包括:接口装置330,用于接收经编码的多信道hoa音频信号和信道旋转信息;解压缩模块33,用于通过使用用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩;相关器34,用于对经感知解码的信道进行重新相关,其中执行dsht和根据所述旋转信息的dsht的空间采样网格的旋转;以及混合器,用于对相关的经感知解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现的音频信号。原则上,相关器34用作空间解码器。
在一个实施例中,一种用于对具有降低的噪声的多信道hoa音频信号进行解码的设备包括:接口装置330,用于接收经编码的多信道hoa音频信号和信道旋转信息;解压缩模块33,用于通过用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩;相关器34,用于使用adsht对经感知解码的信道进行相关,其中执行dsht和根据所述旋转信息的dsht的空间采样网格的旋转;以及混合器mx,用于对相关的经感知解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现音频信号。
在一个实施例中,用于进行解码的设备中的自适应dsht包括用于选择自适应dsht的初始的默认样本网格的装置、用于对m个时间样本的块根据所述旋转信息旋转默认球面样本网格的旋转处理装置、以及用于对旋转的球面样本网格执行dsht的变换处理装置。
在一个实施例中,用于进行解码的设备中的相关器34包括用于使用自适应dsht同时对每个信道进行空间解码的多个空间解码单元922,还包括用于执行去谱带化的去谱带化单元924、以及用于通过重叠添加处理执行逆时频变换的itft和ola单元925,其中所述去谱带化单元将其输出提供给itft和ola单元。
在所有实施例中,术语降低的噪声至少涉及避免编码噪声去掩蔽。
对音频信号的感知编码表示适合于对音频的人类感知的编码。应当注意,在对音频信号进行感知编码时,通常不对宽带音频信号样本而是在与人类感知有关的个体频带中执行量化。因此,信号功率与量化噪声之间的比率可以在个体频带之间变化。因此,感知编码通常包括减少冗余和/或无关信息,而空间编码通常涉及信道之间的空间关系。
上述的技术可以被看作是对使用karhunen-loève变换(klt)的解相关的替代。本发明的一个优点是极大地减少了边信息量,边信息仅包括三个角。klt需要块相关矩阵的系数作为边信息,因此需要多得多的数据。此外,在此公开的技术允许对旋转进行调整(或微调),以便减少进行到下一个处理块时的过渡伪像(transitionartifact)。这有利于后续的感知编码的压缩质量。
表1提供adsht与klt之间的直接比较。尽管存在一些相似性,但是adsht提供了超过klt的显著优点。
表1adsht对klt的比较
虽然已经示出、描述和指出对本发明的优选的实施例应用的基础的新颖的特征,但是应当理解,本领域的技术人员可以在所描述的设备和方法中,在所公开的装置的形式和细节以及在其操作方面,进行各种省略和替代和变化,而不脱离本发明的精神。显然旨在以基本相同的方式执行基本相同的功能以获得相同的结果的那些元件的所有组合都在本发明的范围内。还充分地预期和设想到从一个所描述的实施例到另一个所描述的实施例的元件的替换。
应当理解的是,仅仅通过示例对本发明进行了描述,可以对细节进行修改,而不脱离本发明的范围。
在本说明书和(适当之处)权利要求书和附图中公开的每个特征可以独立地或以任何适当的组合来提供。
特征可以在适当的情况下被实现为硬件、软件或这二者的组合。连接可以在可应用的情况下被实现为无线连接或者有线的(不必是直接或专用的)连接。
在权利要求中出现的标号仅作为示例,而不应当具有对权利要求的范围的限定效果。
引用的参考文献
[1]t.d.abhayapala。generalizedframeworkforsphericalmicrophonearrays:spatialandfrequencydecomposition。ieeeinternationalconferenceonacoustics,speech,andsignalprocessing(icassp)会议,(接受的)第x卷,页,2008年4月,拉斯维加斯,美国。
[2]jamesr.driscoll和dennism.healyjr.。computingfouriertransformsandconvolutionsonthe2-sphere。advancesinappliedmathematics,15:202-250,1994年。
[3]
[4]
[5]r.h.hardin和n.j.a.sloane。网页:sphericaldesigns,sphericalt-designs。http://www2.research.att.com/-njas/sphdesigns
[6]r.h.hardin和n.j.a.sloane。mclaren'simprovedsnubcubeandothernewsphericaldesignsinthreedimensions。discreteandcomputationalgeometry,15:429-441,1996年。
[7]erikhellerud、lanburnett、audunsolvang和u.petersvensson.encodinghigherorderambisonicswithaac。第124届aes会议,阿姆斯特丹,2008年5月。
[8]peterjax、jan-markbatke、johannesboehm和svenkordon。perceptualcodingofhoasignalsinspatialdomain。欧洲专利申请ep2469741a1(pd100051)。
[9]boazrafaely。plane-wavedecompositionofthesoundfieldonaspherebysphericalconvolution。j.acoust.soc.am.,4(116):2149-2157,2004年10月。
[10]earlg.williams。fourieracoustics,appliedmathematicalsciences第93卷。academicpress,1999年。