音频编/解码方法及相关音频编/解码器和计算机程序的制作方法

文档序号:2831780阅读:229来源:国知局
专利名称:音频编/解码方法及相关音频编/解码器和计算机程序的制作方法
专利说明音频编/解码方法及相关音频编/解码器和计算机程序 本发明涉及音频信号编码装置,其尤其希望在数字化和压缩音频信号存储或传输应用中适用。
更具体地,本发明涉及分级音频编码系统,其具有提供变化速率的能力,这是通过分割与音频信号有关的信息以编码成经分级子集,借此所述子集可按相对于音频信号的恢复质量的重要性的次序来使用而实现。确定所述次序所要考虑的准则为经编码音频信号的质量的最佳化准则(或最少降级准则更合适)。分级编码尤其适于异构网络或具有可随时间而变的可用速率的网络上的传输,或也适于向具有不同或可变特性的终端进行传输。
更具体地,本发明涉及3D声音场景的分级编码。3D声音场景包括对应于单声道音频信号的多个音频通道,该场景也被称作经空间化声音。
经编码声音场景希望再现于声音呈现系统上,所述声音呈现系统可包括普通的耳机、计算机的两个扬声器,或也包括具有五个扬声器的家庭影院5.1型的系统(一个扬声器在屏幕附近;且在理论上的收听者前面一个扬声器在左且一个扬声器在右;在理论上的收听者后面一个扬声器在左且一个扬声器在右)或其类似物。
举例来说,考虑包含位于空间中的各个地方处的三个不同声音源的原始声音场景。由编码器对描述此声音场景的信号进行编码。将从此编码导出的数据传输给解码器,且接着对所述数据进行解码。处理经解码数据以便产生希望用于所述声音再现系统的五个扬声器的五个信号。五个扬声器中的每一者广播所述信号中的一者,由扬声器广播的所述信号集合合成3D声音场景且因此在空间中定位三个虚拟声音源。
空间分辨率或空间准确度度量了声音源在空间中的位置的精细程度。增加的空间分辨率使声音对象在房间中的更精细定位成为可能,且使收听者头部周围更宽阔的恢复区域成为可能。
存在用于对声音场景进行编码的各种技术。
举例来说,所使用的一种技术包括确定描述声音场景的元素,和接着进行用于压缩单声道信号中的每一者的操作。接着将从这些压缩导出的数据和描述元素供应给解码器。
可因此通过在压缩操作期间调适速率来完成根据此第一种技术的速率适应性(也称作可缩放性),但它是根据用于最佳化个别地考虑的每一信号的质量的准则来进行的。在编码操作期间,并没有考虑由各种信号的恢复产生的3D场景的空间准确度。
另一种编码技术包括从各种通道上的所有单声道音频信号提取并编码空间参数,所述编码技术用于“MPEG音频环绕”编码器(参见“Text of ISO/IEC FDIS 23003-1,MPEGSurround”,ISO/IEC JTC1/SC29/WG11 N8324,July 2006,Klagenfurt,Austria,即“ISO/IEC FDIS 23003-1的文本,MPEG环绕”,ISO/IEC JTC1/SC29/WG11 N8324,2006年7月,克拉根福,奥地利)中。接着将这些信号混合以获得单声道或立体声信号,所述信号接着由常规单声道或立体声编码器(例如,MPEG-4AAC、HE-AAC型,等等)压缩。在解码器层级处,由空间参数和经解码单声道或立体声信号来进行3D声音场景的合成。
使用此另一技术,可因此通过使用分级单声道或立体声编码器来实现速率适应性,但它是根据用于最佳化单声道或立体声信号的质量的准则来进行的,且也没有考虑空间分辨率的质量。
另外,PSMAC(Progressive Syntax-Rich Multichannel Audio Codec,渐进富语法多通道音频编解码器)方法使得能够通过使用KLT变换(Karhunen Loeve Transform,卡洛变换)对来自各种通道的信号进行编码,KLT变换主要可用于信号的解相关,且对应于表示信号统计数据的空间中的主要分量分解。其使得有可能区别能量较多的分量与能量较少的分量。
速率适应性是基于能量较少的分量的消除,且根本不考虑空间准确度。
因此,尽管已知技术在速率适应性方面得到良好结果,但已知3D声音场景编码技术均没有使得在用于在3D声音场景的恢复期间最佳化空间分辨率的准则的基础上的速率适应性成为可能。此适应性将使得有可能保证速率的每一次减少都会尽可能少地损害空间中的声音源的定位准确度。
此外,对于任何用于恢复3D声音场景的声音呈现系统,已知3D声音场景编码技术均没有使得能直接保证最佳质量的速率适应性成为可能。目前的编码算法经定义以最佳化相对于声音再现系统的特定配置的质量。事实上,在上述“MPEG音频环绕”编码器的情况下,举例来说,用一耳机或两个扬声器直接收听、或单声道收听是可能的。如果希望用5.1或7.1型的声音再现系统来处理经压缩位流,那么必须在解码器层级处实施额外处理,例如借助于OTT(One-To-Two,一到二)盒,以便由两个经解码信号产生五个或七个信号。这些盒使得能够在5.1或7.1型的声音再现系统的情况下获得所需要数目的信号,但不可能再现真实空间方面。此外,这些盒不保证对除了5.1或7.1型的声音再现系统外的声音再现系统的适应性。
本发明旨在改善所述状况。为此,根据第一方面,本发明旨在提出一种用于对与待编码的三维声分量的相应频谱带有关的频谱参数进行排序的方法,所述待编码的三维声分量发源自包含N个信号的音频场景,其中N>1,所述方法的特征在于其包含以下步骤 a.计算从待排序的频谱参数集合获取的至少一些频谱参数对角度向量的相应影响,所述角度向量是根据与葛容准则相关联的能量向量和速度向量定义的,且是根据与所述经量化三维声分量有关的反向三维声变换计算的; b.与其它所计算出的影响相比,根据针对至少一个频谱参数计算出的所述影响将优先级次序分配给所述的至少一个频谱参数。
根据本发明的方法因此使得有可能在待排序的集合对空间准确度的贡献的相对重要性的基础上对所述集合的三维声分量的频谱参数中的至少一些进行排序。
考虑信号与其对空间准确度的影响之间的相互作用以便将其共同地压缩。
可因此对位流进行排序,使得速率的每一次减少都使3D声音场景的所感知空间准确度尽可能少地降级,因为检测到从其贡献的立场而言为最不重要的元素以便放置于二进制序列的末尾处(使得有可能最小化由后续截短产生的缺陷)。
根据本发明的方法,如下文所指示,使用与葛容准则的速度

向量和能量

向量相关联的角度ξv和ξE,以便识别在对3D声音场景的空间准确度的贡献方面最不相关的待编码的元素。因此,与普通用途相反,速度

向量和能量

向量不被用于最佳化所述声音再现系统。
在一个实施例中,频谱参数的影响的计算是根据以下步骤来进行 a.根据第一速率对待编码的三维声分量的频谱参数的第一集合进行编码; b.确定每频谱带的第一角度向量; c.确定低于所述第一速率的第二速率; d.删除所述待编码的分量的所述当前频谱参数,和根据第二速率对所述待编码分量的剩余频谱参数进行编码; e.确定每频谱带的第二角度向量; f.基于每频谱带的所述第一速率和所述第二速率的所述第一角度向量与所述第二角度向量之间的确定偏差来计算角度向量变化; g.针对待编码的分量的所述频谱参数集合中的所述频谱参数中的每一者反复进行步骤d到f以进行排序和确定最小角度向量变化;指派给对应于所述最小变化的所述频谱参数的所述优先级次序为最小优先级次序。
这使得有可能以最小数目次计算来确定对空间准确度的贡献最小的待确定分量的频谱参数。
在一个实施例中,通过删除被指派了优先级次序的频谱参数,以待编码分量的频谱参数的集合来重复步骤a到g以进行排序。
在另一实施例中,以待编码分量的频谱参数的集合重复步骤a到g以进行排序,其中在使用嵌套量化器时给被指派了优先级次序的频谱参数分配较低量化速率。
从尚未被指派优先级次序的三维声分量的频谱参数中,此反复过程使得能够连续地识别对空间准确度贡献最小的频谱参数。
在一个实施例中,能量向量的第一坐标是基于公式 能量向量的第二坐标是基于公式 速度向量的第一坐标是基于公式 且速度向量的第二坐标是基于公式 其中Ti,i=1到Q,表示在与根据所述速率的所述量化频谱参数有关的反向三维声变换的基础上确定的信号,且ξi,i=1到Q,为特定角度。
在一个实施例中,角度向量的第一坐标指示基于速度向量的第二坐标的符号和速度向量的第一坐标的反余弦的角度,且根据此,角度向量的第二坐标指示基于能量向量的第二坐标的符号和能量向量的第一坐标的反余弦的角度。
根据第二方面,本发明提出了一种排序模块,其包含用于实施根据本发明的第一方面的方法的构件。
根据第三方面,本发明提出了一种音频编码器,其经设计以对在外出位流中包含N个相应信号的3D音频场景进行编码,其中N>1,所述音频编码器包含 -变换模块,其经设计以在N个信号的基础上确定与三维声分量的相应频谱带有关的频谱参数; -根据本发明的第二方面的排序模块,其经设计以对所述三维声分量的频谱参数中的至少一些进行排序; -二进制序列形成模块,其经设计以基于由所述排序模块进行的排序而形成二进制序列,所述二进制序列包含指示与待编码的三维声分量的相应频谱带有关的频谱参数的数据。
根据第四方面,本发明提出了一种待安装于排序模块中的计算机程序,所述程序包含用于实施根据本发明的第一方面的方法的步骤的指令以用于使所述程序由所述模块中的处理构件执行。
根据第五方面,本发明提出了一种二进制序列,其包含指示与待编码的三维声分量的相应频谱带有关的频谱参数的数据,所述二进制序列的特征在于此数据是依据根据本发明的第一方面的排序方法来排序的。
根据第六方面,本发明提出了一种对根据本发明的第一方面的方法编码的位流进行解码的方法,以便确定数目Q′个音频信号以用于借助于Q′个扬声器恢复3D音频场景,根据所述方法 -接收所述位流; -提取编码数据,其指示在声音场景的N个信号的基础上计算出的三维声分量,且对所述编码数据进行反向空间变换操作,其经设计以确定数目Q′个音频信号以用于借助于所述Q′个扬声器恢复3D音频场景。
根据第七方面,本发明提出了一种音频解码器,其经设计以对依据根据本发明的第一方面的方法编码的位流进行解码,以便确定数目Q′个音频信号以用于借助于Q′个扬声器恢复3D音频场景,所述音频解码器包含用于实施根据本发明的第六方面的方法的步骤的构件。
根据第八方面,本发明提出了一种待安装于解码器中的计算机程序,所述解码器经设计以对根据本发明的第一方面编码的位流进行解码,以便确定数目Q′个音频信号以用于借助于Q′个扬声器恢复3D音频场景,所述程序包含用于在所述程序由所述解码器的处理构件执行期间实施根据本发明的第六方面的方法的步骤的指令。
在阅读完以下描述后,本发明的其它特性和优点将变得更明显。以下描述仅为说明性的且应参看附图来阅读,附图中 -

图1示出了本发明的一个实施例中的编码器; -图2示出了本发明的一个实施例中的解码器; -图3示出了平面波在空间中的传播; -图4为展示本发明的一个实施例中的过程Proc的步骤的流程图; -图5示出了本发明的一个实施例中的待编码的元素的排序和所构造的二进制序列Seq; -图6示出了包含8个扬声器h1、h2、……、h8的声音再现系统的示例性配置。
图1示出了本发明的一个实施例中的音频编码器1。
编码器1包括时间/频率变换模块3、遮蔽曲线计算模块7、空间变换模块4、包含量化模块10的用于定义最不相关的待编码元素的模块5、元素排序模块6、用于形成二进制序列的模块8,以便传输位流φ。
3D声音场景包括N个通道,在每一个通道上传递相应信号S1、……、SN。
图2示出了本发明的一个实施例中的音频解码器100。
解码器100包括二进制序列读取模块104、反向量化模块105、反向三维声变换模块101和频率/时间变换模块102。
解码器100经设计以在输出端处接收由编码器1传输的位流φ和在输出端处传递希望供应给声音再现系统103的Q′个相应扬声器H1、H2、……、HQ′的Q′个信号S′1、S′2、……、S′Q′。
角度βi与每一个扬声器Hi,i=1到Q′相关联,所述角度指示来自扬声器的声传播的角度。
葛容准则(Gerzon’s criteria)通常用以表征通过由给定声音再现系统的扬声器恢复信号来合成的虚拟声音源的定位。
这些准则是基于对由给定声音再现系统所产生的声压的速度和能量向量的研究。
在声音再现系统包括L个扬声器时,这些扬声器所产生的信号,i=1到L,是由声压Ti和声传播角度ξi来定义。
速度向量V接着定义为 存在一对极坐标(rv,ξv),使得 方程式(1) 能量向量

定义为 存在一对极坐标(rE,ξE),使得 方程式(2) 确保虚拟声音源的定位为最佳所需的条件是通过搜索表征所述声音再现系统的扬声器的位置的角度ξi,以及通过验证以下准则,也称作葛容准则来定义的,所述准则为 -准则1,与低频率源S的声像的准确度有关ξv=ξ;其中ξ为将达到的所要实际源S的传播角度; -准则2,与低频率源S的声像的稳定性有关rv=1; -准则3,与高频率源S的声像的准确度有关ξE=ξ; -准则4,与高频率源S的声像的稳定性有关rE=1。
下文在本发明的一个实施例中描述的操作在除了包含搜索表征所述声音再现系统的扬声器的位置的最好角度ξi的应用以外的应用中使用葛容向量。
在编码器层级处进行的操作 编码器1的时间/频率变换模块3在其输入端处接收3D声音场景的待编码的N个信号S1、……、SN。
每一信号Si,i=1到N,是由其声全向压力(the acoustic omnidirectional pressure)Pi的变化及其声波在3D场景的空间中的传播角度θi来表示。
时间/频率变换模块3对这些信号中的每一者的每一时间帧进行时间/频率变换,所述变换在当前情况下为经修改的离散余弦变换(MDCT),所述时间帧指示声压Pi随时间所采取的各种值。
因此,对于信号Si,i=1到N,中的每一者来说,确定其频谱表示Xi,其由M个MDCT系数X(i,j)表征,其中j=0到M-1。MDCT系数X(i,j)因此表示对于频带Fj来说信号Si的频谱。
在空间变换模块4的输入端处提供信号Si(i=1到N)的频谱表示Xi,空间变换模块4在输入端处进一步接收表征传入信号Si的声传播的角度θi。
空间变换模块4经设计以对所提供的传入信号进行空间变换,即,确定由取决于变换的次序而投影到空间参考系上所产生的这些信号的空间分量。空间变换的次序与其“扫描”声场所依据的角频率有关。
在一个实施例中,空间变换模块4通过使声场投影到相关联的球调和函数或圆柱调和函数上来进行三维声变换,其提供3D声音场景的紧凑空间表示。
为获得关于三维声变换的更多信息,可参考以下文件“Représentation de champsacoustiques,application àla transmission et àla reproduction de scenes sonores complexesdans un contexte multimedia”,巴黎第六大学的博士论文,杰罗姆丹尼尔(

Daniel),2001年7月31日;“基于声场的正交分解的高度可缩放式球形麦克风阵列”(“Ahighlyscalable spherical microphone array based on an orthonormal decomposition of the soundfield”),延森迈耶-加里埃尔科(Jens Meyer-Gary Elko),ICASSP 2002会议记录中的第II卷第1781页到第1784页。
参看图3,以下公式提供声音场景的信号Si的无限阶分解以变成圆柱调和函数
其中(Jm)表示贝塞尔函数(the Bessel functions),r表示帧的中心与位于点M处的收听者的位置之间的距离,Pi表示信号Si的声压,θi表示对应于信号Si的声波的传播角度,且

表示收听者的位置与帧的轴之间的角度。
如果三维声变换为阶p的,那么对于2D三维声变换(在水平平面中)来说,在时间域中表达的信号Si的三维声变换因此包括以下2p+1个分量 (Pi、Pi.cosθi、Pi.sinθi、Pi.cos2θi、Pi.sin2θi、Pi.cos3θi、Pi.sin3θi、……、Pi.cospθi、Pi.sinpθi)。
在下文中,已考虑2D三维声变换。然而,可在3D三维声变换的情况下实施本发明(在此种情况下,假定扬声器布置于球面上)。
另外,可在任何阶p的三维声变换的情况下实施本发明,例如,p=2或更大。
在频域中考虑的三维声分量Ak,k=1到Q=2p+1,各自包含分别与频谱带Fj有关的M个频谱参数A(k,j),j=0到M-1,使得 如果A为包含从信号Si(i=1到N)的阶p的三维声变换导出的分量Ak(k=1到Q)的矩阵,Amb(p)为3D场景的阶p的三维声变换矩阵,且X为信号Si(i=1到N)的频率分量的矩阵,那么 Amb(p)=[Amb(p)(i,j)],其中i=1到Q,且j=1到N,其中Amb(p)(1,j)=1, 如果i为偶数,则且如果i为奇数,则也就是, 和 且 A=Amb(p)×X方程式(3) 空间变换模块4经设计以借助于方程式(3),基于在输入端处供应给其的数据X(i,j)和θi(i=1到N,j=0到M-1)来确定矩阵A。
此矩阵A的三维声分量Ak(k=1到Q)的频谱参数A(k,j)(k=1到Q且j=0到M-1)包含将由编码器1以二进制序列编码的元素。
将三维声分量Ak(k=1到Q)传递给模块5以用于定义最不相关元素(the leastrelevant elements)。
用于定义最不相关元素的此模块5经设计以用于在模块5的处理构件上的算法执行后实施操作,以便定义待编码的最不相关元素和对待编码元素相对于彼此进行排序。
稍后在待传输的位序列的形成期间使用待编码元素的此排序。
所述算法包括在模块5的处理构件上执行时经设计以实施在下文参看图4描述的过程Proc的步骤的指令。
葛容准则是基于对由所使用的声音再现系统所产生的声压的速度和能量向量的研究。
在方程式1和2中指示的与葛容准则所相关联的能量和速度向量有关的坐标xV、yV、xE、yE中的每一者为元素[-1,1]。因此,存在单一对(ξV,ξE),其验证对应于理想情况(rV,rE)=(1,1)的以下方程式 和 此单一对的角度ξV和ξE因此由以下方程式(方程式(4))定义 在下文中,葛容角度的广义向量将被称作向量

使得 在确定最不相关元素的模块5的处理构件上执行时,所述算法包括经设计以用于实施在下文参看图4描述的过程Proc的步骤的指令。
过程Proc 过程Proc的原理是对至少一些频谱参数对角度向量的相应影响进行计算,所述角度向量是根据与葛容准则相关联的能量和速度向量定义的,而且是根据所述经量化三维声分量的反向三维声变换计算的。且与其它所计算出的影响相比,基于针对至少一个频谱参数计算出的影响将优先级次序指派给所述频谱参数。
如关于一个实施例详细描述的,所述过程如下 初始化(n=0) -步骤2a 定义速率D0=Dmax,且在待编码的元素A(k,j)((k,j)∈E0={(k,j),使得k=1到Q且j=0到M-1}中分配此速率。
在此初始分配期间指派给待编码元素A(k,j)((k,j)∈E0)的速率指定为dk,j(这些速率的总和dk,j|k=1到Q,j=0到M-1等于D0)且δ0=min dk,j((k,j)∈E0)。
-步骤2b 接着,通过量化模块10基于在步骤2a中分配给待编码元素的所指派的速率dk,j来量化每一待编码元素A(k,j)((k,j)∈E0)。
A为元素A(k,j),k=1到Q且j=0到M-1的矩阵。每一元素A(k,j)是以与频谱带Fj有关的参数A(k,j)的速率dk,j来量化三维声分量A(k)的结果。元素A(k,j)因此定义所述三维声分量的频谱带Fj的频谱表示的量化值。
-步骤2c 接下来,对这些量化三维声分量A(k,j),k=1到Q且j=0到M-1进行阶p的三维声解码,其中2p+1=Q,此对应于N个扬声器的标准系统,以便确定由于此三维声解码而获得的N个声音信号的声压T1i,i=1到N。
在所述情况中,AmbInv(p)为传递对应于N个相应扬声器H′1、……、H′N的N个信号T11、……、T1N的阶p的反向三维声变换矩阵(或阶p的三维声解码),所述扬声器围绕一个点均匀地布置。因此,从矩阵Amb(p,N)的转置推出矩阵AmbInv(p),矩阵Amb(p,N)是由对应于N个扬声器H′1、……、H′N且分别布置于位置ξ1,...,ξN中的N个源所定义的声音场景的编码产生的三维声解码矩阵。因此,其可写成 T1为与频带Fj,j=0到M-1有关的信号T1i,i=1到N的频谱分量T1(i,j)的矩阵。这些频谱分量是从施加于量化三维声分量A(k,j),k=1到Q且j=0到M-1的阶p的反向三维声变换导出。
且得到 方程式(5) 因此,分量T1(i,j),i=1到N,取决于与三维声分量A(k,j),k=1到Q且j=0到M-1,的所述量化有关的量化误差(事实上,每一量化元素A(k,j)为所正量化的三维声分量的频谱参数A(k,j)和与所述参数有关的量化噪声的和)。
对于每一频带Fj,j=0到M-1来说,借助于方程式(4),根据遵照三维声解码确定的频谱分量T1(i,j),i=1到N且j=0到M-1,来计算葛容角度向量

其是在过程Proc的初始化(n=0)后概括的 其中i=1到N 且定义 请注意,此处已考虑标准声音再现装置的三维声解码矩阵,所述标准声音再现装置包含数目等于输入信号数目的扬声器,此简化了三维声解码矩阵的计算。然而,在使用对应于非标准声音再现装置且也针对数目不同于输入信号数目的扬声器的三维声解码矩阵时,可实施此步骤。
第一次反复(n=1) -步骤2d 定义速率D1=D0-δ0,且在待编码的元素A(k,j)((k,j)∈E0)中分配此速率D1。
-步骤2e 接着,通过量化模块10基于在步骤2d中分配给待编码元素的速率来量化每一待编码元素A(k,j),(k,j)∈E0。
A现在为量化元素A(k,j)((k,j)∈E0)的更新矩阵,所述量化元素各自由参数A(k,j)的根据全局速率D1进行的此最后量化产生。
-步骤2f 以与先前在步骤2c中描述的方式类似的方式,在根据以全局速率D1量化的元素进行计算阶p的新三维声解码后,且针对过程Proc的第一次反复,根据遵照所述新三维声解码确定的频谱分量T1(i,j)(i=1到N且j=0到M-1),使用方程式(4)来计算每一频带中的第一广义葛容角度向量
接下来,计算向量

其等于在初始化操作的步骤2c中计算出的葛容角度向量

与在第一次反复的步骤2f处计算出的广义葛容角度向量

之间的差 j=0到M-1 -步骤2g 在每一频带Fj中,计算变化

j=0到M-1的范数
此范数表示每一频带Fj中速率从D0减少到D1之后广义葛容角度向量的变化。
将频带Fj1索引确定为j1,使得频带Fj1中计算出的葛容角度变化的范数

(使得Fj1)小于或等于针对每一频带Fj(j=0到M-1)计算出的每一范数

因此, -步骤2h 现在将考虑与频谱带Fj1有关的三维声分量的频谱参数,就是,参数A(k,j1),其中k∈F0=[1,Q]。
且针对任一i∈F0(从1到Q每隔一个地来考虑)反复进行以下步骤2h1到2h5; 2h1-假定针对操作2h2到2h4删除子频带(i,j1);因此,假定A(i,j1)为零且对应量化元素A(i,ji)也为零; 2h2-以与先前在步骤2c中描述的方式类似的方式,在根据以全局速率D1量化的元素(A(i,ji)为零)进行计算阶p的三维声解码后,根据遵照所述三维声解码确定的频谱分量T1(i,j)(i=1到N且j=0到M-1),使用方程式(5)来确定频带Fj1中的广义葛容角度向量 2h3-接下来,计算向量

其表示频带Fj1中的上文所计算出的广义葛容角度向量与上文在第一次反复的步骤2f中计算出的广义葛容角度向量

之间的差 接下来,计算向量

的范数
此范数表示在针对速率D1删除频率三维声分量A(i,j1)时频带Fj1中的广义葛容角度向量的变化。
2h4-如果i≠max F0,那么假定不再删除子频带(i,j1),且前进到步骤2h5。如果i=max F0,那么假定不再删除子频带(i,j1),且前进到步骤2i。
2h5-在集合F0中,将i递增,且针对因此更新的值i重复步骤2h1到2h4,直到i=max F0。
以此方式,对于每一i∈F0=[1,Q].,为广义葛容角度的变化

获得Q个值。
-步骤2i 对于每一i∈F0=[1,Q],将值

彼此进行比较,从这些值中识别出最小的值,且确定索引i1∈F0,其对应于所述最小值,就是 因此,将分量A(i1,j1)识别为与其它待编码元素A(k,j)((k,j)∈E0)相比对空间准确度最不重要的待编码元素。
-步骤2j 对于每一频谱带Fj来说,重新定义从反复1导出且针对速率D1计算出的广义葛容角度向量
如果j∈
\{j1}; 如果j=j1。
针对等于D1的量化速率确立的此重新定义的广义葛容角度向量考虑了对待编码元素A(i1,j1)的删除,且将用于过程Proc的以下反复。
-步骤2k 作为过程Proc的第一次反复的结果,将(i1,j1)对的识别符传递给排序模块6。
-步骤2m 接着在过程Proc的剩余步骤中从待编码元素集合删除待编码元素A(i1,j1)。
定义集合E1=E0\(i1,j1)。
对于(k,j)∈E1,定义δ1=min dk,j。
在过程Proc的第二次反复的过程中,重复类似于上述步骤2d到2n的步骤。
以与对留待排序的待编码元素A(k,j)((k,j)∈E1)中的一些或所有,相对于彼此,重复过程Proc所需的次数一样多的次数来进行排序。
因此,针对第n次反复,重复上述步骤2d至2n 反复n(n>1) En-1=E0\{(i1j1),...,(in-1jn-1)}。
在前述反复的步骤2m期间删除待编码元素A(k,j)((k,j)∈E0\En-1)。
-步骤2d 定义速率Dn=Dn-1-δn-1,和此速率Dn在待编码元素A(k,j)((k,j)∈En-1)中的分配。
因此,下文中,当计算三维声解码时,假定量化元素A(k,j)((k,j)∈E0\En-1)为零。
-步骤2e 接着,通过量化模块10基于在上述步骤2d中分配的速率来量化每一待编码元素A(k,j)((k,j)∈En-1)。
待编码元素A(k,j)的此量化的结果为A(k,j),(k,j)∈En-1. -步骤2f 以与先前针对反复1所描述的方式类似的方式,在以全局速率Dn量化的元素的基础上(因此,在此三维声解码期间假定分量A(i1,j1),...,A(in-1,jn-1)为零)进行的阶p的三维声解码的计算后,针对过程Proc的反复n,基于遵照所述三维声解码确定的频谱分量T1i(i=1到N)使用方程式(5)来计算每一频带Fj中的第一广义葛容角度向量
接下来,向量

其等于在反复n-1的步骤2j中所计算的葛容角度向量

与在本步骤处所计算的广义葛容向量角度

之间的差j=0到M-1。
-步骤2g 在每一频带Fj中,计算变化

(j=0到M-1)的范数
此范数表示在速率从Dn减少到Dn-1后每一频带Fj中的广义葛容角度向量的变化(删除参数A(i1,j1)、……、A(in-1jn-1)和A(i1,j1),...,A(in-1,jn-1))。
将频带Fjn确定为jn,使得频带Fjn中计算出的葛容角度向量的变化的范数

小于或等于针对每一频带Fj(j=0到M-1)计算出的每一个范数

因此, -步骤2h 现在将考虑与频谱带Fjn有关的三维声分量的频谱参数,也就是参数A(k,jn),其中k∈Fn-1={i∈[1,...,Q],使得(i,jn)∈En-1}。
针对任一i∈Fn-1(从集合Fn-1的最小元素(min Fn-1)到集合Fn-1的最大元素(maxFn-1)每隔一个地来考虑)重复以下步骤2h1到2h5 2h1-假定针对操作2h2到2h4删除子频带(i,jn)因此,假定A(i,jn)为零且相应经量化元素A(i,jn)也为零; 2h2-以与先前在步骤2c中描述的方式类似的方式,在以全局速率Dn量化的元素(A(i,jn)为零)的基础上进行的阶p的三维声解码的计算后,在遵照所述三维声解码确定的频谱分量T1(i,j)(i=1到N且j=0到M-1)的基础上使用方程式(5)来计算频带Fjn中的指定为的广义葛容角度向量。
2h3-接下来,计算向量

其等于频带Fjn中的上文在2h2处所计算出的广义葛容角度向量与上述反复n的步骤2f处计算出的广义葛容角度向量

之间的差 接着,计算向量

的范数
此范数表示归因于在过程Proc的第n次反复期间三维声分量A(i,jn)的删除而造成的在频带Fjn中且针对速率Dn的广义葛容角度向量的变化。
2h4-如果i≠max Fn-1,那么假定不再删除子频带(i,jn),且前进到步骤2h5。如果I=max Fn-1,那么假定不再删除子频带(i,jn),且前进到步骤2i。
2h5-在集合Fn-1中,将i递增,且针对因此更新的值i重复步骤2h1到2h4,直到到达i=max Fn-1。
因此,对于每一i∈Fn-1来说,获得值

其表示归因于分量A(i,jn)的删除而造成的频带Fjn中的广义葛容角度向量的变化。
-步骤2i 将值

(对于每一i∈Fn-1)彼此进行比较,从这些值中识别出最小的值,且确定索引in∈Fn,其对应于所述最小值,也就是 因此,将分量A(in,jn)识别为与其它待编码元素A(k,j)((k,j)∈Fn-1)相比对空间准确度最不重要的待编码元素。
-步骤2j 对于每一频谱带Fj来说,定义从反复n导出的广义葛容角度向量
如果j∈
\{jn}; 如果j=jn。
针对等于Dn的量化速率确立的此重新定义的广义葛容角度考虑了对待编码元素A(in,jn)的删除,且将用于以下反复。
-步骤2k 作为过程Proc的第n次反复的结果,将(in,jn)对的识别符传递给排序模块6。
-步骤2m 接着从将遵照过程Proc编码的元素集合删除频带(in,jn),也就是,删除待编码元素A(in,jn)。
定义集合En=En-1\(in,jn)。待编码元素A(i,j)((i,j)∈En)留待排序。在反复1到n期间已对待编码元素A(i,j)((i,j)∈{(i1,j1),...,(in,jn)})进行排序。
重复过程Proc r次且最多Q*M-1次。
因此,接下来由排序模块6将优先级索引指派给各个待编码元素,以便将编码数据插入到二进制序列中。
待编码元素的排序和二进制序列的形成 在一个实施例中,其中待编码元素的排序是由排序模块6在由用于定义最不相关的待编码元素的模块5实施的过程Proc的连续反复所连续供应的结果的基础上进行的,排序模块6定义所述待编码元素的次序,所述次序传达待编码元素对空间准确度的重要性。
参看图5,将对应于(i1,j1)对的待编码元素A(i1,j1)认为是与空间准确度最不相关的,待编码元素A(i1,j1)是在过程Proc的第一次反复期间确定的。因此,由模块5给其指派最小优先级索引Prio1。
将对应于(i2,j2)对的待编码元素A(i2,j2)认为是在指派有优先级Prio1的待编码元素后与空间准确度最不相关的待编码元素,待编码元素A(i2,j2)是在过程Proc的第二次反复期间确定的。因此,给其指派最小优先级索引Prio2,其中Prio2>Prio1。排序模块6因此对r个待编码元素连续地排序,其各自被指派增加的优先级索引Prio1、Prio2到Prio r。
在过程Proc的反复期间未曾指派优先级次序的待编码元素比已被指派优先级次序的待编码元素对空间准确度更重要。
在r等于Q*M-1次时,逐个地对待编码元素集合排序。
在下文中,假定所进行的过程Proc的反复次数r等于Q*M-1次。
将指派给待编码元素A(k,j)的优先级次序同样地指派给在此待编码元素的量化的结果A(k,j)的基础上编码的元素。对应于待编码元素A(k,j)的经编码元素在下文同样表示为A(k,j)。
二进制序列形成模块8形成对应于信号Si(i=1到N)中的每一者的一个帧的二进制序列Seq,所述二进制序列是通过使所指派的优先级索引的次序降低而将经编码元素A(k,j)连续地整合到其中来形成的,二进制序列Seq是在位流φ中传输。
因此,根据由模块6进行的排序来对所形成的二进制序列Seq排序。
在上文所考虑的实施例中,在过程Proc的每一反复后,发生对来自待编码元素A(i,j)的频谱分量的删除。
在另一实施例中,将嵌套量化器(nested quantifier)用于量化操作。在此种情况下,不删除在过程Proc的反复期间被识别为对空间准确度最不重要的待编码元素A(i,j)的频谱分量,但与留待排序的待编码元素的其它频谱分量的编码相比,将较低速率指派给此分量的编码。
编码器1因此是使速率适应性成为可能的编码器,其考虑各种单声道信号之间的相互作用。其使得有可能定义压缩数据,由此最佳化所感知的空间准确度。
在解码器层级处进行的操作 解码器100包括二进制序列读取模块104、反向量化模块105、反向三维声变换模块101和频率/时间变换模块102。
解码器100经设计以在输入端处接收由编码器1传输的位流φ和在输出端处传递希望供应声音再现系统103的Q′个相应扬声器H1、H2、……、HQ′的Q′个信号S′1、S′2、……、S′Q′。在一个实施例中,扬声器数目Q′可不同于所传输的三维声分量的数目Q。
为进行说明,p=2,也就是,Q=5,且Q′=8。包含8个扬声器h1、h2、……、h8的声音再现系统的配置展示于图6中。
二进制序列读取模块104提取二进制序列φ的指示元素A(k,j)(k=1到Q且j=0到M-1)中的一些的特定量化索引的所接收数据,且在输入端处将所接收数据提供给反向量化模块105。
反向量化模块105进行反向量化操作。
确定元素A′(k,j),(k=1到Q且j=0到M-1)的矩阵A′的元素,使得在所接收到的序列包含指示由解码器100从三维声分量的参数A(k,j)的编码导出的A(k,j)元素的量化索引的数据时A′(k,j)=A(k,j),且在所接收到的序列不包含指示元素A(k,j)的量化索引的任何数据(例如,此数据在所述序列从流服务器传输期间已被切断以便适合于网络中的可用速率和/或终端的特性)时A′(k,j)=0。
反向空间变换模块101经设计以从由反向量化模块105所确定的经解码三维声分量A′(k,j),(k=1到Q且j=0到M-1)确定矩阵X′的元素X′(i,j)(i=1到Q′,j=0到M-1),其定义Q′个信号S′i中的每一者的M个频谱系数X′(i,j)(i=1到Q′,j=0到M-1)。
AmbInv(p′,Q′)为用于3D场景的阶p′=p的反向三维声变换模块,其经设计以从所接收的Q个三维声分量确定希望用于与解码器100相关联的声音再现系统的Q′个扬声器的Q′个信号S′i(i=1到Q′)。角度βi(i=1到Q′)指示来自扬声器Hi的声传播的角度。在图6所示的实例中,这些角度对应于由扬声器发出的声音的传播的轴与轴XX之间的角度。
X′为与频带Fj(j=0到M-1)有关的信号Si′(i=1到Q′)的频谱分量X′(i,j)的矩阵。因此 和 且得到 X′=AmbIn(p′,Q′)×A′方程式(6)。
反向空间变换模块100经设计以使用方程式(6)确定矩阵X′的频谱系数X′(i,j)(i=1到Q′,j=0到M-1)。
一旦确定,在频率/时间变换模块102的输入端处传递这些元素X′(i,j)(i=1到Q′,j=0到M-1)。
解码器100的频率/时间变换模块在所接收的频谱系数X′(i,j)(i=1到Q′,j=0到M-1)的基础上进行从频率表示空间到时间表示空间的变换(在此种情况下,此变换为反向MDCT),且其因此确定Q′个信号S′1、……、S′Q′中的每一者的时间帧。
每一信号S′i(i=1到Q′)将被用于声音再现系统103的扬声器Hi。
在一个实施例中,在解码器的处理构件上执行计算机程序指令后实施由解码器进行的操作中的至少一些。
如所描述,对从信号S1、……、SN的三维声变换导出的分量进行编码的一个优点为在声音场景的信号数目N较大的情况下,有可能由远低于N的数目Q个三维声分量表示N个信号,同时使所述信号的空间质量降级极少。因此可减少待传输的数据量,且此是在声音场景的音频质量无任何显著降级的情况下完成的。
根据本发明的编码的另一优点为此编码使得对各种类型的声音再现系统的适应性成为可能,而不管声音再现系统所装备有的扬声器的数目、布置和类型。
事实上,接收包含三维声分量的二进制序列的解码器对所述二进制序列进行任何阶p′的且对应于信号一旦经解码便希望所用于的声音再现系统的数目Q′个扬声器的反向三维声变换。
此编码,如由编码器1所进行,使得有可能基于待编码元素对空间准确度的相应贡献和待编码元素再现声音场景中含有的方向的方面,借助于过程Proc对待编码元素排序。
因此,为了适合于所强加的速率约束,通过删除布置于位流中的最不相关元素足以截短所述序列。因此,保证将依据可用速率来提供最好的空间质量。事实上,对元素进行排序,使得将对空间质量贡献最少的元素放置于位流的末尾处。
权利要求
1. 一种用于对与待编码三维声分量(A1、……、AQ)的相应频谱带有关的频谱参数(A(k,j),其中(k,j)∈E0)进行排序的方法,所述待编码三维声分量发源自包含N个信号(Sii=1到N)的音频场景,其中N>1,所述方法的特征在于其包含以下步骤
a.计算从待排序的频谱参数集合获取的至少一些频谱参数对角度向量的相应影响,所述角度向量是根据与葛容准则相关联的能量向量和速度向量定义的,且是根据与所述经量化三维声分量有关的反向三维声变换计算的;
b.与其它所计算出的影响相比,根据针对至少一个频谱参数计算出的所述影响将优先级次序(Prio0)分配给所述的至少一个频谱参数。
2.根据权利要求1所述的方法,其特征在于,根据以下步骤来进行频谱参数的所述影响的所述计算
a.根据第一速率(D0)对待编码的三维声分量的频谱参数的第一集合(A(k,j),其中(k,j)∈E0)进行编码;
b.确定每频谱带的第一角度向量
c.确定低于所述第一速率的第二速率(D1);
d.删除所述待编码分量的所述当前频谱参数,和根据第二速率对所述待编码分量的剩余频谱参数进行编码;
e.确定每频谱带的第二角度向量;
f.基于每频谱带的所述第一速率和所述第二速率的所述第一角度向量与所述第二角度向量之间的确定偏差来计算角度向量变化;
g.针对待编码的分量的所述频谱参数集合中的所述频谱参数中的每一者反复进行步骤d到f以进行排序和确定最小角度向量变化;指派给对应于所述最小变化的所述频谱参数的所述优先级次序为最小优先级次序。
3.根据权利要求2所述的方法,其特征在于,通过删除被指派了优先级次序的所述频谱参数,以待编码分量的频谱参数的有限集合来重复步骤a到g以进行排序。
4.根据权利要求2所述的方法,其特征在于,以待编码分量的频谱参数的集合重复步骤a到g以进行排序,其中在使用嵌套量化器时给被指派了优先级次序的所述频谱参数分配较低量化速率。
5.根据前述权利要求中任一项所述的方法,其中所述能量向量的第一坐标是基于公式
所述能量向量的第二坐标是基于公式
所述速度向量的第一坐标是基于公式
且所述速度向量的第二坐标是基于公式
其中所述Ti,i=1到Q,表示在与根据所述速率的所述量化频谱参数有关的反向三维声变换的基础上确定的信号,且所述ξi,i=1到Q,为特定角度。
6.根据前述权利要求中任一项所述的方法,其中
-角度向量
的第一坐标指示基于所述速度向量的所述第二坐标的符号和所述速度向量的所述第一坐标的反余弦的角度;且
-角度向量的第二坐标指示基于所述能量向量的所述第二坐标的符号和所述能量向量的所述第一坐标的反余弦的角度。
7.一种排序模块(6),其包含用于实施根据前述权利要求中任一项所述的方法的构件。
8.一种音频编码器,其经设计以对在外出位流中包含N个相应信号的3D音频场景进行编码,其中N>1,所述音频编码器包含
-变换模块(3、4),其经设计以在所述N个信号的基础上确定与三维声分量的相应频谱带有关的频谱参数;
-根据权利要求9所述的排序模块(6),其经设计以对所述三维声分量的所述频谱参数中的至少一些进行排序;
-二进制序列形成模块(8),其经设计以基于由所述排序模块进行的所述排序而形成二进制序列,所述二进制序列包含指示与待编码的三维声分量的相应频谱带有关的频谱参数的数据。
9.一种待安装于排序模块(6)中的计算机程序,所述程序包含用于在由所述模块(6)的处理构件执行所述程序时实施根据权利要求1到6中任一项所述的方法的步骤的指令。
10.一种二进制序列,其包含指示与待编码的三维声分量的相应频谱带有关的频谱参数的数据,所述二进制序列的特征在于此数据是依据根据权利要求1到6中任一项所述的排序方法来排序的。
全文摘要
本发明涉及一种用于对待编码的三维声分量(A1、……、AQ)的频谱参数进行排序的方法,所述待编码的三维声分量发源自包含N个信号(Sii=1到N)的音频场景,其中N>1,所述方法包含以下步骤计算从待排序的频谱参数集合获取的至少一些频谱参数对角度向量的相应影响,所述角度向量是根据与葛容准则相关联的能量向量和速度向量定义的,且是根据与所述经量化三维声分量有关的反向三维声变换计算的;以及与其它所计算出的影响相比,根据针对至少一个频谱参数计算出的影响将优先级次序分配给所述频谱参数。
文档编号G10L19/008GK101790753SQ200880019772
公开日2010年7月28日 申请日期2008年4月16日 优先权日2007年5月10日
发明者艾迪·莫辛, 阿巴德拉蒂夫·本杰隆·图伊米 申请人:法国电信
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1