用于对声场的高阶高保真立体声HOA信号表示进行低位速率压缩的方法和装置与流程

文档序号:11531126阅读:637来源:国知局
用于对声场的高阶高保真立体声HOA信号表示进行低位速率压缩的方法和装置与流程

本发明涉及一种用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置,其中,hoa信号表示由于该低位速率而是空间稀疏的。



背景技术:

除了像波场合成(wfs)的其他技术或者像22.2的基于声道的方法之外,高阶高保真立体声(hoa)提供表示三维声音的一种可能性。但是,与基于声道的方法相反,hoa表示提供独立于特定扩音器设置的优点。但是该灵活性是以在特定扩音器设置上回放hoa表示所需的解码过程为代价的。与所需扩音器数量通常非常大的wfs方法相比,hoa还可以被渲染到仅包括几个扩音器的设置。hoa的另外的优点是相同的表示还可以在不做任何修改的情况下被用于对耳机的双耳渲染。

hoa是基于复谐平面波幅度的空间密度的通过截断球谐函数(sh)展开的表示的。每个展开系数是角频率的函数,其可以用时域函数等同地表示。因此,不失一般性地,整个hoa声场表示实际上可以被假定为包括o个时域函数,其中,o表示展开系数的数量。在下面,这些时域函数将被等同地称为hoa系数序列或hoa声道。

hoa表示的空间分辨率随着展开的最大阶次n增长而改进。不幸的是,展开系数数量o随着阶次n二次方地增长,具体地说,o=(n+1)2。例如,使用阶次n=4的典型的hoa表示需要o=25个hoa(展开)系数。根据前面的考虑,给定期望的单声道采样速率fs和每采样的位数nb,用于发送hoa表示的总位速率由o·fs·nb确定。结果,通过采用每采样nb=16位、以fs=48khz的采样速率发送阶次n=4的hoa表示,得到19.2mbits/s的位速率,该位速率对于许多实际应用(例如流传输)是非常高的。因而,hoa表示的压缩是非常期望的。

hoa声场表示的压缩在ep2665208a1、ep2743922a1和国际申请pct/ep2013/059363(参看2014年7月的iso/iecdis23008-3,mpeg-h3daudio)中被提出。这些方法的共同之处在于,它们进行声场分析,并且将给定的hoa表示分解为定向分量和残余环境分量。最终的压缩表示一方面被假定为包括若干个量化信号,这些量化信号是从定向信号和基于矢量的信号以及环境hoa分量的相关系数序列的感知编码得出的。另一方面,最终的压缩表示被假定为包括与量化信号相关的附加辅助信息,该辅助信息对于从hoa表示的压缩版本重构hoa表示是必需的。对于ep2665208a1、ep2743922a1和国际申请pct/ep2013/059363中的方法,量化信号的合理的最少数量为“8”个。因此,假定对于每个单独的感知编码器,数据速率为32kbit/s,则这些方法中的一个的数据速率通常不低于256kbit/s。对于某些应用,例如对于移动装置的音频流传输,该总数据速率可能太高,这使得期望以明显降低的数据速率(例如,128kbit/s)的hoa压缩方法。

在欧洲专利申请ep14306077.0中,描述了一种用于对声场的hoa表示进行低位速率压缩的方法,该方法使用较少数量的量化信号,这些量化信号基本上是原始hoa表示的小子集。为了复制丢失的hoa系数,获得用于不同频带的预测参数以便从量化信号预测附加的定向hoa分量。



技术实现要素:

在ep14306077.0处理中,重构的hoa表示由高度相关的分量组成,因为所有的hoa分量都是仅从少量量化信号重构的。由于这样的少量量化信号,其定向hoa分量的预测可能并不令人满意,并且可以导致重构hoa表示在空间上稀疏的效果。这可以使声音干(dry)并且比原始hoa表示中的声音更安静。如果量化信号的数量非常少,例如,“1”个或“2”个,则通常由空间上不相关的信号分量组成的环境声场不能被适当地重构。

本发明要解决的问题是改进声场的hoa表示的低位速率压缩。该问题通过权利要求1和8中所公开的方法来解决。利用这些方法的装置在权利要求2和9中公开。

本发明的有利的另外的实施例在相应的从属权利要求中公开。

下面描述的处理对高阶高保真立体声表示的低位速率压缩进行处理,并且重新创建环境声场分量,并且在量化信号的数量非常少的情况下,它改进了上述ep14306077.0处理。

所描述的处理被称为参数化环境复制(par),并且它用可能丢失的环境分量来补充重构的空间稀疏的hoa表示,所述可能丢失的环境分量是从其本身参数化复制的。复制是通过以下操作来进行的:首先从稀疏hoa表示(其可以包括定向信号和环境分量)的信号创建具有修改的相位谱、因而与先前的信号不相关的若干个新信号。第二,将新创建的信号彼此混合,以便提供复制的环境hoa分量。通过叠加原始稀疏hoa表示和复制的环境hoa分量来计算最终的增强的hoa表示。执行混合以便使最终的增强的hoa表示的空间声学性质与原始hoa表示的空间声学性质匹配。优选地,在频域中进行混合,从而提供在不同频带之间变化的可能性。假设从稀疏hoa表示创建不相关的信号的过程被确定性地指定,将被包括到压缩hoa表示中的用于par的辅助信息仅由混合参数组成,该混合参数本质上是复值的混合矩阵。

用于以减少用于par的辅助信息的量为目标从稀疏hoa表示创建不相关的信号的一种特定方法是首先用来自在单位球体上应尽可能均匀地分布的一些预测方向的虚拟扩音器信号(或等同地用一般的平面波函数)来表示稀疏hoa表示。在下面,用于从hoa表示创建虚拟扩音器信号的渲染被称为空间变换。第二,对于这些方向中的每个,通过使用去相关滤波器对稀疏hoa表示的对应的虚拟扩音器信号的相位谱进行修改来创建一个不相关的信号。第三,还用用于相同方向的虚拟扩音器信号来表示复制的环境hoa表示,其中,用于某个方向的每个虚拟扩音器信号仅由为该特定方向的邻域的预定义方向创建的不相关的信号被混合得到。仅由少量不相关的信号混合得到提供创建一个不相关的信号的混合系数的数量可以保持很少、用于par的辅助信息的量也可以保持很少的优点。另一个优点是,对于复制的环境hoa分量的单个的虚拟扩音器信号的混合,只有来自空间邻域的、因此具有类似的幅度谱的信号被考虑。该操作防止了稀疏hoa表示的定向分量不期望地在所有方向上空间分布。对于该方法,假定去相关滤波器是成对地不同的,并且它们的数量等于虚拟扩音器方向的数量。许多这样的去相关滤波器的实际构造通常使每个单独的滤波器仅具有有限的去相关效果。对于虚拟方向(或等同地空间位置)的去相关滤波器分配应合理地选择,以便最小化将被混合以用于创建复制的环境hoa分量的单个虚拟扩音器信号的信号之间的互相关性。

允许虚拟扩音器方向的数量对于各个频带改变,并且可以用于指定复制的环境hoa分量的频率相关阶次。

从稀疏hoa表示创建不相关的信号的方法的进一步扩展是,考虑将具有随时间变化的数量的不相关的信号用于复制的环境hoa分量的虚拟扩音器信号的混合。要被混合的不相关的信号的数量依赖于稀疏hoa表示中的丢失环境的量。该变化通常将导致对于虚拟扩音器位置的去相关滤波器分配变化。为了避免由于时间分配改变而导致去相关信号不连续,可以通过将稀疏hoa表示的虚拟扩音器信号等同地分配给去相关滤波器来交换去相关滤波器对于虚拟扩音器信号的分配。该分配可以用简单的置换矩阵表达。在分配改变的情况下,可以通过由两个不同的分配引起的信号之间的重叠相加(overlap-add)来计算每个去相关滤波器的输入。因此,每个去相关滤波器的输入和输出是连续的。随后,必须使分配倒转以便将每个去相关滤波器的输出重新分配给每个虚拟扩音器方向。

在多声道音频的上下文下,创建环境声音分量的问题在以下文献中被解决:2006年6月sweden的aes28thinternationalconference中的v.pulkki的"directionalaudiocodinginspatialsoundreproductionandstereoupmixing";iso/iec23003-1mpegsurround以及iso/iec23003-2spatialaudioobjectcoding中的2013年的j.audioeng.soc第61(6)卷第403-411页的j.vilkamo、t.baeckstroem、a.kuntz的"optimizedcovariancedomainframeworkfortime-frequencyprocessingofspatialaudio"。

但是,本申请描述了用于在hoa表示的上下文下创建环境的处理。

原理上,本发明的压缩改进方法适于改进声场的低位速率压缩和解压缩的高阶高保真立体声hoa信号表示,以便提供参数化环境复制参数集,其中,所述解压缩提供空间稀疏的解码的hoa表示和该表示的系数序列的索引集,所述方法包括:

-将所述空间稀疏的解码的hoa表示变换为若干个复值的频域子带表示,并且使用分析滤波器组将所述hoa信号表示的对应延迟版本变换为对应数量的复值的频域子带表示;

-将所述子带分组为若干个子带组,并且在这些子带组中的每个子带组内:

-对于来自所述复值的频域子带表示的子带组中的每个子带,使用去相关滤波器创建与所述复值的频域子带表示不相关的若干个经修改的相位谱信号;

-对于来自所述经修改的相位谱信号的子带组中的每个子带,计算去相关协方差矩阵;

-对于子带组中的每个子带,将所述复值的频域子带表示变换为它的空域表示,并且从该空域表示计算对应的协方差矩阵;

-对于子带组中的每个子带,将用于所述hoa信号表示的复值的频域子带表示变换为它的空域表示,并且从该空域表示计算对应的协方差矩阵,

对于每个子带组:

-对于子带组的所有子带,组合所述去相关协方差矩阵以便提供子带组去相关协方差矩阵

-对于子带组的所有子带,组合用于所述复值的频域子带表示的所述空域表示的协方差矩阵以便提供子带组协方差矩阵

-对于子带组的所有子带,组合用于所述hoa信号表示的所述复值的频域子带表示的所述空域表示的协方差矩阵以便提供子带组协方差矩阵

-形成组合协方差矩阵之间的残差,以便提供矩阵δ∑g(k′-1);

-使用矩阵和矩阵δ∑g(k′-1)计算对应的混合矩阵;

-对所述混合矩阵进行编码以便提供用于子带组的参数集;

-对用于所述子带组的所述参数集以及编码的子带配置数据和参数化环境复制编码参数进行复用以便提供参数化环境复制参数集。

原理上,本发明的压缩改进装置适于改进声场的低位速率压缩和解压缩的高阶高保真立体声hoa信号表示,以便提供参数化环境复制参数集,其中,所述解压缩提供空间稀疏的解码的hoa表示和该表示的系数序列的索引集,所述装置包括适于执行以下操作的部件:

-将所述空间稀疏的解码的hoa表示变换为若干个复值的频域子带表示,并且使用分析滤波器组将所述hoa信号表示的对应延迟版本变换为对应数量的复值的频域子带表示;

-将所述子带分组为若干个子带组,并且在这些子带组中的每个子带组内:

-对于来自所述复值的频域子带表示的子带组中的每个子带,使用去相关滤波器创建与所述复值的频域子带表示不相关的若干个经修改的相位谱信号;

-对于来自所述经修改的相位谱信号的子带组中的每个子带,计算去相关协方差矩阵;

-对于子带组中的每个子带,将所述复值的频域子带表示变换为它的空域表示,并且从该空域表示计算对应的协方差矩阵;

-对于子带组中的每个子带,将用于所述hoa信号表示的复值的频域子带表示变换为它的空域表示,并且从该空域表示计算对应的协方差矩阵,

对于每个子带组:

-对于子带组的所有子带,组合所述去相关协方差矩阵以便提供子带组去相关协方差矩阵

-对于子带组的所有子带,组合用于所述复值的频域子带表示的所述空域表示的协方差矩阵以便提供子带组协方差矩阵

-对于子带组的所有子带,组合用于所述hoa信号表示的所述复值的频域子带表示的所述空域表示的协方差矩阵以便提供子带组协方差矩阵

-形成组合的协方差矩阵之间的残差,以便提供矩阵δ∑g(k′-1);

-使用矩阵和矩阵δ∑g(k′-1)计算对应的混合矩阵;

-对所述混合矩阵进行编码以便提供用于子带组的参数集;

-对用于所述子带组的所述参数集以及编码的子带配置数据和参数化环境复制编码参数进行复用以便提供参数化环境复制参数集。

原理上,本发明的解压缩改进方法适于改进空间稀疏的解码的hoa表示,对于该表示,该表示的系数序列的索引集是通过使用根据以上压缩改进方法生成的参数化环境复制参数集进行解码而提供的,所述方法包括:

-从所述空间稀疏的解码的hoa表示、系数序列的所述索引集以及所述参数化环境复制参数集重构改进的hoa表示,所述重构包括:

-从所述参数化环境复制参数集确定子带配置;

-将所述空间稀疏的解码的hoa表示转换为若干个频带hoa表示;

-根据所述子带配置,将对应组的频带hoa表示与相关参数一起分派给创建复制的环境hoa表示的去相关系数序列的、对应数量的参数化环境复制子带解码器步骤或级;

-将所述复制的环境hoa表示的所述系数序列变换为复制的时域hoa表示;

-用所述复制的时域hoa表示增强所述空间稀疏的解码的hoa表示,以便提供增强的解压缩的hoa表示。

原理上,本发明的解压缩改进装置适于改进空间稀疏的解码的hoa表示,对于该表示,该表示的系数序列的索引集是通过使用根据以上压缩改进方法生成的参数化环境复制参数集进行解码而提供的,所述装置包括适于执行以下操作的部件:

-从所述空间稀疏的解码的hoa表示、系数序列的所述索引集以及所述参数化环境复制参数集重构改进的hoa表示,其中,该重构包括:

-从所述参数化环境复制参数集确定子带配置;

-将所述空间稀疏的解码的hoa表示转换为若干个频带hoa表示;

-根据所述子带配置,将对应组的频带hoa表示与相关参数一起分派给创建复制的环境hoa表示的去相关系数序列的、对应数量的参数化环境复制子带解码器步骤或级;

-将所述复制的环境hoa表示的所述系数序列变换为复制的时域hoa表示;

-用所述复制的时域hoa表示增强所述空间稀疏的解码的hoa表示,以便提供增强的解压缩的hoa表示。

附图说明

参考附图来描述本发明的示例性实施例,附图示出:

图1示出包括par编码器的hoa数据编码器;

图2更详细地示出par编码器,其中,k′=k-khoa;

图3示出par子带编码器;

图4示出包括par解码器的hoa数据解压缩器;

图5更详细地示出par解码器;

图6示出par子带解码器;

图7示出球坐标系。

具体实施方式

即使未被明确描述,也可以按任何组合或子组合采用以下实施例。

hoa编码器

参数化环境复制(par)处理被用作扩展基本的hoa压缩的附加编码工具,像图1所示那样,在图1中,采取了对具有帧索引k的帧的、基于帧的处理。hoa编码器步骤或级11将hoa表示c(k)分解为传输信号矩阵z(k-khoa)和hoa辅助信息集γhoa(k-khoa),像ep2665208a1、ep2743922a1、国际申请pct/ep2013/059363和欧洲专利申请ep14306077.0中所描述的那样。用于帧索引k的hoa表示矩阵c(k)由o个行组成,其中,每行保存对应的hoa系数的l个时域采样,并且它还被馈送到帧延迟步骤或级14。矩阵z(k-khoa)的行保存c(k)已经被包括在其中的传输信号的l个时域采样。在感知音频编码器步骤或级15中将来自z(k-khoa)的时域信号感知编码为传输信号参数集γtrans(k-khoa-kenc),该参数集被馈送到复用器和帧同步步骤或级16。在hoa解码器步骤或级12中从γhoa(k-khoa)和z(k-khoa)恢复稀疏的hoa表示的o×l矩阵d(k-khoa),hoa解码器步骤或级12还提供活动环境系数集该hoa解码器步骤/级12与图4所示的hoa数据解压缩器中使用的hoa解码器步骤或级43是相同的。

术语‘稀疏的’或‘空间稀疏的hoa表示’意指,在该表示中,原始声场的空间不相关的信号分量丢失。具体地说,术语‘稀疏的’可以、但不必意指相应hoa表示的大多数系数序列为零。例如,仅用两个平面波编码/表示的声场意指是空间稀疏的。但是,通常,相应hoa系数序列中没有一个将为零。

稀疏的hoa表示d(k-khoa)与延迟补偿的hoa表示c(k-khoa)、活动环境系数集以及在步骤/级14中经过延迟补偿的par编码器参数f、opar、nsig(k-khoa)和vcomplex一起被馈送到par编码器步骤或级13。par处理是按nsb个子带组进行的,其中,矩阵f的行保存用于每个对应子带组的par滤波器组的第一子带索引和最后子带索引。对于所有par子带组,矢量opar包含用于处理的hoa阶次。索引集保存用于par处理的、来自d(k-khoa)的行的索引。用于计算复制的环境hoa表示的一个空域信号的每个子带组的空域信号的数量由用于帧k的矢量nsig(k)定义。矢量vcomplex对于每个子带组指示par混合矩阵的元素是复值数、还是实值非负数。根据这些输入信号和参数,par编码器计算编码的par参数集γpar(k-khoa-1),该参数集也被馈送到步骤/级16。

复用器和帧同步步骤/级16使参数集γhoa(k-khoa)、γpar(k-khoa-1)和γtrans(k-khoa-kenc)的帧延迟同步,并且将它们组合为编码的hoa帧γ(k-kmax)。

hoa编码器延迟由khoa定义,其中,假定hoa解码器不引入任何附加延迟。相同的定义适用于感知编码器延迟kenc。par处理还添加一个帧的延迟,以使总延迟为kmax=max{khoa+kenc,khoa+1}。

par编码器

par处理的基本特征是,从稀疏hoa表示d(k′)创建去相关信号,并且获得频域中的混合矩阵,该混合矩阵将这些去相关信号组合为增强稀疏的且高度相关的hoa表示的、复制的环境hoa表示,以便匹配原始hoa表示c(k′)的空间性质。在该上下文下,去相关意指子带信号的相位在不改变它的幅值的情况下被修改。因此,图2所示的par编码器考虑到par编码参数opar、nsig(k′)、vcomplex和而从输入hoa表示c(k′)和d(k′)计算编码的par参数集γpar(k′-1),其中,为简单起见,引入了索引k′=k-khoa。

par处理是在频域中进行的。par分析滤波器组将输入hoa表示变换为它的复值的频域表示,其中,假定时域采样的数量等于频域采样的数量。例如,具有nfb个子带的正交镜像滤波器组(qmf)可以用作滤波器组。第一滤波器组24将o×l矩阵c(k′)变换为nfb个频域矩阵其中,j=1,...,nfb且并且第二滤波器组23将o×l矩阵d(k′)变换为nfb个频域矩阵其中,j=1,...,nfb且

在还接收f、opar、nsig(k′)和vcomplex的步骤或级25中,将这些子带分组为nsb个子带组。对应数量的par子带编码器步骤或级26和27对每个子带组g=1...nsb的信号单独地进行编码。

par子带配置由以下矩阵定义:

其中,第一列和第二列保存对应的子带组g的第一子带索引和最后子带索引的索引j。在步骤或级21中通过欧洲专利申请ep14306347.7中所描述的方法将子带配置编码为参数集γsubband。因为它对于每个帧索引k是固定的,所以它仅需被发送到解码器一次以用于初始化。

步骤/级25中的子带分组根据给定的子带配置将输入信号和参数引导到每个par子带编码器步骤/级26、27,使得子带组g的每个par子带编码器得到opar,g、nsig,g(k′)和vcomplex,g作为对于所有jg=fg,1,...,fg,2的输入。

参数opar,g指示par编码器对其计算参数的hoa阶次。该阶次等于或小于hoa表示c(k′)的hoa阶次n。它用于降低用于发送编码的par参数的数据速率。矢量

保存用于所有子带组的hoa阶次。

用于创建复制的环境hoa表示的一个空域信号的去相关信号的数量由以下矢量定义:

其中,0≤nsig,g(k′)≤(opar,g+1)2它对于每一个帧被更新,因为所需信号的数量依赖于hoa表示。对于包括高度空间分散的场景的hoa表示,所需的去相关信号多于空间分散度较小的hoa表示所需的去相关信号。因为用于编码的par参数的数据速率随着去相关信号的所用数量而增大,所以该参数也可以用于降低数据速率。

去相关信号的混合是通过矩阵乘法进行的,其中,编码矩阵包括在par参数集中。矢量

包括指示混合矩阵的元素是实值非负数、还是复值数的布尔变量,其中,可以定义对于vcomplex,g=1,复值元素矩阵被用在子带组g中。由于传输信号z(k)的压缩,解码的传输信号的相位信息可能由于参数化编码工具而在解码器端丢失(例如在应用谱带复制方法的情况下)。在这种情况下,par处理可以仅复制丢失的环境分量的空间功率分布,这意味着par混合矩阵的相位信息是过时的。

此外,参数被输入到每个par子带编码器步骤/级26、27。该集合保存用于创建去相关信号的来自d(k′)的稀疏hoa系数序列的索引。这些索引应对hoa阶次opar,g内的系数序列进行寻址,这些系数序列不应显著不同于原始hoa表示c(k′)的序列。在最佳情况下,序列在par编码器处是相同的,使得在解码器端,选定的序列的不同之处仅在于通过感知译码添加的畸变(distortion)。

最后,在复用器和帧同步步骤或级22中,将编码的par参数集编码的子带配置集γsubband以及par编码参数opar、nsig(k′)和vcomplex按它们的帧索引同步,并且将它们复用到par位流参数集γpar(k′-1)中。

par子带编码器

图3中更详细地示出了par子带编码器步骤/级26和27。对于par子带g的每个子带jg=fg,1,...,fg,2,在步骤或级311、312、313中通过下面在章节空间变换中描述的空间变换将矩阵变换为它们的空域表示在步骤或级321、322、323和324中,从这些空域表示计算以下协方差矩阵:

以及

其中,ah表示矩阵a的厄密(hermitian)转置。前一帧的矩阵被包括在内,以便获得协方差矩阵,这些协方差矩阵对于当前帧和前一帧是有效的,使得在par解码器处能够在两个相邻帧的矩阵之间交叉渐变。

步骤或级331和332中去相关信号的创建将来自的系数序列的根据所用系数的索引集选择的子集变换到空域,并且用置换矩阵对这些空域信号进行置换,以便将信号分配给创建矩阵的对应的去相关器。下面在章节去相关信号的创建中给出这些处理步骤的详细描述。

为了在步骤或级341和342中获得对应的空域信号的协方差矩阵,必须用矩阵翻转中所包括的置换。因此,从以下方程获得去相关信号的协方差矩阵:

为了计算将逆置换矩阵应用于当前帧和前一帧以用于获得对于两个帧都有效的协方差矩阵。这对于两个相邻帧的混合矩阵之间的有效交叉渐变以及两个相邻帧的置换是需要的。

假定每个子带的hoa表示是彼此独立的,使得子带组的协方差矩阵可以通过它的子带的协方差矩阵的和来计算。从而,par子带编码器计算在组合器步骤或级352中计算以下协方差矩阵:

在组合器步骤或级354中计算以下协方差矩阵:

并且在组合器步骤或级351中计算以下协方差矩阵:

从去相关信号的协方差矩阵、在组合器步骤或级353中生成的矩阵

以及矩阵通过混合矩阵计算步骤或级36获得混合矩阵mg(k′-1),其处理在章节混合矩阵的计算中描述。

最后,在步骤或级37中,如章节混合矩阵的编码中所描述的,对混合矩阵mg(k′-1)进行量化并且编码为参数集

空间变换

在空间变换中,通过对给定hoa阶次opar,g使用章节实值球谐函数的定义中的球谐变换将输入hoa表示c变换为其空域表示w。因为hoa阶次opar,g通常小于输入hoa阶次n,所以必须在球谐变换可以被应用之前移除c中具有比qpar,g=(opar,g+1)2高的索引的行。

去相关信号的创建

去相关信号的创建包括以下处理步骤:

·从稀疏hoa表示选择由所用系数的索引集定义的系数序列的子集;

·对于hoa阶次opar,g根据章节空间变换来进行选定系数序列的空间变换;

·通过针对用于环境复制的若干个信号nsig,g(k′)和hoa阶次opar,g选择的置换矩阵对用于分配给去相关器的空域信号进行置换;

·使用在最佳地保持子带信号的幅值的同时修改子带信号的相位的单独处理对置换的信号进行去相关。

在下面,给出这些处理步骤的详细描述。

去相关器通过用的零矢量取代具有不是索引集的元素的索引的行来从输入矩阵移除所有的不活动hoa系数序列。然后使用章节空间变换中的空间变换来将所得的矩阵变换为它的空域表示矩阵

在计算混合矩阵nsig,g(k′)的每行期间,从选择空间相邻的信号。因此,对矩阵进行置换以用于将来自的信号引导到去相关器,使得nsig,g(k′)个选定信号之间的去相关性保证为最佳。必须对nsig,g(k′)和opar,g的每个预定义组合定义固定的qpar,g×qpar,g置换矩阵在章节置换矩阵和选择矩阵的计算中给出了这些置换矩阵的计算以及对应的信号选择表。

然后通过以下方程进行实际的置换,即,

其中,diag(f)形成来自f的元素的对角矩阵。用于不同置换矩阵之间的切换的渐增矢量和渐减矢量由以下方程定义:

其元素从以下方程获得:

从一个置换矩阵到另一个置换矩阵的渐变防止去相关器的输入信号不连续。随后,对应的去相关器对的每行中的qpar,g个信号进行去相关以便形成矩阵mpegsurround标准iso/iecfdis23003-1,mpegsurround第6.6章中定义了所用的去相关方法。

基本上,每个去相关器使每个频带信号延迟独立数量的采样,其中,对于所有的qpar,g个去相关器,延迟是相等的。另外,每个去相关器将单独的全通滤波器应用于它的输入信号。去相关器的不同配置使空域信号的相位信息不同地畸变,这导致空域信号去相关。

混合矩阵的计算

可以对用vcomplex,g变量标示(signalled)的实值非负或复值矩阵元素计算混合矩阵mg(k′-1)。对于等于一的vcomplex,g,根据章节复值混合矩阵来计算复值混合矩阵,由此该计算只有在传输信道的感知编码不破坏子带组g中的采样的相位信息时才可适用。

否则,实值非负元素的混合矩阵对于提取复制的环境hoa表示是足够的。章节实值非负混合矩阵中给出了用于计算实值非负混合矩阵的示例处理。

复值混合矩阵

混合矩阵的计算是基于以上提及的vilkamo/baeckstroem/kuntz文章中所描述的方法。通过y=mx计算用于将多声道信号x上混为具有更高数量的声道的信号y的混合矩阵m。满足

的、其中

的、混合矩阵m的解由

给出,其中

其中,||·||fro表示矩阵的frobenius范数,信号矢量x、和y的协方差矩阵∑y是已知的。原型混合矩阵q满足使得是y的良好近似。因为来自和y的信号的能量可能不同,所以对角矩阵g使的能量归一化为y的能量,其中,g的对角元素由

给出,并且是∑y和的对角元素。第g子带组的每个子带jg=fg,1,...,fg,2,增强的空域信号的矩阵cout({k′,k′-1},jg)假定是通过以下方程从稀疏hoa表示的空域信号和混合的空域去相关信号的和计算的:

其中,符号{k′,k′-1}用于表达混合矩阵mg(k′-1)对于当前帧和前一帧是有效的。

因为假定空域信号对于每个定义是不相关的,所以增强的空域信号cout({k′,k′-1},jg)的相关矩阵∑out(k′-1)可以通过以下方程被写为这两个分量的相关矩阵的和:

为了使增强的稀疏的hoa表示从心理声学的角度来讲听起来像原始hoa表示可以匹配它们的相关矩阵,即,

该要求导致混合矩阵的以下约束:

其中,δ∑g(k′-1)在方程(12)中定义。

方程(18)和(27)的比较导致以下赋值:

∑y:=δ∑g(k′-1)(28)

其中,ky和kx可以从δ∑g(k′-1)和的奇异值分解来计算。

最后,必须对所提出的方法定义矩阵q。因为矩阵应是y的良好近似,所以q必须对以下方程进行求解:

该问题的众所周知的解决方法是通过使用moore-penrose伪逆解来最小化如下定义的近似误差的euclidean范数,即,

为了降低用于发送混合矩阵的数据速率,可以选择来自的nsig,g(k′-1)个空间相邻的信号用于计算复制的环境hoa表示的每个空域信号。因此,必须根据以下选择矩阵来单独地计算混合矩阵mg(k′-1)的每行:

其中,元素so,n表示用于创建复制的环境hoa表示的第o空域信号的来自的行矢量的索引,其中,n=1...nsig,g(k′-1)。为了对混合矩阵的每行单独地求解方程(19),必须将方程(19)变换为

其中,p=vuh。定义

并且ta是t的a=1...qpar,g个列矢量中的一个。为了计算mg(k′-1)的o=1...qpar,g个行中的每行,构建子矩阵

并且通过以下方程确定矢量mrow,o:

其中,ky,o是来自ky的第o行矢量,表示moore-penrose伪逆解。在一些情况下,to可以是病态的,其在伪逆解的计算中可能需要规范。

至少,混合矩阵mg(k′-1)的元素mo,i被赋值为:

其中,mrow,o,a是矢量mrow,o的元素并且o=1...qpar,g。

实值非负混合矩阵

但是,对于可能受感知编码的谱带宽复制影响的高频子带组g,在章节复值混合矩阵中所描述的方法是不合理的,因为稀疏的hoa表示的重构的子带信号的相位不能假定为甚至基本上类似于原始子带信号的相位。

对于这样的情况,可以忽视相位。相反,仅集中于用于计算混合矩阵mg(k′-1).的信号功率。用于确定预测系数的合理标准是最小化以下误差:

其中,运算|·|2假定被逐个元素地应用于矩阵。换言之,混合矩阵被选为使得去相关hoa表示的所有加权的空间子带信号的功率的和最佳地近似原始hoa表示和稀疏hoa表示的空域子带信号的残差的功率。在这种情况下,非负矩阵因式分解(nmf)技术可以用于对该优化问题进行求解。关于对nmf的介绍,参见例如1999年nature第401卷第788-791页的d.d.lee、h.s.seung的"learningthepartsofobjectsbynonnegativematrixfactorization"。

混合矩阵的编码

每个子带组g=1,...,nsb的混合矩阵mg(k′-1)将被量化和编码为参数集其中,只有由选择矩阵定义的qpar,g×nsig,g(k′-1)子矩阵被编码。矩阵元素的量化必须降低数据速率,而不降低复制的环境hoa表示的感知音频质量。因此,可以利用由于关于重叠帧计算协方差矩阵、在连续帧的混合矩阵之间存在高相关性的事实。具体地说,每个子矩阵元素可以用它的幅值和它的角度表示,然后对连续帧之间的角度差和幅值差进行编码。

如果假定幅值位于区间[0,mmax]内,则幅值差位于区间[-mmax,mmax]内。假定角度差位于区间[-π,π]内。为了对这些差进行量化,对应地对幅值差和角度差使用预定义位数。在使用具有实值非负元素的混合矩阵的情况下,只有幅值差被编码,因为相位差总是为零。

发明人已经通过实验发现,各个差的出现概率是以高度不均匀的方式分布的。具体地说,小的幅值差和角度差的出现频率显著高于大的幅值差和角度差。因此,可以利用基于将被编码的各个值的先验概率的编码方法(例如哈夫曼编码),以便显著地减少每个混合矩阵元素的平均位数。

另外,对于每个帧必须发送nsig,g(k′-1)的值。为了这个目的,可以用信号发送预定义表的索引,该索引是针对每个有效parhoa阶次定义的。

置换矩阵和选择矩阵的计算

为了降低用于发送混合矩阵的数据速率,可以减少每行的活动(即,非零)元素的数量。活动行元素对应于空域中的qpar个去相关信号中的用于混合复制的环境hoa表示的一个空域信号(现在称为目标信号)的nsig个去相关信号。将被混合的去相关空域信号的复值子带信号理想地应具有目标信号的缩放幅值谱,但是具有不同的相位谱。这可以通过从目标信号的空间附近选择要被混合的信号来实现。

因而,在第一步中,对于每个第o目标信号位置,o=1,...,qpar,必须针对每个hoa阶次opar和每个数量的活动行nsig找到多组的nsig个空间相邻位置。在第二步中,获得qpar个输入信号对于qpar个去相关器的分配,以便最小化每组中的nsig个信号之间的互相关性。

对给定hoa阶次opar找到一组的nsig个信号的一种方式是,计算所有空域位置和第o目标信号的位置之间的角度距离,并且将属于nsig个最小距离的信号索引选入第o组中。因而,来自方程(34)的矩阵的第o行矢量包括第o组的递增排序的索引。假定用于opar和nsig的每个预定义组合的矩阵在par编码器和解码器中是已知的。

现在,必须找到对于去相关器的空域信号分配并且将该分配存储在用于opar和nsig的每个预定义组合的置换矩阵中。因此,应用遍历所有可能的分配的搜索,以便找到根据某个标准的最佳分配。一个可能的标准是构建所有去相关器的全通脉冲响应的协方差矩阵∑。通过以下步骤计算分配的惩罚(penalty):

·对于每组通过从矩阵∑仅选择分配给该组的信号的元素来构建协方差子矩阵;

·对每个协方差子矩阵的最大和最小奇异值的商进行求和。

从具有最低惩罚的分配,获得置换矩阵使得章节去相关信号的创建中的矩阵的每行被置换为分配的去相关器的对应索引。

hoa解码器框架

图4中描绘了包括par解码器的hoa解码器/hoa解压缩器的框架。在解复用器步骤或级41中将位流参数集γ(k)解复用为辅助信息参数集γhoa(k)和γpar(k)以及信号参数集γtrans(k)。因为辅助信息和信号参数之间的延迟已经在hoa编码器中被对齐,所以解码器端接收它的已经同步的数据。

信号参数集γtrans(k)被馈送到感知音频解码器步骤或级42,感知音频解码器步骤或级42从信号参数集γtrans(k)解码稀疏的hoa表示后面的hoa解码器步骤或级43从解码的传输信号和辅助信息参数集γhoa(k)组成解码的稀疏的hoa表示索引集也由hoa解码器步骤/级43重构。解码的稀疏的hoa表示索引集以及par辅助信息参数集γpar(k)被馈送到par解码器步骤或级44,par解码器步骤或级44从解码的稀疏hoa表示索引集以及par辅助信息参数集γpar(k)重构复制的环境hoa表示,并且将解码的稀疏的hoa表示增强为解码的hoa表示

par解码器框架

图5所示的par解码器框架用解码的复制的环境hoa表示cpar(k)增强解码的稀疏的hoa表示以便重构解码的hoa表示根据所应用的滤波器组的分析和合成延迟来使解码的hoa表示的采样延迟。

在解复用器步骤或级51中将par辅助信息参数集γpar(k)解复用为子带配置集γsubband、par参数opar、nsig(k)、vcomplex以及用于各个子带组g=1,...,nsb的编码的混合矩阵的数据集。

并行地,在分析滤波器组步骤或级52中将解码的稀疏的hoa表示转换为第j=1,...,nfb频带hoa表示矩阵所应用的滤波器组必须与在编码器端的par编码器中已经使用的滤波器组是相同的。

从子带配置集γsubband,在步骤或级53中解码如方程(1)中定义的子带组数量nsb和子带配置矩阵f,并且将它们馈送到组分派步骤或级54。根据这些参数,组分派步骤或级54对于子带1...nsb将来自步骤/级51和53的参数以及来自步骤/级52的频带hoa表示引导到对应的par子带解码器步骤或级55、56。

nsb个par子带解码器55、56对于对应频带jg=fg,1,...,fg,2从解码的稀疏的hoa表示矩阵以及par子带参数opar、vcomplex、nsig(k)、创建复制的环境hoa表示的系数序列。

在合成滤波器组步骤或级58中将每个频带的所得的复制的环境hoa表示矩阵变换为时域hoa表示cpar(k)。最后,在组合步骤或级59中逐个采样地将cpar(k)加到(在滤波器组延迟补偿57中)经过延迟补偿的稀疏的hoa表示以便创建解码的hoa表示

par子带解码器

图6中所描绘的par子带解码器为子带组g的频带jg=fg,1,...,fg,1创建频域复制的环境hoa表示矩阵

并行地,在步骤或级611、612中,使用参数opar,g和nsig,g(k)从稀疏的hoa表示矩阵的系数序列生成置换的且去相关的空域信号矩阵其中,该处理与章节去相关信号的创建中的用在par子带编码器中的处理是相同的。

此外,在混合矩阵解码步骤或级63中,使用参数opar,g、nsig,g(k)和vcomplex,g从编码的混合矩阵的数据集获得混合矩阵章节混合矩阵的解码中描述了混合矩阵元素的实际解码。

随后,在环境复制步骤或级621、622中,通过章节环境复制中描述的环境复制处理对于子带组g的每个频带jg,使用opar,g、nsig,g(k)和从对应的去相关空域信号生成复制的环境hoa表示的空域信号

最后,在步骤或级641、642中使用opar,g和逆空间变换将复制的环境hoa表示的空域信号变换回它们的hoa表示,其中,章节球谐变换中的逆球谐变换被应用。创建的复制的环境hoa表示矩阵必须具有尺寸其中,只有对应parhoa阶次opar,g的前qpar,g个行具有非零元素。

混合矩阵的解码

编码的混合矩阵的元素的索引由当前的选择矩阵定义,使得每个混合矩阵的qpar,g乘以nsig,g(k)个元素必须被解码。

因此,在第一步中,根据par编码器中应用的对应熵编码对每个矩阵元素的角度差和幅值差进行解码。然后,将解码的角度差和幅值差加到前一帧的重构的qpar,g×qpar,g角度和幅值混合矩阵,其中,只有当前选择矩阵中的元素被使用,并且所有的其他元素都必须被设置为零。从更新的重构的角度和幅值混合矩阵,通过以下方程恢复解码的混合矩阵的复值:

其中,ma,b是的第a行第b列中的元素,mangle,a,b和mabs,a,b是更新的重构的角度和幅值混合矩阵的对应元素。

环境复制

环境复制进行由用于参数opar,g和nsig,g(k)的置换矩阵定义的去相关空域信号的逆置换,接着再乘以混合矩阵为了平缓地转变相邻帧的参数,使用当前帧和前一帧的参数来对来自当前帧的去相关信号进行处理和交叉渐变。环境复制的处理因此由以下方程定义,即,

其中,使用来自方程(14)和(15)的交叉渐变函数。

高阶高保真立体声的基础

高阶高保真立体声(hoa)基于感兴趣的紧凑区域内的声场的描述,所述感兴趣的紧凑区域假定是没有声源的。在这种情况下,在时刻t时感兴趣区域内的位置x处的声压p(t,x)的空间时间行为在物理上完全由齐次波动方程(homogeneouswaveequation)确定。在下面,采取如图7所示的球坐标系。在所用的坐标系中,x轴指向前面的位置,y轴指向左,z轴指向顶部。空间x=(r,θ,φ)t中的位置用半径r>0(即,到坐标原点的距离)、从极坐标z测量的倾角θ∈[0,π]以及在x-y平面中从x轴逆时针测量的方位角φ∈[0,2π[表示。此外,(·)t表示转置。

然后,从“傅里叶声学”课本可以示出,所表示的声压相对于时间的傅里叶变换,即,

其中,ω表示角频率,i指示虚数单位,该式可以根据以下方程被展开为球谐级数(seriesofsphericalharmonics):

其中,cs表示声音的速度,k表示按照与角频率ω相关的角波数。此外,jn(·)表示第一种球贝塞尔函数,表示阶次n、度数m的实值球谐函数,这在章节实值球谐函数的定义中定义。展开系数仅依赖于角波数k。注意,已经隐含地假定声压在空间上是带受限的。因而,该级数相对于上限n处的阶次索引n(其被称为hoa表示的阶次)被截断。

如果声场用从由角度元组(θ,φ)指定的所有可能的方向到达的无限数量的不同角频率ω的谐平面波的叠加表示,则可以表明(参见2004年10月j.acoust.soc.am.第4(116)卷第2149–2157页的b.rafaely的"plane-wavedecompositionofthesoundfieldonaspherebysphericalconvolution"),相应的平面波复幅度函数c(ω,θ,φ)可以用以下球谐展开表达:

其中,展开系数按照

与展开系数相关。

假定各个系数是角频率ω的函数,逆傅里叶变换(用表示)的应用对于每个阶次n和度数m提供以下时域函数:

这些时域函数在这里被称为连续时间hoa系数序列,这些连续时间hoa系数序列可以通过以下方程收集在单个矢量c(t)中:

矢量c(t)内的hoa系数序列的位置索引由n(n+1)+1+m给出。矢量c(t)中的元素的总数由o=(n+1)2给出。

最终的高保真立体声格式如下使用采样频率fs来提供c(t)的采样版本:

{c(lts)}l∈n={c(ts),c(2ts),c(3ts),c(4ts),...}(49)

其中,ts=1/fs表示采样周期。c(lts)的元素被称为离散时间hoa系数序列,这些离散时间hoa系数序列可以被示出为总是实值的。该性质也适用于连续时间版本

实值球谐函数的定义

实值球谐函数(其采取根据universitéparis的j.daniel的2001年6月的博士论文"représentationdechampsacoustiques,applicationàlatransmissionetàlareproductiondescènessonorescomplexesdansuncontextemultimédia"第3.1章的sn3d归一化)由以下方程给出:

其中,

相关联的legendre函数pn,m(x)被定义为:

该函数具有legendre多项式pn(x),并且不同于1999年appliedmathematicalsciences,academicpress第93卷中e.g.williams的"fourieracoustics"中那样,没有condon-shortley相位项(-1)m

球谐变换

如果hoa序列的空间表示在几乎均匀分布在单位球体上的数量o个空间方向ωo,1≤o≤o上被离散化,则获得o个定向信号c(t,ωo)。如下将这些信号收集到矢量中:

cspat(t):=[c(t,ω1)...c(t,ωo)]t(53)

可以通过如下的简单矩阵乘法从方程(48)中定义的连续高保真立体声表示c(t)计算该矢量:

cspat(t)=ψhc(t)(54)

其中,(·)h指示联合转置和共轭,ψ表示由以下方程定义的模式矩阵:

ψ:=[s1...so](55)

其中,

因为方向ωo几乎均匀地分布在单位球体上,所以模式矩阵一般是可逆的。因此,可以通过以下方程从定向信号c(t,ωo)计算连续高保真立体声表示:

c(t)=ψ-hcspat(t)(57)

这两个方程构成高保真立体声表示和空域之间的变换和逆变换。这些变换被称为球谐变换和逆球谐变换。

因为方向ωo几乎均匀地分布在单位球体上,所以近似

ψh≈ψ-1(58)

是可用的,其证明使用ψ-1、而不是方程(54)中的ψh是合理的。有利地,所提及的所有关系对于离散时域也是有效的。

所描述的处理可以由单个处理器或电子电路执行,或者由并行操作和/或在整个处理的不同部分上操作的几个处理或电子电路执行。

用于根据所描述的处理操作所述一个处理器或多个处理器的指令可以被存储在一个或多个存储器中。所述至少一个处理器被配置为执行这些指令。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1