用于信道间差估计的方法和空间音频编码装置制造方法

文档序号:7990083阅读:144来源:国知局
用于信道间差估计的方法和空间音频编码装置制造方法
【专利摘要】本发明提供了用于低复杂的信道间差估计的方法和装置。用于估计信道间差ICD的方法包括:对多个音频信道信号应用变换;计算所述多个音频信道信号中的至少一者与预定频率范围上的参考音频信道信号之间的所述ICD的多个ICD值,每个ICD值在所述预定频率范围的一部分上进行计算;通过将所述多个ICD值中的每一者乘以对应的频率相关加权因数,来对所述多个ICD值中的每一者计算加权的ICD值;以及通过加入所述多个加权的ICD值,来对所述预定频率范围计算ICD范围值。
【专利说明】用于信道间差估计的方法和空间音频编码装置
【技术领域】
[0001]本发明涉及用于信道间差(ICD)估计的方法以及空间音频编码或参数的多信道编码装置,尤其是针对参数的多信道音频编码。
【背景技术】
[0002]参数的多信道音频编码在针对音频和声音信号处理应用的IEEE专题研讨会会干丨J, 2001 年 10 月,第 199 页至第 202 页(Proc.1EEE Workshop on App1.0f Sig.Proc.toAudio and Acoust., Oct.2001, pp.199 - 202)中法勒(Faller C.)和鲍姆加特(BaumgarteF.)的“使用感知参数化的空间音频的有效表示(Efficient representation of spatialaudio using perceptual parametrization)”中有描述。下混的音频信号可经上混以合成多信道音频信号,这可通过使用空间提示来产生比下混音频信号更多的输出音频信道来实现。通常,下混的音频信号因多信道音频信号,例如,立体声音频信号,的多个音频信道信号的叠加而产生。对下混的音频信号的波形进行编码并且将其与涉及空间提示的辅助数据一起放入音频比特流中。解码器基于波形编码的音频信道,使用辅助数据来合成多信道音频信号。
[0003]存在数个空间提示或参数可用于合成多信道音频信号。首先,信道间电平差(ILD)指示待比较的两个信道上的音频信号的电平之间的差。第二,信道间时间差(ITD)指示人耳之间的声音到达时间差。ITD值对声音的定位很重要,因为它提供提示以识别声源相对于人耳的入射方向或角度。第三,信道间相位差(ICD)指定待比较的两个信道之间的相对相位差。子带I⑶值可用作子带ITD值的估计。最后,信道间相干(ICC)定义为在根据ITD或ICD的相位调整之后的归一化信道间交叉相关。ICC值可用于估计声源的宽度。
[0004]ILD、ITD、I⑶及ICC是空间多信道编码/解码的重要参数,特别是对于立体声音频信号,尤其是双声道的音频信号。ITD可,例如,覆盖-1.5ms至1.5ms之间的声响延迟的范围。I⑶可覆盖-与Ji之间的相位差的全部范围。ICC可覆盖相关的范围并且可指定在O与I之间的百分比值中或-1与+1之间的其他相关因数中。在当前参数的立体声编码方案中,ILD、ITD、I⑶及ICC通常在频域中进行估计。对于每一子带,ILD、ITD、I⑶及ICC经计算、量化、计入音频比特流的参数段中而被传输。
[0005]由于参数的音频编码方案的比特率的限制,有时在音频比特流的参数段中没有足够的比特来传输空间编码参数所有的值。例如,文件US2006/0153408A1揭示了一种音频编码器,其中对多个音频信道产生组合的提示编码以作为边信息计入下混的音频比特流中。文件US8,054,981B2揭示了一种用于空间音频编码的方法,该方法使用与以下电平关系相关联的量化规则,即某个音频信道的能量测量与多个音频信道的能量测量的电平关系。

【发明内容】

[0006]本发明的构想是对在多个音频信道信号中的每一对音频信道信号之间的每个频率子带或频率窗口计算信道间差ICD值并且基于所述ICD值来计算加权平均值。根据加权方案,将感知上重要的频率子带或频率窗口优先于较不重要者来考虑。
[0007]有利的是,这种技术能将考虑能量或感知重要性考虑在内,这样环境声或漫射声将不会影响ICD估计。这尤其有利于有意义地表示具有语音音频数据等强的直流分量的声音的空间图像。
[0008]此外,所提出的方法减少了待计入音频比特流中的空间编码参数的数量,从而降低了估计复杂性和传输比特率。
[0009]因此,本发明的第一方面涉及用于估计信道间差ICD的方法,所述方法包括对多个音频信道信号应用从时域到频域的变换;计算多个音频信道信号中的至少一者与预定频率范围上的参考音频信道信号之间的ICD的多个ICD值,每个ICD值在预定频率范围的一部分上进行计算;通过将多个ICD值中的每一者乘以对应的频率相关加权因数,来对多个ICD值中的每一者计算加权的ICD值;以及通过加入所述多个加权的ICD值,来对预定的频率范围计算ICD范围值。
[0010]根据第一方面的第一实施方案,I⑶是信道间相位差iro或信道间时间差ITD。这些空间编码参数对于听觉的音频数据重现尤其有利。
[0011]根据第一方面的第二实施方案,从时域到频域的变换包括以下项中的一者:快速傅立叶变换FFT、余弦调制滤波器组、离散傅立叶变换DFT以及复数滤波器组。
[0012]根据第一方面的第三实施方案,预定频率范围包括以下项中的一者:多个音频信道信号的全频带、多个音频信道信号的全频带内的预定频率间隔,以及多个音频信道信号的全频带内的多个预定频率间隔。
[0013]根据第一方面的第三实施方案的第一实施方案,预定频率间隔在200Hz与600Hz之间或在300Hz与1.5kHz之间。这些频率范围对应于听觉的频率相关敏感度,其中I⑶参数最有意义。
[0014]根据第一方面的第四实施方案,参考音频信道信号包括一个所述音频信道信号或从多个音频信道信号中的至少两个音频信道信号导出的下混音频信号。
[0015]根据第一方面的第五实施方案,计算多个ICD值包括基于频率子带来计算多个ICD 值。
[0016]根据第一方面的第五实施方案的第一实施方案,频率相关加权因数基于频率子带的能量来确定,所述频率子带的能量基于预定频率范围上的总能量而归一化。
[0017]根据第一方面的第五实施方案的第二实施方案,频率相关加权因数基于在预定的频率范围上归一化的音频信道信号的频率的能量分布的掩蔽曲线来确定。
[0018]根据第一方面的第五实施方案的第三实施方案,频率相关加权因数基于在预定频率范围上归一化的音频信道信号的子带的感知熵值来确定。
[0019]根据第一方面的第六实施方案,频率相关加权因数在至少两个相邻帧之间是平滑的。这样可为有利的,因为估计的I⑶值在相邻帧之间相对较稳定,这是因为立体声图像在短时间段内通常不会改变很多。
[0020]根据本发明的第二方面,空间音频编码装置包括变换模块,该变换模块用于对多个音频信道信号应用从频域到时域的变换,以及参数估计模块,该参数估计模块:用于计算多个音频信道信号中的至少一者与预定频率范围上的参考音频信道信号之间的ICD的多个ICD值;用于通过将多个ICD值中的每一者乘以对应的频率相关加权因数,来对多个ICD值中的每一者计算加权的ICD值;并且用于通过加入所述多个加权的ICD值,来对预定的频率范围计算ICD范围值。
[0021]根据第二方面的第一实施方案,空间音频编码装置进一步包括下混模块,所述下混模块用于通过下混多个音频信道信号来产生下混音频信道信号。
[0022]根据第二方面的第二实施方案,空间音频编码装置进一步包括编码模块,所述编码模块耦合到下混模块并且用于产生编码的音频比特流,所述编码的音频比特流包括编码的下混的音频比特流。
[0023]根据第二方面的第三实施方案,空间音频编码装置进一步包括流模块,所述流模块耦合到参数估计模块并且用于产生音频比特流,所述音频比特流包括下混的音频比特流及辅助数据,所述辅助数据包括多个音频信道信号的ICD范围值。
[0024]根据第二方面的第三实施方案的第一实施方案,流模块进一步用于在音频比特流中设置标志,该标志指示音频比特流中辅助数据的存在,所述辅助数据包括ICD范围值。
[0025]根据第二方面的第四实施方案,所述标志针对整个音频比特流二设置或包含在音频比特流中的辅助数据中。
[0026]根据本发明的第三方面,提供一种计算机程序,该计算机程序包括程序编码,该程序编码在计算机上运行时执行根据第一方面或其实施方案中的任一项的方法。
[0027]本文描述的方法可实施为数字信号处理器(DSP)、微控制器或任何其他边处理器中的软件或实施为专用集成电路(ASIC)内的硬件电路。
[0028]本发明可在数字电子电路中或在计算机硬件、固件、软件中或在其组合中实施。
[0029]通过以下描述,容易理解额外的实施例和实施方案。确切地说,除非另有说明,下文所述的实施例、各方面及实施方案中的任何特征,都可与实施例、各方面及实施方案中的任何其他特征进行组合。
【专利附图】

【附图说明】
[0030]包含附图用于提供对本发明的进一步理解。它们图示了各实施例并且可结合描述有助于解释本发明的原理。在通过参考下文中的详细描述而更好理解之后,读者可了解其他实施例和许多预期优势、设想的原理以及功能性。图中的元件不一定相对于彼此按比例画制。一般而言,相同参考编号指代对应的类似部分。
[0031]图1示意地图示了空间音频编码系统。
[0032]图2示意地图示了空间音频编码装置。
[0033]图3示意地图示了空间音频解码装置。
[0034]图4示意地图示了用于估计信道间差的方法的实施例。
[0035]图5示意地图示了音频比特流的比特流结构的变体。
【具体实施方式】
[0036]在以下详细描述中,参考了附图,并且其中图示了具体的实施例。应明白,可利用其他实施例并且在不脱离本发明范围的情况下可作出各种结构或逻辑变化。除非另有说明,各实施例的功能、原理及细节可与其他实施例进行组合。一般地,此应用旨在涵盖本文所论述的具体实施例的任何调整或变型。因此,以下详细描述不应理解为具有限制意义,而本发明的范围是由所附权利要求来界定的。
[0037]实施例可包括各种方法和流程,这些方法和流程可在机器可读媒体所提供的机器可读指令内实施,所述机器可读媒体包括但不限于,能够存储可由以下机器使用的信息的装置、设备、机制或系统:计算机、计算装置、处理单元、网络装置、便携式计算机、微处理器等。所述机器可读媒体可包括易失性或非易失性媒体以及任何形式的传播信号,例如电信号、数字信号、逻辑信号、光信号、声信号、声光信号等,所述媒体能够传递信息到机器。
[0038]在下文中,参考了各方法和方法步骤,这些方法和方法步骤示意地并示例性地图示于流程图和方框图中。应理解结合这些说明性图而描述的方法也可由系统、设备和/或装置的实施例容易地执行。确切地说,应明白,能够执行详细方框图和/或流程图的系统、设备和/或装置不一定限于下文所示和详细描述的系统、设备和/或装置,而是可为不同的系统、设备和/或装置。术语“第一”、“第二”、“第三”等仅仅用作标记,而不旨在对它们的目标强加数字要求或建立它们的目标的特定重要性排行。
[0039]图1不意地图不了空间首频编码系统100。空间首频编码系统100包括空间首频编码装置10和空间音频解码装置20。多个音频信道信号10a、10b被输入到空间音频编码装置10,图1中只示例性地示出了两个音频信道信号。空间音频编码装置10对音频信道信号10a、10b进行编码并下混并且产生音频比特流1,该音频比特流被传输到空间音频解码装置20。空间音频解码装置20对音频比特流I中的音频数据进行解码并上混并且产生多个输出音频信道信号20a、20b,图1中只示例性地示出了两个输出音频信道信号。各个音频信道信号10a、10b及20a、20b的数量在原则上是没有限制的。例如,在双声道立体声信号中,音频信道信号10a、10b及20a、20b的数量可为2。例如,双声道立体声信号可用于基于3D音频或耳机的环绕呈现,例如,使用HRTF过滤。
[0040]空间音频编码系统100可用于对ITU-T G.722、G.722附件(Annex) B、G.711.1和/或G.711.1附件D的立体声扩展进行编码。此外,空间音频编码系统100可用于移动应用中的语音和音频编码/解码,例如在3GPP EVS (增强型语音服务)编码译码器中界定的。
[0041]图2示意地更详细地示出了图1中的空间音频编码装置10。空间音频编码装置10可包括变换模块15、耦合到变换模块15的参数估计模块11、耦合到变换模块15的下混模块12、耦合到下混模块12的编码模块13及耦合到编码模块13和参数估计模块11的流模块14。
[0042]变换模块15可用于从时域到频域到多个音频信道信号10a、IOb施加变换,所述音频信道信号输入到空间编码模块10。下混模块12可用于从变换模块15接收变换的音频信道信号10a、IOb并且用于通过下混多个变换的音频信道10a、IOb来产生至少一个下混的音频信道信号。下混的音频信道信号的数量可为,例如小于变换的音频信道信号10a、10b的数量。例如,下混模块12可用于只产生一个下混的音频信道信号。编码模块13可用于接收下混的音频信道信号并且用于产生编码的音频比特流,该编码的音频比特流包括下混的音频信道信号。
[0043]参数估计模块11可用于接收多个作为输入的音频信道信号10a、10b并且用于计算多个音频信道信号IOa和IOb中的至少一者与预定频率范围上的参考音频信道信号之间的I⑶的多个信道间差I⑶值。参考音频信道信号可为,例如多个音频信道信号IOa和IOb中的一者。或者,它可能使用得自多个音频信道信号IOa和IOb中至少两个音频信道信号的下混的音频信号。参数估计模块11可进一步用于通过将多个I⑶值中的每一者乘以对应的频率相关加权因数,来对多个ICD值中的每一者计算加权的ICD值;并且用于通过加入所述多个加权的ICD值,来对预定的频率范围计算ICD范围值。
[0044]随后,I⑶范围值可输入到流模块14,该流模块14可用于产生输出音频比特流1,该输出音频比特流包括来自编码模块13的编码的音频比特流以及含有ICD范围值的量化表示的参数段。流模块14可进一步用于在音频比特流I的参数段中设置参数类型标志,用于指示计入音频比特流I中的ICD范围值的类型。
[0045]另外,流模块14可进一步用于在音频比特流中设置标志,该标志指示音频比特流I的参数段中ICD范围值的存在。该标志可为整个音频比特流I设置或包含在音频比特流I中的参数段中。这样,包含在音频比特流I中的ICD范围值的信令可以显式或隐式的方式发信号通知空间音频解码装置20。在显式与隐式信令方案之间可进行切换。
[0046]在隐式信令的情况下,该标志可指示参数段中的辅助数据中二级信道信息的存在。旧式解码装置20不检查此标志是否存在并且因此只对编码的下混音频比特流进行解码。另一方面,非旧式,即最新式的解码装置20可检查接收到的音频比特流I中此标志的存在并且基于额外的全频带空间编码参数,即包含在音频比特流I的参数段中的ICD范围值,来重建多信道音频信号20a、20b。
[0047]当使用显式信令时,整个音频比特流I可标记为含有I⑶范围值。这样,旧式解码装置20不能解码比特流并且因此丢弃音频比特流I。另一方面,最新式的解码装置20可决定是解码整个音频比特流I还是只对编码的下混音频比特流I进行解码而忽略ICD范围值。显式信令的优势可从此处看到,例如,新的移动终端可决定对音频比特流的哪部分进行解码,从而节约能量并且因此延长集成式电池的电池寿命。对空间编码参数进行解码通常更加复杂并且需要更多能量。另外,依靠呈现系统,最新式的解码装置20可决定应对音频比特流I的哪部分进行解码。例如,关于用耳机呈现,只对编码的下混音频比特流进行解码可能已经足够,而多信道音频信号只在移动终端连接到具有此多信道呈现功能的坞站时才进行解码。
[0048]图3示意地更详细地示出了图1中的空间音频解码装置20。空间音频解码装置20可包括比特流提取模块26、参数提取模块21、解码模块22、上混模块24及变换模块25。比特流提取模块26可用于接收音频比特流I并且将装入音频比特流I中的参数段与编码的下混音频比特流分离。参数提取模块21可用于检测接收到的音频比特流I的参数段中的参数类型标志,该参数类型标志用于指示计入音频比特流I中的ICD范围值。参数提取模块21可进一步用于从接收到的音频比特流I的参数段读取ICD范围值。
[0049]解码模块22可用于对编码的下混音频比特流进行解码并且用于将解码的上混音频信号输入到上混模块24中。上混模块24可耦合到参数提取模块21并且用于使用从接收到的音频比特流I的参数段读取的ICD范围值,来将解码的下混音频信号上混为多个音频信道信号,所述ICD范围值由参数提取模块21提供。最后,变换模块25可耦合到上混模块24并且用于基于多个音频信道信号而将多个音频信道信号从频域变换到时域,用于声音的重现。
[0050]图4示意地示出了用于参数空间编码的方法30的实施例。方法30在第一步骤中包括对输入信道,例如输入信道10a、10b执行时-频变换。在立体声信号的情况下,第一变换在步骤30a执行,而第二变换在步骤30b执行。在每一种情况下,该变换可通过使用快速傅立叶变换(FFT)来执行。或者,可执行短时傅立叶变换(STFT)、用余弦调制滤波器组进行的余弦调制滤波或用复数滤波器组进行的复数滤波。
[0051]在第二步骤31中,可对每个子带计算交叉谱c [b],如
【权利要求】
1.一种用于估计信道间差I⑶的方法(30),包括: 对多个音频信道信号进行(30a,30b)从时域到频域的变换; 计算(31,32)在所述多个音频信道信号中的至少一者与预定频率范围内的参考音频信道信号之间的所述ICD的多个ICD值,每个ICD值在所述预定频率范围的一部分内进行计算; 通过将所述多个ICD值中的每一者乘以对应的频率相关加权因数,来对所述多个ICD值中的每一者计算(35)加权的ICD值;以及 通过加入所述多个加权的ICD值,来对所述预定的频率范围计算(36) ICD范围值。
2.根据权利要求1所述的方法(30),其中所述ICD是信道间相位差iro或信道间时间差 ITD0
3.根据权利要求1和2中的一项权利要求所述的方法(30),其中从时域到频域的所述变换包括以下项中的一者:快速傅立叶变换FFT、余弦调制滤波器组、离散傅立叶变换DFT以及复数滤波器组。
4.根据权利要求1至3中的一项权利要求所述的方法(30),其中所述预定的频率范围包括以下项中的一者:所述多个音频信道信号的全频带、所述多个音频信道信号的所述全频带内的预定频率间隔,以及所述多个音频信道信号的所述全频带内的多个预定频率间隔。
5.根据权利要求4所述的方法(30),其中所述预定的频率间隔在200Hz与600Hz之间或在300Hz与1.5kHz之间。
6.根据权利要求1至5中的一项权利要求所述的方法(30),其中所述参考音频信道信号包括所述音频信道信号中的一者或从所述多个音频信道信号中至少两个音频信道信号导出的下混音频信号。
7.根据权利要求1至6中的一项权利要求所述的方法(30),其中计算所述多个ICD值包括基于频率子带来计算所述多个ICD值。
8.根据权利要求7所述的方法(30),其中所述频率相关加权因数基于所述频率子带的能量来确定,所述频率子带的能量基于所述预定频率范围上的总能量而归一化。
9.根据权利要求7所述的方法(30),其中所述频率相关加权因数基于在所述预定的频率范围上归一化的所述音频信道信号的频率的能量分布的掩蔽曲线来确定。
10.根据权利要求7所述的方法(30),其中所述频率相关加权因数基于在所述预定的频率范围上归一化的、所述音频信道信号的所述子带的感知熵值来确定。
11.根据权利要求1至10中的一项权利要求所述的方法(30),其中所述频率相关加权因数在至少两个相邻帧之间为平滑的。
12.—种空间音频编码装置(10),包括: 变换模块(15),所述变换模块用于对多个音频信道信号(10a ;10b)应用从时域到频域的变换;以及 参数估计模块(11),所述参数估计模块用于:计算在所述多个音频信道信号(10a;10b)中的至少一者与预定频率范围上的参考音频信道信号之间的所述ICD的多个ICD值;通过将所述多个ICD值中的每一者乘以对应的频率相关加权因数,来对所述多个ICD值中的每一者计算加权的ICD值;并且通过加入所述多个加权的ICD值,来对所述预定的频率范围计算I⑶范围值。
13.根据权利要求12所述的空间音频编码装置(10),进一步包括: 下混模块(12),所述下混模块用于通过下混所述多个音频信道数据信号(10a ;10b)来产生下混的音频信道信号。
14.根据权利要求13所述的空间音频编码装置(10),进一步包括: 编码模块(13),所述编码模块耦合到所述下混模块(12)并且用于产生编码的音频比特流,所述编码的音频比特流包括所述编码的下混的音频比特流。
15.根据权利要求12至14中的一项权利要求所述的空间音频编码装置(10),进一步包括: 流模块(14),所述流模块耦合到所述参数估计模块(11)并且用于产生音频比特流(I ),所述音频比特流包括下混的音频比特流及辅助数据,所述辅助数据包括所述多个音频信道信号(IOa ; IOb)的所述I⑶范围值。
16.一种具有程序代码的计算机程序,所述程序代码在计算机上运行时执行根据权利要求I至11中的一项权利要求`所述的方法。
【文档编号】H04S3/00GK103534753SQ201280023292
【公开日】2014年1月22日 申请日期:2012年4月5日 优先权日:2012年4月5日
【发明者】郎玥, 大卫·维雷特, 许剑峰 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1