用于编码和解码音频信号的冲激响应的方法

文档序号：2819091阅读：254来源：国知局

专利名称：用于编码和解码音频信号的冲激响应的方法
技术领域：
本发明涉及一种用于编码和解码音频信号的冲激响应的方法和设备，更具体地，一种用于描述根据MPEG-4音频标准编码为音频对象的声音源的呈现的方法和设备。
背景技术：
自然回响(也缩写为回响)是由封闭房间内的反射表面导致的声音逐渐衰落的效果。由声源发出的声音撞击墙体表面并以多种角度反射。一些反射是可以立即被察觉的，而其他反射继续由其他表面反射，直到被察觉。坚硬且厚重的表面以中等衰减反射声音，而较软的表面吸收更多的声音，尤其是高频分量。房间尺寸、复杂性、墙体的角度、表面的属性和房间内容的组合定义了房间的声音特性并由此定义了回响。
由于回响是时不变效应，可以通过在记录或回放期间，将房间的冲激响应应用于音频信号来再创建。可以将房间的冲激响应理解为房间对瞬时、全频率声音脉冲的响应，为回响的形式，通常看上去像衰落的噪声。如果数字化房间冲激响应可用，数字信号处理允许在任何数字化的“枯燥(dry)”声音上添加额外的房间特性。同样，可以仅通过利用不同的房间冲激响应，将音频信号置于不同的空间中。
传输和使用实际(即测量)房间冲激响应从而以此房间特性再现声音信号已经成为近年来研究和发展的目标。使用MPEG-4音频和系统标准ISO/IEC 14496中所定义的MPEG-4，由于以下问题，传输长冲激响应是困难的1.可以将房间冲激响应加载到MPEG-4播放器中，作为MPEG-4“样本转储(sample dumps)”，这是一种需要全结构化音频(SA，MPEG-4音频编程语言)实现的技术，包括具有适当MIDI和SA轮廓(profile)的MIDI。这种解决方案对代码、复杂性和执行能力的要求非常高，因此目前对于MPEG-4播放器并不实际，甚至在未来的设备中也不可用。
2.通过使用“DirectiveSound”节点(尤其针对虚拟现实应用而定义)来使用合成房间冲激响应的缺点在于这种参数合成房间冲激响应与实际测量到的房间冲激响应明显不同，并且具有非常不自然的声音。
3.由于上述现有的可能但非最优解决方案1和2，而且在任何可能的情况下，应当避免新节点的引入，添加专门设计用于传输和使用实际房间冲激响应的新节点是不必要的。
4.对房间冲激响应施加与音频信号本身相同的编码是不合理的。典型的MPEG音频编码方案利用了心理声学现象，尤其适合于通过抑制不易察觉的音频信号部分来缩减音频数据率。但是，由于房间冲激响应不与人耳相关而是与房间的特性相关，将心理声学应用于房间冲激将导致歪曲。

发明内容
本发明的目的在于提供一种用于编码音频信号的冲激响应的方法，与MPEG-4标准相兼容，但克服了上述问题。此目的通过权利要求1所述的方法来实现。
本发明基于对以下事实的认知。在MPEG-4系统标准中，所谓的AudioFX节点和AudioFXProto方案定义为描述音频效果。AudioFX节点(AudioFXProto方案)中的128个浮点值的阵列(称为params[128])用于提供控制音频效果的参数。这些参数可以在效果的持续时间内固定，或者例如，可以按照每个帧更新进行更新，以实现时间相关的效果，如淡入/淡出等。上述params[128]阵列的使用受限于每帧传输特定数量的控制参数。由于128个数值的限制，扩展信号的传输是不可能的，128个数值对于扩展冲激响应而言是极为有限的。
因此，根据本发明的、用于编码音频信号的冲激响应的方法在于以下事实产生声源的冲激响应，并将表示所产生的冲激响应的参数插入到多个连续的控制参数字段中，尤其是连续的params[128]阵列中，其中第一控制参数字段包含与随后字段的个数和内容有关的信息。
此外，本发明的目的在于提供一种用于解码音频信号的冲激响应的对应方法。此目的通过权利要求6所述的方法来实现。
原理上，根据本发明的、用于解码音频信号的冲激响应的方法在于以下事实从多个连续的控制参数字段(尤其是连续的params[128]阵列)中分离表示冲激响应的参数，其中第一控制参数字段包含与随后字段的个数和内容有关的信息。将分离出的参数存储在节点的附加存储器中，并在计算房间特性期间，使用所存储的参数。
本发明的其他有利实施例可以由从属权利要求、以下的描述和附图中得出。

根据图1，对本发明的典型实施例进行了描述，图1示意性地示出了根据本发明、使用连续控制参数字段的AudioFXProto方案的、示例BIFS场景。
具体实施例方式
图1所示的BIFS场景示出了MPEG-4二进制流1和MPEG-4解码器的三个处理层2、3、4。解复用/解码层2通过将三个音频信号流馈入各个音频解码器5、6、7(例如G723或AAC解码器)，对其进行解码，以及使用BIFS解码器8，对BIFS流进行解码。解码后的BIFS流例示并配置音频BIFS层3，并提供在音频BIFS层3和上面的BIFS层4中、针对节点内的信号处理的信息。来自解码器5、6、7的解码音频信号流用作音频源节点9、10和11的音频输入。通过在将由AudioMix节点13下混频的信号通过Sound2D节点14馈入输出端之前，在AudioFXProto 12中施加房间冲激响应，来自音频源节点11的信号获得了额外的效果。多个连续的params[128]字段(在图中以连续的块15、16、17、18表示)用于传输完整的房间冲激响应，其中第一块15包括一般信息，如包含房间冲激响应的各个部分的后续params[128]字段的个数等。在AudioFXProto实施方式中，在开始信号处理之前，必须重新收集完整的房间冲激响应。
为了易于理解此MPEG-4特有实施例，在对本发明的实施例进行更为详细的讨论之前，给出相关MPEG-4细节的简要解释。
MPEG-4通过支持音频对象的表示，促进了多种应用。为了组合音频对象，附加信息(所谓的场景描述)确定了空间和时间上的布局，并与编码音频对象一起传输。在传输之后，对音频对象进行分离地解码，并利用场景描述进行组合，以便准备单一的表示，然后将其呈现给听众。
考虑到效率，MPEG-4系统标准ISO/IEC 14496定义了以二进制表示对场景描述进行编码的方式，所谓的场景二进制信息(BIFS)。相应地，其针对音频处理而确定的子集是所谓的AudioBIFS。场景描述是层级结构的，并且可以表示为图表，其中图表的叶节点形成了分离的对象，而其他节点描述处理，如定位、缩放、效果等。可以在场景描述节点中利用参数控制分离对象的外观和行为。
所谓的AudioFX定义为根据音频编程语言“结构化音频”(SA)来描述音频效果。应用结构化音频需要较高的处理能力，并且需要结构化音频编译器或解译器，限制了在处理能力和实现复杂度受到限制的产品中的应用。
但是，通过使用MPEG 4系统标准中所定义的Proto机制，可以实现简化，所述Proto机制是针对BIFS语言的专用宏机制。针对消费产品，定制AudioFXProto方案，并允许没有结构化音频能力的播放器使用基本的音频效果。PROTO应当封装AudioFX节点，从而使具有结构化音频能力的增强MPEG 4播放器能够直接解码SA令牌流。较为简单的消费播放器只识别效果，并在可用时，从内部效果表示开始。AudioFXProto方案的一个字段是params[128]字段。此字段通常包含用于效果的实时控制的参数。本发明现在使用针对此params[128]字段(受限于128个浮点值的数据块长度(32位浮点))的多个连续字段更新，以便将长度大于128个浮点值的复杂系统参数(如房间冲激响应)用在一个效果中。第一params[128]字段包含与随后字段的个数和内容有关的信息。这表示对字段更新的扩展，所述字段更新缺省地只以一个params[128]字段进行。传输任意长度的数据成为可能。然后，可以将这些数据存储在附加存储器中，并且可以在计算效果时使用。理论上，也可以在运算期间替代或修改字段的特定部分，以便保持所传输的数据的数量尽可能的小。
具体地，用于将自然房间冲激响应应用于MPEG-4场景的特有AudioFXProto(称为audioNaturalReverb)包含以下参数第一params[]字段

后续params[]字段

audioNaturalReverb PROTO使用不同声音信道的冲激响应来创建回响效果。由于这些冲激响应可以非常长(对于大教堂或大厅达几秒)，一个params[]阵列不足以传输完整的数据集合。因此，按照如下方式使用一批连续的params[]阵列第一块params[]包含与后续params[]字段有关的信息numParamsFields字段确定要使用的后续params[]字段的个数。NaturalReverb PROTO必须提供足够的存储器来存储这些字段。
numImpResp定义了冲激响应的个数。
reverbChannels字段定义了冲激响应到输入信道的映射。
impulseResponseCoding字段示出了如何对冲激响应进行编码(见下表)。

情况1可以用于减小稀疏冲激响应的长度。
可以定义额外的数值以实现房间冲激响应的可扩缩传输。广播模式下的一个有利示例可以是频繁传输房间冲激响应的短版本而较不频繁地传输长序列。另一有利示例是交织模式，频繁传输房间冲激响应的第一部分，而较不频繁地传输房间冲激响应的后续部分。
字段应当如下映射到第一params[]阵列numParamsFields ＝params
numRevChan ＝params[1]sampleRate ＝params[2]reverbChannels
＝params [3...3+numRevChan-1]impulseResponseCoding ＝params [3+numRevChan]后续params[]字段包含numImpResp个连续冲激响应，如下impulseResponseLength给出了后续impulseResponse的长度。
将impulseResponseLength和impulseResponse重复numImpResp次。
字段应当如下映射到后续params[]阵列impulseResponseLength＝params
impulseResponse＝params[1...1+impulseResponseLength]...
为了根据规定的参数计算回响，可以应用不同的方法，得到回响声音信号，作为输出。
本发明允许传输和使用扩展房间冲激响应来再现声音信号，克服了MPEG-4标准中的控制参数长度限制。但是，本发明也可以应用于具有类似限制的其他系统或MPEG-4标准中的其他功能。
权利要求
1.一种用于编码音频信号的冲激响应的方法，其中所述冲激响应允许与特定房间特性相对应地再现声音信号，所述方法包括产生声源的房间冲激响应；以及将表示所产生的冲激响应的参数插入到多个连续的控制参数字段(15、16、17、18)中，其中第一控制参数字段(15)包含与后续的控制参数字段的个数和内容有关的信息。
2.根据权利要求1所述的方法，其特征在于利用MPEG 4标准对声音信号进行编码，以及利用针对params[128]字段的多个连续字段更新，通过PROTO机制中的结构化音频接口传输房间冲激响应。
3.根据权利要求1或2所述的方法，其特征在于实现房间冲激响应的可扩缩传输。
4.根据权利要求3所述的方法，其特征在于在广播模式下，频繁地传输房间冲激响应的短版本，而较不频繁地传输长序列。
5.根据权利要求3所述的方法，其特征在于在交织模式下，频繁地传输房间冲激响应的第一部分，而较不频繁地传输房间冲激响应的后续部分。
6.一种用于解码音频信号的冲激响应的方法，其中所述冲激响应允许与特定房间特性相对应地再现声音信号，所述方法包括从多个连续的控制参数字段中分离表示冲激响应的参数，其中第一控制参数字段包含与后续的控制参数字段的个数和内容有关的信息；将分离出的参数存储在节点的附加存储器中；以及在计算房间特性期间，使用所存储的参数。
7.根据权利要求6所述的方法，其特征在于利用MPEG 4标准对声音信号进行解码，以及利用针对params[128]字段的多个连续字段更新，通过PROTO机制中的结构化音频接口接收房间冲激响应。
8.根据权利要求6或7所述的方法，其特征在于在所述房间冲激响应的可扩缩传输之后，接收房间冲激响应。
9.根据权利要求8所述的方法，其特征在于在广播模式下，频繁地接收房间冲激响应的短版本，而较不频繁地接收长序列。
10.根据权利要求8所述的方法，其特征在于在交织模式下，频繁地接收房间冲激响应的第一部分，而较不频繁地接收房间冲激响应的后续部分。
11.一种用于执行根据前述权利要求之一所述的方法的设备。
全文摘要
通过以下步骤使传输和使用实际(即测量)房间冲激响应从而与MPEG－4标准相兼容地、以此房间特性再现声音信号成为可能将冲激响应插入到多个连续的控制参数字段(15、16、17、18)中，尤其是params[128]阵列。第一控制参数字段(15)包含与随后字段的个数和内容有关的信息。为了呈现声音信号，分离连续的控制参数字段的内容，将其存储在节点(12)的附加存储器中，并在计算房间特性时使用。
文档编号G10H1/00GK1886781SQ200480034848
公开日2006年12月27日申请日期2004年11月18日优先权日2003年12月2日
发明者于尔根·施密特, 克劳斯·艾尔茨-格林申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于尔根.施密特;克劳斯.艾尔茨－格林
技术所有人：汤姆森许可贸易公司
我是此专利的发明人