编码混响声音信号的制作方法

文档序号：2829045阅读：397来源：国知局

专利名称：编码混响声音信号的制作方法
技术领域：
本发明涉及音频信号编码领域。尤其是，本发明涉及对混响音频信号进行高效编码的领域。本发明涉及一种编码器、一种解码器、用于编码和解码的方法、一种编码的音频信号、具有表示这种编码信号的数据的存储和传输介质、以及具有编码器和/或解码器的音频设备。
混响是由在其中记录声音的环境例如音乐厅的音响效果引起的。它由相对于该环境表面的反射构成。因此，所记录的声音信号不仅包含直达“干(dry)”音频信号，而且包含一系列延迟和衰减的反射。即混响分量由直达“干”声音的延迟和衰减的形式构成，结果，该混响分量与该直达信号相关。这里，“干”是指“无回声的”，即基本上不包含回声或混响。
实验显示，一些非透明的声音编解码器并不通过对具有大量混响的声音信号进行编码而正确地运行，即这些编解码器产生具有清楚可听的人工产物(artefact)的声音信号。然而，相同的声音编解码器可以对具有非常或纯粹“干”信号的声音信号、即在无回声的环境中记录的声音信号或者不添加混响的人工创建的声音运行良好。
在许多应用中，混响被认为是声音信号的负面特性。例如，当语音包含混响时，自动语音识别系统的性能会降级，并且在通信应用中，混响对语音的可理解性和质量产生消极的影响。该问题的解决方案可以是从信号中除去混响，即去混响，并且这也在一些系统中被实现(Basbug等人，2003)，参见参考文献的列表。
然而，在高质量的音频编码中，情形有所不同。音频编码争取透明性，并因此也需要对混响进行编码。而且，在音乐中混响分量是信号的重要部分，并且具有该分量的音频信号比没有该分量的信号更受欢迎，没有该分量的信号听起来“干”或单调乏味，并且该声音缺乏记录环境的显著个性。
据本发明人所知，在现有技术中没有采取专门的预防措施来对声音信号的混响分量进行编码，这会导致质量问题。
可以视为本发明的目的的是，提供一种通过使用音频编解码器而能够高质量地处理混响音频信号的方法以及音频编码器和解码器。
根据本发明的第一方面，该目的通过提供一种适于对音频信号进行编码的音频编码器而被履行，该音频编码器包括-分离装置，适于将音频信号分为基本上无回声的音频信号和描述与该音频信号相关的混响场的信息，-编码器装置，适于将所述基本上无回声的音频信号编码为第一编码信号部分，以及将描述混响场的信息编码为第二编码信号部分。
该分离装置用来将音频信号分为无回声的即“干”部分，以及分为有关涉及该音频信号的混响方面的信息。换句话说，对该音频信号进行去混响，并且提取描述与该音频信号相关的混响场的信息，即能够基本上透明地再造混响的信息。
该编码器装置分别地处理该“干”部分和混响部分。因此，有可能将用于编码“干”部分的音频编解码器应用于第一编码信号部分，同时可以根据适于描述混响的完全不同的算法来编码混响部分，例如对于在编码器处基本上再造该信号的混响部分足够精确的参数描述。
这减轻了音频编解码器编码混响分量的任务，从而解决了编码混响声音信号的问题。作为替代，用于编码混响音频信号的混响部分的装置可以包括基于例如使用非常有限数目的参数的、原始音频信号的混响部分的参数描述的混响算法。结果，参数编解码器可以单独用来编码非常适合这种编解码器的“干”信号。由此，有可能与用于编码混响音频信号的混响部分的装置相结合来利用音频编解码器，基本上透明地编码和解码混响音频信号。
另外，与直接编码混响声音信号相比，编码效率得到提高。这归因于这样的事实，即根据第一方面的编码器最大程度地利用通过混响场引入到声音信号中的相关性，从而导致更高的编码效率。即，专门考虑混响部分中的冗余性。
在一个实施例中，编码器可以适于根据参数音频编解码器来编码基本上无回声的音频信号。例如(Schuijers等人，2003)。在另一优选实施例中，分离装置适于将Unoki的去混响算法应用于音频信号，以便将其分为基本上无回声的部分和描述混响场的信息。Unoki的去混响算法被理解为在下述中描述的去混响原理M.Unoki，M.Furukawa，K.Sakata和M.Akagi的“A Method based on the MTF Concept fordereverberating the Power Envelope from the Reverberant Signal”，inProc.IEEE Int.Conf.on Acoust.，Speech，Signal Processing，Hong Kong，China，April 6-19，Vol.I，pp.840-843，2003。由此该论文被结合以供参考。
本发明的第二方面提供一种音频解码器，其适于由具有第一和第二部分的编码音频信号再生音频信号，该音频解码器包括-解码器装置，适于将第一编码信号部分解码为基本上无回声的音频信号，该解码器装置还适于由第二编码信号部分生成描述与该音频信号相关的混响场的信息，以及-变换装置，适于基于描述混响场的信息来将混响添加到基本上无回声的音频信号上。
因此，根据第二方面的音频解码器适于解码来自根据第一方面的音频编码器的编码信号，并从而构成一个编码器/解码器系统。
在解码器装置中重建“干”信号。然后基于混响信息通过变换装置来将混响添加到“干”信号上。这从现有的人工混响发生器或房间模拟器可知，它们能够基于几个参数来产生高音频质量的混响。该方法的特别优点即在解码器中添加混响在于，该混响屏蔽了解码的“干”信号中的一些潜在人工产物。
优选地，变换装置包括用于将该再生的无回声音频信号与作为时间t的函数的脉冲响应h(t)进行卷积的装置，其中h(t)基于第二编码信号部分。
优选地，第二编码信号部分包括下述的表示-与音频信号的混响时间相关的第一参数T，以及-与音频信号的混响幅度相关的第二参数A。
该解码器装置可以适于根据参数音频编解码器来解码第一编码信号部分。
在第三方面，本发明提供一种编码音频信号的方法，包括以下步骤-将音频信号分为基本上无回声的部分和描述与该音频信号相关的混响场的信息，-将所述音频信号的基本上无回声部分编码为第一编码信号，
-将描述混响场的信息编码为第二编码信号。
在第四方面，本发明提供一种解码表示原始音频信号的编码音频信号的方法，该方法包括以下步骤-将第一编码信号部分解码为第一音频信号，-将第二编码信号部分解码为描述与原始音频信号相关的混响场的信息，以及-基于描述混响场的信息，通过添加混响来变换第一音频信号，以便再生该原始音频信号。
在第五方面，本发明提供一种表示原始音频信号的编码音频信号，该编码信号包括-第一部分，表示该原始音频信号的基本上无回声的部分，以及-第二部分，表示有关与该原始音频信号相关的混响场的信息。
该编码信号可以是具有根据标准数字音频格式的格式的数字电信号。该信号可以利用两个音频设备之间的电连接电缆来传输。然而，该编码信号可以是无线信号，例如使用射频载波的空中传播的信号，或者它可以是适于利用光纤传输的光信号。
在第六方面，本发明提供一种存储介质，包括表示根据第五方面的编码音频信号的数据。该存储介质优选是标准的音频数据存储介质，例如DVD、CD、可读写CD、小型光盘、MP3盘、小型闪存，记忆棒等等。然而，它还可以是计算机数据存储介质，例如计算机硬盘、计算机存储器、软盘等等。
在第七方面，本发明提供一种包括根据第一方面的音频编码器的音频设备。
在第八方面，本发明提供一种包括根据第二方面的音频解码器的音频设备。
根据第七和第八方面的优选音频设备是所有不同类型的磁带、磁盘或基于存储器的音频记录器和播放器。例如MP3播放器、DVD播放器以及用于计算机的音频处理器等等。另外，它对于移动电话会是有利的。
在下文中参考附

图1对本发明进行更详细的描述，附图1说明了根据本发明的优选编码器和解码器的框图。
尽管本发明容易进行各种变型和替代形式，但是已经通过附图中的例子示出了特定实施例，并将在此对其进行详细描述。然而，应当理解，本发明并不打算限于所公开的特定形式。更确切地说，本发明要覆盖落在如由所附权利要求书限定的本发明的精神和范围之内的所有变型、等同和替代方案。
图1示出了相对于信号流说明编码器1和解码器2的优选实施例的原理的框图。
在编码器1的输入端IN接收音频信号。首先，由混响提取器REVEXT处理该音频信号。此处，使用Unoki的去混响算法(Unoki等人，2003)对该音频信号进行去混响。应当注意，对于单声道信号，从混响音频信号中提取混响分量并非是无足轻重的。然而，该提取不必是完全的，并且增益可能已经通过除去混响场部分而获得。对于多声道信号，已经存在良好的去混响算法。
然后，在例如(Schuijers等人，2003)中描述的编码器装置ENC中的SSC编码器部分中对所得到的“干”信号进行编码，同时该编码器装置ENC的另一部分对由混响提取器REV EXT提取的混响部分进行编码。来自编码器1的输出具有两部分第一部分是由编码器装置ENC的SSC编码器部分提供的比特流3，以及第二部分包括由混响提取器REV EXT提供的两个混响参数4，即所除去的原始音频信号的混响部分的参数描述。优选地，这两个混响参数4是混响时间TR和混响幅度常数A，它们与原始音频信号的混响部分相对于该音频信号的“干”部分的电平相关，是房间混响脉冲响应h(t)的非常简短的描述。也可以在信号的开始发送完整的房间混响脉冲响应h(t)，并且当需要时在信号期间进行更新；这也是高效的，因为h(t)通常变化缓慢或者根本不变化。编码器装置ENC中对混响部分进行编码的编码器部分高度依赖于由混响提取器REV EXT所传送的混响部分的实际形式。在混响提取器REV EXT仅传送几个混响参数的情况下，混响部分的编码可以被说成是包含在提取本身当中，从而编码器装置ENC可能不需要对从混响提取器REV EXT接收到的混响部分添加进一步的编码。
解码器2从编码器1接收SSC编码的信号3和两个混响参数4。应当理解，图1仅仅说明了编码器/解码器系统的原理。编码信号3、4或表示这些信号3、4的数据通常可以存储在数据载体或存储介质上，例如用于MP3播放器的音频盘等。
在解码器2中，由解码器装置DEC的SSC解码器部分对SSC编码的信号3进行解码，从而恢复基本上“干”的音频信号。然后，将该恢复的“干”信号馈送给混响处理器REV。该混响处理器REV还接收已经由解码器装置DEC的另一部分解码的两个混响参数4，并且基于这些参数4，混响处理器REV基于在这两个混响参数4中所提取的混响信息生成脉冲响应，即基于这两个混响参数4创建房间脉冲响应。通过与所生成的混响脉冲响应进行卷积，将原始音频信号的混响部分施加给来自解码器装置DEC的SSC解码器部分的所恢复“干”音频信号。因此将所恢复的“干”音频信号变换为恢复的或者至少基本上恢复的原始音频信号。最终，在编码器2的输出端OUT提供此恢复的原始音频信号。
在混响处理器REV中生成的房间混响脉冲响应h(t)优选是下述的形式，其中t表示时间h(t)＝A*exp(-6.9 t/TR)*n(t)，其中n(t)为白噪声信号。
原则上本发明可以与任何音频编码器结合起来使用，例如(Schuijers等人，2003)中描述提及的SSC编码器，该SSC编码器目前在MPEG中被标准化，并且本发明可以与任何去混响算法结合起来使用。
根据本发明的编码器和解码器可以在具有数字信号处理器的单个芯片上实现。然后可以将该芯片嵌入到与这种设备的信号处理器能力无关的音频设备中。也可以仅仅通过在应用设备的主信号处理器上运行的算法来替代地实现这些编码器和解码器。
在权利要求书中，仅仅为了清楚的原因而包含附图的参考标记。附图中示范性实施例的这些参考文献无论如何都不应当解释为对权利要求范围的限制。
参考文献列表F. Basbug，K. Swaminathan，and S.Nandkumar，“Noise Reduction and EchoCancellation Front-End for Speech Codecs，”IEEE Transactions on Speech and AudioProcessing，vol.11，no.1，2003.
E. Schuijers，W.Oomen，B.den Brinker，J. Breebaart，“Advances inParametric Coding for High-Quality Audio，” in Proc. of the 114th AES Convention 2003March 22-25 Amsterdam， The Netherlands， 2003.
M. Unoki，M. Furukawa，K. Sakata，and M. Akagi，“A Method based on theMTF Concept for dereverberating the Power Envelope from the Reverberant Signal，”in Proc.IEEE Int. Conf. on Acoust.，Speech，Signal Processing，Hong Kong，China，April 6-19，Vol.I，pp. 840-843，2003.
权利要求
1.一种适于对音频信号进行编码的音频编码器(1)，该音频编码器(1)包括-分离装置，适于将音频信号分为基本上无回声的音频信号和描述与该音频信号相关的混响场的信息，-编码器装置，适于将所述基本上无回声的音频信号编码为第一编码信号部分(3)，以及将描述混响场的信息编码为第二编码信号部分(4)。
2.根据权利要求1所述的音频编码器(1)，其中所述分离装置适于将Unoki的去混响算法应用于音频信号，以便将其分为基本上无回声的部分和描述混响场的信息。
3.根据权利要求1所述的音频编码器(1)，其中所述编码器装置适于根据参数音频编解码器对基本上无回声的音频信号进行编码。
4.一种适于由具有第一(3)和第二部分(4)的编码音频信号再生音频信号的音频解码器(2)，该音频解码器(2)包括-解码器装置，适于将第一编码信号部分(3)解码为基本上无回声的音频信号，该解码器装置还适于由第二编码信号部分(4)生成描述与该音频信号相关的混响场的信息，以及-变换装置，适于基于描述混响场的信息来将混响添加到基本上无回声的音频信号上。
5.根据权利要求4所述的音频解码器(2)，其中所述变换装置包括用于对基本上无回声的音频信号与作为时间t的函数的脉冲响应h(t)进行卷积的装置，其中h(t)基于描述混响场的信息。
6.根据权利要求5所述的音频解码器(2)，其中所述解码器装置适于由第二编码信号部分(4)生成-与音频信号的混响时间相关的第一参数T，以及-与音频信号的混响幅度相关的第二参数A。
7.根据权利要求6所述的音频解码器(2)，其中所述变换装置适于基于所述第一和第二参数来将所述脉冲响应h(t)计算为h(t)＝A*exp(k*t/T)*n(t)，其中k表示常数，以及n(t)表示噪声信号。
8.根据权利要求4所述的音频解码器(2)，其中该解码器装置适于根据参数音频编解码器来解码第一编码信号部分(3)。
9.一种编码音频信号的方法，包括以下步骤-将音频信号分为基本上无回声的部分和描述与该音频信号相关的混响场的信息，-将所述音频信号的基本上无回声部分编码为第一编码信号，-将描述混响场的信息编码为第二编码信号。
10.一种解码表示原始音频信号的编码音频信号的方法，该方法包括以下步骤-将第一编码信号部分解码为第一音频信号，-将第二编码信号部分解码为描述与原始音频信号相关的混响场的信息，以及-基于描述混响场的信息，通过添加混响来变换第一音频信号，以便再生该原始音频信号。
11.表示原始音频信号的编码音频信号(3)、(4)，该编码信号(3)、(4)包括-第一部分(3)，表示该原始音频信号的基本上无回声的部分，以及-第二部分(4)，表示有关与该原始音频信号相关的混响场的信息。
12.一种存储介质，包括表示根据权利要求11所述的编码音频信号(3)、(4)的数据。
13.包括根据权利要求1所述的音频编码器(1)的音频设备。
14.包括根据权利要求4所述的音频解码器(2)的音频设备。
全文摘要
本发明涉及一种音频编码器和解码器以及用于音频编码和解码的方法。在编码器中，优选通过仅使用诸如混响时间和混响幅度的几个参数的表示，将音频信号分成无回声信号部分和关于与该音频信号相关的混响场的信息。然后使用音频编解码器对无回声信号进行编码。在解码器处，使用音频编解码器恢复该无回声信号部分，并且通过根据有关该混响场的信息来施加混响，优选通过与基于该混响场信息生成的房间脉冲响应进行卷积，将所恢复的无回声信号变换成基本上原始的音频信号。根据本发明，所涉及的音频编解码器只需要能够对无回声音频信号进行编码，从而解决了参数音频编解码器对混响音频信号提供差的性能的问题。
文档编号G10L19/00GK1965610SQ200580018839
公开日2007年5月16日申请日期2005年6月3日优先权日2004年6月8日
发明者N·H·范施恩德尔, A·J·杰里茨, C·博斯卡里诺申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N.H.范施恩德尔;A.J.杰里茨;C.博斯卡里诺
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人