数字音频信号中的前回声衰减的制作方法

文档序号：2823225阅读：227来源：国知局

专利名称：数字音频信号中的前回声衰减的制作方法
技术领域：
本发明涉及一种用于在数字音频信号的解码期间、对前回声(pre-echo)进行衰减的方法和装置。
背景技术：
为了在传送网络上进行数字音频信号的传输(所述传送网络例如是固定或移动网络)，或者为了存储信号，使用了用于实现基于变换的频率编码或时间编码类型的编码系统的压缩处理(或源编码)。因此，作为本发明主题的方法和装置具有声音信号(具体地，通过频率变换而编码的数字音频信号)的压缩，作为应用领域。图1通过图示表现了根据现有技术的通过包括添加/重叠分析_综合的变换来编码和解码数字音频信号的基本图。诸如打击乐器的某些音乐序列和诸如爆破音(/k/，/t/,...)的某些语音片段的特征在于非常突然的冲击(attack)，所述冲击导致在几个采样的空间中信号的非常快的转变和动态摆动的非常强的变化。在图1中基于采样410来给出了示范转变。对于编码/解码处理，输入信号被切分为长度L的采样块(这里，用垂直虚线了表现所述采样块)。输入信号被表示为x(n)。到连续块的切分导致了定义块Xn= [x(N. L)... χ (N. L+L-1)] = [XN(0)...XN(L-1)]，其中N是帧的索弓丨，并且L是帧的长度。在图1 中，我们具有L= 160个采样。在修正的余弦调制变换MDCT (代表“修正的离散余弦变换”) 的情况下，联合地分析两个块xN (η)和χΝ+1 (η)，以给出与索引为N的帧相关联的变换系数的块。通过变换编码进行的到块(也称为帧)的划分完全地独立于声音信号，并因此转变出现在分析窗口的任何点处。现在，在变换解码之后，所重构的信号被由量化(Q)-逆量化(Q—1)运算产生的“噪声”(或失真)所毁坏。这个编码噪声以相对均勻的方式而时间分布在所变换块的整个时间支持(temporal support)上，即在采样的长度为2L(其中L个采样重叠)的整个窗口长度上。编码噪声的能量一般与块的能量成比例，并且取决于解码速率。对于包括冲击的块(诸如，图1的块320-340)，信号的能量高，因此噪声也为高电平。在变换编码中，编码噪声的电平低于用于紧随在转变之后的高能量采样的信号的电平，但是该电平高于用于(特别是在所述转变之前的部分(图1的采样160-410)上的) 较低能量的采样的信号的电平。对于前述部分，信噪比为负，并且结果生成的劣化在侦听期间可能显得非常烦人。在转变之前的编码噪声被称为前回声，而在转变之后的噪声被称为后回声(post-echo) ο在图1中可以观察到，前回声影响在所述转变之前的帧以及出现所述转变的帧。心理声学实验已经示出了人耳执行相当有限的、几个毫秒量级的声音的时间预掩蔽(pre-masking)。当前回声的持续时间大于预掩蔽的持续时间时，在所述冲击之前的噪声或者前回声是可听得到的。当从高能量序列切换到低能量序列时，人耳还执行从5到60毫秒的更长持续时间的后掩蔽(post-masking)。因此，后回声的可接受程度或者烦人的水平大于前回声。在采样数目方面的块的长度越大，则前回声的更严重现象就越烦人。现在，在变换编码中，必须具有最重要频区的可靠分辨率。在固定的采样频率上并且在固定的速率上，如果窗口的点数增加，则更多比特将可用于对被心理声学模型认为有用的频谱线进行编码，因此即为使用大长度的块的优点。MPEG AAC编码(高级音频编码)例如使用大长度的窗口，该窗口包含采样的固定数目2048，即以32kHz的采样频率在64ms的持续时间上。用于传统应用的变换编码器经常使用16kHz处的持续时间为40ms的窗口和20ms的帧换新持续时间。为了减少前回声现象的前述烦人影响，迄今已经提出了各种解决方案。第一解决方案在于应用自适应滤波。在由于所述冲击而导致的传送之前的区段中，所重构的信号事实上由原始信号和在所述信号上叠加的量化噪声组成。对应的滤波技术已经描述在由Y.Mahieux和J. P. Petit发表的、题目为High Quality Audio Transform Coding at 64 kbits,IEEE Trans. OnCommunications Vol 42, No. 11，November 1994 的文章中。这样的滤波的实现需要参数的知识，基于有噪声采样在解码器处估计所述参数中的一些参数。另一方面，诸如原始信号的能量的信息仅仅在编码器处可以获知，并因此必须被传送。当所接收的块包含动态摆动的突然变化时，向它应用过滤处理。前述过滤处理没有使得可能恢复原始信号，但是能提供前回声的大量减少。然而，它需要要向解码器传送附加的辅助参数。在法国专利申请FR 06 01466中描述了不需要辅助参数的传送的技术。所描述的方案使得可能辨别前回声的存在，并且对通过基于变换编码(生成前回声)、和时间编码 (不生成任何前回声)的分级编码(生成多层二进制串)而产生的数字音频信号的前回声进行衰减。这个专利申请更精确地描述了在解码器处检测在到高能量区段的转变之前的低能量区段、在所检测的低能量区段中前回声的衰减、和在高能量区段中前回声衰减的禁止。使得可能对前回声进行衰减的处理是基于在源自于变换解码(生成前回声)的信号和源自于时间解码(不生成回声)的信号之间的比较。这种技术不需要来自编码器的特定辅助信息的任何传送，但是需要存在源自于时间解码的参考信号。源自于时间解码的参考信号不一定对于使用变换解码的所有解码器都可用。此夕卜，在其中这样的参考信号可用于所述解码器的情况下，它不总是适合于计算前回声的衰减。例如规范UIT-T G. 729. 1的立体声扩展的立体声可缩放编码器可按照下文中描述的方式来操作。编码器计算立体声信号的左和右两个声道的均值，并然后利用G. 729. 1编码器对这个均值进行编码，并最后传送附加的立体声扩展参数。因此，传送到解码器的二进制串包括具有附加立体声扩展层的G. 729. 1层。例如，第一附加层包括用于反映(变换域中)每个子带的能量在立体声信号的两个声道之间的差异的参数。第二层包括例如残余信号的变换系数，该残余信号被定义为在原始信号与基于G. 729. 1 二进制串并基于第一层进行解码的信号之间的差。扩展模式中的G. 729. 1解码器首先对单声道信号进行解码，并且作为所传送的参数的函数来恢复左和右两个声道的变换系数。G. 729. 1类型的解码器对单声道信号进行的解码产生了基于两个声道的均值的参考信号。在两个声道之间的电平差大的情况下，单声道信号的时间包络于是相对于较大电平的声道的逆变换的输出将为低，并且相对于较低电平的声道的逆变换的输出将为高。因此，使用诸如G. 729. 1解码器的输出的参考来对前回声进行衰减对于立体声解码将不是有效的在较大电平的声道中，太多前回声将被错误地检测到，并因此有用信号将被去除，而在较低电平的声道中，并不是所有的前回声都将被检测到或去除。因此，在其中源自于时间解码的信号不可用或不灵验、并且其中编码器没有传送辅助信息的情况下，存在对于在解码时准确地衰减前回声的技术的需要。此外，这个技术必须能够操作用于单声道和立体声编码。

发明内容
为此，本发明涉及一种用于对基于变换编码产生的数字音频信号中的前回声进行衰减的方法，其中，在解码时，对于这个数字音频信号的当前帧，所述方法包括-至少基于当前帧的重构信号来定义级联信号的步骤；-将所述级联信号划分为确定长度的采样的子块的步骤；-计算级联信号的时间包络的步骤；-检测时间包络到高能量区段的转变的步骤；-确定在已经检测到转变的子块之前的低能量子块的步骤；以及-在确定的子块中进行衰减的步骤，所述方法的特征在于，根据对于确定的子块的每一个计算的、作为级联信号的时间包络的函数的衰减因子，来执行所述衰减。这样，关于已解码信号所专有的特性来定义衰减因子，这不需要来自编码器的任何信息传送，也不需要源自于不生成回声的解码的任何信号。适合于当前帧的每一个子块并且基于重构信号计算的因子使得可能改善前回声衰减处理的质量。可以基于当前帧的重构信号并且基于当前帧的第二部分来定义级联信号，诸如随后参考图2所定义的。在这个情况下，所述方案没有引入任何时间延迟。在其中允许时间延迟的情况下，级联信号被定义为当前帧的和随后帧的重构信号。级联信号可作为子块而物理存储在各个地方。可以将下文中提及的各个具体实施例独立地或彼此组合地添加到上面定义的方法的步骤。这样，在具体实施例中，对于作为先前帧的重构信号的时间包络的函数的衰减因子值，最小值是固定的。这使得可能具体地在背景噪声电平上避免从一个帧到另一帧的太大衰减差，并因此可能避免可听得到的假象(artifact)。先前帧的重构信号的时间包络例如可以通过计算每个子块的最小能量或另外地通过计算平均能量或者任何其它计算来确定。在本发明的具体实施例中，衰减因子被确定为所述子块的时间包络的、包括所述转变的子块的时间包络的最大值的、和先前帧的重构信号的时间包络的函数。在示范实施例中，通过子块能量计算来确定所述时间包络。有利地，所述方法还包括在所述在确定的子块中进行衰减的步骤之后的、计算和存储当前帧的时间包络的步骤。这个时间包络计算因此将用于处理随后帧。这个计算是准确的，这是因为信号不再受到前回声干扰。有利地，将值为1的衰减因子分配到包括转变的所述子块的采样、以及当前帧中的随后子块的采样。因此，在不包括任何前回声的这些子块中，这个衰减被禁止。在具体实施例中，根据如下步骤，针对确定的子块来确定衰减因子-计算在包括转变的子块中确定的最大能量与当前子块的能量的比率；-将所述比率与第一阈值进行比较；-在其中所述比率小于或等于第一阈值的情况下，向所述衰减因子分配用于禁止所述衰减的值；-在其中所述比率大于第一阈值的情况下将所述比率与第二阈值进行比较；在其中所述比率小于或等于第二阈值的情况下，向所述衰减因子分配低衰减值；在其中所述比率大于第二阈值的情况下，向所述衰减因子分配高衰减值；这个具体实施例已经证明是特别有效的并且易于实现。有利地，所述方法规定了在逐采样计算的因子之间确定平滑化函数。这还使得可能避免在衰减值的太突然变化期间的可听得到的假象。在实现变体中，通过向被施加到在包括转变的子块之前的子块的预定数目采样的衰减因子施加用于禁止所述衰减的衰减值，来对在包括转变的子块之前的子块执行因子校正。这因此使得可能通过对衰减值定义的平滑化函数而不降低冲击的幅度。本发明还旨在一种用于对基于变换编码器产生的数字音频信号中的前回声进行衰减的装置，其中，与解码器相关联的装置包括如下模块来处理这个数字音频信号的当前帧_用于至少基于当前帧的重构信号来定义级联信号的模块；-用于将所述级联信号划分为确定长度的采样的子块的模块；-用于计算级联信号的时间包络的模块；-用于检测时间包络到高能量区段的转变的模块；
-用于确定在已经检测到转变的子块之前的低能量子块的模块；以及-用于在确定的子块中进行衰减的模块。所述装置使得，所述衰减模块根据对于确定的子块的每一个计算的、作为级联信号的时间包络的函数的衰减因子，来执行所述衰减。本发明旨在一种数字音频信号的解码器，包括诸如上述的装置。这样的解码器例如可以是在UIT-T委员会16的议题23(queSti0n 23 ofthe UIT-T, commission 16)中研究的G. 729. I-SffB/立体声类型的解码器。本发明可以被集成到立体声模式或SWB(“超宽波段”)模式中的这样的解码器中。

最后，本发明旨在一种包括代码指令的计算机程序，当由处理器执行这些指令时，所述代码指令用于实现诸如所描述的衰减方法的步骤。

在阅读了单独通过非限制性示例并参考附图给出的如下描述时，本发明的其它特性和优点将变得更清楚明显，在附图中-所描述的图1先前图示了根据现有技术状态的变换编码_解码系统；-图2图示了关于信号当前帧的重构信号的配置；-图3图示了用于对数字音频信号解码器中的前回声进行衰减的装置；-图4a表现当转变处于当前帧的第二部分中时的级联信号；-图4b表现当转变处于当前帧的重构信号中时的级联信号；-图5图示了根据本发明的表现计算衰减因子的步骤的一般实施例的流程图；-图6图示了根据本发明实施例的实现衰减方法的详细流程图；-图7图示了根据本发明的计算衰减因子的具体实施例；-图8a图示了对其实现根据实施例的本发明的示范数字音频信号；-图8b图示了对其实现根据变化实施例的本发明的相同数字音频信号；-图9图示了当冲击位于当前帧的第二部分的第二子块中时的级联信号；-图10图示了当冲击位于当前帧的第二部分的第三子块中时的级联信号；-图11图示了当冲击位于当前帧的第二部分的第一子块中时的级联信号；-图12图示了当冲击位于当前帧的第二部分的第四子块中时的级联信号；-图13a和图13b分别图示了G. 729. 1 SffB/立体声类型的编码器和解码器，所述解码器包括根据本发明的衰减装置；-图14a和图14b分别图示了G. 729. 1 SWB类型的编码器和解码器，所述解码器包括根据本发明的衰减装置；-图15图示了根据本发明的衰减装置的示例。
具体实施例方式图2表现了已解码信号的帧以及通过诸如参考图1描述的添加重叠而重构的信号的配置。下文中，参考图2和接下来的等式来使用如下符号xrec,N(n) 二！！^！+！^^，^^！+！^+！！⑷^，“！^，令！！曰
其中N是帧的索引，L是帧的长度，xre。,N是帧N的重构信号，xte,N源自于帧N的MDCT逆变换的长度为2L的信号。在不研讨MDCT和MDCT逆变换的细节的情况下，用于帧N 的长度2L的中间信号xte,N被定义为
权利要求
1.一种用于对基于变换编码产生的数字音频信号中的前回声进行衰减的方法，其中，在解码时，对于这个数字音频信号的当前帧，所述方法包括-至少基于当前帧的重构信号来定义级联信号的步骤(CONC)；-将所述级联信号划分为确定长度的采样的子块的步骤(DIV，301)；-计算级联信号的时间包络的步骤(ENV，302)；-检测时间包络到高能量区段的转变的步骤(DETECT，304)；-确定在已经检测到转变的子块之前的低能量子块的步骤OETECT，304)；以及-在确定的子块中进行衰减的步骤(ATT)，所述方法的特征在于，根据对于确定的子块的每一个计算的、作为级联信号的时间包络的函数的衰减因子，来执行所述衰减。
2.根据权利要求1的方法，其特征在于，对于作为先前帧的重构信号的时间包络的函数的衰减因子值，最小值是固定的。
3.根据权利要求1的方法，其特征在于，衰减因子被确定为所述子块的时间包络的、包括所述转变的子块的时间包络的最大值的、和先前帧的重构信号的时间包络的函数。
4.根据权利要求1到3之一的方法，其特征在于，通过子块能量计算来确定所述时间包
5.根据权利要求1的方法，其特征在于，所述方法还包括在所述在确定的子块中进行衰减的步骤之后的、计算和存储当前帧的时间包络的步骤。
6.根据权利要求1的方法，其特征在于，将值为1的衰减因子分配到包括转变的所述子块的采样、以及当前帧中的随后子块的采样。
7.根据权利要求4的方法，其特征在于，根据如下步骤，针对确定的子块来确定衰减因子-计算在包括转变的子块中确定的最大能量与当前子块的能量的比率； -将所述比率与第一阈值进行比较；-在其中所述比率小于或等于第一阈值的情况下，向所述衰减因子分配用于禁止所述衰减的值；-在其中所述比率大于第一阈值的情况下将所述比率与第二阈值进行比较；眷在其中所述比率小于或等于第二阈值的情况下，向所述衰减因子分配低衰减值；眷在其中所述比率大于第二阈值的情况下，向所述衰减因子分配高衰减值。
8.根据权利要求1的方法，其特征在于，在逐采样地计算的因子之间确定平滑化函数。
9.根据权利要求1的方法，其特征在于，通过向被施加到在包括转变的子块之前的子块的预定数目采样的衰减因子施加用于禁止所述衰减的衰减值，来对在包括转变的子块之前的子块执行因子校正。
10.一种用于对基于变换编码器产生的数字音频信号中的前回声进行衰减的装置，其中，与解码器相关联的装置包括如下模块来处理这个数字音频信号的当前帧 -用于至少基于当前帧的重构信号来定义级联信号的模块(101)； -用于将所述级联信号划分为确定长度的采样的子块的模块(102)； -用于计算级联信号的时间包络的模块(103)；-用于检测时间包络到高能量区段的转变的模块(104)；-用于确定在已经检测到转变的子块之前的低能量子块的模块(10 ；以及-用于在确定的子块中进行衰减的模块(105)，所述装置的特征在于，所述衰减模块根据对于确定的子块的每一个计算的、作为级联信号的时间包络的函数的衰减因子，来执行所述衰减。
11.一种数字音频信号的解码器，包括根据权利要求10的装置。
12.一种包括代码指令的计算机程序，当由处理器执行这些指令时，所述代码指令用于实现根据权利要求1到9之一的方法的步骤。
全文摘要
本发明涉及一种用于对根据变换编码产生的数字音频信号中的前回声进行衰减的方法，其中，在解码时，并且对于所述数字音频信号的当前帧，所述方法包括至少根据当前帧的重构信号来定义(CONC)级联信号的步骤；将所述级联信号划分(DIV，301)为具有预定长度的采样的子单元的步骤；计算(ENV，302)级联信号的时间包络的步骤；检测(DETECT，304)时间包络朝向高能量区域的转变的步骤；确定(DETECT，304)在已经检测到转变的子单元之前的低能量子单元的步骤；以及在所述确定的子单元中的衰减步骤(ATT)。所述方法使得，根据对于确定的子单元的每一个计算的、基于级联信号的时间包络的衰减因子，来执行所述衰减。本发明还涉及一种用于实现所述方法的装置，并且涉及一种包括这样的装置的解码器。
文档编号G10L19/02GK102160114SQ200980136327
公开日2011年8月17日申请日期2009年9月15日优先权日2008年9月17日
发明者巴拉茨.科维西, 斯蒂芬.拉戈特申请人:法国电信公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：巴拉茨．科维西
技术所有人：法国电信公司
我是此专利的发明人