选择性低音后置滤波器的制作方法

文档序号:17098807发布日期:2019-03-14 00:06阅读:173来源:国知局
选择性低音后置滤波器的制作方法

技术领域

本发明主要涉及数字音频编码,更准确地说,涉及对于包含具有不同特性的分量的音频信号的编码技术。



背景技术:

对于包含说话或者歌声的音频信号的普遍类别的编码方法包括与不同的编码方法在时间上交替应用的代码激励线性预测(CELP),这些不同的编码方法包括特别适于音乐的频域编码方法或者用于解释音频信号的连续时间段之间的特性变化的具有普通性质的方法。例如,如附图2的上部所示,简化运动图片专家组(MPEG)联合语音和音频编码(USAC;参见标准ISO/IEC23003-3)解码器在至少三种解码方法:高级音频编码(AAC;参见标准ISO/IEC 13818-7)、代数CELP(ACELP)和变换编码激励(TCX)中可操作。

CELP的各种实施例被适配于人的语音器官的属性,并且尽可能地被适配于人的听觉。如在该应用中所使用的,CELP是指所有可能的实施例和变化,包括、但不限于ACELP、宽带和窄带CELP、SB-CELP(子带CELP)、低速率和高速率CELP、RCELP(松弛CELP)、LD-CELP(低延迟low-delay CELP)、CS-CELP(共轭结构CELP)、CS-ACELP(共轭结构ACELP)、PSI-CELP(音高同步革新CELP)以及VSELP(矢量和激励线性预测)。R.Schroeder和S.Atal在Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),vol.10,pp.937-940,1985中讨论了CELP的原理,并且在Chen and Gersho,IEEE Transactions on Speech and Audio Processing,vol.3,no.1,1995中引用的参考文献25-29中描述了某些它的应用。如在前者的论文中进一步详细描述的,CELP解码器(或者类似地,CELP语音合成器)可以包括恢复编码语音信号的周期分量的音高预测器和用来添加革新序列(innovation)的脉冲代码本。音高预测器依次可以包括通过频谱包络成形来恢复音高的长延迟预测器和恢复共振峰的短延迟预测器。在该情境中,通常将音高理解为由声带生成并且通过声道的共振部分进一步进行了润色的有声调声音分量的基频。该频率将与其谐波一起对说话或者歌唱进行主导。通常来说,CELP方法最适合于对良好限定了音高频率并且音高频率相对容易确定的独唱或者一个声部的歌唱进行处理。

为了提高CELP编码语音的感知质量,共同的作法是将其与后置滤波(或者音高增强(另一术语))组合。美国专利第4969192号和Chen和Gersho的论文的第II部分公开了这种后置滤波器的理想属性,即其抑制处于检测到的语音音高(长期部分;参见第IV部分)的谐波之间的噪声分量的能力。相信该噪声的重要部分来源于频谱包络成形。简单的后置滤波器的长期部分可以被设计为具有下面的传递函数:

其中,T是按照样本数量估计的音高周期,α是后置滤波器的增益,如图1和2所示。以与梳状滤波器类似的方式,这种滤波器对位于音高频率的谐波之间的中途的频率1/(2T)、3/(2T)、5/(2T)、…以及相邻的频率进行衰减。衰减取决于增益α的值。稍微复杂一些的后置滤波器仅对最容易感知噪音的低频应用该衰减-因此有常用术语低音后置滤波器。这可以通过将上述传递函数HE和低通滤波器HLP进行级联来表示。因此,通过下式在变换域中给出由后置滤波器提供的后置处理后的解码SE:

SE(z)=S(z)-αS(z)PLT(z)HLP(z),

其中,

并且,S是作为对后置滤波器的输入而提供的解码信号。图3示出了具有这些特征的后置滤波器的实施例,其还在section 6.1.3 of the Technical Specification ETSI TS 126 290,version 6.3.0,release 6中进一步进行了讨论。如该图所表示的,音高信息被编码作为比特流信号中的参数,并且由可通信地连接到进行由PLT表示的运算的长期预测滤波器的音高跟踪模块对音高信息进行检索。

在前面的段落中描述的长期部分可以单独使用。可选地,其被布置为与噪声成形滤波器串联,噪声成形滤波器以与共振峰相应的频率间隔保存分量,并且在其它频谱区域(短期部分;参见第III部分)中,即在共振峰包络的“频谱谷”中使噪声衰减。作为其它可能的变化,由逐步高通型滤波器进一步补充该滤波器集合,以减小由于短期部分的频谱倾斜而感知到的劣化。

包含不同来源的分量的混合的音频信号-例如有声调、无声调、声乐(vocal)、器乐、非音乐-不总是能由可用数字编码技术以令人满意的方式进行再现。更准确地注意到,可用技术在处理这种非同种音频材料时有缺陷,通常有利于这些分量中的一个,而损害另一个。特别地,经常伴随着破坏一部分收听体验的可感知的杂音,对通过具有上述性质的方法编码的、包括由一个或更多个乐器或者合唱团声部伴奏的歌唱的音乐进行解码。



技术实现要素:

为了减轻在前面的部分中概括的缺点中的至少一部分,本发明的目的是提供被适配用于对包含具有不同来源的分量的混合信号进行音频编码和解码的方法和设备。作为特别目的,本发明试图提供从编码效率或者(感知)再现逼真度或者两者的观点来看适合的这些方法和设备。

本发明通过提供如在所附权利要求中限定的编码器系统、解码器系统、编码方法、解码方法以及用于进行这些方法中的每一个的计算机程序产品,来实现这些目的中的至少一个。由所附权利要求来限定本发明的实施例。

发明人认识到,在具有非同种来源的解码音频信号中感知到的一些杂音来自于几个编码模式的不适当切换,在这几个编码模式中,至少一个在解码器处包括后置滤波,并且至少一个在解码器处不包括后置滤波。更准确地说,可用后置滤波器不仅去除谐波间噪声(并且在适用的情况下,频谱谷中的噪声),还去除表示乐器或者人声伴奏以及其它具有‘理想’性质的材料的信号分量。在频谱谷中恰能注意到的差别可能如10dB大的事实(如由Ghitza and Goldstein,IEEE Trans.Acoust,Speech,Signal Processing,vol.ASSP-4,pp.697-708,1986所指出的),已经被许多设计者用作正当理由,来对这些频带进行严格滤波。然而,由谐波间(以及频谱谷)衰减本身引起的质量劣化可能比切换情景的质量劣化较不重要。当接通后置滤波器时,歌唱语音声音的背景突然减弱,而当使滤波器无效时,背景瞬间变得更响亮。如果切换频繁发生,则由于音频信号的性质或者由于编码设备的配置,将存在切换杂音。作为一个示例,USAC解码器可以在与后置滤波组合的ACELP模式下或者在没有后置滤波的TCX模式下可操作。在存在主导声乐分量的片段中使用ACELP模式。因此,可以由歌唱的开始来触发到ACELP模式的切换,例如在新的音乐段落的开始、在新的节的开始或者简单地在声乐分量不再突出的意义上伴奏被视为淹没歌唱的声音的片段之后。试验已经证实,因为出现混响状杂音,因此全面使用TCX编码(并且禁用ACELP模式)的替代解决方案或者对该问题的其它规避不能消除该问题。

相应地,在第一和第二方面,本发明提供一种音频编码方法(以及具有相应特征的音频编码系统),其特征在于,进行关于对通过编码方法而输出的比特流进行解码的设备是否应当应用包括对谐波间噪声进行衰减的后置滤波的决定。在比特流中对该决定的结果进行编码,并且该结果可由解码设备访问。

通过本发明,与关于最合适的编码模式的决定独立地做出关于是否使用后置滤波器的决定。这使得能够在某种长度(在该种时间长度中,切换不打扰收听者)的整个时间段中保持一个后置滤波状态。因此,该编码方法可以规定即使切换到了传统上滤波器有效的编码模式,也保持后置滤波器无效。

注意,通常以逐帧的方式进行是否应用后置滤波的决定。因此,首先,后置滤波每次不应用于小于一个帧。其次,关于禁用后置滤波的决定仅在当前帧的持续时间期间有效,其可以在随后的帧期间保持或者被重新估计。在启用主帧格式和作为正常格式的小数的缩小的格式、例如其长度的1/8的编码格式下,可能不需要在单独的缩小的帧期间进行后置滤波决定。代替地,可以考虑总和为正常帧的多个缩小的帧,并且可以通过计算包含在其中的缩小的帧的平均值或者中值来获得与滤波决定相关的参数。

在本发明的第三和第四方面,提供一种音频解码方法(以及具有相应特征的音频解码系统),该方法具有解码步骤,之后有后置滤波步骤,该后置滤波步骤包括谐波间噪声衰减,该方法的特征在于根据在比特流信号中编码的后置滤波信息来禁用后置滤波器的步骤。

具有这些特征的解码方法借助于其仅依据后置滤波信息使后置滤波器失效的能力,因此不依赖于诸如当前编码模式的因素,而非常适合于对混合来源音频信号的编码。当应用于其中后置滤波器动作通常与特定编码模式相关联的编码技术时,后置滤波禁用能力使得能够使用新的操作模式,即传统滤波解码模式的不滤波应用。

在一方面,本发明提供一种解码器系统,用于将比特流信号解码为音频时间信号,所述解码器系统包括:解码部,用于将比特流信号解码为初级音频时间信号,其中所述解码部包括代码激励线性预测CELP解码模块和变换编码激励TCX解码模块;以及谐波间噪声衰减后置滤波器,适于接收所述初级音频时间信号,以及提供所述音频时间信号,其中所述后置滤波器包括控制部,所述控制部用于选择性地以下列模式之一操作所述后置滤波器:i)滤波模式,其中,所述后置滤波器对所述初级音频时间信号进行滤波,以获得滤波信号,并且提供该滤波信号作为音频时间信号;以及ii)旁路模式,其中,所述后置滤波器提供所述初级音频时间信号作为音频时间信号,其中,谐波间噪声衰减依赖于可变增益的值,并且所述控制部可操作用于通过将所述可变增益的值设置为零来启用所述旁路模式。

在一方面,本发明提供一种用于将比特流信号解码为音频时间信号的方法,包括:以多个解码模式之一将比特流信号解码为初级音频时间信号,所述多个解码模式包括代码激励线性预测CELP解码模式和变换编码激励TCX解码模式;以及通过谐波间噪声衰减后置滤波器对所述初级音频时间信号进行滤波以获得所述音频时间信号,其中,所述后置滤波器包括控制部,所述控制部用于选择性地以下列模式之一操作所述后置滤波器:i)滤波模式,其中,所述后置滤波器对所述初级音频时间信号进行滤波,以获得滤波信号,并且提供该滤波信号作为音频时间信号;以及ii)旁路模式,其中,所述后置滤波器提供所述初级音频时间信号作为音频时间信号,其中,谐波间噪声衰减依赖于可变增益的值,并且所述控制部可操作用于通过将所述可变增益的值设置为零来启用所述旁路模式。

在另一方面,本发明还提供一种用于进行上述方法中的一个的计算机程序产品。另外,本发明提供一种如由向后置滤波器提供的后置滤波信号所指示的、以有效模式或者旁路模式可操作的后置滤波器,用于对谐波间噪声进行衰减。后置滤波器可以包括用于自主控制后置滤波活动的决定部。

如技术人员将理解的,被适配用于与解码器协作的编码器配备有功能等同的模块,以使得能够对编码信号进行确实的再现。这些等同模块可以是相同或类似的模块或者具有相同或类似的传递特性的模块。特别地,编码器和解码器中的模块分别可以是执行进行等同集合的数学运算的各个计算机程序的类似或者不类似的处理单元。

在一个实施例中,对本方法进行编码包括:做出关于是否进一步包括对频谱谷(针对共振峰包络,参见上面)的衰减的后置滤波器的决定。这对应于后置滤波器的短期部分。然后,采用决定基于后置滤波器的性质的标准是有利的。

一个实施例面向特别适配用于语音编码的编码器。因为当对声乐和其它分量的混合进行编码时,观察到了启发本发明的问题中的一部分,因此语音编码和由本发明提供的关于后置滤波的独立决定进行的组合特别有利。特别地,这种解码器可以包括代码激励线性预测编码模块。

在一个实施例中,编码器使其决定基于检测到具有主导基频的信号分量(音高)和处于基频以下的另一信号分量的同时存在。检测的目的还可以在于发现具有主导基频的分量和具有该基频的谐波之间的能量的另一分量的同时发生。这是频繁遇到在考虑中的类型的杂音的情形。因此,如果这种同时存在成立,则编码器决定后置滤波不合适,这由包含在比特流中的后置滤波信息相应地指示。

一个实施例使用在音高频率以下的音频时间信号中的总信号功率含量作为其检测标准,可能地,音高频率是通过编码器中的长期预测而估计出的。如果这其于预定阈值,则认为存在音高分量(包括谐波)之外的其它相关分量,这将导致禁用后置滤波。

在包括CELP模块的编码器中,可以对该模块估计音频时间信号的音高频率的事实进行利用。然后,如上面更详细的描述的,进一步的检测标准是检查该频率的谐波之间或者以下的能量含量。

作为对包括CELP模块的前述实施例的进一步改进,决定可以包括进行了CELP编码(即编码和解码)时的音频信号的估计功率与进行了CELP编码和后置滤波时的音频信号的估计功率之间的比较。如果功率差大于阈值,这可能指示将丢失信号的非噪声相关分量,并且编码器将决定禁用后置滤波器。

在有利实施例中,编码器包括CELP模块和TCX模块。如在本领域中已知的,TCX编码针对某些种类信号(明显地针对非声乐信号)有利。对TCX编码信号应用后滤波不是通常的作法。因此,编码器可以选择TCX编码、使用后置滤波的CELP编码或者不使用后置滤波的CELP编码,由此覆盖相当大范围的信号类型。

作为对前述实施例的一个进一步改进,基于速率失真标准,也就是说,应用本身在本领域中已知的优化过程,来进行三种编码模式之间的决定。

在对前述实施例的另一进一步改进中,编码器还包括高级音频编码(AAC)编码器,这也已知特别适合于某些类型的信号。优选地,与关于使用其它(线性预测)模式中的哪个的决定分开地做出是否应用AAC(频域)编码的决定。因此,可以理解为编码器可以两种超级模式AAC或者TCX/CELP操作,其中在后者的模式下,编码器将在TCX、后置滤波的CELP或者不滤波的CELP之间进行选择。该实施例使得能够对甚至更宽范围的音频信号类型进行处理。

在一个实施例中,编码器可以决定要逐步,也就是说使用逐步增加的增益应用解码时的后置滤波。类似地,其可以决定要逐步去除后置滤波。这种逐步应用和去除使得使用和不使用后置滤波的体系之间的切换更不易感知。作为一个示例,可以使乐器片段在歌唱片段(发现后置滤波的CELP编码对该歌唱片段合适)前面,在该乐器片段中,TCX编码最佳;然后,根据本发明的解码器可以在歌唱片段的开头处或者附近逐步应用后置滤波,从而即使避免了烦人的切换杂音,也保留了后置滤波的益处。

在一个实施例中,关于是否应用后置滤波的决定基于近似差信号,近似差信号近似于后置滤波器要从未来的解码信号中去除的信号分量。作为一个任选项,作为音频时间信号和经过了(仿真)后置滤波时的音频时间信号之间的差来计算近似差信号。作为另一任选项,编码部提取中间解码信号,由此可以作为音频时间信号和经过了后置滤波时的中间解码信号之间的差,计算近似差信号。可以将中间解码信号存储在编码器的长期预测合成器中。其还可以表示信号的激励,暗示需要应用进一步的合成滤波(声道、共鸣),以获得最终的解码信号。使用中间解码信号时的点是其捕获编码方法的一些特殊点、尤其是弱点,由此使得能够对后置滤波器的效果进行更实际的估计。作为第三任选项,解码部提取中间解码信号,由此可以作为中间解码信号和经过了后置滤波时的中间解码信号之间的差,来计算近似差信号。该过程可能给出比前两个任选项不可靠的估计,但是另一方面,其可以由解码器以独立的方式进行。

然后,针对下面的标准之一评价如此获得的近似差信号,当确定为肯定时,这将导致禁用后置滤波器的决定:

a)近似差信号的功率是否超过预定阈值,从而指示后置滤波器将去除信号的相当一部分;

b)近似差信号的特性是否是有声调的而非噪声状的;

c)近似差信号的幅频谱和音频时间信号的幅频谱之间的差,是否相对于频率不均匀地分布,从而表明其不是噪声,而是对收听者有意义的信号;

d)基于根据要处理的类型的信号通常可以预期什么,近似差信号的幅频谱是否局限于预定相关包络内的频率间隔;以及

e)近似差信号的幅频谱是否局限于通过由以预定比例因子缩减的其中的最大信号分量的幅值、对音频时间信号的幅频谱进行阈值计算而获得的相关包络内的频率间隔。

当评价标准e)时,在幅值谱中应用峰跟踪,也就是说,区分与噪声之外的有声调分量正常相关联的具有峰状形状的部分是有利的。可以通过对峰高度应用阈值来进一步分拣通过峰跟踪而识别的分量,峰跟踪可以通过本身在本领域中已知的一些算法来进行,由此保留的分量是具有特定幅值的有声调材料。这些分量通常表示噪声之外的相关信号内容,这激发禁用后置滤波器的决定。

在作为解码器的本发明的一个实施例中,通过由控制部可控的开关来执行禁用后置滤波器的决定,该开关能够使电路中的后置滤波器旁路。在另一实施例中,后置滤波器具有由控制部可控的可变增益或者在其中具有增益控制器,其中,通过将后置滤波器增益(参见前面的部分)设置为0,或者通过将其绝对值设置为预定阈值以下,来执行禁用决定。

在一个实施例中,根据本发明的解码包括:从正在解码的比特流信号中提取后置滤波信息。更准确地说,可以在包括至少一位的数据字段中以适合进行发送的格式对后置滤波信息进行编码。有利地,数据字段是由可用标准定义的但未使用的已有字段,从而后置滤波信息不增加要发送的有效负荷。

注意,可以在包括例行试验的技术人员的能力范围内的适当变形之后,将在本部分中公开的方法和装置应用于对诸如立体声频道的、具有几个可以是对应于不同频道的分量的信号的编码。在本申请中,作为同义语使用音高增强和后置滤波。还应当注意,作为频域编码方法的代表示例讨论了AAC。实际上,将本发明应用于以AAC之外的频域编码模式可操作的解码器或者编码器,仅需要小的变形,如果有变形,也在技术人员的能力范围内。作为加权线性预测变换编码和普通的变换编码的示例提及了TCX。

在其它实施例中,可以组合来自上面描述的两个或更多个实施例的特征,除非它们明显地互补。在不同的权利要求中引述两个特征的事实不妨碍可以将它们优势组合。类似地,还可以通过省略对于希望的目的不需要或者不必要的某些特征,提供其它实施例。

附图说明

现在,参考附图描述本发明的实施例,在附图上:

图1是示出具有后置滤波器的传统解码器的框图;

图2是可以以AAC、ACELP和TCX模式操作并且包括在ACELP模块下游永久连接的后置滤波器的传统解码器的示意性框图;

图3是示出后置滤波器的结构的框图;

图4和5是根据本发明的两个解码器的框图;

图6和7是示出传统解码器(图6)和根据本发明的解码器(图7)之间的差别的框图;

图8是根据本发明的编码器的框图;

图9和10是示出传统解码器(图9)和根据本发明的解码器(图10)之间的差别的框图;以及

图11是可以选择性地激活和无效的自主后置滤波器的框图。

具体实施方式

图4是根据本发明的实施例的解码器系统400的示意图,其具有比特流信号作为其输入并且具有音频信号作为其输出。与在图1所示的传统解码器中相同,后置滤波器440布置在解码模块410下游,但是可以通过操作开关442切换到解码路径之中或者之外。在图中所示的开关位置启用后置滤波器。如果开关被设置在相对的位置,则其被禁用,由此来自解码模块410的信号将代替地在旁路线444上进行传导。作为本发明的贡献,开关442可由包含在比特流信号中的后置滤波信息控制,从而可以独立于解码模块410的当前状态地应用和去除后置滤波。因为后置滤波器440以一些延迟工作-例如图3所示的后置滤波器将引入至少以音高周期T计量的延迟-因此在旁路线444上布置补偿延迟模块443,以保持在进行切换时模块处于同步状况。延迟模块443将信号延迟与后置滤波器440相同的时间段,但是不另外对信号进行处理。为了使随着时间的改变最小化,补偿延迟模块443总是接收与后置滤波器440相同的信号。在由零延迟后置滤波器(例如诸如独立于未来信号值的具有两拍的滤波器的因果滤波器)代替后置滤波器440的可选实施例中,可以省略补偿延迟模块443。

图5示出了根据本发明的技术对图2的三模式解码器系统500的进一步改进。与TCX解码模块512和AAC解码模块513并联地布置ACELP解码模块511。与ACELP解码模块511串联地布置后置滤波器540,后置滤波器540用于噪声、特别是位于可直接或间接从对解码器系统500适合的比特流信号中得出的音高频率的谐波之间的噪声进行衰减。比特流信号还对后置滤波信息进行编码,后置滤波信息控制上部开关541的位置,上部开关541可操作用于将后置滤波器540切换到处理路径之外,并且像在图4中一样用补偿延迟543代替后置滤波器540。使用下部开关542来在不同的解码模式之间进行切换。使用这种结构,当使用TCX或者AAC模块512、513中的一个时,上部开关541的位置无关紧要;因此,除了在ACELP模式下之外,后置滤波信息不需要指示该位置。不管当前使用哪种解码模式,都从下部开关542的下游连接点向频谱带复制(SBR)模块550提供信号,SBR模块550输出音频信号。技术人员应当认识到,如从作为具有可移动接触部件的分离物理实体示意性地示出的开关明显可以看出,附图是概念性质的。在解码器系统的可能的实际实施方式中,可以通过计算机可读指令来实施开关以及其它模块。

图6和7也是以ACELP、TCX或者频域解码模式可操作的两个三模式解码器系统的框图。参考示出了本发明的实施例的后者的图,向输入点701提供比特流信号,输入点701继而经由各个分支永久连接到三个解码模块711、712、713。输入点701还具有到音高增强模块740的连接分支702(在图6的传统解码系统中不存在),音高增强模块740用作上述普通类型的后置滤波器。作为本领域中的普通作法,在ACELP和TCX模块711、712的下游布置第一过渡开窗模块703,以在解码模块之间进行过渡。在频域解码模块713和第一过渡开窗模块703的下游布置第二过渡模块704,以在两个超级模式之间进行过渡。此外,在紧接输出点705的上游设置SBR模块750。很明显,直接(或者在适当的情况下在解复用之后)向所有三个解码模块711、712、713并且向音高增强模块740提供比特流信号。包含在比特流中的信息对哪个解码模块要有效进行控制。然而,通过本发明,音高增强模块740进行类似的自我致动,该响应于比特流中的后置滤波信息的自我致动可以用作后置滤波器或者简单地用作旁路。例如,这可以通过在音高增强模块740中设置控制部(未示出)来实现,借助于该控制部可以打开或者关闭后置滤波动作。当解码器系统以频域或者TCX解码模式工作时,音高增强模块740总是处于其旁路模式,其中,需要严格地说没有后置滤波信息。应当理解,从图7和其它类似的附图中省略了不形成本发明的贡献的一部分并且其存在对于技术人员显而易见的模块,例如解复用器,以提高清晰度。

作为变化,图7的解码器系统可以配备有使用分析合成方法决定是否应用后置滤波的控制模块(未示出)。将该控制模块可通信地连接到音高增强模块740和ACELP模块711,该控制模块从ACELP模块711提取表示解码处理中的中间阶段的中间解码信号si_DEC(n),优选一个中间解码信号对应于该信号的激励。检测模块具有必要的信息来对如传递函数PLT(z)和HLP(z)所定义的音高增强模块740的动作(参考背景技术部分和图3)或者等同地对它们的滤波器脉冲响应pLT(z)和hLP(n)进行仿真。如背景技术部分中的讨论所遵从的,可以通过近似差信号sAD(n)估计要在进行后置滤波时减去的分量,近似差信号sAD(n)与[(si_DEC*pLT)*hLP](n)成比例,其中,*表示离散卷积。这是对原始音频信号和经过后置滤波的解码信号之间的真实差的近似,即

sORIG(n)-sE(n)=sORIG(n)-(sDEC(n)-α[sDEC*pLT*hLP](n)),

其中,α是后置滤波器增益。如在发明内容部分和权利要求中所公开的,通过研究该信号的总能量、低带能量、声调性、实际幅频谱或者过去的幅频谱,控制部可以找到是否激活音高增强模块740或者使音高增强模块740无效的决定的基础。

图8示出了根据本发明的实施例的编码器系统800。编码器系统800被适配为对数字音频信号进行处理,数字音频信号通常通过由麦克风捕获声音波并且将声音波变换为模拟电信号来获得。然后,将电信号采样为以合适的格式向编码器系统800提供的易感数字信号。该系统通常由编码模块810、决定模块820和复用器830构成。借助于开关814、815(象征性地表示),编码模块810通过选择性地启动模块811、812、813,可以以CELP、TCX或者ACC模块操作。决定模块820应用一个或更多个事先定义的标准,来决定是否由编码器系统800生成的比特流信号对音频信号进行编码。为此,决定模块820可以直接检查音频信号,或者可以经由连接线816从编码模块810接收数据。与来自编码模块810的编码音频信号一起,向复用器830提供指示由决定模块820进行的决定的信号,复用器830将这些信号串联成构成编码器系统800的输出的比特流。

优选地,决定模块820使其决定基于根据中间解码信号si_DEC计算的近似差信息,可以从编码模块810中减去中间解码信号si_DEC。如在前面的段落中所讨论的,中间解码信号表示解码处理中的中间阶段,但是可以从编码处理的相应阶段中提取中间解码信号。然而,在编码器系统800中,可以获得原始音频信号sORIG,从而有利地,作为下式形成近似差信号:

sORIG(n)-(si_DEC(n)-α[(si_DEC*pLT)*hLP](n)).

该近似在于使用中间解码信号来代替最终解码信号的事实。这使得能够评估在进行解码时后置滤波器将去除的分量的性质,并且通过应用在发明内容部分中讨论的标准之一,决定模块820将能够做出是否禁用后置滤波的决定。

作为对这一点的变化,决定模块820可以使用原始信号来代替中间解码信号,从而近似差信号将是[(si_DEC*pLT)*hLP](n)。这可能是较不确实的近似,但是另一方面,这使得决定模块820和编码模块810之间的连接线816的存在是任选的。

在本实施例的决定模块820直接研究音频信号的这些其它变化中,可以应用下面的标准中的一个或更多个:

·音频信号包含具有主导基频的分量和位于基频以下的分量两者?(可以作为编码模块810的副产品来提供基频。)

·音频信号包含具有主导基频的分量和位于基频的谐波之间的分量两者?

·音频信号包含基频以下的显著信号能量?

·对于速率失真最优化性,后置滤波编码(可能)优于不滤波解码?

在所有描述的图8所示的编码器结构的变化中-也就是说,不管检测标准的基础-可以使得决定部820能够进行逐步进行或者逐步去除后置滤波的决定,从而实现平滑过渡。可以通过调整后置滤波器增益来对逐步进行和去除进行控制。

图9示出了依据向解码器提供的比特流信号以频率解码模式和CELP解码模式可操作的传统解码器。每当选择了CELP解码模式,就应用后置滤波。在图10中示出了对该解码器的改进,图10示出了根据本发明的实施例的解码器1000。该解码器不仅可以频域解码模块1013有效的基于频域的解码模式操作以及CELP解码模块1011和后置滤波器1040有效的滤波CELP解码模式操作,而且可以CELP模块1011经由旁路线1044向补偿延迟模块1043提供其信号的不滤波CELP模式操作。开关1042响应于包含在向解码器1000提供的比特流信号中的后置滤波信息,对当前使用哪种解码模式进行控制。在该解码器和图9的解码器中,最后的处理步骤受SBR模块1050影响,从SBR模块1050输出最终的音频信号。

图11示出了适合于被布置在解码器1199下游的后置滤波器1100。滤波器1100包括后置滤波模块1140,由控制模块(未示出)、特别是二值或者非二值增益控制器响应于从后置滤波器1100内的决定模块1120接收到的后置滤波信号,启用或者禁用后置滤波模块1140。决定模块对从解码器获得的信号进行一个或更多个测试,以达成后置滤波模块1140有效或者无效的决定。可以沿着图8中的决定模块820的功能线做出决定,其使用原始信号和/或中间解码信号来预测后置滤波器的动作。决定模块1120的决定还可以基于与决定模块在形成中间解码信号的这些实施例中所使用的类似的信息。作为一个示例,决定模块1120可以估计音高频率(除非这可以从比特流信号中容易地提取),并且计算音高频率以下的信号中和其谐波之间的能量含量。如果该能量含量明显,则其可能表示噪声之外的相关信号分量,这激发禁用后置滤波模块1140的决定。

进行了6人收听测试,在该测试期间,将根据本发明编码和解码的音乐样本,与包含在以传统方式应用后置滤波、但是保持所有其它参数不变时进行了编码的相同音乐的参考样本进行比较。结果确认感知质量改善。

在阅读上面的描述之后,本发明的其它实施例对于本领域技术人员将变得明显。即使本说明书和附图公开了实施例和示例,本发明也不局限于这些具体示例。可以进行大量变形和变化,而不脱离由所附权利要求限定的本发明的范围。

可以作为软件、固件、硬件或者其组合来实现上面公开的系统和方法。可以作为由数字信号处理器或者微处理器执行的软件来实现,或者可以作为硬件或作为专用集成电路来实现某些部件或者全部部件。可以在计算机可读介质上分发这种软件,计算机可读介质可以包括计算机存储介质(或者非临时介质)和通信介质(或者临时介质)。如本领域技术人员所公知的,计算机存储介质包括以任意方法或者技术实现的、用于存储诸如计算机可读指令、数据结构、程序模块或者其它数据的信息的易失性和非易失性、可移动和不可移动介质两者。计算机存储介质包括、但不限于RAM、ROM、EE-PROM、闪存或者其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光盘存储器、磁盒式录像带、磁带、磁盘存储器或者其它磁存储设备、或者任何其它可以用来存储希望的信息并且可以由计算机访问的介质。此外,技术人员公知通信介质一般实施诸如载波或者其它传输机制的已调制数据信号中的计算机可读指令、数据结构、程序模块或者其它数据,并且通信介质包括任何信息传递介质。

实施例的列表

1.一种解码器系统(400;500;700;1000),用于将比特流信号解码为音频时间信号,所述解码器系统包括:

解码部(410;511、512、513;711、712、713;1011、1013),用于将比特流信号解码为音频时间信号;以及

谐波间噪声衰减后置滤波器(440;540;740;1040),用于对所述初级音频时间信号进行滤波,以获得音频时间信号,

所述解码器系统的特征在于控制部,所述控制部被适配为响应于在所述比特流信号中编码的后置滤波信息而禁用所述后置滤波器,其中,输出所述初级音频时间信号作为所述音频时间信号。

2.根据实施例1所述的解码器系统,其中,所述后置滤波器还被适配为对位于频谱谷中的噪声进行衰减。

3.根据实施例1所述的解码器系统,其中,所述控制部包括开关(442;541;1042),所述开关用于从所述解码器系统的信号处理路径中选择性地排除所述后置滤波器,由此禁用所述后置滤波器。

4.根据实施例1所述的解码器系统,其中,所述后置滤波器具有确定谐波间衰减的可变增益,并且所述控制部包括增益控制器,所述增益控制器可操作用于将所述增益的绝对值设置为预定阈值以下,由此禁用所述后置滤波器。

5.根据实施例1所述的解码器系统,所述解码部包括语音解码模块。

6.根据实施例1所述的解码器系统,所述解码部包括代码激励线性预测CELP解码模块(511;711;1011)。

7.根据实施例5所述的解码器系统,其中,在所述比特流信号中对由编码器中的长期预测部估计的音高频率进行编码。

8.根据实施例7所述的解码器系统,其中,所述后置滤波器被适配为对位于所述音高频率的谐波之间的频谱分量进行衰减。

9.根据实施例1所述的解码器系统,其中,所述比特流信号包含音高频率的表示,并且所述后置滤波器被适配为对位于所述音高频率的谐波之间的频谱分量进行衰减。

10.根据实施例8或9所述的解码器系统,其中,所述后置滤波器被适配为仅对位于预定截止频率以下的这些频谱分量进行衰减。

11.根据实施例6所述的解码器系统,

所述解码部还包括变换编码激励TCX解码模块(512;712),所述TCX解码模块用于将比特流信号解码为音频时间信号,

所述控制部被适配为至少以下面的模式操作所述解码器系统:

a)启用所述TCX模块,并且禁用所述后置滤波器;

b)启用所述CELP模块和所述后置滤波器;以及

c)启用所述CELP模块,并且禁用所述后置滤波器,其中,所述初级音频时间信号和所述音频时间信号一致。

12.根据实施例10所述的解码器系统,

所述解码部还包括高级音频编码AAC解码模块(513;713),所述AAC解码模块用于将比特流信号解码为音频时间信号,

所述控制部被适配为也以下面的模式操作所述解码器:

d)启用所述AAC模块,并且禁用所述后置滤波器。

13.根据实施例1所述的解码器系统,其中,将所述比特流信号分割为时间帧,并且所述控制部被适配为禁用整个时间帧或者整个时间帧中的一个序列。

14.根据实施例13所述的解码器系统,其中,所述控制部还被适配为针对运动图片专家组MPEG比特流中的每个时间帧,接收与该时间帧相关联的数据字段,并且所述控制部响应于所述数据字段的值可操作用以禁用所述后置滤波器。

15.根据实施例4所述的解码器系统,其中,所述控制部被适配为逐步减小和/或增大所述后置滤波器的增益。

16.一种解码器系统(400;500;700;1000),包括:

解码部(410;511、512、513;711、712、713;1011、1013),用于将比特流信号解码为初级音频时间信号;以及

谐波间噪声衰减后置滤波器(440;540;740;1040),用于对所述初级音频时间信号进行滤波,以获得音频时间信号,

所述解码器系统的特征在于,

所述解码部被适配为生成表示激励的中间解码信号,并且向控制部提供该信号;以及

所述控制部被适配为作为所述中间解码信号和在经过了后置滤波时的所述中间解码信号之间的差来计算近似差信号,所述近似差信号近似于所述后置滤波器要从解码信号中去除的信号分量,并且所述控制部被适配为对下面的标准中的至少一个进行评价:

a)所述近似差信号的功率是否超过预定阈值;

b)所述近似差信号的特性是否是有声调的;

c)所述近似差信号的幅频谱和所述音频时间信号的幅频谱之间的差,是否关于频率不均匀地分布;

d)所述近似差信号的幅频谱是否局限于预定相关包络内的频率间隔;以及

e)所述近似差信号的幅频谱是否局限于通过由以预定比例因子缩减的其中的最大信号分量的幅值、对所述音频时间信号的幅频谱进行阈值计算而获得的相关包络内的频率间隔;

并且响应于肯定确定来禁用所述后置滤波器,由此输出所述初级音频时间信号作为所述音频时间信号。

17.一种谐波间噪声衰减后置滤波器(440;550;740;1040;1140),被适配为接收包括初级音频信号的输入信号,并且提供输出音频信号,

所述后置滤波器的特征在于控制部,所述控制部用于根据后置滤波信号的值选择性地以下面的模式中的一个操作所述后置滤波器:

i)滤波模式,其中,其对所述初级音频信号进行滤波,以获得滤波信号,并且提供该滤波信号作为输出音频信号;以及

ii)旁路模式,其中,其作为输出音频信号提供所述初级音频信号。

18.根据实施例17所述的后置滤波器,其中,所述后置滤波信号被包括在所述输入信号中。

19.根据实施例17所述的后置滤波器,还包括决定模块(1120),所述决定模块被适配为估计所述初级音频信号的音高频率,并且对下面的标准中的至少一个进行评价:

a)所述音高频率以下的频谱分量的功率是否超过预定阈值;

b)所述音高频率以下的频谱分量是否是有声调的;

c)所述音高频率的谐波之间的频谱分量的功率是否超过预定阈值;以及

d)所述音高频率的谐波之间的频谱分量是否是有声调的;

并且所述决定模块被适配为响应于肯定确定,做出生成用于禁用所述后置滤波器的否定后置滤波信号的决定。

20.一种将比特流信号解码为音频时间信号的方法,包括如下步骤:

将比特流信号解码为初级音频时间信号;以及

通过对谐波间噪声进行衰减来对所述初级音频时间信号进行后置滤波,由此获得音频时间信号,

所述方法的特征在于,响应于在所述比特流信号中编码的后置滤波信息,选择性地省略所述后置滤波步骤。

21.根据实施例20所述的方法,其中,所述后置滤波步骤还包括对位于频谱谷中的噪声进行衰减。

22.根据实施例20所述的方法,其中,所述解码步骤包括应用适于语音编码的编码方法。

23.根据实施例20所述的方法,其中,所述解码步骤包括应用代码激励线性预测CELP解码。

24.根据实施例22或23所述的方法,其中,所述后置滤波步骤包括对位于音高频率的谐波之间的频谱分量进行衰减,从所述比特流信号中提取或者在所述解码步骤中估计所述音高频率。

25.根据实施例20所述的方法,其中,所述后置滤波步骤包括仅对位于预定截止频率以下的这些频谱分量进行衰减。

26.根据实施例23所述的方法,其中,所述解码步骤和所述后置滤波步骤选择性地进行以下内容中的一个:

a)TCX解码;

b)有后置滤波的CELP解码;以及

c)没有后置滤波的CELP解码。

27.根据实施例26所述的方法,其中,所述解码步骤和所述后置滤波步骤选择性地进行模式a)、b)、c)以及下面的d)中的一个:

d)高级音频编码AAC解码。

28.根据实施例20所述的方法,其中,将所述比特流信号分割为时间帧,并且针对整个时间帧或者整个时间帧中的一个序列省略所述后置滤波步骤。

29.根据实施例28所述的方法,其中:

所述比特流信号是运动图片专家组MPEG比特流,并且针对每个时间帧包括相关联的数据字段;以及

在响应于所述相关联的数据字段的值的时间帧中,省略所述后置滤波步骤。

30.根据实施例20所述的方法,其中,后置滤波的所述省略包括下面中的一个:

衰减的全省略,

衰减的部分省略,

逐步增加衰减,以及

逐步减小衰减。

31.一种将比特流信号解码为音频时间信号的方法,包括如下步骤:

将比特流信号解码为初级音频时间信号;以及

通过对谐波间噪声进行衰减来对所述初级音频时间信号进行后置滤波,由此获得音频时间信号,

所述方法的特征在于,所述解码步骤包括:

提取表示激励的中间解码信号;

作为所述中间解码信号和在经过了后置滤波时的所述中间解码信号之间的差来计算近似差信号,所述近似差信号近似于后置滤波器要从解码信号中去除的信号分量;

对下面的标准中至少一个进行评价:

a)所述近似差信号的功率是否超过预定阈值;

b)所述近似差信号的特性是否是有声调的;

c)所述近似差信号的幅频谱和所述音频时间信号的幅频谱之间的差,是否关于频率不均匀地分布;

d)所述近似差信号的幅频谱是否局限于预定相关包络内的频率间隔;以及

e)所述近似差信号的幅频谱是否局限于通过由以预定比例因子缩减的其中的最大信号分量的幅值、对所述音频时间信号的幅频谱进行阈值计算而获得的相关包络内的频率间隔;

以及响应于肯定确定来禁用所述后置滤波器,由此输出所述初级音频时间信号作为所述音频时间信号。

32.一种用于将音频时间信号编码为比特流信号的编码器系统(800),所述编码器系统包括编码部(810),所述编码部用于将音频时间信号编码为比特流信号,

所述编码器系统的特征在于决定部(820),所述决定部被适配为决定是否在对所述比特流信号进行解码时禁用包括对谐波间噪声的衰减的后置滤波,并且在所述比特流信号中将该决定编码为后置滤波信息。

33.根据实施例32所述的编码器系统,所述决定部被适配为是否禁用后置滤波,所述后置滤波还包括对位于频谱谷中的噪声的衰减。

34.根据实施例32所述的编码器系统,所述编码部包括语音编码模块。

35.根据实施例32所述的编码器系统,所述编码部包括代码激励线性预测CELP编码模块。

36.根据实施例32所述的编码器系统,所述决定部被适配为:

检测具有主导基频的信号分量和位于所述基频以下以及任选地其谐波之间的信号分量的共同存在;以及

响应于此做出禁用的决定。

37.根据实施例35所述的编码器系统,

所述CELP编码模块被适配为估计所述音频时间信号中的音高频率;以及

所述决定部被适配为检测位于所估计的音高频率以下的频谱分量,并且响应于此做出禁用的决定。

38.根据实施例35所述的编码器系统,所述决定部被适配为

计算进行了CELP编码时的所述音频时间信号的预测功率和进行了CELP编码和后置滤波时的所述音频时间信号的预测功率之间的差,以及

响应于超过预定阈值的该差,做出禁用的决定。

39.根据实施例35所述的编码器系统,

所述编码部还包括变换编码激励TCX编码模块,

其中,所述决定部被适配为选择以下编码模式中的一个:

a)TCX编码;

b)有后置滤波的CELP编码;

c)没有后置滤波的CELP编码。

40.根据实施例39所述的编码器系统,还包括编码选择器(814),被适配为选择下面的超级模式中的一个:

i)高级音频编码AAC编码,其中,禁用所述决定部;以及

ii)TCX/CELP编码,其中,启用所述决定部,以选择编码模式a)、b)和c)中的一个。

41.根据实施例39所述的编码器系统,所述决定部被适配为基于速率失真最优化来决定使用哪种模式。

42.根据实施例32所述的编码器系统,

还被适配为将所述比特流信号分割为时间帧,

所述决定部被适配为决定在由整个帧构成的时间片段中禁用所述后置滤波器。

43.根据实施例32所述的编码器系统,所述决定部被适配为决定逐渐减小和/或增大所述后置滤波器的衰减。

44.根据实施例32所述的编码器系统,所述决定部被适配为:

计算估计的音高频率以下的音频时间信号的功率;以及

响应于超过预定阈值的该功率,做出禁用的决定。

45.根据实施例32所述的编码器系统,其中,所述决定部被适配为:

根据所述音频时间信号得出近似差信号,所述近似差信号近似于所述后置滤波器要从将来的解码信号中去除的信号分量;

对下面的标准中的至少一个进行评价:

a)所述近似差信号的功率是否超过预定阈值;

b)所述近似差信号的特性是否是有声调的;

c)所述近似差信号的幅频谱和所述音频时间信号的幅频谱之间的差,是否关于频率不均匀地分布;

d)所述近似差信号的幅频谱是否局限于预定相关包络内的频率间隔;以及

e)所述近似差信号的幅频谱是否局限于通过由以预定比例因子缩减的其中的最大信号分量的幅值、对所述音频时间信号的幅频谱进行阈值计算而获得的相关包络内的频率间隔;

以及响应于肯定确定,做出禁用所述后置滤波器的决定。

46.根据实施例45所述的编码器系统,其中,所述决定部被适配为作为所述音频时间信号和进行了后置滤波时的所述音频时间信号之间的差来计算所述近似差信号。

47.根据实施例45所述的编码器系统,其中:

所述编码部被适配为提取表示激励的中间解码信号,并且向所述决定部提供该中间解码信号;以及

所述决定部被适配为作为所述音频时间信号和进行了后置滤波时的所述中间解码信号之间的差来计算所述近似差信号。

48.一种将音频时间信号编码为比特流信号的方法,所述方法包括将音频时间信号编码为比特流信号的步骤,

所述方法的特征在于决定是否在对所述比特流信号进行解码时禁用包括对谐波间噪声的衰减的后置滤波,并且在所述比特流信号中将该决定编码为后置滤波信息的另一步骤。

49.根据实施例48所述的方法,其中,所述决定步骤与还包括对位于频谱谷中的噪声的衰减的后置滤波相关。

50.根据实施例48所述的方法,其中,所述编码步骤包括应用适于语音编码的编码方法。

51.根据实施例48所述的方法,其中,所述编码步骤包括应用代码激励线性预测CELP编码。

52.根据实施例48所述的方法,

还包括检测具有主导基频的信号分量和位于所述基频以下以及任选地其谐波之间的信号分量的共同存在的步骤;以及

其中,在肯定检测结果的情况下做出禁用后置滤波的决定。

53.根据实施例51所述的方法,其中:

所述CELP编码步骤包括估计所述音频时间信号中的音高频率;以及

所述决定步骤包括:检测位于所估计的音高频率以下的频谱分量,并且在肯定检测结果的情况下做出禁用后置滤波的决定。

54.根据实施例51所述的方法,

还包括计算进行了CELP编码时的所述音频时间信号的预测功率和进行了CELP编码和后置滤波时的所述音频时间信号的预测功率之间的差的步骤,以及

其中,如果所述差超过预定阈值,则做出禁用后置滤波的决定。

55.根据实施例51所述的方法,其中:

所述编码步骤包括选择性地应用CELP编码或者变换编码激励TCX编码;以及

仅在应用CELP编码时,决定是否禁用后置滤波的步骤。

56.根据实施例55所述的方法,其中,所述决定步骤包括基于速率失真最优化选择下面的操作模式中的一个:

a)TCX编码;

b)有后置滤波的CELP编码;以及

c)没有后置滤波的CELP编码。

57.根据实施例55所述的方法,其中,所述决定步骤包括基于速率失真最优化选择下面的操作模式中的一个:

a)TCX编码;

b)有后置滤波的CELP编码;

c)没有后置滤波的CELP编码;以及

d)高级音频编码AAC编码。

58.根据实施例48所述的方法,其中:

所述编码步骤包括将所述音频时间信号分割为时间帧,并且形成具有相应时间帧的比特流信号;以及

在每个时间帧中执行一次决定禁用后置滤波的步骤。

59.根据实施例48所述的方法,其中,决定禁用后置滤波的步骤的结果从以下中选择:

无衰减,

全衰减,

部分衰减,

逐步增大衰减,以及

逐步减小衰减。

60.根据实施例48所述的方法,其中,所述决定步骤包括计算估计的音高频率以下的音频时间信号的功率,并且响应于超过预定阈值的该功率而禁用后置滤波器。

61.根据实施例48所述的方法,其中:

所述编码步骤包括:根据所述音频时间信号得出近似差信号,所述近似差信号近似于所述后置滤波器要从进一步解码的信号中去除的信号分量;以及

所述决定步骤包括对下面的标准中的至少一个进行评价:

a)所述近似差信号的功率是否超过预定阈值;

b)所述近似差信号的特性是否是有声调的;

c)所述近似差信号的幅频谱和所述音频时间信号的幅频谱之间的差,是否关于频率不均匀地分布;

d)所述近似差信号的幅频谱是否局限于预定相关包络内的频率间隔;以及

e)所述近似差信号的幅频谱是否局限于通过由以预定比例因子缩减的其中的最大信号分量的幅值、对所述音频时间信号的幅频谱进行阈值计算而获得的相关包络内的频率间隔;

以及至少响应于肯定确定而禁用所述后置滤波器。

62.根据实施例61所述的方法,其中,作为所述音频时间信号和进行了后置滤波时的所述音频时间信号之间的差来计算所述近似差信号。

63.根据实施例61所述的方法,其中:

所述编码步骤包括提取表示激励的中间解码信号;以及

所述决定步骤包括作为所述音频时间信号和进行了后置滤波时的所述中间解码信号之间的差来计算所述近似差信号。

64.一种计算机程序产品,其包括数据载体,所述数据载体存储用于进行根据实施例20至31和48至63中的任一项所述的方法的指令。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1