使用多重叠部分来生成经编码的信号或对经编码的音频信号进行解码的设备及方法与流程

文档序号:17824553发布日期:2019-06-05 22:32阅读:249来源:国知局
使用多重叠部分来生成经编码的信号或对经编码的音频信号进行解码的设备及方法与流程

本发明涉及音频或图像信号的处理,且更特别地涉及对以瞬态的形式存在的音频或图像信号进行编码或解码。



背景技术:

基于重叠FFT或改进的离散余弦变换(MDCT)的现代频域语音/音频编码机制为非静态信号特征提供了一定的适应度。以MPEG标准化的通用编解码器,即MPEG-1第三层(被更广泛地称为MP3)、MPEG-4 (HE-)AAC[1]和最近的MPEG-0xHE-AAC(USAC),以及由IETF[2] 规定的Opus/Celt编解码器,允许使用至少两个不同的变换长度(关于静态信号信道的一个长的变换长度M,或8个短的变换长度(分别为)M/8) 中的一个对帧进行编码。在MPEG编解码器的情况下,从长变换切换到短变换及从短变换切换到长变换(亦称为块切换)需要使用非对称加窗的过渡变换(transition transform),即分别为起始窗和停止窗。这些变换形状以及其它已知的现有形状示出在图16中。应注意,线性重叠斜率仅是说明性的并以确切的形状变化。可能的窗形状在AAC标准[1]中和在[3] 的第6节中给出。

假定如果即将到来的帧待由MPEG编码器利用短变换进行编码,则当前帧必须利用起始过渡变换来编码,显而易见的是,依据上述MPEG 标准中的一个来实施的编码器需要至少一个预测(look-ahead)的帧长度。然而,在低延迟通信应用中,期望使此种额外预测最小化或甚至避免此种额外预测。为此,提出了通用编码模型的两个改进方案。一个改进方案曾经被用在例如Celt[2]中,用于将长变换的重叠减少至短变换的重叠,以避免不对称过渡窗。另一改进方案被用于例如MPEG-4(增强)低延迟 AAC编码机制,以禁止切换至较短变换,而依靠时域噪声整形(TNS) 编码工具[4],其操作于长变换系数上以使围绕瞬态的编码错误的时域伸展(temporal spread)最小化。

再者,类似xHE-AAC,低延迟AAC允许使用双帧重叠宽度——关于静态输入默认为50%重叠,或关于非静态信号为较小的重叠(类似于过渡变换的短重叠)。较小的重叠在系数量化的情况下有效地限制变换的时间延伸,进而限制其编码错误。

转让给三星(Samsung)电子公司的美国专利2008/0140428A1以及转让给索尼(Sony)公司的美国专利5502789及5819214披露了信号适应性窗或变换尺寸决定单元。然而,由该窗或变换尺寸决定单元所控制的变换器单元操作于QMF或LOT子带值(表示所说明的系统都采用串联型滤波器组或变换),与如在申请中直接地工作于时域全频带输入信号上相反。此外,于2008/0140428A1中,并未说明关于窗重叠的控制或形状的细节,且在5819214中,重叠形状跟随变换尺寸决定单元的输出(即,是变换尺寸决定单元的输出的结果),这与本发明的优选实施例中提出的内容相反。

转让给法国电信的美国专利2010/0076754A1遵循与本发明相同的动机,即能用于在通信编码方案中执行变换长度切换,以改善瞬态信号段的编码,且这样做不需要额外编码器预测。然而,尽管该文献披露了低延迟目标通过避免变换长度过渡窗以及通过在解码器(不利地通过放大解码信号的部分,进而放大编码错误)中对重构信号进行后处理来实现,本发明提出一种待在下文中介绍的现有系统的过渡窗的简单改进方案,以使额外编码器预测可被最小化并避免特殊(危险)的解码器后处理。

应用了发明的改进方案的过渡变换是在美国专利5848391以及形式稍微不同的美国专利2006/0122825A1中的两个变形例中描述的起始窗,美国专利5848391被转让给弗劳恩霍夫协会(Fraunhofer-Gesellschaft e.V.)及杜比(Dolby)实验室授权公司,而美国专利2006/0122825A1被转让给三星电子公司。图16示出了这些起始窗并显露出在 Fraunhofer/Dolby的窗及Samsung的窗之间的差异是存在不重叠段,即窗中具有固定最大值的区域并不属于任何重叠斜率。Fraunhofer/Dolby 窗显现出"具有一定长度的不重叠部分",而Samsung窗并没有。可以断定出具有最小数量的额外预测但使用现有变换切换的编码器可通过采用 Samsung的过渡窗方法来实现。利用这些变换,与在短变换之间的重叠宽度相等的预测足以在信号瞬态之前较早地从长变换完全切换到短变换。

更进一步地,现有技术可在以下文献中找到:WO 90/09063或“Coding of audio signals with overlap block transform and adaptive window functions(利用重叠块变换及适应性窗功能的音频信号编码)”,Frequenz, Band 43,September 1989,pages 2052to 2056or in AES Convention Paper 4929,“MPEG-4Low Delay Audio Coding based on the AAC Codec(基于 AAC编码解码器的MPEG-4低延迟音频编码)”,E.Allamanche,et al.,106 Convention,1999年。

尽管如此,依据短变换的长度,预测可维持相当大而不应被避免。图 17示出了在最坏条件下的输入情形期间的块切换性能,即在预测区域的起始处存在突发性瞬态,其进而开始于长斜率的末端,即,在帧之间的重叠区域处。依据现有方法,两个描绘的瞬态中的至少一者到达过渡变换。在利用编码器而没有额外预测的有损耗的编码系统中,即在没有“看见瞬态到来”的编码器中,此种状况导致编码错误的时域伸展至长斜率的开始部分,从而即使当使用TNS时,也可能在解码的信号中听到预回音噪声。

前述两个预测的变通方案具有它们的缺点。一方面使长变换重叠降低达到高达8的因子,如在Celt编码器中所执行的,严格地限制静态的、尤其高音调的输入材料上的效率(即,编码增益、频谱压缩)。另一方面,如在(增强)低延迟AAC中,禁止短变换,将使在具有远小于帧长度的期间(宽度)的强瞬态上的编码解码性能降低,从而导致即使在使用TNS 的情形下仍可听见的预回音(pre-echo)或后回音(post-echo)噪声。

因此,现有窗序列判定程序由于窗长度被限制,从而挠性是次优的;由于所需的最小瞬态预测期间,从而所需延迟是次优的;预回音及后回音,从而音频质量是次优的;由于针对某些窗可能需要使用除加窗程序之外的额外功能来执行额外预处理,从而效率是次优的;或由于在瞬态存在的情形下可能需要改变帧/块光栅,从而挠性及效率是次优的。



技术实现要素:

本发明的目的是提供一种音频编码/解码的改进理念,其针对现有技术中的至少一个缺点提供了改善的性能。

根据本发明的一个方面,提供了一种用于生成经编码的音频或图像信号的设备,包括:窗序列控制器,生成用于对音频或图像信号进行加窗的窗序列信息,所述窗序列信息指示用于生成第一帧的频谱值的第一窗函数、第二窗函数以及用于生成具有第一部分和第二部分的第二帧的频谱值的至少一个第三窗函数,其中所述第一窗函数、所述第二窗函数和所述一个或更多个第三窗函数在多重叠区域内重叠;预处理器,通过使用辅助窗函数对与所述第二窗函数和所述一个或更多个第三窗函数对应的第二块样本进行加窗,以获得第二块加窗样本,并且所述预处理器通过使用将与第一块样本重叠的第二块加窗样本的部分叠入到多重叠区域内的操作来对所述第二块加窗样本进行预处理,以获得具有改进的多重叠区域的经预处理的第二块加窗样本;频谱转换器,通过使用所述第一窗函数将混叠引入变换应用至所述第一块样本以获得所述第一帧的频谱值;通过使用所述第二窗函数将另一个混叠引入变换应用至经预处理的第二块加窗样本的第一部分以获得所述第二帧的频谱值的第一部分;以及,通过使用所述一个或更多个第三窗函数将另外的一个或更多个混叠引入变换应用至经预处理的第二块加窗样本的第二部分,以获得所述第二帧的频谱值的第二部分;及处理器,处理所述第一帧和所述第二帧以获得经编码的音频或图像信号帧。

根据本发明的另一方面,提供了一种对经编码的音频或图像信号进行解码的设备,所述音频或图像信号包括第一经编码帧和第二经编码帧,所述设备包含:处理器,处理所述第一经编码帧和所述第二经编码帧,以获得第一帧的频谱值和第二帧的频谱值,所述第一帧和所述第二帧包括混叠部分;时间转换器,通过使用第一窗函数将变换应用至所述第一帧的频谱值以获得第一块样本,通过使用第二窗函数将另一个变换应用至所述第二帧的频谱值的第一部分以及通过使用一个或更多个第三窗函数将另外的一个或更多个变换应用至所述第二帧的频谱值的第二部分以获得第二块样本,其中所述第一窗函数、所述第二窗函数和所述第三窗函数形成多重叠区域;以及后处理器,通过使用叠出操作对所述第二块样本进行后处理以获得在所述多重叠区域中具有与所述第一块样本重叠的第二块样本的部分的、经后处理的第二块样本,通过使用辅助窗函数对经后处理的第二块样本进行加窗,以及对经加窗的经后处理的第二块样本与所述第一块样本进行重叠相加以获得经解码的音频或图像信号。

根据本发明的另一方面,提供了一种用于生成经编码的音频或图像信号的方法,包括:生成对音频或图像信号进行加窗的窗序列信息,所述窗序列信息指示用于生成第一帧的频谱值的第一窗函数、第二窗函数以及用于生成具有第一部分和第二部分的第二帧的频谱值的至少一个第三窗函数,其中所述第一窗函数、所述第二窗函数和所述一个或更多个第三窗函数在多重叠区域内重叠;通过使用辅助窗函数对与所述第二窗函数和所述一个或更多个第三窗函数对应的第二块样本进行加窗,以获得第二块加窗样本,通过使用将与第一块样本重叠的第二块加窗样本的部分叠入到所述多重叠区域内的操作,来对所述第二块加窗样本进行预处理,以获得具有改进的多重叠区域的经预处理的第二块加窗样本;通过使用所述第一窗函数将混叠引入变换应用至所述第一块样本以获得所述第一帧的频谱值,通过使用所述第二窗函数将另一个混叠引入变换应用至经预处理的第二块加窗样本的第一部分以获得所述第二帧的频谱值的第一部分,以及通过使用所述一个或更多个第三窗函数将另外的一个或更多个混叠引入变换应用至经预处理的第二块加窗样本的第二部分,以获得所述第二帧的频谱值的第二部分;以及处理所述第一帧和所述第二帧以获得经编码的音频或图像信号帧。

根据本发明的另一方面,提供了一种用于解码经编码的音频或图像信号的方法,所述音频或图像信号包括第一经编码帧和第二经编码帧,所述方法包含:处理所述第一经编码帧和所述第二经编码帧以获得第一帧的频谱值和第二帧的频谱值,所述第一帧和所述第二帧包括混叠部分;通过使用第一窗函数将变换应用至所述第一帧的频谱值以获得第一块样本,通过使用第二窗函数将另一个变换应用至所述第二帧的频谱值的第一部分,以及通过使用一个或更多个第三窗函数将另外的一个或更多个变换应用至所述第二帧的频谱值的第二部分以获得第二块样本,其中所述第一窗函数、所述第二窗函数和所述第三窗函数形成多重叠区域;以及通过使用叠出操作对所述第二块样本进行后处理,以获得在所述多重叠区域中具有与所述第一块样本重叠的第二块样本的部分的经后处理的第二块样本;通过使用辅助窗函数对经后处理的第二块样本进行加窗,以及对经加窗的经后处理的第二块样本和所述第一块样本进行重叠相加以获得经解码的音频或图像信号。

根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有在计算机或处理器上运行时执行根据本发明的上述方面中所述的方法的计算机程序。

本发明的实施方式依靠下述发现,为了使低延迟音频或图像编解码器能够接近通用编解码器的编码质量,有利地,在静态信号输入期间在长变换之间维持高重叠百分比以便能够在信号非稳态周围的音频或图像信号部分处瞬间切换至较短的重叠和变换。再者,较之针对重叠宽度以及额外地或替代地针对变换长度仅仅提供二进制选择,期望允许稍微更大的灵活性,使得帧内的变换的重叠宽度或长度可基于在帧的时区内的可能瞬态位置来恰当地调整,以使预回音或其它伪影最小化。

具体言之,瞬态位置检测器被配置成识别在帧的瞬态预测区域内的瞬态位置,并且基于帧内的瞬态位置从具有至少三个窗的群组中选择特定窗,其中这三个窗在其重叠长度方面与相应的相邻窗不同。因此,第一窗具有大于第二窗的重叠长度,而第二窗具有比第三窗的重叠长度更大的重叠长度,且第三窗或者亦可具有零重叠,亦即,没有重叠。特定窗基于瞬态位置来选择,以使两个时间相邻的重叠窗中的一个具有在瞬态位置处的第一窗系数,而两个时间相邻的重叠窗中的另一个具有在瞬态位置处的第二窗系数,其中第二系数是第一系数的至少九倍。因此,确保关于第一窗的瞬态位置被充分抑制,而关于第二窗的瞬态被充分捕获。换言之,优选地,较早的窗在检测到瞬态的瞬态位置中已经处于接近于零的数值处,并且第二窗在其区域中具有接近或等于1的窗系数,以便在瞬态的至少一部分期间,使瞬态在较早的窗中被抑制,而在后来的或后续的窗中没有被抑制。

在实施例中,重叠长度相差整数因子,以便使第二重叠长度譬如等于第三重叠长度的一半,并第三重叠长度等于第二重叠长度的一半,或与第二重叠长度相差不同的因子,但大于或等于至少64个样本,或大于或等于至少32个样本,或大于或等于至少甚至16个音频或图像样本。

根据瞬态位置得出的窗选择与音频或图像信号的帧一起被传输,使得解码器可选择与分析窗的编码器选择相符的对应合成窗,从而确保编码器和解码器遍及全部编码/解码操作来同步化。

在实施例中,可控制加窗器、转换器、瞬态位置检测器以及控制器形成用于编码的设备,且转换器应用已知的混叠引入变换中的任何一个,所述已知的混叠引入变换诸如MDCT(改进的离散余弦变换),DST(改进的离散正弦变换)或任何其它类似的变换。在解码器侧上,处理器与可控制转换器协作,以便依据由解码器接收的窗信息所指示的窗序列、通过使用重叠相加处理来将频谱值块序列转换成时域表现。

依据此实施方式,除了变换重叠选择以外,变换长度切换也可基于帧内的瞬态位置来实施。通过实现至少三个窗彼此重叠的多重叠区段,非常低的延迟编解码器概念被实现,该延迟编解码器概念相对于较早的概念进一步大幅地减少了所需的瞬态预测延迟。在更进一步的实施例中,优选地,首先执行重叠选择且接着执行变换长度决定,以便确定每个帧的重叠码。或者,变换长度切换决定可独立于重叠宽度决定来完成,并且基于这两个决定,确定重叠码。基于当前帧的重叠码和较早帧的重叠码,来完成特定瞬态的窗序列选择,基于此选择,编码器和解码器彼此同步操作。

在更进一步的实施方式中,窗序列控制器、预处理器及频谱转换器一起构成用于生成经编码的信号的设备,其中三个窗具有多重叠部分。由于瞬态预测所需的延迟被进一步减少的事实,这个多重叠部分(其中不仅如现有技术那样两个窗彼此重叠而且三个窗彼此重叠)允许非常低的延迟概念。对应的解码器通过解码器处理器、时间转换器及后处理器而形成。后处理器与预处理器通过使用在编码器侧上及在解码器侧上的同一个辅助窗来执行额外的加窗操作,从而能够在移动设备中或在所需的ROM或 RAM存储器足够小的低沉本设备中实现有效实施。

优选实施例依靠特定加窗序列和具有不同长度的窗的特定交互,使得短长度窗被"放置"于瞬态,以避免长预回音或后回音。为了确保多重叠部分不会导致音频或图像伪影,编码器侧上的预处理器使用辅助窗函数执行加窗操作并使用叠入操作执行预处理操作,以获得改进的多重叠部分,其接着通过使用混叠引入变换被变换成谱域。在解码器侧上,对应的后处理器被配置成在对应的变换成时间表现之后执行叠出操作,且在叠出操作之后,使用辅助窗函数执行加窗以及利用长窗执行与由窗操作产生的先前块样本的最后重叠相加。

在执行变换重叠选择的实施例中,获得增加的音频或质量。

不像只采用变换重叠宽度的二进制选择(大的/最大或小的)的现有编码系统,实施例提出三个重叠宽度组,编码器可从该组中选择每帧(或可选择地,每变换)的基础:最大重叠、半重叠或最小重叠。最大重叠可以等于关于AAC中的长变换的帧长度(亦即,50%重叠),但亦可同等于帧长度的一半(亦即,33%重叠或更少),如将在优选实施例中说明的。因此,最小重叠可表示零重叠宽度(亦即,没有重叠),但亦可表示具有非常小数目的时间样本或ms的大于零的重叠,如所述优选实施例将说明的。最后,半重叠可以是但不一定是最大重叠的一半。

更特别是,依据本发明的实施方式,限定了重叠宽度决定单元,其为每个帧(或可选择地,为在帧内的每个变换)选择三个可能的重叠宽度中的一个。更精确地说,该重叠宽度决定单元具有以瞬态检测单元的输出作为输入以便以足够精度来识别当前帧内(或可选择地,在当前帧中的变换内)的瞬态位置并且得出重叠宽度,使得两个目的中的至少一者被实现:

-选择此宽度使得只有重叠变换中的一个包括瞬态。

-由于编码错误的时间混叠TNS成形而导致的伪瞬态受到强烈抑制。

换言之,为了避免在给定帧中的感知编码瞬态周围的预回音或后回音失真,确定重叠宽度。应该注意到,关于确定瞬态的确切位置的机制可以有一定的自由度。如在优选实施例中,指定瞬态位置的时间或子块索引可等于那个瞬态位置的起始(发端),但其亦可以是瞬态的最大能量或最大振幅的位置,或瞬态的能量中心。

再者,不像根据一对帧的变换长度的给定选择而得到的瞬时变换间重叠(亦即,重叠宽度跟随变换尺寸确定单元的输出)的现有编码机制,依据本发明之另一个实施方式,在编码系统在某些状况(待在下文的优选实施例中被分析)下,通过使用归属于那个帧的重叠宽度且可选择地前一帧的重叠宽度来控制或得出待用于特定帧的变换长度(亦即,变换尺寸跟随重叠宽度确定单元的数据)。

在使用多重叠部分或应用变换长度切换的进一步的实施例中,获得了特别低的延迟概念。

对于现有块切换机制的改进为对于图16的过渡变换的有利改进方案,该方案使在信号非稳定期间稳定质量操作所需的附加编码器预测能够被减少一半。如上所述,由Fraunhofer/Dolby或由Samsung提出的起始窗的特征为:"具有长度的非重叠部分"的存在或不存在。此实施例更进一步地允许过渡窗的左右重叠斜率延伸进入彼此。换言之,改进的过渡变换显现出具有非零长度的"双重叠"区域,其不但与前一帧的长变换重叠而且与后续的短变换重叠。发明过渡变换(inventive transition transform)的所生成的形状示出在图13中。与图17所示的Samsung过渡窗相比,显然,通过在变换中允许"双重叠"区域,变换的右端上的短重叠斜率可向左移位达到(由此可减少所需的编码器预测达到)短变换重叠宽度的一半。这种改进的过渡窗的较小长度具有有帮助特别在移动设备上实现的三个极重要的优点。

由重叠时间/频率变换(优选MDCT)所生成的变换核心(亦即,系数向量的长度)正好是在两个长变换之间的重叠区域的宽度的一半。鉴于以下事实:该长重叠宽度通常等于帧长度或帧长度的一半,这表示发明过渡窗与后来的短窗完美地适配在帧栅格(frame grid)中,且所生成的编解码的所有变换尺寸与整数2的次方的因子相关,如图13所示。

-在图17中且又在图13中所描绘出的瞬态位置均位于过渡变换外部,所以编码错误的时域拖尾(temporal smearing)由于瞬态可被限制尾随变换最初两个短窗的延伸内。因此,与现有Fraunhofer/Dolby和 Samsung机制相反,围绕瞬态的可听见的预回音噪声不可能在使用图13 的发明块切换方法时生成。

-编码器和解码器两者可为顺向和逆变换使用完全相同的窗。因此,在执行编码及解码两者的通信装置中,只有一组窗数据需要被存储在 ROM中。此外,亦可避免对信号的特殊预处理或后处理,其需要额外程序ROM和/或RAM。

传统上,如在本发明中的具有"双重叠"段的过渡窗尚未被用于语音或音频或图像编码中,大概因为他们被认为是违背了某些原理,该原理在缺乏变换系数的量化的情形下确保完美波形重建。然而,可能在使用发明过渡变换时恰当重建此输入,再者,不需要如在法国电信提议中的特殊解码器侧后处理。

还注意到,值得强调的是发明过渡窗的使用可利用发明重叠宽度确定单元而非变换长度确定单元来控制,或者除了变换长度确定单元以外可利用发明的重叠宽度确定单元来控制。

然后,更详细讨论并说明本发明的优选实施例。再者,具体参考定义更进一步的实施例的从属权利要求。

再者,本说明书参照图1a至7详细示出了尤其与瞬态位置自适应重叠切换有关的实施方式。参照图8a至15f示出并说明了关于多重叠部分的更进一步的实施方式。这些各个实施方式可独立于彼此被实施,亦即,重叠切换可在没有多重叠区域的情况下应用,或多重叠区域可在没有瞬态位置自适应重叠切换的情况下被应用。然而,在实施例中,实施方式两者可有利地被结合,以生成具有瞬态位置自适应重叠切换和多重叠区域的编码/解码概念。此外,这种概念可通过变换长度切换程序,依据在帧的瞬态预测区域内的瞬态位置来增强。变换长度切换可依据重叠宽度确定或独立于重叠切换来执行。

本发明不但用于音频信号而且用于视频、图片或通常用于图像信号。举例而言,在静止图像或所谓的AVC中的I帧的编码中或在普通技术或高级技术中,本发明可被应用来避免阻隔伪影(artefacts)。图像场中的瞬态是尖锐的边缘且帧将譬如对应于宏块。接着,图像优选地通过使用混叠引入变换及对应的空间重叠来进行二维编码。一方面,这减少了阻隔伪影,而另一方面,减小了由瞬态部分(亦即,具有尖锐边缘的部分)产生的任何其它伪影。因此,虽然遍及本公开未详细指出,但以下的公开同样应用至图像信号。

附图说明

接着将参考附图描述实施例及实施方式,其中:

图1a示出了在重叠切换实施方式背景下用于编码的设备;

图1b示出了在重叠切换的实施方式中的用于解码的设备;图1c示出了可控制转换器的解码器侧的实施例;图1d示出了以移动设备实现的本发明的一实施例;

图2a示出了具有在邻近窗之间的完全重叠的窗序列;

图2b示出了具有在两个邻近窗之间的半重叠的窗序列;

图2c示出了具有在邻近窗之间的四分之一重叠以及在邻近窗之间的半重叠和后续在邻近窗之间的完全重叠的窗序列;

图3a至3c示出了关于具有20ms变换长度(譬如在TCX 20处)的实施例的不同瞬态位置的不同重叠宽度;

图4a至4g示出了依据瞬态位置关于例如TCX 10的10ms变换长度的变换重叠长度的选择;

图5a至5c示出了重叠宽度的编码;

图6a示出了重叠宽度的编码和基于瞬态位置的变换长度;

图6b示出了变换长度决定表;

图7示出了依据前一重叠码和当前重叠码的不同的窗序列;

图8a示出了在本发明实施例中在多重叠部分背景下的编码器;

图8b示出了在本发明实施例中关于多重叠部分的实施方式的解码器;

图9a示出了依据优选实施例之程序,其示出了编码器侧;

图9b示出了在编码器侧执行的优选程序的流程图;

图10a示出了解码器侧的程序的实施例;

图10b示出了在解码器侧执行的程序的进一步实施例;

图11a示出了在实施例的编码器侧上执行的操作;

图11b示出了通过在本发明实施例中由解码器执行的操作;

图12a和12b示出了在本发明的多重叠实施方式的背景下待在编码器 /解码器侧执行的程序的进一步实施例;

图13示出了均具有多重叠部分的不同窗序列;

图14a示出了具有依据瞬态位置而切换变换长度的窗序列;

图14b示出了具有多重叠部分的进一步窗序列;

图15a至15f示出了不同的窗序列和对应的预测部分及预回音;

图16示出了现有窗形状;及

图17示出了由图16的窗形状形成的现有窗序列。

具体实施方式

图1a示出了一种用于编码音频信号100的设备。用于编码音频信号的设备包括可控制加窗器(windower)102,用于对音频信号100进行加窗以在103处提供加窗样本的块序列。解码器还包括转换器104,用于将加窗样本的块序列103转换成频谱表示,其包括示出在105处的频谱值的帧系列。此外,提供了瞬态位置检测器106。检测器被配置成用于识别在帧的瞬态预测区域内的瞬态的位置。此外,用于控制可控制加窗器的控制器108被配置成响应于所识别的瞬态位置(示出在107)将具有特定重叠长度的特定窗施加至音频信号100。此外,控制器108在实施例中被配置成不仅向可控制加窗器102而且向输出接口114提供窗信息112,输出接口114在其输出处提供经编码的音频信号115。包括频谱值的帧系列105 的频谱表示被输入至编码处理器110,该编码处理器110可执行任何种类的编码操作,例如预测操作、时域噪声整形操作、量化操作(优选地关于心理声学模型或至少关于心理声学原理),或可包括冗余降低编码操作,例如霍夫曼(Huffman)编码操作或算数编码操作。编码处理器110的输出接着被传送至输出接口114,并且输出接口114最终提供具有与某一个窗信息112关联的、经编码的音频信号。

控制器108被配置成从具有至少三个窗的群组中选择特定窗。此群组包括:第一窗,具有第一重叠长度;第二窗,具有第二重叠长度;和第三窗,具有第三重叠长度或没有重叠。第一重叠长度大于第二重叠长度,且第二重叠长度大于零重叠。特定窗由可控制加窗器102基于瞬态位置进行选择,以使两个时间相邻的重叠窗中的一个在瞬态位置处具有第一窗系数,而两个时间相邻的重叠窗中的另一个在瞬态位置处具有第二窗系数,且第二窗系数至少是第一窗系数的九倍。这确保瞬态充分地被具有第一 (小)系数的第一窗抑制,而瞬态完全不受具有第二窗系数的第二窗影响。优选地,第一窗系数在正负5%的公差内等于1,例如在0.95与1.05之间,而第二窗系数优选地等于0或至少小于0.05。窗系数可以是负值,并且在此情况下,窗系数的关系和数量与绝对量值相关。

图2a示出了只具有第一窗的窗序列,而第一窗具有第一重叠长度。具体地,最后帧具有相关的第一窗200,当前帧具有相关的窗202,而第三帧或下一帧具有相关的窗204。在本实施例中,相邻窗重叠50%,即,全长度。此外,这些帧相对于窗被安置,以便识别音频信号的哪一部分被帧处理。这参考当前帧来说明。当前帧具有左侧部分205a和右侧部分 205b。相应地,最后帧具有右侧部分204b及左侧部分204a。类似地,下一帧具有左侧部分206a和右侧部分206b。左/右侧表示较早的时刻及较晚的时刻,如图2a所示。当频谱值的当前帧被生成时,使用通过窗202进行加窗所获得的音频样本。音频样本起始于部分204b并且至206a。

通常,如本领域已知的MDCT处理,处理使用混叠引入变换 (aliasing-introducing transform),此种混叠引入变换可被划分成叠入 (fold in)步骤及使用特定非混叠引入变换的后续变换步骤。在图2a的例子中,区段204b折叠进入区段205a,而区段206a折叠进入区段205b。折叠操作的结果,即,205a和204b的加权组合以及206a及205b的加权组合使用诸如DCT变换等变换而被变换到频谱范围。在MDCT的情况下,应用DCTIV变换。

然后,参考MDCT来举例说明,但其它混叠引入变换可以类似及相似的方式来处理。MDCT作为重叠变换与其它傅立叶相关变换相比稍微有点不同寻常,因为它具有和输入的一半一样多的输出(而不是相同数目)。更特别是,它是线性函数F:R2N→RN:(其中R表示实数的组)。依据以下公式,2N个实数x0,...,x2N-1被变换成为N个实数X0,...,XN-1:

(在此变换之前的正规化系数(此处是1)为任意约定并在处理之间有所不同。以下只有MDCT与IMDCT的正规化的乘积受限制。)

逆变换

逆MDCT被称为IMDCT。因为存在不同数目的输入及输出,乍看之下MDCT似乎不应可逆。然而,完美的可逆性通过添加具有时间相邻的重叠块的重叠IMDCT来实现,从而使得错误被消除并且原始数据被恢复;此种技术被称为时域混叠消除(TDAC)。

IMDCT依据以下公式将N个实数X0,...,XN-1成为2N个实数y0,..., y2N-1:

(就像DCT-IV、正交变换,逆变换与顺向变换具有相同的型式。)

在具有普通窗正规化的加窗MDCT(参见以下)的情况下,在IMDCT 之前的正规化系数应乘以2(即,变成2/N)。

在典型的信号压缩应用中,变换特性通过使用窗函数wn(n=0,..., 2N-1)而更进一步改善,窗函数在上述MDCT及IMDCT公式中乘以xn 和yn,以便通过使函数在n=0和2N边界处平稳地过渡到零,来避免在那些点处的中断(即,在MDCT之前及在IMDCT之后将数据加窗)。在原理上,x及y可具有不同的窗函数,而窗函数亦可从一个块改变至下一个块(尤其对于具有不同尺寸的数据块被合并的情况),但简明起见,考虑针对相等尺寸块的相同窗函数的常见情况。

对于对称窗wn=w2N-1-n,只要w满足以下Princen-Bradley条件,则变换维持可逆(亦即,TDAC工作):

多种窗函数被使用。一种产生被称为调制重叠变换[3][4]的形式的窗由以下得到:

并且用于MP3及MPEG-2AAC,以及对于Vorbis

AC-3使用Kaiser-Bessel导出(KBD)窗,而MPEG-4AAC亦可使用KBD窗。

注意应用于MDCT的窗与用于某些其它形式的信号分析的窗不同,因为应用于MDCT的窗必须满足Princen-Bradley条件。关于此差异的一个原因是MDCT窗针对MDCT(分析)和IMDCT(合成)两者应用了两次。

通过检验定义可了解到,关于偶数N,MDCT基本上与DCT-IV等效,其中输入被移位N/2,且两个N块的数据被立刻变换。通过更谨慎地检验此种等效,可容易地导出类似TDAC的重要特性。

为了定义与DCT-IV的精确关系,必须认识到DCT-IV相当于交替的偶/奇边界条件:偶数在其左边界(在n=-1/2附近),奇数位在其右边界 (在n=N-1/2附近),等等(而不是关于DFT的周期性边界)。这由恒等式得出。因此,如果其输入

那么

因此,如果其输入是具有长度N的阵列x,则我们可以想象延伸此阵列至(x,-xR,-x,xR,...)等等,其中xR表示顺序倒转(in reverse order) 的x。

考虑具有2N个输入及N个输出的MDCT,其中我们将输入分割成四个块(a,b,c,d),各具有尺寸N/2。如果我们将这些输入向右移位达 N/2(在MDCT定义中从+N/2项移动),则(b,c,d)延伸超过N个DCT-IV 输入的末端,所以我们必须依据上述边界条件将它们“折叠”回。

因此,2N个输入(a,b,c,d)的MDCT完全等效于N个输入的DCT-IV: (-cR-d,a-bR),其中R表示如上所示的倒转(reversal)。

这是针对图2a中的窗函数202而示例的。a是部分204b,b是部分 205a,c是部分205b,d是部分206a。

(依此方式,任何计算DCT-IV的算法可被普遍地应用至MDCT。) 类似地,上述IMDCT公式精确地为DCT-IV(系其自身的逆)的1/2,其中输出被延伸(经由边界条件)至长度2N,且向左移位达N/2。逆DCT-IV 将简单地根据以上恢复输入(-cR-d,a-bR)。当这经由边界条件延伸并且移位时,可获得:

IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2。

因而,IMDCT输出的一半是冗余的,因为b-aR=-(a-bR)R,且对于最后两项也是一样。如果我们将输入分成具有尺寸N的较大块A,B,其中A=(a,b)并且B=(c,d),则我们可以以较简单的方式写入此结果:

IMDCT(MDCT(A,B))=(A-AR,B+BR)/2。

现在可以理解TDAC是如何工作的。假设将计算具有时间相邻的、 50%重叠的2N块(B,C)的MDCT。则,IMDCT将类似于上述:(B-BR, C+CR)/2来生成。当这在重叠的一半中与先前IMDCT结果相加时,相反的项相消,且仅获得B,恢复原始数据。

术语“时域混叠消除”的原理现在是清晰的。使用延伸超过逻辑 DCT-IV的边界的输入数据,将导致数据按照与使超过奈奎斯特(Nyquist) 频率的频率被混叠至较低频率的相同方式来混叠,但此种混叠出现在时域而不是频域:我们无法区别a及bR对于具有(a,b,c,d)的MDCT的贡献,或等效地,对于IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR, d+cR)/2的结果的贡献。c-dR等的组合具有精确的恰当符号,以便在它们被相加时使组合消除。

关于奇数N(实际上很少使用),N/2并非是整数,所以MDCT并非只是DCT-IV的移位置换。在此情况下,样本的一半的额外移位意味着 MDCT/IMDCT变成与DCT-III/II等效,且此分析系类似于上述。

从上我们已经看到2N个输入(a,b,c,d)的MDCT与N个输入(-cR-d, a-bR)的DCT-IV相当。DCT-IV针对以下情况设计:其中在右边界处的函数是奇数,因此靠近右边界的数值接近0。如果输入信号是平滑的,即以下情形:a及bR的最右边分量在输入序列(a,b,c,d)中是连续的,因此它们的差异较小。让我们看间隔的中间:如果将上述表达式重写为 (-cR-d,a-bR)=(-d,a)-(b,c)R,则第二项(b,c)R在中间提供了平滑的过渡。然而,在第一项(-d,a)中,在-d的右端与a的左端相接的位置处存在潜在的不连续性。这是因为使用了以下窗函数:其使靠近输入序列(a,b,c,d)的边界的分量减小至0。

以上,针对普通MDCT证明了TDAC特性,其表明在它们的重叠的一半中添加具有时间相邻块的IMDCT可恢复原始数据。导出该加窗的 MDCT的逆特性仅稍微更复杂一些。

考虑针对尺寸为N的块A,B,C的2N个输入(A,B)和(B,C) 的重叠连续组。上文中,当(A,B)和(B,C)被MDCT化、IMDCT化及被添加到它们的重叠的一半中时,我们获得(B+BR)/2+(B-BR)/2=B,即原始数据。

现在假设将MDCT输入与IMDCT输出两者乘以具有长度2N的窗函数。如上所示,假设对称窗函数,其因而具有(W,WR)的形式,W是长度为N向量,而R表示前述的倒转。然后,Princen-Bradley条件可被写为其中平方及加法是按元素被执行。

因此,代替MDCT化(A,B),现在MDCT化(WA,WRB),其中所有乘法按元素执行。当这被IMDCT化并且再次乘以(按元素)窗函数时,最后一个半N变成:

(注意到不再乘以1/2,因为IMDCT正规化在加窗的情况下差异为因子 2。)

类似地,生成具有(B,C)的加窗的MDCT及IMDCT,在其第一个半N:

W·(WB-WRBR)=W2B-WWRBR。

当将这两半加在一起时,可恢复原始数据。

在类似的程序中,通过使用图2a中的部分205b,206a,206b和下一帧的后续一个帧的第一部分来计算下一帧。因此,窗200,202,204对应于由图1a的可控制加窗器102使用的具有不同重叠长度的三个窗中的具有第一重叠长度的窗函数。如所述,图2a示出了以下状态:在最后帧、当前帧以及下一帧中未检测到瞬态,尤其在由最后帧的项207、当前帧的项208及下一帧的项209所指示的每个帧的预测区域中未检测到瞬态。图 2b示出了以下状态:在瞬态位置210,211,212,213处检测到瞬态。由于瞬态位置譬如在210处被检测到的事实,以及由于210位于从最后帧的 207处起始的预测区域中的事实,控制器108确定将执行从第一窗201至下一窗215的切换。由于其他瞬态211及尤其位于下一个预测区域的瞬态 212/213,当前帧另外使用具有第二重叠长度的第二窗216进行处理。因此,窗215是从具有201处指示的第一重叠长度的窗改变至具有第二重叠长度的第二窗的起始窗。如所示,第二重叠长度只延伸遍及八个时段 (slot),因此只是第一重叠长度的一半。由于在起始于209处的预测区域中不再检测到任何瞬态的事实,通过"停止窗217"执行回到长窗201的切换。再者,注意,在当前帧中在218处所示的、在当前帧与下一帧之间(在 218处所示的)的重叠长度是图2a中的第一窗的重叠长度(其示出为16 个时段)的一半。

因此,半重叠窗用于在检测区域1及6中所检测到的瞬态。如在219 处所示,这种检测区域包括两个时段。因此,预测范围被划分成优选的八个时段。然而,另一方面,可执行更粗糙或更细微的子分割。然而,在优选实施例中,预测区域被细分成至少四个时段及优选地细分成八个时段,如显示于2b及2c及其它图。

如所示,第二窗216在两侧具有半重叠,而窗215在右侧具有半重叠,在左侧具有完全重叠,而窗217在左侧具有半重叠,而在右侧具有完全重叠。

参考图2c。图2c示出了以下状态:其中瞬态检测器在起始于最后帧的中间的预测区域中检测到:在第二瞬态检测区域222中存在有瞬态。因此,执行到四分之一重叠的切换,以便确保瞬态223只在窗224内"拖尾 (smear)",但未包括在由窗201所定义的区域中或由窗225所定义的区域中。再者,示出了以下序列:其中从在最后帧与当前帧中的四分之一重叠切换到在当前帧与下一帧之间的半重叠,并且再切换回到在下一帧与下一帧的后续一个帧之间的完全重叠。这是由于检测到的瞬态所致。在起始于208处的预测区域中,被检测到的瞬态位于第一部分和第六部分中,同时被检测到的瞬态位于在最后帧207与当前帧208之间的第二部分及第五部分中。

因此,图2c示出了窗序列,其中示出了具有全部重叠或第一重叠长度的第一窗201,其中使用了具有示出在218处的第二重叠长度的第二窗,其中第二窗可以是譬如窗225或窗226,且其中具有第三重叠长度的第三窗被示出为窗224或窗225,该窗225在左侧具有小的重叠长度229。因此,示出了以下窗序列:从完全重叠切换至四分之一重叠,然后切换至半重叠,然后至完全重叠。因此,具有第一重叠长度的第一窗可以是在一侧具有不同于第一重叠长度的重叠长度并且在另一侧具有第一重叠长度的不对称窗。然而,替代地,第一窗亦可是如图2b中216处所示的在两侧具有第一重叠长度的窗。再者,具有第二重叠长度的第二窗可以是在两侧具有第二重叠长度的对称窗,或可以是在一侧具有第二重叠长度且在另一侧具有第一重叠长度或第三重叠长度或任何其它重叠长度的不对称窗。最后,具有第三重叠长度的第三窗可以是在两侧具有第三重叠长度的对称窗,其于,或可以是在一侧具有第三重叠长度且在另一侧具有不同的重叠长度的窗。

然后,参考下述附图说明更进一步的实施例。通常,譬如使用类似于美国专利6,826,525B2中所描述的瞬态检测器的方法或程序,可完成瞬态及其位置的检测,但亦可使用任何其它瞬态检测器。

瞬态检测单元在给定帧的新信号部分中,即除在当前帧与前一帧之间的重叠区域以外,识别最强瞬态的发端(onset)的存在,并且可以的话识别该发端的位置。在以下图中描述瞬态位置的索引(index)的分辨率是帧长度的1/8,所以索引范围是从0至7。在后续的图中,具有索引0,…, 7的子块表示用于在当前帧中进行编码的时域信号的最新的20ms。

图3a-3c示出了对于示范的ms变换长度(即,对于TCX20变换长度)的变换重叠宽度的选择。

在图3a中,在当前帧中并未出现瞬态。因此,检测到完全重叠300。

相反地,图3b示出了以下状态:在第七子块中检测到瞬态,从而图 1a的控制器108选择半重叠302。再者,图3c示出了以下状态:在第六子块中检测到瞬态,因此控制器设定最小重叠304。因此,瞬态位置检测器106检测是否存在瞬态,并且如果不存在瞬态,则选择重叠宽度或第一重叠宽度300。然而,当在第七子块中存在有瞬态时,如图1a的瞬态位置检测器106所决定的,则优选地,控制器设定作为第一重叠长度300 的一半的第二重叠长度302,且当瞬态在第六子块中时,则设定最小重叠。另外,图3c示出了以下状态:代替在位置6或7处检测到瞬态的事实,仍然维持变换长度。因此,窗301a、301b、303a或303b的变换长度是相同的并等于具有最长重叠长度的第一窗(示出在图3a的301a及301b处)。如稍后所示,优选地不仅控制重叠长度,而且在其它子块中检测到瞬态的情形下也控制变换长度。因此,在当前变换窗及后续的变换窗之间的重叠宽度取决于瞬态位置。然而,在当前变换窗与前一变换窗之间的重叠在处理前一帧时来确定。

然后,参考图4a至4g,以便示出针对10ms变换长度(亦即,TCX10) 的变换重叠长度的选择。举例而言,如果编解码器受限于10ms变换长度,则在两个TCX10窗之间的重叠被选择成使得由于编码错误的时间混叠 TNX成形所致的伪瞬态受到强烈抑制。而且,瞬态的拖尾至五个以上的先前子块至五个以上的后续子块被最小化。即,将预回音与后回音限制于 12.5ms。重叠的选择基于瞬态位置。

图4a示出了以下状态:其中在第零个子块或第一个子块中检测到瞬态。然后,具有最大或第一重叠长度403的"第一窗"401、402被选择。再者,为了说明的目的,与前一窗及下一个窗完全重叠的TCX20示出在404处做为参考。因此,"完全重叠"对应于窗401、402的50%,或对应于譬如TCX20窗301a,301b的33%。因此,在图3a的重叠长度300和在图4a的重叠长度403是相同的。

图4b示处了以下状态:在第二子块中检测到瞬态,而控制器接着控制窗序列,使得对应于图2c的229处所示的"第三重叠长度"的最小重叠 404被选择。因此,在本实施例中为不对称窗的窗406,407被选择成,具有短重叠长度,其对应于关于图1a及1b所述的"第二窗"。再者,当在第三子块中的瞬态被检测到时,第二重叠长度405被选择。因此,窗 408,409对应于具有第三重叠长度405的第三窗,但为不对称窗。

再者,如图4d所示,当瞬态处于瞬态部分4,且因此在该状态下所选择的窗为图4a所示的窗401,402时,确定完全重叠长度。当选择重叠使得一个重叠变换包括如所示的瞬态时,瞬态位于第二子块或第三子块中的情况分别如图4f或4g所示。当瞬态位于零子块或第一子块时,则这些情况被分别处理,而当瞬态位于第四子块或第五子块时,这些情况也是分别处理。因此,参考图4e(其示出瞬态位于零子块),获得如图4e所示的窗序列,在图4e所示的窗序列中存在半重叠405,其接着被切换回到完全重叠403。这通过由起始窗408、停止窗409以及正常长度窗402而形成的窗系列来获得。

另一方面,图4f示出了以下状态:其中瞬态位于第一子块中使得选择短重叠长度或第三重叠长度404,这通过起始窗406与停止窗407并尾随完全重叠窗402来实现,因此,在图4e中的窗408或409示出了具有第二重叠长度405的第二窗,以及与具有第三重叠长度404"的第三窗对应的窗406及407。

图4g示出了以下状态:其中瞬态被检测到处于第四子块中。此种状态由具有完全重叠长度403的第一窗401及具有半重叠长度405的第二窗 409以及具有第二重叠长度405的另一第二窗414来反映。然而,窗414 的右侧取决于针对下一帧(即,在起始于附图标记415所指示的时刻的下一个预测区域中)所确定的重叠长度。

因此,图4a-4g示出了以下状态:其中重叠长度被确定为使得瞬态仅位于一个窗内,其由以下事实所确保:在瞬态位置处,譬如在子块4中,窗414的窗系数等于0,而窗409的窗系数等于1。

然后,参考优选实施例,其中变换长度源自重叠宽度。图5a,5b, 5c示出了三个不同的重叠长度403、405、404,其中完全重叠长度由在 501及502处所示的两个第一窗来确定。再者,半重叠长度通过具有在503 及504处所示的第二重叠长度的两个第二窗来获得,而第三重叠长度404 由具有第三重叠长度404的两个第三窗505及506来获得。完全重叠优选使用"0"位来编码,半重叠使用"11"位组合来编码,且最小重叠使用"10" 位组合来编码。

因此,当TCX-20及TCX-5帧和TCX-10帧的组合可被使用时,在确定重叠宽度及变换长度选择的情形下所述编码是有用的。

不像根据一对帧的变换长度的给定选择来得到瞬时变换间重叠 (instantaneous inter-transform overlaps)的编码机制(重叠宽度跟随变换长度确定的输出),本发明的优选实施例涉及以下编码系统:其可使用依赖于特定帧的重叠宽度和可选地前一帧的重叠宽度(即,变换长度遵循重叠宽度确定单元的数据),或者参考图1a,通过瞬态位置检测器106与控制器108的合作,来控制或得到用于该特定帧的变换长度。图6a示出了编码表,而图6b示出了对应的决定表。在图5a,5b及5c中,实线表示在当前帧中的最后变换的窗的右半部,而虚线表示在后续帧的最初变换的窗的左半部。

图6a示出了重叠的编码及基于瞬态位置的变换长度。更特别是,短/ 长变换决定使用在栏600中所示的1位来进行编码,而与后续帧的第一窗的重叠使用具有如栏602所示的1或2位的可变长度码来编码。一方面用于短/长变换决定600的编码,以及用于栏602的重叠宽度的二进制码,被连接在一起以获得栏603中的所谓重叠码。再者,与后续帧的第一窗的重叠由控制器108依据如由瞬态检测器106所确定的栏604的瞬态位置索引来确定。与在前的示例相比,瞬态位置索引具有起始于由-1及-2所指示的两个较早时段的增加的预测范围,且另外对于此种状态,在本实施例中示意(signal)完全重叠。

因此,完全重叠示意"无瞬态"或在-2与1之间的瞬态位置。再者,栏605针对瞬态位置2、3和7示意半重叠系,而针对瞬态位置4、5、6 示意最小重叠。

因此,在图6a中的索引"-2"意味着在前一帧中的位置6处存在瞬态,及"-1"意味着在前一帧中的位置7处存在瞬态。如所述,"无"意味着在瞬态预测区域中没有检测到瞬态。

如所述,短/长变换决定与重叠宽度使用重叠码来关联地编码。重叠码包括关于短/长变换决定的1位和关于具有1或2位的重叠宽度的二进制码。此码是可变长度码,其中自动地检测代码字于何处起始以及较早代码字于何处中止。用于短/长变换决定及重叠宽度的这些码定义在图6a中。举例而言,当短/长变换决定给予1而最小重叠被选择(即,二进制码等于10时),重叠码为110。

再者,图6a示出了以下状态:为在-2与5之间的所有瞬态位置采取短变换决定,并为无瞬态或在位置6或7处的瞬态选择长变换。因此,图 6a示出了以下状态:其中瞬态位置检测器可检测在特定位置的特定瞬态,并且其中短/长变换决定及与后续帧的第一窗的重叠可独立于彼此或并行地确定,即,可得到完全重叠码603。需强调的是,本领域技术人员将理解到,可使用用于编码不同短/长变换及不同重叠的任何其它代码。再者,两个以上,即三个或甚至更多变换长度可被确定及被示意,且同时,三个以上的重叠(例如四个或五个不同的重叠长度)亦可被确定及编码。所有这些确定譬如响应于对每帧的至少四个不同分段进行操作的、或如于本实施例中对每帧的八个分段进行操作的、或关于更精确的决定对甚至更多分段(例如一帧有16个分段)进行操作的瞬态位置检测器。

基于当前帧及前一帧的重叠码,对要使用的变换长度的组合作出决定,如图6b所示。因此,图6b示出了基于前一重叠码与当前重叠码的变换长度的决定。举例而言,如果前一重叠码与当前重叠码两者皆为"00",则使用例如401等窗。如果前一重叠码系为10而当前重叠码系为00,则选择相同的窗。然而,如果前一码为111(意指半重叠码)而当前重叠码为00,则选择譬如图4c的窗409。对于前一重叠码110与当前重叠码00 而言,同样选择长变换,但为类似于窗407的窗;并且,相同的状态用于前一重叠码010与当前重叠码00,即,选择图4f的窗407。最后,对于前一重叠码011及当前重叠码00而言,选择诸如图4e中的409等窗。

为其它组合选择其它窗,且这参考图7来详细示出。因此,图7示出了某些变换长度组合和当前帧中的瞬态位置,以及当前帧及前一帧的重叠码。图7中的110/010–111表示前一重叠码为110或010,而当前重叠码为111。因此,图7示出了不同的组合。举例而言,图7中的左上图片示出了在具有两个TCX-5变换及尾随的TCX-10变换的序列的开始处的最小重叠,其中所述TCX-10变换具有完全重叠。相对于此,在这张图片下方的图片示出了跟随有四个TCX-5窗的最小重叠,其中TCX-5窗中的第四个窗具有半重叠等等。此外,附图标记700、701示出了具有两个TCX-5 或两个短窗并尾随有中间窗。类似地,附图标记702、703、704、705、 706、707示出了具有四个短变换长度或"TCX-5"变换的状态,而附图标记708、709、710、711示出了在第一时间(亦即,其中序列的开始处) 存在中间变换长度窗(例如TXC 10窗)并尾随有两个TCX-5窗或短变换长度窗的状态。图7中的序列700至711可通过其它这种序列或通过 TCX-20或具有不同重叠(诸如,譬如在700、702处的短重叠、在704 处的中间重叠或譬如在708或710处的长重叠)的长变换长度窗来引入。同时,序列可以尾随有其他这种序列或可以尾随有TCX-20(即,长变换窗),但具有不同的重叠长度。因此,序列700譬如以长重叠结束,而序列702譬如以中间重叠结束或序列706譬如以小重叠长度结束。

如图1a所示,在图1a中的112处所示的窗信息(即,图6a之重叠码603)可通过输出接口114而与每个经编码的帧相关联。

再者,施加在转换器104中的变换可以是MDCT或MDST或不同的混叠引入变换,其特征为:在频谱值的块中的频谱值数目低于输入至变换中的或相对于解码器侧的加窗样本的块中的加窗样本的数目,其中,时域输出样本的数目大于输入至这种混叠降低回退或逆变换中的频谱值的数目。

如图2至7所示,维持固定帧光栅。因此,控制器108确保即使譬如图7所示执行到较短变换长度的切换,仍始终维持相同的固定帧光栅。这通过只使用以下特定窗来确保:在恰当的重叠尺寸的情形下,该特定窗对于每种窗始终引起类似的变换长度。因此,每个TCX-5变换长度被定义为具有在变换产生N/4频谱值的两个重叠区域之间的固定区域和重叠区域,其中N为在帧内的频谱值的数目。TCX 20变换窗的形式、尺寸以及尤其重叠长度另外以下述方式设计:这个窗导致跟随在变换之后的N个频谱样本。

图1c示出了可控制转换器158的解码器侧的优选实施例。尤其,可控制转换器158包括频率时间转换器170,随后连接的合成加窗器172及最后的重叠加法器174。具体言之,频率时间转换器执行诸如DCT-IV变换等变换以及后续的叠出(fold-out)操作,使得频率时间转换器170的输出对于第一窗或长窗具有2N个样本,而进入频率时间转换器中的输入示范性地为N个频谱值。另一方面,当进入频率时间转换器中的输入为 N/8个频谱值时,接着示范性地,此输出为MDCT操作的N/4个时域值。

然后,频率时间转换器170的输出被输入至合成加窗器,合成加窗器应用优选地恰好与编码器侧窗相同的合成窗。因此,在执行重叠相加之前,每个样本被两个窗执行加窗,使得所生成的"总加窗"为对应的窗系数的平方,使得如前所讨论的Princen-Bradley条件被满足。

最后,重叠加法器174执行相对应的恰当的重叠相加,以便最终在输出175处获得解码的音频信号。更特别是,频率时间转换器170、合成加窗器172与重叠加法器174是可控制的,并且譬如通过在图6a中所讨论的重叠码603或通过与图6b中所讨论的状态有关的任何其它信息来进行控制。然而,优选地,频率时间转换器的对应变换长度通过使用变换长度决定表,基于先前重叠码与当前重叠码来确定。再者,窗尺寸/形状亦基于先前重叠码和当前重叠码来确定,且重叠加法器亦如此,使得重叠加法器应用于如所示意的最大重叠、中间重叠或最小重叠。

因此,优选地,图1c的解码器中的控制器180接收重叠码(即,前一重叠码606与当前重叠码607),并根据此信息确定频谱值的块的重叠及窗。

因此,确定每个窗及与窗相关的对应变换尺寸。在MDCT用作变换而逆MDCT用于逆变换的优选实施例中,窗尺寸为变换长度的两倍或变换长度为窗尺寸的一半。

图1d示出了以移动设备实现的本发明的又一实施例,其中移动设备一方面包括编码器195,而另一方面包括解码器196。再者,依据本发明的优选实施例,由于用于编码器195的窗与用于解码器196的窗彼此相同,所以编码器105与解码器106两者只从单一存储器197取得相同的窗信息。因此,解码器具有只读存储器197或随机存取存储器或通常仅存储一组窗序列或窗以便编码器及解码器两者使用的任何存储器197。这是有利的,因为不同窗的不同窗系数没必要存储两次,其中一组用于编码器而一组用于解码器。替代地,由于依据本发明,相同的窗及窗序列用于编码器和解码器中,仅一组窗系数需要被存储。因此,图1d所示的本发明移动设备的存储器使用率实质上相对于不同的概念——其中编码器和解码器具有不同的窗或其中具有除加窗操作以外的处理操作的后处理被执行——有所减少。

然后,参考关于变换/变换长度切换实施例的又一优选实施例。

上面概述的变换及重叠长度自适应编码方案被实施在LD-USAC编码器的变换编码激励(TCX)路径中、具有20ms帧长度的xHE-AAC[5] 的低延迟变形例中,并且以48kbit/s mono进行测试。在这个配置点处,在(伪)静态输入状态期间,LD-USAC在TCX(TCX-only)模式下操作,该TCX模式具有512个样本的核心帧长度和256个样本的长变换重叠(亦即,33%)的。编码器包括瞬态检测单元,其输出被输入至变换长度确定单元并且被输入至发明重叠宽度确定单元。可得到三个变换长度以用于编码:具有512MDCT系数的TCX-20长度,具有256MDCT系数的TCX-10长度,以及具有128MDCT系数的特殊TCX-5长度。因此,每帧可使用及传输以下三个重叠宽度中的一个:具有256个核心样本的最大重叠(10ms)、具有128个核心样本的半重叠(5ms)以及具有16个样本(0.6ms)的最小重叠。对每个帧而言,必须选择变换长度,使得那个帧中的所有变换的长度总和等于核心帧长度(即,512个样本)。

在本发明的编码系统的优选实施例中,编码器操作如下:

1.瞬态检测单元识别给定帧的新信号部分(即,除在当前帧与前一帧之间的重叠区域以外)中的最强瞬态的发端的存在,并且可以的话,识别该发端的位置。描述瞬态位置的索引的分辨率为帧长度的1/8,从而索引范围为0,…,7。

2.如果无瞬态被检测到的话,或如果瞬态位置索引为6或7的话,则受影响的帧通过变换长度确定单元的决定而使用TCX-20变换来编码。否则,使用TCX-10及/或TCX-5变换的组合:2x TCX-10或4x TCX-5 或TCX-10尾随2x TCX-5或2x TCX-5尾随TCX-10。

3.依据上面列举的目的,重叠宽度确定单元现在控制在当前帧内使用的变换的重叠形状(除已经选择的与最后帧的重叠以外),以使不违背所述目的的可能的最长重叠被选择。更特别是,如果帧为TCX-20而瞬态位置索引为6或7,则重叠单元分别恢复最小重叠或半重叠。如果在帧中没有出现信号非稳定性,则使用最大重叠。

4.再者,如果针对(非静态)帧,TCX-10/-5组合被变换长度确定单元返回,则重叠宽度确定单元控制那个帧中的变换长度的确切分量。更具体地,如果最大重叠被用于前一帧和当前帧,则2x TCX-5尾随TCX-10 被应用在当前帧中,其中TCX-5变换中的第一个为具有双重重叠的本发明过渡变换。如果最后帧的或当前帧的重叠宽度小于最大重叠,则亦使用混合TCX-10/-5配置中的一个。如果最后帧及当前帧两者小于最大重叠,则使用4x TCX-5。

5.接着,编码器对信号进行加窗并且执行此帧的实际MDCT。必须特别注意在存在发明双重重叠过渡窗的情形下的加窗操作的序列,以便在解码之后获得完美重建。其余的编码处理类似于xHE-AAC。TNS可选择地应用至个别的变换,并且可以将两个TCX-5MDCT系数组分类为一个 TCX-10类组的(交插)系数以存储侧信息。对于每个帧,指示TCX-20 或非TCX-20编码的一个重叠宽度数值以及一个1位标志被传输至解码器。

像编码器一样,依据优选实施例的适当解码器作用为重叠宽度确定单元,其解释所传输的重叠宽度数值以控制逆MDCT的长度及加窗,使得编码器及解码器关于所使用的变换完全同步。如在编码器中,在各个 MDCT之后的加窗及折叠操作的顺序对于获得完美的信号重建而言是重要的。

然后,在图8至15f中讨论并示出了本发明的更进一步的实施例。该实施方式又被命名为"多重叠实施方式",可以与相对于图1至7所讨论的重叠宽度及变换长度切换实施例结合或可以与这个实施方式分开地实施。

本发明的编码器侧示出在图8a中,而解码器侧示出在图8b中。更特别是,用以生成经编码的信号的设备或图8a所显示的编码器包括窗序列控制器,其用于生成窗序列信息809,该信息被传送至譬如预处理器802、频谱转换器804或输出接口810,如图8a所示。窗序列信息表示:第一窗函数,用于生成第一帧频谱值;第二窗函数;以及一个或更多个第三窗函数,用于生成第二帧频谱值。第一窗函数、第二窗函数以及一个或更多个第三窗函数重叠在多重叠区域内。

这个多重叠区域譬如示出在图13或图14b或图15e或图15f中的1300 处。因此,在该多重叠区域1300中,至少三个窗函数(即,关于图15f 的1500处所示的第一窗函数、第二窗函数1502与第三窗函数1503)彼此重叠在多重叠区域1300内。亦可以有更高的重叠,例如四个、五个或甚至更多窗的重叠。或者,图15e示出了以下状态:同样具有第一窗函数 1500、第二窗函数1502,但相较于图15f的单个第三窗函数1503,现在具有四个第三窗函数1503。

为了恰当地处理导致瞬态预测区域所需要的延迟显著减少的多重叠区域,提供预处理器102。预处理器被配置成通过使用辅助窗函数对与第二窗和一个或更多个第三窗函数对应的第二块样本进行加窗,以获得第二块加窗样本。再者,预处理器被配置成通过使用将与第一块重叠的第二块的一部分叠入多重叠部分内的操作,来对第二块窗样本进行预处理,以获得具有改进的多重叠部分的、经预处理的第二块加窗样本。再者,频谱转换器804被配置成通过使用第一窗将混叠引入变换应用至第一块样本以获得第一帧频谱值。再者,频谱转换器被配置成通过使用第二窗函数将混叠引入变换应用至经预处理的第二块加窗样本的第一部分,以获得第二帧频谱样本的第一部分,并且配置成通过使用一个或更多个第三窗函数将混叠引入变换应用至经预处理的第二块加窗样本的第二部分,以获得第二帧频谱样本的第二部分。再者,表示为"编码处理器"的处理器806被设置在图8a的编码器内用于处理第一帧和第二帧频谱值,以在块806的输出807 处获得经编码的音频信号帧。因此,编码处理器可以是等同于或不同于图 1a的编码处理器110,并可执行现有技术中熟知的MPEG或AMR或任何其它编码特征。

接着,参考图13。图13再一次示出了第一窗函数1500的第二半部、第二窗函数1502,以及在图13的第二图片中的两个第三窗函数1503。相比之下,图13中的上部图还示出了第一窗函数1500、第二窗函数1502 以及与譬如图15f的实例相对照的且略类似于图15e的四个第三窗函数 1503。替代地,第三窗函数的数目亦可以是三个、五个左右。

再者,图13另外示出了具有不同的第一窗函数1500'、不同的第二窗函数1502'和相同的第三窗函数1503的状态。在1500及1500'之间的差异为函数1500'及1502'的重叠长度为窗1500、1502的一半。因此,窗函数 1500'及1502'的状态为重叠长度是譬如在图2c中于218处所示的半重叠,而完全重叠长度对应于完成帧,譬如图2a中203处或图13中所示。因此,这张图所示的窗函数1500'及1502'表示多重叠实施方式与重叠宽度确定实施方式的组合。

为了更好说明编码器侧上的预处理器802的程序,一方面参考图11a 中的图例,而另一方面参考图9a、9b中的流程图。关于解码器,参考图 8b、图10a、10b中的对应图例以及图11b中的图例。再者,编码器亦示出在图12a中且解码器示出在图12b中。

更具体地,图11a再一次示出第一窗函数1500以及第二窗函数1502 的至少一部分以及四个第三窗函数1503或单个第三窗函数1503。更特别是,图11a另外示出了辅助窗函数1100。辅助窗函数1100具有与第一窗函数1500的第一上升部分1500a重合的第一部分1100a。再者,辅助窗函数1100具有优选窗系数等于1的不重叠的第二部分1100b以及对应于一个或更多个第三窗函数的下降或降下或右侧部分的第三部分1100c。因此,辅助窗函数1100覆盖1102处所示的较早帧的第二半部、由1103所示的当前帧i的第一半部,由1104所示的当前帧i的第二半部以及由辅助窗函数部分1100c所覆盖的第一小部分1105。由图11a可以看出,辅助窗函数被处置为"起始窗序列"或对应于这种"起始窗序列",犹如在帧i+1 中,必须引入短窗序列。然而,重要地,短窗序列已经在当前帧中而非在即将来临的帧i+1中被引入。

预处理器的功能接着示出在图11a中。预处理器通过在表示为"起始叠入混叠,帧i"的操作中使用投票(voting)来预处理第二块窗样本,第二块窗样本通过使用辅助窗函数进行加窗来获得。因此,以1110表示的第二块加窗样本的最左部分向内折叠。这个部分1110为与前述第一窗函数1500重叠的第二块加窗样本的部分,即,对应于时间期间1102并且位于前一帧i–1中的第二块加窗样本的部分。由于部分1110的这个叠入操作现在影响重叠区域1300的事实,通过预处理器而执行的叠入操作产生改进的多重叠部分。现在,频谱转换器应用表示为"内叠入混叠"的、图 11a的线所示的操作。更特别的是,频谱转换器通过使用针对帧i–1所示的第一窗函数而将混叠引入变换应用至第一块样本。混叠引入变换包括在 1120处所示的叠入操作和后续的在1122处所示的譬如DCT-IV变换。为此,需要第一窗函数1500以便在帧i–1的叠入操作1120之前获得此形状。再者,频谱转换器将混叠引入变换应用至由图11a中的项1131所示的第一部分。这通过使用第二窗函数1502且尤其第二窗函数1502的右侧部分来实现。这个操作导致由变换1132所获得的第二帧频谱样本的第一部分,其中变换1132再一次表示为DCT-IV操作,该DCT-IV操作与相对应的折叠操作一起、但仅在块1131的右重叠部分中构成混叠引入变换。

再者,频谱转换器被配置成通过使用一个或更多个第三窗函数1503 将混叠引入变换应用至预先处理的第二块1130的第二部分1133以获得第二帧频谱样本的第二部分1135。因此,为了获得频谱样本的第二部分 1135,可应用四个N/8DCT-IV变换或单个N/2DCT-IV变换。变换的数目和长度取决于第三窗函数的数目。通常,第二部分1135中的频谱样本的长度、变换或数目等于帧中的频谱样本的数目减去变换1132的长度,且结果接着除以所使用的第三窗函数的数目。

因此,预处理器802通常操作来使用辅助窗函数1100对音频信号进行加窗(902)(图9a),以获得第二块加窗样本。接着,处理器904优选地应用图11a中的1110处所示的折叠操作以获得具有变化的多重叠部分 1300的、预先被处理的第二块加窗样本。然后,转换器906通过使用第一、第二和第三窗函数来应用这些变换以获得第一帧频谱值1122,第二帧的第一部分1132以及第二帧或以图11a所示的帧i的第二部分1135。

在图9b所示的优选实施例中,辅助窗函数通过参考第一窗函数以及示范性地通过选择第一窗函数的第一部分1500a作为辅助窗函数1100的第一部分1100a来确定(910)。再者,确定不重叠部分1100b(针对相应的长度来采纳窗系数),而接着再示范性地通过获取短窗函数的第二部分来确定第三部分1100c。

然后,利用与图11a所示的前一帧或第一帧i–1恰当相关的辅助窗函数来对音频信号进行加窗(912)。接着,如图9b中的914所示,左侧部分1110和优选的右侧部分1111被叠入。在步骤916中,执行在内部区域的项e)或f)中的阴影线所示的重叠部分的折叠。再者,如918处所示,如果存在更多如在图11a的子图片e)中的第三窗函数,则同样执行第三窗函数的重叠部分的叠入。然而,如果只存在如图11a所示的子图片f) 中的单个第三窗函数,则控制直接从步骤916进行至920,而没有执行步骤918。在步骤920中,DCT操作通过使用比第一帧的DCT核更短的 DCT核来执行。子图片e)的DCT核对第二窗函数而言是N/2,而对第三窗函数而言是N/8。相比之下,当仅存在单个第三窗函数时,则变换核对第二窗函数而言等于N/2,而对单个第三窗函数而言等于N/2。

因此,显然,多重叠区域1300被加窗两次。第一次加窗通过辅助窗的第一部分1100a来完成,而第二次加窗通过第三窗函数1503的第二半部来执行,如图11a的子图片e)或f)所示。

再参考图13。如在图1a中或在图8a中所讨论的,窗序列控制器生成特定窗形状。在一实施例中,窗序列控制器被配置成包括瞬态位置检测器106。当在瞬态检测部分0或1中检测到瞬态时,接着,编码器被控制以进入多重叠部分模式,使得在1305处所示的瞬态被局限为仅位于单个第三窗内或在两个邻近的第三窗内。具体言之,左瞬态1305被局限为仅位于第一短窗函数中,其中瞬态1305的右瞬态位于第一窗函数至第三窗函数中。然而,当确定出瞬态位于与0不同的区域中,例如大致在区域1、2、3中时,接着,例如类似图6a、图6b、图7中所讨论的,可在没有多重叠区域的情况下执行处理。

相比之下,然而,多重叠区域处理亦可在窗切换应用中被执行,其中,当检测到瞬态时,可以为当前帧切换甚至更大的短窗组,使得优选在一个相同块或帧光栅内,使用长窗或特定数目的短窗进行加窗。第一窗对应于譬如在图13中的窗1500,第二窗对应于窗1502,且仅当在不知道瞬态在当前帧内的确切位置的情形下在该当前帧的任意位置处检测到瞬态时,在未参考特定瞬态位置的情况下改变成第三窗函数数目。

然而,优选地,为了保持第三窗的数目尽可能小,切换成多重叠部分模式、变换重叠的附加切换以及变换长度选择依据在帧内的瞬态的特定位置(亦即,在帧或对应于帧的时间部分中的优选四个或甚至八个不同部分中的一个内)来执行,其中所述时间部分则等于长窗(例如图13的长窗 1500)的尺寸的一半。优选地,多重叠部分位于预测区域的起始208(一方面示出在图2中,而另一方面示出在图13中)之前,如图13所示。

在解码器侧上,执行相似的处理。在用于对经编码的音频信号821 进行解码的设备实施例中,其中所述音频信号821包括第一经编码帧及第二经编码帧,图8b的解码处理器824被要求来处理第一经编码帧和第二经编码帧,以获得第一帧频谱值和第二帧频谱值,第一帧和第二帧包括混叠部分。时间转换器826连接至解码处理器824,而时间转换器826被配置成通过使用第一窗函数来将变换应用至这个第一帧以获得第一块样本。再者,时间转换器826被配置成通过使用第二窗函数来将变换应用至第二帧的第一部分,以及通过使用一个或更多个第三窗函数来将变换应用至第二帧的第二部分以获得第二块样本。如在图1a中所讨论的,第一窗函数 1500,第二窗函数1502和一个或更多个第三窗函数1503共同具有多重叠区域1300。

再者,解码器包括后处理器828,用于通过使用叠出操作对第二块样本进行后处理以获得经后处理的第二块样本,其具有在多重叠区域中与第一块样本重叠的第二块样本的一部分。再者,后处理器828被配置成通过使用在图8a及图11a中所讨论的辅助窗函数对经后处理的第二块样本进行加窗。后处理器828对加窗后的经后处理的第二块样本和第一块样本执行重叠相加,以获得图8b的829或图1c的块175处所示的经解码的音频信号。因此,基本上图8b的后处理器828可相对于辅助窗函数具有合成加窗器172的功能并且具有重叠-加法器174的功能。

然后,关于图11b的图例来讨论与时间转换器合作的后处理器的功能,图11b的图例示出了关于图11a编码器图例的相反处理。第一帧频谱值1142输入至N尺寸逆变换1161中,而第二帧的第一部分1152输入至 N/2逆变换1162中且取决于第三窗函数的数目,第二帧的第二部分1155 输入至四个N/8短变换1163或单个N/2变换1162中,类似第二帧的第一部分1152。

这个程序通过时间转换器来执行。时间转换器另外使用第一窗函数以与图11b中的1170所示的之前执行的叠出操作一起执行加窗。再者,第二窗函数在将这些程序应用至1172所示的第一部分1152时被使用。具体言之,具体执行第二窗函数的最右侧部分1173的叠出和第二后续加窗,然而在帧的左侧上,并未执行任何内部叠出。再者,此变换不仅对第二帧的第一部分1152,而且对第二帧的第二部分1155执行特定叠出与后续加窗,以及额外重叠相加,如图11b中的1172所示。如果仅存在图11b的子图片f)所示的单个第三窗函数,则仅执行在两侧的单个叠出操作以及使用第二窗函数的右手部分与第三窗函数的左手部分的加窗、后续的在重叠范围1174内的重叠相加。

接着,后处理器通过使用1175所示的叠出操作,利用1172中的程序的结果的第一部分来应用后处理,以获得在前一帧中延伸的部分1176a及优选地在下一帧中延伸的1176b。然后,通过使用辅助窗函数,利用叠出部分1176a、1176b以及在当前帧i内的部分进行加窗,以获得1175所示的状态。接着,在重叠范围1180处且在其内,对经辅助窗函数加窗的、经后处理的第二块样本与第一块样本执行最后的重叠相加,以获得对应于这个重叠范围1180的最后的解码音频信号。再者,由于不存在重叠且下一个区段1182通过与帧i+1(在时间上尾随帧i)的窗函数的对应部分重叠来获得,因此该程序产生经解码的音频信号样本1181的后续部分。

因此,如图10a所示,解码器侧方法包括:通过使用第一窗函数将变换应用1000至第一帧;及通过使用第二窗函数将变换应用1010至第二帧的第一部分;以及通过使用第三窗函数将变换应用1020至第二帧的第二部分。然后,在步骤1030中,执行叠出操作,而在步骤1040中,执行使用辅助窗函数的加窗,最后,在步骤1050中,对经加窗的、经后处理的第二块与第一块执行重叠相加,以在处理结束时获得解码的音频信号,譬如在图11b中所示。

如图10b所示,优选实施例包括针对第二帧的每个部分执行逆DCT 操作,亦即,以相对于前一帧i–1较短的长度执行若干个DCT操作,其中使用长窗1500。在步骤1070中,内部混叠部分的叠出被执行,作为在 1172中所示的操作,而叠出优选是在对应的边缘处的镜像变换(mirror),所述对应的边缘示出为在图11b中的1172所示的线中的竖直线。接着,在步骤1080中,通过使用在块1184内的第二和第三窗函数执行加窗,并接着在此块内对加窗结果执行重叠相加,如1090所示。然后,如192所示,对重叠相加结果的左/右(或换言之,较早的/后来的)混叠部分执行叠出,以便获得在前一帧中延伸的部分1176a及在下一帧中延伸的部分 1176b。然而,1175中的表现仅跟在1094所示的使用辅助窗函数进行加窗之后。接着,在步骤1906中,在使用辅助窗函数进行加窗之后,执行与第一块样本的重叠相加。

然后,参考图12a及图12b。图12a中的项a对应与图11a的第一线中的程序。子图片b)中的程序对应于在图11a的第二线和第三线中所执行的程序,而图12a的项c)中所示的程序对应于图11a的最后两条线中的程序。类似地,解码器侧表现对应于图12b。更具体地,图11b的前两条线对应于图12b中的子图片f)。第三和第四线对应于图12b中的项e),而图12b中的最后线对应于图11b中的最后线。

图14a示出了编码器侧上的窗序列控制器或解码器侧的元件824、 826、828被配置成在如图14a中的非多重叠状态与图14b中所示的多重叠状态之间切换的状态。因此,当在瞬态部分0中检测到瞬态时,程序没有应用多重叠部分,而是从TCX-20窗切换至单重叠的短窗TCX-10。然而,至多重叠部分的切换优选通过应用以下窗序列来执行:该窗序列包括第一窗1400、第二窗1402以及一个第三窗1403或两个第三窗1403(图 14b的实施例)。

图14b的窗重叠和尺寸略不同于图13中的图例,但显然,关于图11a 中的编码器侧或图11b中的解码器侧的一般程序同样地发生。

接着,讨论图15。具体言之,图15示出了作为黑盒子(black boxes) 的瞬态检测预测1590和所得到的预回音1595的期间。图15a示处了传统的高效率AAC型序列,其包括长起始窗、八个短窗、长停止窗等等。所需的预测较高且共计N+N/2+N/16,但预回音1595较小。类似地,图 15b示出了传统的AAC低延迟型瞬态检测程序,其产生包括长序列、长起始窗、低重叠窗以及长停止窗的窗序列。瞬态检测预测与在图15a中的相同,但预回音的期间比图15a的长。然而,另一方面,由于使用的窗越短,比特率效率越低的事实,效率更高。

图15c和15d示出了具有N/16样本的较低瞬态检测预测的的AAC 低延迟程序或高效率AAC的实施方案,且仅示出可能具有N/16样本的较低瞬态检测预测的长序列。如果序列由长窗、长窗、长起始窗、长停止窗等等构成,如图15d所示的,则相较于图15c只减少了后回音,但预回音1595是相同的。因此,图15c、d示出了类似于本发明的图15e及15f 的短预测。如果实施如图15c及15e中的多重叠部分,则可以只使用在那些图中的序列,但任何切换至短窗是不可能的。因此,多重叠部分允许切换至短窗以减少预/后回音,或使用短预测延迟或两个特征以减少延迟并减少预/后回音。

图15e示出了具有N/16样本的较小瞬态检测预测的高效率AAC序列和优选的多重叠区域1300。此序列包括长窗、长窗1500、起始序列1502、四个短序列1503以及长停止窗1504。显然,预测是小的,因为是预回音。针对配置类似于图15e的而且仅具有单个第三窗函数而非四个短序列的图15f,获得类似的状态。

虽然以框图的方式描述了本发明,其中框图中的块表示实际或逻辑硬件部件,但本发明亦可通过计算机实现的方法来实施。在后者的情况下,这些块表示对应的方法步骤,其中这些步骤代表由对应的逻辑或物理硬件块执行的功能。

虽然以设备为背景说明某些实施方式,但显然这些实施方式亦表示对应的方法的说明,其中块或装置系对应于方法步骤或方法步骤的特征。类似地,以方法步骤为背景所说明的实施方式亦表示对应的块或项或对应的设备的特征的说明。某些或所有的方法步骤可通过(或使用)硬件设备,譬如微处理器、可编程计算机电子电路来运行。在某些实施例中,某个或某些最重要的方法步骤可通过这种设备来运行。

本发明的传输或经编码的信号可被存储在数字存储介质上,或可在例如无线传输媒介或有线传输介质(例如因特网)等传输介质上传输。

依据某些实现需求,本发明的实施例可被实施在硬件中或在软件中。所述实现可通过使用存储有电子可读的控制信号且与可编程计算机系统合作(或能够合作)以使执行各个方法的数字存储介质来执行,数字存储介质譬如是软磁盘、DVD、蓝光光碟(Blu-Ray)、CD、ROM、PROM 以及EPROM、EEPROM或闪存。因此,数字存储介质可以是计算机可读的。

依据本发明的某些实施例包括具有电子可读的控制信号的数据载体,其能够与可编程计算机系统合作,以执行文中所说明的方法之一。

通常,本发明的实施例可被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上执行时,程序代码可运行来执行方法之一。程序代码譬如可被存储在机器可读载体上。

其它实施例包括存储在机器可读载体上的用于执行文中所述的方法之一的计算机程序。

换言之,本发明方法的实施例因此为具有程序代码的计算机程序,当计算机程序在计算机上运行时,所述程序代码执行文中所述方法之一。

因此,本发明方法的更进一步的实施例系为数据载体(或例如数字存储介质等非暂时性存储介质或计算机可读取介质),其包括记录在该数据载体上的用于执行文中所说明的方法之一的计算机程序。数据载体,数字存储介质或记录介质一般为有形的及/或非暂时性的。

因此,本发明方法的更进一步的实施例为表示用于执行文中所说明的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可譬如被配置成经由数据通信连接,譬如经由因特网来传输。

更进一步的实施例包括处理手段,譬如,计算机或可编程逻辑组件,配置成或适合于执行文中所说明的方法之一。

更进一步的实施例包括计算机,安装有用于执行文中所说明的方法之一的计算机程序。

依据本发明的更进一步的实施例包括设备或系统,配置成将(譬如,电子地或光学地)用于执行文中所说明的方法之一的计算机程序传送至接收器。接收器可譬如是计算机、移动设备、内存装置等等。此设备或系统可譬如包括文件服务器,用以将计算机程序传送至接收器。

在某些实施例中,可使用可编程逻辑设备(譬如,现场可编程门阵列),以执行文中所说明的方法的某些或所有功能。在某些实施例中,现场可程序化门阵列可协同微处理器,以便执行文中所说明的方法之一。通常,这些方法优选通过任何硬设备来执行。

上述实施例用于说明本发明的原理。应理解,本领域技术人员将明白文中所说明的配置和细节的改进方案及变化。因此,本发明意在仅受限于即将发生的专利权利要求的范围,而不受限于对文中实施例的说明和解释所呈现的特定细节。

参考文献

[1]International Organization for Standardization,ISO/IEC 14496-3 2009, "Information Technology–Coding of audio-visual objects–Part 3 Audio,"Geneva,Switzerland,Aug.20096.

[2]Internet Engineering Task Force(IETF),RFC 6716,"Definition of the Opus Audio Codec,"Proposed Standard,Sep.2012.Available online at http://tools.ietf.org/html/rfc6716.

[3]C.R.Helmrich,"On the Use of Sums of Sines in the Signal Windows," in Proc.of the 13th Int.Conference on Digital Audio Effects(DAFx-10), Graz,Austria,Sep.2010.

[4]J.Herre and J.D.Johnston,"Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping(TNS),"in Proc.101st AES Convention,LA,USA,Nov.1996.[5]M.Neuendorf et al.,"MPEG Unified Speech and Audio Coding–The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,"in Proc 132nd Convention of the AES,Budapest,Hungary,Apr.2012.Also to appear in the Journal of the AES,2013.

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1