频域中的音频信号响度确定和修改的制作方法

文档序号:7516511阅读:368来源:国知局
专利名称:频域中的音频信号响度确定和修改的制作方法
技术领域
本公开一般涉及音频信号处理,特别地,涉及感知音频编码。
背景技术
存在许多用于客观地确定音频信号的感知响度的方法。也已知用于使用例如感知响度模型以希望的量缩放音频信号的感知响度的方法。也已知这样的方法,所述方法包括缩放各单个频带的响度,由此保存感知响度谱或音品,同时调整总体感知响度。这些方法典型地将与数字化的音频信号对应的采样分割成被变换到频域的重叠块。被这样向重叠的数据块施加的变换被称为“重叠变换(lapped transform) 用于确定以及可能地更改感知响度的方法使用如短时离散傅立叶变换或(短时)变型的离散余弦变换的这些重叠变换。用于压缩数字化音频信号的感知编码方法也是已知的,这些编码方法包括将与数字化音频信号对应的采样分割成被变换到频域的重叠块。希望确定以及可能地修改可能被感知编码的音频信号的感知响度。感知编码方法常常具有随时间改变的块长度。AC-3(也已知作为Dolby Digital)和AAC(也已知作为 MPEG-2/AAC和MPEG-4/AAC,或者简单地被称为MPEG/AAC音频)各使用两个块尺寸。在可改变的音频信号块尺寸的情况下有效率地确定以及可能地修改频域音频信号的感知响度可能是复杂的操作。


图1示出感知音频解码器的简化功能框图。图2示出包含MDCT域中的响度处理的感知音频解码器的简化框图。图3示出更详细地描述图2的响度处理元件的实施例中的一些处理的简化框图。图4示出被配置为在频域(例如MDCT域)中确定响度以及修改响度的本发明的一个设备实施例。图5A 5E示出在使用利用从示例性响板击打的Dolby Digital信号获得的MDCT 谱的本发明的实施例的组合中涉及的不同MDCT谱。图6示出使用MDCT数据并且用于本发明的一些实施例中的响度确定的例子的简单框图。图7A和图7B示出对于由使用内插(图7A)和使用复制(图7B)从短块确定的长块获得的Dolby Digital数据的以宋(sone)为单位确定的响度的比较。图8示出使用MDCT数据并且用于本发明的一些实施例中的用于水平调节 (leveling)的响度确定和修改的例子的简单框图。
图9通过简单的例子图示适用于使用256时域采样的短块长度和512时域采样的长块长度的感知编码数据(例如Dolby Digital)的增益内插。图10通过简单的例子图示适用于使用256时域采样的短块长度和2048时域采样的长块长度的感知编码数据(例如MPEG-2/AAC和MPEG-4/AAC)的增益内插图11示出包括处理系统的一个设备实施例的简化框图,所述处理系统在操作中被配置为实施本发明的方法实施例。该设备包括被配置有指令的计算机可读介质,该指令在被执行时使得实施本发明的方法实施例。
具体实施例方式概要本发明涉及用于在频域信息的频率分辨率以及相应时间覆盖范围不恒定的情况下确定和修改频域音频信号的感知响度的方法和设备,以及上面具有当被执行时使得实施这些方法的指令的计算机可读介质。这直接适用于使用改变的块尺寸的情况下的感知音频编码器,这种可变块尺寸有助于提高瞬变音频信号的声音质量。用于包括多种块尺寸的数据的一个方面包括将感知响度处理的频率(以及因而时间)分辨率在最长块尺寸处保持恒定,其包括对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的数据,组合所述特定短块尺寸的多个块的频域信息以形成用于输入到响度处理的最长块尺寸数据,以及内插从对这种所形成的最长块尺寸数据的响度处理输出的增益信息,以用于与所述特定短块尺寸的频域信号相乘。特定的实施例包括音频数据的处理方法,所述音频数据包含通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括确定一个或更多个感知响度参数。所述响度处理可包括确定要应用于接受的频域数据块或其延迟形态的至少一个响度修改。所述至少一个响度修改的确定使用所述一个或更多个确定的感知响度参数。该方法可包括对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。在一些实施例中,所述至少一个响度修改包括一组增益,因此,所述内插确定内插的增益,并且,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益或一组内插的增益。在其中至少一个响度修改包括一组增益的一些实施例中,所述内插确定内插的增益并且使用所确定的增益值之间的线性内插。一些实施例中的组合特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括交织所述特定短块尺寸的频域数据。在其它的实施例中,所述组合包括复制所述特定短块尺寸的频域数据的值以创建最长块尺寸的频域数据。例如,最近的(latest)特定短块尺寸块的特定短块尺寸的频域数据被用于创建最长块尺寸的频域数据。所述一个或更多个感知响度参数可包括音频数据的激励(excitation)和音频数据的特性响度(specific loudness)。实施感知响度处理可包括响度水平调节、增益控制、 噪声补偿和/或动态均衡化中的一个或更多个。所述变换可以是重叠变换,例如,短时离散傅立叶变换(STDFT),或者变型的离散余弦变换(MDCT),或者短时离散正弦变换。也可使用其它的重叠变换。所述数据可来自通过使用多于一个块尺寸的感知编码器编码的编码音频数据。例子包括AC-3和AAC。特定的实施例包括一种设备,该设备包括至少包含处理器的处理系统和计算机可读介质,该处理系统在操作中被配置为实施音频数据的感知响度处理的方法,所述音频数据包括通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括确定一个或更多个感知响度参数。该方法可包括对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。不同的实施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一个或更多个。特定的实施例包括配置有指令的计算机可读介质,该指令在被至少一个处理器执行时实施音频数据的感知响度处理的方法,所述音频数据包括通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括确定一个或更多个感知响度参数。该方法可包括对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。不同的实施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一个或更多个。特定的实施例包括程序逻辑,当该程序逻辑被至少一个处理器执行时使得实施音频数据的感知响度处理的方法,所述音频数据包括通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括确定一个或更多个感知响度参数。该方法可包括对于以 所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。不同的实施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一个或更多个。特定的实施例包括用于音频数据的感知响度处理的设备,所述音频数据包含通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该设备包括用于接受多种块尺寸的频域音频数据块的装置。该设备还包括用于组合特定短块尺寸的多个接受的频域数据块以形成最长块尺寸的频域数据块的装置。该设备还包括用于处理的装置,所述处理被配置为实施最长块尺寸的接受的块的感知响度处理。通过所述用于处理的装置实施所述感知响度处理包括确定一个或更多个感知响度参数。该设备可进一步包括用于使用一个或更多个所确定的感知响度参数来确定至少一个响度修改的装置,所述至少一个响度修改用于应用于接受的频域数据块或其延迟形态。这种情况下的该设备进一步包括与用于确定所述至少一个响度修改的所述装置耦合的用于内插响度修改的装置,使得对于以所形成的最长块尺寸确定的所述至少一个响度修改中的任何一个,所确定的至少一个响度修改被内插,以应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块。这种情况下的该设备进一步包括用于将所确定的至少一个响度修改或内插的修改应用于接受的频域数据块或其延迟形态的装置。所述修改可以具有一组增益的形式。特定的实施例包括用于音频数据的感知响度处理的设备,所述音频数据包含通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该设备包括块组合器,所述块组合器被配置为接受频域音频数据块,每个块具有多种块尺寸之一,包含接受比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的数据块。所述块组合器被进一步配置为组合所述特定短块尺寸的多个接受的频域数据块以形成最长块尺寸的频域数据块。该设备还包括频域信号处理器,所述频域信号处理器被配置为实施最长块尺寸的接受的块的感知响度处理。通过频域信号处理器实施所述感知响度处理包括确定一个或更多个感知响度参数。所述频域信号处理器可包括响度修改确定器,所述响度修改确定器被配置为确定要应用于由块组合器接受的频域数据块或其延迟形态的至少一个响度修改。这种响度修改确定器使用所述一个或更多个确定的感知响度参数。包括所述响度修改确定器的该设备包括响度修改内插器,所述响度修改内插器与频域信号处理器耦合,并且被配置为对于以所形成的最长块尺寸确定的一个或更多个响度修改的任一组而内插所确定的至少一个响度修改, 以将其应用于被用于形成所确定的至少一个响度修改的特定短块尺寸的接受的数据块。包括所述响度修改确定器的该设备还包括响度修改器,所述响度修改器与响度修改内插器耦合,以及,与块组合器的输入端耦合或与和块组合器的输入端耦合的延迟元件耦合。响度修改确定器被配置为将所确定的至少一个响度修改或内插的修改应用于接受的频域数据块或其延迟形态。所述修改可以具有一组增益的形式。特定的实施例可提供这些方面、特征或优点中的全部或一些或根本不提供它们。 特定的实施例可提供一个或更多个其它的方面、特征或优点,本领域技术人员从本文的附图、描述和权利要求中可容易地理解这些方面、特征或优点中的一个或更多个。
感知响度和感知编码存在许多用于客观地确定音频信号的感知响度的方法。方法的例子包含包括应用强调在感知上比较敏感的频率并且不强调在感知上比较不敏感的频率的预定滤波器的响度的A加权、B加权和C加权功率测量以及诸如在标题为“Acoustics—Method for calculating loudness level”(1975)的ISO 532中描述的响度的心理声学模型,所述心理声学模型尝试通过将信号划分成频带并且然后在考虑诸如频率掩盖和时间掩盖之类的心理声学现象以及作为信号强度的函数的响度感知的非线性的同时操纵和统合这些频带而将耳朵的内部工作模型化。指定美国、作为WO 2004111994公布、在美国作为US20070092089公布并且名称为 METHOD,APPARATUS AND COMPUTER PROGRAM FOR CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS OF AN AUDIO SIGNAL 的国际申请 No. PCT/US2004/016964 (以下称为 "WO 2004111994”)描述了一种感知方法,该感知方法不仅进行响度确定并且以希望的量提供音频信号的感知响度的缩放。在WO 2004111994中描述的一个实施例中,通过反转感知响度模型而从感知响度的希望的改变来计算宽带增益。指定美国、作为WO 2006047600 公布、还在美国作为US 2007(^91959公布并且名称为CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS AND/OR THE PERCEIVED SPECTRAL BALANCE OF AN AUDIO SIGNAL 的国际申请No.PCT/US2005/038579(以下称为“W0 2006047600”)特别描述了一种方法,该方法通过缩放各单个频带的响度而甚至更进一步,由此保存感知响度谱或音品,同时调整总体感知响度。在WO 2006047600中描述的一个实施例中,从对多个频率响度带施加的感知响度的希望的改变来计算多个频带增益。将WO 2004111994和WO 2006047600中的每一个的内容通过引用方式并入在本文中。WO 2004111994和WO 2006047600描述了各包括通过首先将音频内容变换到频域
表现来分析音频信号的方法,所述变换典型地使用重叠变换,例如离散傅立叶变换的重叠加窗形式-短时离散傅立叶变换(STDFT),由于其有效率的实现而常常被提到;快速傅立叶变换(FFT)和短时快速傅立叶变换(STFFT)。如果希望进行感知响度调整,那么这些申请的实施例描述从反转响度模型而计算出的增益如何与频域信息相乘,所述频域信息随后通过由于其有效率的实现而常常被提到的相应的逆离散傅立叶变换(IDFT);逆快速傅立叶变换(IFFT)变换回时域音频信号。另一时频变换是离散余弦变换(DCT)。DCT变换提供信号的更紧凑的谱表现,并且因而被广泛用于也被称为压缩方法的图像、视频和音频编码方法中。当被用于音频编码中时,DCT以具有50%重叠的加窗重叠和修改的形式被使用,并且被临界地采样以实现时域混叠消除。这种重叠和修改的DCT—般被称为变型的DCT(MDCT)。假设窗口为2N个采样长。MDCT并不是完美可逆的,在于2N采样的窗口的MDCT如果经受逆MDCT (IMDCT)则不产生相同的2N数据采样。但是,当逆变换数据的随后块被添加时,通过使用50%重叠,由变换引入的误差被消除。这是时域混叠消除(TDAC)特性。得益于重叠特征,MDCT对于量化非常有用;例如,它有效地去除否则可容易地检测到的变换块之间的分块伪信息,并且被广泛用于诸如Dolby Digital (也被称为AC-3)和MPEG/AAC之类的音频编码方法以及诸如ITU-T H. 26UH. 263.MPEG-UMPEG-2视频和JPEG之类的图像编码系统中。Dolby Digital是杜比特许实验室公司(Dolby Licensing Laboratories Corporation)的商标。这种编码包括将一个或多个待编码音频信号划分成重叠加窗时间段,在这里被称为音频块。各段的MDCT 变换被感知编码,并且被量化以压缩信息。量化的数据被封装成编码位流。在解码期间,各段各被解封装,并且通过逆MDCT (IMDCT)变换(具有重叠相加),以重新创建时域PCM音频信号。Dolby Digital例如使用512采样的长块尺寸,这里,所述块的每一半与相邻块的一半重叠。指定美国、作为WO 2007120452公布并且名称为AUDIO SIGNAL LOUDNESS MEASUREMENT AND MODIFICATION IN THE MDCT DOMAIN 的国际申请 No. PCT/ US2007/007945(以下称为“W0 2007120452”)特别描述了可如何使用通过使用变型离散余弦变换(MDCT)获得的信息来执行感知响度测量和修改。这允许例如感知响度确定和修改与典型地使用MDCT的低位率音频解码器有效率地统合。将WO 2007120452的内容以引用方式并入在本文中。注意,WO 2007120452将此处以及通常称为MDCT的概念用术语STMDCT来称呼,以便与使用STDFT来描述以重叠方式加窗的数据块的DFT的方式一致。应当理解,本文中使用的MDCT是被临界地采样并且实现TDAC的重叠加窗余弦变换。感知音频编码方法常常被设计为使用多于一个的块长度的重叠变换数据,其中所述块长度根据音频信号的一个或更多个特定特性而被更改。例如,Dolby Digital使用两个块尺寸;512采样的长块(例如用于明显的静止信号)和256采样的短块(例如用于上升的瞬变音频信号)。结果是,频带的数量和宽度以及MDCT谱值的相应数量在块之间改变。 再次使用Dolby Digital作为例子,当块尺寸为512时域采样时,存在256个频带(频率单元,frequency bin),并且,当块尺寸为256时域采样时,存在1 个频带(频率单元)。使用这种短块尺寸和长块尺寸两者的原因是因为感知编码器根据它们的天性由于量化而引入误差或噪声,因为它们压缩或降低音频信号的信息速率。量化误差或噪声,特别是来自瞬变信号的量化误差或噪声,跨音频采样的块的长度而扩展并且变得可听。当使用短(时间) 采样块时,噪声扩展在时间上更加局部化,因此不那么可听。使用多于一个的块尺寸的感知音频编码器表现出对于将响度确定和修改与音频解码器组合的困难。WO 2007120452简短地讨论了修改反量化(de-quantization)过程以通过将多个较小的块组合或平均化为较大的块而总是以恒定的块速率输出恒定数量的带, 使得可以对恒定的块尺寸执行响度确定。WO 2007120452还简短地讨论了修改响度确定过程以接受改变的块尺寸。响度确定典型地包括滤波、激励计算、特性响度计算、平均化和加和,并且,WO 2007120452建议改变它们。这需要超出例如允许块尺寸维持恒定所需要的复杂度的附加的复杂度以及组合较短的块。希望形成用于利用不同的块长度数据执行组合或平均化以及当块尺寸改变时如何确定增益并且将这些增益应用于音频信号以用于感知响度修改的实际方法。一些实施例这里描述的是用于确定和修改频域音频信号的响度的方法和设备以及软件(例如,在计算机可读介质中实施的处理器可执行的指令),其中,音频信号块尺寸可改变。在这里详细描述的实施例假设使用由感知音频编码器使用的MDCT谱。但是,本发明的方面也适用于在第一线性空间域-时域到线性空间第二域-频率之间变换的其它变换。这些其它变换包括但不限于前面讨论的DFT、STDFT (STFFT)、DCT (离散余弦变换)以及其它,包括这些变换的逆变换。对于本领域技术人员来说,如何修改这里描述的实现以使用和/或适用于这些其它变换将是清楚和直接的,并且,不意味着权利要求被限于MDCT或逆 MDCT (IMDCT),除非明确声明这样限制。图1示出感知音频解码器的简化功能框图。虽然一般来说诸如图1所示的解码器是现有技术,但是包括这里描述的任何发明要素的这种解码器不是现有技术。从一个或更多个音频信号(音频信道)的感知编码位流101开始,第一元件103产生各信道的MDCT谱, 并且包括将位流解封装为码字、将码字反量化以及从反量化的码字重构这种各音频信道的 MDCT谱105。MDCT谱信息105包括音频的变换的重叠块的变换系数。这种谱信息然后通过元件107使用IMDCT并且将信息的逆变换块去重叠而被变换到时域,以产生解码的数字音频。更特别地,IMDCT被计算,然后,得到的时间采样被加窗,并且,加窗的采样的前一半被加到先前块的后一半,以创建最终的输出PCM时间采样109。本领域技术人员将理解,发生去重叠,并且每当IMDCT功能被描述时暗示去重叠以产生PCM音频。在频域105中(在IMDCT功能之前)存在解码的音频。如在WO 2007120452中描述的那样,可在IMDCT之前执行响度确定和修改。图2示出包括MDCT域中的响度处理的感知音频解码器的简化框图。虽然一般来说诸如图2所示的解码器是现有技术,但是包括这里描述的任何本发明的要素的这种解码器不是现有技术。响度处理元件203被配置为根据一个或更多个响度修改参数201来实施音频信号的响度确定和修改两者,以产生在逆处理之后得到输出音频数据209的修改的谱数据205。图3示出更详细地描述响度处理元件203的一个实施例中的一些处理元件的简化框图。响度处理元件203包括频域信号处理器301,所述频域信号处理器301包括响度参数确定器303,所述响度参数确定器303被配置为确定一个或更多个感知响度参数,例如MDCT音频信号105的感知响度域中的激励和特性响度。例如根据规定对响度的希望的改变的所述一个或更多个参数201,通过响度修改确定器305来修改所得到的感知响度参数。例如,如果响度处理包括噪声补偿,那么响度修改参数包括噪声补偿的量、噪声的谱值和希望的特性响度水平等。在一个实施例中,响度修改确定器305产生被表达为一组增益值或增益谱的对特性响度的修改,例如,对于各音频信道中的各MDCT频带有一个增益值, 并且,通过包括乘法器元件的响度修改器309使用所确定的增益来计算这种修改。可在WO 2004111994和102006047600中、特别是在10 2007120452中的MCDCT域中找到响度参数确定和响度修改计算的特定的细节,并且,为了不使本发明的发明方面模糊,这里不详细给出这些特定的细节。MDCT音频信号105可由延迟元件307延迟,以向响度确定器303和响度修改确定器305提供一些向前的展望,即预期音频信号的改变的能力,使得在乘法器元件 309中向延迟的谱数据施加增益以产生修改的MDCT音频信号205。图3的设备和由其实现的方法对于恒定的MDCT块尺寸工作良好。如果块尺寸随时间改变,那么响度确定器303和响度修改确定器305需要适应于新的块尺寸。这实现起来会是复杂的。参见W02007120452。图4示出被配置为在频域(例如,MDCT域)中确定响度以及修改响度的本发明的一个设备实施例400。本发明的实施例的一个特征包括操作操作频域信号处理器405,该频域信号处理器405包括响度参数确定器元件406和响度修改确定器元件407,并且,对与所使用的最大MDCT块尺寸(例如,在确定和修改是用于来自解码器的数据的情况下,为音频解码器中的最大MDCT块尺寸)相同的块尺寸或块速率的数据进行操作。该设备包括块组合器403,所述块组合器403被配置为在通过频域信号处理器405的响度参数确定器406进行响度参数确定之前,组合比最大块尺寸小的块,以形成最大块尺寸的块。实施例还包括用于内插由响度修改确定器407确定的修改的修改内插器409,例如,用于内插对于通过组合较小块尺寸的块而获得的最大尺寸块确定的增益的增益内插器。延迟元件411负责块403、 406,407和409中涉及的处理延迟,使得向响度修改器元件413呈递的数据被时间对准。组合块块组合器403实施块组合,并且被配置为从多个较小的块尺寸谱构造用于大块尺寸谱-“长块”谱-的大块尺寸MDCT谱,所述较小的块尺寸未必都是相对于最大块尺寸的相同的短块尺寸。使用多于一个的块长度的典型的感知音频编码器通常使用较短块的倍数,其MDCT 谱值的总数相当于单个相对长块中的谱值的数量。以不同的方式表达,用于计算短MDCT谱的序列的不同采样时间PCM音频采样的总数相当于用于计算单个长MDCT谱的不同采样时间PCM音频采样的数量。作为一个例子,Dolby Digital使用512个采样的长块尺寸,所述 512个采样由与先前的长块重叠的256个采样和与下一个长块重叠的256个附加采样构成, 这导致256个MDCT谱值(频率单元)。当Dolby Digital使用短块时,它按照第一和第二短块的对来使用短块。第一短块包括与先前的块重叠的256个采样,所述先前的块在应用 MDCT之后导致1 个MDCT谱值(频率单元)。第二短块也是与下一个256长块重叠的256 个采样,所述下一个256长块也导致1 个MDCT谱值(频率单元)。另一例子是MPEG/AAC,其使用给出IOM个MDCT值的2048个采样的长块尺寸和给出1 个MDCT值的256个采样的短块尺寸。当MPEG/AAC使用短块时,它总是使用八个短块的倍数-块的八重组(octet),使得在这种八重组中存在8 X 128 = 1024个MDCT值(频率单元),数量与单一长块的数量相同。虽然可以有实施组合步骤块组合器403的许多方式而不背离本发明的实质,但是这里描述两个示例性方法。第一示例性方法包括交织较短块的MDCT值以创建长块的单个谱。第二方法使用短块谱的子集,并且包括复制值以创建长块的单一谱。在使用复制的一些这样的示例性方法中,使用最近的较短谱来创建长块的单一谱。实施例如组合元件403的组合的替代性实施例包括在短块尺寸的频域数据的值之间进行内插,以创建最长块尺寸的频域数据。对之后的数据也可如此。图5A 5E示出基于示例性响板击打的Dolby Digital数据的示例性MDCT谱。 特别地,图5A和图5B示出各具有1 个值的两个连续短块MDCT谱。可以看出,这显然是上升瞬变,因为相对于MDCT数据的第二块中的能量的量,在第一短块中的所有频带中存在相对很少的能量。图5C示出利用交织从图5A和图5B的谱确定的具有256个频域值的谱。 图5D示出通过复制图5B的第二短谱的相邻值而创建的长块谱。由于当音频信号能量特别是高频能量迅速上升时如Dolby Digital那样的编码器选择使用短块,因此考虑这一点是有用的。这指示音频信号中的瞬变。结果,第二短谱是用于创建两个短块谱的音频信号的总体谱的较好的代表。当与图5E比较时,可以看到这一点。实施例如组合元件403的组合的替代性实施例包括在短块尺寸的频域数据的值之间进行内插,以创建最长块尺寸的频域数据。对之后的数据也可如此。最后,作为参照,图5E示出从用于计算图5A和图5B中的两个较短MDCT谱的相同的采样计算的长MDCT谱。这代表理想化的情况,在该理想化的情况下,Dolby Digital能够以高于正常数据速率的数据速率运行,并且因此将不需要使用较短块来使瞬变信号的量化噪声的可听性最小化。Dolby Digital实际上将既不计算也不使用图5E中的谱,但它代表如果编码器限于仅使用长块的情况下会发生什么。对于AAC和类似的编码方法,长块的长度是多于两个短块的倍数,例如,对于AAC 为8,并且/或者,存在多种类型的长块,例如,对于AAC为3种,假定对于不同类型的长块中的每一个,以基本上相同的方式确定响度。用于这样的多种块尺寸的本发明的一些实施例选择最大尺寸,并且,使用交织来从多个短数据块确定长数据块。注意,对于上升的瞬变,较后的短块具有增大的功率。如已知的那样,由于下降的瞬变的感知掩盖,瞬变的短块包括上升的瞬变的短块。在其中长块具有短块长度的整数倍 (大于两倍)的长度(例如,对于AAC为8倍)的一些实施例中,使用交织来形成具有高于预定阈值的总体能量的连续的较后的块的子组(subgroup),然后,使用复制或交织将这些连续的较后的块与较早的块进行组合,以给出具有长块的块的组合谱。在一些实施例中,所述预定阈值为最后的长块尺寸块的总频域能量的一半。确定感知响度WO 2004111994描述了基于心理声学模型的感知响度的客观测量。虽然WO 2004111994描述使用获得的对数功率谱,例如使用短时DFT,但是,来自一组MDCT谱的功率确定也是已知的。考虑时间采样x[n,t]的时变加窗块的STDFT,这里,η是块内的时间索引,t是参照该时间的索引。对于长度为T个采样的块,使用STDFT的功率谱时变估计的一种常用的计算是这里,k是用于STDFT的频率单元,K是数据块的频率单元和时间采样的数量, Xstdft (k,t)是 x[n,t]的 STDFT。由XmeT(k,t)表示长度为K个采样的时间块t的MDCT。对于大多数的音频信号,Xstdft(k, t) I和Z Xstdft(k,t)沿块而相对独立地改变。此外,对于大多数的音频信号, Z Xstdft(k,t)在0禾Π 2 π之间基本上均勻地分布。在这种情况下,它可被示为
权利要求
1.一种音频数据的感知响度处理方法,所述音频数据包含通过以多种块尺寸进行变换所确定的频域数据,该方法包含接受多种块尺寸的频域音频数据块;对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块,实施最长块尺寸的接受的块的感知响度处理,其中,实施所述感知响度处理包括确定一个或更多个感知响度参数。
2.如权利要求1所述的方法,其中,所述响度处理还包括确定要应用于接受的频域数据块或其延迟形态的至少一个响度修改,所述至少一个响度修改的确定使用所述一个或更多个确定的感知响度参数,该方法还包含对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;以及将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块或其延迟形态。
3.如权利要求2所述的方法,还包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。
4.如权利要求2 3中的任一项所述的方法,其中,所述至少一个响度修改包括一组增益,其中,所述内插确定内插的增益,并且其中,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益或一组内插的增益。
5.如任何在前的权利要求所述的方法,其中,组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括交织所述特定短块尺寸的频域数据。
6.如权利要求1 4中的任一项所述的方法,其中,组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括复制所述特定短块尺寸的频域数据的值以创建最长块尺寸的频域数据。
7.如权利要求1 4中的任一项所述的方法,其中,最近的特定短块尺寸块的特定短块尺寸的频域数据被用于创建最长块尺寸的频域数据。
8.如权利要求1 4中的任一项所述的方法,其中,组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括在特定短块尺寸的频域数据的值之间进行内插以创建最长块尺寸的频域数据。
9.如权利要求1 4中的任一项所述的方法,其中,所述最长块尺寸具有所述特定短块尺寸的长度的整数倍的长度,所述整数倍大于两倍,组合所述多个频域数据块包括使用交织来组合向着所述多个块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组以形成中间尺寸块的频域数据,以及通过复制或交织而将中间尺寸块的频域数据与不具有高于所述预定阈值的能量的多个频域数据块进行组合以创建最长块尺寸的频域数据。
10.如权利要求2 9中的任一项所述的方法,其中,所述至少一个响度修改包括一组增益,其中,所述内插确定内插的增益,其中,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益或一组内插的增益,并且其中,内插所确定的增益使用所确定的增益值之间的线性内插。
11.如权利要求2 9中的任一项所述的方法,其中,所述至少一个响度修改包括一组增益,其中,所述内插确定内插的增益,其中,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益或一组内插的增益,并且其中,内插所确定的增益使用二次或更高次多项式内插。
12.如权利要求2 9中的任一项所述的方法,其中,所述至少一个响度修改包括一组增益,其中,所述内插确定内插的增益,其中,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益或一组内插的增益,并且其中,内插所确定的增益使用样条内插。
13.如权利要求2 12中的任一项所述的方法,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度。
14.如权利要求2 12中的任一项所述的方法,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度,并且其中,实施所述感知响度处理包括响度水平调节、增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
15.如任何在前的权利要求所述的方法,其中,变换是重叠变换。
16.如权利要求15所述的方法,其中,所述重叠变换是短时离散傅立叶变换(STDFT)。
17.如权利要求15所述的方法,其中,所述重叠变换是变型的离散余弦变换(MDCT)。
18.如权利要求1 14中的任一项所述的方法,其中,所述重叠变换是短时离散正弦变换。
19.如任何在前的权利要求所述的方法,其中,所述数据来自编码音频数据,所述编码音频数据通过使用多于一种块尺寸的感知编码器被编码。
20.如权利要求19所述的方法,其中,所述数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
21.如权利要求20所述的方法,其中,所述数据来自根据AC-3编码的编码音频数据。
22.如权利要求19所述的方法,其中,接受的频域数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码器被编码。
23.如权利要求19所述的方法,其中,所述数据来自通过AAC编码器编码的编码音频数据。
24.一种计算机可读介质,该计算机可读介质被配置有指令,该指令在被至少一个处理器执行时实施音频数据的感知响度处理方法,所述音频数据包括通过以多种块尺寸进行重叠变换所确定的频域数据,所述方法如任何在前的方法权利要求所述。
25.一种程序逻辑,该程序逻辑在被至少一个处理器执行时使得实施音频数据的感知响度处理方法,所述音频数据包括通过以多种块尺寸进行重叠变换所确定的频域数据,所述方法如任何在前的方法权利要求所述。
26.一种用于音频数据的感知响度处理的设备,所述音频数据包含通过以多种块尺寸进行变换所确定的频域数据,该设备包含用于接受多种块尺寸的频域音频数据块的装置;用于组合特定短块尺寸的多个接受的频域数据块以形成最长块尺寸的频域数据块的装置, 用于处理的装置,所述处理被配置为实施最长块尺寸的接受的块的感知响度处理,其中,通过所述用于处理的装置实施所述感知响度处理包括确定一个或更多个感知响度参数。
27.如权利要求26所述的设备,其中,所述响度处理还包含用于使用一个或更多个所确定的感知响度参数来确定至少一个响度修改的装置,所述至少一个响度修改用于应用于接受的频域数据块或其延迟形态,该设备还包括与用于确定所述至少一个响度修改的所述装置耦合的用于内插响度修改的装置,使得对于以所形成的最长块尺寸确定的所述至少一个响度修改中的任何一个,所确定的至少一个响度修改被内插,以应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块,以及用于将所确定的至少一个响度修改或内插的修改应用于接受的频域数据块或其延迟形态的装置。
28.如权利要求27所述的设备,还包括用于延迟频域音频数据块以使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态的装置。
29.如权利要求27 28中的任一项所述的设备,其中,所述至少一个响度修改包括一组增益,其中,用于内插的所述装置确定内插的增益,并且其中,用于应用所确定的至少一个响度修改或内插的响度修改的所述装置包括用于应用所述一组增益或一组内插的增益的装置。
30.如权利要求26 29中的任一项所述的设备,其中,用于组合的所述装置被配置为使得组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括交织所述特定短块尺寸的频域数据。
31.如权利要求26 29中的任一项所述的设备,其中,用于组合的所述装置被配置为使得组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括复制所述特定短块尺寸的频域数据的值以创建最长块尺寸频域数据。
32.如权利要求30所述的设备,其中,最近的特定短块尺寸块的特定短块尺寸的频域数据被用于创建最长块尺寸的频域数据。
33.如权利要求26 29中的任一项所述的设备,其中,用于组合的所述装置被配置为使得组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括在特定短块尺寸的频域数据的值之间进行内插以创建最长块尺寸的频域数据。
34.如权利要求26 29中的任一项所述的设备,其中,所述最长块尺寸具有所述特定短块尺寸的长度的整数倍的长度,所述整数倍大于两倍,并且其中,用于组合的所述装置被配置为使得组合所述多个频域数据块包括使用交织来组合向着所述多个块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组以形成中间尺寸块的频域数据, 以及通过复制或交织而将中间尺寸块的频域数据与不具有高于所述预定阈值的能量的多个频域数据块进行组合以创建最长块尺寸的频域数据。
35.如权利要求27 34中的任一项所述的设备,其中,所述至少一个响度修改包括一组增益,其中,用于内插的所述装置确定内插的增益,其中,用于应用所确定的至少一个响度修改或内插的响度修改的装置包括用于应用所述一组增益或一组内插的增益的装置,并且其中,用于内插的所述装置被配置为使得内插所确定的增益使用所确定的增益值之间的线性内插。
36.如权利要求27 34中的任一项所述的设备,其中,所述至少一个响度修改包括一组增益,其中,用于内插的所述装置确定内插的增益,其中,用于应用所确定的至少一个响度修改或内插的响度修改的装置包括用于应用所述一组增益或一组内插的增益的装置,并且其中,用于内插的所述装置被配置为使得内插所确定的增益使用二次或更高次多项式内插。
37.如权利要求27 34中的任一项所述的设备,其中,所述至少一个响度修改包括一组增益,其中,用于内插的所述装置确定内插的增益,其中,用于应用所确定的至少一个响度修改或内插的响度修改的装置包括用于应用所述一组增益或一组内插的增益的装置,并且其中,用于内插的所述装置被配置为使得内插所确定的增益使用样条内插。
38.如权利要求27 37中的任一项所述的设备,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度。
39.如权利要求27 37中的任一项所述的设备,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度,并且其中,所述用于处理的装置被配置为使得实施所述感知响度处理包括响度水平调节、增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
40.如权利要求沈 39中的任一项所述的设备,其中,所述变换是重叠变换。
41.如权利要求40所述的设备,其中,所述重叠变换是短时离散傅立叶变换(STDFT)。
42.如权利要求40所述的设备,其中,所述重叠变换是变型的离散余弦变换(MDCT)。
43.如权利要求40所述的设备,其中,所述重叠变换是短时离散正弦变换。
44.如权利要求沈 43中的任一项所述的设备,其中,所述数据来自编码音频数据,所述编码音频数据通过使用多于一种块尺寸的感知编码器被编码。
45.如权利要求44所述的设备,其中,所述数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
46.如权利要求45所述的设备,其中,所述数据来自根据AC-3编码的编码音频数据。
47.如权利要求44所述的设备,其中,接受的频域数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码器被编码。
48.如权利要求44所述的设备,其中,所述数据来自通过AAC编码器编码的编码音频数据。
49.一种用于音频数据的感知响度处理的设备,所述音频数据包含通过以多种块尺寸进行变换所确定的频域数据,该设备包含块组合器,被配置为接受频域音频数据块,每个块具有多种块尺寸之一,包括接受比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的数据块,以及组合所述特定短块尺寸的多个接受的频域数据块以形成最长块尺寸的频域数据块,频域信号处理器,被配置为实施最长块尺寸的接受的块的感知响度处理, 其中,通过频域信号处理器实施所述感知响度处理包括确定一个或更多个感知响度参数。
50.如权利要求49所述的设备,其中,所述频域信号处理器还包括响度修改确定器,所述响度修改确定器被配置为确定要应用于由块组合器接受的频域数据块或其延迟形态的至少一个响度修改,所述响度修改确定器使用所述一个或更多个确定的感知响度参数,所述设备还包含响度修改内插器,与频域信号处理器耦合,并且被配置为对于以所形成的最长块尺寸确定的一个或更多个响度修改的任何组而内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的特定短块尺寸的接受的数据块,以及响度修改器,与响度修改内插器耦合,以及与块组合器的输入端耦合或与和块组合器的输入端耦合的延迟元件耦合,并且被配置为将所确定的至少一个响度修改或内插的修改应用于接受的频域数据块或其延迟形态。
51.如权利要求50所述的设备,还包含延迟元件,所述延迟元件与块组合器的输入端耦合,并且被配置为延迟频域音频数据块,所述延迟元件的输出端耦合到所述响度修改器, 使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。
52.如权利要求50 51中的任一项所述的设备,其中,所述至少一个响度修改包括一组增益,其中,所述响度修改内插器确定内插的增益,并且其中,所述响度修改器被配置为应用所述一组增益或一组内插的增益。
53.如权利要求49 52中的任一项所述的设备,其中,所述块组合器包括交织器,使得组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括交织所述特定短块尺寸的频域数据。
54.如权利要求50 52中的任一项所述的设备,其中,所述块组合器包括数据复制器, 使得组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括复制所述特定短块尺寸的频域数据的值以创建最长块尺寸的频域数据。
55.如权利要求M所述的设备,其中,最近的特定短块尺寸块的特定短块尺寸的频域数据被用于创建最长块尺寸的频域数据。
56.如权利要求50 52中的任一项所述的设备,其中,所述块组合器包括数据内插器, 使得组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括在特定短块尺寸的频域数据的值之间进行内插以创建最长块尺寸的频域数据。
57.如权利要求50 52中的任一项所述的设备,其中,所述最长块尺寸具有所述特定短块尺寸的长度的整数倍的长度,所述整数倍大于两倍,并且其中,所述块组合器包括能量确定器和处理电路,所述能量确定器和处理电路被配置为使得组合所述多个频域数据块包括使用交织来组合向着所述多个块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组以形成中间尺寸块的频域数据,以及通过复制或交织而将中间尺寸块的频域数据与不具有高于所述预定阈值的能量的多个频域数据块进行组合以创建最长块尺寸的频域数据。
58.如权利要求50 57中的任一项所述的设备,其中,所述至少一个响度修改包括一组增益,其中,所述响度修改内插器确定内插的增益,其中,所述响度修改器被配置为应用所述一组增益或一组内插的增益,并且其中,所述响度修改内插器被配置为使用线性内插而在所确定的增益值之间进行内插。
59.如权利要求50 57中的任一项所述的设备,其中,所述至少一个响度修改包括一组增益,其中,所述响度修改内插器确定内插的增益,其中,所述响度修改器被配置为应用所述一组增益或一组内插的增益,并且其中,所述响度修改内插器被配置为使用二次或更高次多项式内插。
60.如权利要求50 57中的任一项所述的设备,其中,所述至少一个响度修改包括一组增益,其中,所述响度修改内插器确定内插的增益,其中,所述响度修改器被配置为应用所述一组增益或一组内插的增益,并且其中,所述响度修改内插器被配置为使用样条内插。
61.如权利要求50 60中的任一项所述的设备,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度。
62.如权利要求50 60中的任一项所述的设备,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度,并且其中,实施感知响度处理的频域信号处理器包括响度水平调节、增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
63.如权利要求49 62中的任一项所述的设备,其中,所述变换是重叠变换。
64.如权利要求63所述的设备,其中,所述重叠变换是短时离散傅立叶变换(STDFT)。
65.如权利要求63所述的设备,其中,所述重叠变换是变型的离散余弦变换(MDCT)。
66.如权利要求63所述的设备,其中,所述重叠变换是短时离散正弦变换。
67.如权利要求50 66中的任一项所述的设备,其中,所述数据来自编码音频数据,所述编码音频数据通过使用多于一种块尺寸的感知编码器被编码。
68.如权利要求67所述的设备,其中,所述数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
69.如权利要求68所述的设备,其中,所述数据来自根据AC-3编码的编码音频数据。
70.如权利要求67所述的设备,其中,接受的频域数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码器被编码。
71.如权利要求67所述的设备,其中,所述数据来自通过AAC编码器编码的编码音频数据。
72.一种设备,所述设备包括处理系统,所述处理系统至少包括处理器和计算机可读介质,所述处理系统在操作中被配置为实施音频数据的感知响度处理方法,所述音频数据包括通过以多种块尺寸进行重叠变换所确定的频域数据,所述方法如任何在前的方法权利要求所述。
全文摘要
用于在频域信息的频率分辨率以及相应时间覆盖范围不恒定的情况下确定和修改频域音频信号的感知响度的方法和设备,以及上面具有当被执行时使得实施这些方法的指令的计算机可读介质。将感知响度处理的频率(以及因而时间)分辨率在最长块尺寸处保持恒定。一种方法包括块组合器和响度修改内插器。
文档编号H03G9/02GK102265513SQ200980151996
公开日2011年11月30日 申请日期2009年12月22日 优先权日2008年12月24日
发明者M·J·斯米泽斯 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1