频域中的音频信号响度确定和修改的制作方法

文档序号:7527505阅读:218来源:国知局
频域中的音频信号响度确定和修改的制作方法
【专利摘要】用于在频域信息的频率分辨率以及相应时间覆盖范围不恒定的情况下确定和修改频域音频信号的感知响度的方法和设备,以及上面具有当被执行时使得实施这些方法的指令的计算机可读介质。将感知响度处理的频率(以及因而时间)分辨率在最长块尺寸处保持恒定。一种方法包括块组合器和响度修改内插器。
【专利说明】频域中的音频信号响度确定和修改
[0001] 本申请是申请日为2009年12月22日、申请号为200980151996. 3、发明名称为"频 域中的音频信号响度确定和修改"的发明专利申请的分案申请。
[0002] 对相关申请的交叉引用
[0003] 本申请要求在2008年12月24日提交的美国临时专利申请No. 61/140,791的权 益,在此以引用方式并入其全部内容。

【技术领域】
[0004] 本公开一般涉及音频信号处理,特别地,涉及感知音频编码。

【背景技术】
[0005] 存在许多用于客观地确定音频信号的感知响度的方法。也已知用于使用例如感知 响度模型以希望的量缩放音频信号的感知响度的方法。也已知这样的方法,所述方法包括 缩放各单个频带的响度,由此保存感知响度谱或音品,同时调整总体感知响度。这些方法典 型地将与数字化的音频信号对应的采样分割成被变换到频域的重叠块。被这样向重叠的数 据块施加的变换被称为"重叠变换(lapped transform)"。用于确定以及可能地更改感知 响度的方法使用如短时离散傅立叶变换或(短时)变型的离散余弦变换的这些重叠变换。
[0006] 用于压缩数字化音频信号的感知编码方法也是已知的,这些编码方法包括将与数 字化音频信号对应的采样分割成被变换到频域的重叠块。
[0007] 希望确定以及可能地修改可能被感知编码的音频信号的感知响度。感知编码方 法常常具有随时间改变的块长度。AC-3(也已知作为Dolby Digital)和AAC(也已知作为 MPEG-2/AAC和MPEG-4/AAC,或者简单地被称为MPEG/AAC音频)各使用两个块尺寸。在可 改变的音频信号块尺寸的情况下有效率地确定以及可能地修改频域音频信号的感知响度 可能是复杂的操作。

【专利附图】

【附图说明】
[0008] 图1示出感知音频解码器的简化功能框图。
[0009] 图2示出包含MDCT域中的响度处理的感知音频解码器的简化框图。
[0010] 图3示出更详细地描述图2的响度处理元件的实施例中的一些处理的简化框图。 [0011] 图4示出被配置为在频域(例如MDCT域)中确定响度以及修改响度的本发明的 一个设备实施例。
[0012] 图5A?5E示出在使用利用从示例性响板击打的Dolby Digital信号获得的MDCT 谱的本发明的实施例的组合中涉及的不同MDCT谱。
[0013] 图6示出使用MDCT数据并且用于本发明的一些实施例中的响度确定的例子的简 单框图。
[0014] 图7A和图7B示出对于由使用内插(图7A)和使用复制(图7B)从短块确定的长 块获得的Dolby Digital数据的以宋(sone)为单位确定的响度的比较。
[0015] 图8示出使用MDCT数据并且用于本发明的一些实施例中的用于水平调节 (1 eve 1 ing)的响度确定和修改的例子的简单框图。
[0016] 图9通过简单的例子图示适用于使用256时域采样的短块长度和512时域采样的 长块长度的感知编码数据(例如Dolby Digital)的增益内插。
[0017] 图10通过简单的例子图示适用于使用256时域采样的短块长度和2048时域采样 的长块长度的感知编码数据(例如MPEG-2/AAC和MPEG-4/AAC)的增益内插。
[0018] 图11示出包括处理系统的一个设备实施例的简化框图,所述处理系统在操作中 被配置为实施本发明的方法实施例。该设备包括被配置有指令的计算机可读介质,该指令 在被执行时使得实施本发明的方法实施例。

【具体实施方式】
[0019] 概要
[0020] 本发明涉及用于在频域信息的频率分辨率以及相应时间覆盖范围不恒定的情况 下确定和修改频域音频信号的感知响度的方法和设备,以及上面具有当被执行时使得实施 这些方法的指令的计算机可读介质。这直接适用于使用改变的块尺寸的情况下的感知音频 编码器,这种可变块尺寸有助于提高瞬变音频信号的声音质量。
[0021] 用于包括多种块尺寸的数据的一个方面包括:将感知响度处理的频率(以及因而 时间)分辨率在最长块尺寸处保持恒定,其包括:对于比最长块尺寸短的一个或更多个块 尺寸中的特定短块尺寸的数据,组合所述特定短块尺寸的多个块的频域信息以形成用于输 入到响度处理的最长块尺寸数据,以及内插从对这种所形成的最长块尺寸数据的响度处理 输出的增益信息,以用于与所述特定短块尺寸的频域信号相乘。
[0022] 特定的实施例包括音频数据的处理方法,所述音频数据包含通过以多种块尺寸进 行例如重叠变换的变换所确定的频域数据。该方法包括:接受多种块尺寸的频域音频数据 块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方 法包括:组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方 法还包括:实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括:确 定一个或更多个感知响度参数。所述响度处理可包括确定要应用于接受的频域数据块或其 延迟形态的至少一个响度修改。所述至少一个响度修改的确定使用所述一个或更多个确定 的感知响度参数。
[0023] 该方法可包括:对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插 所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述 特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修 改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度 修改或内插的修改被应用于频域数据块的延迟形态。
[0024] 在一些实施例中,所述至少一个响度修改包括一组增益,因此,所述内插确定内插 的增益,并且,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益 或一组内插的增益。在其中至少一个响度修改包括一组增益的一些实施例中,所述内插确 定内插的增益并且使用所确定的增益值之间的线性内插。
[0025] -些实施例中的组合特定短块尺寸的多个频域数据块以形成最长块尺寸的频域 数据包括:交织所述特定短块尺寸的频域数据。在其它的实施例中,所述组合包括:复制所 述特定短块尺寸的频域数据的值以创建最长块尺寸的频域数据。例如,最近的(latest)特 定短块尺寸块的特定短块尺寸的频域数据被用于创建最长块尺寸的频域数据。
[0026] 所述一个或更多个感知响度参数可包括音频数据的激励(excitation)和音频数 据的特性响度(specific loudness)。实施感知响度处理可包括响度水平调节、增益控制、噪 声补偿和/或动态均衡化中的一个或更多个。
[0027] 所述变换可以是重叠变换,例如,短时离散傅立叶变换(SIDFT),或者变型的离散 余弦变换(MDCT),或者短时离散正弦变换。也可使用其它的重叠变换。
[0028] 所述数据可来自通过使用多于一个块尺寸的感知编码器编码的编码音频数据。例 子包括AC-3和AAC。
[0029] 特定的实施例包括一种设备,该设备包括至少包含处理器的处理系统和计算机可 读介质,该处理系统在操作中被配置为实施音频数据的感知响度处理的方法,所述音频数 据包括通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括:接受 多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块 尺寸的接受的数据块,该方法包括:组合所述特定短块尺寸的多个频域数据块以形成最长 块尺寸的频域数据块。该方法还包括:实施最长块尺寸的接受的块的感知响度处理。实施 所述感知响度处理包括:确定一个或更多个感知响度参数。该方法可包括:对于以所形成 的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应 用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所 确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可 包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块 的延迟形态。不同的实施例可包括以上在此概要部分或本文的其它部分中描述的特征中的 一个或更多个。
[0030] 特定的实施例包括配置有指令的计算机可读介质,该指令在被至少一个处理器执 行时实施音频数据的感知响度处理的方法,所述音频数据包括通过以多种块尺寸进行例如 重叠变换的变换所确定的频域数据。该方法包括:接受多种块尺寸的频域音频数据块。对 于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包 括:组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还 包括:实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括:确定一 个或更多个感知响度参数。该方法可包括:对于以所形成的最长块尺寸确定的所述至少一 个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一 个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少 一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得 所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。不同的实施例可包 括以上在此概要部分或本文的其它部分中描述的特征中的一个或更多个。
[0031] 特定的实施例包括程序逻辑,当该程序逻辑被至少一个处理器执行时使得实施音 频数据的感知响度处理的方法,所述音频数据包括通过以多种块尺寸进行例如重叠变换的 变换所确定的频域数据。该方法包括:接受多种块尺寸的频域音频数据块。对于比最长块 尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括:组合所述 特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括:实施最 长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括:确定一个或更多个感 知响度参数。该方法可包括:对于以所形成的最长块尺寸确定的所述至少一个响度修改,内 插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所 述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度 修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响 度修改或内插的修改被应用于频域数据块的延迟形态。不同的实施例可包括以上在此概要 部分或本文的其它部分中描述的特征中的一个或更多个。
[0032] 特定的实施例包括用于音频数据的感知响度处理的设备,所述音频数据包含通过 以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该设备包括用于接受多种块尺 寸的频域音频数据块的装置。该设备还包括:用于组合特定短块尺寸的多个接受的频域数 据块以形成最长块尺寸的频域数据块的装置。该设备还包括:用于处理的装置,所述处理 被配置为实施最长块尺寸的接受的块的感知响度处理。通过所述用于处理的装置实施所述 感知响度处理包括:确定一个或更多个感知响度参数。该设备可进一步包括:用于使用一 个或更多个所确定的感知响度参数来确定至少一个响度修改的装置,所述至少一个响度修 改用于应用于接受的频域数据块或其延迟形态。这种情况下的该设备进一步包括与用于确 定所述至少一个响度修改的所述装置耦合的用于内插响度修改的装置,使得对于以所形成 的最长块尺寸确定的所述至少一个响度修改中的任何一个,所确定的至少一个响度修改被 内插,以应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据 块。这种情况下的该设备进一步包括用于将所确定的至少一个响度修改或内插的修改应用 于接受的频域数据块或其延迟形态的装置。所述修改可以具有一组增益的形式。
[0033] 特定的实施例包括用于音频数据的感知响度处理的设备,所述音频数据包含通过 以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该设备包括块组合器,所述块 组合器被配置为接受频域音频数据块,每个块具有多种块尺寸之一,包含接受比最长块尺 寸短的一个或更多个块尺寸中的特定短块尺寸的数据块。所述块组合器被进一步配置为组 合所述特定短块尺寸的多个接受的频域数据块以形成最长块尺寸的频域数据块。该设备还 包括频域信号处理器,所述频域信号处理器被配置为实施最长块尺寸的接受的块的感知响 度处理。通过频域信号处理器实施所述感知响度处理包括确定一个或更多个感知响度参 数。所述频域信号处理器可包括响度修改确定器,所述响度修改确定器被配置为确定要应 用于由块组合器接受的频域数据块或其延迟形态的至少一个响度修改。这种响度修改确定 器使用所述一个或更多个确定的感知响度参数。包括所述响度修改确定器的该设备包括响 度修改内插器,所述响度修改内插器与频域信号处理器耦合,并且被配置为对于以所形成 的最长块尺寸确定的一个或更多个响度修改的任一组而内插所确定的至少一个响度修改, 以将其应用于被用于形成所确定的至少一个响度修改的特定短块尺寸的接受的数据块。包 括所述响度修改确定器的该设备还包括响度修改器,所述响度修改器与响度修改内插器耦 合,以及,与块组合器的输入端耦合或与和块组合器的输入端耦合的延迟元件耦合。响度修 改确定器被配置为将所确定的至少一个响度修改或内插的修改应用于接受的频域数据块 或其延迟形态。所述修改可以具有一组增益的形式。
[0034] 特定的实施例可提供这些方面、特征或优点中的全部或一些或根本不提供它们。 特定的实施例可提供一个或更多个其它的方面、特征或优点,本领域技术人员从本文的附 图、描述和权利要求中可容易地理解这些方面、特征或优点中的一个或更多个。
[0035] 感知响度和感知编码
[0036] 存在许多用于客观地确定音频信号的感知响度的方法。方法的例子包含包括应 用强调在感知上比较敏感的频率并且不强调在感知上比较不敏感的频率的预定滤波器 的响度的A加权、B加权和C加权功率测量以及诸如在标题为"Acoustics-Method for calculating loudness level"(1975)的ISO 532中描述的响度的心理声学模型,所述心 理声学模型尝试通过将信号划分成频带并且然后在考虑诸如频率掩盖和时间掩盖之类的 心理声学现象以及作为信号强度的函数的响度感知的非线性的同时操纵和统合这些频带 而将耳朵的内部工作模型化。
[0037] 指定美国、作为W0 2004111994公布、在美国作为US 20070092089公布并且名 称为 METHOD, APPARATUS AND COMPUTER PROGRAM FOR CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS OF AN AUDIO SIGNAL 的国际申请 No. PCT/US2004/016964(以下称为 "TO 2004111994")描述了一种感知方法,该感知方法不仅进行响度确定并且以希望的量 提供音频信号的感知响度的缩放。在W0 2004111994中描述的一个实施例中,通过反转感 知响度模型而从感知响度的希望的改变来计算宽带增益。指定美国、作为W0 2006047600 公布、还在美国作为US 20070291959公布并且名称为CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS AND/OR THE PERCEIVED SPECTRAL BALANCE OF AN AUDIO SIGNAL 的 国际申请No. PCT/US2005/038579(以下称为"TO 2006047600")特别描述了一种方法,该方 法通过缩放各单个频带的响度而甚至更进一步,由此保存感知响度谱或音品,同时调整总 体感知响度。在W0 2006047600中描述的一个实施例中,从对多个频率响度带施加的感知 响度的希望的改变来计算多个频带增益。
[0038] 将W0 2004111994和W0 2006047600中的每一个的内容通过引用方式并入在本文 中。
[0039] W0 2004111994和W0 2006047600描述了各包括通过首先将音频内容变换到频域 表现来分析音频信号的方法,所述变换典型地使用重叠变换,例如离散傅立叶变换的重叠 加窗形式一短时离散傅立叶变换(STDFT),由于其有效率的实现而常常被提到;快速傅立 叶变换(FFT)和短时快速傅立叶变换(STFFT)。如果希望进行感知响度调整,那么这些申请 的实施例描述从反转响度模型而计算出的增益如何与频域信息相乘,所述频域信息随后通 过由于其有效率的实现而常常被提到的相应的逆离散傅立叶变换(IDFT);逆快速傅立叶 变换(IFFT)变换回时域音频信号。
[0040] 另一时频变换是离散余弦变换(DCT)。DCT变换提供信号的更紧凑的谱表现,并且 因而被广泛用于也被称为压缩方法的图像、视频和音频编码方法中。当被用于音频编码中 时,DCT以具有50%重叠的加窗重叠和修改的形式被使用,并且被临界地采样以实现时域 混叠消除。这种重叠和修改的DCT -般被称为变型的DCT (MDCT)。假设窗口为2N个采样 长。MDCT并不是完美可逆的,在于2N采样的窗口的MDCT如果经受逆MDCTaMDCT)则不产 生相同的2N数据采样。但是,当逆变换数据的随后块被添加时,通过使用50%重叠,由变换 引入的误差被消除。这是时域混叠消除(TDAC)特性。得益于重叠特征,MDCT对于量化非常 有用;例如,它有效地去除否则可容易地检测到的变换块之间的分块伪信息,并且被广泛用 于诸如Dolby Digital (也被称为AC-3)和MPEG/AAC之类的音频编码方法以及诸如ITU-T H. 261、H. 263、MPEG-l、MPEG-2视频和JPEG之类的图像编码系统中。Dolby Digital是杜比 特许实验室公司(Dolby Licensing Laboratories Corporation)的商标。这种编码包括 将一个或多个待编码音频信号划分成重叠加窗时间段,在这里被称为音频块。各段的MDCT 变换被感知编码,并且被量化以压缩信息。量化的数据被封装成编码位流。在解码期间,各 段各被解封装,并且通过逆MDCT (MDCT)变换(具有重叠相加),以重新创建时域PCM音频 信号。Dolby Digital例如使用512采样的长块尺寸,这里,所述块的每一半与相邻块的一 半重叠。
[0041] 指定美国、作为W0 2007120452公布并且名称为AUDIO SIGNAL LOUDNESS MEASUREMENT AND MODIFICATION IN THE MDCT DOMAIN 的国际申请 No. PCT/ US2007/007945(以下称为"W0 2007120452")特别描述了可如何使用通过使用变型离散余 弦变换(MDCT)获得的信息来执行感知响度测量和修改。这允许例如感知响度确定和修改 与典型地使用MDCT的低位率音频解码器有效率地统合。将W0 2007120452的内容以引用 方式并入在本文中。
[0042] 注意,W0 2007120452将此处以及通常称为MDCT的概念用术语STMDCT来称呼,以 便与使用STDFT来描述以重叠方式加窗的数据块的DFT的方式一致。应当理解,本文中使 用的MDCT是被临界地采样并且实现TDAC的重叠加窗余弦变换。
[0043] 感知音频编码方法常常被设计为使用多于一个的块长度的重叠变换数据,其中所 述块长度根据音频信号的一个或更多个特定特性而被更改。例如,Dolby Digital使用两 个块尺寸;512采样的长块(例如用于明显的静止信号)和256采样的短块(例如用于上 升的瞬变音频信号)。结果是,频带的数量和宽度以及MDCT谱值的相应数量在块之间改变。 再次使用Dolby Digital作为例子,当块尺寸为512时域采样时,存在256个频带(频率单 元,frequency bin),并且,当块尺寸为256时域采样时,存在128个频带(频率单元)。使 用这种短块尺寸和长块尺寸两者的原因是因为感知编码器根据它们的天性由于量化而引 入误差或噪声,因为它们压缩或降低音频信号的信息速率。量化误差或噪声,特别是来自瞬 变信号的量化误差或噪声,跨音频采样的块的长度而扩展并且变得可听。当使用短(时间) 采样块时,噪声扩展在时间上更加局部化,因此不那么可听。
[0044] 使用多于一个的块尺寸的感知音频编码器表现出对于将响度确定和修改与音频 解码器组合的困难。W0 2007120452简短地讨论了修改反量化(de-quantization)过程以 通过将多个较小的块组合或平均化为较大的块而总是以恒定的块速率输出恒定数量的带, 使得可以对恒定的块尺寸执行响度确定。W0 2007120452还简短地讨论了修改响度确定过 程以接受改变的块尺寸。响度确定典型地包括滤波、激励计算、特性响度计算、平均化和加 和,并且,W0 2007120452建议改变它们。这需要超出例如允许块尺寸维持恒定所需要的复 杂度的附加的复杂度以及组合较短的块。
[0045] 希望形成用于利用不同的块长度数据执行组合或平均化以及当块尺寸改变时如 何确定增益并且将这些增益应用于音频信号以用于感知响度修改的实际方法。
[0046] 一些实施例
[0047] 这里描述的是用于确定和修改频域音频信号的响度的方法和设备以及软件(例 如,在计算机可读介质中实施的处理器可执行的指令),其中,音频信号块尺寸可改变。
[0048] 在这里详细描述的实施例假设使用由感知音频编码器使用的MDCT谱。但是,本发 明的方面也适用于在第一线性空间域一时域到线性空间第二域一频率之间变换的其它变 换。这些其它变换包括但不限于前面讨论的DFT、STDFT (STFFT)、DCT (离散余弦变换)以及 其它,包括这些变换的逆变换。对于本领域技术人员来说,如何修改这里描述的实现以使用 和/或适用于这些其它变换将是清楚和直接的,并且,不意味着权利要求被限于MDCT或逆 MDCT (MDCT),除非明确声明这样限制。
[0049] 图1示出感知音频解码器的简化功能框图。虽然一般来说诸如图1所示的解码器 是现有技术,但是包括这里描述的任何发明要素的这种解码器不是现有技术。从一个或更 多个音频信号(音频信道)的感知编码位流101开始,第一元件103产生各信道的MDCT谱, 并且包括将位流解封装为码字、将码字反量化以及从反量化的码字重构这种各音频信道的 MDCT谱105。MDCT谱信息105包括音频的变换的重叠块的变换系数。这种谱信息然后通过 元件107使用頂DCT并且将信息的逆变换块去重叠而被变换到时域,以产生解码的数字音 频。更特别地,頂DCT被计算,然后,得到的时间采样被加窗,并且,加窗的采样的前一半被 加到先前块的后一半,以创建最终的输出PCM时间采样109。本领域技术人员将理解,发生 去重叠,并且每当頂DCT功能被描述时暗示去重叠以产生PCM音频。
[0050] 在频域105中(在頂DCT功能之前)存在解码的音频。如在W0 2007120452中描 述的那样,可在MDCT之前执行响度确定和修改。图2示出包括MDCT域中的响度处理的感 知音频解码器的简化框图。虽然一般来说诸如图2所示的解码器是现有技术,但是包括这 里描述的任何本发明的要素的这种解码器不是现有技术。响度处理元件203被配置为根据 一个或更多个响度修改参数201来实施音频信号的响度确定和修改两者,以产生在逆处理 之后得到输出音频数据209的修改的谱数据205。
[0051] 图3示出更详细地描述响度处理元件203的一个实施例中的一些处理元件的简 化框图。响度处理元件203包括频域信号处理器301,所述频域信号处理器301包括响度 参数确定器303,所述响度参数确定器303被配置为确定一个或更多个感知响度参数,例 如MDCT音频信号105的感知响度域中的激励和特性响度。例如根据规定对响度的希望的 改变的所述一个或更多个参数201,通过响度修改确定器305来修改所得到的感知响度参 数。例如,如果响度处理包括噪声补偿,那么响度修改参数包括噪声补偿的量、噪声的谱值 和希望的特性响度水平等。在一个实施例中,响度修改确定器305产生被表达为一组增益 值或增益谱的对特性响度的修改,例如,对于各音频信道中的各MDCT频带有一个增益值, 并且,通过包括乘法器元件的响度修改器309使用所确定的增益来计算这种修改。可在W0 2004111994和W0 2006047600中、特别是在W0 2007120452中的MCDCT域中找到响度参数 确定和响度修改计算的特定的细节,并且,为了不使本发明的发明方面模糊,这里不详细给 出这些特定的细节。MDCT音频信号105可由延迟元件307延迟,以向响度确定器303和响 度修改确定器305提供一些向前的展望,即预期音频信号的改变的能力,使得在乘法器元 件309中向延迟的谱数据施加增益以产生修改的MDCT音频信号205。
[0052] 图3的设备和由其实现的方法对于恒定的MDCT块尺寸工作良好。如果块尺寸随 时间改变,那么响度确定器303和响度修改确定器305需要适应于新的块尺寸。这实现起 来会是复杂的。参见W02007120452。
[0053] 图4示出被配置为在频域(例如,MDCT域)中确定响度以及修改响度的本发明的 一个设备实施例400。本发明的实施例的一个特征包括操作操作频域信号处理器405,该频 域信号处理器405包括响度参数确定器元件406和响度修改确定器元件407,并且,对与所 使用的最大MDCT块尺寸(例如,在确定和修改是用于来自解码器的数据的情况下,为音频 解码器中的最大MDCT块尺寸)相同的块尺寸或块速率的数据进行操作。该设备包括块组 合器403,所述块组合器403被配置为在通过频域信号处理器405的响度参数确定器406进 行响度参数确定之前,组合比最大块尺寸小的块,以形成最大块尺寸的块。实施例还包括用 于内插由响度修改确定器407确定的修改的修改内插器409,例如,用于内插对于通过组合 较小块尺寸的块而获得的最大尺寸块确定的增益的增益内插器。延迟元件411负责块403、 406、407和409中涉及的处理延迟,使得向响度修改器元件413呈递的数据被时间对准。
[0054] 组合块
[0055] 块组合器403实施块组合,并且被配置为从多个较小的块尺寸谱构造用于大块尺 寸谱一"长块"谱一的大块尺寸MDCT谱,所述较小的块尺寸未必都是相对于最大块尺寸的 相同的短块尺寸。
[0056] 使用多于一个的块长度的典型的感知音频编码器通常使用较短块的倍数,其MDCT 谱值的总数相当于单个相对长块中的谱值的数量。以不同的方式表达,用于计算短MDCT谱 的序列的不同采样时间PCM音频采样的总数相当于用于计算单个长MDCT谱的不同采样时 间PCM音频采样的数量。作为一个例子,Dolby Digital使用512个采样的长块尺寸,所述 512个采样由与先前的长块重叠的256个采样和与下一个长块重叠的256个附加采样构成, 这导致256个MDCT谱值(频率单元)。当Dolby Digital使用短块时,它按照第一和第二 短块的对来使用短块。第一短块包括与先前的块重叠的256个采样,所述先前的块在应用 MDCT之后导致128个MDCT谱值(频率单元)。第二短块也是与下一个256长块重叠的256 个采样,所述下一个256长块也导致128个MDCT谱值(频率单元)。
[0057] 另一例子是MPEG/AAC,其使用给出1024个MDCT值的2048个采样的长块尺寸和给 出128个MDCT值的256个采样的短块尺寸。当MPEG/AAC使用短块时,它总是使用八个短 块的倍数一块的八重组(octet),使得在这种八重组中存在8 X 128 = 1024个MDCT值(频 率单元),数量与单一长块的数量相同。
[0058] 虽然可以有实施组合步骤块组合器403的许多方式而不背离本发明的实质,但是 这里描述两个示例性方法。第一示例性方法包括交织较短块的MDCT值以创建长块的单个 谱。第二方法使用短块谱的子集,并且包括复制值以创建长块的单一谱。在使用复制的一 些这样的示例性方法中,使用最近的较短谱来创建长块的单一谱。
[0059] 实施例如组合元件403的组合的替代性实施例包括在短块尺寸的频域数据的值 之间进行内插,以创建最长块尺寸的频域数据。对之后的数据也可如此。
[0060] 图5A?5E示出基于示例性响板击打的Dolby Digital数据的示例性MDCT谱。 特别地,图5A和图5B示出各具有128个值的两个连续短块MDCT谱。可以看出,这显然是 上升瞬变,因为相对于MDCT数据的第二块中的能量的量,在第一短块中的所有频带中存在 相对很少的能量。图5C示出利用交织从图5A和图5B的谱确定的具有256个频域值的谱。 图示出通过复制图5B的第二短谱的相邻值而创建的长块谱。由于当音频信号能量特别 是高频能量迅速上升时如Dolby Digital那样的编码器选择使用短块,因此考虑这一点是 有用的。这指示音频信号中的瞬变。结果,第二短谱是用于创建两个短块谱的音频信号的 总体谱的较好的代表。当与图5E比较时,可以看到这一点。
[0061] 实施例如组合元件403的组合的替代性实施例包括在短块尺寸的频域数据的值 之间进行内插,以创建最长块尺寸的频域数据。对之后的数据也可如此。
[0062] 最后,作为参照,图5E示出从用于计算图5A和图5B中的两个较短MDCT谱的相同 的采样计算的长MDCT谱。这代表理想化的情况,在该理想化的情况下,Dolby Digital能 够以高于正常数据速率的数据速率运行,并且因此将不需要使用较短块来使瞬变信号的量 化噪声的可听性最小化。Dolby Digital实际上将既不计算也不使用图5E中的谱,但它代 表如果编码器限于仅使用长块的情况下会发生什么。
[0063] 对于AAC和类似的编码方法,长块的长度是多于两个短块的倍数,例如,对于AAC 为8,并且/或者,存在多种类型的长块,例如,对于AAC为3种,假定对于不同类型的长块中 的每一个,以基本上相同的方式确定响度。用于这样的多种块尺寸的本发明的一些实施例 选择最大尺寸,并且,使用交织来从多个短数据块确定长数据块。
[0064] 注意,对于上升的瞬变,较后的短块具有增大的功率。如已知的那样,由于下降的 瞬变的感知掩盖,瞬变的短块包括上升的瞬变的短块。在其中长块具有短块长度的整数倍 (大于两倍)的长度(例如,对于AAC为8倍)的一些实施例中,使用交织来形成具有高于 预定阈值的总体能量的连续的较后的块的子组(subgroup),然后,使用复制或交织将这些 连续的较后的块与较早的块进行组合,以给出具有长块的块的组合谱。在一些实施例中,所 述预定阈值为最后的长块尺寸块的总频域能量的一半。
[0065] 确定感知响度
[0066] W0 2004111994描述了基于心理声学模型的感知响度的客观测量。虽然TO 2004111994描述使用获得的对数功率谱,例如使用短时DFT,但是,来自一组MDCT谱的功率 确定也是已知的。考虑时间采样x[n,t]的时变加窗块的STDFT,这里,n是块内的时间索 引,t是参照该时间的索引。对于长度为T个采样的块,使用STDFT的功率谱时变估计的一 种常用的计算是

【权利要求】
1. 一种使用信号处理装置来确定音频信号的感知响度的方法,该方法包含: 将频域音频数据的块接受到所述信号处理装置中,所述频域音频数据是通过对音频信 号的对应的时间采样块进行变换得到的,所述块包括至少两个不同块尺寸的块,所述至少 两个不同块尺寸包括最小块尺寸和最长块尺寸,各个接受的块尺寸为所述最小块尺寸或者 所述最小块尺寸的大于2的相应整数倍大,其中最长块尺寸是所接受的块的所有块尺寸之 中最长的; 对于短于最长块尺寸的各个块尺寸,所述信号处理装置组合具有相应的块尺寸的多个 接受的块以形成频域信息的相应形成的最长块尺寸的块;以及 所述信号处理装置确定或接受所接受的块或其延迟形态的一个或更多个感知响度参 数,各参数在与最长块尺寸对应的频率分辨率处包含用于临界频带组中的每一个的相应的 参数值,所述一个或更多个感知响度参数包括临界带功率谱以及/或者针对所述临界频带 组的所接受的块或其延迟形态的特性响度。
2. 如权利要求1所述的方法,还包括: 使用与最长块尺寸对应的频率分辨率处的一个或更多个感知响度参数,由信号处理装 置确定能够应用于对应的频率分辨率处的频域信息的至少一个感知响度修改, 对于各接受的最长块尺寸之外的块尺寸的数据,内插所确定的应用于具有所述各块尺 寸的接受的数据块或延迟的接受的数据块的至少一个响度修改,以及 将所确定的至少一个响度修改或至少一个内插的响度修改应用于所接受的频域数据 块或者其延迟形态。
3. 如权利要求2所述的方法,其中,针对短于最长块尺寸的各个块尺寸的组合包括: 交织相应的短块尺寸的频域数据,以及/或者, 复制相应的短块尺寸的频域数据的值,以及/或者, 在相应短块尺寸的频域数据的值之间进行内插,以及/或者, 对于最长块尺寸是特定块尺寸的大于2的特定整数倍的特定块尺寸,使用交织来组合 向着所述多个块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组 以形成中间尺寸块的频域数据,以及通过复制或交织而将中间尺寸块的频域数据与不具有 高于所述预定阈值的能量的多个频域数据块进行组合以创建最长块尺寸的频域数据。
4. 如权利要求2或3所述的方法,还包括:延迟频域音频数据块,使得所述至少一个响 度修改或内插的修改被应用于频域数据块的延迟形态。
5. 如权利要求2或3所述的方法,其中,各个所确定的响度修改包括对应的一组增益, 其中,所述内插确定内插的增益,并且其中,应用所确定的至少一个响度修改或内插的响度 修改包括应用所述一组增益或一组内插的增益。
6. 如权利要求2或3所述的方法,其中,所述一个或更多个感知响度参数包括音频数据 的激励和音频数据的特性响度,并且其中,实施所述感知响度处理包括响度水平调节、增益 控制、噪声补偿和/或动态均衡化中的一个或更多个。
7. 如权利要求2或3所述的方法,其中,所述变换是被应用到重叠的时间样本块的重叠 变换。
8. 如权利要求7所述的方法,其中,所述变换是短时离散傅立叶变换、短时离散正弦变 换、或者变型离散余弦变换。
9. 如权利要求2或3所述的方法,其中,所述数据来自编码音频数据,所述编码音频数 据通过使用多于一种块尺寸的感知编码器被编码。
10. 如权利要求9所述的方法,其中,所述数据来自编码音频数据,所述编码音频数据 通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
11. 如权利要求9所述的方法,其中,所接受的频域数据来自编码音频数据,所述编码 音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码 器被编码。
12. -种用于确定音频信号的感知响度的装置,该装置包含: 用于将频域音频数据的块接受到所述装置中的部件,所述频域音频数据是通过对音频 信号的对应的时间采样块进行变换得到的,所述块包括至少两个不同块尺寸的块,所述至 少两个不同块尺寸包括最小块尺寸和最长块尺寸,各个接受的块尺寸为所述最小块尺寸或 者所述最小块尺寸的大于2的相应整数倍大,其中最长块尺寸是所接受的块的所有块尺寸 之中最长的; 用于对于短于最长块尺寸的各个块尺寸进行组合的部件,组合具有相应的块尺寸的多 个接受的块以形成频域信息的相应形成的最长块尺寸的块;以及 用于确定或接受所接受的块或其延迟形态的一个或更多个感知响度参数的部件,各参 数在与最长块尺寸对应的频率分辨率处包含用于临界频带组中的每一个的相应的参数值, 所述一个或更多个感知响度参数包括临界带功率谱以及/或者针对所述临界频带组的所 接受的块或其延迟形态的特性响度。
13. 如权利要求12所述的装置,还包括: 用于确定能够应用于对应的频率分辨率处的频域信息的至少一个感知响度修改的部 件,该用于确定所述至少一个感知响度修改的部件使用与最长块尺寸对应的频率分辨率处 的一个或更多个感知响度参数, 用于对于各接受的最长块尺寸之外的块尺寸的数据,内插所确定的应用于具有所述各 块尺寸的接受的数据块或延迟的接受的数据块的至少一个响度修改的部件,以及 用于将所确定的至少一个响度修改或至少一个内插的响度修改应用于所接受的频域 数据块或者其延迟形态的部件。
14. 如权利要求13所述的装置,其中,用于对于短于最长块尺寸的各个块尺寸进行组 合的部件能够操作用于: 交织相应的短块尺寸的频域数据,以及/或者, 复制相应的短块尺寸的频域数据的值,以及/或者, 在相应短块尺寸的频域数据的值之间进行内插,以及/或者, 对于最长块尺寸是特定块尺寸的大于2的特定整数倍的特定块尺寸,使用交织来组合 向着所述多个块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组 以形成中间尺寸块的频域数据,以及通过复制或交织而将中间尺寸块的频域数据与不具有 高于所述预定阈值的能量的多个频域数据块进行组合以创建最长块尺寸的频域数据。
15. 如权利要求13或14所述的装置,还包括: 用于延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数 据块的延迟形态的部件。
16. 如权利要求13或14所述的装置,其中,各个所确定的响度修改包括对应的一组增 益,其中,所述用于内插的部件确定内插的增益,并且其中,用于应用所确定的至少一个响 度修改或内插的响度修改的部件应用所述一组增益或一组内插的增益。
17. 如权利要求13或14所述的装置,其中,所述一个或更多个感知响度参数包括音频 数据的激励和音频数据的特性响度,并且其中,实施所述感知响度处理包括响度水平调节、 增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
18. 如权利要求13或14所述的装置,其中,所述变换是被应用到重叠的时间样本块的 重叠变换。
19. 如权利要求18所述的装置,其中,所述变换是短时离散傅立叶变换、短时离散正弦 变换、或者变型离散余弦变换。
20. 如权利要求13或14所述的装置,其中,所述数据来自编码音频数据,所述编码音频 数据通过使用多于一种块尺寸的感知编码器被编码。
21. 如权利要求20所述的装置,其中,所述数据来自编码音频数据,所述编码音频数据 通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
22. 如权利要求20所述的装置,其中,所接受的频域数据来自编码音频数据,所述编码 音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码 器被编码。
23. -种用于确定音频信号的感知响度的装置,该装置包含: 包括一个或更多个处理器和存储器的处理引擎,被配置为执行包含下列内容的方法: 将频域音频数据的块接受到所述装置中,所述频域音频数据是通过对音频信号的对 应的时间采样块进行变换得到的,所述块包括至少两个不同块尺寸的块,所述至少两个不 同块尺寸包括最小块尺寸和最长块尺寸,各个接受的块尺寸为所述最小块尺寸或者所述最 小块尺寸的大于2的相应整数倍大,其中最长块尺寸是所接受的块的所有块尺寸之中最长 的; 对于短于最长块尺寸的各个块尺寸,组合具有相应的块尺寸的多个接受的块以形成频 域信息的相应形成的最长块尺寸的块;以及 确定或接受所接受的块或其延迟形态的一个或更多个感知响度参数,各参数在与最长 块尺寸对应的频率分辨率处包含用于临界频带组中的每一个的相应的参数值,所述一个或 更多个感知响度参数包括临界带功率谱以及/或者针对所述临界频带组的所接受的块或 其延迟形态的特性响度; 确定能够应用于与最长块尺寸对应的频率分辨率处的频域信息的至少一个感知响度 修改,该确定使用与最长块尺寸对应的频率分辨率处的一个或更多个感知响度参数; 对于各接受的最长块尺寸之外的块尺寸的数据,内插所确定的应用于具有所述各块尺 寸的接受的数据块或延迟的接受的数据块的至少一个响度修改,以及 将所确定的至少一个响度修改或至少一个内插的响度修改应用于所接受的频域数据 块或者其延迟形态。
24. 如权利要求23所述的装置,还包含: 使用与最长块尺寸对应的频率分辨率处的一个或更多个感知响度参数,由所述装置确 定能够应用于对应的频率分辨率处的频域信息的至少一个感知响度修改, 对于各接受的最长块尺寸之外的块尺寸的数据,内插所确定的应用于具有所述各块尺 寸的接受的数据块或延迟的接受的数据块的至少一个响度修改,以及 将所确定的至少一个响度修改或至少一个内插的响度修改应用于所接受的频域数据 块。
25. 如权利要求24所述的装置,其中,对于短于最长块尺寸的各个块尺寸进行组合包 括: 交织相应的短块尺寸的频域数据,以及/或者, 复制相应的短块尺寸的频域数据的值,以及/或者, 在相应短块尺寸的频域数据的值之间进行内插,以及/或者, 对于最长块尺寸是特定块尺寸的大于2的特定整数倍的特定块尺寸,使用交织来组合 向着所述多个块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组 以形成中间尺寸块的频域数据,以及通过复制或交织而将中间尺寸块的频域数据与不具有 高于所述预定阈值的能量的多个频域数据块进行组合以创建最长块尺寸的频域数据。
26. 如权利要求24或25所述的装置,其中所述方法还包括:延迟频域音频数据块,使 得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。
27. 如权利要求24或25所述的装置,其中,各个所确定的响度修改包括对应的一组增 益,其中,所述内插确定内插的增益,并且其中,应用所确定的至少一个响度修改或内插的 响度修改包括应用所述一组增益或一组内插的增益。
28. 如权利要求24或25所述的装置,其中,所述一个或更多个感知响度参数包括音频 数据的激励和音频数据的特性响度,并且其中,实施所述感知响度处理包括响度水平调节、 增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
29. 如权利要求24或25所述的装置,其中,所述变换是被应用到重叠的时间样本块的 重叠变换。
30. 如权利要求29所述的装置,其中,所述变换是短时离散傅立叶变换、短时离散正弦 变换、或者变型离散余弦变换。
31. 如权利要求24或25所述的装置,其中,所述数据来自编码音频数据,所述编码音频 数据通过使用多于一种块尺寸的感知编码器被编码。
32. 如权利要求31所述的装置,其中,所述数据来自编码音频数据,所述编码音频数据 通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
33. 如权利要求31所述的装置,其中,所接受的频域数据来自编码音频数据,所述编码 音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码 器被编码。
【文档编号】H03G9/02GK104378075SQ201410743139
【公开日】2015年2月25日 申请日期:2009年12月22日 优先权日:2008年12月24日
【发明者】M·J·斯米泽斯 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1