用于高频音频内容的有效恢复的方法及系统的制作方法

文档序号：8227619阅读：806来源：国知局

用于高频音频内容的有效恢复的方法及系统的制作方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求2012年2月23日提交的欧洲专利申请No. 12156631.9 W及2012年8 月8日提交的美国临时专利申请No. 61/680, 805的优先权，在此通过引用W其全部内容合并在本文中。
技术领域
[0003] 本文档设及音频编码、解码和处理的技术领域。具体地，其设及W有效方式从音频信号的低频分量恢复同一音频信号的高频分量的方法。
【背景技术】
[0004] 音频信号的有效编码和解码通常包括基于屯、理声学原理减小要编码、传输和/或解码的与音频有关的数据的量。例如，该包括丢弃存在于音频信号中但听者感知不到的所谓的掩蔽的音频内容。可替代地或另外，当仅保持分别计算关于其较高频率内容的某些信息而不实际直接对该样的较高频率内容进行编码时，要编码的音频信号的带宽可能是有限的。然后，带限信号与所述较高频率信息一起被编码和传输（或被存储），后者所要求的资源少于也对较高频率内容直接编码。
[0005] 肥-AAC(高频-高级音频编码）中的谱带复制（SBR)和杜比数字+中的谱扩展 (SPX)是关于基于音频信号的低频分量W及基于附加的边带信息（也称为较高频率信息）来近似或重建音频信号的高频分量的音频编码系统的两个示例。在下文中，参照杜比数字 +的SPX方案。然而，应当注意的是，本文档中所描述的方法和系统通常可应用于高频重建技术，包括肥-AAC中的SBR。
[0006] 基于SPX的音频编码器中的边带信息的确定通常受制于显著的计算复杂度。例如，边带信息的确定可能需要音频编码器的总计算资源的大约50%。本文档描述了使得能够降低基于SPX的音频编码器的计算复杂度的方法和系统。具体地，本文档描述了使得能够在基于SPX的音频编码器的背景下降低用于执行音调计算的计算复杂度的方法和系统 (其中，音调计算会占用于确定边带信息的计算复杂度的大约80% )。

【发明内容】

[0007] 根据一方面，描述了一种用于确定音频信号的第一频率子带的第一分频带音调值的方法。音频信号可W是多通道音频信号（例如，立体声、5. 1或7. 1多通道信号）的通道的音频信号。音频信号可W具有从低信号频率到高信号频率范围的带宽。带宽可W包括低频带和高频带。第一频率子带可W位于低频带内或高频带内。第一分频带音调值可W指示位于第一频率带内的音频信号的音调。如果频率子带包括相对高程度的稳定正弦内容，贝U 可W认为音频信号在频率子带内具有相对高音调。另一方面，如果频率子带包括相对高程度的噪声，则可W认为音频信号在该频率子带内具有低音调。第一分频带音调值可W取决于第一频率子带内的音频信号的相位变化。
[000引用于确定第一分频带音调值的方法可w用在音频信号的编码器的背景下。编码器可W利用高频重建技术如谱带复制（SBR)(例如在高效-高级音频编码器肥-AAC的背景下所使用的）或谱扩展（SP幻（例如在杜比数字+编码器的背景下所使用的）。第一分频带音调值可W用于基于音频信号的低频分量（在低频带中）来近似音频信号的高频分量（在高频带中）。具体地，第一分频带音调值可W用于确定边带信息，该边带信息可W由相应的音频解码器用于基于所接收的（解码的）音频信号的低频分量来重建音频信号的高频分量。边带信息例如可W指定为了近似高频分量的频率子带而要添加至低频分量的转换的频率子带的噪声量。
[0009] 该方法可W包括基于音频信号的样本块来确定相应的频率区间（化equency bin) 集合的变换系数集合。音频信号的样本序列可W被分组成帖序列，每个帖包括预定数量的样本。帖序列中的一个帖可W被细分成一个或更多个样本块。帖的邻近块可W重叠（例如，高至50% )。可W使用时域到频域变换如修正离散余弦变换（MDCT)和/或修正离散正弦变换（MDST)将样本块从时域变换到频域，从而产生变换系数集合。通过对样本块应用MDST 和MDCT，可W提供复变换系数集合。通常，变换系数的数量N(化及频率区间的数量脚对应于块内的样本的数量N(例如，N = 128或N = 256)。第一频率子带可W包括多个N频率区间。换句话说，N个频率区间（具有相对高的频率分辨率）可W被分组成一个或更多个频率子带（具有相对较低的频率分辨率），因此，可W提供减小的数量的频率子带（通常，该相对于编码音频信号的减小的数据速率是有利的），其中，频率子带彼此之间具有相对高频率选择性（由于如下事实；通过对多个高分辨率频率区间进行分组获得频率子带）。
[0010] 该方法还可W包括使用变换系数集合分别确定频率区间集合的区间音调值集合。通常对于各个频率区间确定（使用各个频率区间的变换系数）区间音调值。因此，区间音调值指示各个频率区间内的音频信号的音调。例如，区间音调值取决于相应各个频率区间内的变换系数的相位变化。
[0011] 该方法还可W包括对位于第一频率子带内的频率区间集合中的两个或更多个相应的邻近频率区间的区间音调值集合中的两个或更多个音调值的第一子集进行组合，从而产生第一频率子带的第一分频带音调值。换句话说，可W通过对位于第一频率子带内的两个或更多个频率区间的两个或更多个频率音调值进行组合来确定第一分频带音调值。区间音调值集合中的两个或更多个区间音调值的第一子集的组合可W包括对两个或更多个区间音调值进行平均和/或对两个或更多个区间音调值进行求和。例如，可W基于位于第一频率子带内的频率区间的区间音调值的和来确定第一分频带音调值。
[0012] 因此，用于确定第一分频带音调值的方法指定：基于位于第一频率子带内的频率区间的区间音调值来确定位于第一频率子带（包括多个频率区间）的第一分频带音调值。换句话说，提出了 W两步确定第一分频带音调值，其中第一步骤提供区间音调值集合，并且其中第二步骤对区间音调值集合（中的至少一些）进行组合W得到第一分频带音调值。由于该样的两步法，可W基于同一区间音调值集合来确定（针对不同子带结构的）不同的分频带音调值，从而降低利用不同的分频带音调值的音频编码器的计算复杂度。
[0013] 在一种实施方式中，该方法还包括通过对位于第二频率子带内的频率区间集合中的两个或更多个相应的邻近频率区间的区间音调值集合中的两个或更多个区间音调值的第二子集进行组合来确定第二频率子带中的第二分频带音调值。第一频率子带和第二频率子带可w包括至少一个共同的频率区间，并且第一子集和第二子集可w包括相应的至少一个共同的区间音调值。换句话说，可W基于至少一个共同的区间音调值来确定第一分频带音调值和第二分频带音调值，从而使得能够降低与分频带音调值的确定有关的计算复杂度。例如，第一频率子带和第二频率子带可W位于音频信号的高频带内。第一频率子带可W 比第二频率子带窄，并且可W位于第二频率子带内。第一音调值可W用在基于SPX的编码器的大方差衰减的背景下，第二音调值可W用在基于SPX的编码器的噪声混合的背景下。
[0014] 如上面所指出的，在利用高频重建化FR)技术的音频编码器的背景下，通常使用本文所描述的方法。该种HFR技术通常将音频信号的低频带中的一个或更多个频率区间转换成高频带中的一个或更多个频率区间，W近似音频信号的高频分量。因此，基于音频信号的低频分量近似音频信号的高频分量可W包括；将与低频分量对应的低频带中的一个或更多个频率区间的一个或更多个低频变换系数复制到与音频信号的高频分量对应的高频带。当确定分频带音调值时，可W考虑该预定复制处理。具体地，可W考虑区间音调值通常不受复制过程影响，从而使得针对低频带内的频率区间确定的区间音调值能够用于高频带内的相应副本的频率区间。
[0015] 在一种实施方式中，第一频率子带位于低频带内，第二频率子带位于高频带内。该方法还可W包括通过组合被复制到第二频率子带的频率区间中的两个或更多个相应频率区间的区间音调值集合中的两个或更多个区间音调值的第二子集，来确定第二频率子带中的第二分频带音调值。换句话说，可W基于被复制到高频带的频率区间的区间音调值来确定第二分频带音调值（针对位于高频带内的第二频率子带）。第二频率子带可W包括从位于第一频带内的频率区间复制的至少一个频率区间。因此，第一子集和第二子集可W包括相应的至少一个共同的区间音调值，从而降低与确定分频带音调值有关的计算复杂度。
[0016] 如上面所指出的，音频信号通常被分组成块序列（例如，每个块包括N个样本）。该方法可W包括基于音频信号的相应的块序列来确定变换系数集合序列。因此，对于每个频率区间，可W确定变换系数序列。换句话说，对于特定频率区间，变换系数集合序列可W 包括特定变换系数的序列。特定变换系数的序列可W用于确定音频信号的块序列的特定频率区间的区间音调值的序列。
[0017] 确定特定频率区间的区间音调值可W包括；基于特定变换系数序列确定相位序列，W及基于相位序列确定相位加速度。特定频率区间的区间音调值通常是相位加速度的函数。例如，可W基于当前相位加速度确定音频信号的当前块的区间音调值。可W基于当前相位（基于当前块的变换系数确定）W及基于两个或更多个先前相位（基于两个或更多个先前块的两个或更多个变换系数确定）来确定当前相位加速度。如上面所指出的，特定频率区间的区间音调值通常基于同一特定频率区间的变换系数确定。换句话说，频率区间的区间音调值通常与其他频率区间的区间音调值无关。
[0018] 如上面已经概述的，第一分频带音调值可W用于使用谱扩展（SP幻方案基于音频信号的低频分量来近似音频信号的高频分量。第一分频带音调值可W用于确定SPX坐标重发策略、噪声混合因子和/或大方差衰减。
[0019] 根据另一方面，描述了用于确定噪声混合因子的方法。应当注意的是，本文档中所描述的不同方面和方法可任意方式相互组合。噪声混合因子可W用于基于音频信号的低频分量来近似音频信号的高频分量。如上面所概述的，高频分量通常

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗宾·特辛;米夏埃尔·舒格;
技术所有人：杜比国际公司;
我是此专利的发明人

上一篇：变换音频内容以获得主观保真度的制作方法
上一篇：一种设备和方法,用于处理音频信号的制作方法