用于使用交叠范围中的组合来处理音频信号的装置及方法_3

文档序号：9794131阅读：来源：国知局

49作为该块的第一样本，而是将样本1025作为该块中的第一样本，以便获得第一时间部分。因此，获得第一交叠范围170，所述第一交叠范围是50 %交叠的1024个样本长。附加地，针对第二和第三时间部分应用这种过程，但该过程始终具有交叠以便获得特定交叠范围170。
[0117] 应强调，交叠未必必须为50%交叠，交叠还可以是更高和更低程度，且甚至可以存在多交叠（即，多余两个窗口的交叠），使得时域音频信号的样本并非仅有助于两个窗口和相应的频谱值块，且样本还有助于超过两个的窗口 /频谱值块。另一方面，本领域技术人员还应理解，存在可以由图2a的开窗口器201应用的其他窗口形状，所述其他窗口形状具有0 个部分及/或具有单一值的部分。对于这种具有单一值的部分，似乎这种部分通常与在先窗口或后续窗口的〇个部分相交叠，因此位于具有单一值的窗口的恒定部分中的特定音频样本仅有助于单个频谱值块。
[0118] 然后，将由图Id获得的窗口型时间部分传送至用于执行迭入操作的折迭器202。这种迭入操作可以例如执行迭入，使得在折迭器202的输出处，仅存在每块具有N个样本的采样值的块。然后，在折迭器202执行的折迭操作之后，应用时间-频率转换器，所述时间-频率转换器例如是将输入处的每块N个样本转换为在时间-频率转换器203的输出处的N个频谱值的DCT-IV转换器。
[0119] 因此，图lc示出了在块203的输出处获得的一系列频谱值块，具体示出了与在图la 和lb的102处所不的第一修改值相关联的第一块191和与例如在图la和lb的106所不的第二修改值相关联的第二块192。自然地，如图所示，该序列在第二块之前或甚至在第一块之前具有更多块193或194。第一和第二块191、192是例如通过变换图Id的窗口型第一时间部分以获得第一块而获得的，且第二块是通过经由图2a的时间-频率转换器203变换图Id的窗口型第二时间部分而获得的。因此，一系列频谱值块中彼此相邻的两个频谱值块代表被第一时间部分和第二时间部分覆盖的交叠范围。
[0120]随后，讨论图2b以便示出对图2a的编码器或分析侧处理的结果进行的合成侧或解码器侧处理。将由图2a的频率转换器203输出的一系列频谱值块输入到修改器211。如已概述，对于图lc至2b所示的示例，每个频谱值块具有N个频谱值。每个块与其修改值相关联，诸如，图la和lb所示的102、104。然后，在典型IMDCT操作或典型冗余减少合成变换中，执行由频率-时间转换器212、用于迭出的折迭器213、用于应用合成窗口的开窗口器214所示的操作以及由块215所示的交叠/加法器操作，以便获得在交叠范围中的时域信号。在该示例中，上述信号每块具有2N个值，使得在每个交叠和加法运算之后，如果修改值102、104不可随时间或频率变化，则获得N个新的不含混迭的时域样本。然而，如果这些值可随时间及频率变化，则块215的输出信号并非是不含混迭的，但是可以通过在图lb和la的背景下讨论的及在本说明中其它附图的背景下讨论的本发明的第一与第二方面来解决该问题。
[0121 ]随后，给出由图2a和2b的块执行的过程的另一说明。
[0122]尽管参考MDCT来例示所述说明，但是可以以类似及相似方式来处理其他引入混迭的变换。作为交迭变换，MDCT相比于其他傅里叶相关变换的不同之处在于:它的输出是输入的一半(而非相同数目）。具体地，MDCT为线性函数F:R 2N-RN(其中R表示实数集）。根据下式将2N个实数x0、……、x2N-l变换成N个实数X0、……、XN_1:
[0124] (这种变换前面的归一化系数(文中，具备统一性)是任意约定的并且在处理之间是不同的。下文仅约束MDCT和IMDCT的归一化的乘积。）
[0125] 逆MDCT被称为IMDCT。因为存在不同数目的输入和输出，所以乍看之下可能认为 MDCT不应是可逆的。然而，通过将时间相邻的交叠块的交叠頂DCT相加，来实现完美可逆性，从而消除误差且获取原始数据;这种技术被称为时域混迭消除(TDAC)。
[0126] 頂DCT根据下式将N个实数X0、……、XN_1变换成2N个实数y0、……、y2N_l:
[0128] (与DCT-IV、正交变换相似，逆变换与前向变换具有相同形式。）在具有一般窗口归一化的窗口型MDCT的状况下（参见下文），应将IMDCT前面的归一化系数乘以2(即，变成2/ N)〇
[0129] 在典型信号压缩应用中，通过使用与上述MDCT和頂DCT公式中的xn和yn相乘的窗口函数wn(n = 0,. . .，2N-1)来进一步改善变换特性，以便通过使该函数在n = 0及2N的点处平滑地归零，来避免在这些点的边界处的不连续性。（也就是说，可以在MDCT之前和頂DCT之后对数据进行开窗口。）原则上，X和y可以具有不同窗口函数，且所述窗口函数还可以从一个块改变至下一块(尤其是在组合不同大小的数据块的情况下），但是为了简单起见，考虑针对大小相等的块使用相同窗口函数的常见状况。
[0130] 对于对称窗口 wn=w2N-l_n，只要w满足以下Princen-Bradley条件，贝lj所述变换保持可逆的（也就是说，TDAC起作用）：
[0131]
[0132] 使用各种窗口函数。下式给出产生被称作调制型交迭变换的形式的窗口：
[0134] 该窗口被用于MP3及MPEG-2AAC，且
[0136] 针对VorbisjC-3使用凯赛-贝塞尔导出（KBD)窗口，且MPEG-4AAC也可以使用KBD 窗口。
[0137] 应注意，应用于MDCT的窗口与针对一些其他类型的信号分析使用的窗口不同，这是由于所述窗口必须满足Princen-Bradley条件。这种区别的原因之一是将MDCT窗口应用了两次，用于MDCT(分析)及頂DCT(合成)两者。
[0138] 通过检查定义可以看出，对于偶数N，MDCT基本上等效于DCT-IV，其中将输入移位 N/2并且一次变换两个N个数据块。通过更仔细地检查这种等效，可以容易地导出诸如TDAC 的重要特性。
[0139] 为了定义与DCT-IV的精确关系，必须认识到DCT-IV与交替的偶数/奇数边界条件相对应:偶数在其左边界处（约n = -l/2)，奇数在其右边界处(约n = N-l/2)等等(而不是针对DFT的周期性边界）。这种情况遵循标识。因此，如果其输入是：
[0142] 因此，如果其输入是长度为N的阵列X，则可以想到将该阵列扩展为（x、-XR、-x、 xR......)等，其中xR表示逆序下的χ。
[0143] 考虑具有2N个输入和N个输出的MDCT，其中将所述输入划分为四个块(a，b，c，d)，每个块具有N/2的大小。如果将这些数据向右移位N/2(在MDCT定义下，从+N/2项起），则(b， c，d)扩展经过N个DCT-IV输入的端部，因此必须根据上文所述的边界条件来将所述输入"折叠"回去。
[0144] 因此，2N个输入(a，b，c，d)的MDCT恰好等效于N个输入的DCT-IV: (-cR-d，a-bR)，其中R表示如上所述的反转(reversal)。
[0145] 针对图2a的窗口函数202例示出这种情况，a是部分204b、b是部分205a、c是部分 205b且d是部分206a。
[0146] (这样，可以将计算DCT-IV的任何算法一般地(trivially)应用于MDCT。）
[0147] 类似地，上述頂DCT公式恰好是DCT-IV的1/2(该公式是其自身的逆公式），其中输出被扩展至(经由边界条件)长度为2N且往回向左移位N/2。根据上述过程，逆DCT-IV将仅回送所述输入(-cR-d，a-bR)。当经由边界条件对所述输入进行扩展和移位时，将得到：
[0148] 頂 DCT (MDCT (a，b，c，d)) = ( a-bR，b-aR，c+dR，d+cR) /2 ·
[0149] 因此，一半的MDCT输出是冗余的，这是由于b-aR = -(a_bR)R，且对于最后两项同样也是如此。如果将输入分组成大小为N的较大块A、B，其中A=(a，b)且B=(c，d)，则可以以更简单的方式写出该结果：
[0150] 頂DCT(MDCT(A，B)) = (A-AR，B+BR)/2
[0151] 现在可以理解TDAC是如何工作的。假设计算时间相邻、50 %交叠的2N个块(B，C)的 MDCT。那么，将得到与上文相似的頂0(^:(8-81?，0+0〇/2。当将该结果与在一半交叠中的先前頂DCT结果相加时，相反项消除且仅获得B，从而恢复原始数据。
[0152] 现在清楚术语"时域混迭消除"的由来。使用扩展超出逻辑DCT-IV的边界的输入数据导致所述数据将以超出奈奎斯特频率的频率与较低频率进行混迭的相同方式进行混迭，不同之处在于这种混迭出现在时域中而不是频域中：无法区分a和bR对(a，b，c，d)的MDCT、或等效地，对頂DCT的结果(1?(^( &，13，(3，(1)) = (&吒1?，13-&1?<+(11?，(1+^〇/2的贡献。当将组合 c-dR等相加时，所述组合等恰好具有正确的符号以供进行组合的抵消。
[0153] 对于奇数N(实际上很少使用），N/2并非整数，所以MDCT并非是仅对DCT-IV的移位置换(shift permutation)。在这种情况下，附加移位半个样本意味着MDCT/IMDCT变得等同于DCT-III/II，且分析与上文相似。
[0154] 从上文已经看出：2N个输入(a，b，c，d)的MDCT等效于N个输入(-cR-d，a-bR)的DCT-IV ACT-IV是针对如下情况设计的：右边界处的函数是奇数的，因此靠近右边界的值接近于〇。如果输入信号是平滑的，则情况如下:a和bR的最右侧分量在输入序列（a，b，c，d)中是连续的，因此它们的差较小。观察所述区间的中部:如果将以上表述重写为(-成_(1， &41〇 =(-(1，&)-(13，(3)1?，则第二项(13，(3)1?在中部给出平滑转变。然而，在第一项(-(1， &)中，在-(1的右端与a的左端相遇的情况下，存在潜在不连续性。这是使用减少靠近朝向0的输入序列(a，b，c， d)的边界的分量的窗口函数的原因。
[0155] 上文中，已证明TDAC特性能用于普通MDCT，示出了将时间相邻块(所述时间相邻块交叠一半）的頂DCT相加能恢复原始数据。窗口型MDCT的这种反转特性的推导仅略微复杂。
[0156] 针对大小为N的块A、B、C考虑2N个输入(A，B)和(B，C)的交叠连续集合。回顾上文，当将(A，B)和(B，C)输入至MDCT、頂DCT中且在它们交叠一半的情况下相加时，获得原始数据 (B+Br)/2+(B-Br)/2 = B〇
[0157] 现在假设将MDCT输入和頂DCT输出两者都乘以长度为2N的窗口函数。如上所述，假定对称窗口函数，该函数因此具有(W，W R)的形式，其中W为长度N的向量且R如前所述地表示反转。然后，可将Princen-Bradley条件写为r 2 +ri =: (U...)，其中从元素方面执行平方及加法。
[0158] 因此，替代对(A，B)执行MDCT，现在对(WA，WrB )进行MDCT，其中从元素方面执行所有乘法。当将该结果输入至MDCT中并再次乘以(从元素方面)窗口函数时，后一半N变成：
[0159] WR · (WrB+(WrB)r)=Wr · (WrB+WBr)=Wr2B+WWrBr
[0160] (应注意，上式不再具有与1/2的乘法，这是因为MDCT归一化与窗口型的情况下相差2倍。）
[0161] 类似地，对(B，C)进行窗口型MDCT和BTOCT，在其前一半N中得到：
[0162] W · (WB-WrBr) = W2B-WWrBr
[0163] 当将这两个半部分相加在一起时，恢复原始数据。当两个交叠窗口对半地满足 Princen-Bradley条件时，在窗口切换的背景下，重构仍是有可能的。在这种情况下，混迭减少可以恰好以与上文所述方式相同的方式进行。对于具有多个交叠的变换，使用所有涉及的增益值，将需要超过两个的分支。
[0164] 随后，通过参考图5a和5b来详细讨论第一方面。具体地，图la所示的处理器100可以包括由附图标记1

完整全部详细技术资料下载

当前第3页1 2 3 4 5