用于编码和解码激励模式的方法和装置的制作方法

文档序号：2825074阅读：200来源：国知局

专利名称：用于编码和解码激励模式的方法和装置的制作方法
技术领域：
本发明涉及一种用于编码和解码激励模式的方法和装置，根据该激励模式确定音频信号变换编解码的掩蔽等级。
背景技术：
对于音频变换编码器中的谱数据的量化，需要心理声学的信息，S卩，真正的掩蔽阈值的近似值(approximation)。在对应的音频变换解码器中，相同的近似值用于重构量化后的数据。在编码器侧，使用窗口函数对源信号的重叠部分进行窗口化。在解码器侧，为解码信号窗口执行重叠+添加。为了限制要传送的辅助信息数据量，正在使用像mp3和AAC的已知的变换编解码器作为关键频带的掩蔽信息缩放因子(也被表示为“缩放因子频带”)，这意味着在量化处理之前对于一组相邻频率窗口(frequency bin)或者系数使用相同的缩放因子。 Cf. K. Brandenburg, Μ. Bosi 的"ISO/IEC MPEG_2Advanced Audio Coding :0verview and Applications”，第 103 届 AES 大会(103rd AES Convention)，1997 年 9 月 26-29 日，纽约，预印版本No. 4641。然而，缩放因子仅仅代表掩蔽阈值的粗略的(步进的)近似值。掩蔽阈值的这种表示的精度是非常有限的，这是因为(些许)不同的幅值频率窗口的各组将得到相同的缩放因子，并且因此所应用的掩蔽阈值对于显著数目的频率窗口不是最优的。为了改进编码/解码质量，可以如以下所示来计算掩蔽等级S. van de Par，A. Kohlrausch，G. Charestan，R. Heusdens 的“A newpsychoacoustical masking mode 1 for audio coding applications”， ProceedingsICAS SP^ 02， IEEE International Conference on Acoustics， Speech and SignalProcessing, 2002，Orlando, vol. 2，pp. 1805-1808 ；S. van de Par，A. Kohlrausch，R. Heusdens，J. Jensen，S. H. Jen-sen 的 "APerceptual Model for Sinusoidal Audio Coding Based on Spectral Integration”， EURASIP Journal on Applied Signal Processing，vol. 2005 :9，pp. 1292-1304，其中，从要编码的音频信号的功率谱中导出的“激励模式”中导出掩蔽阈值。在2005年5月28-31日巴塞罗那的第118届AES大会0. Niemeyer, B. Edler的 "Efficient Coding of Excitation Patterns Combined with a TransformAudio Coder" 的第6466页中描述了应用这种用于掩蔽目的的激励模式的音频编解码器。对于要编码的每个谱的音频数据块，计算激励模式，其中该激励模式代表人耳的(真正的)依赖于频率的心理声学属性。为了避免与基于缩放因子的掩蔽相比较而显著增加作为结果的数据率，在每个情形下组合了 16个连续的激励模式以便高效地编码这些激励模式。如在2004年11 月白勺 IEEE Transactions on Circuits and Systems for VideoTechnology, vol. 14, no.11， pp.1219-1235 的 W.A. Pearlman, A. Islam, N.Nagaraj, A.Said ^"Efficient,Low-Complexity Image Coding With a Set-PartitioningEmbedded Block Coder"中所描述的对于图像编码应用将激励模式矩阵值进行SPECK (Set Partitioning Embedded bloCK，集合分裂嵌入块)编码。在利用激励模式值建立频率和时间上的2维矩阵和对数尺度矩阵值的2维DCT变换之后执行实际的激励模式编码。对作为结果的变换系数从最高有效的那个开始在比特平面上进行量化和熵编码，由此将SPECK编码的位置和系数的符号传递到音频解码器作为比特流辅助信息。在编码器和解码器侧，为计算要在音频信号编码和解码中应用的掩蔽阈值，对应地解码编码的激励模式，使得计算后的掩蔽阈值在编码器和解码器二者中相同。音频信号量化由作为结果的改进的掩蔽阈值来控制。不同的窗口 /变换长度用于音频信号编码，而固定长度用于激励模式。这种激励模式音频编码处理的缺点是在编码器中为多个块一起编码激励模式造成的处理延迟，但是其可以实现用于编码谱数据的掩蔽阈值的更精确的表示并且由此增加编码/解码质量，同时多个块的组合的激励模式编码仅仅造成辅助信息数据的少量增加。

发明内容
在上述的Niemeyer/Edler处理中，从激励模式导出的掩蔽阈值与在音频信号编码中选择的窗口和变换长度无关。替代地，从音频信号的定长部分中导出激励模式。然而，短的窗口和变换长度代表更高的时间分辨率并且针对最优的编码/解码质量，有关掩蔽阈值的等级应当相应地适配。本发明要解决的问题是通过改进掩蔽阈值计算来进一步提高音频信号编码/解码的质量，而不造成辅助信息数据率的增加。通过在权利要求1和5中公开的方法来解决该问题。在权利要求2和6中公开了利用这些方法的装置。根据本发明，对于在音频信号的编码中要量化的每个谱，计算并编码激励模式，即，对于每个较短的窗口 /变换，计算其自身的激励模式并且由此该激励模式的时间分辨率是可变的。在对应的矩阵或者块中将用于长窗口/变换和用于较短的窗口/变换的激励模式编组在一起。激励模式数据量对于长窗口 /变换长度与较短的窗口 /变换长度(即，对于非瞬态源信号部分和对于瞬态源信号部分)二者是相同的。因此，在每个帧中激励模式矩阵可以具有不同数目的行。关于激励模式编码，在可选的对矩阵值进行的对数计算之后，向二维变换的激励模式数据矩阵值应用预定的扫描或者排序顺序，并且通过重新排序，可以形成方形矩阵，对于该方形矩阵，向其矩阵比特平面直接应用SPECK编码。仅仅编码扫描路径的固定数目的值。原则上，本发明的编码方法适合编码激励模式，在对应的激励模式解码之后，根据该激励模式确定用于音频信号编码的掩蔽等级，其中对于所述音频信号编码，使用不同的窗口和谱变换长度连续地处理所述音频信号，并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧，并且其中所述激励模式与所述音频信号的连续部分的谱表示相关，所述方法包括以下步骤a)对于所述音频信号的当前帧，在针对对应的一组连续激励模式的情形下形成激励模式矩阵P，其中对于所述不同谱变换长度中的每一个谱变换长度，在所述矩阵P中包括对应的激励模式，并且对每个矩阵P的条目取对数，
并且其中，在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下，通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸；b)对取了对数的矩阵P值应用二维变换，产生矩阵Pt ；c)向所述矩阵Pt中的系数应用预定的排序顺序，所述预定的排序顺序依赖于矩阵尺寸，该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示，并且，从第一个值开始仅仅取得对应的排序路径的固定数目的值，利用这些值形成矩阵 Pt的方形版本Ρτ、d)执行对矩阵P”的SPECK编码，其中处理矩阵P”的SPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。原则上，本发明的编码装置是一种音频信号编码器，其中激励模式被编码，在对应的激励模式解码之后，根据该激励模式，确定用于编码所述音频信号的掩蔽等级，其中为编码所述音频信号，使用不同的窗口和谱变换长度连续地处理音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧，并且其中所述激励模式与所述音频信号的连续部分的谱表示相关，所述装置包括-适配为对于所述音频信号的当前帧、在每个针对对应的一组连续激励模式的情形下形成激励模式矩阵P并且对每个矩阵P的条目取对数的部件，其中对于所述不同谱变换长度中的每一个谱变换长度，在所述矩阵P中包括对应的激励模式，并且其中，在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下，通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸，并且其中对取了对数的矩阵P的值应用二维变换，产生矩阵Ρτ，以及其中向所述矩阵Pt中的系数应用预定的排序顺序，所述预定的排序顺序依赖于矩阵尺寸，该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示，以及其中从第一个值开始仅仅取得对应的排序路径的固定数目的值，利用这些值形成矩阵Pt的方形版本P” ；-适配为对矩阵Ρτ<1执行SPECK编码的部件，其中处理矩阵P”的SPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。原则上，本发明的解码方法适合于解码根据上述编码方法编码的激励模式，根据该激励模式确定用于对编码的音频信号进行解码的掩蔽等级，其中对于所述音频信号解码，使用不同的窗口和谱的逆变换长度连续地处理所述音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧，并且其中所述激励模式与所述音频信号的连续部分的谱表示相关，所述方法包括以下步骤a)对从比特流接收的对应数据执行所述方形矩阵P”的对应的SPECK解码；b)向重构的矩阵严数据附加零以便重新获得如在编码中使用的排序路径中的原始数目的数据，并且根据用于当前矩阵的排序索引通过应用如在编码中使用的逆排序顺序将这些数据转换回重构的矩阵Pt，其中该排序索引还用于建立合适的矩阵尺寸；c)在矩阵Pt上应用对应的逆二维变换和反对数以便重新获得重构的激励模式矩阵P。原则上，本发明的解码装置是一种音频信号解码器，其中对根据上述编码方法编码的激励模式进行解码并且将其用于确定对编码的音频信号进行解码的掩蔽等级，其中对
7于所述音频信号的解码，使用不同的窗口和谱的逆变换长度连续地处理所述音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧，并且其中所述激励模式与所述音频信号的连续部分的谱表示相关，所述装置包括-适配于进行以下处理的部件用于对从比特流接收的对应数据执行所述方形矩阵ph的对应的SPECK解码，和用于向重构的矩阵数据附加零以便重新获得如在编码中使用的排序路径中的原始数目的数据，并且用于根据当前矩阵的排序索引通过应用如在编码中使用的逆排序顺序将这些数据转换回重构的矩阵Pt，其中该排序索引还用于建立合适的矩阵尺寸；并且用于在矩阵Pt上应用对应的逆二维变换和反对数以便重新获得重构的激励模式矩阵P ；-适配为根据矩阵P的激励模式计算所述掩蔽阈值的部件；-适配为使用所述掩蔽阈值对所述编码的音频信号进行解码和重新量化，并且对作为结果的信号进行逆变换并且在其上应用重叠+添加处理的部件。在相应的从属权利要求中公开了本发明的有利的附加实施例。

参照附图来描述本发明的示例实施例，在附图中图1示出本发明的编码器的框图；图2示出本发明的解码器的框图；图3示出激励模式编码的流程图；图4示出激励模式解码的流程图。
具体实施例方式在图1的本发明的音频变换编码器的框图中，音频输入信号10通过超前 (look-ahead)延迟121传递到瞬态检测器级或阶11，瞬态检测器级或阶11选择在频率变换级或阶12中在输入信号10上要应用的当前窗口类型WT。在级/阶12中，使用具有与当前窗口类型对应的块长度的调制交叠变换(MLT)，例如，MDCT(修改的离散余弦变换)。将 K个输入信号样本的连续部分输入到级/阶12，其中K具有例如“ 128”或者“ IOM”的值。由于50%窗口重叠，变换长度是N = 2*K。在对应的级/阶15中对变换的音频信号进行量化和熵编码。如同在级/阶14中的激励模式块处理，不是必须在级/阶15中按块对变换系数进行处理。在输出编码的比特流17的比特流多路复用级/阶16中对编码的频率窗口 CFB、窗口类型码WT、激励数据矩阵码ΕΡΜ，以及可能的其他辅助信息数据进行多路复用。如上述的，在部分14中计算激励模式需要功率谱。为了得到功率谱，在级/阶12 中还使用MDST (修改的离散正弦变换)来变换当前窗口化的信号块。MLT和MDST类型的两种频率表示被馈入存储直至L个块的缓冲器13中，其中L是例如“8”或“16”。当前窗口类型码还经由与一个块变换时段对应的延迟111被馈入缓冲器13。每个变换的输出包含用于一个信号块的K个频率窗口。如果在级/阶11中检测到瞬态，则通过整数个Ls个短窗口 (即，块)而不是长度N = 2Κ的单个长窗口来对时域输入信号进行窗口化，其中Ls是例如“3”或者“8”，并且其中用于一个长信号块的所有短窗口的频率窗口的总数是K。L个数目的信号块形成被表示为“帧”的一数据组。在级/阶141中向帧的激励模式应用激励模式编码。对于随后要量化的每个谱，计算一个激励模式。该特征不同于上述的Brandenburg and the Niemeyer/Edler的公开中描述的音频编码和其中使用激励模式的固定时间分辨率的以下标准(国际标准IS0/IEC 11172-3 "Information technology-Coding of moving pictures andassociated audio for digital storage media at up to about 1,5Mbit/s-Part 3 :Audio", _ U t示IS0/IEC 13818-3"Information technology-Generic coding ofmoving pictures and associated audio information-Part 3 :Audio")巾才百jS白勺·IE。激励模式数据量对于长变换长度和短变换长度二者是相同的。结果，对于包含短窗口的信号块比对于包含长窗口的信号块必须要编码更多的激励模式数据。优选地在具有非方形形状的矩阵P中排列要编码的激励模式。该矩阵的每一行包含与要量化的一个谱对应的一个激励模式。由此，行和列的索引分别对应于时间轴和频率轴。矩阵P中的行数至少是L，但是与Niemeyer/Edler公开中描述的处理相反，矩阵P可以在每个帧中具有不同行数，这是因为该数目将依赖于相应帧中短窗口的数目。作为替换，可以交换矩阵P的行和列。为了应用2维变换(例如，通过使用两个级联的1维DCT)，可以复制矩阵的最后一行(或者甚至更多行)以便得到该变换可以处理的行数(例如，偶数)。表1示出了可能导致11行的、具有使用短窗口的一个块的帧的示例。因为2维变换可以处理作为“4”的倍数的输入尺寸，所以复制最后一行
块索引窗口类型模式索引1长12开始23短33短43短53短64停止75长86长97长10
权利要求
1.一种编码(141)激励模式的方法，在对应的激励模式解码(14 之后，根据该激励模式确定(143)用于音频信号(10)编码(11，12，15)的掩蔽等级，其中对于所述音频信号编码，使用不同的窗口和谱变换长度连续地处理(12,1 所述音频信号，并且代表给定的多个(L个)最长的变换长度的音频信号的部分被表示为帧，并且其中所述激励模式与所述音频信号的连续部分的谱表示(1 相关，所述方法包括以下步骤a)对于所述音频信号(10)的当前帧，在每个针对对应的一组连续激励模式的情形中形成(12，13，31)激励模式矩阵P，其中对于所述不同的谱变换长度中的每一个谱变换长度，在所述矩阵P中包括对应的激励模式，并且对每个矩阵P的条目取对数(3 ，并且其中，在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下，通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸；b)对取了对数的矩阵P的值应用(33)二维变换，产生矩阵Pt ；c)向所述矩阵Pt中的系数应用(3 预定的排序顺序，所述预定的排序顺序依赖于矩阵尺寸，该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示，以及，从第一个值开始仅仅取得对应的排序路径的固定数目的值，利用这些值形成 (35)矩阵Pt的方形版本Ρτ、d)对矩阵执行(36)SPECK编码，其中处理矩阵I^WSPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。
2.一种解码( 根据权利要求1的方法编码的激励模式的方法，根据该激励模式确定(M3)用于对编码的音频信号(XT)进行解码(25，23)的掩蔽等级，其中对于所述音频信号解码，使用不同的窗口和谱的逆变换长度连续地处理所述音频信号并且代表给定的多个 (L个)最长的变换长度的音频信号的部分被表示为帧，并且其中所述激励模式与所述音频信号的连续部分的谱表示(1 相关，所述方法包括以下步骤a)对从比特流接收06)的对应数据(EPM)执行所述方形矩阵的对应的SPECK 解码；b)向重构的矩阵数据附加G2)零以便重新获得如在编码中使用的排序路径中的原始数目的数据，并且根据用于当前矩阵的排序索引通过应用如在编码中使用的逆排序顺序将这些数据转换G3)回重构的矩阵Pt，其中该排序索引还用于建立合适的矩阵尺寸；c)在矩阵Pt上应用(45，46)对应的逆二维变换和反对数以便重新获得重构的激励模式矩阵P。
3.根据权利要求1的方法，其中在步骤b)和c)之间，通过移除代表在统计上具有最低幅度的频率的至少一个矩阵边界列或行来减少矩阵Pt的尺寸。
4.根据权利要求1或3的方法，其中在编码的音频信号比特流中包括用于发信号通知当前窗口和谱变换长度的窗口类型码(WT)以及可选地发信号通知当前矩阵尺寸的排序索引。
5.根据权利要求2的方法，其中在步骤b)和c)之间，利用零来填充G4)代表在统计上具有最低幅度的频率的矩阵边界列或行的缺少的值以便重新获得所述重构的矩阵Ρτ。
6.根据权利要求2或5的方法，其中根据每帧的短窗口的数目来自动地确定矩阵尺寸以及排序索引。
7.根据权利要求1至6中任一项的方法，其中所述窗口和谱变换长度具有两种类型长的和短的，并且其中起始窗口在短窗口之前，停止窗口接在短窗口之后。
8.根据权利要求1至7中任一项的方法，其中代表矩阵P”的值的符号的比特在没有特定的编码的情况下被包括在编码的音频信号比特流中。
9.根据权利要求1以及3-8的任一项的方法，其中，在音频信号(10)是多声道音频信号的情形下，对于当前帧，在激励模式编码(141)中在所有声道中使用相同的矩阵尺寸，并且在以下多声道编码模式k中的至少一个中编码单独的矩阵；-每声道的交错的激励模式； -具有声道数据的组合的矩阵； -每个声道的一个单独的矩阵，并且其中在比特流中包括代表所述编码模式k的代码，并且在激励模式解码处理 (142，242)中对应地使用该代码。
10.一种编码(141)激励模式的音频信号编码器，在对应的激励模式解码(14 之后，根据该激励模式确定(14 所述音频信号(10)的编码(11，12，1幻的掩蔽等级，其中为编码所述音频信号，使用不同的窗口和谱变换长度连续地处理所述音频信号并且代表给定的多个(L个)最长的变换长度的音频信号的部分被表示为帧，并且其中所述激励模式与所述音频信号的连续部分的谱表示(1 相关，所述装置包括-适配为对于所述音频信号的当前帧、在每个针对对应的一组连续激励模式的情形中形成激励模式矩阵P并且对每个矩阵P的条目取对数的部件(12，13，141)，其中对于所述不同谱变换长度中的每一个谱变换长度，在所述矩阵P中包括对应的激励模式，并且其中，在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下，通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸，并且其中对取了对数的矩阵P的值应用二维变换，产生矩阵^，以及其中向所述矩阵^ 中的系数应用预定的排序顺序，所述预定的排序顺序依赖于矩阵尺寸，该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示，以及其中从第一个值开始仅仅取得对应的排序路径的固定数目的值，利用这些值形成矩阵Pt的方形版本P” ；-适配为对矩阵Ptq执行SPECK编码的部件，其中处理矩阵P”的SPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。
11.一种音频信号解码器，其中对根据权利要求1的方法编码的激励模式进行解码并且将其用于确定对编码的音频信号(XT)进行解码的掩蔽等级，其中对于所述音频信号的解码，使用不同的窗口和谱的逆变换长度连续地处理所述音频信号并且代表给定的多个(L 个)最长的变换长度的音频信号的部分被表示为帧，并且其中所述激励模式与所述音频信号的连续部分的谱表示相关，所述装置包括-适配于用于以下处理的部件042)用于对从比特流接收的对应数据(EPM)执行 (41)所述方形矩阵严的对应的SPECK解码，和用于向重构的矩阵严的数据附加02)零以便重新获得如在编码中使用的排序路径中的原始数目的数据，并且用于根据当前矩阵的排序索引通过应用如在编码中使用的逆排序顺序将这些数据转换G3)回重构的矩阵Pt，其中该排序索引还用于建立合适的矩阵尺寸；并且用于在矩阵Pt上应用(45，46)对应的逆二维变换和反对数以便重新获得重构的激励模式矩阵P;-适配为根据矩阵P的激励模式计算所述掩蔽阈值的部件043)； -适配为使用所述掩蔽阈值对所述编码的音频信号进行解码和重新量化，并且对作为结果的信号进行逆变换并且在其上应用重叠+添加处理的部件05，23)。
12.根据权利要求10的装置，其中在所述二维变换和所述应用所述预定的排序顺序之间，通过移除代表在统计上具有最低幅度的频率的至少一个矩阵边界列或行来减少矩阵Pt 的尺寸。
13.根据权利要求10或12的装置，其中在编码的音频信号比特流中包括用于发信号通知当前窗口和谱变换长度的窗口类型码(WT)以及可选地发信号通知当前矩阵尺寸的排序索引。
14.根据权利要求11的装置，其中在所述逆排序之后，利用零来填充G4)代表在统计上具有最低幅度的频率的矩阵边界列或行的缺少的值以便重新获得所述重构的矩阵Ρτ。
15.根据权利要求11或14的装置，其中根据每帧的短窗口的数目来自动地确定矩阵尺寸以及排序索引。
16.根据权利要求10至15中任一项的装置，其中所述窗口和谱变换长度具有两种类型长的和短的，并且其中起始窗口在短窗口之前，停止窗口接在短窗口之后。
17.根据权利要求10至16中任一项的装置，其中代表矩阵P”的值的符号比特在没有特定的编码的情况下被包括在编码的音频信号比特流中。
18.一种根据权利要求1、3、4以及7-9中的任一项的方法编码的数字音频信号。
19.一种包含或存储、或者已经在其上记录根据权利要求18的数字音频信号的存储介质。
全文摘要
用于编码和解码激励模式的方法和装置。对于音频变换编码器中的谱数据的量化，需要心理声学信息，即，真正的掩蔽阈值的近似值。根据本发明，对音频信号编码中要量化的每个谱，为长和短窗口/变换长度计算并编码激励模式。在可变尺寸的矩阵中将各激励模式编组在一起。仅仅向激励模式数据矩阵值应用具有固定数目的值的预定的排序顺序，并且通过重新排列顺序形成向矩阵的比特平面应用SPECK编码的方形矩阵。
文档编号G10L19/08GK102201238SQ201110071448
公开日2011年9月28日申请日期2011年3月24日优先权日2010年3月24日
发明者奥利弗.沃博尔特, 弗洛里安.基勒, 约翰尼斯.贝姆申请人:汤姆森特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：弗洛里安.基勒;奥利弗.沃博尔特;约翰尼斯.贝姆
技术所有人：汤姆森特许公司
我是此专利的发明人

上一篇：一种支持网络评分功能的电视卡拉ok系统及实现方法
上一篇：一种语音识别的端点检测方法