通过二维变换压缩音频比例因子的制作方法

文档序号：6768280阅读：185来源：国知局

专利名称：通过二维变换压缩音频比例因子的制作方法
技术领域：
本发明一般地涉及压缩或编码的数字音频信号领域，并且更具体地，涉及使用比例因子或浮点表示来表示音频信号的音频压缩。
背景技术：
已知编码和解码数字信号的若干方法，并且通常采用这些方法减少传输和存储的比特需要，或增加音频回放的感知质量(受到比特率约束)。例如，作为MPEG-2压缩和解压缩的若干变体，通常在商业中使用诸如DTS相干声学(见美国专利5974380)和Dolby AC3 的某些方法。在任意数字音频表示中，信号被周期地采样，然后以某种方法量化样本序列，以便表示音频信号。在许多编解码器中(编码器/解码器系统)，以按照时间序列组织的一系列量化样本表示信号(时域表示)。在其它编解码器中，样本可被若干数学方法中的任意一种进行数学变换，以便产生也被称为谱表示或变换表示的“频域”表示。这种编解码器通常被称为“变换编解码器”。不论编码表示使用时域样本、编码频谱值、或是数据的某些其它变换序列，经常发现采用样本的数值表示以便更有效地使用可用比特是有利的。通过使用比例因子表示数据是已知的。每个数据值以比例因子和数量参数表示，数量参数可被理解为与比例因子相乘以便恢复原始数据值。该方法有时被称为“比例表示”，有时被特定地称为比例块表示，或有时被称为“浮点”表示。应当理解，浮点表示是比例表示的特定情况，其中一个数字被以尾数(mantissa)和指数(exponent)的组合表示。尾数相应于数量参数；指数相应于比例因子。通常，比例因子位可按某种非线性方案表示，诸如指数或对数映射。因此，比例因子字段的每个量化步骤可以表示以10为底的对数方案的某个分贝数(例如)。虽然使用比例因子通常减少了传输的比特率需要，在“前向自适应”编解码器中，需要以某种方式传输比例因子。较低比特率的比例因子传输需要整个比特率的极大部分。因此，希望减少传输比例因子所需的比特数。针对该问题的最常见的现有方法是传输与某种较大的多个(块)样本相关联的单个比例因子。这种技术的一种变体被称为“块浮点”。这种方法达到了最佳量化和需要减少传输比例因子所需的比特之间的折衷。该技术的成功极大地依赖于信号的时间和频率行为，并且信号瞬变带来了挑战。

发明内容
本发明包括编码方法、解码方法和机器可读的存储介质。该编码方法提供了在音频压缩系统内压缩表示声音的数字音频信号的方法，其中样本被表示为比例因子和相关数量的乘积。该方法包括步骤接收表示声音的数字信号；将样本组织为至少一个音频帧，该帧包括表示一个时间间隔的多个时间连续的样本；对于每帧，将所述多个时间连续的样本处理为多个子带信号，每个子带信号表示相应的子带频率范围，并且包括所述子带频率范围内的音频样本的时间序列；将所述子带信号转换为一种格式，该格式将每个滤波音频样本表示为a)比例因子字段中表示的比例因子，和b)数量字段中表示的数量字段的乘积；在相应于每一帧的至少一个区块上，以二维组织所述子带信号的比例因子字段；以二维正交变换处理所述至少一个区块，以便为每个所述区块产生相应的比例因子系数矩阵；压缩每个所述比例因子系数矩阵，以便产生压缩系数矩阵；和将所述压缩系数矩阵打包成用于传输的数据格式。该解码方法包括步骤解包接收到的数据分组，以便分离编码的比例因子数据和编码的数量数据；解压缩编码的比例因子数据以便产生多个系数矩阵；以二维逆正交变换来对每个所述系数矩阵变换，以便获得多个相应的比例因子子矩阵；通过以相应于已知编码器中使用的区块模式的预定区块模式连接所述比例因子子矩阵，将所述比例因子子矩阵组合为较大的帧矩阵；和重新量化比例因子矩阵，以便获得解压缩的重新量化的比例因子矩阵。一种适用于存储编码的音频信息的机器可读存储介质，其中每个样本被表示为比例因子和相对应的数量的乘积。该介质具有编码的比例因子数据字段，其中以二维正交变换将至少一个比例因子矩阵编码成比例因子系数矩阵；和包括编码的数据数量的数量字段。

图1是具有以方框示出的功能模块的根据本发明的广义编码器的高层符号图；图2是根据本发明的广义解码器的符号图；图3是数据矩阵的图形表示，其相应于被分解为子带并且按照样本时间组织的比例因子矩阵，该矩阵具有在频率轴上按照频率分布的不同子带，以及在正交时间轴上按照样本时间组织的不同时间；图4是以一般程度示出了根据本发明的编码方法的步骤的高层过程或“流程”图；图5是示出了压缩比例因子系数矩阵(SCM)的特定方法的特定步骤的过程图，该特定方法可用于本发明的特定实施例以便在图4中压缩SCM ；图6是示出了图5的方法的继续部分的过程图，包括进一步压缩SCM和数量参数，以便通过通信通道传输的步骤；图7是适用于打包包括编码的比例因子和音频数量数据以便传输或记录的数据格式的例子；图8是示出了对以图1-7的方法编码的比例因子和音频数据解码的步骤的过程图；图9是示出了特定实施例的步骤的过程图，示出了可用于对以图1-7的方法编码的比例因子和音频数据解码的更多特定步骤；和图10是可以在图5所示编码方法的上下文中使用的新的缺口去除方法的过程图。
具体实施例方式在“子带编解码器”的上下文中描述本发明，即，在某种程度上按照频率和时间组织音频样本的编码/解码系统。更具体地，下面的描述示例说明了在使用数字滤波器组将宽带音频信号划分为多个子带信号的编解码器上下文中，对二维比例因子压缩的使用，抽减(decimate)所述子带信号，以便临界地产生采样子带信号。本发明不限于这种上下文。而是这些技术还与任意“变换编解码器”有关，出于这个目的，变换编解码器可被认为是子带编解码器的特殊情况(具体地，使用数学变换，以便将样本的时间序列组织为频域表示的编解码器)。因此，下面描述的技术可以适用于离散余弦变换编解码器、修改的离散余弦变换编解码器、傅立叶变换编解码器、小波变换编解码器或任意其它变换编解码器。在面向时域的编解码器的领域，该技术可被应用于使用数字滤波将信号划分为临界采样子带信号 (例如，美国专利5，974，380和别处描述的DTS 5. 1环绕声)的子带编解码器。应当理解，本发明的方法和装置具有编码和解码方面，并且在传输系统和一般功能方面具有编码器、传输通道和互补解码器。传输通道可以包含或包括数据存储介质，或可以是电的、光学的或任意其它传输通道(存储介质可被认为是其特定的例子)。该传输通道可以包括开放或封闭网络、广播或任意其它网络拓扑。此处将分别描述编码器和解码器，但是它们彼此互补。图1示出了根据本发明的编码系统的高层广义图。下面结合图5-6给出编码器的特定新颖实施例的更多细节。在输入102提供至少一个通道的数字音频信号。出于本发明的目的，假设数字音频信号表示确实的物理现象，特别地，表示声音，其已被转换为电信号，并且由模拟/数字转换被转换为数字格式，并且被适合地预先处理。典型地，如本领域已知的，应用模拟滤波、数字滤波和其它预处理，以便最小化混叠(aliasing)、饱和度或其它信号处理错误。可以用常规的线性方法诸如PCM编码表示音频信号。以多抽头多频带的分析滤波器组110对输入信号滤波，滤波器组110适合地为一组互补正交镜像滤波器。可替换地，可以使用伪正交镜像滤波器(PQMF)，诸如多相滤波器组。滤波器组110产生多个子带信号输出112。图中仅示出了几个这种输出，但是应当理解，通常采用大量这种子带输出，例如，32或64个。作为滤波功能的一部分，滤波器组110优选地还应当临界地抽减每个子带内的子带信号，特别地，将每个子带信号抽减为每秒仅仅足以完全表示每个子带内的信号(“临界采样”)的更少数目的样本。这种技术是本领域已知的，并且例如在Bosi，M和Goldberg，R. Ε.，Introduction to Digital Audio Codingand Standards, (Kluwer, date unknown),或 Vaidyanathan, MultirateSystems and Filter Banks, (Prentice Hall, 1993) c^-Mi寸ife。在110的滤波之后，多个子带信号112(包括每个子带内的顺序样本)被模块114 转换为比例表示(scaled r印resentation)。换言之，每个样本被转换为包括比例因子(在比例因子位中编码)和数量参数(存储在数据位中)的表示。比例因子通常可被非线性地量化为例如分贝，然后例如通过Huffman编码被进一步编码。应当理解，如果比例因子首先被解码为线性表示，那么样本值等于比例因子乘以数量参数。在一种常见方案中，样本可被转换为包括指数和尾数的临时浮点形式，指数和尾数中的每一个位于以前指定的比特字段中。可替换地，本领域的技术人员应当理解，如果分析滤波器组110采用浮点处理，则可以浮点格式提供输入信号102。模块114基于一种临时表示方案，例如考虑频率的知觉作用的方案，诸如一种主观掩蔽函数(subjective masking function)，分配比例因子和数据参数。可替换地，可以使用一种比特分配方案寻求优化服从比特率约束的某种准确性测量(诸如，最小平方误差“匪SE”)；或该方案可以寻求设置服从关于误差测量的预定约束的比特率。初始比例因子分配仅是预备性的(换言之，临时的)，并且以后可在该方法中被修改。对应基于非线性的映射，诸如分贝或其它对数比例，分配所述分配的比例因子。可以根据线性或非线性映射分配数据参数(尾数)。在比例因子/数量表示的转换之后，多个子带信号被编码模块116进一步编码。数据可被各种方法中任意一种编码，包括旨在通过熵排除减少比特需求的方法的前后 (tandem)组合。可以使用有损或无损方法，但是预期有损方法在该方法可以利用人类听觉的已知感知特性和限制方面最为有效。数据参数的编码对于本发明是附带的，本发明主要涉及比例因子数据的压缩(比例因子数据基于逐个样本和数据参数相关联)。接着，在处理模块120中，基于两个维度时间和频率内的顺序关联，每个子带中的临时比例因子被分组成帧，更特定地，以二维定义子带样本的“帧”。下面结合附图讨论布置成一系列矩阵的特定方法。虽然图1示出了相应于4个“区块”的4个信号路径，但是可以采用其它数目的区块，或在某些实施例中可以仅使用单个区块。接着，在比例因子压缩模块122中，临时比例因子被优选地分组成小于帧尺度的多个矩阵或“区块”，所述多个区块足以至少表示该帧。然后使用二维变换124，优选地，以二维离散余弦变换(DCT)修改(如下面结合更特定地描述的)并压缩比例因子。这种操作产生表示比例因子帧的修改后的比例因子矩阵。然后，对DCT变换后的比例因子矩阵(称为比例因子系数矩阵)进一步处理和编码(方框126)以便去除熵。下面讨论细节。已经发现在DCT变换之后，比例因子系数矩阵可被极大地压缩。然后存储压缩的比例因子矩阵以便传输(模块128)。为了准备用于传输的数据，编码器必须对压缩的比例因子矩阵解码(通过解码器 129)，以便重新构造重构的比例因子矩阵(其可能在某种程度上与初始的“临时”比例因子不同)。使用重构的比例因子矩阵，编码器重新量化初始子带样本(重新量化模块130)。最终，压缩的比例因子矩阵(或更准确地，可被解码以便重构这种矩阵的被极大压缩的编码) 与压缩的数据参数多路复用(通过多路复用器13 ，成为某种数据格式或“分组”，然后该数据格式或“分组”被传输。可替换地，本发明准备的数据格式可被存储在机器可读介质上。换言之，出于本申请的目的，数据存储和以后的检索可被认为是“传输”的特定情况。除了此处给出的操纵和压缩步骤之外，应当理解，可以并且通常存在其它编码 “层”。如果需要，传输介质可以进一步操纵压缩的音频分组，传输介质可能需要IP协议、地址位、奇偶校验位、CRC位或其它改变，以便适应数据传输系统的网络层和物理层。这些方面不是本申请的主题，但是是相关领域的技术人员所理解的。在数据传输系统的接收端，由接收器200接收数据分组，并且由解多路复用器202 对其解多路复用(换言之，数据字段被从其多路复用格式中解包)。通过逆转比例因子矩阵的编码处理，由比例因子解码器204对编码的比例因子解码，以便重新构造重构的比例因子矩阵。下面结合图8更详细地描述这些步骤。音频数量参数也被数量字段解码器206以与用于对这些数量参数编码的方法互补的方法解码。最终为每个样本相关联地组合重构的比例因子和数量参数(重构的比例数据)。最后，比例数据可通过相乘被解码或扩展(在方框208内)，以便产生表示每个音频样本的解码值的定点或整数音频数据。208的输出是表示音频信号的一系列连续的数据。(数字)输出210可被D/A转换器转换为音频信号，诸如电压或电流，该音频信号又可被用于驱动扬声器或耳机，从而重构接近复制的声音。应当理解，虽然仅描述了一个音频通道，但是可以在2通道立体声配置，或更大数目通道诸如在各种“环绕”音频配置之一中，使用本发明的技术对多个音频通道编码。可选择地，解码器可以利用通道间相关性，来改进多通道实施例的压缩。上面一般描述(并且下面特定描述)的编码器和解码器中的任意一个或两者可被体现为与足够的随机访问存储器通信的适当编程的微处理器，并且可被体现为与某些数据传输或存储系统通信的数据存储能力。例如，可以采用可从各种半导体制造商获得的通用微处理器，诸如ARMll处理器。可替换地，可以使用更专用的DSP处理器芯片，诸如可从 Analog Device(ADI)获得的DSP系列，这极其便于多频带HR数字滤波器(对于子带滤波器组)或变换操作(DCT或类似的变换)的编程。可以有利地使用多处理器体系结构。下面描述一种特定的新颖方法的更特定说明，重点强调压缩作为本发明的主要焦点的比例因子的方法。根据上面的一般描述，应当理解，数量参数⑴)，有时也被称为“尾数”字段，必须被与比例因子一对一关联地适当处理和压缩，必须总保持这样的关系，即，应当以比例因子/数量表示的比例因子SF和数量(Q)字段的乘积紧密近似音频数据。下面的详细描述更特定地集中在本发明的比例因子压缩。在采用对时域采样信号进行操作，以便临界地产生采样子带信号的多带、FIR子带滤波器的子带编解码器的上下文中给出该描述。该技术可适用于仅具有本领域技术人员明了的微小修改的变换编解码器。通过图3所示的二维数据结构或矩阵的可视化表示，极大地方便了本发明的进一步解释。网格240表示比例因子的NXM大小的矩阵，其中N是表示子带数目，并且M是考虑等于一帧音频数据的时间跨度上每个子带内的时间连续样本数目。精确的大小(N和M) 不是至关重要的仅仅为了容易解释给出特定值。仅仅作为例子，考虑一个音频“帧”，其包括等于IOM个以连续PCM表示的样本的NXM时间序列。通过经过子带滤波器组，这种序列可被分解为N个子带。在典型的编解码器中，N可被适合地选择为32。然后，每个子带通常在没有信息损失的情况下被抽减到1/32(临界采样)(见上面为其它描述引用的Bosi)。在该特定示例情况下，每个子带将产生(对于单个音频帧)IOM除以32等于32个连续样本。这种“帧”布置可被有利地以32X32样本矩阵表示。出于本申请的目的，仅需要考虑每个样本的比例因子分量。因此，以NXM比例因子矩阵表示比例因子“帧”。在更一般的情况下，不必所有子带具有相等的频率跨度；每个临界采样子带中的时间分辨率也不必相同，只要完全捕捉时间和频谱信息即可。因此，图3示出了具有46个(不等)子带的帧；大部分子带具有1 个时间连续样本。低频子带244被滤波并且抽减为每帧仅具有16个时间顺序样本(与每帧具有1 个样本的频带246相比，具有更窄的带宽)。可以容易地看出，图3以二维矩阵形式完整表示NXM音频比例因子的帧。在本发明的优选实施例中，矩阵240被划分成多个“区块” 250a、250b等。“区块”是更小尺寸的矩阵，它们可被二维(时间和频率)连接以便完整构成矩阵M0。更特别地，出于本发明目的的 “区块”是JXK大小的矩阵，其中J和K分别小于或等于N和M，其中每个JXK区块由保持矩阵MO的频率、时间顺序的一系列连续比例因子组成。换言之，通过划分矩阵从矩阵MO 获得区块；反之可通过以预定模式二维连接子矩阵(区块)构造矩阵M0。对于划分和子矩阵的讨论，见 The Penguin Dictionary of Mathematics, John Daintith andR. D. Nelson, Eds. (1989)。
虽然根据本发明压缩跨度为一个音频帧矩阵的单个区块，在本发明方法的特定新颖实施例中，较大的矩阵240优选地被分解为多个较小的区块。因此，在本发明的某些变体中，通过子矩阵划分分解音频帧矩阵M0。在图3所示的例子中，使用各种大小的区块。特别地，该例子中最下面的16个子带被以16X4区块(频率、时间)表示。频率增加的下两个子带被划分为3 X 16区块；更高频率子带被划分为8 X 16子矩阵。已经发现，指出的大小可用于表示具有中到高保真度音乐信号的通常范围的音频带宽的音频信号(高至20KHz带宽)。可以采用其它区块模式。图4是给出了根据本发明的编码器的更特定实施例的更多细节的方框图。在节点 302处接收一系列数字音频样本作为输入。有序的PCM音频样本序列是适合的。认为典型的数据速率在32KHz到48KHz采样速率的区域内(具有8Kb/s到320Kb/s的比特率)。更高速率也是可行的，但是以这些相对低的样本速率，本发明提供了最显著的益处，由于在低比特率时，比例因子包括总数据的非常多的部分。如下面结合图10描述的，本发明的某些特定的新颖变体包括步骤303，即可选择的“缺口去除(Notch Removal)”步骤。优选地包括这个步骤，以便平滑比例因子帧矩阵，并且为后续步骤中更有效的压缩做准备。下一方法步骤304是将比例因子分解为多个区块，所述区块是大小小于整个频率/时间音频帧的矩阵，并且所述区块完全并且足以通过有序连接重构整个二维音频帧。应当理解，可以使用许多不同区块划分模式。图3所示的例子仅是一个例子，并且不旨在限制本发明的范围。接着，在步骤306中，对于每个区块，本发明通过正交函数变换，并且最优选地，通过二维离散余弦变换(下面简称为“DCT”)处理比例因子。例如，Rao and Hwang在 Techniques and Standards forlmage，Video and Audio Coding, pg.66 (Prentice Hall， 1996)中给出的二维DCT中的任意一个可以被用在(完全不同于该参考文献给出的上下文中)。可以替代DCT的差值规格化而不脱离本发明。每个区块的结果是此处被称为比例因子系数矩阵(下面称为“SCM”)的JXK矩阵。注意，这个步骤与图像压缩中的DCT使用完全不同，即，变换作用于比例因子索引，这代表非线性量化方案。比例因子不类似于图像量诸如强度或色度，它们也不直接对应于采样振幅。应当注意，虽然本描述反复提及“DCT”作为采用的频率或矩阵变换，可以等同替代的其它正交变换是已知的，诸如小波变换、离散傅立叶变换、Karhimen-Loeve变换或其它变换。每个区块的SCM通常以更容易被压缩的形式出现(与比例因子矩阵相比)。接着，在步骤308压缩SCM。根据本发明的最一般方面，可以用减少传输的比特需求同时保持以心理声学音频压缩的可接受允差内的误差重新计算比例因子的确定性方法的任意方法压缩与帧内的区块相关联的SCM。更特定地，在一种特定的新颖实施例中，本发明包括以编码的熵减小方法压缩SCM的步骤。更特定地，在一种特定的新颖实施例中，本发明包括以至少以下几个步骤压缩SCM :a)根据重新量化矩阵重新量化SCM，b)以差分编码方法至少压缩DC系数，c)通过减少冗余的编码方法，诸如差分编码、矢量编码或Huffman编码的任意组合，对系数编码(除了 DC系数之外)。然后编码的比例因子系数被打包(换言之，多路复用)以便传输(步骤310)。在图5的流程图中示出了压缩SCM的一种更具体和特定的方法。该图示出了 SCM压缩步骤308(图4)的特定和新颖的实例。已经发现该特定方法是适合的，并且采用差分编码、矢量编码或Huffman编码的组合，以便减少传输比例因子的比特需求。集中在比例因子的压缩，将要压缩的数据表示为比例因子的DCT变换系数；所述比例因子通过非线性映射表示一组乘数(或指数)来表示；并且每个乘数与音频数量字段(尾数)一一对应地关联。例如，在一个实施例中，比例因子可由代表以分贝表示的基准级别的短字节组成，其隐含地与以10为底的log映射的振幅有关。由于比例因子不是简单的振幅或线性数量，压缩线性PCM数据或常规图像数据的常规方法预期不会对非线性比例因子数据产生有益作用。编码的比例因子数据不类似于音频或常规图像量中的振幅；因此，本领域的技术人员不指望使用相似方法压缩不相似的数量。在进一步编码之前，由于确信DCT系数比其它数据更关键，优选地重新量化(步骤 502)所有区块的SCM。在一个有利的实施例中，根据等式1中例举的3X16重新量化矩阵 M量化系数等式1M = 2，3，3，3，3，3，3，3，0，0，0，0，0，0，0，0， 3，3，3，0，0，0，0，0，0，0，0，0，0，0， 0,0, 3，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0矩阵M示出了优选实施例中用于3X 16区块的重新量化步长大小。矩阵M中的项给出了在SCM的对应位置使用的步长大小。例如，在重新量化之前，比例因子(在示例实施例中)被以分贝表示(以10为底的对数比例)。DCT系数也直接有关地对应于分贝。如果以符号(列，行)习惯性地指定项，根据步长大小矩阵M，3X16区块内的DC分量(1，1项) 被以2个分贝步长重新量化。为项(1，2)到(1，8)使用3个分贝步长；除了对应于重新量化矩阵M内的零的比例因子项之外的其它项可被重新量化为零，这是由于它们对比例因子矩阵的重构具有很小的作用。可以通过将SCM中的每个系数除以对应的步长大小，然后取整到最接近的整数，来完成重新量化步骤。如本领域技术人员理解的，应当小心以避免除以零。再次参考图5，在根据步长大小矩阵M重新量化之后，图5的特定方法接着通过分叉过程对SCM编码DC分量(每个区块的系数矩阵的元素1，1的集合)特别重要，并且因此在分支504中被单独处理。首先考虑DC系数，在分支504中，从每个重新量化的SCM中取得DC系数矩阵项 (对应于DCT变换每个方向上的最小频率)，并且将其适合地布置(步骤506)在矩阵内，该矩阵具有取决于区块数目和其顺序的大小。如果特定实施例中的区块模式不导致子矩阵的矩形阵列，过多的区块被单独处理。例如，在图3所示的数据结构中，底下的4个区块(对应于整个帧的时间，最低频率范围)作为单独的值被单独编码。不被独立处理的区块可被并且优选地被差分编码。在优选实施例中，在步骤508中，计算并且存储两个标志以便传输给解码器第一个标记指示是否为水平相邻的区块的DC分量的差值编码(时间差分编码)；第二个标记指示是否为垂直相邻区块上的DC分量的差值编码(频率差分编码)。如果使用差分编码，为每个区块边界计算相邻区块的DC分量之间的差值。例如，在图3的结构中，在分离底下的4个区块之后，其余区块可被分组为5X8模式。在DCT变换之后，提取并且在5X8矩阵中存储每个DCT的DC分量。然后如果差分编码将显著有助于压缩，则以差分编码对5X8矩阵的元素编码。对于第一行(用于频率差分编码)或列(用于时间差分编码)内的元素，对该系数的绝对值编码(作为矩阵其余部分上的差分编码的基础)。可选择地，采用时间和频率方向两者上的差分编码。例如，首先编码相同行内的项之间的差值，然后编码相同列内的不同行之间的差值。一般地，应当根据信号特征选择编码方法，以便减少数据中的冗余。若干适合的差分编码方法是已知的，并且可根据差分编码技术加以调整。接着考虑DC分量之外的重新量化SCM项，在分支520中应用不同的压缩或编码方法。首先将方法应用于对单个区块编码来描述该方法。发明人发现在以此处描述的方法编码的典型音频数据中，将被编码的大部分SCM系数具有在-1到+1间隔内的值。更特定地，大部分系数等于下列值中的一个0，+1或-1 (整数)。因此，该方法可以有利地按照判断框522所示分叉。在分支524中单独处理间隔-1到+1之外的所有系数值。在分支524中，以矢量形式(a, b)对间隔-1到+1之外的“杂散”值编码(步骤526)，其中a是(Huffman编码的) 偏移，并且b是(Huffman编码的)值。可以取代Huffman编码使用其它编码方法；仅以一种适合的变长编码作为例子给出这种细节，在该情况下，可以有利地使用该变长编码，以便减少比特使用。对于偏移，应当理解，使用指定矩阵中的位置偏移的任意系统，以便特别地表示扫描模式中相对于以前传输的“杂散”值(-1到+1间隔之外)的位置偏移。“杂散”值的总数通常是小的；关于SCM的大部分信息以平行压缩路径2被更有效地压缩。在平行分支528中，该方法压缩其余的并且更普遍的值，这些值全部被限制在范围-1到+1内。这些值被以一种扫描模式重新布置(步骤530)，诸如“Z字形”扫描或类似的扫描模式，该扫描模式有效地展开矩阵，以便产生被方便地布置的系数串或(换言之)矢量。在这个上下文中，“方便地”意味着这样的排序，其最大可能程度地将相邻矩阵项放置在矢量的相邻位置；并且其趋于将最相似或最重要的值分组在一起以便便于压缩。最常见的Z字形扫描模式通常在左上角开始于1，1分量，然后前进以便通过对角线前进扫描而不在对角线结尾处跳越(在每个对角线的结尾处倒转方向)展开矩阵。其它解释见Rao(上面引用的)。可以基于例如有序位置的存储表，采用其它方法。一般而言，该方法在步骤532接着继续，以便通过有助于减少冗余的任意方法压缩系数串(从步骤528，剩余的系数值)。DCT的特性以及对步长大小的选择有助于减少每个SCM内的有意义矩阵项的数目。实际上发现每个区块大约20个系数的串足够用于传输(分组在SCM的左上象限)。可以通过以熵减少编码表示这些系数来减少比特需求。可以单独或组合采用若干技术可以采用并且基于测量信号统计优化Huffman编码、游程 (rim-length)熵编码、矢量编码、算术编码或其它已知技术。下面以示例方式描述一种特定并且新颖的解决方案。在一种特定的编码解决方案中，选择的系数的串被分组(步骤53 为4个元素的组(矢量)。分组到4个元素的组使得后面采用的Huffman编码处理更有效。采用4个元素，存在16个可能编码(如果排除符号)。对于+/-1值，符号可被存储为单独位。接着，在步骤534，该方法算术地计算基于每个矢量的4个系数(cl，c2，c3，c4)的独特编码。例如，在一个实施例中，计算等于cl的绝对值加上两倍c2的绝对值，再加上四倍c3的绝对值，再加上八倍c4的绝对值的编码。计算这种算术编码的其它方法是已知的，并且可以采用减少每个矢量的传输所需的比特数的任意编码方案。最后，步骤534计算出的编码被处理为符号，并且以变长编码诸如Huffman编码在步骤536对每个符号进一步编码，这通过利用不同符号的不相等的出现概率减少了比特需求。
为多个区块中的每个区块执行上面提出的步骤502到536，所述多个区块能够被如图3所示布置在时间/频率矩阵内，以便完整指定音频帧中的比例因子。因此，应该为每个音频帧内的每个区块重复图5的步骤。可选择地，在某些实施例中，希望以步骤502到 536的方法将一个区块编码为一组，然后差分地对其它区块编码。换言之，首先对第一个区块的系数编码；然后对于系数矩阵内的每个元素，通过表示相对于前一个(或频率相邻)区块内的对应项的改变，来表示相邻区块的系数。可以使用时间或频率上的差值。传输一个标记或多个标记，以便指出对于每帧，是否采用时间差分编码、频率差分编码还是直接值编码。现在参考图6，其从以图5的结束点示出的方法节点600开始。在压缩比例因子之后，希望在步骤602在编码器处基于压缩的比例因子数据重构比例因子，以便获得重构的比例因子集合。通过逆转上面提出的对比例因子编码的步骤，或等同地通过应用下面结合本发明的解码器方面描述的解码处理的步骤这样做。优选地，如基于每个样本最可能接近地匹配初始表示的音频数据所需要的，通过以比例因子/数量的格式重新计算每个样本，使用重构的比例因子来重新规格化样本(步骤604)。重构的比例因子一般不同于在上面图1的模块114中分配的临时比例因子。对于任意单个样本，如果初始的临时量化数据被表示为SFXQ =样本值，则应当按照值/RSF重新计算最终数据(Q’)，其中RSF是特定样本的重构比例因子。优选地，然后压缩(步骤606)最终音频数据(Q’ )的集合以便传输。最后，压缩的比例因子和压缩的最终音频数据被打包(步骤610)成用于传输的数据格式。更特定地，在上述示例实施例中，必须以某种方法将最终音频数据、压缩的DC分量、“杂散”的系数数据和压缩的系数数据多路复用在一起。最优选地，将对应于音频帧的所有相应数据以一种公用顺序格式打包在一起，所述帧定义音频信号的给定预定时间间隔中的音频事件。图7示出了一种适合的格式。该示例数据格式包括，优选地，预定大小的一系列音频帧，虽然对该方法的调整可以使用可变大小。图7中以701 —般地示出了单个帧。优选地，该帧以头信息702开始，其可以包括关于格式、编码选项、标记、权利管理和其它开销的一般信息。接着，在字段704中适合地以下面的顺序打包比例因子数据首先在字段 70 中以预定顺序打包区块的DC系数。接着，在704b中，以更大区块的顺序为每个区块以预定顺序打包范围外(+1到-I范围之外的“00R”)非DC系数(AC系数)的打包值。接着，在字段7(Mc中，以更大区块的顺序为每个区块以预定顺序布置低频区块的“范围内”编码系数。下一个字段704d包含对应于低频区块的编码的音频数量数据。在704d之后，关于更高频率区块的其余系数(在范围+1到-1内)在7(Me中被打包。在7(Me之后，更高频率区块的、打包的编码音频样本数据在704f中被打包。在一种典型应用中，这种排序可以通过数据的简单时域多路复用完成，并且具有在心理声学上更重要的元素首先出现在比特流内的益处。因此，如果带宽或处理器时间不足，可以简单地丢弃较不重要的更高频率的比例因子和样本数据，并且信号仍然可被解码(以再现音频中的减小的频率范围)。可以按照特定通信通道的需要所规定的，可替换地采用其它打包方案和其它多路复用方法。在传输(或存储)压缩音频并且接收(检索)压缩的音频之后，可通过与编码器所使用的处理互补的处理对其解码。实际上，解码方法逆转编码方法的步骤，以便恢复比例因子。图8示出了根据本发明的解码器装置的方框图。解多路复用器804对802处来自接收到的比特流的输入解多路复用，解多路复用器804将接收到的数据格式分解为路径806处的编码的比例因子数据，以及多个子带分支808a-e内的样本数据。在给定实施例中，这种分支的实际数目取决于特定编码实施例中使用的区块模式，该区块模式必须与解码器匹配，或者必须向前传输信息，以便将区块模式通知解码器。在步骤810中通过逆转数量编码 (来自步骤606)对编码的音频数据解码，并且在每个子带内根据在编码器处应用的量化方案去量化(812)。通过逆转以前在图5中执行的编码，解压缩(步骤820)编码的比例因子系数，以便产生比例因子系数矩阵。接着在步骤中，以与编码所使用的正交变换互补的逆正交变换，最适合地以逆离散余弦变换，对这些矩阵进行变换，这些逆离散余弦变换与编码过程中应用的每个区块的矩形尺寸相匹配。为了关联每个比例因子和其对应的音频数据(尾数)，通过连接多个区块，以便形成跨越带宽和连续且完整的时间帧两者的更大矩阵，将恢复的比例因子(步骤824)分组为二维数据帧是便利的。换言之，比例因子被存储在一般地对应于上面图3所示的帧的数据结构内。相关联的音频数据被分组在相同或平行结构内。在恢复比例因子之后，它们被用于如下恢复初始来源音频样本的近似复制品在多个子带中的每一个内，对相应于对数数量(分贝)的比例因子进行幂运算，以便获得线性比例因子(在步骤826)。然后，通过将每个样本的线性比例因子与对应于相同样本的音频数据(Q，或换言之尾数)相乘(在“转换为固定”步骤814)，重构音频样本。所得到的子带信号仍然对应于一般类似图3的形式的帧结构。为了恢复音频样本的宽带序列格式的音频，还需要将音频样本的时间-频率矩阵逆处理为宽带音频序列。用于重构时间连续样本的宽带序列的方法取决于特定实施例。本发明首先考虑采用时域数字滤波器(诸如QMF或多相滤波器)的实施例。在这种实施例中，每个子带内的子带样本按照从最早样本到最新样本的时间顺序在平行路径830中由子带被移出矩阵，并且进入合成滤波步骤832。在合成滤波步骤832，临界采样的音频子带样本被上采样，然后通过与编码器所使用的滤波器匹配的一系列平行的合成滤波器进行滤波。平行的子带信号还在步骤832被混合，以便在输出840重构音频样本的宽带序列。输出序列是来源音频(图1的输入)的近似复制品。在使用变换技术的实施例中，该方法不同于前面段落中描述的方法。取代合成滤波，该方法遵从下述步骤首先，帧SF矩阵的每列(频率区间的集合)的逆变换，接着是逆开窗(inverse windowing)，以便获得音频样本的连续的时域序列。本领域技术人员可以容易地实现基于变换的实施例的细节。对于更多信息，可以参考诸如Vaidyanathan或 Bosi (上面引用了这两者)的著作。接收器存储或进一步处理840处的解码的音频信号。有时应当理解，解码的音频数据将被D/A转换器转换为模拟电信号，被放大并且被用于为收听者再现声音。这些功能被分组在一起，并且被扬声器模块842共同以符号表示。因此，本发明的装置和方法在中间时期(通过产生能够传输和存储的电子数据信号)并且最终(通过使得从换能器发出声音，该声音是以前记录或传输的声音的复制品)产生切实的物理作用。图9更特定示出了解码器的更特定的新颖实施例的步骤。详细说明这些步骤，以便能够构造特定的示例解码器，即，与上面结合图1-7讨论的示例编码器互补的示例编码器。该更详细说明的细节主要属于对比例因子编码的特定方法；出于这个原因，未示出关于尾数的数据路径，但是应当理解，本发明中存在这样的路径。
此处描述的步骤是上面更一般描述的模块820、82h-e、8M和拟6的特定和详细说明的细节。该特定实施例被发现在相对低比特率时能够有效地实现解码器比特需求的大约30%的减小。在方框902，解码器接收解包数据(以前在图8的步骤804中解多路复用)，并且将传输数据分解为对应的区块。基于传输标记的设置，解码器确定是否已经使用了差分编码。该判断影响下面对区块解码的方法。接着，解码器进入对系数数据解码。在路径904后以一种方法对“杂散”(在解多路复用步骤804中识别出的)解码；通过路径906对“范围内”系数解码。对于路径904中的杂散值，首先逆转Huffman (或其它熵减少编码)，以便产生矢量，所述矢量以(位置，值)表示杂散。对于路径906中的“范围内”值，该方法解码Huffman编码，以便产生一组算术编码 (步骤910)。每个算术编码对应于唯一的4个矢量。然后通过与用于编码该4个矢量的方法互补的方法解码(步骤91 算术编码，以便产生4个矢量系列。然后连接这些矢量以便形成串(步骤914)，并且插入杂散值(步骤916)。然后沿着对应于编码器用于形成串的扫描路径的扫描路径(诸如Z字形扫描)，将串重新布置在SCM区块内(帧矩阵的子矩阵)。对于以差分编码编码的区块，需要将矩阵项与相邻矩阵中的矩阵项相加，以便逆转差分编码(步骤922)。一旦重构了 SCM区块，它们被在两个维度以用于编码的正交变换相反的正交变换，优选地，以逆离散余弦变换(IDCT)处理(应当理解，步骤924的IDCT对应于图8中的步骤832，图9是图8所示的更一般方法的特定情况)。这些步骤产生一系列比例因子区块。在重构之后，比例因子区块优选地以预定模式被连接为更大的帧矩阵(步骤 824)。该连接简单地以与用于将矩阵划分为区块的模式互补的模式(编码方法中图4的步骤304)将子矩阵附加到更大矩阵内。然后根据与编码器使用的函数互补的函数，将得到的比例因子矩阵转换(或换言之，步骤826中的重新量化)为线性比例因子。在典型应用中，该步骤包括从分贝比例转换为线性比例因子。(一般术语“重新量化”在这个上下文中指解除量化，或换言之，从对数扩展为线性比例。它在其它上下文中还可被用于指出于压缩目的的重新量化处理)。在本发明的一种特定的新颖实施例中，通过“缺口去除”方法进一步增强编码效率，缺口去除在变换和进一步编码之前被应用于比例因子数据。以图4的步骤305示出这个步骤，并且可以在将帧分解为区块(步骤304)之后和在步骤306之前适合地使用该步骤。发明人发现在将初步比例因子组织为矩阵之后，这种矩阵的行和列表现出若干 “缺口”。换言之，存在一般线性趋势被低值中断的区域。这些缺口在变换之后增加了系数矩阵的复杂性，使得比例因子数据更不紧凑。因此，在本发明的一个新颖实施例中，以此处提出的方法去除比例因子数据中的 “缺口”。缺口去除方法包括以预测模型修改所述至少一个区块，以便获得修改的比例因子矩阵，所述预测模型以a)行和b)列中的至少一个上的计算的趋势模拟矩阵。实际上，在图 4-5的编码方法的进一步处理之前，以修改后的更平滑的比例因子矩阵取代该比例因子矩阵。在一种简单的方法中，应用线性预测模型。可替换地，该方法可被修改为应用多项式预测模型。
图10示出了缺口去除方法。出于解释该缺口去除方法的目的，本发明考虑以比例因子值Dm的NXK矩阵D作为输入。首先，以等式加所示的简单线性加权、规格化的值的和计算(步骤950)线性趋势(标量)Trow 等式2a
权利要求
1.一种在使用比例因子加数据的格式表示声音样本或频谱值的音频压缩系统中，压缩表示声音的数字化音频信号的方法，所述信号具有音频带宽，其中样本被表示为比例因子和相关数量的乘积，所述方法包括步骤接收表示声音的数字信号；将样本组织为至少一个音频帧，所述帧包括表示一个时间间隔的多个时间连续的样本；对于每帧，将所述多个时间连续的样本处理为多个子带信号，每个子带信号表示相应的子带频率范围，并且包括所述子带频率范围内的音频样本的时间序列；将所述子带信号转换为一种格式，该格式将每个滤波后的音频样本表示为a)比例因子字段中表示的比例因子，和b)数量字段中表示的数量字段的乘积；在相应于每一帧的至少一个区块上，以二维组织所述子带信号的比例因子字段，所述区块包括以时间作为第一维度，并且以子带频率范围作为第二维度组织的比例因子矩阵；以二维正交变换处理所述至少一个区块，以便为每个所述区块产生相应的比例因子系数矩阵；压缩每个所述比例因子系数矩阵，以便产生以压缩格式表示区块内的比例因子的压缩系数矩阵；将所述压缩系数矩阵打包成数据格式以用于传输。
2.如权利要求1所述的方法，其中所述正交变换包括二维离散余弦变换。
3.如权利要求1所述的方法，其中所述至少一个区块包括多个区块，通过划分表示完整音频帧的二维矩阵，得出所述多个区块；每个所述区块表示一个时间子间隔和所述完整音频帧的频率范围的一部分。
4.如权利要求3所述的方法，还包括步骤在所述处理每个所述区块的步骤之后，根据重新量化矩阵重新量化所述至少一个区块。
5.如权利要求1所述的方法，其中所述压缩步骤包括对于至少一个比例因子系数矩阵，将系数重新布置成系数串。
6.如权利要求5所述的方法，其中所述压缩步骤还包括使用熵减少编码压缩所述系数串。
7.如权利要求6所述的方法，其中所述熵减少编码包括Huffman编码。
8.如权利要求1所述的方法，其中所述压缩步骤包括在公共帧内的相关区块上使用差分编码。
9.如权利要求1所述的方法，其中所述组织比例因子字段的步骤包括通过预测模型修改所述至少一个区块，以便获得修改后的比例因子矩阵，所述预测模型以a)行和b)列中的至少一个上的计算的趋势模拟矩阵。
10.如权利要求9所述的方法，其中所述预测模型包括线性预测模型，并且其中计算的趋势是线性趋势。
11.如权利要求9所述的方法，其中所述预测模型包括多项式模型，并且所述计算的趋势包括多项式函数。
12.如权利要求1所述的方法，其中所述将所述多个时间连续的样本处理为多个子带信号的步骤包括以数字带通滤波器组对所述多个时间连续的样本滤波，然后抽减以便产生多个临界采样的子带信号。
13.如权利要求1所述的方法，其中所述将所述多个时间连续的样本处理为多个子带信号的步骤包括以频率变换将所述样本的连续集合变换为频域表示，以便为每个所述集合产生对应于一组频率区间的子带信号序列。
14.如权利要求1所述的方法，还包括通过传输介质传输所述压缩的系数矩阵的步骤。
15.如权利要求14所述的方法，其中所述传输介质包括数据网络。
16.如权利要求1所述的方法，还包括在机器可读介质上记录所述压缩的系数矩阵的步骤。
17.—种对表示音频信号的编码的电子数据信号解码的方法，该方法用于对信号解码，其中样本被使用比例因子加数量的格式来表示声音样本或频谱值的系统编码，其中样本被表示为比例因子和相关联的数量(Q)的乘积，所述解码方法包括步骤解包接收到的数据分组，以便分离编码的比例因子数据和编码的数量数据；解压缩所述编码的比例因子数据，以便产生至少一个系数矩阵；和以二维逆正交变换来变换所述至少一个矩阵，以便获得至少一个相应的比例因子子矩阵，所述逆正交变换是用于对所述系数矩阵编码的正交变换的逆过程。
18.如权利要求17所述的方法，其中所述逆正交变换包括逆二维离散余弦变换。
19.如权利要求17所述的方法，其中所述至少一个系数矩阵包括多个系数矩阵；所述变换所述至少一个系数矩阵的步骤包括变换多个系数矩阵中的每一个，以便获得多个对应的比例因子子矩阵；并且还包括通过以对应于已知编码器中所使用的区块模式的预定区块模式连接所述比例因子子矩阵，将所述比例因子子矩阵组合为更大的帧矩阵的步骤。
20.如权利要求17所述的方法，其中所述解压缩所述编码的比例因子数据的步骤包括对熵减少编码解码。
21.如权利要求20所述的方法，其中所述熵减少编码包括Huffman编码。
22.如权利要求21所述的方法，其中所述解压缩所述编码的比例因子数据的步骤还包括对公共帧矩阵中的相邻子矩阵之间的差值解码，并且将所述差值求和以重构子矩阵。
23.如权利要求21所述的方法，还包括步骤通过将所述解压缩的比例因子从非线性量化转换为线性比例因子，从而计算音频帧的比例因子矩阵，重新量化所述比例因子矩阵，以便获得解压缩的重新量化的比例因子矩阵。
24.如权利要求17所述的方法，还包括步骤将所述重新量化的解压缩的比例因子矩阵的元素与对应的数据数量(Q)相乘，以便重构音频样本的矩阵。
25.如权利要求24所述的方法，还包括处理所述音频样本矩阵，以便构造连续的数字化音频样本流的步骤。
26.如权利要求25所述的方法，其中所述处理所述音频样本矩阵的步骤包括对于所述音频样本矩阵中的每一行，以合成滤波器处理该行，所述合成滤波器以与已知编码器执行的抽减互补的方式将该行上采样到样本中的帧长度，从而获得多个重构的子带信号；混合所述重构的子带信号，以便产生表示声音的全频带音频信号的复制品。
27.如权利要求26所述的方法，还包括出于再现声音的目的，将所述音频样本输出到其它设备的步骤。
28.如权利要求26所述的方法，还包括使得基于所述连续的数字化音频样本流再现声音的步骤，所述声音是以与该解码方法兼容的方法编码的声音的近似复制品。
29.如权利要求17所述的方法，还包括步骤接收输入信号；和将所述信号解码为数据分组。
30.如权利要求29所述的方法，其中从数据网络接收所述输入信号。
31.如权利要求29所述的方法，其中从机器可读存储介质读取所述信号。
32.一种适用于存储编码的音频信息的机器可读存储介质，其中每个样本被表示为比例因子和对应的数量的乘积，所述介质包括编码的比例因子数据字段，其中比例因子的至少一个矩阵被二维正交变换编码为比例因子系数矩阵；和包括编码的数据数量的数量字段。
33.如权利要求32所述的机器可读存储介质，其中所述正交变换包括二维离散余弦变换。
34.如权利要求33所述的机器可读存储介质，其中还通过以熵减少编码对所述比例因子系数矩阵编码，进一步对所述编码的数据字段编码。
全文摘要
本发明涉及通过二维变换压缩音频比例因子。数字音频样本被表示为有时被称为指数/尾数格式的比例因子编码和对应的数量编码的乘积。为了压缩音频数据，通过滤波或频率变换按照样本时间和频率，将比例因子组织成二维帧。该帧可通过划分被分解为“区块”。一个或多个这种比例因子区块被二维正交变换，诸如二维离散余弦变换的变换压缩。应用可选择的其它编码以便减少冗余。解码方法和编码的机器可读介质与该编码方法互补。
文档编号G11B5/09GK102150207SQ200980135239
公开日2011年8月10日申请日期2009年6月17日优先权日2008年7月24日
发明者D·V·施穆克申请人:Dts(英属维尔京群岛)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｄ·Ｖ·施穆克
技术所有人：ＤＴＳ（英属维尔京群岛）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。