使用自适应混合变换的多声道音频编码比特流的解码的制作方法

文档序号：2824902阅读：216来源：国知局

专利名称：使用自适应混合变换的多声道音频编码比特流的解码的制作方法
技术领域：
本发明通常涉及音频编码系统，且更具体来说涉及对已编码的数字音频信号进行解码的方法和装置。
背景技术：
由团体合作联合委员会(JCIC)的成员组织成立的美国先进电视系统委员会(ATSC)公司开发出用于美国本地电视服务发展的一套协调一致的国家标准。包括有关音频编码/解码标准的这些标准在多个文件中进行陈述，所述多个文件包括2005年6月14日出版的名称为 “Digital Audio Compression Standard (AC-3, E-AC-3) ” 的文件 A/52B (修订版B)，其全部内容以引用的方式并入本文。文件A/52B中指定的音频编码算法称为“AC-3”。描述在所述文件的附件E中的此算法的一加强版称为“E-AC-3”。这两个算法在本文中称为“AC-3”，且有关标准在本文中称为“ATSC标准”。所述A/52B文件并未指定算法设计的很多方面，而是描述了“比特流语法”，其定义了兼容解码器一定能够解码的编码信息的结构与语法特征。符合所述ATSC标准的很多应用将编码数字音频信息作为二进制数据以串行方式发送。结果，所述编码数据通常指的是比特流，但其它数据安排也是允许的。为了便于论述，术语“比特流”在本文中用来指编码数字音频信号，而与采用何种格式、记录或传输技术无关。符合所述ATSC标准的比特流以一连串“同步帧”的形式排列。每一帧是比特流的一个单元，其能够被完全解码成脉冲编码调制(PCM)的数字音频数据的一个或更多个声道。每一帧包括“音频块”和与所述音频块相关的帧元数据。所述音频块各包含表示一个或更多个音频声道的数字音频样本的编码音频数据和与所述编码音频数据相关的块元数据。
尽管算法设计的细节在所述ATSC标准中未被指定，但是某些算法特征已被专业解码装置与消费解码装置的制造商广泛采用。可以解码由E-AC-3编码器产生的增强型AC-3比特流的解码器的实施方式的一个普遍特征在于如下的算法，所述算法在解码另一声道的数据之前解码一帧中针对相应声道的所有编码数据。此方法已经用来提高具有很小芯片上存储器的单芯片处理器的实施性能，这是因为一些解码过程需要从一帧中的多个音频块中的每一块得到指定声道的数据。通过以声道顺序处理编码数据，解码操作可以利用针对特定声道的芯片上存储器来执行。解码后的声道数据可以随后转移到芯片外存储器来为下一个声道空出芯片上资源。符合所述ATSC标准的比特流可以非常复杂，因为可能有大量变化。本文只简略提及的一些示例包括对于标准AC-3比特流、多个独立流、依赖的子流的声道耦合、声道重新矩阵化、对白归一化(dialog normalization)、动态范围压缩、声道向下混合与块长度转换以及对于增强型AC-3比特流的频谱扩展和自适应混合变换。这些特征的细节可以从所述A/52B文件获得。通过独立处理每一声道，这些变化所需的算法能够得以简化。可以不考虑这些变化来执行如合成过滤之类的随后的复杂处理。较简单的算法似乎提供了如下优势减少处理一个音频数据帧所需的计算资源。遗憾的是，此方法要求解码算法读取和检查所有音频块中的数据两次。读取和检查一帧中的音频块数据的每次重复在本文中称为一次“通过(pass) ”所述音频块。第一次通过执行大量计算以确定每一块中的编码音频数据的位置。当第二次通过执行解码过程时，其执行很多与所述第一次通过执行的这些计算相同的计算。两次通过都需要相当多的计算资源来计算数据位置。如果最初的通过可以被消除，那么可以减少解码一个音频数据帧所需的总处理资源。

发明内容
本发明的一个目的在于减少解码以诸如上面所提及的帧与音频块的分层单元排列的编码比特流中的一个音频数据帧所需的计算资源。以上文字和以下公开指的是符合所述ATSC标准的编码比特流，但是本发明并不局限于仅在这些比特流的情况下使用。本发明的原理基本上可以应用于具有类似于在AC-3编码算法中使用的帧、块和声道的结构特征的任何编码比特流。根据本发明的一个方面，一种方法通过以下方式对编码数字音频信号的帧进行解码接收所述帧和在单次通过中检查所述编码数字音频信号，以按块排序地解码每一音频块的编码音频数据。每一帧包含帧元数据和多个音频块。每一音频块包含块元数据和一个或更多个音频声道的编码音频数据。所述块元数据包含控制信息，所述控制信息描述产生所述编码音频数据的编码过程所利用的编码工具。所述编码工具中的一种工具是混合变换处理，其将由初级变换实施的分析滤波器组(bank)应用到一个或更多个音频声道，以产生表示所述一个或更多个音频声道的频谱内容的频谱系数，且将次级变换应用到针对所述一个或更多个音频声道中的至少一些音频声道的所述频谱系数以产生混合变换系数。解码每一音频块确定所述编码过程是否利用自适应混合变换处理来编码任何编码音频数据。如果所述编码过程利用自适应混合变换处理，那么所述方法从所述帧中的第一音频块中的编码音频数据获得所述帧的所有混合变换系数，并且将反向次级变换应用到所述混合变换系数以获得反向次级变换系数，和从所述反向次级变换系数获得频谱系数。如果所述编码过程未利用自适应混合变换处理，那么从所述相应音频块中的编码音频数据获得频谱系数。将反向初级变换应用到所述频谱系数，以产生表示所述相应音频块中的一个或更多个声道的输出信号。本发明的各种特征和其优选实施例可以通过参照以下论述和附图得到更好的理解，在几个附图中相同的附图标记代表相同的元件。以下论述和图中的内容仅以示例方式进行陈述，且不应当理解为表示对本发明的范围的限制。

图I是编码器的示例性实施方式的示意性框图。
图2是解码器的示例性实施方式的示意性框图。图3A与图3B是符合标准和增强型语法结构的比特流中的帧的示意性说明。图4A与图4B是符合标准和增强型语法结构的音频块的示意性说明。图5A到图5C是携带具有程序与声道扩展的数据的示例性比特流的示意性说明。图6是由按声道顺序处理编码音频数据的解码器所实施的示例性过程的示意性框图。图7是由按块顺序处理编码音频数据的解码器所实施的示例性过程的示意性框图。图8是可以用来实施本发明的各个方面的装置的示意性框图。
具体实施例方式A.编码系统概述图I和图2是音频编码系统的编码器和解码器的示例性实施方式的示意性框图，在所述音频编码系统中，所述解码器可以包含本发明的各个方面。这些实施方式符合以上引用的A/52B文件中所公开的内容。所述编码系统的目的在于在产生输入音频信号的编码表示的同时利用最少量的数字信息表示所述编码信号，输入音频信号的所述编码表示可以被记录或传输和随后解码以产生听起来与所述输入音频信号基本相同的输出音频信号。符合基本ATSC标准的编码系统能够编码和解码可以表示音频信号的从一个声道到所谓的5. I个声道的信息，其中5. I可理解为表示能够携带全带宽信号的五个声道和用来携带低频效果(LFE)信号的一个有限带宽声道。以下小节描述编码器和解码器的实施方式以及编码比特流结构和相关编码和解码过程的一些细节。提供这些描述使得能够更简洁地描述和更清楚地理解本发明的各个方面。I.编码器参照图I中的示例性实施方式，编码器从输入信号路径I接收表示音频信号的一个或更多个输入声道的一系列脉冲编码调制(PCM)的样本，并将分析滤波器组2应用到所述系列样本以产生表示所述输入音频信号的频谱成分的数字值。对于符合ATSC标准的实施例，分析滤波器组由A/52B文件中描述的修改型离散余弦变换(MDCT)实施。所述MDCT被应用于针对音频信号的每一输入声道的样本的重叠段或块以产生表示所述输入声道信号的频谱成分的变换系数块。所述MDCT是分析/合成系统的部分，该分析/合成系统利用特意设计的窗口函数和重叠/相加过程消除时域混叠(aliasing).,每一块中的变换系数以包含浮点指数与尾数的块浮点(BFP)形式表示。因为此表示形式用在符合ATSC标准的比特流中，所以此描述涉及表示为浮点指数与尾数的音频数据；然而，此特定表示只是利用比例因子(scale factor)和相关缩放值(scaled value)的数值表示的一个示例。每一块的BFP指数共同提供所述输入音频信号的近似频谱包络。这些指数由增量(delta)调制和其它编码技术编码来减少信息需要量，传送到格式器5并输入到心理声学模型，以估计正被编码的信号的心理声学掩蔽阈值。来自所述模型的结果由比特分配器3使用来以一种方式分配比特形式的数字信息以量化尾数，使得由量化产生的噪声的水平被保持在低于所述正被编码的信号的心理声学掩蔽阈值。量化器4根据从比特分配器3接收且传送到格式器5的比特分配来量化所述尾数。格式器5将所述编码的指数、所述量化的尾数和其它控制信息多路复用或集合成音频块，所述其它控制信息有时称为块元数据。将六个连续音频块的数据集合成数字信息单元，称为帧。帧本身还包含控制信息或帧元数据。连续帧的编码的信息沿着路径6作为比特流输出以供记录在信息存储介质上或者供沿通信信道传输。对于符合ATSC标准的编码器，所述比特流中的每一帧的格式符合A/52B文件中规定的语法。符合ATSC标准的典型编码器所使用的编码算法比图I中说明和以上描述的编码算法更复杂。例如，将错误检测码插入到所述帧中，以允许接收解码器验证所述比特流。称为块长度转换(有时更简洁地称为块转换)的编码技术可以用来改变分析滤波器组的时间和频谱分辨率，以通过改变信号特性来最佳化其性能。所述浮点指数可以利用可变时间和频率分辨率来编码。可以利用称为声道耦合的一种编码技术将两个或更多声道结合成复合
表示。称为声道重新矩阵化的另一种编码技术可以自适应地用于双声道音频信号。可以使用本文未提及的其它编码技术。这些其它编码技术的一些在下文予以论述。省略一些其它实施细节，因为它们不是理解本发明所必需的。这些细节可根据需要从A/52B文件获取。2.解码器解码器执行基本上与编码器中执行的编码算法相反的解码算法。参照图2中的示例性实施方式，解码器从输入信号路径11接收表示一系列帧的编码比特流。所述编码比特流可以从信息存储介质取回或者从通信信道接收。解格式器12将每一帧的编码信息解多路复用或拆解成帧元数据和六个音频块。将所述音频块拆解成它们各自的块元数据、编码的指数和量化的尾数。所述编码的指数由比特分配器13中的心理声学模型使用，来以与编码器中的比特被分配的方式相同的方式分配比特形式的数字信息以对量化的尾数进行解量化。解量化器14根据从比特分配器13接收的比特分配来对所述量化的尾数进行解量化，并将所述解量化的尾数传送到合成滤波器组15。将所述编码的指数进行解码并将其传送到合成滤波器组15。所述解码的指数与解量化的尾数构成由编码器编码的输入音频信号的频谱内容的BFP表示。合成滤波器组15被应用于频谱内容的表示，以重建原始输入音频信号的不精确复制品，所述复制品沿着输出信号路径16传送。关于符合ATSC标准的实施例，合成滤波器组由A/52B文件中描述的修改型离散余弦反变换(MDCT)实施。所述MDCT是以上简单提及的分析/合成系统的部分，该分析/合成系统应用于变换系数的块以产生重叠和相加的音频样本块来消除时域混叠。符合ATSC标准的典型解码器所利用的解码算法比图2中说明和以上所述的解码算法更复杂。作为与以上描述的编码技术相反的一些解码技术包括用于错误纠正或隐藏的错误检测、用以改变合成滤波器组的时间与频谱分辨率的块长度转换、用以从耦合的复合表示恢复声道信息的声道去耦合和用于恢复重新矩阵化的双声道表示的矩阵运算。关于其它技术和额外细节的信息可以根据需要从A/52B文件获得。B.编码比特流结构I.帧符合ATSC标准的编码比特流包含称为“同步帧”(有时更简单地称为帧)的一系列编码信息单元。如上所提及，每一帧包含帧元数据和六个音频块。每一音频块包含块元数据和音频信号的一个或更多个声道的并行区间的编码的BFP指数与尾数。标准比特流的结构示意性地绘示在图3A中。如A/52B文件的附件E中所述的增强型AC-3比特流的结构绘示在图3B中。每一比特流的从SI到CRC的标记区间内的部分是一个帧。特殊比特型式(pattern)或同步字被包括在提供于每一巾贞的开始的同步信息
(SI)中，使得解码器可以识别一帧的开始和保持其解码过程与编码比特流同步。紧跟所述SI之后的比特流信息(BSI)段携带解码所述帧的解码算法所需的参数。例如，所述BSI指定由所述帧中的编码信息表示的声道的数目、类型和顺序以及由所述解码器利用的动态范围压缩和对白归一化信息。每一帧包含六个音频块(AB0到AB5)，必要时它们后面可以跟随辅助(AUX)数据。以循环冗余检查(CRC)字形式的错误检测信息提供在每一帧末尾。增强型AC-3比特流中的帧还包含音频帧(AFRM)数据，其含有与在编码标准比特流中不可用的额外编码技术相关的标志和参数。所述额外技术中的一些包括利用频谱扩展(SPX)(还称为频谱复制)和自适应混合变换(AHT)。下面论述各种编码技术。 2.音频块每一音频块包含256个变换系数的BFP指数与量化的尾数的编码表示和解码所述编码的指数和量化的尾数所需的块元数据。此结构示意性地绘示在图4A中。A/52B文件的附件E中所描述的增强型AC-3比特流中的音频块的结构绘示在图4B中。A/52B文件的附件D中所描述的比特流的可替代形式的音频块结构在此未作论述，因为其独特特征与本发明无关。块元数据的一些示例包括用于块转换(BLKSW)、动态范围压缩(DYNRNG)、声道耦合(CPL)、声道重新矩阵化(REMAT)、用来编码BFP指数的指数编码技术或策略(EXPSTR)、编码的BFP指数(EXP)、关于尾数的比特分配(BA)信息、称为增量比特分配(DBA)的比特分配调整信息和所述量化的尾数(MANT)的标志和参数。增强型AC-3比特流中的每一音频块可以包含关于包括频谱扩展(SPX)的额外编码技术的信息。3.比特流限制ATSC标准将一些限制强加于与本发明相关的比特流的内容。本文提及两个限制(I)所述帧中称为ABO的第一音频块必须包含解码算法开始解码所述帧中的所有音频块所需的所有信息，和(2)无论何时所述比特流开始携带由声道耦合产生的编码信息，最先利用声道耦合的音频块必须包含去耦合所需的所有参数。下面论述这些特征。关于本文未作论述的其它过程的信息可以从A/52B文件获取。C.标准编码过程和技术ATSC标准根据可以用来产生编码比特流的编码过程或“编码工具”描述多个比特流语法特征。编码器不需要使用所有编码工具，但符合所述标准的解码器必须能够响应被认为因兼容而必不可少的编码工具。此响应通过执行本质上与相应编码工具相反的恰当解码工具来实施。解码工具的一些与本发明尤其相关，因为利用或者不利用它们影响应当如何实施本发明的各方面。一些解码过程和一些解码工具简要地描述于以下段落中。下列描述并不打算是完整描述。各个细节和任选的特征被省略。所述描述只打算将高级介绍提供给对所述技术不熟悉的人和用来更新可能已忘记这些术语所描述的技术的人的记忆。
必要时，可以从A/52B文件和来自Davis等人的于1996年12月10日授权的名称为 “Encoder/Decoder for Multi-Dimensional Sound Fields” 的第 5，583，962 号美国专利获取额外细节，且所述专利的全部内容以引用的方式并入本文。I.比特流解压缩(unpack)所有解码器必须解压缩或解多路复用编码比特流以获得参数和编码数据。此过程由以上论述的解格式器12表示。此过程本质上是读取输入比特流中的数据且将所述比特流的多个部分复制到寄存器中、将多个部分复制到存储器位置中或者将存储于缓冲器中的在所述比特流中的数据的指针或其它标记存储的过程。存储器需要存储所述数据和指针，并且可以在存储此信息以供日后使用或当需要时再读取所述比特流以获取信息之间进行折中。2.指数解码需要所有BFP指数的值来解压缩每一帧的音频块中的数据，因为这些值间接指示分配给量化的尾数的比特的数目。然而，所述比特流中的指数值由可以在时间与频率二者中应用的不同编码技术来编码。因此，表示所述编码的指数的数据必须从所述比特流解压缩，并且在它们可用于其它解码过程之前进行解码。3.比特分配处理所述比特流中的量化的BFP尾数各由变化数量的比特表示，所述变化数量的比特与所述BFP指数和包含在所述比特流中的可能的其它元数据有关。将所述BFP指数输入到为每一尾数计算比特分配的指定模型。如果一个音频块还包含增量比特分配(DBA)信息，那么此额外信息用来调整所述模型计算的比特分配。4.尾数处理量化的BFP尾数构成编码比特流中的数据的大部分。所述比特分配用以确定供解压缩的比特流中的每一尾数的位置和用以选择恰当的解量化函数以获得解量化的尾数。所述比特流中的某些数据可以用单一值表示多个尾数。在此情况下，从所述单一值得出恰当数目的尾数。具有等于零的分配的尾数可以用等于零的值再现或以伪随机数再现。5.声道去I禹合声道耦合编码技术允许编码器用较少数据表示多个音频声道。所述技术组合来自两个或更多选定声道(称为被耦合声道)的频谱成分，以形成复合频谱成分的单一声道，称为耦合声道。所述耦合声道的频谱成分以BFP格式表示。描述所述耦合声道与每一被耦合声道之间的能量差的一组比例因子(称为耦合坐标)是针对被耦合声道中的每一个声道而得出并且包括在所述编码比特流中。耦合只用于每一声道的带宽的指定部分。当利用声道耦合时，如由所述比特流中的参数指示，解码器利用称为声道去耦合的解码技术，从耦合声道的频谱成分和耦合坐标得出每一被耦合声道的BFP指数和尾数的不精确复制品。这通过将每一被耦合声道频谱成分乘以恰当耦合坐标来完成。其它细节可以从A/52B文件获得。6.声道重新矩阵化声道重新矩阵化编码技术通过使用矩阵将两个独立的音频声道转变为和声道和差声道来允许编码器用较少数据表示双声道信号。通常压缩入左音频声道和右音频声道的比特流中的BFP指数和尾数改为表示所述和声道和所述差声道。此技术可以有利地在两个声道具有高度相似性时使用。当利用重新矩阵化时，如由所述比特流中的标志指示，解码器通过将恰当矩阵应用于所述和值和差值来获得表示两个音频声道的值。额外细节可以从A/52B文件获取。D.增强型编码过程和技术A/52B的附件E描述了允许利用其它编码工具的增强型AC-3比特流语法的特征。一些这些工具和相关过程在下文简要描述。I.自适应混合变换处理自适应混合变换(AHT)编码技术响应于改变信号特性，通过应用两个级联变换提供除了用于改变分析和合成滤波器组的时间和频谱分辨率的块转换以外的另一种工具。关于AHT处理的额外信息可以从A/52B文件和Vinton等人的于2009年4月7日授权的名称为 “Adaptive Hybrid Transform for Signal Analysis and Synthesis，，的第 7，516，064 号美国专利获取，且所述专利的全部内容以引用的方式并入本文。编码器利用由以上所提及的MDCT分析变换实施的初级变换，所述初级变换在由II型离散余弦变换(DCT-II)实施的次级变换之前且与其级联。将MDCT应用于音频信号样本的重叠块以产生表示所述音频信号的频谱内容的频谱系数。所述DCT-II可以根据需要接入和接出信号处理路径，当接入时，其应用于表示相同频率的MDCT频谱系数的非重叠块以产生混合变换系数。在通常使用下，DCT-II在输入音频信号被视为足够稳定时接通，因为所述DCT-II的使用藉由降低其有效时间分辨率而将分析滤波器组的有效频谱分辨率从256个样本显著增加到1536个样本。解码器利用以上提及的MDCT合成滤波器组实施的反向初级变换，所述反向初级变换在由II型反向离散余弦变换(IDCT-II)实施的反向次级变换之后且与其级联。IDCT-II响应于所述编码器提供的元数据接入和接出信号处理路径。当接入所述信号处理路径中时，将IDCT-II应用于混合变换系数的非重叠块以获取反向次级变换系数。如果未使用其它编码工具，如声道耦合或SPX，那么所述反向次级变换系数可以是直接输入到IMDCT的频谱系数。可替换地，如果利用了如声道耦合或SPX的编码工具，那么MDCT频谱系数可以由所述反向次级变换系数得出。在获得所述MDCT频谱系数之后，将MDCT以传统方式应用于所述MDCT频谱系数块。AHT可以用在任一个音频声道上，包括耦合声道和LFE声道。利用AHT编码的声道使用可替换的比特分配过程和两种不同类型的量化。一种类型是向量量化(VQ)和第二种类型是增益自适应量化(GAQ)。GAQ技术在Davidson等人的于2001年6月12日授权的名称为 “Using Gain-Adaptive Quantization and Non-Uniform Symbol Lengths forImproved Audio Coding”的第6，246，345号美国专利中予以论述,且所述专利的全部内容以引用的方式并入本文。使用AHT需要解码器从包含在编码比特流中的信息得出若干参数。A/52B文件描述可以如何计算这些参数。一组参数指定BFP指数在一帧中遭携带的次数且通过检查包含在一帧中的所有音频块中的元数据得出。另外两组参数识别哪些BFP尾数利用GAQ量化并且提供量化器的增益控制字，且所述参数通过检查音频块中声道的元数据来得出。用于AHT的所有混合变换系数携带于一帧的第一音频块ABO中。如果AHT应用于率禹合声道，那么所述AHT系数的稱合坐标以与未经AHT的被稱合声道相同的方式分布于所有音频块中。下文描述用于处理此情况的过程。2.频谱扩展处理频谱扩展(SPX)编码技术通过从所述编码比特流中排除高频频谱成分和使解码器合成所述编码比特流中包含的较低频频谱成分中的丢失的频谱成分，来允许编码器减少编码全带宽声道所需的信息量。当利用SPX时，解码器通过将较低频MDCT系数复制到高频MDCT系数位置、将伪随机值或噪声加到复制的变换系数和根据编码比特流中包括的SPX频谱包络缩放幅度来合成丢失的频谱成分。无论何时利用SPX编码工具，编码器都计算所述SPX频谱包络并将其插入到编码比特流中。SPX技术通常用于合成声道的最高频带的频谱成分。对于中间频率范围来说，SPX技术可以与声道耦合一起使用。处理的额外细节可以从A/52B文件获取。
3.声道和程序扩展增强型AC-3比特流语法允许编码器产生编码比特流，所述编码比特流表示具有多于5. I声道的单一程序(声道扩展)、具有高达5. I声道的两个或更多程序(程序扩展)或者具有高达5. I声道与多于5. I声道的多个程序的组合。程序扩展通过对编码比特流中针对多个独立数据流的帧多路复用来实施。声道扩展通过对与独立数据流相关的一个或更多个相依赖的数据子流的帧多路复用来实施。在关于程序扩展的优选实施方式中，解码器被告知要解码哪个程序或哪些程序，并且解码过程跳过或基本上忽略表示将不被解码的程序的流和子流。图5A到图5C绘示具有程序与声道扩展的携带数据的比特流的三个示例。图5A说明了具有声道扩展的示例性比特流。单一程序Pl由独立流SO和三个相关的依赖的子流SSO、SSI和SS2表示。紧接在独立流SO的帧Fn之后的是相关的依赖的子流SSO到SS3中的每一个的帧Fn。这些帧之后是独立流SO的下一帧Fn+1，其之后紧接着依次是相关的依赖的子流SSO到SS2的每一个的帧Fn+1。增强型AC-3比特流语法容许每一独立流有多达8个依赖的子流。图5B说明了具有程序扩展的示例性比特流。四个程序PU P2、P3和P4各分别由独立流S0、SI、S2和S3表示。紧跟独立流SO的帧Fn之后的是独立流SI、S2和S3中的每一个的帧Fn。这些帧之后是所述独立流中的每一个的下一帧Fn+1。增强型AC-3比特流语法必须具有至少一个独立流且容许具有多达8个独立流。图5C说明了具有程序扩展与声道扩展的示例性比特流。程序Pl由独立流SO中的数据表示，且程序P2由独立流SI以及相关的依赖的子流SSO和SSl中的数据表示。紧跟独立流SO的帧Fn之后是独立流SI的帧Fn，其之后紧接着依次是相关的依赖的子流SSO和SSl的帧Fn。这些帧之后是独立流与依赖的子流中的每一个的下一帧Fn+1。没有声道扩展的独立流包含可以表示高达5. I个独立音频声道的数据。具有声道扩展的独立流或者换言之具有一个或更多个相关的依赖的子流的独立流包含表示程序的所有声道的5. I声道向下混合的数据。术语“向下混合”指的是多个声道组合成较少数目声道。这么做是为与不解码依赖的子流的解码器相兼容。所述依赖的子流包含表示替换或补充所述相关独立流中携带的声道的声道的数据。声道扩展就程序来说容许多达14个声道。
比特流语法的其它细节和相关处理可以从A/52B文件获得。E.块优先性处理需要复杂逻辑来处理和恰当地解码当编码工具的各种组合用来产生编码比特流时所述比特流结构中出现的很多变化。如以上所提及，算法设计的细节未在ATSC标准中指定，但E-AC-3解码器的常规实施方式的普遍特征在于算法，所述算法在解码另一声道的数据之前解码用于相应声道的帧中的所有数据。此传统方法减少了解码比特流所需的芯片上存储器的数量，但其也需要多次通过每一帧中的数据以读取和检查所述帧中的所有音频块中的数据。图6中示意性地说明了传统方法。组件19解析(parse)从路径I接收的编码比特流中的帧且响应于从路径20接收的控制信号从所述帧中提取数据。所述解析通过多次通过帧数据来完成。从一个帧提取出的数据由组件19下面的方框表示。例如，具有标记ABO-CHO的方框表示在音频块ABO中的用于声道0的提取数据，且具有标记AB5-CH2的方框表示在音频块AB5中的用于声道2的提取数据。为了简化附图，只说明了三个声道0到 2和三个音频块O、I和5。组件19还沿着路径20将从帧元数据中获得的参数传递到声道处理组件31、32和33。在数据方框左侧的信号路径和旋转开关表示由传统解码器执行以按照声道顺序处理编码音频数据的逻辑。处理声道组件31经由旋转开关21接收针对以音频块ABO开始且以音频块AB5结束的声道CHO的编码音频数据和元数据，解码所述数据并且通过将合成滤波器组应用于所述解码数据来产生输出信号。其处理结果沿着路径41传递。处理声道组件32经由旋转开关22接收针对音频块ABO到AB5的声道CHl的数据，处理所述数据且沿着路径42传递其输出。处理声道组件33经由旋转开关23接收针对音频块ABO到AB5的声道CH2的数据，处理所述数据和沿着路径43传递其输出。本发明的应用可以通过在许多情况下消除多次通过帧数据来提高处理效率。在利用编码工具的某些组合产生编码比特流的一些情况下，使用多次通过；然而，由以下论述的编码工具的组合产生的增强型AC-3比特流可以利用单次通过来解码。此新方法示意性地说明在图7中。组件19解析从路径I接收的编码比特流中的帧且响应于从路径20接收的控制信号从所述帧中提取数据。在很多情况下，解析通过单次通过帧数据来完成。来自一个帧的提取数据以与上文关于图6论述的方式相同的方式来由组件19下面的方框表示。组件19沿着路径20将从帧元数据获得的参数传递到块处理组件61、62和63。处理块组件61经由旋转开关51接收针对音频块ABO中的所有声道的编码音频数据和元数据，解码所述数据和通过将合成滤波器组应用于解码数据来产生输出信号。其对于声道CH0、CH1和CH2的处理结果经由旋转开关71分别传递到恰当的输出路径41、42、43。处理块组件62经由旋转开关52接收针对音频块ABl中的所有声道的数据、处理所述数据和经由旋转开关72将其输出传递到每一声道的恰当输出路径。处理块组件63经由旋转开关53接收针对音频块AB5中的所有声道的数据、处理所述数据和经由旋转开关73将其输出传递到每一声道的恰当输出路径。本发明的各个方面在下文予以论述且利用程序片段说明。这些程序片段并不打算是实际的或最佳实施方式，而仅仅是说明性示例。例如，程序语句的顺序可以通过互换一些语句改变。I. 一般过程
本发明的高级说明显示在以下程序片段中
权利要求
1.一种用于对编码数字音频信号的帧进行解码的方法，其中所述帧包含帧元数据、第一音频块和一个或更多个后续音频块；和所述第一音频块和所述后续音频块各包含块元数据和ー个或更多个音频声道的编码音频数据，其中所述编码音频数据包含表示所述ー个或更多个音频声道的频谱内容的比例因子和缩放值，每ー缩放值与所述比例因子中的相应的ー个比例因子相关；和所述块元数据包含控制信息，所述控制信息描述由产生所述编码音频数据的编码过程所利用的编码工具，所述编码工具包括含以下步骤的自适应混合变换处理将初级变换实施的分析滤波器组应用到所述ー个或更多个音频声道以产生初级变换系数，和将次级变换应用到针对所述ー个或更多个音频声道中的至少ー些音频声道的所述初级变换系数以产生混合变换系数；并且其中所述方法包括以下步骤接收所述编码数字音频信号的所述帧；和在单次通过中检查所述帧的所述编码数字音频信号，以按块顺序地解码每ー个音频块的所述编码音频数据，其中所述解码每ー个相应的音频块包括确定所述编码过程是否利用自适应混合变换处理来编码任何所述编码音频数据；如果所述编码过程利用自适应混合变换处理，那么从所述第一音频块中的所述编码音频数据获得所述帧中的所有所述音频块的所有混合变换系数，和将反向次级变换应用到所述混合变换系数以获得反向次级变换系数，和从所述相应的音频块的所述反向次级变换系数获得初级变换系数；如果所述编码过程未利用自适应混合变换处理，那么从所述相应的音频块中的所述编码音频数据获得初级变换系数；和将反向初级变换应用到所述初级变换系数以产生表示所述相应的音频块中的所述ー个或更多个声道的输出信号。
2.根据权利要求I所述的方法，其中所述编码数字音频信号的所述帧符合增强型AC-3比特流语法。
3.根据权利要求2所述的方法，其中所述编码工具包括频谱扩展处理，且解码每ー个相应的音频块进ー步包括确定所述解码过程是否应当利用频谱扩展处理来解码任何所述编码音频数据；和如果应当利用频谱扩展处理，那么从所述反向次级变换系数合成一个或更多个频谱成分以获得具有扩展带宽的初级变换系数。
4.根据权利要求2或3所述的方法，其中所述编码工具包括声道耦合，且解码每ー个相应的音频块进一歩包括确定所述编码过程是否利用声道耦合来编码任何所述编码音频数据；和如果所述编码过程利用声道耦合，那么从所述反向次级变换系数得出频谱成分以获得被耦合声道的初级变换系数。
5.一种用于对编码数字音频信号的帧进行解码的方法，其中所述帧包含帧元数据、第一音频块和一个或更多个后续音频块；和所述第一音频块和所述后续音频块各包含块元数据和ー个或更多个音频声道的编码音频数据，其中所述编码音频数据包含表示所述ー个或更多个音频声道的频谱内容的比例因子和缩放值，每ー缩放值与所述比例因子中的相应的ー个比例因子相关；和所述块元数据包含控制信息，所述控制信息描述由产生所述编码音频数据的编码过程所利用的编码工具，所述编码工具包括含以下步骤的自适应混合变换处理将由初级变换实施的分析滤波器组应用到所述ー个或更多个音频声道以产生初级变换系数，和将次级变换应用到针对所述ー个或更多个音频声道中的至少ー些音频声道的所述初级变换系数以产生混合变换系数；并且其中所述方法包括以下步骤 (A)接收所述编码数字音频信号的所述帧；和 (B)在单次通过中检查所述帧的所述编码数字音频信号，以按块顺序地解码每ー个音频块的所述编码音频数据，其中所述解码每ー个相应的音频块包括 (1)针对所述ー个或更多个声道中的每ー个相应的声道，确定所述编码过程是否利用自适应混合变换处理来编码任何所述编码音频数据； (2)如果所述编码过程针对所述相应的声道利用自适应混合变换处理 (a)如果所述相应的音频块是所述帧中的所述第一音频块，那么 (i)从所述第一音频块中的所述编码音频数据获得所述帧的所述相应的声道的所有混合变换系数，和 ( )将反向次级变换应用到所述混合变换系数以获得反向次级变换系数，和 (b)针对所述相应的音频块中的所述相应的声道，从所述反向次级变换系数获得初级变换系数； (3)如果所述编码过程未针对所述相应的声道利用自适应混合变换处理，那么通过解码所述相应的音频块中的所述编码数据而获得所述相应的声道的初级变换系数；和 (C)将反向初级变换应用到所述初级变换系数以产生表示所述相应的音频块中的所述相应的声道的输出信号。
6.根据权利要求5所述的方法，其中所述编码数字音频信号的所述帧符合增强型AC-3比特流语法。
7.根据权利要求6所述的方法，其中所述编码工具包括频谱扩展处理，且解码每ー个相应的音频块进ー步包括确定所述解码过程是否应当利用频谱扩展处理来解码任何所述编码音频数据；和如果应当利用频谱扩展处理，那么从所述反向次级变换系数合成一个或更多个频谱成分以获得具有扩展带宽的初级变换系数。
8.根据权利要求6或7所述的方法，其中所述编码工具包括声道耦合，且解码每ー个相应的音频块进一歩包括确定所述编码过程是否利用声道耦合来编码任何所述编码音频数据；和如果所述编码过程利用声道耦合，那么 (A)如果所述相应的声道是所述帧中利用耦合的第一声道，那么(1)确定所述编码过程是否利用自适应混合变换处理来编码耦合声道， (2)如果所述编码过程利用自适应混合变换处理来编码耦合声道，那么 (a)如果所述相应的音频块是所述帧中的所述第一音频块，那么 (i)从所述第一音频块中的所述编码音频数据获得所述帧中的耦合声道的所有混合变换系数，和 ( )将反向次级变换应用到所述混合变换系数以获得反向次级变换系数， (b)从所述相应的音频块中的耦合声道的所述反向次级变换系数获得初级变换系数； (3)如果所述编码过程未利用自适应混合变换处理来编码耦合声道，那么通过解码所述相应的音频块中的所述编码数据来获得耦合声道的频谱成分；和 (B)通过对耦合声道的所述频谱成分进行去耦合来获得所述相应的声道的初级变换系数。
9.一种用于对编码数字音频信号的帧进行解码的设备，其中所述设备包含用以执行根据权利要求I至8中的任一项所述的所有步骤的功能的装置。
10.一种记录指令程序的存储介质，所述指令程序可由装置执行以执行用以对编码数字音频信号的帧进行解码的方法，其中所述方法包括根据权利要求I至8中的任一项所述的所有步骤。
全文摘要
用以解码增强型AC-3比特流的帧的过程的处理效率通过处理帧中的每一个音频块仅一次来提高。编码数据的音频块是按照块顺序而不是按照声道顺序进行解码。公开了诸如自适应混合变换处理和频谱扩展的增强型比特流编码特征的示例性解码过程。
文档编号G10L19/00GK102687198SQ201080051553
公开日2012年9月19日申请日期2010年10月28日优先权日2009年12月7日
发明者K·拉马莫尔西申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：K·拉马莫尔西
技术所有人：杜比实验室特许公司
我是此专利的发明人

上一篇：使用算术阶段压缩未充分利用的代码空间的编码器和解码器的制作方法
上一篇：编码装置、解码装置及其方法