解码在填充元素中具有增强频谱带复制元数据的音频位流的制作方法

文档序号:16188508发布日期:2018-12-08 05:27阅读:162来源:国知局
解码在填充元素中具有增强频谱带复制元数据的音频位流的制作方法
相关申请的交叉引用本申请要求于2015年3月13日提交的欧洲专利申请no.15159067.6以及于2015年3月16日提交的美国临时申请no.62/133,800的优先权,这两个申请中的每个通过引用被整体结合于此。本发明涉及音频信号处理。一些实施例涉及包括用于控制增强的频谱带复制(esbr)的元数据的音频位流(例如,具有mpeg-4aac格式的位流)的编码和解码。其它实施例涉及通过不被配置为执行esbr处理并且忽略这种元数据的传统解码器对这种位流进行解码,或者通过响应于位流生成esbr控制数据来对不包括这种元数据的音频位流进行解码。
背景技术
典型的音频位流包括指示音频内容的一个或多个声道(channel)的音频数据(例如,编码的音频数据)以及指示音频数据或音频内容的至少一个特性的元数据两者。用于生成编码音频位流的一种众所周知的格式是在mpeg标准iso/iec14496-3:2009中描述的mpeg-4高级音频编码(aac)格式。在mpeg-4标准中,aac表示“高级音频编码”,而he-aac表示“高效高级音频编码”。mpeg-4aac标准定义了几个音频规范(profile),这几个音频规范确定在适用的(complaint)编码器或解码器中存在哪些对象和编码工具。这些音频规范中的三个是(1)aac规范,(2)he-aac规范,和(3)he-aacv2规范。aac规范包括aac低复杂度(或“aac-lc”)对象类型。aac-lc对象是mpeg-2aac低复杂度规范的对应物,有一些调整,并且既不包括频谱带复制(“sbr”)对象类型也不包括参数化立体声(“ps”)对象类型。he-aac规范是aac规范的超集(superset)并且还包括sbr对象类型。he-aacv2规范是he-aac规范的超集,并且还包括ps对象类型。sbr对象类型包含频谱带复制工具,这是重要的编码工具,该编码工具显著提高感知音频编解码器的压缩效率。sbr在接收器侧(例如,在解码器中)重建音频信号的高频分量。因此,编码器只需要编码和发送低频分量,从而允许在低数据速率下的、高得多的音频质量。根据从编码器获得的控制数据和可用的带宽受限信号,sbr基于先前被截短以便减小数据速率的谐波序列的复制。音调与类噪声(noise-like)分量之间的比通过自适应逆滤波以及噪声和正弦波的可选添加来维持。在mpeg-4aac标准中,sbr工具执行频谱修补,其中将数个邻接的正交镜像滤波器(qmf)子带从音频信号的所发送低频带部分复制到在解码器中生成的音频信号的高频带部分。对于某些音频类型,诸如具有相对低交叉频率的音乐内容,频谱修补可能不是理想的。因此,需要改进频谱带复制的技术。技术实现要素:第一类实施例涉及包括存储器、位流有效载荷去格式化器和解码子系统的音频处理单元。存储器被配置为存储编码音频位流(例如,mpeg-4aac位流)的至少一个块。位流有效载荷去格式化器被配置为对编码音频块进行解复用。解码子系统被配置为对编码音频块的音频内容进行解码。编码音频块包括具有指示填充元素的开始的标识符以及标识符之后的填充数据的填充元素。填充数据包括识别是否要对编码音频块的音频内容执行增强的频谱带复制(esbr)处理的至少一个标志。第二类实施例涉及用于对编码音频位流进行解码的方法。该方法包括接收编码音频位流的至少一个块、对编码音频位流的至少一个块的至少一些部分进行解复用,以及对编码音频位流的至少一个块的至少一些部分进行解码。编码音频位流的至少一个块包括具有指示填充元素的开始的标识符以及标识符之后的填充数据的填充元素。填充数据包括识别是否要对编码音频位流的至少一个音频块的音频内容执行增强的频谱带复制(esbr)处理的至少一个标志。其它类的实施例涉及编码和转码包含元数据的音频位流,该元数据识别是否要执行增强的频谱带复制(esbr)处理。附图说明图1是可以被配置为执行本发明性方法的实施例的系统的实施例的框图。图2是作为本发明性音频处理单元的实施例的编码器的框图。图3是包括作为本发明性音频处理单元的实施例的解码器以及可选地还有耦合到其的后处理器的系统的框图。图4是作为本发明性音频处理单元的实施例的解码器的框图。图5是作为本发明性音频处理单元的另一实施例的解码器的框图。图6是本发明性音频处理单元的另一实施例的框图。图7是mpeg-4aac位流的块的图,包括它被划分成的段。符号和命名贯穿本公开,包括在权利要求中,“对”信号或数据执行操作(例如,对信号或数据进行滤波、缩放、变换或应用增益)的表达在广义上用来表示直接对信号或数据、或者对信号或数据的处理版本(例如,对于在执行操作之前已经经历了初步滤波或预处理的信号的版本)执行操作。贯穿本公开,包括在权利要求中,表达“音频处理单元”在广义上用来表示被配置为处理音频数据的系统、设备或装置。音频处理单元的示例包括但不限于编码器(例如,转码器)、解码器、编解码器、预处理系统、后处理系统和位流处理系统(有时称为位流处理工具)。几乎所有的消费者电子器件(诸如手机、电视机、笔记本电脑和平板电脑)包含音频处理单元。贯穿本公开,包括在权利要求中,术语“耦合”或“耦合的”在广义上用来意指或者直接或者间接连接。因此,如果第一设备耦合到第二设备,则那个连接可以通过直接连接,或者通过经由其它设备和连接的间接连接。而且,集成到其它部件中或与其它部件集成的部件也彼此耦合。具体实施方式mpeg-4aac标准设想编码的mpeg-4aac位流包括指示要由解码器应用以解码位流的音频内容的每种类型的sbr处理(如果任何一个要被应用的话)、和/或控制这种sbr处理、和/或指示要被采用以对位流的音频内容进行解码的至少一个sbr工具的至少一个特性或参数的元数据。在本文,我们使用表达“sbr元数据”来表示在mpeg-4aac标准中描述或提及的这种类型的元数据。mpeg-4aac位流的顶层是数据块(“raw_data_block”元素)的序列,数据块中的每个是包含音频数据(通常是针对1024或960个采样的时间段)和相关信息和/或其它数据的数据段(本文称为“块”)。在本文中,我们使用术语“块”来表示包括音频数据(以及对应的元数据以及可选地还有其它相关数据)的mpeg-4aac位流的段,该块确定或指示一个(但不多于一个)“raw_data_block“元素。mpeg-4aac位流的每个块可以包括数个句法元素(句法元素中的每个也在位流中作为数据段实现)。在mpeg-4aac标准中定义了七个类型的这种句法元素。每个句法元素由数据元素“id_syn_ele”的不同值识别。句法元素的示例包括“single_channel_element()”、“channel_pair_element()”和“fill_element()”。单个声道元素是包括单个音频声道的音频数据(单声道音频信号)的容器。声道对元素包括两个音频声道的音频数据(即,立体声音频信号)。填充元素是包括标识符(例如,上述元素“id_syn_ele”的值)后面跟着数据(其被称为“填充数据”)的信息的容器。填充元素历来被用于调整要通过恒定速率信道发送的位流的瞬时位速率。通过向每个块添加适量的填充数据,可以实现恒定的数据速率。根据本发明的实施例,填充数据可以包括扩展能够在位流中发送的数据(例如,元数据)的类型的一个或多个扩展有效载荷。接收具有包含新类型数据的填充数据的位流的解码器可以可选地被接收位流的设备(例如,解码器)使用以扩展设备的功能。因此,如本领域技术人员可以认识到的,填充元素是特殊类型的数据结构,并且不同于通常用来发送音频数据的数据结构(例如,包含声道数据的音频有效载荷)。在本发明的一些实施例中,用来识别填充元素的标识符可以由具有值0x6的、三位(threebit)的首先发送最高有效位的无符号整数(“uimsbf”)组成。在一个块中,可以出现相同类型的句法元素(例如,几个填充元素)的几个实例。用于编码音频位流的另一标准是mpeg统一语音和音频编码(usac)标准(iso/iec23003-3:2012)。mpegusac标准描述使用频谱带复制处理(包括mpeg-4aac标准中描述的sbr处理,还包括其它增强形式的频谱带复制处理)的音频内容的编码和解码。这种处理应用在mpeg-4aac标准中描述的sbr工具集的扩展和增强版本的频谱带复制工具(本文有时称为“增强型sbr工具”或“esbr工具”)。因此,esbr(如在usac标准中定义的)是对sbr(如在mpeg-4aac标准中定义的)的改进。在本文中,我们使用表达“增强型sbr处理”(或“esbr处理”)来表示使用在mpeg-4aac标准中没有描述或提及的至少一个esbr工具(例如,在mpegusac标准中描述或提及的至少一个esbr工具)的频谱带复制处理。这种esbr工具的示例是谐波转置(transposition)、qmf修补附加预处理或“预平坦化(pre-flattening)”,以及子带间采样时间包络整形或“inter-tes”。根据mpegusac标准生成的位流(有时在本文中称为“usac位流”)包括编码的音频内容,并且通常包括:指示要由解码器应用来解码usac位流的音频内容的每种类型的频谱带复制处理的元数据、和/或控制这种频谱带复制处理和/或指示要被采用来解码usac位流的音频内容的至少一个sbr工具和/或esbr工具的至少一个特性或参数的元数据。在本文中,我们使用表达“增强型sbr元数据”(或“esbr元数据”)表示指示要由解码器应用以对编码音频位流(例如,usac位流)的音频内容进行解码的每种类型的频谱带复制处理和/或控制这种频谱带复制处理和/或指示要被采用以解码这种音频内容的至少一个sbr工具和/或esbr工具的至少一个特性或参数、但未在mpeg-4aac标准中描述或提及的元数据。esbr元数据的示例是在mpegusac标准中描述或提及但不在mpeg-4aac标准中的元数据(指示或用于控制频谱带复制处理)。因此,本文的esbr元数据表示不是sbr元数据的元数据,本文的sbr元数据表示不是esbr元数据的元数据。usac位流可以包括sbr元数据和esbr元数据两者。更具体而言,usac位流可以包括控制解码器的esbr处理的执行的esbr元数据、以及控制解码器的sbr处理的执行的sbr元数据。根据本发明的典型实施例,(根据本发明)在mpeg-4aac位流中(例如,在sbr有效载荷末尾处的sbr_extension()容器中)包括esbr元数据(例如,特定于esbr的配置数据)。在使用esbr工具集(包括至少一个esbr工具)对编码位流进行解码期间,解码器的esbr处理的执行基于在编码期间被截短的谐波序列的复制而重新生成音频信号的高频带。这种esbr处理通常调整所生成的高频带的频谱包络并应用逆滤波,并且添加噪声和正弦分量,以便重新创建原始音频信号的频谱特性。根据本发明的典型实施例,在编码音频位流(例如,mpeg-4aac位流)的元数据段中的一个或多个中包括esbr元数据(例如,包括作为esbr元数据的少量控制位),该编码音频位流还在其它段(音频数据段)中包括编码音频数据。通常,位流的每个块的至少一个这种元数据段是(或者包括)填充元素(包括指示填充元素的开始的标识符),并且esbr元数据被包括在标识符之后的填充元素中。图1是示例性音频处理链(音频数据处理系统)的框图,其中可以根据本发明的实施例配置系统的元件中的一个或多个。该系统包括如图所示耦合在一起的以下元件:编码器1、输送子系统2、解码器3和后处理单元4。在对所示系统的变型中,元件中的一个或多个被省略,或者附加的音频数据处理单元被包括。在一些实现中,编码器1(其可选地包括预处理单元)被配置为接受包括音频内容的pcm(时域)采样作为输入,并且输出指示音频内容的编码音频位流(具有符合mpeg-4aac标准的格式)。指示音频内容的位流的数据有时在本文中被称为“音频数据”或“编码音频数据”。如果编码器是根据本发明的典型实施例来配置的,则从编码器输出的音频位流包括esbr元数据(并且通常还有其它元数据)以及音频数据。从编码器1输出的一个或多个编码音频位流可以被断言(assert)到编码音频输送子系统2。子系统2被配置为存储和/或输送从编码器1输出的每个编码位流。从编码器1输出的编码音频位流可以由子系统2存储(例如,以dvd或蓝光盘的形式),或由子系统2发送(子系统2可以实现传输链路或网络),或者可以由子系统2既存储又发送。解码器3被配置为解码它经由子系统2接收的编码mpeg-4aac音频位流(由编码器1生成)。在一些实施例中,解码器3被配置为从位流的每个块提取esbr元数据,并且解码位流(包括通过使用提取的esbr元数据执行esbr处理),以生成解码的音频数据(例如,解码的pcm音频采样的流)。在一些实施例中,解码器3被配置为从位流中提取sbr元数据(但是忽略位流中包括的esbr元数据)并且解码位流(包括通过使用提取的sbr元数据执行sbr处理)以生成解码的音频数据(例如,解码的pcm音频采样的流)。通常,解码器3包括存储(例如,以非暂态方式)从子系统2接收的编码音频位流的段的缓冲器。图1的后处理单元4被配置为接受来自解码器3的解码的音频数据的流(例如,解码的pcm音频采样),并对其执行后处理。后处理单元4还可以被配置为渲染后处理音频内容(或者从解码器3接收的解码的音频)以用于由一个或多个扬声器重放。图2是作为本发明性音频处理单元的实施例的编码器(100)的框图。编码器100的任何部件或元件可以在硬件、软件或硬件和软件的组合中被实现为一个或多个过程和/或一个或多个电路(例如,asic、fpga或其它集成电路)。编码器100包括如图所示进行连接的编码器105、填充器(stuffer)/格式化器级107、元数据生成器106和缓冲存储器109。通常,编码器100还包括其它处理元件(未示出)。编码器100被配置为将输入音频位流转换成编码的输出mpeg-4aac位流。元数据生成器106被耦合并被配置为生成(和/或向级107传递)元数据(包括esbr元数据和sbr元数据)以便由级107包括在编码位流中以从编码器100输出。编码器105被耦合并被配置为对输入的音频数据进行编码(例如,通过对其执行压缩),并且将所得的编码音频断言到级107以用于包括在编码位流中以从级107输出。级107被配置为将来自编码器105的编码音频和来自生成器106的元数据(包括esbr元数据和sbr元数据)进行复用(multiplex)以生成要从级107输出的编码位流,优选地使得编码位流具有由本发明的实施例中的一个指定的格式。缓冲存储器109被配置为存储(例如,以非暂态方式)从级107输出的编码音频位流的至少一个块,然后编码音频位流的块序列从缓冲存储器109被断言为从编码器100输出到输送系统。图3是包括作为本发明性音频处理单元的实施例的解码器(200)并且可选地还包括耦合到其的后处理器(300)的系统的框图。解码器200和后处理器300的部件或元件的任何一个可以在硬件、软件或硬件和软件的组合中被实现为一个或多个过程和/或一个或多个电路(例如,asic、fpga或其它集成电路)。解码器200包括如图所示连接的缓冲存储器201、位流有效载荷去格式化器(解析器)205、音频解码子系统202(有时称为“核心”解码级或“核心”解码子系统)、esbr处理级203以及控制位生成器204。通常,解码器200还包括其它处理元件(未示出)。缓冲存储器(缓冲器)201存储(例如,以非暂态方式)由解码器200接收的编码的mpeg-4aac音频位流的至少一个块。在解码器200的操作中,位流的块序列从缓冲器201被断言到去格式化器205。在图3实施例的变型(或者将要描述的图4实施例)中,不是解码器的apu(例如,图6的apu500)包括缓冲存储器(例如,与缓冲器201相同的缓冲存储器),其存储(例如,以非暂态方式)由图3或图4的缓冲器201接收的(即,包括esbr元数据的编码音频位流)相同类型的编码音频位流(例如,mpeg-4aac音频位流)的至少一个块。再次参考图3,去格式化器205被耦合并且被配置为对位流的每个块进行解复用以从中提取sbr元数据(包括量化的包络数据)和esbr元数据(并且通常还有其它元数据),以将至少esbr元数据和sbr元数据断言到esbr处理级203,并且通常还将其它提取出的元数据断言到解码子系统202(并且可选地还断言到控制位生成器204)。去格式化器205还被耦合并被配置为从位流的每个块提取音频数据,并将提取出的音频数据断言到解码子系统(解码级)202。图3的系统可选地还包括后处理器300。后处理器300包括缓冲存储器(缓冲器)301以及包含耦合到缓冲器301的至少一个处理元件的其它处理元件(未示出)。缓冲器301存储(例如,以非暂态方式)由后处理器300从解码器200接收的解码的音频数据的至少一个块(或帧)。后处理器300的处理元件被耦合并且被配置为接收从缓冲器301输出的解码音频的块(或帧)序列,并使用从解码子系统202(和/或去格式化器205)输出的元数据和/或从解码器200的级204输出的控制位来自适应地处理从缓冲器301输出的解码音频的块(或帧)序列。解码器200的音频解码子系统202被配置为对由解析器205提取出的音频数据进行解码(这种解码可以被称为“核心”解码操作)以生成解码的音频数据,并将解码的音频数据断言到esbr处理级203。解码在频域中执行,并且通常包括反量化,后面跟着频谱处理。通常,子系统202中的最终处理级将频域-时域变换应用到解码的频域音频数据,使得子系统的输出是时域解码的音频数据。级203被配置为将由(被解析器205提取的)esbr元数据和sbr元数据所指示的esbr工具和sbr工具应用到解码的音频数据(即,使用sbr和esbr元数据对解码子系统202的输出执行sbr和esbr处理),以生成从解码器200输出(例如,到后处理器300)的完全解码的音频数据。通常,解码器200包括存储从去格式化器205输出的去格式化的音频数据和元数据的存储器(可由子系统202和级203访问),并且级203被配置为在sbr和esbr处理期间根据需要访问音频数据和元数据(包括sbr元数据和esbr元数据)。级203中的sbr处理和esbr处理可以被认为是对核心解码子系统202的输出的后处理。可选地,解码器200还包括最终上混子系统(其可以使用由去格式化器205提取的ps元数据和/或在子系统204中生成的控制位来应用在mpeg-4aac标准中定义的参数化立体声(“ps”)工具),该最终上混子系统被耦合并配置为对级203的输出执行上混,以生成从解码器200输出的完全解码的上混音频。可替代地,后处理器300被配置为对解码器200的输出执行上混(例如,使用由去格式化器205提取的ps元数据和/或在子系统204中生成的控制位)。响应于由去格式化器205提取的元数据,控制位生成器204可以生成控制数据,并且控制数据可以在解码器200内(例如,在最终上混子系统中)使用和/或作为解码器200的输出被断言(例如,到后处理器300以用于后处理)。响应于从输入位流提取的元数据(并且可选地还响应于控制数据),级204可以生成(并且向后处理器300断言)控制位,该控制位指示从esbr处理级203输出的解码的音频数据应当经历特定类型的后处理。在一些实现中,解码器200被配置为将由去格式化器205提取的元数据从输入位流断言到后处理器300,并且后处理器300被配置为使用元数据对从解码器200输出的解码的音频数据执行后处理。图4是作为本发明性音频处理单元的另一实施例的音频处理单元(“apu”)(210)的框图。apu210是未被配置为执行esbr处理的传统解码器。apu210的部件或元件中的任何一个可以在硬件、软件或硬件和软件的组合中被实现为一个或多个过程和/或一个或多个电路(例如,asic、fpga或其它集成电路)。apu210包括如图所示连接的缓冲存储器201、位流有效载荷去格式化器(解析器)215、音频解码子系统202(有时被称为“核心”解码级或“核心”解码子系统)和sbr处理级213。通常,apu210还包括其它处理元件(未示出)。apu210的元件201和202与解码器200(图3)的相同编号的元件相同,并且将不重复上面对它们的描述。在apu210的操作中,从缓冲器201向去格式化器215断言由apu210接收的编码音频位流(mpeg-4aac位流)的块序列。根据本发明的任何实施例,去格式化器215被耦合并配置为对位流的每个块进行解复用,以从其提取sbr元数据(包括量化的包络数据)以及通常还有其它元数据,但是忽略可以被包括在位流中的esbr元数据。去格式化器215被配置为将至少sbr元数据断言到sbr处理级213。去格式化器215还被耦合并配置为从位流的每个块中提取音频数据,并且将提取出的音频数据断言到解码子系统(解码级)202。解码器200的音频解码子系统202被配置为对由去格式化器215提取的音频数据进行解码(这种解码可以被称为“核心”解码操作)以生成解码的音频数据,并将解码的音频数据断言到sbr处理级213。解码在频域中执行。通常,子系统202中的最终处理级将频域-时域变换应用到解码的频域音频数据,使得子系统的输出是时域解码的音频数据。级213被配置为将由(被去格式化器215提取的)sbr元数据指示的sbr工具(但不是esbr工具)应用到解码的音频数据(即,使用sbr元数据对解码子系统202的输出执行sbr处理)以生成从apu210输出的完全解码的音频数据(例如,输出到后处理器300)。通常,apu210包括存储从去格式化器215输出的去格式化的音频数据和元数据的存储器(可由子系统202和级213访问),并且级213被配置为在sbr处理期间根据需要访问音频数据和元数据(包括sbr元数据)。级213中的sbr处理可以被认为是对核心解码子系统202的输出的后处理。可选地,apu210还包括最终上混子系统(其可以使用由去格式化器215提取的ps元数据应用在mpeg-4aac标准中定义的参数化立体声(“ps”)工具),该最终上混子系统被耦合并配置为对级213的输出执行上混以生成从apu210输出的完全解码的上混音频。可替代地,后处理器被配置为对apu210的输出执行上混(例如,使用由去格式化器215提取的ps元数据和/或在apu210中生成的控制位)。编码器100、解码器200和apu210的各种实现被配置为执行本发明性方法的不同实施例。根据一些实施例,在编码音频位流(例如,mpeg-4aac位流)中包括esbr元数据(例如,包括作为esbr元数据的少量控制位),使得传统解码器(其不被配置为解析esbr元数据,或使用与esbr元数据相关的任何esbr工具)可以忽略esbr元数据,但是却在可能的范围内解码位流而不使用esbr元数据或与esbr元数据相关的任何esbr工具,通常没有解码音频质量上的任何显著的损失。但是,被配置为解析位流以识别esbr元数据并且响应于esbr元数据而使用至少一个esbr工具的esbr解码器将享有使用至少一个这种esbr工具的益处。因此,本发明的实施例提供了一种用于以向后兼容的方式高效地发送增强的频谱带复制(esbr)控制数据或元数据的手段(means)。通常,位流中的esbr元数据指示以下esbr工具中的一个或多个(例如,指示以下esbr工具中的一个或多个的至少一个特性或参数)(这些esbr工具在mpegusac标准中被描述,并且可以或可以不在位流的生成期间被编码器应用):·谐波转置;·qmf修补附加预处理(预平坦化);以及·子带间采样时间包络整形或“inter-tes”。例如,被包括在位流中的esbr元数据可以指示(在mpegusac标准和本公开中描述的)参数的值:harmonsbr[ch]、sbrpatchingmode[ch]、sbroversamplingflag[ch]、sbrpitchinbins[ch]、sbrpitchinbins[ch]、bs_intertes、bs_temp_shape[ch][env]、bs_inter_temp_shape_mode[ch][env]和bs_sbr_preprocessing。在本文中,表示法x[ch](其中x是某个参数)表示该参数与要被解码的编码位流的音频内容的声道(“ch”)有关。为了简单起见,我们有时省略表达[ch],并且假设相关参数与音频内容的声道有关。在本文中,表示法x[ch][env](其中x是某个参数)表示该参数与要被解码的编码位流的音频内容的声道(“ch”)的sbr包络(“env”)有关。为了简单起见,我们有时省略表达[env]和[ch],并且假设相关参数与音频内容的声道的sbr包络有关。如所指出的,mpegusac标准设想usac位流包括控制解码器的esbr处理的执行的esbr元数据。esbr元数据包括以下一位(one-bit)元数据参数:harmonicsbr;bs_intertes;和bs_pvc。参数“harmonicsbr”指示对于sbr的谐波修补(谐波转置)的使用。具体而言,harmonicsbr=0指示如在mpeg-4aac标准的4.6.18.6.3节中所描述的非谐波频谱修补;并且harmonicsbr=1指示(如在mpegusac标准的7.5.3或7.5.4节中所描述的、在esbr中使用的类型的)谐波sbr修补。根据非esbr频谱带复制(即,不是esbr的sbr),不使用谐波sbr修补。贯穿本公开,频谱修补被称为基本形式的频谱带复制,而谐波转置被称为增强形式的频谱带复制。参数“bs_intertes”的值指示esbr的inger-tes工具的使用。参数“bs_pvc”的值指示esbr的pvc工具的使用。在对编码位流进行解码期间,(对于由位流指示的音频内容的每个声道“ch”)在解码的esbr处理级期间谐波转置的执行由以下esbr元数据参数控制:sbrpatchingmode[ch];sbroversamplingflag[ch];sbrpitchinbinsflag[ch];和sbrpitchinbins[ch]。值“sbrpatchingmode[ch]”指示在esbr中使用的转置器类型:sbrpatchingmode[ch]=1指示非谐波修补,如mpeg-4aac标准的4.6.18.6.3节中所描述的;sbrpatchingmode[ch]=0指示谐波sbr修补,如mpegusac标准的7.5.3或7.5.4节中所描述的。值“sbroversamplingflag[ch]”指示在esbr中的信号自适应频域过采样与基于dft的谐波sbr修补组合使用,如mpegusac标准的7.5.3节中所描述的。这个标志控制在转置器中利用的dft的大小:1指示如mpegusac标准的7.5.3.1节中所描述的信号自适应频域过采样启用;0指示如mpegusac标准的7.5.3.1节中所描述的信号自适应频域过采样禁用。值“sbrpitchinbinsflag[ch]”控制sbrpitchinbins[ch]参数的解释:1指示sbrpitchinbins[ch]中的值有效并且大于零;0指示sbrpitchinbins[ch]的值被设置为零。值“sbrpitchinbins[ch]”控制sbr谐波转置器中叉积项的添加。值sbrpitchinbins[ch]是[0,127]范围内的整数值,并且表示对作用于核心编码器的采样频率的1536线dft(1536-linedft)在频率区间(frequencybin)中测量的距离。在mpeg-4aac位流指示其声道未被耦合的sbr声道对(而不是单个sbr声道)的情况下,位流指示上述句法的两个实例(用于谐波或非谐波转置),sbr_channel_pair_element()的每个声道一个实例。esbr工具的谐波转置通常改善在相对低的交叉频率处的解码的音乐信号的质量。应当通过或者基于dft或者基于qmf的谐波转置在解码器中实现谐波转置。非谐波转置(即,传统的频谱修补或拷贝(copy))通常改善语音信号。因此,关于哪种类型的转置对于编码特定的音频内容是优选的决定的起始点是依赖于语音/音乐检测选择转置方法,其中对音乐内容采用谐波转置,而对语音内容采用频谱修补。在依赖于被称为“bs_sbr_preprocessing”的一位esbr元数据参数的值而或者执行或者不执行预平坦化的意义上,在esbr处理期间预平坦化的执行由这单个位的值控制。当使用如在mpeg-4aac标准的4.6.18.6.3节中所描述的sbrqmf修补算法时,可以努力执行预平坦化步骤(当由“bs_sbr_preprocessing”参数指示时),以避免被输入到后续包络调节器(包络调节器执行esbr处理的另一级)的高频信号的频谱包络形状的不连续。预平坦化通常改善后续包络调节级的操作,从而导致被感知为更稳定的高频带信号。对于正在被解码的usac位流的音频内容的每个声道(“ch”)的每个sbr包络(“env”),在解码器的esbr处理期间,子带间采样时间包络整形(“inter-tes”工具)的执行由以下esbr元数据参数控制:bs_temp_shape[ch][env];和bs_inter_temp_shape_mode[ch][env]。inter-tes工具在包络调节器之后处理qmf子带采样。这个处理步骤以比包络调节器的时间粒度更细的时间粒度来整形较高频带的时间包络。通过将增益因子应用到sbr包络中的每个qmf子带采样,inter-tes对qmf子带采样当中的时间包络进行整形。参数“bs_temp_shape[ch][env]”是标示inter-tes的使用的标志。参数“bs_inter_temp_shape_mode[ch][env]”指示(如在mpegusac标准中所定义的)inter-tes中的参数γ的值。根据本发明的一些实施例,用于在mpeg-4aac位流中包括指示上面提及的esbr工具(谐波转置、预平坦化和inter_tes)的esbr元数据的总体位速率要求被预期为在每秒几百位的数量级,因为只有执行esbr处理所需要的差分控制数据被发送。传统解码器可以忽略这个信息,因为它是以向后兼容的方式被包括的(如稍后将解释的)。因此,出于数个原因,与包括esbr元数据相关联的对于位速率的不利影响可以被忽略,该数个原因包括以下各项:·因为只有执行esbr处理所需要的差分控制数据被发送(而不是sbr控制数据的同时播放(simulcast)),所以(由于包括esbr元数据而导致的)位速率损失是总位速率的很小一部分;·sbr相关的控制信息的调谐通常不依赖于转置的细节;以及·inter-tes工具(在esbr处理期间采用)执行转置信号的单端后处理。因此,本发明的实施例提供了以向后兼容的方式高效地发送增强的频谱带复制(esbr)控制数据或元数据的手段。esbr控制数据的高效传输减少了采用本发明各方面的解码器、编码器和转码器中的存储器要求,同时对位速率没有切实的负面影响。而且,与根据本发明的实施例执行esbr相关联的复杂度和处理要求也被减少,因为sbr数据仅需要被处理一次而不是同时播放(如果将esbr视为mpeg-4aac中完全分离的对象类型,而不是以向后兼容的方式集成到mpeg-4aac编解码器中,情况将是如此)。接下来,参考图7,我们描述mpeg-4aac位流的块(“raw_data_block”)的元素,根据本发明的一些实施例,mpeg-4aac位流中包括esbr元数据。图7是mpeg-4aac位流的块(“raw_data_block”)的图,示出了位流的段中的一些。mpeg-4aac位流的块可以包括至少一个“single_channel_element()”(例如,图7中所示的单个声道元素)和/或至少一个“channel_pair_element()”(在图7中未具体示出,但是可以存在),包含用于音频节目的音频数据。块还可以包括数个“fill_elements”(例如,图7的填充元素1和/或填充元素2),该数个“fill_elements”包含与节目相关的数据(例如,元数据)。每个“single_channel_element()”包括指示单个声道元素的开始的标识符(例如,图7的“id1”),并且可以包括指示多声道音频节目的不同声道的音频数据。每个“channel_pair_element包括指示声道对元素的开始的标识符(在图7中未示出),并且可以包括指示节目的两个声道的音频数据。mpeg-4aac位流的fill_element(本文称为填充元素)包括指示填充元素的开始的标识符(图7的“id2”)以及在该标识符之后填充数据。标识符id2可以由具有值0x6的、三位的首先发送最高有效位的无符号整数(“uimsbf”)组成。填充数据可以包括extension_payload()元素(在本文中有时称为扩展有效载荷),该元素的句法在mpeg-4aac标准的表4.57中示出。几种类型的扩展有效载荷存在并通过“extension_type”参数而被识别,该参数是四位的首先发送最高有效位的无符号整数(“uimsbf”)。填充数据(例如,其扩展有效载荷)可以包括报头或标识符(例如,图7的“报头1”),该报头或标识符指示表明sbr对象的填充数据的段(即,报头初始化“sbr对象”类型,其在mpeg-4aac标准中被称为sbr_extension_data())。例如,对于报头中的extension_type字段,频谱带复制(sbr)扩展有效载荷用值'1101'或'1110'识别,其中标识符“1101”识别具有sbr数据的扩展有效载荷并且“1110”识别具有带循环冗余校验(crc)以验证sbr数据的正确性的sbr数据的扩展有效载荷。当报头(例如,extension_type字段)初始化sbr对象类型时,sbr元数据(在本文中有时称为“频谱带复制数据”,并且在mpeg-4aac标准中被称为sbr_data())跟在报头之后,并且至少一个频谱带复制扩展元素(例如,图7的填充元素1的“sbr扩展元素”)可以跟在sbr元数据之后。这种频谱带复制扩展元素(位流的段)在mpeg-4aac标准中被称为“sbr_extension()”容器。谱带复制扩展元素可选地包括报头(例如,图7的填充元素1的“sbr扩展报头”)。mpeg-4aac标准设想频谱带复制扩展元素可以包括用于节目音频数据的ps(参数化立体声)数据。mpeg-4aac标准设想当填充元素的(例如,其扩展有效载荷的)报头初始化sbr对象类型(如图7的“报头1”所做的那样)并且填充元素的频谱带复制扩展元素包括ps数据时,填充元素(例如,其扩展有效载荷)包括频谱带复制数据以及“bs_extension_id”参数,该参数的值(即,bs_extension_id=2)指示ps数据被包括在填充元素的频谱带复制扩展元素中。根据本发明的一些实施例,esbr元数据(例如,指示是否要对块的音频内容执行增强的频谱带复制(esbr)处理的标志)被包括在填充元素的频谱带复制扩展元素中。例如,这种标志在图7的填充元素1中被指示,其中该标志出现在填充元素1的“sbr扩展元素”的报头(填充元素1的“sbr扩展报头”)之后。可选地,这种标志和附加的esbr元数据被包括在频谱带复制扩展元素中频谱带复制扩展元素的报头之后(例如,在图7中的填充元素1的sbr扩展元素中,在sbr扩展报头之后)。根据本发明的一些实施例,包括esbr元数据的填充元素还包括“bs_extension_id”参数,该参数的值(例如,bs_extension_id=3)指示esbr元数据被包含在填充元素中并且esbr处理要对相关块的音频内容执行。根据本发明的一些实施例,esbr元数据被包括在mpeg-4aac位流的填充元素(例如,图7的填充元素2)中,而不是填充元素的频谱带复制扩展元素(sbr扩展元素)中。这是因为包含具有sbr数据或带crc的sbr数据的extension_payload()的填充元素不包含任何其它扩展类型的任何其它扩展有效载荷。因此,在esbr元数据被存储其自身的扩展有效载荷的实施例中,使用单独的填充元素来存储esbr元数据。这种填充元素包括指示填充元素的开始的标识符(例如,图7的“id2”)以及在标识符之后的填充数据。填充数据可以包括extension_payload()元素(在本文中有时称为扩展有效载荷),该元素的句法在mpeg-4aac标准的表4.57中示出。填充数据(例如,其扩展有效载荷)包括指示esbr对象的报头(例如,图7的填充元素2的“报头2”)(即,报头初始化增强的频谱带复制(esbr)对象类型),并且填充数据(例如,其扩展有效载荷)包括报头之后的esbr元数据。例如,图7的填充元素2包括这种报头(“报头2”),并且在报头之后还包括esbr元数据(即,填充元素2中的“标志”,其指示增强的频谱带复制(esbr)处理是否要对块的音频内容执行)。可选地,附加的esbr元数据也被包括在图7的填充元素2的填充数据中,在报头2之后。在本段落中描述的实施例中,报头(例如,图7的报头2)具有以下标识值:该标识值不是在mpeg-4aac标准的表4.57中指定的常规值之一,而相反,指示esbr扩展有效载荷(使得报头的extension_type字段指示填充数据包括esbr元数据)。在第一类实施例中,本发明是音频处理单元(例如,解码器),包括:存储器(例如,图3或图4的缓冲器201),被配置为存储编码音频位流的至少一个块(例如,mpeg-4aac位流的至少一个块);位流有效载荷去格式化器(例如,图3的元件205或图4的元件215),耦合到存储器并且被配置为对位流的所述块的至少一部分进行解复用;以及解码子系统(例如,图3的元件202和203,或图4的元件202和213),被耦合并被配置为对位流的所述块的音频内容的至少一部分进行解码,其中块包括:填充元素,包括指示填充元素的开始的标识符(例如,mpeg-4aac标准的表4.85的具有值0x6的“id_syn_ele”标识符)以及在标识符之后的填充数据,其中填充数据包括:识别是否要对块的音频内容执行增强的频谱带复制(esbr)处理的至少一个标志(例如,使用被包括在块中的esbr元数据和频谱带复制数据)。标志是esbr元数据,并且标志的示例是sbrpatchingmode标志。标志的另一示例是harmonicsbr标志。这两个标志都指示要对块的音频数据执行基本形式的频谱带复制还是增强形式的频谱复制。基本形式的频谱复制是频谱修补,并且增强形式的频谱带复制是谐波转置。在一些实施例中,填充数据还包括附加的esbr元数据(即,除标志之外的esbr元数据)。存储器可以是存储(例如,以非暂态方式)编码音频位流的至少一个块的缓冲存储器(例如,图4的缓冲器201的实现)。据估计,在包括esbr元数据(指示这些esbr工具)的mpeg-4aac位流的解码期间,esbr解码器的esbr处理(使用esbr谐波转置、预平坦化和inter_tes工具)的执行复杂度将会如下(对于利用指示的参数的典型解码):·谐波转置(16kbps,14400/28800hz)о基于dft:3.68wmops(加权百万次操作每秒);о基于qmf:0.98wmops;·qmf修补预处理(预平坦化):0.1wmops;以及·子带间采样时间包络整形(inter-tes):至多0.16wmops。已知,对于瞬变(transients),基于dft的转置通常比基于qmf的转置表现得更好。根据本发明的一些实施例,包括esbr元数据的(编码音频位流的)填充元素也包括其值(例如,bs_extension_id=3)标示esbr元数据被包括在填充元素中并且esbr处理要对相关块的音频内容执行的参数(例如,“bs_extension_id”参数),和/或其值(例如,bs_extension_id=2)标示填充元素的sbr_extension()容器包括ps数据的参数(例如,相同的“bs_extension_id”参数)。例如,如下表1中所指示的,具有值bs_extension_id=2的这种参数可以标示填充元素的sbr_extension()容器包括ps数据,并且具有值bs_extension_id=3的这种参数可以标示填充元素的sbr_extension()容器包括esbr元数据:表1bs_extension_id含义0保留1保留2extension_id_ps3extension_id_esbr根据本发明的一些实施例,包括esbr元数据和/或ps数据的每个频谱带复制扩展元素的句法如下表2中所指示的那样(其中“sbr_extension()”表示作为频谱带复制扩展元素的容器,“bs_extension_id”如上表1中所述,“ps_data”表示ps数据,并且“esbr_data”表示esbr元数据):表2在示例性实施例中,上表2中提及的esbr_data()指示以下元数据参数的值:1.上述一位元数据参数“harmonicsbr”、“bs_intertes”和“bs_sbr_preprocessing”中的每个;2.对于要被解码的编码位流的音频内容的每个声道(“ch”),上述参数“sbrpatchingmode[ch]”、“sbroversamplingflag[ch]”、“sbrpitchinbinsflag[ch]”和“sbrpitchinbins[ch]”中的每个;以及3.对于要被解码的编码位流的音频内容的每个声道(“ch”)的每个sbr包络(“env”),上述参数“bs_temp_shape[ch][env]”和“bs_inter_temp_shape_mode[ch][env]”中的每个。例如,在一些实施例中,esbr_data()可以具有表3中指示的句法,以指示这些元数据参数:表3在表3中,中心列中的数字指示左列中对应参数的位数。上述句法使得能够高效地实现增强形式的频谱带复制,诸如谐波转置,作为传统解码器的扩展。具体而言,表3的esbr数据仅包括执行增强形式的频谱带复制所需要的参数,这些参数既不是在位流中已经被支持也不可以从位流中已经被支持的参数直接导出。执行增强形式的频谱带复制所需要的所有其它参数和处理数据是从位流中已经定义的定位中预先存在的参数中提取的。这与简单地发送用于增强的频谱带复制的全部处理元数据的替代(并且效率较低的)实现相反。例如,符合mpeg-4he-aac或he-aacv2的解码器可以被扩展以包括增强形式的频谱带复制,诸如谐波转置。这种增强形式的频谱带复制是解码器已经支持的基本形式的频谱带复制的附加(addition)。在符合mpeg-4he-aac或he-aacv2的解码器的上下文中,这种基本形式的频谱带复制是如mpeg-4aac标准的4.6.18节中定义的qmf频谱修补sbr工具。当执行增强形式的频谱带复制时,扩展的he-aac解码器可以重用(reuse)已经被包括在位流的sbr扩展有效载荷中的位流参数中的许多。可以重用的具体参数包括例如确定主频带表的各种参数。这些参数包括bs_start_freq(确定主频表参数开始的参数)、bs_stop_freq(确定主频表停止的参数)、bs_freq_scale(确定每倍频程(octave)频带数的参数),和bs_alter_scale(更改频带的比例(scale)的参数)。可以重用的参数还包括确定噪声带表的参数(bs_noise_bands)和限幅器(limiter)带表参数(bs_limiter_bands)。除了众多参数,根据本发明的实施例,当执行增强形式的频谱带复制时,其它数据元素也可以被扩展的he-aac解码器重用。例如,包络数据和噪声本底(noisefloor)数据也可以从bs_data_env和bs_noise_env数据中提取并在增强形式的频谱带复制期间被使用。实质上,这些实施例在sbr扩展有效载荷中利用已经由传统he-aac或he-aacv2解码器支持的配置参数和包络数据,以使得能够实现需要尽可能少的额外发送数据的、增强形式的频谱带复制。因而,可以通过依靠已经定义的位流元素(例如,sbr扩展有效载荷中的那些)并且仅(在填充元素扩展有效载荷中)添加支持增强形式的频谱带复制所需要的那些参数而以非常高效的方式来创建支持增强形式的频谱带复制的扩展解码器。通过确保位流与不支持增强形式的频谱带复制的传统解码器向后兼容,这种数据简化特征与将新添加的参数放在保留数据字段(诸如扩展容器)中相结合,大大减少了创建支持增强形式的频谱带复制的解码器的障碍。在一些实施例中,本发明是一种方法,包括对音频数据进行编码以生成编码位流(例如,mpeg-4aac位流)的步骤,该步骤包括通过将esbr元数据包括在编码位流的至少一个块的至少一个段中并且将音频数据包括在该块的至少一个其它段中。在典型的实施例中,该方法包括将编码位流的每个块中的音频数据与esbr元数据进行复用的步骤。在esbr解码器中编码位流的典型解码中,解码器从位流中提取esbr元数据(包括通过解析和解复用esbr元数据和音频数据),并使用esbr元数据来处理音频数据以生成解码的音频数据的流。本发明的另一方面是esbr解码器,被配置为在解码不包括esbr元数据的编码音频位流(例如,mpeg-4aac位流)期间执行esbr处理(例如,使用被称为谐波转置、预平坦化或inter-tes的esbr工具中的至少一种)。将参考图5来描述这种解码器的示例。图5的esbr解码器(400)包括如图所示连接的缓冲存储器201(与图3和图4的存储器201相同)、位流有效载荷去去格式化器215(与图4的去格式化器215相同)、音频解码子系统202(有时被称为“核心”解码级或“核心”解码子系统,并且与图3的核心解码子系统202相同)、esbr控制数据生成子系统401和esbr处理级203(与图3的级203相同)。通常,解码器400还包括其它处理元件(未示出)。在解码器400的操作中,由解码器400接收的编码音频位流(mpeg-4aac位流)的块序列从缓冲器201被断言到去格式化器215。去格式化器215被耦合并配置为对位流的每个块进行解复用,以从其提取sbr元数据(包括量化的包络数据)以及通常还有的其它元数据。去格式化器215被配置为将至少sbr元数据断言到esbr处理级203。去格式化器215还被耦合并配置为从位流的每个块中提取音频数据,并将提取出的音频数据断言到解码子系统(解码级)202。解码器400的音频解码子系统202被配置为对由去格式化器215提取的音频数据进行解码(这种解码可以被称为“核心”解码操作)以生成解码的音频数据,并将解码的音频数据断言到esbr处理级203。解码在频域中执行。通常,子系统202中的最终处理级将频域-时域变换应用到解码的频域音频数据,使得子系统的输出是时域解码的音频数据。级203被配置为将由(被去格式化器215提取的)sbr元数据和在子系统401中生成的esbr元数据指示的sbr工具(和esbr工具)应用到解码的音频数据(即,使用sbr和esbr元数据对解码子系统202的输出执行sbr和esbr处理)以生成从解码器400输出的完全解码的音频数据。通常,解码器400包括存储从去格式化器215(以及可选地还有系统401)输出的去格式化音频数据和元数据的存储器(可由子系统202和级203访问),并且级203被配置为在sbr和esbr处理期间根据需要访问音频数据和元数据。级203中的sbr处理可以被认为是对核心解码子系统202的输出的后处理。可选地,解码器400还包括最终上混子系统(其可以使用由去格式化器215提取的ps元数据应用在mpeg-4aac标准中定义的参数化立体声(“ps”)工具),该最终上混子系统被耦合并配置为对级203的输出执行上混以生成从apu210输出的完全解码的上混音频。图5的控制数据生成子系统401被耦合并配置为检测要被解码的编码音频位流的至少一个性质,并且响应于检测步骤的至少一个结果而生成esbr控制数据(根据本发明的其它实施例,该esbr控制数据可以是或包括编码音频位流中所包括的任何类型的esbr元数据)。esbr控制数据被断言到级203,以便在检测到位流的具体性质(或性质的组合)时触发各个esbr工具或esbr工具的组合的应用和/或以便控制这种esbr工具的应用。例如,为了控制使用谐波转置的esbr处理的执行,控制数据生成子系统401的一些实施例将包括:音乐检测器(例如,常规音乐检测器的简化版本),用于响应于检测到位流指示或不指示音乐而设置sbrpatchingmode[ch]参数(并将设置的参数断言到级203);瞬变检测器,用于响应于检测到由位流指示的音频内容中是否存在瞬变而设置sbroversamplingflag[ch]参数(并将设置的参数断言到级203);和/或音高(pitch)检测器,用于响应于检测到由位流指示的音频内容的音高而设置sbrpitchinbinsflag[ch]和sbrpitchinbins[ch]参数(并将设置的参数断言到级203)。本发明的其它方面是由本段和前面的段中描述的发明性解码器的任何实施例执行的音频位流解码方法。本发明的各方面包括本发明性apu、系统或设备的任何实施例被配置(例如,被编程)为执行的类型的编码或解码方法。本发明的其它方面包括被配置(例如,被编程)为执行本发明性方法的任何实施例的系统或设备,以及存储用于实现本发明性方法或其步骤的任何实施例的代码(例如,以非暂态方式)的计算机可读介质(例如,盘)。例如,本发明性系统可以是或包括用软件或固件编程和/或以其它方式被配置以执行对数据的各种操作中的任何操作(包括本发明性方法或其步骤的实施例)的可编程通用处理器、数字信号处理器或微处理器。这种通用处理器可以是或包括计算机系统,该计算机系统包括被编程(和/或以其它方式被配置)以响应于向其断言的数据而执行本发明性方法(或其步骤)的实施例的输入设备、存储器和处理电路。本发明的实施例可以以硬件、固件或软件或两者的组合(例如,作为可编程逻辑阵列)来实现。除非另有说明,否则作为本发明的一部分被包括的算法或过程并不固有地与任何特定的计算机或其它装置相关。特别地,各种通用机器可以与根据本文的教导编写的程序一起使用,或者构造更专用的装置(例如,集成电路)以执行所需的方法步骤可能更方便。因此,本发明可以在一个或多个可编程计算机系统上执行的一个或多个计算机程序中实现(例如,图1的元件中任何一个的实现,或图2的编码器100(或其元件)的实现,或图3的解码器200(或其元件)的实现,或图4的解码器210(或其元件)的实现,或图5的解码器400(或其元件)的实现),每个计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口,以及至少一个输出设备或端口。程序代码被应用到输入数据以执行本文所述的功能并生成输出信息。输出信息以已知的方式被应用到一个或多个输出设备。每个这样的程序可以以任何期望的计算机语言(包括机器、汇编或高级过程、逻辑或面向对象的编程语言)来实现,以与计算机系统通信。在任何情况下,语言都可以是编译或解释语言。例如,当由计算机软件指令序列实现时,可以通过在合适的数字信号处理硬件中运行的多线程软件指令序列来实现本发明的实施例的各种功能和步骤,在这种情况下,实施例的各种设备、步骤和功能可以与软件指令的部分对应。每个这样的计算机程序优选地被存储在或者被下载到可以由通用或专用可编程计算机读取的存储介质或设备(例如,固态存储器或介质,或者磁或光介质)中,以用于在存储介质或设备由计算机系统读取时配置和操作计算机以执行本文所述的过程。本发明性系统还可以被实现为配置有(即,存储)计算机程序的计算机可读存储介质,其中如此配置的存储介质使计算机系统以具体且预定义的方式操作,以执行本文所述的功能。已经描述了本发明的数个实施例。不过将理解的是,在不背离本发明的精神和范围的情况下,可以做出各种修改。根据上述教导,本发明的许多修改和变化是可能的。应当理解的是,在所附权利要求的范围内,本发明可以以不同于本文具体描述的方式来实践。所附权利要求中包含的任何标号仅用于说明性目的,而不应当用来以任何方式解释或限制权利要求。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1