用于利用响度处理状态元数据处理音频的音频解码器的制作方法

文档序号：2835187阅读：406来源：国知局

专利名称：用于利用响度处理状态元数据处理音频的音频解码器的制作方法
技术领域：
本发明涉及音频信号处理，更具体地，本发明涉及使用表示音频内容的响度处理状态的元数据对音频数据比特流进行编码和解码。本发明的一些实施例生成或解码作为“杜比数字(Dolby Digital) (AC-3)”、“杜比数字 + (Dolby Digital Plus)(增强型 AC-3或E-AC-3)”或者“杜比E (DolbyE)"已知的格式之一的音频数据。
背景技术：
“杜比”、“杜比数字”、“杜比数字+”和“杜比E”是杜比实验室特许公司的商标。杜比实验室提供分别作为“杜比数字”和“杜比数字+”已知的AC-3和E-AC-3的专有实施。音频数据处理单元通常以盲目的方式来操作，并且不注意在数据被接收之前出现的音频数据的处理历史。这可能在以下处理框架内起作用:其中，单个实体进行各种各样的目标媒体渲染装置的所有的音频数据处理和编码，同时，目标媒体渲染装置进行对编码音频数据的所有的解码和渲染。然而，该盲目的处理在以下情况下不能很好地起作用(或者一点都不起作用):其中，多个音频处理单元散布在多种多样的网络上或者串联放置(即，链式放置)并被期望最优地执行它们各自类型的音频处理。例如，某些音频数据可以被编码以用于高性能的媒体系统并且可能必须沿着媒体处理链被转换成适合移动装置的缩减形式。因而，音频处理单元可能不必对已经被执行了某种类型的处理的音频数据执行该类型的音频处理。例如,音量调节(volume leveling)单元可以对输入音频剪辑执行处理,而不管是否之前已经对输入音频剪辑执行了相同的或类似的音量调节。因此，音量调节单元可能在不需要时执行调节。该非必要的处理还可能引起在对音频数据的内容进行渲染时的特定特征的去除和/或降级。音频数据的典型的流包括音频内容(如，音频内容的一个或更多个通道)和表示音频内容的至少一个特征的元数据二者。例如，在AC-3比特流中，存在若干音频元数据参数，这些音频元数据参数具体地意在用于改变被递送到倾听环境的节目的声音。元数据参数之一是“DIALN0RM”参数，其意在表示出现音频节目的会话的平均电平，并且用于确定音频回放信号电平。在包括不同的音频节目分段(每个音频节目分段具有不同的DIALN0RM参数)序列的比特流的回放期间，AC-3解码器使用每个分段的DIALN0RM参数来执行某种类型的响度处理，其中，其修改回放电平或响度，使得分段序列的会话的感知响度处于恒定的电平。编码音频项的序列中的每个编码音频分段(项)会(通常)具有不同的DIALN0RM参数，并且解码器可以对其中每个项的电平进行缩放，使得每个项的会话的回放电平或响度相同或者非常类似，虽然这可能需要在回放期间将不同量的增益应用于不同的项。DIALN0RM通常由用户来设置，并且不是自动生成的，虽然如果用户没有设置任何值时则存在默认的DIALN0RM值。例如，内容产生器可以用AC-3编码器外部的装置来进行响度测量，并且接着将(表示音频节目的口语会话的响度的)结果传输给编码器以设置DIALN0RM值。因此，存在为了正确地设置DIALN0RM参数而对内容产生器的依赖。AC-3比特流中的DIALN0RM参数可能不正确的原因有若干不同的原因。首先，如果内容产生器没有设置DIALN0RM值，则每个AC-3编码器具有在比特流的生成期间使用的默认的DIALN0RM值。该默认值可能与音频的实际会话响度电平相当不同。第二，即使内容产生器测量响度并且相应地设置DIALN0RM值，也可能使用不遵守推荐的AC-3响度测量方法的响度测量算法或仪表，从而导致错误的DIALN0RM值。第三，即使已经利用内容产生器正确地测量的并且设置的DIALN0RM值产生了 AC-3比特流，其可能在比特流的传输和/或存储期间已经被改为错误的值。例如，在电视广播应用中，使用错误的DIALN0RM元数据信息来对AC-3比特流进行解码、修改和接着重新编码不是不常见。因此，AC-3比特流中所包括的DIALN0RM值可能是不正确的或者不准确的，因此可能对于倾听体验的质量有负面影响。此外，DIALN0RM参数不指示相应的音频数据的响度处理状态(如，已经对音频数据执行了什么类型的响度处理)。在本发明之前，音频比特流一直没有以本公开中描述的类型的格式包括元数据，所述元数据表示音频比特流的音频内容的响度处理状态(如，所应用的响度处理的类型)、或者比特流的音频内容的响度处理状态和响度。这样的格式的响度处理状态元数据用于以特别有效的方式便利对音频比特流的自适应响度处理和/或音频内容的响度处理状态和响度的有效性的验证。国际提交日为2011年12月I日并且被受让给本申请的受让人的公开号为W02012/075246A2的PCT国际申请公开了用于生成、解码和处理包括表示音频内容的处理状态(如，响度处理状态)和特性(如，响度)的元数据在内的音频比特流的方法和系统。该参考文献还描述了使用元数据执行的对比特流的音频内容的自适应处理、以及使用元数据执行的对比特流的音频内容的响度处理状态和响度的有效性的验证。然而，该参考文献没有描述以本公开内容中描述的类型的格式在音频比特流中包括表示音频内容的响度处理状态和响度的元数据(LPSM)。如所注意到的，这样的格式的LPSM用于以特别有效的方式便利对流的自适应响度处理和/或音频内容的响度处理状态和响度的有效性的验证。虽然本发明不限于与AC-3比特流、E-AC-3比特流或者杜比E比特流一起使用，然而，为了方便，将在实施例中对其进行描述，在实施例中，其生成、解码或者处理这样的包括响度处理状态元数据在内的比特流。AC-3编码比特流包括元数据以及音频内容的一至六个通道。音频内容是已经使用感知音频编码被压缩的音频数据。元数据包括意在用于改变被递送给倾听环境的节目的声音的若干音频元数据参数。AC-3 (也称为杜比数字)编码的细节是公知的，并且在很多公开参考文献中被阐明，这些公开的参考文献包括:ATSC Standard A52/A:Digital Audio Compression Standard(AC-3), RevisionA,Advanced Television Sy stems Committee, 20Aug.2001 ;以及美国专利5，583，962,5, 632，005,5, 633，981,5, 727，119 和 6，021，386。[0017]“Introduction to Dolby Digital Plus, an Enhancement to the Dolby DigitalCoding System”，AES Convention Paper6191, 117th AESConvention, October28, 2OO4 中阐明了杜比数字+ (E-AC-3)编码的细节。“Efficient Bit Allocation, Quantization, and Coding in an AudioDistribution System”，AES Preprint5068,107th AES conference, Augustl999 和“Professional Audio Coder Optimized for Use with Video”，AES Preprint5033, 107thAES Conference Augustl999中阐明了杜比E编码的细节。AC-3编码音频比特流的每个帧包含用于数字音频的1536个样本的音频内容和元数据。对于48kHz的采样速率，这表示32毫秒的数字音频或者音频的每秒31.25个帧的速率。取决于帧包含一个、两个、三个还是六个音频数据块，E-AC-3编码音频比特流的每个帧分别包含用于数字音频的256、512、768或1536个样本的音频内容和元数据。对于48kHz的采样速率，这分别表示5.333、10.667、16或32毫秒的数字音频或者音频的每秒189.9,93.75,62.5 或 31.25 个帧的速率。如图4所示，每个AC-3帧被分成区段(分段)，包括:同步信息(SI)区段，其包含(如图5所示)同步字(SW)和两个纠错字中的第一纠错字(CRCl);比特流信息(BSI)区段，其包含元数据的大多数；一个至六个之间的音频块(AB0至AB5)，其包含数据压缩的音频内容(也可以包括元数据)；浪费比特(W)，其包含在音频内容被压缩之后留下的任意的未使用的比特；辅助(AUX)信息区段，其可以包含更多的元数据；以及两个纠错字中的第二纠错字(CRC2)。如图7所示，每个E-AC-3帧被划分成区段(分段)，包括:同步信息(SI)区段，其包含(如图5所示)同步字(SW);比特流信息(BSI)区段，其包含元数据的大多数；一个至六个之间的音频块(AB0至AB5)，其包含数据压缩的音频内容(也可以包括元数据)；浪费比特(W)，其包含在音频内容被压缩之后留下的任意的未使用的比特；辅助(AUX)信息区段，其可以包含更多的元数据；以及纠错字(CRC)。在AC-3 (或者E-AC-3)比特流中,存在若干音频元数据参数,该音频元数据参数具体地意在用于改变被递送给倾听环境的节目的声音。元数据参数之一是DIALN0RM参数，其包括在BSI区段中。如图6所示，AC-3帧的BSI区段包括五比特的参数(“DIALN0RM”)，其指示用于该节目的DIALN0RM值。如果AC-3帧的音频编码模式(“acmod”)为“0”，指示使用双-单或者“ 1+1”通道配置，则包括用于指示同一 AC-3帧中承载的第二音频节目的DIALN0RM值的五比特的参数(“DIALN0RM2，，)。BSI分段还包括:用于表示跟随“addbsie”比特的附加比特流信息的存在(或不存在)的标志(“addbsie”)、用于表示跟随“addbsil”值的任意附加比特流信息的长度的参数(“addbsil”)、以及跟随“addbsil”值的最高达64比特的附加比特流信息(“addbsi ”)。BSI分段包括没有在图6中具体示出的其他元数据值。

实用新型内容在一类实施例中，本发明是一种包括以下步骤的方法:通过在比特流的至少一个帧的至少一个分段中包括响度处理状态元数据(LPSM)并且在该帧的至少一个其他分段中包括音频数据，对音频数据进行编码以生成包括响度处理状态元数据和音频数据在内的编码音频比特流。在典型的实施例中，该方法包括步骤:在比特流的每个帧中复用音频数据与LPSM。在典型的解码中，解码器(通过解析和解复用LPSM和音频数据)从包括LPSM和音频数据的比特流中提取LPSM，并且对音频数据进行处理以生成解码音频数据流(并且，在某些情况下，还使用LPSM执行对音频数据的自适应响度处理或者对LPSM和/或音频数据的认证和/或验证中的至少一个)。在某些情况下，解码音频数据和LPSM从解码器转发给后处理器，后处理器被配置成使用LPSM对解码音频数据执行自适应响度处理。自适应响度处理可以包括动态范围和/或响度控制(如，会话响度调节或其他音量调节)，或者自适应响度处理可以由动态范围和/或响度控制构成。响应于LPSM，音频处理单元可以禁止(如LPSM所示)已经对相应的音频内容执行的响度处理。可以对根据本发明的典型的实施例的嵌入在音频比特流中的响度处理状态元数据进行认证和验证，如使能响度调节实体来验证具体的节目的响度是否已经在指定的范围内以及相应的音频数据本身是否还没有被修改过(从而确保符合可应用的规则)。可以读取包括响度处理状态元数据在内的数据块中所包括的响度值，以对其进行验证，代替再次计算响度。响应于LPSM，管理机构可以判定相应的音频内容是否符合(如LPSM所示)响度法规和/或管理要求(如，在商业广告响度降低法案(Commercial Advertisement LoudnessMitigation Act),也称为“CALM”法案下公布的规则),而不需要计算音频内容的响度。本发明的另外的方面是被配置成执行本发明的方法的任意实施例的音频处理单元(APU)。在另一类实施例中，本发明是包括缓冲存储器(缓冲器)的APU，缓冲存储器(如，以非暂时性方式)存储已经由本发明的方法的任意实施例生成的编码音频比特流的至少一个帧。APU的示例包括但不限于编码器(如，转码器)、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、音频比特流处理系统以及这样的元件的组合。在另一类实施例中，本发明是被配置成生成包括音频数据分段和元数据分段的编码音频比特流的音频处理单元(APU)，其中，音频数据分段表示音频数据，并且至少部分元数据分段中的每个包括响度处理状态元数据(LPSM)。通常，比特流的帧中的至少一个这样的元数据分段包括=LPSM的表示是否已经对帧的音频数据(即在所述帧的至少一个音频数据分段中的音频数据)执行了第一类型的响度处理的至少一个分段；以及LPSM的表示帧的音频数据中的至少一些的响度(如，表示会话的帧的音频数据中的至少一些的会话响度)的至少一个其他分段。在这种类型的一个实施例中，APU是一种被配置成对输入音频进行编码以生成编码音频的编码器，音频数据分段包括编码音频。在这种类型的典型实施例中，每个元数据分段具有本文中要描述的优选格式。在一种优选格式中，编码比特流是AC-3比特流或者E-AC-3比特流，并且，每个包括LPSM的元数据分段作为附加比特流信息被包括在比特流的帧的比特流信息(“BSI”)分段的“addbsi”域中。每个包括LPSM的元数据分段具有本文中在以下参考表I和表2指定的格式(即，其包括表I所示的核心元素或者其变型，核心元素或者其变型之后跟随有效载荷ID (将元数据标识为LPSM)和有效载荷尺寸值，有效载荷ID和有效载荷尺寸值之后跟随有效载荷(如本文中所述的具有如表2所示的格式或者表2的变型所示的格式的LPSM数据))。[0032]在另一优选格式中，编码比特流是AC-3比特流或者E-AC-3比特流，并且，每个包括LPSM的元数据分段被包括在比特流的帧的比特流信息(“BSI ”)分段的“addbsi ”域中，或者被包括在比特流的帧的端部处的auxdata (辅助数据)域(如，图4所示的AUX分段)中。帧可以包括一个或两个元数据分段，每个元数据分段包括LPSM，并且，如果帧包括两个元数据分段，则其中一个元数据分段存在于帧的addbsi域中，而另一个元数据分段存在于帧的AUX域中。包括LPSM的每个元数据分段具有本文中在以下参考表I和表2指出的格式(即，其包括表I所示的核心元素或者其变型，之后跟随有效载荷ID (将元数据标识为LPSM))和有效载荷尺寸值，之后跟随有效载荷(如本文中所述的具有如表2所示的格式或者表2的变型所示的格式的LPSM数据)。在另一优选格式中，编码比特流是一种并非AC-3比特流或者E-AC-3比特流的比特流，并且，包括LPSM的元数据分段中的每个被包括在被保留用于存储附加数据的比特流的分段(或域、或时隙)中。包括LPSM的每个元数据分段可以具有与本文中在以下参考表I和表2指出的格式类似或相同的格式(S卩，其包括与表I所示的核心元素类似或相同的核心元素，之后跟随有效载荷ID (将元数据标识为LPSM)和有效载荷尺寸值，之后跟随有效载荷(具有与如本文中所述的如表2所示的格式或者表2的变型所示的格式类似或相同的格式的LPSM数据))。在某些实施例中，编码比特流包括帧的序列，每个帧包括比特流信息(“BSI ”)分段和auxdata域或时隙(如，编码比特流是AC_3比特流或者E_AC_3比特流)，其中，比特流信息(“BSI ”)分段包括“addbsi ”域(有时称为分段或时隙)，并且，每个帧包括音频数据分段(如，图4所示的帧的AB0-AB5分段)和元数据分段，其中，元数据分段表示音频数据，至少部分元数据分段的每个包括响度处理状态元数据(LPSM)。LPSM以以下格式存在于比特流中。包括LPSM的元数据分段中的每个被包括在比特流的帧的BSI分段的“addbsi”域中，或者被包括在比特流的巾贞的auxdata域中。比特流的巾贞可以包括一个或两个元数据分段，每个元数据分段包括LPSM，并且，如果帧包括两个元数据分段，则其中一个元数据分段存在于帧的addbsi域中，而另一个存在于帧的AUX域中。包括LPSM的每个元数据分段包括具有以下格式的LPSM有效载荷(或容器)分段:首部(通常包括至少一个标识值，如以下表2中所示的LPSM格式版本、长度、周期、计数和子流关联值)；以及在首部之后的:至少一个会话指示值(如，表2的参数“会话通道”)，其指示相应的音频数据是指示会话还是不指示会话(如,相应的音频数据的哪个通道指示会话)。会话指示值可以指示会话是否存在于相应的音频数据的通道的任意组合或所有通道中；至少一个响度调节相符值(如，表2的参数“响度调节类型”)，其指示相应的音频数据是否与所指示的响度调节的集合相符；至少一个响度处理值(如，表2的参数“会话选通的响度校正标志”、“响度校正类型”中的一个或更多个)，其指示已经对相应的音频数据执行的至少一种类型的响度处理；以及至少一个响度值(如，表2的参数“ ITU相对选通的响度”、“ ITU语音选通的响度”、“ITU (EBU3341)短期3s响度”和“真实峰值”中的一个或更多个)，其指示相应的音频数据的至少一个响度(如，峰值或者平均响度)特性。在本发明的专注、使用或者生成表示相应的音频数据的至少一个响度值的任意实施例中，响度值可以指示用于处理音频数据的响度和/或动态范围的至少一个响度测量特性。在一些实现中，比特流的巾贞的“addbsi”域或auxdata域中的每个元数据分段具有以下格式:核心首部(通常包括标识元数据分段的开始的同步字，其后跟随标识值，如以下表I中所示的核心元素版本、长度和周期、扩展元素计数以及子流关联值)；以及在核心首部之后的至少一个保护值(如，HMAC摘要和音频指纹值，其中，HMAC摘要可以是基于整个帧的音频数据、核心元素和所有的扩展元素计算的256比特的HMAC摘要(使用SHA-2算法)，如表I所示，其用于响度处理状态元数据或相应的音频数据中的至少一个的解密、认证或验证中的至少一个)；以及如果元数据分段包括LPSM，则也在核心首部之后的LPSM有效载荷标识(ID)和LPSM有效载荷尺寸值，其将跟随的元数据标识为LPSM有效载荷并且指示LPSM有效载荷的尺寸。LPSM有效载荷分段(优选地具有上述格式)跟随LPSM有效载荷ID和LPSM有效载荷尺寸值。在以上段落中描述的类型的一些实施例中，帧的auxdata域(或者“addbsi”域)中的每个元数据分段具有三层结构:高层结构,包括:指示auxdata(或addbsi)域是否包括元数据的标志；指示存在的是什么类型的元数据的至少一个ID值；以及通常还包括指示存在多少比特的元数据(如，每种类型的元数据)的值(如果存在元数据)。可能存在的一种类型的元数据是LPSM，可能存在的另一种类型的元数据是媒体研究元数据(如，尼尔森(Nielsen)媒体研究元数据)；中层结构，包括用于每个标识的类型的元数据的核心元素(如，对于每种标识的类型的元数据如上述类型的核心首部、保护值和有效载荷ID以及有效载荷尺寸值)；以及低层结构，包括用于一个核心元素的每个有效载荷(如，如果核心元素将其标识为存在，则是LPSM有效载荷，和/或，如果核心元素将其标识为存在，则是另一种类型的元数据有效载荷)。可以对在这样的三层结构中的数据值进行嵌套。例如，可以在由核心元素标识的有效载荷之后(从而在核心元素的核心首部之后)，包括用于LPSM有效载荷和/或由核心元素标识的另一元数据有效载荷的保护值。在一种示例中，核心首部可以标识LPSM有效载荷与另一元数据有效载荷，用于第一有效载荷(如，LPSM有效载荷)的有效载荷ID和有效载荷尺寸值可以跟随核心首部，第一有效载荷本身可以跟随该ID和尺寸值，用于第二有效载荷的有效载荷ID和有效载荷尺寸值可以跟随第一有效载荷，第二有效载荷本身可以跟随这些ID和尺寸值，并且，两种有效载荷之一或两者(或者核心元素值和两种有效载荷之一或两者)的保护值可以跟随最后的有效载荷。在一些实施例中，帧的auxdata域(或“addbsi”域)中的元数据分段的核心元素包括核心首部(通常包括标识值，如核心元素版本)，并且在核心首部之后包括:指示指纹数据是否被包括用于元数据分段的元数据的值、指示是否存在外部数据(与对应于元数据分段的元数据的音频数据有关)的值、由核心元素标识的每种类型的元数据(如，LPSM和/或除了 LPSM之外的类型的元数据)的有效载荷ID和有效载荷尺寸值、以及由核心元素标识的至少一种类型的元数据的保护值。元数据分段的元数据有效载荷跟随核心首部，并且(在一些情况下)被嵌套在核心元素的值内。在另一优选格式中，编码比特流是杜比E比特流，并且，包括LPSM的元数据分段中的每个被包括在杜比E保护带间隔的前N个样本位置中。在另一类型的实施例中，本发明是APU (如，解码器)，APU被耦接和配置来接收包括音频数据分段和元数据分段的编码音频比特流的，其中，音频数据分段表示音频数据，并且至少部分元数据分段中的每个包括响度处理状态元数据(LPSM)，并且APU被耦接和配置来从比特流中提取LPSM，响应于音频数据来生成解码音频数据、以及使用LPSM对音频数据执行至少一个自适应响度处理操作。这种类型中的某些实施例还包括耦接至APU的后处理器，其中，后处理器被耦接和配置来使用LPSM对音频数据执行至少一个自适应响度处理操作。在另一类型的实施例中，本发明是包括缓冲存储器(缓冲器)和耦接至缓冲器的处理子系统的音频处理单元(APU)。其中，APU被耦接成接收包括音频数据分段和元数据分段的编码音频比特流，其中，音频数据分段表示音频数据，并且至少部分元数据分段中的每个包括响度处理状态元数据(LPSM)、缓冲器(如，以非暂时性方式)存储编码音频比特流的至少一个帧，并且处理子系统被配置成从比特流中提取LPSM以及使用LPSM对音频数据执行至少一个自适应响度处理操作。在这种类型中的典型的实施例中，APU是编码器、解码器和后处理器中的一种。在本发明的方法的一些实现中，所生成的音频比特流是AC-3编码比特流、E-AC-3比特流或者杜比E比特流中的一种，包括响度处理状态元数据以及其他元数据(如，DIALN0RM元数据参数、动态范围控制元数据参数和其他元数据参数)。在方法的一些其他实现中，所生成的音频比特流是另一类型的编码比特流。本发明的各个方面包括被配置(或编程)成执行本发明的方法的任意实施例的系统或装置、以及(如，以非暂时性方式)存储用于实现本发明的方法或其步骤的任意实施例的代码的计算机可读介质(如，磁盘)。例如，本发明的系统可以是或者包括用软件或固件编程的可编程通用处理器、数字信号处理器或微处理器，和/或被配置成执行对数据的各种操作中的任意操作，包括发明的方法或其步骤的实施例。这样的通用处理器可以是或者包括如下计算机系统:其包括输入装置、存储器和处理电路，其被编程为(和/或被配置成)响应于向其传送的数据来执行本发明的方法(或步骤)的实施例。

图1是可以被配置成执行本发明的方法的实施例的系统的实施例的框图；图2是作为本发明的音频处理单元的实施例的编码器的框图；图3是作为本发明的音频处理单元的实施例的解码器以及作为本发明的音频处理单元的另一实施例的与解码器耦接的后处理器的框图；图4是AC-3帧的图，包括其被划分成的分段；图5是AC-3帧的同步信息(SI)分段的图，包括其被划分成的分段；图6是AC-3帧的比特流信息(BSI)分段的图，包括其被划分成的分段；以及图7是E-AC-3帧的图，包括其被划分成的分段。[0063]符号和命名贯穿本公开，包括在权利要求中，在广义上使用“对”信号或数据执行操作(如，对信号或数据进行滤波、缩放、变换或施加增益)的表述来表示直接对信号或数据、或者对信号或数据的已处理版本(如，对在对其执行该操作之前已经经历了初步的滤波或预处理的信号的版本)执行该操作。贯穿本公开，包括在权利要求中，在广义上使用表述“系统”来表示装置、系统或子系统。例如，实现解码器的子系统可以被称为解码器系统，包括这样的子系统的系统(如，响应于多个输入生成X个输出信号的系统,其中，子系统生成M个输入,其他X-M个输入从外部源来接收)也可以被称为解码器系统。贯穿本公开，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或者否则可(利用软件或固件)配置以对数据(如，音频或视频或其他图像数据)执行操作的系统或装置。处理器的示例包括现场可编程门阵列(或者其他可配置集成电路或芯片组)、被编程和/或否则被配置成对音频或其他声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。贯穿本公开，包括在权利要求中，表述“音频处理器”和“音频处理单元”被可交换地使用，并且在广义上被用来表示被配置成处理音频数据的系统。音频处理单元的示例包括但不限于编码器(如，转码器)、解码器、编解码器、预处理系统、后处理系统和比特流处理系统(有时被称为比特流处理工具)。贯穿本公开，包括在权利要求中，表述“处理状态元数据”(如，在表述“响度处理状态元数据”中)指与相应的音频数据(也包括处理状态元数据在内的音频数据流的音频内容)分离的且不同的数据。处理状态元数据与音频数据相关联，指示相应的音频数据的响度处理状态(如，已经对音频数据执行了什么类型的处理)，并且通常还指示音频数据的至少一个特征或特性。处理状态元数据与音频数据的关联是时间同步的。因此，当前(最近接收的或更新的)处理状态元数据指示相应的音频数据同时包括指示类型的音频数据处理的结果。在某些情况下，处理状态元数据可以包括处理历史和/或用在指示类型的处理中和/或根据指示类型的处理得到的参数中的一些或全部。附加地，处理状态元数据可以包括相应的音频数据的至少一个特征或特性，所述至少一个特征或特性已经根据音频数据计算出或从音频数据中提取到。处理状态元数据还可以包括不是与相应的音频数据的任意处理相关的或者不是从相应的音频数据的任意处理中得到的其他元数据。例如，可以通过具体的音频处理单元来添加第三方数据、乐曲(tracking)信息、标识符、专有权或标准信息、用户注解数据、用户偏好数据等，以传递给其他音频处理单元。贯穿本公开，包括在权利要求中，表述“响度处理状态元数据”(或“LPSM”)表示如下处理状态元数据:其表示相应的音频数据的响度处理状态(如，已经对音频数据执行了什么类型的响度处理)，并且通常还表示相应的音频数据的至少一个特征或特性(如，响度)。响度处理状态元数据可以包括不是(即，当其被单独考虑时)响度处理状态元数据的数据(如，其他元数据)。贯穿本公开，包括在权利要求中，使用术语“耦接(couples)”或“被耦接(coupled)”来表示直接连接或间接连接。因此，如果第一装置耦接至第二装置，则该连接可以是直接连接或者是通过其他装置和连接实现的间接连接。
具体实施方式
根据本发明的典型的实施例，响度处理状态元数据(LPSM)嵌入在音频比特流的元数据分段的一个或多个保留的域(或时隙)中，该音频比特流在其他分段(音频数据分段)中也包括音频数据。通常，比特流的每个帧的至少一个分段包括LPSM，该帧的至少一个其他分段包括相应的音频数据(即，由LPSM指示其响度处理状态和响度的音频数据)。在一些实施例中，LPSM的数据量可以充分小以在不影响被分配用于承载音频数据的比特速率的情况下被承载。当两个或更多个音频处理单元需要遍及处理链(或内容生命周期)彼此串联工作时，在音频数据处理链中传送响度处理状态元数据特别有用。在音频比特流中不包括响度处理状态元数据的情况下，例如，当在链中使用两个或更多个音频编解码器并且在比特流的至媒体消耗装置(或者比特流的音频内容的渲染点)的行程期间不止一次施加单端音量调节时，可能出现严重的媒体处理问题，如质量、电平和空间的降级。图1是示例性音频处理链(音频数据处理系统)的框图，其中，可以根据本发明的实施例配置系统的元件中的一个或更多个。该系统包括如所示出地那样耦接在一起的以下元件:预处理单元、编码器、信号分析和元数据校正单元、转码器、解码器和预处理单元。在所示出的系统的变型中，省略了其中一个或多个元件，或者包括附加的音频数据处理单元。在一些实现中，图1的预处理单元被配置成:接受包括音频内容在内的PCM(时域)样本作为输入；以及输出经处理的PCM样本。编码器可以被配置成:接受PCM样本作为输A ;以及输出表示音频内容的编码比特流(如，压缩)音频比特流。表示音频内容的比特流的数据有时在本文中被称为“音频数据”。如果编码器根据本发明的典型的实施例来配置，则从编码器输出的音频比特流包括响度处理状态元数据(通常还有其他元数据)以及音频数据。图1的信号分析和元数据校正单元可以接受一个或更多个编码音频比特流作为输入，并且通过执行信号·分析来判定(如，验证)在每个编码音频比特流中的处理状态元数据是否正确。如果信号分析和元数据校正单元发现所包括的元数据无效，则其通常用根据信号分析获得的正确的值来替代错误的值。因此，从信号分析和元数据校正单元输出的每个编码音频比特流可以包括已校正(或未校正)处理状态元数据以及编码比特流音频数据。图1的转码器可以接受编码音频比特流作为输入，并且相应地输出已修改(如，不同地编码的)音频比特流(如，通过对输入流进行解码并且以不同的编码格式对解码流进行重新编码)。如果转码器根据本发明的典型的实施例来配置，则从转码器输出的音频比特流包括响度处理状态元数据(通常还有其他元数据)以及编码比特流音频数据。元数据已经被包括在比特流中。图1的解码器可以接受编码(如，压缩)音频比特流作为输入，并且(相应地)输出解码PCM音频样本的流。如果解码器根据本发明的典型的实施例来配置，则典型的操作中的解码器的输出是或者包括以下中的任一个:音频样本的流、以及从输入编码比特流中提取的响度处理状态元数据(通常还有其他元数据)的相应的流；或者音频样本的流、以及根据从输入编码比特流中提取的响度处理状态元数据(通常还有其他元数据)确定的相应的控制比特的流；或者在没有处理状态元数据或根据处理状态元数据确定的控制比特的相应的流的情况下的音频样本的流。在该最后的情况下，解码器可以从输入编码比特流中提取响度处理状态元数据(和/或其他元数据)，以及对所提取的元数据执行至少一次操作(如，验证)，虽然其没有输出所提取的元数据或者根据其确定的控制比特。通过根据本发明的典型的实施例来配置图1的后处理单元，后处理单元被配置成接受解码PCM音频样本的流，并且使用与样本一起接收的响度处理状态元数据(通常还有其他元数据)或者与样本一起接收的控制比特(其由解码器根据响度处理状态元数据并且通常还根据其他元数据确定)来对其执行后处理(即，音频内容的音量调节)。后处理单元通常还被配置成对经后处理的音频内容进行渲染以由一个或更多个扬声器回放。本发明的典型的实施例提供了增强型音频处理链，其中，根据由通过音频处理单元分别接收的响度处理状态元数据指示的元数据的同时期的状态，音频处理单元(如，编码器、解码器、转码器、预处理单元和后处理单元)适配待施加给音频数据的它们的各个处理。输入到图1的系统的任意音频处理单元(如，图1的编码器或转码器)的音频数据可以包括响度处理状态元数据(还可选地包括其他元数据)以及音频数据(如，编码音频数据)。根据本发明的实施例，该元数据可以已经通过图1的系统的另一元件(或者图1中未示出的另一源)被包括在输入音频中。接收(具有元数据的)输入音频的处理单元可以被配置成对元数据执行至少一个操作(如，验证)或者响应于元数据执行至少一个操作(如，对输入音频的自适应处理)，并且通常还被配置成在其输出音频中包括元数据、元数据的已处理版本或者根据元数据确定的控制比特。本发明的音频处理单元(或音频处理器)的典型实施例被配置成基于由与音频数据对应的响度处理状态元数据指示的音频数据的状态来执行对音频数据的自适应处理。在一些实施例中，自适应处理是(或者包括)响度处理(如果元数据指示还没有对音频数据执行响度处理或者与其类似的处理)，并且不是(或者不包括)响度处理(如果元数据指示已经对音频数据执行了这样的响度处理或者与其类似的处理)。在一些实施例中，自适应处理是或者包括元数据验证(如，在元数据验证子单元中执行的元数据验证)，以确保音频处理单元基于由响度处理状态元数据指示的音频数据的状态来执行对音频数据的其他自适应处理。在一些实施例中，验证判定与该音频数据相关联(如，包括在具有该音频数据的比特流中)的响度处理状态元数据的可靠性。例如，如果元数据被验证为可靠，则可以重复使用来自某种类型的事先执行的音频处理的结果，并且可以避免同一类型的音频处理的新的执行。另一方面，如果发现元数据已经被篡改(或者不可靠)，则可以由音频处理单元来重复据称事先被执行的这种类型的媒体处理(如不可靠的元数据指示的那样)，和/或可以由音频处理单元对元数据和/或音频数据执行其他处理。音频处理单元还可以被配置成如果音频处理单元判定处理状态元数据有效(如，基于所提取的密码值与参考密码值的匹配)，则向增强型媒体处理链中的下游的其他音频处理单元示意响度处理状态元数据(如，存在于媒体比特流中的响度处理状态元数据)是有效的。图2是作为本发明的音频处理单元的实施例的编码器(100)的框图。编码器100的任意部件或元件都可以用硬件、软件或硬件与软件的组合实现为一个或更多个处理和/或一个或更多个电路(如，ASIC、FPGA或其他集成电路)。编码器100包括如所示地连接的帧缓冲器110、解析器111、解码器101、音频状态验证器102、响度处理级103、音频流选择级104、编码器105、填充器/格式器级107、元数据生成级106、会话响度测量子系统108和帧缓冲器109。通常，编码器100还包括其他处理元件(未示出)。编码器100 (作为转码器)被配置成通过使用输入比特流中所包括的响度处理状态元数据执行自适应和自动响度处理，来将输入音频比特流(例如，可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的一种)转换成包括响度处理状态元数据的编码输出音频比特流(例如，可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的另一种)。例如，编码器100可以被配置成将输入的杜比E比特流(通常用在制作和广播设施而非接收已经向其广播的音频节目的消费者装置中的格式)转换成AC-3或E-AC-3格式的编码输出音频比特流(适于广播给用户装置)。图2的系统还包括编码音频递送子系统150 (其存储和/或递送从编码器100输出的编码比特流)和解码器152。从编码器100输出的编码音频比特流可以由子系统150来存储(如，以DVD或蓝光光盘的形式)、或者由子系统150来发送(其可以实现发送链路或网络)、或者可以由子系统150来存储和发送。解码器152被配置成通过从比特流的每个帧中提取响度处理状态元数据(LPSM)、以及生成解码音频数据，来对其通过子系统150接收的(由编码器100生成的)包括响度处理状态元数据的编码音频比特流进行解码。通常，解码器152被配置成使用LPSM对解码音频数据执行自适应响度处理，和/或将解码音频数据和LPSM转发给后处理器，后处理器被配置成使用LPSM对解码音频数据执行自适应响度处理。通常，解码器152包括用于(如，以非暂时性方式)存储从子系统150接收的编码音频比特流的缓冲器。编码器100和解码器152的各种实现可以被配置成执行本发明的方法的不同的实施例。帧缓冲器110是被耦接成接收编码输入音频比特流的缓冲存储器。在操作中，缓冲器110 (如，以非暂时性方式)存储编码音频比特流的至少一个帧，并且，编码音频比特流的帧的序列被从缓冲器110向解析器111传送(assert)。解析器111被耦接和配置来从编码输入音频的每个帧中提取响度处理状态元数据(LPSM)和其他元数据，以向音频状态验证器102、响度处理级103、级106和子系统108传送至少LPSM，以从编码输入音频中提取音频数据，以及以向解码器101传送音频数据。编码器100的解码器101被配置成对音频数据进行解码以生成解码音频数据，以及向响度处理级103、音频流选择级104、子系统108以及通常也向状态验证器102传送解码音频数据。状态验证器102被配置成对向其传送的LPSM (通常还有其他元数据)进行认证和验证。在一些实施例中，LPSM是已经被包括在(如，根据本发明的实施例的)输入比特流中的数据块(或者被包括在已经被包括在输入比特流中的数据块中)。该块可以包括用于处理LPSM (以及可选地还有其他元数据)和/或潜在的(从解码器101提供给验证器102的)音频数据的加密散列(基于散列的消息认证代码或“HMAC”)。该数据块在这些实施例中可以以数字形式标记，使得下游音频处理单元可以相对容易地认证和验证处理状态元数据。例如，使用HMAC来生成摘要(digest)，并且，包括在本发明的比特流中的保护值可以包括摘要。可以如下针对AC-3帧生成摘要:1.在AC-3数据和 LPSM被编码之后，使用帧数据字节(级联的frame_data#l和frame_data#2)和LPSM数据字节作为用于散列函数HMAC的输入。在计算摘要时不考虑可能存在于auxdata域中的其他数据。这样的其他数据可以是既不属于AC_3数据也不属于LSPSM数据的字节。可以在计算HMAC摘要时不考虑LPSM中所包括的保护比特。2.在计算摘要之后，将其写入被保留用于保护比特的域中的比特流中。3.完整的AC-3帧的生成的最后的步骤是计算CRC校验。其被写在帧的最末端，并且，将属于该帧的所有的数据都考虑在内，包括LPSM比特。可以将包括但不限于一种或更多种非HMAC加密方法中的任一种的其他加密算法用于LPSM的验证(如，在验证器102中)，以确保对于LPSM和/或潜在的音频数据的安全的发送和接收。例如，可以在接收本发明的音频比特流的实施例的每个音频处理单元中执行验证(使用这样的加密方法的验证)，以判定包括在比特流中的响度处理状态元数据和相应的音频数据是否已经经历了(由元数据指示的)特定的响度处理(和/或是否已经从特定的响度处理得到)以及是否在这样的特定的响度处理执行之后尚未被修改。状态验证器102向音频流选择级104、元数据生成器106和会话响度测量子系统108传送控制数据，以指示验证操作的结果。响应于控制数据，级104可以选择以下中的任一项(并且将其传送给编码器105):响度处理级103的经自适应处理的输出(如，当LPSM指示从解码器101输出的音频数据尚未经历特定类型的响度处理，并且来自验证器102的控制比特指示LPSM有效时)；或者从解码器101输出的音频数据(如，当LPSM指示从解码器101输出的音频数据已经经历了可以由级103来执行的特定类型的响度处理，并且来自验证器102的控制比特指示LPSM有效时)。编码器100的级103被配置成基于由解码器101提取的LPSM所指示的一个或更多个音频数据特性，对从解码器101输出的解码音频数据执行自适应响度处理。级103可以是自适应变换域实时响度和动态范围控制处理器。级103可以接收用户输入(如，用户目标响度/动态范围值或dialnorm值)、或者其他元数据输入(如，一种或多种类型的第三方数据、乐曲信息、标识符、专有权或标准信息、用户注解数据、用户偏好数据等)和/或其他输入(如，来自指纹处理的其他输入)，并且使用这样的输入来对从解码器101输出的解码音频数据进行处理。当来自验证器102的控制比特指示LPSM无效时，会话响度测量子系统108可以操作以使用如由解码器101提取的LPSM (和/或其他元数据)来确定指示会话(或其他语音)的解码音频(来自解码器101)的分段的响度。当来自验证器102的控制比特指示LPSM有效时当LPSM指示之前确定的解码音频(来自解码器101)的会话(或其他语音)分段的响度时，可以禁止会话响度测量子系统108的操作。存在有用的工具(如，杜比LM100响度仪表)，用于方便且容易地测量音频内容中的会话的电平。本发明的APU (如，编码器100的级108)的一些实施例被实现为包括这样的工具(或执行这样的工具的功能)以测量音频比特流的音频内容的平均会话响度(如，从编码器100的解码器101向级108传送的解码AC-3比特流)。如果级108被实现为测量音频数据的真实的平均会话响度，则测量可以包括步骤:隔离音频内容的主要包含语音的分段。接着，根据响度测量算法对主要为语音的音频分段进行处理。对于从AC-3比特流解码的音频数据，该算法可以是标准的K加权的响度测量(根据国际标准ITU-RBS.1770)。可替选地，可以使用其他响度测量(如，基于响度的心理声学模型的响度测量)。语音分段的隔离对于测量音频数据的平均会话响度而言并不是至关重要的。然而，从倾听者的角度来说，其提高了测量的精度并且通常提供更令人满意的结果。由于并非所有的音频内容都包含会话(语音)，所以整个音频内容的响度测量可以提供对音频的会话电平的充分的近似，如果语音出现的话。元数据生成器106生成要被级107包括在编码比特流中以从编码器100输出的元数据。元数据生成器106可以将由解码器101提取的LPSM (和/或其他元数据)传递给级107(如，当来自验证器102的控制比特指示LPSM和/或其他元数据有效时)，或者生成新的LPSM (和/或其他元数据)并且向级107传送新的元数据(如，当来自验证器102的控制比特指示由解码器101提取的LPSM和/或其他元数据无效时)，或者其可以向级107传送由解码器101提取的元数据与新生成的元数据的组合。元数据生成器106可以在其向级107传送的LPSM中包括由子系统108生成的响度数据以及表示由子系统108执行的响度处理的类型的至少一个值，以包括在要从编码器100输出的编码比特流中。元数据生成器106可以生成保护比特(其可以包括基于散列的消息认证代码或“HMAC”或者由基于散列的消息认证代码或“HMAC”构成)，保护比特对于要被包括在编码比特流中的LPSM (可选地还有其他元数据)和/或要被包括在编码比特流中的潜在的音频数据的解密、认证或验证中的至少一个而言是很有用的。元数据生成器106可以向级107提供这样的保护比特，以包括在编码比特流中。在典型的操作中，会话响度测量子系统108对从解码器101输出的音频数据进行处理以响应于其生成响度值(如，选通和未选通会话响度值)以及动态范围值。响应于这些值，元数据生成器106可以生成响度处理状态元数据(LPSM)，以(由填充器/格式器107)包括在要从编码器100输出的编码比特流中。附加地，可选地，或者可替选地，编码器100的子系统106和/或108可以执行对音频数据的附加分析以生成表示音频数据的至少一个特性的元数据，以包括在要从级107输出的编码比特流中。编码器105对从选择级104输出的音频数据进行编码(如，通过对其执行压缩)，并且向级107传送编码音频，以包括在要从级107输出的编码比特流中。级107对来自编码器105的编码音频和来自生成器106的元数据(包括LPSM)进行复用以生成要从级107输出的编码比特流，优选地使得编码比特流具有本发明的优选实施例指定的格式。帧缓冲器109是(如，以非暂时性方式)存储从级107输出的编码音频比特流的至少一个帧的缓冲存储器，接着，编码音频比特流的帧的序列作为来自编码器100的输出从缓冲器109向递送系统150传送。由元数据生成器106生成的并且由级107包括在编码比特流中的LPSM表示相应的音频数据的响度处理状态(如，已经对音频数据执行了什么类型的响度处理)以及相应的音频数据的响度(如，测量的会话响度、选通的和/或未选通的响度、和/或动态范围)。本文中，对音频数据执行的响度和/或电平测量的“选通(gating)”指超过阈值的计算值被包括在最终的测量中的情况下的具体的电平或响度阈值(如，在最终的测量值中忽略低于_60dBFS的短期响度值)。绝对值的选通指固定的电平或响度，而相对值的选通指取决于当前“非选通(ungated)”测量值的值。在编码器100的一些实现中，被缓冲在存储器109中(并且被输出给递送系统150)的编码比特流是AC-3比特流或E-AC-3比特流，并且包括音频数据分段(如，图4所示的帧的ABO至AB5分段)和元数据分段，其中，音频数据分段表示音频数据，至少部分元数据分段中的每个包括响度处理状态元数据(LPSM)。级107按以下格式将LPSM插入比特流中。包括LPSM的元数据分段中的每个被包括在比特流的帧的比特流信息(“BSI”)分段的“addbsi”域中，或者被包括在比特流的巾贞的端部处的auxdata域(如，图4所示的AUX分段)中。比特流的帧可以包括一个或两个元数据分段，其中每个包括LPSM，并且，如果帧包括两个元数据分段，则其中一个存在于帧的addbsi域中，而另一个存在于帧的AUX域中。包括LPSM的每个元数据分段包括具有以下格式的LPSM有效载荷(或容器)分段:首部(通常包括标识LPSM有效载荷的开始的同步字，其后跟随至少一个标识值，如下面的表2所示的LPSM格式版本、长度、周期、计数和子流关联值)；以及在首部之后，至少一个会话指示值(如，表2的参数“会话通道”)，其指示相应的音频数据是指示会话还是不指示会话(如，相应的音频数据的哪个通道指示会话);至少一个响度调节相符值(如，表2的参数“响度调节类型”)，其指示相应的音频数据是否与所指示的响度调节的集合相符；至少一个响度处理值(如，表2的参数“会话选通的响度校正标志”、“响度校正类型”中的一个或更多个)，其表示已经对相应的音频数据执行的至少一种类型的响度处理；以及至少一个响度值(如，表2的参数“ITU相对选通的响度”、“ITU语音选通的响度”、“ITU (EBU3341)短期3s响度”和“真实峰值”中的一个或更多个)，其表示相应的音频数据的至少一个响度(如，峰值或者平均响度)特性。在一些实施方式中，由级107插入到比特流的巾贞的“addbsi”域或者auxdata域中的元数据分段中的每个具有以下格式:核心首部(通常包括标识元数据分段的开始的同步字，其后跟随标识值，如下面的表I中所示的核心元素版本、长度和周期、扩展元素计数以及子流关联值)；以及在核心首部之后的至少一个保护值(如，表I的HMAC摘要和音频指纹值，其对于响度处理状态元数据或相应的音频数据中的至少一个的解密、认证或验证中的至少一个而言是很有用的)；以及如果元数据分段包括LPSM，则也在核心首部之后的LPSM有效载荷标识(ID)和LPSM有效载荷尺寸值，其将跟随的元数据标识为LPSM有效载荷并且指示LPSM有效载荷的尺寸。(优选地具有上述格式的)LPSM有效载荷(或容器)分段跟随LPSM有效载荷ID和LPSM有效载荷尺寸值。在一些实施例中，巾贞的auxdata域(或“addbsi”域)中的每个元数据分段具有三层结构:[0127]高层结构,包括:表示auxdata (或addbsi)域是否包括元数据的标志；指示存在的是什么类型的元数据的至少一个ID值；以及通常还包括指示存在了多少比特的元数据(如，每种类型的元数据)的值(如果存在元数据)。可能存在的一种类型的元数据是LPSM，可能存在的另一种类型的元数据是媒体研究元数据(如，Nielsen媒体研究元数据)；中层结构，包括用于每个标识的类型的元数据的核心元素(如，对于每种标识的类型的元数据如上述类型的核心首部、保护值和LPSM有效载荷ID以及有效载荷尺寸值)；以及低层结构，包括用于一个核心元素的每个有效载荷(如，如果核心元素将其标识为存在，则是LPSM有效载荷，和/或，如果核心元素将其标识为存在，则是另一种类型的元数据有效载荷)。可以对在这样的三层结构中的数据值进行嵌套。例如，可以在由核心元素标识的有效载荷之后(从而在核心元素的核心首部之后)，包括用于LPSM有效载荷和/或由核心元素标识的另一元数据有效载荷的保护值。在一种示例中，核心首部可以标识LPSM有效载荷与另一元数据有效载荷，用于第一有效载荷(如，LPSM有效载荷)的有效载荷ID和有效载荷尺寸值可以跟随核心首部，第一有效载荷本身可以跟随该ID和尺寸值，用于第二有效载荷的有效载荷ID和有效载荷尺寸值可以跟随第一有效载荷，第二有效载荷本身可以跟随这些ID和尺寸值，并且，两种有效载荷(或者核心元素值和两种有效载荷)的保护值可以跟随最后的有效载荷。在一些实施例中，如果解码器101接收具有加密散列的根据本发明的实施例生成的音频比特流，则解码器被配置成从根据比特流确定的数据块中解析并取回加密散列，上述块包括响度处理状态元数据(LPSM)。验证器102可以使用加密散列来验证所接收的比特流和/或相关联的元数据。例如，验证器102基于参考加密散列与从数据块中取回的加密散列之间的匹配发现LPSM是有效的，则其可以禁止处理器103对于相应的音频数据的操作并且使得选择级104通过(未改变的)音频数据。附加地，可选地，或者可替选地，可以使用其他类型的加密技术来替代基于加密散列的方法。图2的编码器100可以判定(响应于由解码器101提取的LPSM)后处理/预处理单元已经对要被编码的音频数据执行了某种类型的响度处理(在元件105、106和107中)，因此可以产生(在生成器106中)响度处理状态元数据，该响度处理状态元数据包括用于事先执行的响度处理和/或从事先执行的响度处理中提取的具体的参数。在一些实现中，编码器100可以产生(并且在从其输出的编码比特流中包括)表示对音频内容的处理历史的处理状态元数据，只要编码器知晓已经对音频内容执行的处理的类型。图3是作为本发明的音频处理单元的实施例的解码器(200)的框图、以及耦接至编码器200的后处理器(300)的框图。后处理器(300)也是本发明的音频处理单元的实施例。解码器200和后处理器300的任意部件或元件都可以用硬件、软件或硬件与软件的组合实现为一个或更多个处理和/或一个或更多个电路(如，ASIC、FPGA或其他集成电路)。解码器200包括如所示地连接的帧缓冲器210、解析器205、音频解码器202、音频状态验证级(验证器)203和控制比特生成级204。通常，解码器200还包括其他处理元件(未示出)。帧缓冲器201 (缓冲存储器)(以非暂时性方式)存储由解码器200接收的编码音频比特流的至少一个帧。从缓冲器201向解析器205传送编码音频比特流的帧的序列。[0135]解析器205被耦接和配置来从编码输入音频的每个帧中提取响度处理状态元数据(LPSM)和其他元数据、向音频状态验证器203和级204传送至少LPSMjf LPSM作为输出(如，给后处理器300的输出)传送、从编码输入音频中提取音频数据、以及向解码器202传送所提取的音频数据。输入给解码器200的编码音频比特流可以是AC-3比特流、E_AC_3比特流或杜比E比特流中的一种。图3的系统还包括后处理器300。后处理器300包括帧缓冲器301和其他处理元件(未示出)，包括耦接至缓冲器301的至少一个处理元件。帧缓冲器301 (如，以非暂时性方式)存储由后处理器300从解码器200接收的解码音频比特流的至少一个帧。后处理器300的处理元件被耦接和配置来使用从解码器202输出的元数据(包括LPSM值)和/或从解码器200的级204输出的控制比特，来接收并且自适应地处理从缓冲器301输出的解码音频比特流的帧的序列。通常，后处理器300被配置成(如，基于由LPSM指示的响度处理状态和/或一个或更多个音频数据特性)使用LPSM值来对解码音频数据执行自适应响度处理。解码器200和后处理器300的各种实现都被配置成执行本发明的方法的不同的实施例。解码器200的音频解码器202被配置成对由解析器205提取的音频数据进行解码以生成解码音频数据，并且被配置成将解码音频数据作为输出(如，至后处理器300的输出)传送。状态验证器203被配置成对向其传送的LPSM (通常还有其他元数据)进行认证和验证。在一些实施例中，LPSM是已经被包括在(如，根据本发明的实施例的)输入比特流中的数据块(或者被包括在已经被包括在输入比特流中的数据块中)。该块可以包括用于处理LPSM (以及可选地还处理其他元数据)和/或潜在的音频数据(从解析器205和/或解码器202提供给验证器203)的加密散列(基于散列的消息认证代码或“HMAC”)。该数据块在这些实施例中可以用数字标记，使得下游音频处理单元可以相对容易地认证和验证处理状态元数据。可以将包括但不限于一种或更多种非HMAC加密方法中的任一种的其他加密算法用于LPSM的验证(如，在验证器203中)，以确保对于LPSM和/或潜在的音频数据的安全的发送和接收。例如，可以在接收本发明的音频比特流的实施例的每个音频处理单元中执行验证(使用这样的加密方法的验证)，以判定包括在比特流中的响度处理状态元数据和相应的音频数据是否已经经历了(由元数据指示的)特定的响度处理(和/或是否已经从特定的响度处理得到)以及是否在这样的特定的响度处理执行之后尚未被修改。状态验证器203向控制比特生成器204传送控制数据，和/或传送控制数据作为输出(如，至后处理器300的输出)，以指示验证操作的结果。响应于控制数据(以及可选地也响应于从输入比特流中提取的其他元数据)，级204可以生成以下中的任一项(并且将其传送给后处理器300):指示从解码器202输出的解码音频数据已经经历了特定类型的响度处理的控制比特(当LPSM指示从解码器202输出的音频数据已经经历了特定类型的响度处理，并且来自验证器203的控制比特指示LPSM有效时)；或者指示从解码器202输出的解码音频数据应当经历特定类型的响度处理的控制比特(如，当LPSM指示从解码器202输出的音频数据尚未经历特定类型的响度处理时，或者当LPSM指示从解码器202输出的音频数据已经经历了特定类型的响度处理而来自验证器203的控制比特指示LPSM无效时)。可替选地，解码器200向后处理器300传送由解码器202从输入比特流中提取的LPSM(以及任意其他元数据)，并且，后处理器300使用LPSM对解码音频数据执行响度处理，或者执行LPSM的验证，接着，如果验证指示LPSM有效，则使用LPSM对解码音频数据执行响度处理。在一些实施例中，如果解码器201来接收具有加密散列的根据本发明的实施例生成的音频比特流，则解码器被配置成从根据比特流确定的数据块来解析和取回加密散列，上述块包括响度处理状态元数据(LPSM)。验证器203可以使用加密散列来验证所接收的比特流和/或相关联的元数据。例如，如果验证器203基于参考加密散列与从数据块中取回的加密散列之间的匹配发现LPSM是有效的，则其可以向下游音频处理单元(如，后处理器300，其可以是或者包括音量调节单元)发信号，以传递(未改变)比特流的音频数据。附加地，可选地，或者可替选地，可以使用其他类型的加密技术来替代基于加密散列的方法。在解码器200的一些实现中，所接收(并且被缓冲在存储器201中)的编码比特流是AC-3比特流或E-AC-3比特流，并且包括音频数据分段(如，图4所示的帧的ABO至AB5分段)和元数据分段，其中，音频数据分段表示音频数据，至少部分元数据分段中的每个包括响度处理状态元数据(LPSM)。解码器级202被配置成从比特流中提取具有以下格式的LPSM0包括 LPSM的元数据分段中的每个被包括在比特流的帧的比特流信息(“BSI ”)分段的“addbsi”域中，或者被包括在比特流的巾贞的端部处的auxdata域(如，图4所示的AUX分段)中。比特流的帧可以包括一个或两个元数据分段，其中每个包括LPSM，并且，如果帧包括两个元数据分段，则其中一个存在于帧的addbsi域中，而另一个存在于帧的AUX域中。包括LPSM的每个元数据分段包括具有以下格式的LPSM有效载荷(或容器)分段:首部(通常包括标识LPSM有效载荷的开始的同步字，其后跟随标识值，如下面的表2所示的LPSM格式版本、长度、周期、计数和子流关联值)；以及在首部之后，至少一个会话指示值(如，表2的参数“会话通道”)，其指示相应的音频数据是指示会话还是不指示会话(如，相应的音频数据的哪个通道指示会话);至少一个响度调节相符值(如，表2的参数“响度调节类型”)，其指示相应的音频数据是否与指示的响度调节的集合相符；至少一个响度处理值(如，表2的参数“会话选通的响度校正标志”、“响度校正类型”中的一个或更多个)，其指示已经对相应的音频数据执行的至少一种类型的响度处理；以及至少一个响度值(如，表2的参数“ITU相对选通的响度”、“ITU语音选通的响度”、“ITU (EBU3341)短期3s响度”和“真实峰值”中的一个或更多个)，其指示相应的音频数据的至少一个响度(如，峰值或者平均响度)特性。在一些实施中，解码器级202被配置成从比特流的帧的“addbsi”域或auxdata域中提取具有以下格式的每个元数据分段:核心首部(通常包括标识元数据分段的开始的同步字，其后跟随至少一个标识值，如下面的表I中所示的核心元素版本、长度和周期、扩展元素计数以及子流关联值)；以及在核心首部之后的至少一个保护值(如，表I的HMAC摘要和音频指纹值)，其对于响度处理状态元数据或相应的音频数据中的至少一个的解密、认证或验证中的至少一个而言是很有用的；以及如果元数据分段包括LPSM，则也在核心首部之后的LPSM有效载荷标识(ID)和LPSM有效载荷尺寸值，其将以下元数据标识为LPSM有效载荷并且指示LPSM有效载荷的尺寸。(优选地具有上述格式的)LPSM有效载荷(或容器)分段跟随LPSM有效载荷ID和LPSM有效载荷尺寸值。更一般地，由本发明的优选实施例生成的编码音频比特流具有如下结构:其向标签元数据元素和子元素提供机制作为核心(强制)或扩展(可选元素)。这使得比特流(包括其元数据)的数据速率能够跨大量的应用来缩放。优选的比特流句法的核心(强制)元素应当能够发信号告知与音频内容相关联的扩展(可选)元素存在(在带内)和/或在远处(在带外)。需要核心元素存在于比特流的每个帧中。核心元素的一些子元素是可选的并且可以以任意组合存在。扩展元素不需要存在于每个帧中(以防止比特速率过高)。因此，扩展元素可以存在于某些帧中而不存在于其他帧中。扩展元素的某些子元素是可选的并且可以以任意组合存在，而扩展元素的某些子元素可以是强制的(即，如果扩展元素存在于比特流的帧中)。在一类实施例中，(如，由实施本发明的音频处理单元)生成包括音频数据分段和元数据分段的序列的编码音频比特流。音频数据分段表示音频数据，元数据分段中的至少某些中的每个包括响度处理状态元数据(LPSM)，音频数据分段与元数据分段时分复用。在这种类型的优选实施例中，每个元数据分段具有要在本文中描述的优选格式。在一种优选格式中，编码比特流是AC-3比特流或E-AC-3比特流，并且，包括LPSM的每个元数据分段作为附加比特流信息被(如，编码器100的优选实现的级107)包括在比特流的帧的比特流信息(“BSI ”)分段的“addbsi ”域(如图6所示)中，或者被包括在比特流的中贞的auxdata域中。在该优选格式中，每个帧在帧的addbsi域中包括具有如以下表I所示的格式的核心元素:表I
参数I猶迷I强制/可选
SYMCfIDl强制
■心元素版本强制核心元素长度
权利要求1.一种音频处理设备，包括: 输入缓冲存储器，用于存储包括响度处理状态元数据LPSM和音频数据的编码音频比特流的至少一个巾贞；解析器，耦接至所述输入缓冲存储器，用于提取所述编码音频比特流和/或所述LPSM ； AC-3或E-AC-3解码器，耦接至所述解析器，用于生成解码音频数据的流；以及输出缓冲存储器，耦接至所述解码器，用于存储所述解码音频数据。
2.根据权利要求1所述的音频处理设备，还包括响度处理器，所述响度处理器耦接至所述AC-3或E-AC-3解码器，用于使用所述LPSM执行对所述解码音频数据的流的自适应响度处理。
3.根据权利要求2所述的音频处理设备，还包括音频状态验证器，所述音频状态验证器耦接至所述AC-3或E-AC-3解码器，用于使用所述LPSM认证和/或验证所述LPSM和/或所述解码音频数据的流，其中，所述音频状态验证器还耦接至所述响度处理器以控制所述响度处理器的所述自适应响度处理。
4.根据权利要求2所述的音频处理设备，还包括后处理器，所述后处理器耦接至所述AC-3或E-AC-3解码器，用于使用所述LPSM执行对所述解码音频数据的流的自适应响度处理。
5.根据权利要求4所述的音频处理设备，还包括音频状态验证器，所述音频状态验证器耦接至所述AC-3或E-AC-3解码器，用于使用所述LPSM认证和/或验证所述LPSM和/或所述解码音频数据的流，其中，所述音频状态验证器还耦接至所述响度处理器和所述后处理器以控制所述响度处理器和所述后处理器的所述自适应响度处理。
6.根据权利要求1所述的音频处理设备，其中，所述LPSM是在所述至少一个帧中位于首部之后的一个或更多个响度处理状态元数据的容器。
7.根据权利要求1所述的音频处理设备，其中，所述LPSM包括响度调节类型的时隙。
8.根据权利要求1所述的音频处理设备，其中，所述LPSM包括响度校正类型的时隙。
专利摘要本实用新型公开了用于利用响度处理状态元数据处理音频的音频解码器。具体公开一种音频处理设备，其包括输入缓冲存储器，用于存储包括响度处理状态元数据LPSM和音频数据的编码音频比特流的至少一个帧；解析器，耦接至所述输入缓冲存储器，用于提取所述编码音频比特流和/或所述LPSM；AC-3或E-AC-3解码器，耦接至所述解析器，用于生成解码音频数据的流；以及输出缓冲存储器，耦接至所述解码器，用于存储所述解码音频数据。
文档编号G10L19/16GK203134365SQ20132005051
公开日2013年8月14日申请日期2013年1月29日优先权日2013年1月21日
发明者杰弗里·里德米勒, 迈克尔·沃德申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰弗里·里德米勒;迈克尔·沃德
技术所有人：杜比实验室特许公司
我是此专利的发明人