利用节目响度和边界元数据的音频编码器和解码器的制造方法

文档序号：8417610阅读：657来源：国知局

利用节目响度和边界元数据的音频编码器和解码器的制造方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求于2013年1月21日提交的美国临时专利申请No. 61/754, 882和于 2013年5月16日提交的美国临时专利申请No. 61/824, 010的优先权，上述每个申请的全部内容由此通过引用被合并于此。
技术领域
[0003] 本发明涉及音频信号处理，更具体地，本发明涉及使用表示音频内容的响度处理状态的元数据以及比特流所标示的音频节目边界的位置对音频数据比特流进行编码和解码。本发明的一些实施例生成或解码作为AC-3、增强型AC-3或E-AC-3或者Dolby E (杜比 E)已知的格式之一的音频数据。
【背景技术】
[0004] "杜比"、"杜比数字"、"杜比数字+"和"杜比E"是杜比实验室特许公司的商标。杜比实验室提供分别作为"杜比数字"和"杜比数字+"已知的AC-3和E-AC-3的专有实施。
[0005] 音频数据处理单元通常以盲目的方式来操作，并且不注意在数据被接收之前出现的音频数据的处理历史。这可能在以下处理框架内起作用：其中，单个实体进行各种各样的目标媒体渲染装置的所有的音频数据处理和编码，同时，目标媒体渲染装置进行对编码音频数据的所有的解码和渲染。然而，该盲目的处理在以下情况下不能很好地起作用（或者一点都不起作用）：其中，多个音频处理单元散布在多种多样的网络上或者串联放置（即，链式放置）并被期望最优地执行它们各自类型的音频处理。例如，某些音频数据可以被编码以用于高性能的媒体系统并且可能必须沿着媒体处理链被转换成适合移动装置的缩减形式。因而，音频处理单元可能不必对已经被执行了某种类型的处理的音频数据执行该类型的音频处理。例如，音量调节（volume leveling)单元可以对输入音频剪辑执行处理，而不管是否之前已经对输入音频剪辑执行了相同的或类似的音量调节。因此，音量调节单元可能在不需要时执行调节。该非必要的处理还可能引起在对音频数据的内容进行渲染时的特定特征的去除和/或降级。
[0006] 音频数据的典型的流包括音频内容（如，音频内容的一个或更多个通道）和表示音频内容的至少一个特征的元数据二者。例如，在AC-3比特流中，存在若干音频元数据参数，这些音频元数据参数具体地意在用于改变被递送到倾听环境的节目的声音。元数据参数之一是"DIALN0RM"参数，其意在表示出现音频节目的会话的平均电平，并且用于确定音频回放信号电平。
[0007] 在包括不同的音频节目分段（每个音频节目分段具有不同的DIALN0RM参数）序列的比特流的回放期间，AC-3解码器使用每个分段的DIALN0RM参数来执行某种类型的响度处理，其中，其修改回放电平或响度，使得分段序列的会话的感知响度处于恒定的电平。编码音频项的序列中的每个编码音频分段（项）会（通常）具有不同的DIALN0RM参数，并且解码器可以对其中每个项的电平进行缩放，使得每个项的会话的回放电平或响度相同或者非常类似，虽然这可能需要在回放期间将不同量的增益应用于不同的项。
[0008] DIALNORM通常由用户来设置，并且不是自动生成的，虽然如果用户没有设置任何值时则存在默认的DIALNORM值。例如，内容产生器可以用AC-3编码器外部的装置来进行响度测量，并且接着将（表示音频节目的口语会话的响度的）结果传输给编码器以设置 DIALNORM值。因此，存在为了正确地设置DIALNORM参数而对内容产生器的依赖。
[0009] AC-3比特流中的DIALNORM参数可能不正确的原因有若干不同的原因。首先，如果内容产生器没有设置DIALNORM值，则每个AC-3编码器具有在比特流的生成期间使用的默认的DIALNORM值。该默认值可能与音频的实际会话响度电平相当不同。第二，即使内容产生器测量响度并且相应地设置DIALNORM值，也可能使用不遵守推荐的AC-3响度测量方法的响度测量算法或仪表，从而导致错误的DIALNORM值。第三，即使已经利用内容产生器正确地测量的并且设置的DIALNORM值产生了 AC-3比特流，其可能在比特流的传输和/或存储期间已经被改为错误的值。例如，在电视广播应用中，使用错误的DIALNORM元数据信息来对AC-3比特流进行解码、修改和接着重新编码不是不常见。因此，AC-3比特流中所包括的DIALNORM值可能是不正确的或者不准确的，因此可能对于倾听体验的质量有负面影响。
[0010] 此外，DIALNORM参数不指示相应的音频数据的响度处理状态（如，已经对音频数据执行了什么类型的响度处理）。在本发明之前，音频比特流一直没有以本公开中描述的类型的格式包括元数据，所述元数据表示音频比特流的音频内容的响度处理状态（如，所应用的响度处理的类型）、或者比特流的音频内容的响度处理状态和响度。这样的格式的响度处理状态元数据用于以特别有效的方式便利对音频比特流的自适应响度处理和/或音频内容的响度处理状态和响度的有效性的验证。
[0011] 虽然本发明不限于与AC-3比特流、E-AC-3比特流或者杜比E比特流一起使用，然而，为了方便，将在实施例中对其进行描述，在实施例中，其生成、解码或者处理这样的包括响度处理状态元数据在内的比特流。
[0012] AC-3编码比特流包括元数据以及音频内容的一至六个通道。音频内容是已经使用感知音频编码被压缩的音频数据。元数据包括意在用于改变被递送给倾听环境的节目的声音的若干音频元数据参数。
[0013] AC_3(也称为杜比数字）编码的细节是公知的，并且在很多公开参考文献中被阐明，这些公开的参考文献包括：
[0014] ATSC Standard A52/A:Digital Audio Compression Standard(AC-3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001 ;以及
[0015] 美国专利 5, 583, 962、5, 632, 005、5, 633, 981、5, 727, 119 和 6, 021，386,上述所有专利的全部内容由此通过引用被合并于此。
[0016] "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System"，AES Convention Paper 6191,117th AES Convention, October 28,2004 中阐明了杜比数字+(E-AC-3)编码的细节。
[0017] "Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System"，AES Preprint 5068,107th AES conference, August 1999 和 "Professional Audio Coder Optimized for Use with Video"，AES Preprint 5033,107th AES Conference August 1999中阐明了杜比E编码的细节。
[0018] AC-3编码音频比特流的每个帧包含用于数字音频的1536个样本的音频内容和元数据。对于48kHz的采样速率，这表示32毫秒的数字音频或者音频的每秒31. 25个帧的速率。
[0019] 取决于帧包含一个、两个、三个还是六个音频数据块，E-AC-3编码音频比特流的每个帧分别包含用于数字音频的256、512、768或1536个样本的音频内容和元数据。对于 48kHz的采样速率，这分别表示5. 333、10. 667、16或32毫秒的数字音频或者音频的每秒 189. 9、93· 75、62· 5 或 3L 25 个帧的速率。
[0020] 如图4所示，每个AC-3帧被分成区段（分段），包括：同步信息（SI)区段，其包含 (如图5所示）同步字（SW)和两个纠错字中的第一纠错字（CRCl);比特流信息（BSI)区段，其包含元数据的大多数；一个至六个之间的音频块（ΑΒ0至AB5)，其包含数据压缩的音频内容（也可以包括元数据）；浪费比特分段（W)，其包含在音频内容被压缩之后留下的任意的未使用的比特；辅助（AUX)信息区段，其可以包含更多的元数据；以及两个纠错字中的第二纠错字（CRC2)。浪费比特分段（W)也可以称为"跳过域"。
[0021] 如图7所示，每个E-AC-3帧被划分成区段（分段），包括：同步信息（SI)区段，其包含（如图5所示）同步字（SW);比特流信息（BSI)区段，其包含元数据的大多数；一个至六个之间的音频块（ΑΒ0至AB5)，其包含数据压缩的音频内容（也可以包括元数据）；浪费比特分段（W)，其包含在音频内容被压缩之后留下的任意的未使用的比特（虽然仅示出了一个浪费比特分段，然而每个音频块之后通常可以跟随不同的浪费比特分段）；辅助（AUX) 信息区段，其可以包含更多的元数据；以及纠错字（CRC)。浪费比特分段（W)也可以称为"跳过域"。
[0022] 在AC_3(或者E-AC-3)比特流中，存在若干音频元数据参数，该音频元数据参数具体地意在用于改变被递送给倾听环境的节目的声音。元数据参数之一是DIALNORM参数，其包括在BSI区段中。
[0023] 如图6所示，AC-3帧的BSI区段包括五比特的参数（"DIALNORM"），其指示用于该节目的DIALNORM值。如果AC-3帧的音频编码模式（"acmod"）为"0"，指示使用双-单或者" 1+1"通道配置，则包括用于指示同一 AC-3帧中承载的第二音频节目的DIALNORM值的五比特的参数（"DIALN0RM2"）。
[0024] BSI分段还包括：用于表示跟随"addbsie"比特的附加比特流信息的存在（或不存在）的标志（"addbsie")、用于表示跟随"addbsil"值的任意附加比特流信息的长度的参数 ("addbsil"）、以及跟随"addbsil"值的最高达64比特的附加比特流信息（"addbsi"）。
[0025] BSI分段包括没有在图6中具体示出的其他元数据值。

【发明内容】

[0026] 在一类实施例中，本发明为包括缓冲存储器、音频解码器和解析器的音频处理单元。缓冲存储器存储编码音频比特流的至少一个帧。编码音频比特流包括音频数据和元数据容器。元数据容器包括首部、一个或更多个元数据有效载荷、以及保护数据。首部包括标识容器的开始的同步字。一个或更多个元数据有效载荷描述与音频数据关联的音频节目。保护数据位于一个或更多个元数据有效载荷之后。保护数据还能够用于验证元数据容器以及元数据容器内的一个或更多个有效载荷的完整性。音频解码器耦接至缓冲存储器并且能够对音频数据解码。解析器耦接至音频解码器或者与音频解码器集成并且能够解析元数据容器。
[0027] 在典型的实施例中，上述方法包括接收编码音频比特流，其中编码音频比特流被分段成一个或更多个帧。音频数据连同元数据容器一起从编码音频比特流中被提取。元数据容器包括首部，首部之后跟随一个或更多个元数据有效载荷，一个或更多个元数据有效载荷之后跟随保护数据。最后，容器以及一个或更多个元数据有效载荷的完整性通过保护数据的使用来被验证。一个或更多个元数据有效载荷可以包括节目响度有效载荷，节目响度有效载荷包含指示与音频数据关联的音频节目的所测量的响度的数据。
[0028] 可以对根据本发明的典型的实施例的嵌入在音频比特流中的节目响度元数据有效载荷--被称为响度处理状态兀数据（"LPSM"）--进行认证和验证，如使能响度调节实体来验证具体的节目的响度是否已经在指定的范围内以及相应的音频数据本身是否还没有被修改过（从而确保符合可应用的规则）。可以读取包括响度处理状态元数据在内的数据块中所包括的响度值，以对其进行验证，代替再次计算响度。响应于LPSM，管理机构可以判定相应的音频内容是否符合（如LPSM所示）响度法规和/或管理要求（如，在商业广告响度降低法案（Commercial Advertisement Loudness Mitigation Act)，也称为"CALM" 法案下公布的规则），而不需要计算音频内容的响度。
[0029] 与一些响度法规和/或管理要求（例如在CALM法案下颁布的那些规则）符合所需要的响度测量值基于整体节目响度。整体节目响度要求响度测量值一一会话水平或者充分混合水平之一一一可以在整个音频节目上进行。因此，为了使得节目响度测量值（例如在广播链中的各个阶段）能够验证与典型的法律要求的符合性，至关重要的是使用关于什么音频数据（和元数据）确定整个音频节目的知识来取得测量值，并且这通常需要关于节目的开始位置和结束位置的知识（例如在指示音频节目序列的比特流的处理期间）。
[0030] 根据本发明的典型的实施例，编码音频比特流指示至少一个音频节目（例如音频节目序列），并且比特流中所包括的节目边界元数据和LPSM使得能够在节目的结束时重置节目响度测量值并且因此提供一种测量整体节目响度的自动化的方式。本发明的典型的实施例以如下高效的方式在编码音频比特流中包括节目边界元数据：该方式使得能够精确且鲁棒地确定比特流所指示的连续的音频节目之间的至少一个边界。典型的实施例使得能够甚至在其中指示不同节目的比特流以如下方式被接合在一起（以生成发明的比特流）的

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迈克尔·格兰特;斯科特·格雷戈里·诺克罗斯;杰弗里·里德米勒;迈克尔·沃德;
技术所有人：杜比实验室特许公司;
我是此专利的发明人

上一篇：用于变换输入信号的方法
上一篇：语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法