用于在不同回放设备之间优化响度和动态范围的系统和方法_2

文档序号：9221899阅读：来源：国知局

确保对于各种回放简档不会发生过载的单独的保护机制。系统还被配置为允许使用其它元数据(内部或者外部)参数来正确地控制响度和动态范围增益和/或简档。解码器被配置为支持将影响解码器侧响度和动态范围的η通道辅助输入。
[0041]在一些实施例中，响度处理状态元数据(LPSM)被嵌入音频位流的元数据分段的一个或多个保留字段(或者空位)，该音频位流还在其它分段(音频数据分段)中包括音频数据。例如，位流的每个帧的至少一个分段包括LPSM，并且该帧的至少一个其它分段包括对应的音频数据(即，其响度处理状态和响度由LPSM指示的音频数据)。在一些实施例中，LPSM的数据量可足够小以在不影响被分配用于运送音频数据的位率的情况下被运送。
[0042]在音频数据处理链中传递响度处理状态元数据在两个或更多个音频处理单元需要在处理链(或者内容生命周期中)相互串联地工作的情况下尤其有用。在音频位流中不包括响度处理状态元数据的情况下，可能发生诸如质量、水平和空间劣化的媒体处理问题，例如，当在该链中应用两个或更多个音频编解码器并且在位流传送至媒体消费设备(或者位流的音频内容的呈现点)期间单端音量调节被应用一次以上时会出现这样的问题。
_3] 响度和动态范围元数据处理系统
[0044]图1是根据使用某些元数据处理(例如，预处理和后处理)组件的一些实施例的可被配置为执行响度和动态范围的优化的音频处理系统的一个实施例的框图。图1示出了示例性音频处理链(音频数据处理系统)，其中系统的元件中的一个或多个可根据本发明的实施例被配置。图1的系统10包括如图所示耦合到一起的以下元件:预处理单元12、编码器14、信号分析和元数据校正单元16、代码转换器18、解码器20和后处理单元24。在所示的系统的变型中，元件中的一个或多个被省略，或者包含额外的音频数据处理单元。例如，在一个实施例中，后处理单元22是解码器20的一部分而不是单独的单元。
[0045]在一些实现中，图1的预处理单元被配置为接受包含音频内容的PCM(时域)采样作为输入，并且输出经处理的PCM采样。编码器14可被配置为接受PCM采样作为输入，并且输出指示音频内容的编码的(例如，压缩的)音频位流。指示音频内容的位流的数据有时在此被称为“音频数据”。在一些实施例中，从编码器输出的音频位流包括响度处理状态元数据(以及可选的其它元数据)和音频数据。
[0046]信号分析和元数据校正单元16可接受一个或多个编码的音频位流作为输入，并且通过执行信号分析来确定(例如，验证)每个编码的音频位流中的处理状态元数据是否正确。在一些实施例中，验证可由状态验证器组件(诸如图2中所示的元件102)执行，并且下文在状态验证器102的上下文中描述一种这样的验证技术。在一些实施例中，单元16被包含在编码器中，并且验证由单元16或验证器102执行。如果信号分析和元数据校正单元发现包含的元数据是无效的，则元数据校正单元16执行信号分析以确定正确的值，并且用所确定的正确的值来替换不正确的值。因此，来自信号分析和元数据校正单元的每个编码的音频位流输出可包括校正后的处理状态元数据以及编码的音频数据。信号分析和元数据校正单元16可以是预处理单元12、编码器14、代码转换器18、解码器20或后处理单元22的一部分。作为替代，信号分析和元数据校正单元16可以是音频处理链中的单独的单元或另一单元的一部分。
[0047]代码转换器18可接受编码的音频位流作为数据，并且作为响应而输出修正的(或者，被不同地编码的)音频位流(例如，通过对输入流进行解码并且以不同的编码格式对解码位流重新编码)。从代码转换器输出的音频位流包括响度处理状态元数据(以及可选的其它元数据)和编码的音频数据。元数据已经被包含在位流中。
[0048]图1的解码器20可接受编码的(例如，压缩的)音频位流作为输入，并且输出(作为响应)解码PCM音频采样的流。在一个实施例中，解码器的输出为或者包括以下中的任一个:音频采样流以及从输入的编码位流提取的响度处理状态元数据(和可选的其它元数据)的对应流；音频采样的流以及由从输入的编码位流提取的响度处理状态元数据(和可选的其它元数据)确定的控制位的对应流；或者音频采样流，而不具有处理状态元数据或者由处理状态元数据确定的控制位的对应流。在此最后的情况中，解码器可从输入的编码位流提取响度处理状态元数据(和/或其它元数据)，并且对所提取的元数据执行至少一种操作(例如，验证)，但是其并不输出所提取的元数据或从其确定的控制位。
[0049]通过根据本发明的实施例配置图1的后处理单元，后处理单元22被配置为接受解码PCM音频采样的流，并且使用通过采样接收的响度处理状态元数据(以及可选的其它元数据)或者通过采样接收的控制位(由解码器从响度处理状态元数据以及可选的其它元数据确定)，对解码PCM音频采样的流执行后处理(例如，音频内容的音量调节)。后处理单元22可选地还可被配置为呈现经后处理的音频内容以供一个或多个扬声器回放。这些扬声器可被体现在各种不同的收听设备或回放设备(诸如计算机、电视、立体声系统(家用或者影院用)、移动电话或者其它便携式回放设备)中。扬声器可以具有任何合适的大小和额定功率，并且可被以独立驱动器、扬声器箱、环绕声系统、条式音箱、耳机、耳塞等的形式提供。
[0050]一些实施例提供了增强的音频处理链，其中音频处理单元(例如，编码器、解码器、代码转换器以及预处理和后处理单元)根据由音频处理单元分别接收的响度处理状态元数据指示的媒体数据的同时状态(contemporaneous state)改变它们各自的要被应用于音频数据的处理。系统100的任何音频处理单元(例如，图1的编码器或代码转换器)的音频数据输入11可包括响度处理状态元数据(以及可选的其它元数据)和音频数据(例如，编码音频数据)。根据一些实施例，此元数据可通过其它元件或其它源被包含在输入音频中。接收输入音频(具有元数据)的处理单元可被配置为对元数据执行至少一种操作(例如，验证)或者响应于元数据(例如，输入音频的自适应处理)，并且可选地还被配置为在其输出音频中包括元数据、元数据的处理后版本或者从元数据确定的控制位。
[0051]音频处理单元(或者音频处理器)的实施例被配置为基于与音频数据对应的响度处理状态元数据指示的音频数据的状态，执行音频数据的自适应处理。在一些实施例中，自适应处理为(或者包括)响度处理(如果元数据指示还未对音频数据执行响度处理或者类似处理)但是不是(或者不包括)响度处理(如果元数据指示已经对于音频数据执行响度处理或者类似处理)。在一些实施例中，自适应处理为或者包括元数据验证(例如，在元数据验证子单元中执行)，以确保音频处理单元基于响度处理状态元数据指示的音频数据的状态执行音频数据的其它自适应处理。在一些实施例中，验证确定了与音频数据相关联的(例如，被包含在位流中的)响度处理状态元数据的可靠性。例如，如果元数据被验证为是可靠的，则一种先前执行的音频处理的结果可被重新使用，而同一类型的音频处理的额外执行可被避免。另一方面，如果发现元数据已被篡改(或者不可靠)，则(如由不可靠元数据指示的)据称先前执行的该种媒体处理可被音频处理单元重复进行，和/或音频处理单元可对元数据和/或音频数据执行其它处理。音频处理单元还可被配置为如果音频处理单元确定响度处理状态元数据有效(例如，基于提取的密码值与参考密码值匹配)，则将响度处理状态元数据(例如，存在于媒体位流中)有效用信号发送给增强媒体处理链中处于下游的其它音频处理单元。
[0052]对于图1的实施例，预处理组件12可以是编码器14的一部分，并且后处理组件22可以是解码器22的一部分。作为替代，预处理组件12可表现为与编码器14分开的功能组件。类似的，后处理组件22可表现为与解码器22分开的功能组件。
[0053]图2是可与图1的系统10结合使用的编码器100的框图。编码器100的任何组件可被以硬件、软件或者硬件和软件的组合实现为一个或多个处理和/或一个或多个电路(例如，ASIC、FPGA或者其它集成电路)。编码器100包括帧缓冲器110、解析器111、解码器101、音频状态验证器102、响度处理级103、音频流选择级104、编码器105、填充器/格式化器级107、元数据生成级106、对话响度测量子系统108和帧缓冲器109，它们如图所示地连接。还可选地，编码器100包括其它处理元件(未示出)。编码器100 (是代码转换器)被配置为将输入音频位流(例如可以是AC-3位流、E-AC-3位流或者Dolby E位流之一)转换成编码的输出音频位流(例如可以是AC-3位流、E-AC-3位流或者Dolby E位流中的另一个)，包括使用输入位流中包含的响度处理状态元数据执行自适应和自动响度处理。例如，编码器100可配置为将输入Dolby E位流(典型地在制作和广播设施中使用的、但是没有在接收被向其广播的音频节目的消费类设备中使用的格式)转换成AC-3或E-AC-3格式的编码的输出音频位流(适合于广播至消费类设备)。
[0054]图2的系统还包括编码音频输送系统150 (其存储和/或输送从编码器100输出的编码位流)和解码器152。从编码器100输出的编码音频位流可被子系统150存储(例如，以DVD或BluRay盘的形式)，或者被子系统150传输(其可实现传输链路或网络)，或者可被子系统150存储和传输。解码器152被配置为对其经由子系统150接收的编码位流(由编码器100生成)进行解码，包括从位流的每一帧提取响度处理状态元数据(LPSM)，并且生成解码的音频数据。在一个实施例中，解码器152被配置为使用LPSM对解码的音频数据执行自适应响度处理，和/或将解码的音频数据和LPSM转发至后处理器，该后处理器被配置为使用LPSM对解码的音频数据执行自适应响度处理。可选地，解码器152包括缓冲器，该缓冲器存储(例如，以非暂态的方式)从子系统150接收的编码音频位流。
[0055]编码器100和解码器152的各种实现被配置为执行文中所描述的各种实施例。帧缓冲器110是被耦合以接收编码的输入音频位流的缓冲存储器。在操作中，缓冲器110存储(例如，以非暂态的方式)编码音频位流中的至少一帧，并且编码音频位流的帧序列被从缓冲器110断言至解析器111。解析器111被耦合和配置为从编码的输入音频中的每一帧提取响度处理状态元数据(LPSM)和其它元数据，以将至少LPSM断言至音频状态验证器102、响度处理级103、级106和子系统108，以从编码的输入音频提取音频数据，并且将音频数据断言至解码器101。编码器100的解码器101被配置为解码音频数据以生成解码的音频数据，并且将解码的音频数据断言至响度处理级103、音频流选择级104、子系统108并且可选地还断言至状态验证器102。
[0056]状态验证器102被配置为认证和验证被断言至状态验证器102的LPSM(以及可选的其它元数据)。在一些实施例中，LPSM为(或者被包括在)已经包含在输入位流中的数据块中(例如，根据本发明的实施例)。该块可包括用于处理LPSM(以及可选的其它元数据)和/或基层音频数据(从解码器101提供给验证器102)的加密散列(哈希消息认证码或者“HMAC”)。在这些实施例中，数据块可被数字签名，从而下游的音频处理单元可相对容易地认证和验证处理状态元数据。
[0057]例如，HMAC被用于生成摘要(digest)，并且本发明的位流中包括的保护值可包括该摘要。该摘要可对于AC-3帧被如下地生成:(1)在AC-3数据和LPSM被编码之后，帧数据字节(链接帧数据#1和帧数据#2)和LPSM数据字节被用作哈希函数HMAC的输入。对于摘要计算没有考虑可存在于辅助数据(auxdata)字段内的其它数据。这样的其它数据可以是即不属于AC-3数据也不属于LPSM数据的字节。对于HMAC摘要计算可能没有考虑LPSM中包含的保护位。(2)在摘要被计算之后，摘要被写入位流中为保护位保留的字段中。(3)生成完整的AC-3帧的最后一步是计算CRC校验位。这被写入帧的最后端，并且属于此帧的所有数据(包括LPSM位)被加以考虑。
[0058]包括但不限于一种或多种非HMAC加密方法中的任一种方法的其它加密方法可被用于验证LPSM (例如，在验证器102中)，以确保LPSM和/或基层音频数据的安全传输和接收。例如，验证(使用这样的加密方法)可在接收发明的音频位流的实施例的每个音频处理单元中被执行，以确定是否位流中包含的响度处理状态元数据和对应的音频数据已经受了(如元数据指示的)特定响度处理(和/或从其得到)并且在执行这样的特定响度处理之后没有被修正。
[0059]状态验证器102将控制数据断言至音频流选择级104、元数据生成器106和对话相对测量子系统108，以指示验证操作的结果。响应于控制数据，级104可选择以下中的任一个(并且将其传递给编码器105): (I)响度处理级103的自适应处理输出(例如，当LPSM指示解码器101输出的音频数据没有经受特定类型的响度处理，并且来自验证器102的控制位指示LPSM有效时)；或者(2)从解码器101输出的音频数据(例如，当LPSM指示解码器101输出的音频数据已经受了由级103执行的特定类型的响度处理，并且来自验证器102的控制位指示LPSM有效时)。在一个实施例中，响度处理级103校正响度为所规定的目标和响度范围。
[0060]编码器100的级103被配置为基于由解码器101所提取的LPSM指示的一个或多个音频数据特性，对从解码器101输出的解码音频数据执行自适应响度处理。级103可以是自适应变换域实时响度和动态范围控制处理器。级103可接收用户输入(例如，用户目标响度/动态范围值或对话归一值)，或者其它元数据输入(例如，一种或多种第三方数据、跟踪信息、标识符、专有或标准信息、使用注释数据、用户偏好数据等)，和/或其它输入(例如，来自指纹识别处理)，并且使用这样的输入来处理从解码器101输出的解码音频数据。
[0061]对话响度测量子系统108可操作以当来自验证器102的控制位指示LPSM无效时，例如使用由解码器101提取的LPSM(和/或其它元数据)确定(来自解码器101的)解码音频的指

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6