用于在不同回放设备之间优化响度和动态范围的系统和方法_3

文档序号：9221899阅读：来源：国知局

示对话(或者其它语音)的分段的响度。当LPSM指示先前确定的(来自解码器101的)解码音频的对话(或其它语音)分段的响度时，当来自验证器102的控制位指示LPSM有效时，对话响度测量子系统108的操作可被禁用。
[0062]存在用于方便和容易地测量音频内容中的对话的水平的有用工具(例如，DolbyLM100响度计)。APU(例如编码器100的级108)的一些实施例被实现为包括这样的工具(或者执行其功能)，以测量音频位流(例如，被从编码器100的解码器101断言至级108的所解码的AC-3位流)的音频内容的平均对话响度。如果级108被实现为测量音频数据的真实平均对话响度，测量可包括隔离音频内容的主要包含语音的分段的步骤。主要为语音的音频分段然后根据响度测量算法被处理。对于从AC-3位流解码的音频数据，此算法可以是标准K加权响度测量(根据国际标准ITU-R BS.1770)。作为替代，其它响度测量可被使用(例如，基于响度的心理声学模型的那些)。
[0063]语音分段的隔离不是测量音频数据的平均对话响度所必需的。但是，其提高了测量的精度，并且提供了从收听者的角度看更满意的结果。由于并非所有音频内容都包含对话(语音)，因此整个音频内容的响度测量可提供音频的对话水平的充分近似(在语音存在的情况下)。
[0064]元数据生成器106生成要通过级107被包含在要从编码器100输出的编码位流中的元数据。元数据生成器106可将由编码器101提取的LPSM(和/或其它元数据)传递至级107 (例如，当来自验证器102的控制位指示LPSM和/或其它元数据有效时)，或者生成新的LPSM(和/或其它元数据)并且将新的LPSM断言至级107 (例如，当来自验证器102的控制位指示通过解码器101提取的LPSM和/或其它元数据无效时)，或者其可将通过解码器101提取的元数据和新生成的元数据的组合断言至级107。元数据生成器106可将通过子系统108生成的响度数据和指示子系统108执行的响度处理的类型的至少一个值包含在元数据生成器106断言至级107的LPSM中，以便包含在要从编码器100输出的编码位流中。元数据生成器106可生成保护位(可由哈希消息认证码或“HMAC”构成或者包括HMAC)，该保护位对于要被包含在编码位流中的LPSM(和/或其它元数据)和/或要被包含在编码位流中的基层音频数据的解密、认证或验证中的至少一个是有用的。元数据生成器106可将这样的保护位提供给级107以便包含在编码位流中。
[0065]在一个实施例中，对话响度测量子系统108处理从解码器101输出的音频数据，以响应于其生成响度值(例如，被门控或者未被门控的对话响度值)和动态范围值。响应于这些值，元数据生成器106可生成响度处理状态元数据(LPSM)以便(通过填充器/格式化器107)包含在要从编码器100输出的编码位流中。在一个实施例中，响度可基于ITU-RBS.1770-1和ITU-R BS.1770-2标准规定的技术、或者其它相似的响度测量标准被计算。门控响度(gated loudness)可以是对话门控响度或者相对门控响度，或者这些门控响度类型的组合，并且系统可根据应用要求和系统约束来采用合适的门控块。
[0066]附加地、可选地或作为替代地，编码器100的子系统106和/或108可执行音频数据的附加分析以生成指示音频数据的至少一个特性的元数据，以便包含在要从级107输出的编码位流中。编码器105对从选择级104输出的音频数据进行编码(例如，通过对其进行压缩)，并且将编码音频断言至级107以便包含在要从级107输出的编码位流中。
[0067]级107对来自编码器105的编码音频和来自生成器106的元数据(包括LPSM)进行复用，以生成要从级107输出的编码位流，从而编码位流具有如实施例所指定的格式。帧缓冲器109是缓冲存储器，其存储(例如，以非暂态的方式)从级107输出的编码音频位流中的至少一帧，然后，编码音频位流的帧的序列被从缓冲器109作为编码器100的输出断言至输送系统150。
[0068]元数据生成器106生成的且通过级107被包含在编码位流中的LPSM指示对应音频数据的响度处理状态(例如，对于音频数据已经执行的响度处理的类型)、和对应音频数据的响度(例如，所测量的对话响度、门控和/或非门控响度、和/或动态范围)。这里，对于音频数据执行的响度和/或水平测量的“门控”指的是特定水平或响度阈值，在最终测量中包含超过阈值的计算值(例如，在最终测量值中忽略低于_60dBFS的短期响度值)。绝对值的门控指的是固定水平或响度，而相对值的门控指的是依赖于当前“未门控”测量值的值。
[0069]在编码器100的一些实现中，存储器109中缓冲(并且被输出至输送系统150)的编码位流是AC-3位流或E-AC-3位流，并且包括音频数据分段(例如，图4所示的帧的AB0-AB5分段)和元数据分段，其中音频数据分段指示音频数据，并且元数据分段中的至少一些分段中的每一个包括响度处理状态元数据(LPSM)。级107按以下格式将LPSM插入位流。包括LPSM的元数据分段中的每一个被包括在位流的帧的位流信息(“BSI”)分段的“addbsi”字段中，或者在位流的帧的结尾处的auxdata字段(例如，图4中所示的AUX分段)中。
[0070]位流的帧可包括一个或两个元数据分段，其中的每一个元数据分段包括LPSM，并且如果帧包括两个元数据分段，则一个存在于帧的addbsi字段中而另一个存在于帧的AUX字段中。包括LPSM的每个元数据分段包括具有以下格式的LPSM载荷(或者容器)分段:头部(例如，包括标识LPSM载荷的开始的同步字，随后是至少一个标识值，例如在以下的表2中指示的LPSM格式版本、长度、周期、计数和子流关联值)；以及在头部之后，指示对应的音频数据是指示对话还是不指示对话(例如，对应音频数据的哪个通道指示对话)的至少一个对话指示值(例如，表2的参数“对话通道”)；指示对应的音频数据是否遵从所指示的响度规则的集合的至少一个响度规则遵从值(例如，表2的参数“响度规则类型”)；指示对于对应的音频数据执行的至少一种响度处理的至少一个响度处理值(例如，表2中的参数“对话门控响度校正标记”、“响度校正类型”中的一个或多个)；以及指示对应音频数据的至少一个响度(例如，峰值响度或平均响度)特性的至少一个响度值(例如，表2的参数“ITU相对门控响度”、“ITU语音门控响度”、“ITU(EBU 3341)短期3s响度”和“真实峰值”中的一个或多个)。
[0071]在一些实现中，通过级107插入位流的帧的“addbsi”字段或auxdata字段的元数据分段中的每一个具有以下格式:核心头部(例如，包括指示元数据分段的开始的同步字，随后是标识值，例如在以下的表I中指示的核心元素版本、长度、周期、扩展元素计数和子流关联值)；以及在核心头部之后，对于响度处理状态元数据或对应音频数据中的至少一个的解密、认证或验证中的至少一个有用的至少一个保护值(例如，表I的HMAC摘要和音频指纹值)；以及也在核心头部之后的、在元数据分段包括LPSM的情况下的LPSM载荷标识(“ID”)和LPSM载荷大小值，其将随后的元数据标识为LPSM载荷并且指示LPSM载荷的大小。
[0072]LPSM载荷(或容器)分段(例如，具有上文指定的格式)在LPSM载荷ID和LPSM载荷大小值之后。
[0073]在一些实施例中，帧的auxdata字段(或者“addbsi”字段)中的元数据分段中的每一个具有三个层级的结构:高层级结构，包括指示auxdata(或者addbsi)字段是否包括元数据的标记，指示存在的元数据的类型的至少一个ID值、以及可选地还包括指示存在(例如，每种类型的)元数据的多少位(在元数据存在的情况下)的值。可存在的一种类型的元数据是LPSM，并且可存在的另一类型的元数据是媒体调查元数据(例如，尼尔森媒体调查元数据)；中间层级结构，包括每一标识的类型的元数据的核心元素(例如，每一标识的类型的元数据的如上文提及的核心头部、保护值和LPSM载荷ID和LPSM载荷大小值)；和低层级结构，包括一个核心元素的每一载荷(例如，在被核心元素标识为存在的情况下的LPSM载荷，或者在被核心元素标识为存在的情况下的另一类型的元数据载荷)。
[0074]这样的三层级结构中的数据值可嵌套(nest)。例如，核心元素标识的LPSM载荷和/或另一元数据载荷的保护值可被包含在由核心元素标识的每个载荷之后(因此，在核心元素的核心头部之后)。在一个示例中，核心头部可标识LPSM载荷和另一元数据载荷，第一载荷(例如，LPSM载荷)的载荷ID和载荷大小值可在核心头部之后，第一载荷本身可在ID和大小值之后，第二载荷的载荷ID和载荷大小可在第一载荷之后，第二载荷本身可在这些ID和大小值之后，并且这两个载荷的(或者核心元素值和这两个载荷的)保护值可在最后个载何之后。
[0075]在一些实施例中，如果解码器101接收具有加密散列的根据本发明的实施例生成的音频位流，则解码器被配置为从由该位流确定的数据块解析并取得该加密散列，所述块包括响度处理状态元数据(LPSM)。验证器102可使用加密散列来验证所接收的位流和/或相关联的元数据。例如，验证器102基于参考加密散列和从数据块取得的加密散列的匹配发现LPSM有效，然后可禁止处理器103对对应的音频数据操作，并且使得选择级104传递(未改变的)视频数据。附加地，可选地或者作为替代地，可使用其它类型的加密技术以替代基于加密散列的方法。
[0076]图2的编码器100可(响应于通过解码器101提取的LPSM)确定后处理/预处理单元已经对要被编码的音频数据执行了响度处理(在元件105、106和107中)，因此(在生成器106中)可创建包括在先前执行的响度处理中使用的和/或从先前执行的响度处理导出的特定参数的响度处理状态元数据。在一些实施例中，编码器100可创建(并且在其输出的编码位流中包括)指示音频内容的处理历史的处理状态元数据，至少编码器知晓已对于音频内容执行的处理的类型即可。
[0077]图3是可与图1的系统10结合使用的解码器的框图。解码器200和后处理器300的组件或元件中的任一个可被以硬件、软件或者硬件和软件的组合实现为一个或多个处理和/或一个或多个电路(例如，ASIC、FPGA或者其它集成电路)。解码器200包括帧缓冲器201、解析器205、音频解码器202、音频状态验证级(验证器)203和控制位生成级204，它们如图所示地连接。解码器200包括其它处理元件(未示出)。帧缓冲器201 (缓冲存储器)存储(例如，以非暂态的方式)解码器200接收的编码音频位流中的至少一帧。编码音频位流的帧序列被从缓冲器201断言至解析器205。解析器205被耦合和配置为从编码的输入音频中的每一帧提取响度处理状态元数据(LPSM)和其它元数据，以将至少LPSM断言至音频状态验证器203和级204，将LPSM断言为输出(例如，到后处理器300)，从编码的输入音频提取音频数据，并且将所提取的音频数据断言至解码器202。输入解码器200的编码音频位流可以是AC-3位流、E-AC-3位流或者Dolby E位流之一。
[0078]图3的系统还包括后处理器300。后处理器300包括帧缓冲器301和包括耦合到缓冲器301的至少一个处理元件的其它处理元件(未示出)。帧缓冲器301存储(例如，以非暂态的方式)来自解码器200的后处理器300接收的解码音频位流中的至少一帧。后处理器300的处理元件被耦合并且配置为接收并且使用从解码器202输出的元数据(包括LPSM值)和/或从解码器200的级204输出的控制位自适应地处理从缓冲器301输出的解码音频位流的帧的序列。在一个实施例中，后处理器300被配置为使用LPSM值(例如，基于由LPSM指示的响度处理状态和/或一个或多个音频数据特性)对解码音频数据执行自适应响度处理。解码器200和后处理器300的各种实现被配置为执行根据文中所描述的实施例的方法的不同实施例。
[0079]解码器200的音频解码器202被配置为解码通过解析器205提取的音频数据以生成解码音频数据，并且断言解码音频数据为输出(例如，至后处理器300)。状态验证器203被配置为认证和验证被断言至状态验证器203的LPSM(以及可选的其它元数据)。在一些实施例中，LPSM为(或者被包括在)已经包含在输入位流中的数据块中(例如，根据本发明的实施例)。该块可包括用于处理LPSM(以及可选的其它元数据)和/或基层音频数据(从解析器205和/或解码器202提供给验证器203)的加密散列(哈希消息认证码或者“HMAC”)。在这些实施例中，数据块可被数字签名，从而下游的音频处理单元可相对容易地认证和验证处理状态元数据。
[0080]包括但不限于一种或多种非HMAC加密方法中的任一种方法的其它加密方法可被用于验证LPSM (例如，在验证器203中)，以确保LPSM和/或基层音频数据的安全传输和接收。例如，验证(使用这样的加密方法)可在接收发明的音频位流的实施例的每个音频处理单元中被执行，以确定是否位流中包含的响度处理状态元数据和对应的音频数据已经受了(如元数据指示的)特定响度处理(和/或从其得到)并且在执行这样的特定响度处理之后没有被修正。
[0081]状态验证器203将控制数据断言至控制位生成器204，并且断言该控制数据作为输出(例如，至后处理器300)，指示验证操作的结果。响应于控制数据(以及可选的从输入位流提取的其它元数据)，级204可生成以下中的任一个(并且将其断言至后处理器300):(I)指示从解码器202输出的解码音频数据已经受了特定类型的响度处理的控制位(例如，当LPSM指示解码器202输出的音频数据已经受了特定类型的响度处理，并且来自验证器203的控制位指示LPSM有效时)；或者(2)指示从解码器202输出的解码音频数据应经受特定类型的响度处理的控制位(例如，当LPSM指示解码器202输出的音频数据没有经受特定类型的响度处理时，或者当LPSM指示解码器202输出的音频数据已经受了特定类型的响度处理但是来自验证器203的控制位指示LPSM无效时)。
[

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6