用于在不同回放设备之间优化响度和动态范围的系统和方法_4

文档序号:9221899阅读:来源:国知局
0082]作为替代地,解码器200将由解码器200从输入位流提取的LPSM(和任何其它元数据)断言至后处理器300,并且后处理器300使用LPSM对解码音频数据执行响度处理,或者执行LPSM的验证,然后在验证指示LPSM有效的情况下使用LPSM对解码音频数据执行响度处理。
[0083]在一些实施例中,如果解码器201接收具有加密散列的根据本发明的实施例生成的音频位流,则解码器被配置为从由该位流确定的数据块解析并取得该加密散列,所述块包括响度处理状态元数据(LPSM)。验证器203可使用加密散列来验证所接收的位流和/或相关联的元数据。例如,如果验证器203基于参考加密散列和从数据块取得的加密散列的匹配发现LPSM有效,其可向下游音频处理单元(例如,后处理器300,其可以是或者包括音量调节单元)发信号以传递位流的(未改变的)音频数据。附加地、可选地或者作为替代地,可使用其它类型的加密技术来替换基于加密散列的方法。
[0084]在解码器100的一些实现中,所接收的(并且在存储器201中缓冲的)编码位流是AC-3位流或E-AC-3位流,并且包括音频数据分段(例如,图4所示的帧的AB0-AB5分段)和元数据分段,其中音频数据分段指示音频数据,并且元数据分段中的至少一些分段中的每一个包括响度处理状态元数据(LPSM)。解码器级202被配置为从位流提取具有如下格式的LPSM。包括LPSM的元数据分段中的每一个被包括在位流的帧的位流信息(“BSI”)分段的“addbsi”字段中,或者在位流的帧的结尾处的auxdata字段(例如,图4中所示的AUX分段)中。位流的帧可包括一个或两个元数据分段,其中的每一个元数据分段包括LPSM,并且如果帧包括两个元数据分段,则一个存在于帧的addbsi字段中而另一个存在于帧的AUX字段中。包括LPSM的每个元数据分段包括具有以下格式的LPSM载荷(或者容器)分段:头部(例如,包括标识LPSM载荷的开始的同步字,随后是至少一个标识值,例如在以下的表2中指示的LPSM格式版本、长度、周期、计数和子流关联值);以及在头部之后,指示对应的音频数据是指示对话还是不指示对话(例如,对应音频数据的哪个通道指示对话)的至少一个对话指示值(例如,表2的参数“对话通道”);指示对应的音频数据是否遵从所指示的响度规则的集合的至少一个响度规则遵从值(例如,表2的参数“响度规则类型”);指示对于对应的音频数据执行的至少一种响度处理的至少一个响度处理值(例如,表2中的参数“对话门控响度校正标记”、“响度校正类型”中的一个或多个);以及指示对应音频数据的至少一个响度(例如,峰值响度或平均响度)特性的至少一个响度值(例如,表2的参数“ITU相对门控响度”、“ITU语音门控响度”、“ITU(EBU 3341)短期3s响度”和“真实峰值”中的一个或多个)。
[0085]在一些实现中,解码器级202被配置为从位流的帧的“addbsi”字段或auxdata字段提取具有以下格式的各元数据分段:核心头部(例如,包括标识元数据分段的开始的同步字,随后是至少一个标识值,例如在以下的表I中指示的核心元素版本、长度、周期、扩展元素计数和子流关联值);以及在核心头部之后,对于响度处理状态元数据或对应音频数据中的至少一个的解密、认证或验证中的至少一个有用的至少一个保护值(例如,表I的HMAC摘要和音频指纹值);以及也在核心头部之后的、在元数据分段包括LPSM的情况下的LPSM载荷标识(“ID”)和LPSM载荷大小值,其将随后的元数据标识为LPSM载荷并且指示LPSM载荷的大小。LPSM载荷(或容器)分段(例如,具有上文指定的格式)在LPSM载荷ID和LPSM载荷大小值之后。
[0086]更一般地,通过实施例生成的编码音频位流具有如下结构,其提供了将元数据元素和子元素标记为核心(必选(mandatory)元素)或扩展(可选元素)的机制。这允许位流(包括其元数据)的数据率在各种应用之间缩放。位流语法中的核心(必选)元素还应能够用信号告知与音频内容相关联的扩展(可选)元素存在(带内)和/或位于远程位置(带外)。
[0087]在一些实施例中,核心元素需要存在于位流的每一帧中。核心元素的一些子元素是可选的,并且可被以任何组合存在。扩展元素不需要存在于位流的每一帧中(以限制位率开销)。因此,扩展元素可存在于一些帧中而不存在于其它帧中。扩展元素的一些子元素是可选的,并且可被以任何组合存在,而扩展元素的一些子元素可以是必选的(即,扩展元素存在于位流的帧中的情况下)。
[0088]在一些实施例中,(例如,通过体现本发明的音频处理单元)生成包括音频数据分段和元数据分段的序列的编码音频位流。音频数据分段指示音频数据,至少一些元数据分段中的每一个包括响度处理状态元数据(LPSM),并且音频数据分段与元数据分段被时分复用。在一些实施例中,在此类型中,每个元数据分段具有文中要描述的格式。在一种格式中,编码位流是AC-3位流或者E-AC-3位流,并且包括LPSM的各元数据分段(例如,通过编码器100的级107)被作为附加位流信息包含在位流的帧的位流信息(“BSI”)分段的“addbsi”字段(图6所示)中或者位流的帧的auxdata字段中。每个帧包括具有图8的表I中所示的格式的帧的addbsi字段中的核心元素。
[0089]在一种格式中,包含LPSM的addbsi (或者auxdata)字段中的每一个包含核心头部(以及可选的附加核心元素);在核心头部(或者核心头部和其它核心元素)之后,随后的LPSM值(参数):核心元素值之后的载荷ID (将元数据标识为LPSM)(例如,表I中所指示的);载荷ID之后的载荷大小(指示LPSM载荷的大小);以及具有图9的表2所示指示的格式的LPSM数据(在载荷ID和载荷大小之后)。
[0090]在编码位流的第二格式中,位流是AC-3位流或E-AC-3位流,并且包含LPSM的各元数据分段(例如,通过编码器100的级107)被包含在如下字段中:位流的帧的位流信息(“BSI”)分段的“addbsi”字段,或者在位流的帧的结尾处的auxdata字段(例如,图4中所示的AUX分段)。帧可包括一个或两个元数据分段,其中的每一个元数据分段包括LPSM,并且如果帧包括两个元数据分段,则一个存在于帧的addbsi字段中而另一个存在于帧的AUX字段中。包括LPSM的每个元数据分段具有上文参照表I或表2指定的格式(即,其包括表I中规定的核心元素,随后是上文规定的载荷ID(将元数据标识为LPSM)以及载荷大小值、随后是载荷(具有表2中指示的格式的LPSM数据))。
[0091]在另一实现中,编码位流是Dolby E位流,并且包括LPSM的元数据分段中的每一个时Dolby E保护带间隔的前N个采样位置。包括这样的元数据分段的Dolby E位流包括LPSM,例如包括指示在SMPTE 337M序言的Pd字中信号告知的LPSM载荷长度的值(SMPTE337M Pa字重复率可保持与相关联的视频帧率相同)。
[0092]在编码位流是E-AC-3位流的格式中,包含LPSM的各元数据分段(例如,通过编码器100的级107)被包含在位流的帧的位流信息(“BSI”)分段的“addbsi”字段中。附加的对此格式的具有LPSM的E-AC-3位流进行编码的方面被描述如下:(I)在E-AC-3位流生成期间,在E-AC-3编码器(其将LPSM值插入位流)“工作”时,对于生成的每个帧(同步帧),位流应包含在帧的addbsi字段中被运送的元数据块(包括LPSM)。运送元数据块的位不应增大编码器位率(帧长度);(2)每个元数据块(包含LPSM)应含有如下信息:
[0093]loudness_correct1n_type_flag:其中“I”指示对应音频数据的响度在编码器上游被校正,并且“O”指示响度通过嵌入在编码器中的响度校正器被校正(例如,图2的编码器100的响度处理器103) ;speed_channel指示哪个(哪些)源通道包含语音(在前0.5秒)。如果没有检测到语音,其应被这样指示;speech_loudness指示含有语音的各对应音频通道的积分语音响度(在前0.5秒);ITU_loudnesS指示各对应音频通道的积分ITUBS.1770-2响度;增益:用于解码器中的逆转的响度复合增益(指示可逆性)。
[0094]当E-AC-3编码器(其将LPSM值插入位流)“工作”并且正接收具有“真”标记的AC-3帧时,编码器中的响度控制器(例如,图2的编码器100的响度处理器103)被绕过。“可信”源对话归一和DRC值被传递(例如,通过编码器100的生成器106)至E-AC-3编码器组件(例如,编码器100的级107)。LPSM块生成继续进行,并且loudness_correct1n_type_f lag被设定为“ I ”。响度控制器绕过序列被与出现“置信”标记的解码AC-3帧的开始同步。响度控制器绕过序列被如下实现:leveler_amount控制经过10个音频块周期(即,53.3毫秒)从值9减小至值0,并且leveler_back_end_meter控制被置于绕过模式中(此操作将导致无缝转换)。术语调平器的“可信”绕过暗示源位流的对话归一值还在编码器的输出被再次利用(例如,如果“可信”源位流具有对话归一值-30,然后,编码器的输出应对于出站对话归一值利用-30)。
[0095]当E-AC-3编码器(其将LPSM值插入位流)“工作”并且正接收不具有“真”标记的AC-3帧时,嵌入编码器中的响度控制器(例如,图2的编码器100的响度处理器103)激活。LPSM块生成继续进行,并且loudness_correct1n_type_flag被设定为“O”。响度控制器激活序列被与“置信”标记消失的解码AC-3帧的开始同步。响度控制器激活序列被如下实现:leveler_amount控制经过I个音频块周期(即,5.3毫秒)从值O增大至值9,并且leveler_back_end_meter控制被置于激活模式中(此操作将导致无缝转换,并且包括baCk_end_meter积分复位);并且在编码期间,图形用户界面(GUI)向用户指示如下参数:“输入音频节目:[可信/不可信]此参数的状态基于输入信号中的“置信”标记的存在;以及“实时响度校正:[启用/禁用]”-此参数的状态基于嵌入编码器的此响度控制器是否激活。
[0096]当解码在位流的各帧的位流信息(“BSI”)分段的“addbsi”字段中包含LPSM(为所描述的格式)的AC-3或E-AC-3位流时,解码器解析LPSM块数据(在addbsi字段)中,并且将提取的LPSM值传递至图形用户界面(GUI)。所提取的LPSM值的集合被每帧刷新。
[0097]在还另一种格式中,编码位流是AC-3位流或E-AC-3位流,并且包括LPSM的元数据分段中的每一个被(例如,通过编码器100的级107)作为附加位流信息包含在位流的帧的位流信息(“BSI”)分段的“addbsi”字段(图6所示)中(或者在Aux分段中)。在此格式(其是上文参照表I和2描述的格式的变型)中,含有LPSM的addbsi (或Aux)字段中的每一个含有以下LPSM值:表I中规定的核心元素,随后是载荷ID(将元数据标识Slpsm)以及载荷大小值,随后是具有以下格式(类似于上文在表2中指示的元素)的载荷(LPSM数据):LPSM载荷的版本:指示LPSM载荷的版本的2位字段;dialchan:指示对应音频数据的左、右和/或中央通道是否含有口语对话的3位字段。Dialchan字段的位分配可以如下:指示对话存在于左通道中的位O被存储在dialchan字段的最高有效位中;并且指示对话存在于中央通道中的位2被存储在dialchan字段的最低有效位中。如果在节目的前0.5秒期间对应的通道含有口语对话,则dialchan字段的每一位被设定为“ I” ;1udregtyp:指示节目响度所遵从的响度规则标准的3位字段。将“loudregtyp”设定为“000”指示LPSM不指示响度规则遵从。例如,此字段的一个值(例如,000)可指示没有指示遵从响度规则标准,此字段的另一个值(例如,001)可指示节目的音频数据遵从ATSCA/85标准,此字段的另一个值(例如,010)可指示节目的音频数据遵从EBU R128标准。在示例中,如果字段被设定为“000”之外的任何值,在载荷中随后应为1udcorrdialgat和1udcorrtyp字段;loudcorrdialgat:指示对话门控响度校正是否已经被应用的I位字段。如果节目的响度已经使用对话门控被校正,则loudcorrdialgat字段的值被设定为“I”。否贝1J,其被设定为“O'loudcorrtyp:指示应用于节目的响度校正的类型的I位字段。如果节目的响度已经通过无限前瞻(基于文件)响度校正处理被校正,则loudcorrtyp字段的值被设定为“O”。如果节目的响度已经使用实时响度测量和动态范围控制的组合被校正,则此字段的值被设定为“I”;1udrelgate:指示相对门控响度数据(ITU)是否存在的I位字段。如果1udrelgate字段被设定为“ 1”,在载荷中随后应为7位的ituloudrelgat字段;1udrelgat:指示相对门控节目响度(ITU)的7位字段。该字段指示根据ITU-R BS.1770-2测量的音频节目的积分响度,其由于被应用对话归一和动态范围压缩而没有任何增益调整。值O到127被解释为-58LKFS到+5.5LKFS,步长为0.5LKFS ; 1udspchgate:指示语音门控响度数据(ITU)是否存在的I位字段。如果loudspchgate字段被设定为“ 1”,则在载荷中随后应为7位的1udspchgat字段;1udspchgat:指示语音门控节目响度的7位字段。此字段指示根据ITU-R BS.1770-3的式(2)测量的整个对应音频节目的积分响度,其由于被应用对话归一和动态范围压缩而没有任何增益调整。值O到127被解释为-58LKFS到+5.5LKFS,步长为0.5LKFS ;loudstrm3se:指示短期(3秒)响度数据是否存在的I位字段。如果该字段被设定为“I”,则在载荷中随后应为7位的loudstrm3s字段;lo
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1