用于新媒体设备上的具有及不具有嵌入式响度元数据的媒体的标准化音频播放的方法及装置的制造方法

文档序号:9439062阅读:618来源:国知局
用于新媒体设备上的具有及不具有嵌入式响度元数据的媒体的标准化音频播放的方法及装置的制造方法
【技术领域】
[0001]本发明涉及对在电子重现设备上以数字形式播放的音频、视频及多媒体内容的响度的控制,具体而言但非排他性地,涉及常发生在新媒体设备上的对播放响度的控制,其中内容是制作成具有及不具有嵌入式响度元数据。
【背景技术】
[0002]在产生及传输音乐、视频及其它多媒体内容时,在不同歌曲间或在不同节目间执行响度标准化过程来确保消费者听到具有适当响度的音频信号。自早期的录音及电影以来,此操作在产生过程期间进行或经由用于剧场的重现标准来进行。当今在音乐及无线电广播业内的惯常做法是将响度调整为接近媒体的最大峰值水平的值,而在电影及电视业内的做法是使用比最大峰值水平低20dB至31dB的若干标准响度水平中的之一。在媒体汇流(media convergence)之前的时代,消费者并未注意到上述情形,因为使用分开的设备或音量设定来播放每种类型的内容。
[0003]随着用于播放音乐及电影内容两者的移动设备(诸如移动电话或可携式媒体播放器)的出现,若将未经修改的内容传输至设备,则生产实践中的此差异导致可能高达30dB的响度差异。当从一种类型的内容切换至另一种类型时,上述情形可能导致电影的音量太小或音乐的音量太大。
[0004]相关趋势为,在录音的母带后期处理(mastering)期间经由使用强烈的动态范围压缩、限制及限幅(clipping)来增大许多类型的录制音乐的响度。此种母带后期处理是在仅考虑诸如光盘片的无损耗记录媒体的情况下进行,但是当今所售的大多数音乐是诸如MPEG AAC及MP3的有损耗的数据压缩格式。数据压缩过程可能引入在播放期间在解码器中重构的时域波形的变化,这种变化引起波形中超过信号的全尺度限值或最大峰值的过冲(overshoot) 0在通常用于移动设备中的定点解码器(或饱和浮点解码器)中,上述情形可导致将过冲限幅至全尺度限值,从而引起重现信号中的额外可听见的限幅。
[0005]在一些情况下,对音乐的强烈压缩及限幅是出于艺术目的进行,但更常见的是为了以下目的进行:通过使录音比其它录音“听起来更响”来增加录音的商业吸引力,或为了在所有倾听环境中(诸如在机场或嘈杂场所以及安静环境中)提供可被理解的内容。
[0006]在电影及视频行业内,在一些类型中使用广泛音频动态范围来获得巨大效果及创造更具吸引力的体验。当经由杜比数位或MPEG-4AAC编码传送给消费者时,通常包括音频动态范围控制元数据,以便允许在存在嘈杂环境的情况下或在大声场景过于烦扰的情况下在接收器或播放器处选择地减小动态范围。
[0007]由杜比数位来编码的DVD或BluRay内容中所包括的传统元数据或在由杜比数位(在先进电视系统委员会公司的音频压缩标准A/52中标准化)或MPEG-4AAC (在IS0/IEC14496-3及ETSI TS 101 154中标准化)来编码的TV信号中所传输的传统元数据包括以下分量:
[0008]1.单个静态元数据值,其指示节目的总体长期整合响度,在MPEG标准中称为节目参考水平。
[0009]2.降混增益的静态元数据值,其用来控制多声道内容的降混以便经由立体声或单声道设备输出。
[0010]3.动态范围控制增益或缩放因子之两个集合,其是在音频信号中针对用于多个频带或频区的每一经数据压缩的比特流帧加以发送。在行业术语中,一个集合是用于“轻度”压缩,且另一个集合用于“重度”压缩。所述轻度及重度DRC值的使用通常与在针对操作模式“线路模式”及“RF模式”所建立的解码器响度目标水平上的操作有关。针对此等模式的命名惯例及操作点是在数字媒体的初期建立的,在数字媒体的初期可能必需将数字音频转换为模拟信号,所述这些模拟信号发送基频缆线至后续设备上的线路输入端或经由RF载波传输至模拟电视机装置。
[0011]这个元数据的使用允许在播放期间以非破坏性方式使重现适应于倾听环境。可用不同的元数据集合或完全不使用元数据来播放相同的流或文件,以便产生不同的动态范围。不同于使用仅存在于播放设备中的压缩器,使用元数据的动态范围控制允许创造性艺术家必要时在产生过程期间监视及控制压缩的性质。
[0012]不幸的是,常常在诸如MPEG AAC或杜比数字家族的有损耗多媒体数字信号编解码器中实现的动态范围控制元数据不能对足够强的信号进行压缩以便与当代音乐的响度匹配,因为该元数据以音频压缩帧为基础影响信号的平均功率(可能在若干频带中),其中常见的帧周期为20ms至40ms。此逐帧增益控制不够快,以致于不能将信号的峰值与平均值之比减小至经高度处理的当代音乐的峰值与平均值之比。
[0013]如[5]中所描述的,由Wolters等人用来解决此问题的方法是在播放设备中使用接在解码器后面的音频限制器来增加平均响度。此将解决响度匹配问题,以使得音乐及电影内容具有相等响度,但有若干缺点。当消费者在安静环境中(可能在安静房间内使用连接至扬声器的移动设备,或使用具有强隔音效果的头戴式耳机或入耳式耳机)播放内容时,电影内容被压缩的强烈程度将与音乐相同,这是不符合要求的。限制器亦在设备CPU或DSP上引入额外工作负载,从而缩短电池寿命。
[0014]由Camerer等人在[6]中描述一种不同的方法,其提议将诸如ITU标准BS.1770-2中所描述的响度量测结果编码作为音乐文件中的元数据,并且将每一文件的播放标准化为设备的音量控制所设定的目标水平集合。此方法依靠先前的音乐响度标准化系统,诸如SoundCheck (www.apple, com)及 ReplayGain (www.replaygain.0rg),这些所述系统是诸如iPod的一些音乐播放器的可选择的特征。在这些他们的方法中,提倡要求响度标准化预设为开启;然而,并未规定当使用者关闭响度标准化时出现什么情况,或更重要的是,当播放未用响度元数据来编码的内容时出现什么情况。假设所有内容在播放前将由播放设备或由安全的可信赖的散布者(诸如iTunes)进行分析。另外,关于调整内容的总体动态范围来使其适应于倾听环境并未作出规定。
[0015]因此,本发明之一的目标是提供统一的方法来解决使以下两种内容的播放响度标准化的问题:电影/视频式内容,其可能具有广泛的动态范围及可能的嵌入式响度元数据;以及音乐或无线电/播客内容,其可能具有极窄的动态范围及强烈的压缩、限制及限幅,可能含有但很可能不含嵌入式响度元数据,由于消费者已经拥有或交换了大量先前音乐内容。
[0016]本发明的另一目标是允许按消费者之倾听环境或品味来调整含有动态范围控制元数据的内容的动态范围。
[0017]本发明的另一目标是预防有损耗的数据压缩音频解码器(诸如AAC、MP3或杜比数位解码器)中由信号分量变化引起的可能的限幅,这些变化是由数据压缩过程引入。
[0018]本发明的另一目标是对音乐录制业提供轻微的激励,以使其放弃对其内容中的更强的动态范围压缩、限制及限幅的追求。
[0019]本发明的又一目标是限制设备CPU或DSP上由响度处理或限幅预防所引起的额外工作负载。

【发明内容】

[0020]本发明之一实施例包括一种用于解码比特流以便从该比特流产生音频输出信号的解码器设备,该比特流包含音频数据且选择地包含含有一参考响度值的响度元数据,该解码器设备包含:
[0021]音频解码器设备,其被配置为从该音频数据重构音频信号;以及
[0022]信号处理器,其被配置为基于该音频信号产生该音频输出信号;
[0023]其中该信号处理器包含增益控制设备,该增益控制设备被配置为调整该音频输出信号的水平;
[0024]其中该增益控制设备包含参考响度解码器,该参考响度解码器被配置为产生一响度值,其中在该参考响度值存在于该比特流中的情况下,该响度值为该参考响度值;
[0025]其中该增益控制设备包含增益计算器,该增益计算器被配置为基于该响度值且基于音量控制值计算增益值,该音量控制值是由允许使用者控制该音量控制值的使用者接口提供;
[0026]其中该增益控制设备包含响度处理器,该响度处理器被配置为基于该增益值控制该音频输出信号的响度。
[0027]该音频解码器设备可为能够从压缩式比特流的音频数据重构音频信号的任何设备。信号处理器可以是能够在来自音频解码器设备的音频信号被设定至其时产生音频输出信号并且具有如下文所阐述的增益控制设备的任何设备。增益控制设备是经设置来控制音频输出信号的响度的设备。
[0028]参考响度解码器被配置为解码比特流中所含的响度元数据。若响度元数据含有参考响度值,则参考响度解码器正是将此参考响度值输出为响度值。
[0029]增益计算器是用于计算增益值的设备,该增益值是基于由参考响度解码器输出的响度值及由解码器设备的使用者设定的音量控制值。为了设定音量控制值,可使用任何使用者界面。增益计算器特定而言可为减法器。
[0030]响度处理器能够基于由增益计算器提供的增益值来控制音频输出信号的响度水平。响度处理器特定而言可为乘法器。
[0031]不同于可携式设备中或消费者电子设备中所使用的传统的压缩式解码器设备(诸如杜比数位或AAC解码器设备),用可变增益值或解码器目标临界值(对应于全尺度比特流的解码水平)来操作压缩解码器设备,该临界值受控于使用者的音量控制。此允许解码器设备通常在设备的数字音频系统的最大全尺度范围以下很好地操作。此操作避免了限幅解码器过冲的可能性,且允许不具有重度动态范围压缩及限制的电影式内容的响度标准化至具有重度压缩及限制的音乐内容的响度标准化,而无需不会如通常所需对电影式内容进行进一步压缩或限制。仅出于响度匹配目的,本发明在不减小内容的动态范围的情况下执行此标准化。
[0032]在本发明之一优选实施例中,在参考响度值不存在于比特流中的情况下,响度值为预设响度值。此等特征允许不具有响度元数据的比特流的高质量播放。
[0033]在本发明之一优选实施例中,预设响度值被设定为介于_4dB与-1OdB之间的值,特定而言,介于_6dB与-SdB之间,该值被称为全尺度振幅。当代音乐的实验研究显示,倾向于进行全尺度播放的音乐内容的响度的观测上限约为_7dB。因此,所主张预设响度值提供用于播放不具有响度元数据的比特流的最佳化模式。
[0034]在本发明之一优选实施例中,信号处理器包含动态范围控制设备,该动态范围控制设备被配置为调整音频输出信号的动态范围,
[0035]其中该动态范围控
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1