用于在不同回放设备之间优化响度和动态范围的系统和方法

文档序号：9221899阅读：321来源：国知局

用于在不同回放设备之间优化响度和动态范围的系统和方法
【专利说明】用于在不同回放设备之间优化响度和动态范围的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求以下申请的优先权:2013年I月21日提交的第61/754882号的美国临时申请、2013年4月5日提交的第61/809250号的美国临时申请；以及2013年5月16日提交的第61/824010号的美国临时专利申请，所有这些申请的全部内容都通过引用并入本文。
技术领域
[0003]一个或多个实施例总体上涉及音频信号处理，并且更具体地涉及基于回放环境和设备处理具有元数据的音频数据位流，该元数据指示音频内容的响度和动态范围特性。
【背景技术】
[0004]【背景技术】章节中所讨论的主题不应仅因其在本章节中被提及就假定其作为现有技术。类似地，在【背景技术】章节中所提及的或者与【背景技术】章节的主题相关联的问题不应被假定已经在任何现有技术中被认识到。【背景技术】章节中的主题仅表示不同的方法，它们本身也可能是发明。
[0005]音频信号的动态范围通常是信号中所体现的声音的最大可能值和最小可能值之间的比率，并且通常被测量为分贝值(基于10)。在许多音频处理系统中，动态范围控制(或者动态范围压缩)被用于减少响声音水平，和/或放大安静声音水平以使得宽动态范围源内容适配可被更容易地使用电子设备存储和再现的较窄的被记录的动态范围。对于视听(AV)内容，对话参考水平可被用于定义用于通过DRC机制压缩的“零”点。DRC用于增大低于对话参考水平的内容且切除高于该参考水平的内容。
[0006]在已知的音频编码系统中，与音频信号相关联的元数据被用于基于内容的类型和预期用途来设定DRC水平。DRC模式设定要应用于音频信号的压缩量，并且限定解码器的输出参考水平。这样的系统可被限制于两个DRC水平设置，这两个DRC水平设置被编程到编码器中并且被用户选择。例如，常规地，对于在支持AVR或者全动态范围的设备上回放的内容使用对话归一(dialnorm)(对话归一化)值_31dB，而对于在电视机或类似设备上回放的内容使用对话归一(对话归一化)值_20dB。这种类型的系统允许单个音频位流通过使用两组不同的DRC元数据用于两个常见的但是大不相同的回放场景。但是，这样的系统局限于被预先设定的对话归一值，而对于随着数字媒体和基于互联网的流送技术的出现而成为可能的多种不同回放设备和收听环境中的回放未被优化。
[0007]在当前的基于元数据的音频编码系统中，音频数据流可包括音频内容(例如，音频内容的一个或多个通道)和指示音频内容的至少一个特性的元数据。例如，在AC-3位流中，存在具体地预期用于改变被输送至收听环境的节目的声音的若干音频元数据参数。元数据参数之一是对话归一参数，其指示在音频节目中出现的对话的平均响度水平(或者内容的平均响度)，并且被用于确定音频回放信号水平。
[0008]在包含不同音频节目分段(每个音频节目分段具有不同的对话归一参数)的序列的位流的回放期间，AC-3解码器使用每一分段的对话归一参数来执行一种响度处理，该响度处理修正该分段的回放水平或响度，使得该分段的对话的感知响度处于一致水平。编码音频分段(项)的序列中的每一个编码音频项通常将具有不同的对话归一参数，并且解码器将缩放每一项的水平，使得用于每一项的对话的回放水平或响度相同或非常相近，但是这可能需要在回放期间对于不同项添加不同增益量。
[0009]在一些实施例中，对话归一参数由用户设定，而不是自动生成，但是在用户没有设定值的情况下存在默认的对话归一值。例如，内容创建者可通过AC-3编码器外部的设备来进行响度测量，然后将结果(指示音频节目的口语对话的响度)传递至编码器以设定对话归一值。因此，依赖于内容创建者正确地设定对话归一参数。
[0010]关于AC-3位流中的对话归一参数可能不正确，存在若干不同的理由。首先，每个AC-3编码器具有默认对话归一值，如果对话归一值没有被内容创建者设定，则在位流生成期间使用该默认对话归一值。此默认值可能明显不同于音频的实际对话响度水平。其次，即使内容创建者测量响度并且相应地设定对话归一值，不符合所建议的响度测量方法的响度测量算法或者测量计可能已被使用，这导致不正确的对话归一值。第三，即使AC-3位流已通过被内容创建者正确地测量和设定的对话归一值来创建，但是该对话归一值在位流的传输和/或存储期间可能已由于中间模块而改变为不正确的值。例如，在电视广播应用中，常见地是AC-3位流通过使用不正确的对话归一元数据信息被解码、修正并然后重新编码。因此，AC-3位流中包括的对话归一值可能是不正确的或不准确的，因此可能对于收听体验的质量造成不利影响。
[0011]此外，对话归一参数没有指示对应音频数据的响度处理状态(例如，已对于音频数据执行的响度处理的类型)。另外，当前采用的响度和DRC系统(诸如，DolbyDigital(DD)和Dolby Digital Plus (DD+)系统中的系统)被设计为在消费者起居室或者影院中呈现AV内容。为了使得这样的内容适合于其它环境和收听设备(例如，移动设备)中回放，必须在回放设备中“盲目”应用后处理以使得AV内容适合于该收听环境。换句话说，后处理器(或者解码器)假定所接收的内容的响度水平处于特定水平(例如，-31dB或-20dB)，并且后处理器将该水平设定为适合于特定设备的预先确定的固定目标水平。如果所假定的响度水平或者预先确定的目标水平是不正确的，则后处理可能具有与其的预期效果相反的效果，即后处理可能使得输出音频低于用户的期望。
[0012]所公开的实施例不局限于用于AC-3位流，E-AC-3位流或者Dolby E位流，但是为了方便起见，这样的位流将结合包括响度处理状态元数据的系统被讨论。Dolby、DolbyDigitaKDolby Digital Plus、以及Dolby E是杜比实验室特许公司的商标，杜比实验室提供了分别已知为Dolby和Dolby Digital的AC-3和E-AC-3的专有实现。

【发明内容】

[0013]实施例涉及一种用于解码音频数据的方法，该方法接收包含与音频数据相关联的元数据的位流，并且分析位流中的元数据以确定是否在位流中可获得用于第一组音频回放设备的响度参数。响应于确定对于该第一组存在该参数，处理组件使用该参数和音频数据来呈现音频。响应于确定对于该第一组不存在该参数，则处理组件分析该第一组的一个或更多个特性，并且基于该一个或更多个特性来确定参数。该方法可进一步通过将参数和音频数据传输至呈现音频以供回放的下游模块，使用该参数和音频数据来呈现音频。参数和音频数据还可被用于通过基于参数和音频数据呈现音频数据来呈现音频。
[0014]在一个实施例中，该方法还包括确定将呈现所接收的音频流的输出设备，并且确定该输出设备是否属于第一组音频回放设备；其中，分析流中的元数据以确定是否可获得第一组音频回放设备的响度参数的步骤在确定该输出设备属于第一组音频回放设备的步骤之后被执行。在一个实施例中，确定该输出设备属于第一组音频回放设备的步骤包括:接收来自与输出设备连接的模块的指示输出设备的身份(identity)或者指示包括该输出设备的一组设备的身份的指示，并且基于所接收到的指示确定输出设备是否属于第一组音频回放设备。
[0015]实施例进一步涉及包括执行上文编码方法实施例中描述的动作的处理组件的装置或系统。
[0016]实施例进一步涉及一种音频数据解码方法，该方法接收音频数据和与该音频数据相关联的元数据，分析位流中的元数据以确定在该位流中是否可获得与第一组音频设备的响度参数相关联的响度信息，并且响应于确定对于该第一组存在该响度信息，从该位流确定响度信息，并且传输音频数据和响度信息以用于呈现音频，或者如果对于该第一组不存在该响度信息，确定与输出简档相关联的响度信息，并且传输所确定的该输出简档的响度信息以用于呈现音频。在一个实施例中，确定与输出简档相关联的响度信息的步骤可进一步包括分析输出简档的特性，基于该特性确定参数，并且传输所确定的响度信息包括传输所确定的参数。响度信息可包括输出简档的响度参数或者输出简档的特性。在一个实施例中，该方法可进一步包括确定要被传输的低位率编码流，其中响度信息包括一个或更多个输出简档的特性。
[0017]实施例进一步涉及包括执行上文解码方法实施例中描述的动作的处理组件的装置或系统。
【附图说明】
[0018]在以下附图中相似的附图标记被用于指示相似元件。尽管以下附图描绘了各种示例，文中所描述的实现不局限于附图中所描绘的示例。
[0019]图1是根据一些实施例的被配置用于执行响度和动态范围的优化的音频处理系统的实施例的框图；
[0020]图2是根据一些实施例的图1的系统中所使用的编码器的框图。
[0021]图3是根据一些实施例的图1的系统中所使用的解码器的框图。
[0022]图4是AC-3帧的图示，包括AC-3帧分割成多个分段。
[0023]图5是AC-3帧的同步信息(SI)分段的图示，包括AC_3帧分割成多个分段。
[0024]图6是AC-3帧的位流信息(BSI)分段的图示，包括AC_3帧分割成多个分段。
[0025]图7是E-AC-3帧的图示，包括E_AC_3帧分割成多个分段。
[0026]图8是示出根据一些实施例的编码位流的某些帧和元数据的格式的表。
[0027]图9是示出根据一些实施例的响度处理状态元数据的格式的表。
[0028]图10是根据一些实施例的可被配置为执行响度和动态范围的优化的图1的音频处理系统的更详细的框图。
[0029]图11是示出在示例性使用情况中关于各种回放设备和背景收听环境的不同动态范围要求的表。
[0030]图12是根据实施例的动态范围优化系统的框图。
[0031]图13是根据一些实施例的用于各种不同回放设备类别的不同简档之间的接口的框图。
[0032]图14是示出根据实施例的多种定义的简档的长期响度和短期动态范围之间的关联性的表。
[0033]图15示出根据实施例的用于不同类型的音频内容的响度简档的示例。
[0034]图16是示出根据实施例的在回放设备和应用之间优化响度和动态范围的方法的流程图。
【具体实施方式】
[0035]定义和命名法
[0036]在本公开的上下文中、包括在权利要求书中，表述“对信号或数据执行操作(例如对信号或数据进行滤波、缩放、变换或者应用增益)”被在广义上使用以指示直接对信号或数据执行该操作，或者对信号或数据的处理后的版本(例如，在执行该操作之前经受了初步滤波或者预处理的信号的版本)执行该操作。表述“系统”被在广义上使用以指示设备、系统或者子系统。例如，实现解码器的子系统可被称为解码器系统，包括这样的子系统的系统(例如，响应于多个数据生成X输出信号的系统，其中该子系统生成输入中的M个输出而另外的X-M个输入被从外部源接收到)也可被称为解码器系统。术语“处理器”被在广义上使用以指示可编程或者可被配置为(例如，通过软件或固件)对数据(例如，音频、视频或其它图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或者，其它可编程集成电路或芯片组)、被编程和/或另外配置为对音频或者其它声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
[0037]表述“音频处理器”和“音频处理单元”被互换地使用，并且在广义上指示被配置为处理音频数据的系统。音频处理单元的示例包括但不限于编码器(例如，代码转换器)、解码器、编解码器、预处理系统、后处理系统和位流处理系统(有时被称为位流处理工具)。表述“处理状态元数据”(例如，在表述“响度处理状态元数据”中)指的是来自对应音频数据的分离的和不同的数据(也包括处理状态元数据的音频数据流的音频内容)。处理状态元数据与音频数据相关联，指示对应音频数据的响度处理状态(例如，对于音频数据已经执行了什么类型的处理)，并且可选地还指示音频数据的至少一个特征或特性。在一些实施例中，处理状态元数据与音频数据的关联性是时间同步的。因此，当前的(最新接收的或者更新的)处理状态元数据指示对应的音频数据同时地包括所指示类型的音频数据处理的结果。在一些情况中，处理状态元数据可包括处理历史和/或所指示类型的处理中所使用的和/或从其导出的参数的一些或全部。另外，处理状态元数据可包括对应音频数据的已经从音频数据被计算或提取的至少一个特征或特性。处理状态元数据还可包括与对应音频数据的任何处理无关的或者不从其导出的其它元数据。例如，第三方数据、跟踪信息、标识符、专有或标准信息、用户注释数据、用户偏好数据等可通过特定音频处理单元被添加以传递至其它音频处理单元。
[0038]表述“响度处理状态元数据”(或者“LPSM” )指示如下这样的处理状态元数据，其指示对应音频数据的响度处理状态(例如，对于音频数据已经执行了什么类型的处理)，并且可选地还指示对应音频数据的至少一个特征或特性(例如响度)。响度处理状态元数据可包括不是响度处理状态元数据的数据(例如，在被单独考虑时)。术语“耦合”或者“被耦合”用于表示直接或者间接连接。
[0039]针对如下的音频编码器/解码器描述系统和方法，该音频编码器/解码器在需要或者使用不同的目标响度值并且具有不同的动态范围能力的各种设备之间非破坏性地归一化音频的响度和动态范围。根据一些实施例的方法和功能组件针对一个或多个设备简档将关于音频内容的信息从编码器发送至解码器。设备简档指定了一个或多个设备的所希望的目标响度和动态范围。系统是可扩展的，从而可支持具有不同的“标称”响度目标的新设备简档。
[0040]在一个实施例中，系统在编码器中基于响度控制和动态范围要求生成合适的增益，或者在来自编码器的控制下通过用以减少数据率的原始增益的参数化、在解码器中生成增益。动态范围系统包括用于实现响度控制的两个机制:对于音频将如何回放提供内容创建器控制的艺术动态范围简档；和

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·瑞德米勒;S·G·诺克罗斯;K·J·罗德恩;
技术所有人：杜比实验室特许公司;杜比国际公司;
我是此专利的发明人

上一篇：复合lc谐振器及带通滤波器的制造方法
上一篇：测量高阶高保真度立体声响复制响度级的方法及设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、田老师：1: 建筑节能绿色建筑能耗的模拟与检测(EnergyPlus)；建筑碳排放和生命周期评价；城市微气候、建筑能耗与太阳能技术的相互影响；地理信息系统(GIS)和空间回归方法用于城市建筑能耗分析；不确定性、敏感性分析和机器学习方法应用于建筑能耗分析(R)；贝叶斯方法用于城市和单体建筑能源分析 2: 过
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。