用于在不同回放设备之间优化响度和动态范围的系统和方法_5

文档序号：9221899阅读：来源：国知局

udstrm3s:指示根据ITU-R BS.1771-1测量的对应音频节目的前3秒的未门控响度的7位字段，其由于被应用对话归一和动态范围压缩而没有任何增益调整。值O到256被解释为-116LKFS到+11.5LKFS，步长为0.5LKFS ；truepke:指示真实峰值响度数据是否存在的I位字段。如果truepke字段被设定为“1”，则在载荷中随后应为8位的truepk字段；以及truepk:指示节目的真实峰值采样值的8位字段，其根据ITU-R BS.1770-3的附件2被测量并且由于被应用对话归一和动态范围压缩而没有任何增益调整。值O到256被解释为-116LKFS到+11.5LKFS，步长为 0.5LKFS。
[0098]AC-3位流或E-AC-3位流的帧的auxdata字段(或“addbsi ”字段)中的元数据分段的核心元素包括核心头部(可选地，包括标识值，例如核心元素版本)，并且在核心头部之后包括:指示对于元数据分段的元数据是否包含指纹数据(或者其它保护值)的值，指示是否存在外部数据(与对应于元数据分段的元数据的音频数据有关)，核心元素标识的每一种元数据(例如，LPSM和/或除LPSM之外的元数据)的载荷ID和载荷大小，和用于核心元素标识的至少一种元数据的保护值。元数据分段的元数据载荷在核心头部之后，并且(在一些情况中)被嵌套在核心元素的值内。
[0099]优化响度和动态范围系统
[0100]上文描述的安全元数据编码和传送方案与如图1所示的用于在不同回放设备、应用、收听环境之间优化响度和动态范围的可缩放和可扩展系统结合使用。在一个实施例中，系统10被配置为在需要不同的响度值并且具有不同的动态范围能力的各种设备之间归一化输入音频11的响度水平和动态范围。为了归一化响度水平和动态范围，系统10包括关于音频内容的不同的设备简档，并且归一化基于这些简档被进行。简档可通过音频处理链中的音频处理单元之一被包含，并且所包含的简档可被音频处理链中的下游处理单元使用来确定目标设备的希望的目标响度和动态范围。额外的处理组件可提供或者处理用于设备简档管理的信息(包括但不局限于以下参数:空带范围、真实峰值阈值、响度范围、快/慢时间常数(系数)和最大提升量)、增益控制和宽带和/或多带增益生成功能。
[0101]图10示出了根据一些实施例的用于提供优化响度和动态范围控制的系统的图1的系统的更详细示图。对于图10的系统321，编码器级包括核心编码器组件304，其将音频输入303编码为合适的数字格式以传输至解码器312。音频被处理为使得其可在各种不同收听环境中被回放，每一收听环境可能需要不同的响度和/或动态范围目标设定。因此，如图10所示，解码器输出数字信号，该数字信号被数字模拟转换器316转换成模拟格式以便通过包括全范围扬声器320、小型扬声器322和耳机324的各种不同驱动器类型被回放。这些驱动器仅仅示出了可能的回放驱动器的一些示例，并且具有任何合适大小和类型的任何换能器或驱动器可被使用。另外，图10的驱动器/换能器320-324可表现为在任何对应的收听环境中使用的任何合适的回放设备。设备类型可包括例如AVR、电视、立体声设备、计算机、移动电话、平板电脑、MP3播放器等；并且收听环境可包括例如礼堂、家中、车内、收听室等。
[0102]由于回放环境和驱动器类型的范围可从非常小的私人领域到非常大的公共场所进行改变，因此可能的且最优的回放响度和动态范围配置的跨度可根据内容类型、背景噪声类型等显著改变。例如，在家庭影院环境中，宽动态范围内容可通过环绕声设备被播放，而动态范围较窄的内容可通过常规电视系统(诸如平板LED/LCD类型)被播放，而当不希望大的水平变化时对于某些收听状况(例如，在晚上或者在具有严苛声学输出功率限制的设备(诸如移动电话/平板内部扬声器或耳机输出)上)可使用极窄动态范围模式。在诸如使用小计算机或底座扬声器或者耳机/耳塞的便携式或移动收听场景中，最优的回放动态范围可根据环境改变。例如，与噪声环境相比，在安静环境中最优动态范围可更大。图10的自适应音频处理系统的实施例将根据参数(诸如，收听设备环境和回放设备类型)改变动态范围以更明了地呈现音频内容。
[0103]图11是示出在示例性使用情况中的关于各种回放设备和背景收听环境的不同动态范围要求的表。可对于响度得出类似的要求。不同的动态范围和响度要求生成由优化系统321使用的不同的简档。系统321包括响度和动态范围测量组件302，其分析和测量输入音频的响度和动态范围。在一个实施例中，系统分析整体节目内容以确定整体响度参数。在此上下文中，响度指的是节目的长期节目响度或者平均响度，其中节目是诸如电影、电视节目、商业广告或类似节目内容的音频内容的单个单位。响度被用于提供被内容创建器用于控制音频将如何回放的艺术动态范围简档的指示。响度与对话归一元数据值有关，对话归一代表单个节目(例如，电影、电视、商业广告等)的平均对话响度。与节目响度相比，短期动态范围量化了在短得多时间段上的信号改变。例如，短期动态范围可在秒的量级上被测量，而节目响度可分钟甚至小时的跨度上被测量。短期动态范围提供了独立于节目响度的保护机制，以确保对于各种回放简档和设备类型不会发生过载。在一个实施例中，响度(长期节目响度)目标是基于对话响度的，而短期动态范围是基于相对门控和/或未门控响度的。在此情况中，系统中的某些DRC和响度组件是关于内容类型和/或目标设备类型和特性上下文感知的。作为此上下文感知能力的一部分，系统被配置为分析输出设备的一个或多个特性以确定设备是否是对于某些DRC和响度回放状况被优化的特定一组设备(诸如AVR类型设备、电视、计算机、便携式设备等)中的一员。
[0104]预处理组件分析节目内容以确定响度、峰值、真实峰值和安静时段，以为多个不同简档中的每一简档创建唯一的元数据。在一个实施例中，响度可以是对话门控响度和/或相对门控响度。不同简档定义了各种DRC(动态范围控制)和目标响度模式，在这些模式中，在编码器中根据源音频内容、所希望的目标响度和回放设备类型和/或环境的特性生成不同的增益值。解码器可提供不同的DRC和目标响度模式(通过上文提及的简档被使能)，并且可包括DRC和目标响度关闭/禁用，其允许全动态范围展示，没有音频信号压缩且没有相对归一化；DRC关闭/禁用和目标为-31LKFS的响度归一化的线模式，用于在家庭影院系统上回放，通过编码器中(尤其对于此回放模式和/或设备简档)生成的增益值提供中等动态范围压缩并且进行目标为-31LKFS的响度归一化；RF模式，用于通过TV扬声器回放，提供重度动态范围压缩并且进行目标为-24、-23或-20LKFS的响度归一化，中间模式，用于通过计算机或类似设备回放，提供压缩且进行目标为-14LKFS的响度归一化，以及便携模式，提供了非常重的动态范围压缩并且进行目标为-1lLKFS的响度归一化。目标响度值-31、-23/-20、-14和-1lLKFS预计是可对于根据一些实施例的系统被定义的不同回放/设备简档的示例，并且任何其它合适的目标响度值可被采用，并且该系统可尤其对于这些回放模式和/或设备简档生成合适的增益值。此外，系统可扩展和修改，使得不同的回放设备和收听环境可通过在编码器或别处定义新的简档而被适应并且被加载到编码器中。这样，新的和唯一的回放/设备简档可被生成以支持用于未来应用的改进的或不同的回放设备。
[0105]在一个实施例中，增益值可在系统321的任何合适的处理组件(诸如在编码器304、解码器312或代码转换器308、或者与编码器相关联的任何关联预处理组件或与解码器相关联的任何后处理组件)处被计算。
[0106]图13是示出根据一个实施例的各种不同的回放设备类别的不同简档之间的接口的框图。如图13所示，编码器502接收音频输入501以及若干不同的可能的简档506之一。编码器将音频数据与所选择的简档相组合以生成输出位流文件，该输出位流文件在目标回放设备中的或者与目标回放设备相关联的解码器组件中被处理。对于图13的示例，不同的回放设备可能是计算机510、移动电话512、AVR514和电视516，但是许多其他的输出设备也是可能的。设备510到516中的每一个包括或者耦合到扬声器(包括驱动器和/或换能器)，诸如驱动器320到324。回放设备和相关联的扬声器的大小、额定功率和处理的组合通常指示哪一简档对于特定目标是最优的。因此，简档506可对于通过AVR、TV、移动扬声器、移动耳机等回放被具体限定。它们也可对于特定操作模式或状况(诸如安静模式、夜晚模式、室外、室内等)被限定。图13中所示的简档仅是示例性模式，并且任何合适的简档可被限定，包括用于特定目标和环境的定制简档。
[0107]尽管图13示出了如下实施例，其中编码器502接收简档506并且生成合适的关于响度和DRC处理的参数，应指出，但是基于简档和音频内容生成的参数可在任何合适的音频处理单元(诸如编码器、解码器、代码转换器、预处理器、后处理器等)上执行。例如，图13的每个输出设备510到516具有或者耦合到解码器组件，该解码器组件处理从编码器502发送的文件504的位流中的元数据，以使得响度和动态范围能够适于与目标输出设备的设备或设备类型匹配。
[0108]在一种实施例中，音频内容的动态范围和响度对于每个可能的回放设备被优化。这是通过对于每一目标回放模式将长期响度维持为目标并且控制短期动态范围以优化音频体验(通过控制信号动态、样本峰值和/或真实峰值)来实现的。对于长期响度和短期动态范围定义不同的元数据元素。如图10所示，组件302分析整个输入音频信号(或者其一部分，诸如语音组分，如果可应用的话)以得到这些单独DR组分的相关特性。这允许对于艺术增益对剪辑(过载保护)增益值定义不同的增益值。
[0109]用于长期响度和短期动态范围的这些增益值然后被映射到简档305，以生成描述响度和动态范围控制增益值的参数。这些参数与来自编码器304的编码音频信号在用于创建位流的复用器306或者类似组件中组合，该位流通过代码转换器308被传输到解码器级。输入解码器级的位流在解复用器310中被解复用。其然后在解码器312中被解码。增益组件314应用对应于合适简档的增益以生成数字音频数据，该数字音频数据然后通过DACS单元416被处理以供通过合适的回放设备和驱动器或换能器320-324回放。
[0110]图14是示出根据一个实施例的对于多个被定义的简档的长期响度和短期动态范围之间的关联性的表。如图14的表4所示，每个简档包括一组增益值，其指示在系统的解码器或每个目标设备中应用的动态范围压缩(DRC)的量。被指示为简档I?N的N个简档中的每一个通过指示在解码器级中应用的对应增益值来设定特定的长期响度参数(例如，对话归一)和过载压缩参数。用于简档的DRC增益值可被编码器接受的外部源定义，或者如果没有提供外部值，它们可在编码器内部生成作为默认增益值。
[0111]在一个实施例中，用于每个简档的增益值被体现在基于音频信号的某些特性(诸如峰值、真实峰值、对话的短期响度或整体长期响度或它们的组合(混合))的分析被计算的DRC增益字中，以基于实现用于每个可能的设备简档和/或目标响度的最终DRC增益的/慢上升以及快/慢释放所需的时间常数以及所选择的简档(例如传递特性或曲线)来计算静态增益。如上所述，这些简档可在编码器、解码器中被于预先设定，或者在外部生成并且经由来自内容创建器的外部元数据被送至编码器。
[0112]在一个实施例中，增益值可以是在音频内容的所有频率上应用相同增益的宽带增益。作为替代，增益可以包含多带增益值，从而对于音频内容的不同频率或频带应用不同的增益值。在多通道情况中，每个简档可构成指示用于不同频带的增益的增益值矩阵，而不是单个增益值。
[0113]参照图10，在一个实施例中，关于收听环境的性质或特性的和/或回放设备的能力和配置的信息被反馈链路330解码器级提供给编码器级。简档信息332也被输入编码器304。在一个实施例中，解码器分析位流中的元数据以确定在位流中是否可获得用于第一组回放设备的响度参数。如果可获得，则将参数送至下游以用于呈现音频。否则，编码器分析设备的某些特性以得出该参数。这些参数然后被送至下游呈现组件以供回放。编码器还确定将呈现所接收的音频流的输出设备(或者包括输出设备的一组输出设备)。例如，输出设备可被确定为手机或者属于一组类似的便携设备。在一个实施例中，解码器使用反馈链路330来向编码器指示所确定的输出设备或该组输出设备。对于此反馈，与输出设备连接的模块(例如，膝上型计算机中的与耳机连接的或者与扬声器连接的声卡中的组件)可向解码器指示输出设备的身份或者包括该输出设备的一组设备的身份。解码器将此信息通过反馈链路330传输至编码器。在一个实施例中，编码器执行解码器确定响度和DRC参数。在一个实施例中，解码器确定响度和DRC参数。在此实施例中，不是通过反馈链路330传输信息，而是解码器使用关于所确定的设备或该组输出设备的信息以确定响度和DRC参数。在另一个实施例中，另一音频处理单元确定响度和DRC参数，并且解码器将该信息传输至音频处理单元而不是解码器。
[0114]图12是根据一个实施例的动态范围优化系统的框图。如图12所示，编码器402接收输入音频401。编码的音频在复用器409中与从所选择的压缩曲线422和对话归一值424生成的参数404组合。所得到的位流被传输至解复用器411，该解复用器411生成音频信号，该音频信号被解码器406解码。参数和对话归一值被增益计算单元408使用以生成增益水平，该增益水平驱动放大器410以便放大解码器输出。图12示出了动态范围控制如何被参数化并被插入位流。响度也可通过使用类似组件被参数化并被插入位流。在一个实施例中，输出参考水平控制(未示出)可被提供给解码器。尽管附图示出了响度和动态范围参数在编码器处被确定和插入，类似的确定可在其它音频处理单元(例如，预处理器、解码器和后处理器)被执行。
[0115]图15示出了根据一个实施例的不同类型的音频内容的响度简档的示例。如图15所示，示例性曲线600和602相对于以OLKFS为中心的增益绘制输入响度(按LFKS)。不同类型的内容展示不同的曲线，如图15所示，其中曲线6

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6