用于下混合音频内容的响度调整的制作方法_2

文档序号：9769248阅读：来源：国知局

如，数据提取器104、动态范围控制器106 等）的动作和功能可响应从编码输入信号（102)提取的元数据被适应性调整。例如，元数据一包含但不限于动态范围压缩曲线、对话响度水平等一可被解码器（100)使用W在数字域中生成输出音频数据要素(例如，输出PCM采样、QMF矩阵中的输出时间频率采样等）。输出数据要素然后可被用于驱动音频信道或扬声器W在特定回放环境中的回放期间实现规定响度或基准再现水平。
[0069] 在一些实施例中，动态范围控制器（106)被配置为接收输入音频数据帖和元数据中的音频数据要素中的一些或全部、至少部分地基于从编码音频信号（102)提取的元数据在输入音频数据帖中的音频数据要素上执行音频处理动作(例如，动态范围控制动作、增益平滑化动作、增益限制动作等）。
[0070] 在一些实施例中，动态范围控制器（106)可包含选择器110、响度计算器112、DRC增益单元114等。选择器（110)可被配置为确定与解码器（100)处的特定回放环境有关的扬声器配置(例如，平面模式、具有扬声器的便携式装置、具有耳机的便携式装置、5.1扬声器配置、7.1扬声器配置等）、从由编码输入信号（102)提取的动态范围压缩曲线选择特定的动态范围压缩曲线等。
[0071] 响度计算器（112)可被配置为计算由输入音频数据帖中的音频数据要素代表的一种或更多种类型的响度水平。响度水平的类型的例子包括但不仅限于:各单个时间间隔上的各单个信道中的各单个频带上的各单个响度水平、各单个信道中的广(或宽)频率范围上的广带(或宽带）响度水平、从音频数据块或帖确定或在其上面平滑化的响度水平、从多于一个的音频数据块或帖确定或在其上面平滑化的响度水平、在一个或更多个时间间隔上平滑化的响度水平等中的任一个。出于通过解码器(100)的动态范围控制的目的，可W修改运些响度水平中的零个、一个或更多个。
[0072] 为了确定响度水平，响度计算器（112)可确定由输入音频数据帖中的音频数据要素代表的一个或更多个时间依赖物理声波性能，诸如特定音频频率处的空间压力水平等。响度计算器（112)可使用一个或更多个时间改变的物理波性能，W基于模型化人响度感觉的一个或更多个屯、理声学函数导出一种或更多种类型的响度水平。屯、理声学函数可W是基于人听觉系统的模型构建的非线性函数，该非线性函数将特定音频频率处的特定空间压力水平转换/映射到特定音频频率的特定响度等。
[0073] 可通过多个(音频)频率或多个频带上的特定响度水平的积分导出多个(音频)频率或多个频带上的(例如广带、宽带等）响度水平。可通过使用实现为解码器(100)中的音频处理动作的一部分的一个或更多个平滑化滤波器，获得一个或更多个时间间隔（例如，比由音频数据块或帖中的音频数据要素代表的时间间隔长)上的时间平均、平滑化等的响度水平。
[0074] 在示例性实施例中，可对一定(例如，256等)采样的每个音频数据块计算不同频带的特定响度水平。可W使用预滤波器W在将特定的响度水平集成到广带(或宽带）响度水平中时向特定响度水平施加频率加权(例如，与IEC B加权等类似）。可W执行两个或更多个信道(例如，左前、右前、中屯、、左环绕、右环绕等)上的宽响度水平的加算，W提供两个或更多个信道上的总响度水平。
[0075] 在一些实施例中，总响度水平可指的是扬声器配置的单个信道(例如，中屯、等）中的广带（宽带）响度水平。在一些实施例中，总响度水平可指的是多个信道中的广带（或宽带）响度水平。多个信道可W是扬声器配置中的所有信道。另外、任选地或者作为替代方案，多个信道可包括扬声器配置中的信道的子集(例如，包含左前、右前和低频效果化FE)的信道的子集、包含左环绕和右环绕的信道的子集、等等）。
[0076] (例如，广带、宽带、总体、特有等）响度水平可被用作输入W从选择的动态范围压缩曲线查找相应的（例如，静止、预平滑化、预限制等)DRC增益。用作输入W查找DRC增益的响度水平可首先关于来自从编码音频信号（102)提取的元数据的对话响度水平被调整或归一化。
[0077] 在一些实施例中，DRC增益单元（114)可配有DRC算法，W生成增益(例如，用于动态范围控制、用于增益限制、用于增益平滑化等）、向由输入音频数据帖中的音频数据要素代表的一种或更多种类型的响度水平中的一个或更多个响度水平施加增益W实现特定回放环境的目标响度水平，等等。运里描述的增益（例如，DRC增益等）的施加可W但不需要在响度域中发生。在一些实施例中，可基于直接对输入信号平滑化和施加的响度计算（可W是 Sone或者仅仅是对对话响度水平补偿的SI^L值，例如，没有转换）生成增益。在一些实施例中，运里描述的技术可向响度域中的信号施加增益，并然后将信号从响度域转换回（线性） S化域并且通过评价向响度域中的信号施加增益之前和之后的信号计算要施加到信号的相应增益。比率(或在对数地代表中代表时的差值)然后确定信号的相应增益。
[007引在一些实施例中，DRC算法通过多个DRC参数运算。DRC参数包含已通过上游编码器 (例如，150等)计算并且嵌入到编码音频信号（102)中的对话响度水平，并且，可通过解码器 (100)从编码音频信号（102)中的元数据获得。来自上游编码器的对话响度水平指示平均对话响度水平(例如，每个程序地，相对于全尺度Ik化正弦波的能量，相对于基准矩形波的能量，等）。在一些实施例中，从编码音频信号（102)提取的对话响度水平可被用于减少程序间响度水平差。在实施例中，在解码器（100)处的同一特定回放环境中的不同程序之间，基准对话响度水平可被设定为同一值。基于来自元数据的对话响度水平，DRC增益单元（114)可向程序中的各音频数据块施加对话响度有关增益，使得在程序的多个音频数据块上平均化的输出对话响度水平上升/下降到程序的（例如，预配置的、系统缺省的、用户可配置的、简档依赖的、等)基准对话响度水平。
[0079] 在一些实施例中，DRC增益可被用于通过根据选择的动态范围压缩曲线升高或切割柔声和/或大声中的输入响度水平解决程序内响度水平差。可基于选择的动态范围压缩曲线和从相应的音频数据块、音频数据帖等中的一个或更多个确定的（例如，广带、宽带、总体、特有等)响度水平，通过DRC算法计算/确定运些DRC增益中的一个或更多个。
[0080] 可在短的间隔（例如，约5.3毫秒等）上计算用于通过查找选择的动态范围压缩曲线确定(静止、预平滑化、预增益限制等)DRC增益的响度水平。人听觉系统的集成时间可能长得多（例如，约200毫秒等）。从选择的动态范围压缩曲线获得的DRC增益可通过时间常数被平滑化W考虑人听觉系统的长的集成时间。为了实行响度水平中的快变化速率(增加或减小），可W使用短的时间常数W在与短时间常数对应的短时间间隔中导致响度水平的变化。相反，为了实行响度水平中的慢变化速率(增加或减小），可W使用长的时间常数W在与长时间常数对应的长时间间隔中导致响度水平的变化。
[0081] 人听觉系统能够W不同的集成时间对增加的响度水平和减小的响度水平起反应。在一些实施例中，根据响度水平将增加还是减小，可对平滑化从选择的动态范围压缩曲线查找的静止DRC增益使用不同的时间常数。例如，与人听觉系统的特性对应，用相对短的时间常数(例如，起音时间等)平滑化起音（响度水平增加），而用相对长的时间常数(例如，释放时间等)平滑化释放(响度水平减小）。
[0082] 可通过使用从音频内容的一部分确定的响度水平计算音频内容的一部分(例如，音频数据块、音频数据帖等中的一个或更多个）的DRC增益。用于查找选择的动态范围压缩曲线的响度水平可首先关于(例如，相对于等)从编码音频信号（102)提取的元数据中的对话响度水平(例如，在音频内容是一部分的程序等中）被调整。
[0083] 可对解码器（100)处的特定回放环境规定或建立基准对话响度水平(例如，"Line" 模式中的-Sld^s、"RF"模式中的-20地FS等）。另外、作为替代方案或者任选地，在一些实施例中，用户可控制解码器(100)处的基准对话响度水平的设定或改变。
[0084] DRC增益单元(114)可被配置为对音频内容确定对话响度有关增益，W导致从对于基准对话响度水平的输入对话响度水平变为输出对话响度水平。
[00化]在一些实施例中，DRC增益单元（114)可被配置为操作解码器（100)处的特定回放环境中的峰值水平并且调整DRC增益W防止修剪。在一些实施例中，根据第一方法，如果从编码音频信号（102)提取的音频内容包含具有比解码器（100)处的特定扬声器配置的信道多的信道的基准多信道配置的音频数据要素，那么从基准多信道配置到特定扬声器配置的下混合可在确定之前被执行并且出于修剪防止的目的操作峰值水平。另外、任选地或者作为替代方案，在一些实施例中，根据第二方法，如果从编码音频信号（102)提取的音频内容包含具有比解码器(100)处的特定扬声器配置的信道多的信道的基准多信道配置的音频数据要素，那么可W使用下混合式(例如，ITU立体声下混合、矩阵环绕可兼容下混合等）W获得解码器（100)处的特定扬声器配置的峰值水平。峰值水平可被调整W反映从输入对话响度水平变为作为输出对话响度水平的基准对话响度水平。可至少部分地基于峰值水平的逆转(例如，乘W-I等），确定不导致修剪(例如，对于音频数据块、对于音频数据帖等）的最大允许增益。因此，根据运里描述的技术的音频解码器可被配置为精确地确定峰值水平并且专口对解码器侧的回放配置施加修剪防止;音频解码器和音频编码器均不需要进行关于假设解码器处的任何最坏情况情形的假设假定。特别地，上述的第一方法中的解码器可精确地确定峰值水平，并且在不使用会在上述的第二方法中使用的下混合式、下混合信道增益等的情况下在下混合之后施加修剪防止。
[0086] 在一些实施例中，对话响度水平和DRC增益的组合调整在峰值水平上防止修剪，甚至可能在最坏情况下混合(例如，在下混合之后生成最大峰值水平、生成最大下混合信道增益等）中。但是，在一些其它的实施例中，对话响度水平和DRC增益的组合调整仍然可能不足 W在峰值水平下防止修剪。在运些实施例中，DRC增益可被确实防止峰值水平中的修剪的最高增益替代(例如，封盖(capped))。
[0087] 在一些实施例中，DRC增益单元（114)被配置为从从编码音频信号（102)提取的元数据得到时间常数(例如，起音时间、释放时间等）dDRC增益、时间常数、最大允许增益等可被DRC增益单元(114)使用W执行DRC、增益平滑化、增益限制等。
[0088] 例如，DRC增益的施加可通过由时间常数控制的滤波器被平滑化。增益限制动作可由对增益取要施加的增益和最大允许增益中的较小者的minO函数实现，运样，（例如，预限制、DRC等)增益可在相对短时间间隔等上立即被最大允许增益替代，由此防止修剪。
[0089] 在一些实施例中，音频呈现器（108)被配置为在向从编码音频信号（102)提取的输入音频数据施加基于DRC、增益限制、增益平滑化等确定的增益之后生成特定扬声器配置的 (例如，多信道等)信道特定音频数据（116)。信道特定音频数据（118)可被用于驱动在扬声器配置中代表的扬声器、耳机等。
[0090] 另外，并且/或者，任选地，在一些实施例中，解码器（100)可被配置为执行与预处理、后处理、呈现等有关的一个或更多个其它动作，运些动作与输入音频数据有关。
[0091] 在运里描述的技术可与与各种环绕声配置（例如，2.0、3.0、4.0、4.1、4.1、5.1、 6.1、7.1、7.2、10.2、10~60扬声器配置、60+扬声器配置等)对应的各种扬声器配置和各种不同呈现环境配置(例如，电影院、停车场、歌剧院、演奏厅、酒吧、家、会堂)一起使用。
[0092] 4.音频编码器
[0093] 图IB示出示例性编码器150。编码器(150)可包含音频内容接口 152、对话响度分析器154、DRC基准库156、音频信号编码器158等。编码器150可W是广播系统、基于因特网的内容服务器、空中网络操作器系统、电影制作系统等的一部分。
[0094] 在一些实施例中，音频内容接口（ 152)被配置为接收音频内容160、音频内容控制输入162等，至少部分地基于音频内容（160)、音频内容控制输入(162)等中的一些或全部生成编码音频信号(例如，102)。例如，音频内容接口（ 152)可被用于从内容创建器、内容提供方等接收音频内容(160 )、音频内容控制输入(162)。
[00M]音频内容（160)可构成仅包含音频视听等的总媒体数据中的一些或全部。音频内容（160)可包含节目的多个部分、节目、几个节目、一个或更多个商业广告等中的一个或更多个。
[0096] 在一些实施例中，对话响度分析器（154)被配置为确定/建立音频内容（152)的一个或更多个部分(例如，一个或更多个节目、一个或更多个商业广告等）的一个或更多个对话响度水平。在一些实施例中，音频内容由一组或更多组的音频轨道代表。在一些实施例中，音频内容的对话音频内容处于单独的音频轨道中。在一些实施例中，音频内容的对话音频内容的至少一部分处于包含非对话音频内容的音频轨道中。
[0097] 音频内容控制输入（162)可包含用户控制输入、由编码器(510)外部的系统/装置提供的控制输入、来自内容创建者的控制输入、来自内容提供方的控制输入等中的一些或全部。例如，诸如混合工程师等的用户可提供/规定一个或更多个动态范围压缩曲线标识符;标识符可被用于从诸如DRC基准库（156)等的数据库检索最佳地拟合音频内容（160)的一个或更多个动态范围压缩曲线。
[009引在一些实施例中，DRC基准库（156)被配置为存储DRC基准参数组等。DRC基准参数组可包含一个或更多个动态范围压缩曲线的定义数据等。在一些实施例中，编码器(150)可 (例如，同时等)将多于一个的动态范围压缩曲线编码到编码的音频信号中（102)。动态范围压缩曲线中的零个、一个或更多个可W是基于标准的、专有的、定制的、解码器可修改的，等等。在示例性实施例中，图2A和图2B的两个动态范围压缩曲线均可被(例如，同时等)嵌入到编码的音频信号（102)中。
[0099] 在一些实施例中，音频信号编码器(158)可被配置为从音频内容接口（152)接收音频内容、从对话响度分析器(154)等接收对话响度水平、从DRC基准库（156)检索一个或更多个DRC基准参数组、将音频内容格式化为音频数据块/帖、将对话响度水平、DRC基准参数组等格式化为元数据(例如，元数据容器、元数据栏、元数据结构等）、将音频数据块/帖和元数据编码到编码的音频信号中（102)，等等。
[0100] 可通过各种方式中的一种或更多种、诸如W无线的方式、通过有线连接、通过文件、通过因特网下载等，在各种源音频格式中的一个或更多个中接收运里描述的要被编码成编码的音频信号的音频内容。
[0101] 运里描述的编码音频信号可W是总媒体数据位流的一部分(例如，用于音频广播、音频节目、视听节目、视听广播等）。可从服务器、计算机、媒体存储装置、媒体数据库、媒体文件等访问媒体数据位流。可通过一个或更多个无线或有线网络链接广播、传送或接收媒体数据位流。也可通过诸如网络连接、USB连接、广域网络、局域网络、无线连接、光学连接、总线、交叉开关矩阵(crossbar)连接、串行连接等中的一个或更多个的中介传送媒体数据位流。
[0102] 示出的部件中的任一个(例如，图1A、图IB等)可在硬件、软件或硬件和软件的组合中实现为一个或更多个处理和/或一个或更多个IC电路(例如，ASIC、FPGA等）。
[0103] 5.动态范围压缩曲线
[0104] 图2A和图2B示出可被解码器（100)中的DRC增益单元（104)使用W从输入响度水平导出DRC增益的示例性动态范围压缩曲线。如图所示，为了提供适于特定回放环境的总增益，动态范围压缩曲线可W W节目中的基准响度水平为中屯、。在下表中示出动态范围压缩曲线（例如，包含但不仅限于升压比、切割比、起音时间、释放时间等中的任一个）的示例性定义数据(例如，在编码音频信号102等的元数据中），运里，多个简档(例如，电影标准、电影光、音乐标准、音乐光、语音等）中的各简档代表特定回放环境(例如，在解码器100等处）。 [0105]表1
[0107] 一些实施例可接收W地S化或地FS的响度水平和与地S化相关的地的增益描述的一个或更多个压缩曲线，其中，在与地SPL响度水平具有非线性关系的不同响度代表(例如，Sone) 中执行DRC增益计算。在DRC增益计算中使用的压缩曲线可然后被转换W关于不同的响度代表(例如，Sone)被描述。
[0108] 6. DRC增益、增益限制和增益平滑化
[0109] 图3示出组合DRC和限制增益的确定/计算的示例性处理逻辑。可通过解码器 (100)、编码器（150)等实现该处理逻辑。仅出于解释的目的，解码器(例如，100等）中的DRC 增益单元(例如，114)可被用于实现该处理逻辑。
[0110] 可通过使用从音频内容的一部分确定的响度水平计算音频内容的一部分(例如，音频数据块、音频数据帖等中的一个或更多个等）的DRC增益。响度水平可首先关于(例如，相对于等)从编码音频信号（102)提取的元数据中的对话响度水平(例如，在音频内容是一部分的程序等中）被调整。在图3所示的例子中，音频内容的一部分的响度水平与对话响度水平（"dialnorm")之间的差值可被用作用于从选择的动态范围压缩曲线查找DRC增益的输入。
[0111] 为了防止特定回放环境中的输出音频数

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6