用于下混合音频内容的响度调整的制作方法

文档序号：9769248阅读：552来源：国知局

用于下混合音频内容的响度调整的制作方法
【专利说明】
[0001] (对相关申请的交叉引用）
[0002] 本申请要求在2013年9月12日提交的美国临时专利申请No.61/877230、在2013年 10月15日提交的美国临时专利申请No.61/891324、在2014年2月10日提交的美国临时专利申请No.61/938043和在2013年10月17日提交的美国临时专利申请No.61/892313作为优先权，在运里加入它们的全部内容作为参考。
技术领域
[0003] 本发明总体设及处理音频信号，更特别地，设及可被用于在各种回放环境中的任一种中向音频信号施加动态范围控制和其它类型的音频处理动作的技术。
【背景技术】
[0004] 媒体消费者装置的日益普及对用于在运些装置处回放的媒体内容的创建者和分配者W及装置的设计人员和制造商提出新的机会和挑战。许多消费者装置能够回放广泛的媒体内容类型和格式，包括常常与用于HDTV、Blu-ray或DVD的高质量、宽带宽和宽动态范围音频内容相关的那些。媒体处理装置可被用于任意地在它们自身的内部声学换能器或诸如耳机的外部换能器上回放运种类型的音频内容;但是，它们一般不能跨着各种媒体格式和内容类型用一致的响度和清晰度(intelligibility)再现该内容。
[0005] 在本部分中描述的方法是可追寻的方法，但未必是W前构想或追寻的方法。因此，除非另外指示，否则，不应仅通过包含于本部分中而假定在本部分中描述的方法中的任一个为现有技术。类似地，除非另外指示，否则，关于一个或更多个方法识别的问题不应基于本部分而假定在任何现有技术中已被识别。
【附图说明】
[0006] 在附图中作为例子而不是限制示出本发明，并且，在运些附图中，类似的附图标记指的是类似的要素，其中，
[0007] 图IA和图IB分别示出示例性音频解码器和示例性音频编码器；
[000引图2A和图2B示出示例性动态范围压缩曲线；
[0009]图3示出组合DRC和限制增益的确定/计算的示例性处理逻辑；
[0010]图4示出增益的示例性差分编码；
[0011]图5示出包含音频编码器和音频解码器的示例性编解码器系统；
[001^ 图64~抓示出示例性处理流程；从及
[0013] 图7示出可在上面实现运里描述的计算机或计算装置的示例性硬件平台。
【具体实施方式】
[0014] 运里描述设及在各种回放环境中的任一种向音频信号施加动态范围控制处理和其它类型的音频处理动作的示例性实施例。在W下的描述中，出于解释的目的，为了使得能够彻底地理解本发明，阐述了大量的详细细节。但是，显然可W在没有运些特定细节的情况下实现本发明。在其它情况下，为了避免不必要地混淆、掩盖本发明或者使其变模糊，不W 详尽的细节描述公知的结构和装置。
[001引运里根据W下的提纲描述示例性实施例：
[0016] 1. -般概要
[0017] 2.动态范围控制
[001引3.音频解码器
[0019] 4.音频编码器
[0020] 5.动态范围压缩曲线
[0021] 6. DRC增益、增益限制和增益平滑化
[0022] 7.输入平滑化和增益平滑化
[0023] 8.多个频带上的DRC
[0024] 9.响度域中的音量调整 [00巧]10.下混合响度调整 [00%] 11.与增益有关的附加动作
[0027] 12.特定和广带(或宽带)响度水平
[0028] 13.用于信道的各单个子集的各单个增益 [00巧]14.听觉场景分析
[0030] 15.响度水平过渡
[003U 16.复位
[0032] 17.编码器提供的增益
[0033] 18.示例性系统和处理流程
[0034] 19.实现机构一硬件概要
[0035] 20.等同物、扩展、替代和杂项
[0036] 1. -般概要
[0037] 本概要给出本发明的实施例的一些方面的基本描述。应当注意，本概要不是实施例的各方面的广延或详尽的总结。并且，应当注意，本概要不应被理解为识别实施例的任何特别重要的方面或要素，也不应被理解为特别界定实施例的任何范围，也不应被理解为一般地界定本发明。本概要仅W概括或简化的形式给出与示例性实施例有关的一些概念，并且应被理解为W下给出的示例性实施例的更详细描述的概念性序言。注意，虽然运里讨论各单独的实施例，但是运里讨论的实施例和/或部分实施例的任意组合可被组合W形成其它的实施例。
[0038] 在一些方法中，编码器假定音频内容是出于动态范围控制的目的对特定环境编码的，并且对特定环境确定诸如用于动态范围控制等的增益的音频处理参数。根据运些方法由编码器确定的增益一般在一些时间间隔等上通过一些时间常数(例如，在指数衰减的函数等中）被平滑化。另外，对确保响度水平不大于假定环境的修剪水平的增益限制，可能已加入根据运些方法由编码器确定的增益。因此，根据运些方法通过编码器用音频信息编码成音频信号的增益是许多不同影响的结果并且是不可逆的。根据运些方法接收增益的解码器可能不能区分增益的哪个部分用于动态范围控制、增益的哪个部分用于增益平滑化、增益的哪个部分用于增益限制，等等。
[0039] 根据运里描述的技术，音频编码器不假定只需要支持音频解码器处的特定回放环境。在实施例中，音频编码器传送具有音频内容的编码音频信号，从该编码音频信号可确定正确的响度水平(例如，没有修剪等）。音频编码器也向音频解码器传送一个或更多个动态范围压缩曲线。一个或更多个动态范围压缩曲线中的任一个可W是基于标准的、专有的、定制的、内容提供商特有的，等等。基准响度水平、起音时间（attack time )、释音时间 (release time)等可作为一个或更多个动态范围压缩曲线的一部分或者与其结合被音频编码器传送。基准响度水平、起音时间、释音时间等中的任一个可W是基于标准的、专有的、定制的、内容提供商特有的，等等。
[0040] 在一些实施例中，音频编码器实现听觉场景分析(ASA)技术，并且使用ASA技术W 检测音频内容中的听觉事件，并且，向音频解码器传送描述检测的听觉事件的一个或更多个ASA参数。
[0041 ]在一些实施例中，音频编码器可也被配置为检测音频内容中的复位事件，并且W 与音频内容时间同步的方式向诸如音频解码器等的下游装置传送复位事件的指示。
[0042] 在一些实施例中，音频编码器可被配置为计算音频内容的各单个部分(例如，音频数据块、音频数据帖等）的一组或更多组增益(例如，DRC增益等），并且，用音频内容的各单个部分将多组增益编码到编码的音频信号中。在一些实施例中，由音频编码器产生的多组增益与一个或更多个不同增益简档对应。在一些实施例中，可W使用化ffman编码、差分编码等W将多组增益编码成音频数据帖的成分、分支等或者从中读取多组增益。运些成分、分支等可被称为音频数据帖中的子帖。不同组的增益可与不同组的子帖对应。各组增益或者各组子帖可包含两个或更多个时间成分(例如，子帖等）。在一些实施例中，运里描述的音频编码器中的位流格式化器(formatter)可用一个或更多个for循环将一组或更多组增益一起作为差分数据代码写入到音频数据帖中的一组或更多组子帖中；相应地，运里描述的音频解码器中的位流剖析器可从音频数据帖中的一组或更多组子帖读取被编码为差分数据代码的一组或更多组增益中的任一个。
[0043] 在一些实施例中，音频编码器确定要被编码成编码音频信号的音频内容中的对话响度水平，并且，用音频内容向音频编码器传送对话响度水平。
[0044] 在一些实施例中，对于包含与大量的音频解码器(例如，移动电话、平板计算机等）动作的那些(例如，二信道耳机配置等)相比包含更多的音频信道或扬声器的基准扬声器配置(环绕声配置、5.1扬声器配置等），在编码音频信号中编码音频内容。对音频内容的相同的各单个部分，即使在两个扬声器配置中进行相同的增益调整，在基准扬声器配置中对音频内容的各单个部分测量的响度水平也可能与在诸如二信道配置等的特定扬声器配置中测量的响度水平不同。
[0045] 在一些实施例中，运里描述的音频编码器被配置为向下游音频解码器提供下混合相关元数据(例如，包含一个或更多个下混合响度参数等）。出于在下混合声音输出中产生相对精确目标响度水平的目的，下游音频解码器可W使用来自音频编码器（150)的下混合相关元数据，W有效和一致地执行(实时、接近实时等)附加的下混合相关增益调整动作。下游音频解码器可W使用附加的下混合相关增益调整动作，W防止基准扬声器配置与解码器的特定扬声器配置之间的测量响度水平的不一致性。
[0046] 当假定在假设的音频解码器处的假设的回放环境、情形等时，运里描述的技术不要求音频解码器锁定(例如，不可逆等)可通过诸如音频编码器等的上游装置执行的音频处理中。例如，为了区分存在于音频内容中的不同响度水平、最小化边界响度水平(例如，最小或最大响度水平等)处或附近的音频感觉质量的损失、保持信道或信道的子集之间的空间平衡等，运里描述的解码器可被配置为基于特定的回放情形定制音频处理动作。
[0047] 接收具有动态范围压缩曲线、基准响度水平、起音时间、释放时间等的编码音频信号的音频解码器可确定在解码器处使用的特定回放环境，并且选择具有与特定回放环境对应的相应基准响度水平的特定压缩曲线。
[0048] 解码器可计算/确定从编码音频信号提取的音频内容的各单个部分(例如，音频数据块、音频数据帖等）中的响度水平，或者如果音频编码器计算和提供了编码音频信号中的响度水平则获得音频内容的各单个部分中的响度水平。基于音频内容的各单个部分中的响度水平、音频内容的前面部分中的响度水平、可用的情况下的音频内容的随后部分中的响度水平、特定压缩曲线、与特定回放环境或情形相关的特定简档等中的一个或更多个，解码器确定音频处理参数，诸如用于动态范围控制的增益(或DRC增益）、起音时间、释放时间等。音频处理参数还可包含用于对准对话响度水平与特定回放环境的特定基准响度水平(可W 是用户可调整的）的调整。
[0049] 解码器根据音频处理参数施加包含(例如，多信道、多带等)动态范围控制、对话水平调整等的音频处理动作。由解码器执行的音频处理动作还可包含但不仅限于:基于作为选择的动态范围压缩曲线的一部分或者与其结合提供的起音和释放时间的增益平滑化、用于防止修剪的增益限制等。可通过不同（例如，可调整、阔值依赖、可控等)时间常数执行不同的音频处理动作。例如，通过相对短的时间常数(例如，瞬时、约5.3毫秒等），用于防止修剪的增益限制可被应用于各单个音频数据块、各单个音频数据帖等。
[0050] 在一些实施例中，解码器可被配置为从编码音频信号中的元数据提取ASA参数(例如，听觉事件边界的时间位置、事件确信性测量的时间依赖值等)并且基于提取的ASA参数控制听觉事件中的增益平滑化的速度(例如，使用用于在听觉事件边界处起音的短时间常数、使用长时间常数W在听觉事件内减慢增益平滑化等）。
[0051] 在一些实施例中，解码器还保持用于某个时间间隔或窗口的瞬时响度水平的直方图，并且，例如，通过修改时常常数，使用直方图W控制程序之间、程序与商业等之间的响度水平过渡的增益变化速度。
[0052] 在一些实施例中，解码器支持多于一个的扬声器配置(例如，具有扬声器的便携式模式、具有耳机的便携式模式、立体声模式、多信道模式等）。解码器可被配置为，例如，当回放同一音频内容时，在两个不同扬声器配置之间（例如，在立体声模式与多信道模式等之间)保持相同的响度水平。音频解码器可使用一个或更多个下混式，W对多信道音频内容被编码为音频解码器处的特定扬声器配置的基准扬声器配置下混从编码音频信号接收的多信道音频内容。
[0053] 在一些实施例中，自动增益控制(AGC)可在运里描述的音频解码器中被禁用。
[0054] 在一些实施例中，在运里描述的机制形成媒体处理系统的一部分，包含但不限于：视听装置、平板TV、手持装置、游戏机、电视、家庭剧院系统、平板、移动装置、膝上型计算机、笔记本计算机、蜂窝无线电电话、电子书阅读器、销售终端、台式计算机、计算机工作站、计算机亭、各种其它类型的终端和媒体处理单元等。
[0055]对于本领域技术人员来说，运里描述的优选实施例和一般原理和特征的各种修改是容易理解的。因此，公开不是要限于所示出的实施例，而要被赋予与运里描述的原理和特征一致的最宽范围。
[0化6] 2.动态范围控制
[0057] 在没有定制的动态范围控制的情况下，由于回放装置的特定回放环境可能与已在编码装置处编码编码音频内容的目标回放环境不同，因此，常在回放装置处W不适于回放装置的特定回放环境(例如，包含装置的物理和/或机械回放限制）的响度水平再现输入音频信息(例如，PCM采样、QMF矩阵中的时间频率采样等）。
[0058] 运里描述的技术可被用于支持对各种回放环境中的任一种定制的各种音频内容的动态范围控制，同时保持音频内容的感觉质量。
[0059] 动态范围控制(DRC)指的是将音频内容中的响度水平的输入动态范围修改(例如，压缩、切割、扩展、升高等巧Ij与输入动态范围不同的输出动态范围中的时间依赖音频处理动作。例如，在动态范围控制方案中，柔声可被映射(例如，升高等）到更高的响度水平，并且，响的声音可被映射(例如，切割等巧Ij低的响度值。作为结果，在响度域中，响度水平的输出范围在本例子中变得比响度水平的输入范围小。但是，在一些实施例中，动态范围控制可能是可逆的，使得原始范围被恢复。例如，只要从原始响度水平映射的输出动态范围中的映射响度水平处于修剪水平或者低于它、各唯一原始响度水平被映射到唯一输出响度水平，等等，就可执行扩展动作W恢复原始范围。
[0060] 可W使用运里描述的DRC技术W在某些回放环境或情况下提供更好的收听体验。例如，噪声环境中的柔声会被噪声掩盖，运使得柔声不可听。相反，例如，在一些情况下，为了不影响邻居，不希望大的声音。一般具有小的形状因子的扬声器的许多装置不能W高的输出水平再现声音。在一些情况下，低的信号水平可能在人听力阔值之下被再现。DRC技术可基于用动态范围压缩曲线观看的DRC增益(例如，缩放音频振幅、升压比、切割比等的缩放因子)执行输入响度水平到输出响度水平的映射。
[0061] 动态范围压缩曲线指的是将从各单个音频数据帖确定的各单个输入响度水平(例如，对话W外的声音等的）映射到各单个增益或用于动态范围控制的增益的函数(例如，查找表、曲线、多段分段线等）。各单个增益中的每一个指示施加到相应的单个输入响度水平的增益量。施加各单个增益之后的输出响度水平代表特定回放环境中的各单个音频数据帖中的音频内容的目标响度水平。
[0062] 除了规定增益与响度水平之间的映射W外，动态范围压缩曲线可在施加增益时包含或者具有特定的释放时间和起音时间。起音指的是连续时间采样之间的信号能量(或响度)的增加，而释放指的是连续时间采样之间的能量(或响度)的减小。起音时间（例如，10毫秒、20毫秒等)指的是当相应信号处于起音模式中时在平滑化DRC增益中使用的时间常数。释放时间（例如，80毫秒、100毫秒等)指的是当相应信号处于释放模式中时在平滑化DRC增益中使用的时间常数。在一些实施例中，另外、任选地或者作为替代方案，在确定DRC增益之前对信号能量(或响度)的平滑化使用时间常数。
[0063 ] 不同的动态范围压缩曲线可与不同的回放环境对应。例如，用于平板TV的回放环境的动态范围压缩曲线可与用于便携式装置的回放环境的动态范围压缩曲线不同。在一些实施例中，回放装置可具有两个或更多个回放环境。例如，具有扬声器的便携式装置的第一回放环境的第一动态范围压缩曲线可与具有耳机的同一便携式装置的第二回放环境的第二动态范围压缩曲线不同。
[0064] 3.音频解码器
[0065] 图IA示出包括数据提取器104、动态范围控制器106、音频呈现器108等的示例性音频解码器100。
[0066] 在一些实施例中，数据提取器（104)被配置为接收编码输入信号102。运里描述的编码输入信号可W是包含编码(例如，压缩等)输入音频数据帖和元数据的位流。数据提取器（104)被配置为从编码输入信号（102)提取/解码输入音频数据帖和元数据。输入音频数据帖中的每一个包含多个编码音频数据块，每个编码音频数据块代表多个音频采样。各帖代表包含一定数量的音频采样的（例如，恒定的）时间间隔。帖尺寸可随采样率和编码数据率改变。音频采样可W是代表一个、两个或更多个(音频)频带或频率范围中的频谱内容的量化的音频数据要素(例如，输入PCM采样、QMF矩阵中的输入时间频率采样等）。输入音频数据帖中的量化的音频数据要素可代表数字(量化)域中的压力波。量化的音频数据要素可覆盖处于最大可能值处或低于它的有限范围的响度水平(例如，修剪水平、最大响度水平等）。
[0067] 元数据可被各种受体解码器使用W处理输入音频数据帖。元数据可包含与由解码器(100)执行的一个或更多个动作有关的各种动作参数、一个或更多个动态范围压缩曲线、与在输入音频数据帖中代表的对话响度水平有关的归一化参数等。对话响度水平可指的整个节目（例如，电影、TV节目、无线电广播等）、节目的一部分、节目的对话中的对话响度、节目响度、平均对话响度等的（屯、理声学、感觉等)水平。
[0068] 解码器（104)或模块中的一些或全部(例

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·沃德;J·瑞德米勒;S·G·诺克罗斯;A·格罗舍尔;
技术所有人：杜比实验室特许公司;杜比国际公司;
我是此专利的发明人

上一篇：用于联合多声道编码的方法和设备的制造方法
上一篇：使用外国单词语法的语音识别的制作方法