用于下混合音频内容的响度调整的制作方法_4

文档序号：9769248阅读：来源：国知局

例中，"dmixloudoffst"栏可供音频编码器（150)使用W指示在施加由于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部之后测量的、（1)2信道下混合声音输出的期望响度水平与（2)2信道下混合声音输出的测量响度水平之间的任何响度偏离。"dmixloudoff St"栏可包含施加一个或更多个不同组的增益调整等之后的一种或更多种不同类型的下混合的一个或更多个实例。由 "dmixloudoffst"栏指示的响度偏离可W但不仅仅限于包含由将音频内容从基准扬声器配置下混合到诸如二信道配置等的特定扬声器配置导致的响度水平差。为了在下混合声音输出中产生基准响度水平，响度偏离与应由具有要下混合音频内容（152)的特定扬声器配置的解码器施加的响度偏移对应(例如，代表其相反等）。
[0144] 在示例性实现中，与-7.5LKFS~W . 5LKFS的响度偏移的范围对应，Wo.化KFS步幅，"dmixloudoffst"栏（例如，其实例等）可被设定为0~30的值范围中的值（例如，整数等）。另外、任选地或者作为替代方案，"dmixloudoffst"栏的31的值可被指定为保留值，并且，如果存在的话可解释为OLKFS的下混合响度偏移。
[0145] 在一些实施例中，"dmixloudoffst"栏的正LKFS值(例如，用于"dmixloudoffst"栏的16、17、…、30的值)指示下混合声音输出的测量响度水平W指示的LKFS值的大小比下混合声音输出的期望响度水平大声。"dmixloudoffst"栏的负LKFS值（例如，用于 "dmi X1 oudof f S t"栏的0、1、…、15的值)指示下混合声音输出的测量响度水平W指示的LKFS 值的大小比期望下混合响度安静或小声。
[0146] 为了补偿由将音频内容（152)从基准扬声器配置下混合到特定扬声器配置导致的一编码音频信号（102)中的音频内容（152)的各单个部分的一响度水平差，下混合响度参数中的一些或全部可(例如，另外、任选地、作为替代方案，等等)供具有诸如特定扬声器配置等的扬声器配置的音频解码器(例如，100等)使用，W控制在编码音频信号（102)中的音频内容(152)上动作的一个或更多个音频处理运算、算法等。
[0147] 在一些实施例中，运里描述的音频解码器(例如，100等)被配置为从编码音频信号 (102)解码(例如，多信道等)音频内容、从用音频内容传输的响度元数据提取对话响度水平 (例如，"dialnorm"等），等等。音频解码器（100)可通过具有比与音频内容对应的基准扬声器配置少的音频信道的特定扬声器配置(例如，二信道配置等)动作。
[0148] 在一些实施例中，音频解码器(100)使用一个或更多个下混合方程，W下混合从多信道音频内容被编码成音频解码器处的特定扬声器配置的基准扬声器配置的编码音频信号（102)接收的多信道音频内容，在下混合的音频内容上执行一个或更多个音频处理运算、算法等，W产生下混合的声音输出等。音频解码器(100)可能能够执行一个或更多个不同类型的下混合运算。音频解码器（100)可被配置为基于一个或更多个因素确定和执行特定类型(例如，LtIU下混合、LoRo下混合等）的下混合运算。运些因素可包含但不仅仅限于规定特定用户选择类型的下混合运算的偏好的用户输入、规定系统选择类型的下混合运算的偏好的用户输入、特定扬声器配置和/或音频解码器（100)的能力、用于特定类型的下混合运算的下混合响度元数据的可用性、用于某种类型的下混合运算的编码器产生偏好标记等中的一个或更多个。在一些实施例中，音频解码器（100)可实现一个或更多个优先规则、可征求其它的用户输入等，W在运些因素相互冲突时确定特定类型的下混合运算。
[0149] -个或更多个音频处理运算、算法等包含但不仅仅限于：施加某种量的衰减（例如，基准响度水平与"dialnorm"等之间的差值），W至少部分地基于对话响度水平（例如， "dialnorm"等)与基准响度水平(例如，-31LKFS等)将下混合声音输出的输出对话响度水平对准/调整到基准响度水平。在一些实施例中，音频解码器（100)进一步执行由于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部。在一些实施例中，运些增益调整可与在确定上述的测量响度水平时通过音频编码器（150)执行的那些对应一例如，可与其相同或者基本上相同。运些增益调整中的一个或更多个可W是由音频解码器(100)执行的类型的下混合运算(例如，LtIU下混合、LoRo下混合等)特有的。
[0150] 另外、任选地或者作为替代方案，在一些实施例中，音频解码器（100)被配置为从编码的音频信号（102)提取下混合响度元数据（例如，"dmixloudoffste"栏、 "dmixloudoffst"栏等)作为通过音频内容传输的元数据的一部分。在一些实施例中，提取的下混合响度元数据中的下混合响度参数包含通过在下混合响度元数据中承载的一个或更多个标记指示为存在的不同类型的下混合运算的一个或更多个不同组的下混合响度参数。响应于确定存在一组或更多组下混合响度参数，音频解码器(100)可在一个或更多个不同组的下混合响度参数中确定/选择与由音频解码器（100)执行的特定类型的下混合运算 (例如，LtIU下混合、LoRo下混合等)对应的一组下混合响度参数。音频解码器（100)确定(例如，基于"dmixloudoffste"栏是否具有1或0的值等）是否在特定组的下混合响度参数中存在下混合响度偏移数据。响应确定(例如，基于"dmixloudoffste"栏具有1或0的值等)在特定组的下混合响度参数中存在下混合响度偏移数据，音频解码器（100)基于用音频内容从编码音频信号（102)提取的下混合响度元数据（例如，同一组的下混合响度参数中的 "dmixloudoffst"栏等）中的下混合响度偏移执行响度调整运算。在施加一个或更多个不同组的增益调整等之后，下混合响度元数据可包含具有一个或更多个不同类型的下混合的一个或更多个实例的"dmixloudoffst"栏。基于由音频解码器（100)执行的增益调整的实际下混合运算和实际组（例如，没有增益调整、不包含与DRC有关的那些的增益调整、包含与DRC 有关的那些的增益调整、不包含与对话归一化有关的那些的增益调整、包含与对话归一化有关的那些的增益调整、包含与对话归一化和DRC均有关的那些的增益调整等），音频解码器(100)可确定/选择下混合响度元数据中的"血ixloudoff St"栏的一个或更多个实例中的特定实例。
[0151 ] 响应于确定"dmixloudoff St"栏指示正LKFS值(例如，用于"dmixloudoffst"栏的 16、17、…、30的值），运意味着施加由于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部之后的下混合声音输出的响度水平（由诸如150等的上游音频编码器测量)比通过指示的LKIK值的大小输出的下混合声音的期望响度水平大声，音频解码器（100)用具有指示的LHK值的大小的负增益值执行进一步的增益调整，运将下混合声音输出的响度水平降低或调整到期望的响度(例如，基准响度水平等）。
[0152] 响应于确定"dmixloudoff St"栏指示负LKFS值(例如，用于"dmixloudoffst"栏的〇、1、…、15的值），运意味着施加由于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部之后的下混合声音输出的响度水平（由诸如150等的上游音频编码器测量)比下混合声音输出的期望的响度水平安静或者小声指示的LKFS值的大小，音频解码器(100)用具有指示的LK!K值的大小的负增益值执行进一步的增益调整，运将下混合声音输出的响度水平增加或调整到期望的响度(例如，基准响度水平等）。
[0153] "dmixloudoffst"栏的负LKFS值（例如，用于"dmixloudoffst"栏的0、1、...、15的值)指示下混合声音输出的测量响度水平比期望的响度水平安静或者小声指示的LKFS值的大小。在一些实施例中，如果负LWS值在编码音频信号（102)中指示/信令到受体解码器，那么受体解码器（例如，150等）可采取行动，W确保施加到2信道下混合声音输出W补偿负 LKFS值的任何正增益不在2信道下混合声音输出中引入响度水平的修剪。
[0154] 基于在下混合响度元数据中指示的响度偏移的进一步增益调整可W或者可W不仅仅限于由音频解码器(100)执行的类型的下混合运算所特有。
[0155] 11.与增益有关的附加动作
[0156] 根据在运里描述的技术，不是在物理域(或代表物理域的数字域）中，而是可在响度(例如，感觉)域中执行诸如动态均衡化、噪声补偿等的其它处理。
[0157] 在一些实施例中，来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等的各种处理中的一些或全部的增益可在响度域中的相同增益中被组合，并且/或者可被并行施加。在一些其它的实施例中，来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等的各种处理中的一些或全部的增益可处于响度域中的单独的增益中，并且/或者可至少部分地被串行施加。在一些其它的实施例中，来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等的各种处理中的一些或全部的增益可被依次施加。
[0158] 12.特定和广带(或宽带）响度水平
[0159] -个或更多个音频处理要素、单元、部件等，诸如传送滤波器、听觉滤波器组、合成滤波器组、短时傅立叶变换等，可被编码器或解码器使用，W执行在运里描述的音频处理动作。
[0160] 在一些实施例中，可W使用模型化人听觉系统的外和中耳过滤的一个或更多个传送滤波器，W过滤进入的音频信号(例如，编码的音频信号102、来自内容提供方的音频内容等）。在一些实施例中，可W使用听觉滤波器组W模型化人听觉系统的频率选择性和频率展度。来自运些滤波器中的一些或全部的激励信号水平可通过向着更高的频率的更短的频率依赖时间常数被确定/计算和平滑化，W模型化人听觉系统中的能量的积分。随后，可W使用激励信号与特定响度水平之间的非线性函数(例如，关系、曲线等），W获得频率依赖特定响度水平的简档。可通过在频带上积分特定响度获得广带(或宽带)响度水平。
[0161] 特定响度水平的直接(例如，对所有频带具有相同的权重等）加算/积分可对广带信号很好地起作用。但是，运种方法可能低估窄带信号的（例如，感觉等）响度水平。在一些实施例中，不同频率或者不同频带中的特定响度水平被赋予不同的权重。
[0162] 在一些实施例中，上述的听觉滤波器组和/或传送滤波器可被一个或更多个短时傅立叶变换(STFT)替代。可在快速傅立叶变换(FFT)域中施加对传送滤波器和听觉滤波器组的响应。在一些实施例中，例如，当在从物理域(或在代表物理域的数字域中巧Ij响度域的转换中或者之前使用一个或更多个(例如，向前等)传送滤波器时，使用一个或更多个逆传送滤波器。在一些实施例中，例如，当作为听觉滤波器组和/或传送滤波器的替代使用STFT 时，不使用逆传送滤波器。在一些实施例中，省略听觉滤波器组;作为替代，使用一个或更多个正交镜像滤波器(QMF)。在运些实施例中，可在不明显影响运里描述的音频处理动作的性能的情况下省略人听觉系统的模型中的基膜的扩展效果。
[0163] 根据运里描述的技术，可在各种实施例中使用不同数量的频带（例如，20个频带、 40个感应带等）。另外、任选地或者作为替代方案，也可在各种实施例中使用不同的带宽宽度。
[0164] 13.用于信道的各单个子集的各单个增益
[0165] 在一些实施例中，当特定扬声器配置是多信道配置时，可通过在从物理域(或者在代表物理域的数字域中）向响度域的转换之前首先加算所有信道的激励信号获得总响度水平。但是，向特定扬声器配置中的所有信道施加相同的增益不能保持特定扬声器配置的不同信道(例如，关于不同信道之间的相对响度水平等)之间的空间平衡。
[0166] 在一些实施例中，为了保持空间平衡使得可最佳地或者正确地保持不同信道之间的相对感觉响度水平，可对每个信道确定或计算各响度水平和基于各响度水平获得的相应增益。在一些实施例中，基于各响度水平获得的相应的增益不等于相同的总增益;例如，相应增益中的一些或全部中的每一个可等于总增益加上(例如，信道特定)小校正。
[0167] 在一些实施例中，为了保持空间平衡，可对信道的每个子集确定或计算各响度水平和基于各响度水平获得的相应增益。在一些实施例中，基于各响度水平获得的相应的增益不等于相同的总增益;例如，相应增益中的一些或全部中的每一个可等于总增益加上(例如，信道特定)小校正。在一些实施例中，信道的子集可包含形成特定扬声器配置中的所有信道的适当子集的两个或更多个信道(例如，包含左前、右前和低频效果化FE)的信道的子集;包含左环绕和右环绕的信道的子集，等等）。信道的子集的音频内容可构成在编码音频信号（102)中承载的总混合的子混合。可向子混合内的信道施加相同的增益。
[0168] 在一些实施例中，为了从特定扬声器配置生成实际的响度(例如，实际感觉等），可 W使用一个或更多个校准参数W关联数字域中的信号水平与由数字域代表的物理域中的相应物理(例如，关于地SPL的空间压力等)水平。一个或更多个校准参数可被赋予特定扬声器配置中的物理声音设备特有的值。
[0169] 14.听觉场景分析
[0170] 在一些实施例中，运里描述的编码器可实现基于计算机的听觉场景分析(ASA) W 检测音频内容（例如，编码成编码音频信号102等）中的听觉事件边界、生成一个或更多个 ASA参数、将一个或更多个ASA参数格式化为编码音频信号(例如，102等）的要传输到下游装置(例如，解码器100等）的部分。ASA参数可包含但不仅仅限于指示听觉事件边界的位置的参数、听觉事件确信度测量(后面进一步解释)等中的任一个。
[0171] 在一些实施例中，听觉事件边界的（例如，时间上的）位置可在在编码的音频信号 (102)内编码的元数据中被指示。另外、任选地或者作为替代方案，听觉事件边界的（例如，时间上的）位置可在检测听觉事件边界的位置的音频数据块和/或帖中被指示(例如，用标记、数据栏等）。
[0172] 运里，听觉事件边界指的是前面的听觉事件结束和/或后续的听觉事件开始的点。各听觉事件在两个连续的听觉事件边界之间出现。
[0173] 在一些实施例中，编码器(150)被配置为通过两个(例如，时间上)连续音频数据帖之间的特定响度频谱中的差值检测听觉事件边界。特定响度频谱中的每一个可包含从连续音频数据帖的相应音频数据帖计算的不平滑化响度的频谱。
[0174]在一些实施例中，特定响度频谱N[b，t]可被归一化W获得下式所示的归一化特定响度频谱NN0RM[b，t]:
(1)
[0176] 运里，b表示频带，t表示时间或音频数据帖指数，maxb{N[b，t]}是跨着所有频带的最大特定响度水平。
[0177] 如下式那样，归一化特定响度频谱可相减并且被用于导出加算的绝对差D[t]。
[017 引 D[t]=Xb|NN〇RM[b，t]-NN〇RM[b，t-U| (2)
[0179]加算的绝对值被映射到具有0~1的值范围的听觉事件确信度测量A[t巧日下：
(3)
[0181] 运里，Dmin和Dmax是最小和最大阔值(例如，用户可配置、系统可配置、关于音频内容中的D[ t ]的过去值分布设定，等等）。
[0182] 在一些实施例中，编码器(150)被配置为检测D[t](例如，在特定的t处等)高于Dmin 时的听觉事件边界(例如，特定t等）。
[0183] 在一些实施例中，运里描述的解码器(例如，100等)从编码的音频信号（例如，102 等)提取ASA参数，并且使用ASA参数W防止导致听觉事件的感觉崎变的柔声的无意的升压和/或大声的无意切割。
[0184] 解码器（100)可被配置为通过确保在听觉事件内增益更接近恒定并且通过将许多的增益改变约束到听觉事件边界的附近来减少或防止听觉事件的无意崎变。例如，解码器 (100)可被配置为响应听觉事件边界处的起音(例如，响度水平增加等）中的增益变化使用相对小的时间常数(例如，与听觉事件的最小持续期相当或者比其短等）。因此，可相对迅速地通过解码器（100)实现起音中的增益变化。另一方面，解码器（100)可被配置为响应听觉事件中的释放(例如，响度水平减小等)的增益变化相对于听觉事件的持续期使用相对长的时间常数。因此，可相对慢地通过解码器（100)实现释放的增益变化，使得应当表现恒定或者逐渐衰减的声音不可听或者在感觉上受到干扰。听觉事件边界处的起音中的迅速响应和听觉事件中的释放的慢速响应允许快速感觉到听觉事件的到达，并且保持听觉事件中的感觉质量和/或完整性一包含通过特定响度水平关系和/或特定时间关系链接的大声和柔声一诸如钢琴弦等。
[0185] 在一些实施例中，解码器(100)使用由ASA参数指示的听觉事件和听觉事件边界W 控制解码器(100)处的特定扬声器配置中的信道中的一个、两个、一些或全部的增益变化。
[0186] 15.响度水平过渡
[0187] 例如，在两个节目之间、在节目与大声商业广告之间等，可出现响度水平过渡。在一些实施例中，解码器（100)被配置为基于过去的音频内容（例如，从编码音频信号102接收，过去4秒等)保持瞬时响度水平的直方图。在从响度水平过渡之前到响度水平过渡之后的时间间隔上，具有变高的概率的两个区域可在直方图中被记录。区域中

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6