用于下混合音频内容的响度调整的制作方法_4

文档序号:9769248阅读:来源:国知局
例中,"dmixloudoffst"栏可供音频编码器(150)使用W指示在施加由 于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或 全部之后测量的、(1)2信道下混合声音输出的期望响度水平与(2)2信道下混合声音输出的 测量响度水平之间的任何响度偏离。"dmixloudoff St"栏可包含施加一个或更多个不同组 的增益调整等之后的一种或更多种不同类型的下混合的一个或更多个实例。由 "dmixloudoffst"栏指示的响度偏离可W但不仅仅限于包含由将音频内容从基准扬声器配 置下混合到诸如二信道配置等的特定扬声器配置导致的响度水平差。为了在下混合声音输 出中产生基准响度水平,响度偏离与应由具有要下混合音频内容(152)的特定扬声器配置 的解码器施加的响度偏移对应(例如,代表其相反等)。
[0144] 在示例性实现中,与-7.5LKFS~W . 5LKFS的响度偏移的范围对应,Wo.化KFS步 幅,"dmixloudoffst"栏(例如,其实例等)可被设定为0~30的值范围中的值(例如,整数 等)。另外、任选地或者作为替代方案,"dmixloudoffst"栏的31的值可被指定为保留值,并 且,如果存在的话可解释为OLKFS的下混合响度偏移。
[0145] 在一些实施例中,"dmixloudoffst"栏的正LKFS值(例如,用于"dmixloudoffst"栏 的16、17、…、30的值)指示下混合声音输出的测量响度水平W指示的LKFS值的大小比下混 合声音输出的期望响度水平大声。"dmixloudoffst"栏的负LKFS值(例如,用于 "dmi X1 oudof f S t"栏的0、1、…、15的值)指示下混合声音输出的测量响度水平W指示的LKFS 值的大小比期望下混合响度安静或小声。
[0146] 为了补偿由将音频内容(152)从基准扬声器配置下混合到特定扬声器配置导致 的一编码音频信号(102)中的音频内容(152)的各单个部分的一响度水平差,下混合响度参 数中的一些或全部可(例如,另外、任选地、作为替代方案,等等)供具有诸如特定扬声器配 置等的扬声器配置的音频解码器(例如,100等)使用,W控制在编码音频信号(102)中的音 频内容(152)上动作的一个或更多个音频处理运算、算法等。
[0147] 在一些实施例中,运里描述的音频解码器(例如,100等)被配置为从编码音频信号 (102)解码(例如,多信道等)音频内容、从用音频内容传输的响度元数据提取对话响度水平 (例如,"dialnorm"等),等等。音频解码器(100)可通过具有比与音频内容对应的基准扬声 器配置少的音频信道的特定扬声器配置(例如,二信道配置等)动作。
[0148] 在一些实施例中,音频解码器(100)使用一个或更多个下混合方程,W下混合从多 信道音频内容被编码成音频解码器处的特定扬声器配置的基准扬声器配置的编码音频信 号(102)接收的多信道音频内容,在下混合的音频内容上执行一个或更多个音频处理运算、 算法等,W产生下混合的声音输出等。音频解码器(100)可能能够执行一个或更多个不同类 型的下混合运算。音频解码器(100)可被配置为基于一个或更多个因素确定和执行特定类 型(例如,LtIU下混合、LoRo下混合等)的下混合运算。运些因素可包含但不仅仅限于规定特 定用户选择类型的下混合运算的偏好的用户输入、规定系统选择类型的下混合运算的偏好 的用户输入、特定扬声器配置和/或音频解码器(100)的能力、用于特定类型的下混合运算 的下混合响度元数据的可用性、用于某种类型的下混合运算的编码器产生偏好标记等中的 一个或更多个。在一些实施例中,音频解码器(100)可实现一个或更多个优先规则、可征求 其它的用户输入等,W在运些因素相互冲突时确定特定类型的下混合运算。
[0149] -个或更多个音频处理运算、算法等包含但不仅仅限于:施加某种量的衰减(例 如,基准响度水平与"dialnorm"等之间的差值),W至少部分地基于对话响度水平(例如, "dialnorm"等)与基准响度水平(例如,-31LKFS等)将下混合声音输出的输出对话响度水平 对准/调整到基准响度水平。在一些实施例中,音频解码器(100)进一步执行由于对话归一 化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部。在一些 实施例中,运些增益调整可与在确定上述的测量响度水平时通过音频编码器(150)执行的 那些对应一例如,可与其相同或者基本上相同。运些增益调整中的一个或更多个可W是由 音频解码器(100)执行的类型的下混合运算(例如,LtIU下混合、LoRo下混合等)特有的。
[0150] 另外、任选地或者作为替代方案,在一些实施例中,音频解码器(100)被配置为从 编码的音频信号(102)提取下混合响度元数据(例如,"dmixloudoffste"栏、 "dmixloudoffst"栏等)作为通过音频内容传输的元数据的一部分。在一些实施例中,提取 的下混合响度元数据中的下混合响度参数包含通过在下混合响度元数据中承载的一个或 更多个标记指示为存在的不同类型的下混合运算的一个或更多个不同组的下混合响度参 数。响应于确定存在一组或更多组下混合响度参数,音频解码器(100)可在一个或更多个不 同组的下混合响度参数中确定/选择与由音频解码器(100)执行的特定类型的下混合运算 (例如,LtIU下混合、LoRo下混合等)对应的一组下混合响度参数。音频解码器(100)确定(例 如,基于"dmixloudoffste"栏是否具有1或0的值等)是否在特定组的下混合响度参数中存 在下混合响度偏移数据。响应确定(例如,基于"dmixloudoffste"栏具有1或0的值等)在特 定组的下混合响度参数中存在下混合响度偏移数据,音频解码器(100)基于用音频内容从 编码音频信号(102)提取的下混合响度元数据(例如,同一组的下混合响度参数中的 "dmixloudoffst"栏等)中的下混合响度偏移执行响度调整运算。在施加一个或更多个不同 组的增益调整等之后,下混合响度元数据可包含具有一个或更多个不同类型的下混合的一 个或更多个实例的"dmixloudoffst"栏。基于由音频解码器(100)执行的增益调整的实际下 混合运算和实际组(例如,没有增益调整、不包含与DRC有关的那些的增益调整、包含与DRC 有关的那些的增益调整、不包含与对话归一化有关的那些的增益调整、包含与对话归一化 有关的那些的增益调整、包含与对话归一化和DRC均有关的那些的增益调整等),音频解码 器(100)可确定/选择下混合响度元数据中的"血ixloudoff St"栏的一个或更多个实例中的 特定实例。
[0151 ] 响应于确定"dmixloudoff St"栏指示正LKFS值(例如,用于"dmixloudoffst"栏的 16、17、…、30的值),运意味着施加由于对话归一化导致的增益调整、动态范围压缩、防止下 混合过载的固定衰减等中的一些或全部之后的下混合声音输出的响度水平(由诸如150等 的上游音频编码器测量)比通过指示的LKIK值的大小输出的下混合声音的期望响度水平大 声,音频解码器(100)用具有指示的LHK值的大小的负增益值执行进一步的增益调整,运将 下混合声音输出的响度水平降低或调整到期望的响度(例如,基准响度水平等)。
[0152] 响应于确定"dmixloudoff St"栏指示负LKFS值(例如,用于"dmixloudoffst"栏的 〇、1、…、15的值),运意味着施加由于对话归一化导致的增益调整、动态范围压缩、防止下混 合过载的固定衰减等中的一些或全部之后的下混合声音输出的响度水平(由诸如150等的 上游音频编码器测量)比下混合声音输出的期望的响度水平安静或者小声指示的LKFS值的 大小,音频解码器(100)用具有指示的LK!K值的大小的负增益值执行进一步的增益调整,运 将下混合声音输出的响度水平增加或调整到期望的响度(例如,基准响度水平等)。
[0153] "dmixloudoffst"栏的负LKFS值(例如,用于"dmixloudoffst"栏的0、1、...、15的 值)指示下混合声音输出的测量响度水平比期望的响度水平安静或者小声指示的LKFS值的 大小。在一些实施例中,如果负LWS值在编码音频信号(102)中指示/信令到受体解码器,那 么受体解码器(例如,150等)可采取行动,W确保施加到2信道下混合声音输出W补偿负 LKFS值的任何正增益不在2信道下混合声音输出中引入响度水平的修剪。
[0154] 基于在下混合响度元数据中指示的响度偏移的进一步增益调整可W或者可W不 仅仅限于由音频解码器(100)执行的类型的下混合运算所特有。
[0155] 11.与增益有关的附加动作
[0156] 根据在运里描述的技术,不是在物理域(或代表物理域的数字域)中,而是可在响 度(例如,感觉)域中执行诸如动态均衡化、噪声补偿等的其它处理。
[0157] 在一些实施例中,来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等的各种 处理中的一些或全部的增益可在响度域中的相同增益中被组合,并且/或者可被并行施加。 在一些其它的实施例中,来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等的各种处 理中的一些或全部的增益可处于响度域中的单独的增益中,并且/或者可至少部分地被串 行施加。在一些其它的实施例中,来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等 的各种处理中的一些或全部的增益可被依次施加。
[0158] 12.特定和广带(或宽带)响度水平
[0159] -个或更多个音频处理要素、单元、部件等,诸如传送滤波器、听觉滤波器组、合成 滤波器组、短时傅立叶变换等,可被编码器或解码器使用,W执行在运里描述的音频处理动 作。
[0160] 在一些实施例中,可W使用模型化人听觉系统的外和中耳过滤的一个或更多个传 送滤波器,W过滤进入的音频信号(例如,编码的音频信号102、来自内容提供方的音频内容 等)。在一些实施例中,可W使用听觉滤波器组W模型化人听觉系统的频率选择性和频率展 度。来自运些滤波器中的一些或全部的激励信号水平可通过向着更高的频率的更短的频率 依赖时间常数被确定/计算和平滑化,W模型化人听觉系统中的能量的积分。随后,可W使 用激励信号与特定响度水平之间的非线性函数(例如,关系、曲线等),W获得频率依赖特定 响度水平的简档。可通过在频带上积分特定响度获得广带(或宽带)响度水平。
[0161] 特定响度水平的直接(例如,对所有频带具有相同的权重等)加算/积分可对广带 信号很好地起作用。但是,运种方法可能低估窄带信号的(例如,感觉等)响度水平。在一些 实施例中,不同频率或者不同频带中的特定响度水平被赋予不同的权重。
[0162] 在一些实施例中,上述的听觉滤波器组和/或传送滤波器可被一个或更多个短时 傅立叶变换(STFT)替代。可在快速傅立叶变换(FFT)域中施加对传送滤波器和听觉滤波器 组的响应。在一些实施例中,例如,当在从物理域(或在代表物理域的数字域中巧Ij响度域的 转换中或者之前使用一个或更多个(例如,向前等)传送滤波器时,使用一个或更多个逆传 送滤波器。在一些实施例中,例如,当作为听觉滤波器组和/或传送滤波器的替代使用STFT 时,不使用逆传送滤波器。在一些实施例中,省略听觉滤波器组;作为替代,使用一个或更多 个正交镜像滤波器(QMF)。在运些实施例中,可在不明显影响运里描述的音频处理动作的性 能的情况下省略人听觉系统的模型中的基膜的扩展效果。
[0163] 根据运里描述的技术,可在各种实施例中使用不同数量的频带(例如,20个频带、 40个感应带等)。另外、任选地或者作为替代方案,也可在各种实施例中使用不同的带宽宽 度。
[0164] 13.用于信道的各单个子集的各单个增益
[0165] 在一些实施例中,当特定扬声器配置是多信道配置时,可通过在从物理域(或者在 代表物理域的数字域中)向响度域的转换之前首先加算所有信道的激励信号获得总响度水 平。但是,向特定扬声器配置中的所有信道施加相同的增益不能保持特定扬声器配置的不 同信道(例如,关于不同信道之间的相对响度水平等)之间的空间平衡。
[0166] 在一些实施例中,为了保持空间平衡使得可最佳地或者正确地保持不同信道之间 的相对感觉响度水平,可对每个信道确定或计算各响度水平和基于各响度水平获得的相应 增益。在一些实施例中,基于各响度水平获得的相应的增益不等于相同的总增益;例如,相 应增益中的一些或全部中的每一个可等于总增益加上(例如,信道特定)小校正。
[0167] 在一些实施例中,为了保持空间平衡,可对信道的每个子集确定或计算各响度水 平和基于各响度水平获得的相应增益。在一些实施例中,基于各响度水平获得的相应的增 益不等于相同的总增益;例如,相应增益中的一些或全部中的每一个可等于总增益加上(例 如,信道特定)小校正。在一些实施例中,信道的子集可包含形成特定扬声器配置中的所有 信道的适当子集的两个或更多个信道(例如,包含左前、右前和低频效果化FE)的信道的子 集;包含左环绕和右环绕的信道的子集,等等)。信道的子集的音频内容可构成在编码音频 信号(102)中承载的总混合的子混合。可向子混合内的信道施加相同的增益。
[0168] 在一些实施例中,为了从特定扬声器配置生成实际的响度(例如,实际感觉等),可 W使用一个或更多个校准参数W关联数字域中的信号水平与由数字域代表的物理域中的 相应物理(例如,关于地SPL的空间压力等)水平。一个或更多个校准参数可被赋予特定扬声 器配置中的物理声音设备特有的值。
[0169] 14.听觉场景分析
[0170] 在一些实施例中,运里描述的编码器可实现基于计算机的听觉场景分析(ASA) W 检测音频内容(例如,编码成编码音频信号102等)中的听觉事件边界、生成一个或更多个 ASA参数、将一个或更多个ASA参数格式化为编码音频信号(例如,102等)的要传输到下游装 置(例如,解码器100等)的部分。ASA参数可包含但不仅仅限于指示听觉事件边界的位置的 参数、听觉事件确信度测量(后面进一步解释)等中的任一个。
[0171] 在一些实施例中,听觉事件边界的(例如,时间上的)位置可在在编码的音频信号 (102)内编码的元数据中被指示。另外、任选地或者作为替代方案,听觉事件边界的(例如, 时间上的)位置可在检测听觉事件边界的位置的音频数据块和/或帖中被指示(例如,用标 记、数据栏等)。
[0172] 运里,听觉事件边界指的是前面的听觉事件结束和/或后续的听觉事件开始的点。 各听觉事件在两个连续的听觉事件边界之间出现。
[0173] 在一些实施例中,编码器(150)被配置为通过两个(例如,时间上)连续音频数据帖 之间的特定响度频谱中的差值检测听觉事件边界。特定响度频谱中的每一个可包含从连续 音频数据帖的相应音频数据帖计算的不平滑化响度的频谱。
[0174]在一些实施例中,特定响度频谱N[b,t]可被归一化W获得下式所示的归一化特定 响度频谱NN0RM[b,t]:
(1)
[0176] 运里,b表示频带,t表示时间或音频数据帖指数,maxb{N[b,t]}是跨着所有频带的 最大特定响度水平。
[0177] 如下式那样,归一化特定响度频谱可相减并且被用于导出加算的绝对差D[t]。
[017 引 D[t]=Xb|NN〇RM[b,t]-NN〇RM[b,t-U| (2)
[0179]加算的绝对值被映射到具有0~1的值范围的听觉事件确信度测量A[t巧日下:
(3)
[0181] 运里,Dmin和Dmax是最小和最大阔值(例如,用户可配置、系统可配置、关于音频内容 中的D[ t ]的过去值分布设定,等等)。
[0182] 在一些实施例中,编码器(150)被配置为检测D[t](例如,在特定的t处等)高于Dmin 时的听觉事件边界(例如,特定t等)。
[0183] 在一些实施例中,运里描述的解码器(例如,100等)从编码的音频信号(例如,102 等)提取ASA参数,并且使用ASA参数W防止导致听觉事件的感觉崎变的柔声的无意的升压 和/或大声的无意切割。
[0184] 解码器(100)可被配置为通过确保在听觉事件内增益更接近恒定并且通过将许多 的增益改变约束到听觉事件边界的附近来减少或防止听觉事件的无意崎变。例如,解码器 (100)可被配置为响应听觉事件边界处的起音(例如,响度水平增加等)中的增益变化使用 相对小的时间常数(例如,与听觉事件的最小持续期相当或者比其短等)。因此,可相对迅速 地通过解码器(100)实现起音中的增益变化。另一方面,解码器(100)可被配置为响应听觉 事件中的释放(例如,响度水平减小等)的增益变化相对于听觉事件的持续期使用相对长的 时间常数。因此,可相对慢地通过解码器(100)实现释放的增益变化,使得应当表现恒定或 者逐渐衰减的声音不可听或者在感觉上受到干扰。听觉事件边界处的起音中的迅速响应和 听觉事件中的释放的慢速响应允许快速感觉到听觉事件的到达,并且保持听觉事件中的感 觉质量和/或完整性一包含通过特定响度水平关系和/或特定时间关系链接的大声和柔 声一诸如钢琴弦等。
[0185] 在一些实施例中,解码器(100)使用由ASA参数指示的听觉事件和听觉事件边界W 控制解码器(100)处的特定扬声器配置中的信道中的一个、两个、一些或全部的增益变化。
[0186] 15.响度水平过渡
[0187] 例如,在两个节目之间、在节目与大声商业广告之间等,可出现响度水平过渡。在 一些实施例中,解码器(100)被配置为基于过去的音频内容(例如,从编码音频信号102接 收,过去4秒等)保持瞬时响度水平的直方图。在从响度水平过渡之前到响度水平过渡之后 的时间间隔上,具有变高的概率的两个区域可在直方图中被记录。区域中
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1