相对于球面谐波系数执行空间掩蔽的制作方法_3

文档序号:9493769阅读:来源:国知局
例中,将音频编码装置10的所述变化表示为"音频编码装置11"。音频编码装置11可类似 于音频编码装置10,因为音频编码装置11也包含时频分析单元12、音频渲染单元14、音频 编码单元16和空间分析单元18。然而,不同于对SHC20A操作,音频编码装置11的空间分 析单元18可处理声道22,以识别空间参数26 (其可包含空间掩蔽阈值)。在这方面中,音 频编码装置11的空间分析单元18可在声道域而不是空间域中执行空间分析。
[0069] 以此方式所述技术可使音频编码装置11能够渲染以三维形式描述音频的声场的 多个球面谐波系数20B,以产生多声道音频数据(其在图4B的实例中示出为声道22)。音 频编码装置11可接着相对于所述多声道音频数据执行空间分析,以识别空间掩蔽阈值,且 基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据,以产生位流。
[0070] 在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值,为多 声道音频数据的基于时间的表示或多声道音频数据的基于频率的表示分配位流中的位。
[0071] 在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值和时间 掩蔽阈值,为多声道音频数据的基于时间的表示或多声道音频数据的基于频率的表示分配 位流中的位。
[0072] 在一些情况下,当压缩音频数据时,音频编码装置11可相对于多声道音频数据执 行参数声道间音频编码(例如MPEG环绕音频编码),以产生位流。
[0073] 在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值分配用 于表示多声道音频数据的位,以产生位流。
[0074] 在一些情况下,音频编码装置11可将多声道音频数据从空间域变换到时域。当压 缩音频数据时,音频编码装置11可接着基于空间掩蔽阈值来分配用于表示经变换的多声 道音频数据的各种频段的位,以产生位流。
[0075]图5是说明可执行本发明中描述的技术的各个方面以解码描述二维或三维声场 的球面谐波系数的实例音频解码装置10的框图。音频解码装置30通常表示能够解码音频 数据的任何装置,例如桌上型计算机、膝上型计算机、工作站、平板或板状计算机、专用音频 记录装置、蜂窝式电话(包含所谓的"智能电话")、个人媒体播放机装置、个人游戏装置或 能够解码音频数据的任何其它类型的装置。
[0076] -般来说,音频解码装置30执行与音频编码装置10所执行的编码过程互反的音 频解码过程,执行空间分析除外,空间分析通常由音频编码装置10用来促进外来不相关数 据(例如话将被掩蔽或不能被人类听觉系统察觉的数据)的移除。换句话说,音频编码装 置10可能降低音频数据表示的精确度,因为典型的人类听觉系统可能不能够辨别这些区 域(例如"掩蔽"区域,在时间上且如上所述在空间上)中缺乏精确度。在假定此音频数据 不相关的情况下,音频解码装置30无需执行空间分析来重新插入此类外来音频数据。
[0077] 虽然示出为单个装置,即图5的实例中的装置30,但下文参考为包含在装置30内 的各种组件或单元可形成在装置30外部的单独裝置。换句话说,虽然本发明中描述为由单 个装置(即,在图5的实例中的装置30)执行,但所述技术可由包括多个装置的系统实施或 另外执行,其中这些装置中的每一者可各自包含下文更详细地描述的各种组件或单元中的 一或多者。因此,所述技术不应限于图5的实例。
[0078] 如图5的实例中示出,音频解码装置30包括音频解码单元32、逆音频渲染单元 34、逆时频分析单元36和音频渲染单元38。音频解码单元16可表示经配置以执行某一形 式的音频解码以解压缩位流24来恢复声道22的单元。在一些实例中,音频解码单元32可 包含符合已知空间音频编码标准(例如MPEGSAC或MPEGACC)的音频解码器的经修改版 本。
[0079] 逆音频渲染单元34可表示经配置以执行与音频编码装置10的音频渲染单元14 所执行的渲染过程相反的渲染过程,以恢复SHC20B。逆音频渲染单元34可应用上文所述 的逆变换矩阵R1。或者,当SHC20A未经变换以产生SHC20B时,逆音频渲染单元34可表 示经配置以通过逆矩阵R1的应用来从声道22渲染SHC20A的单元。处于上述原因,在一 些情况下,逆音频渲染单元34可从对应于布置成密集T设计的32个扬声器的32个声道渲 染SHC20B。
[0080] 逆时频分析单元36可表示经配置以执行球面谐波系数(SHC) 20B的逆时频分析以 便将SHC20B从频域变换到时域的单元。逆时频分析单元36可输出SHC20A,其可表示如 在时域中表达的SHC20B。尽管相对于逆时频分析单元36来描述,但可相对于时域中的SHC 20A来执行而不是相对于频域中的SHC20B来执行所述技术。
[0081] 音频渲染单元38表示经配置以渲染声道40A到40N( "声道40",其还可通常被称 作"多声道音频数据40"或"扩音器馈送40")的单元。音频渲染单元38可将变换(常以 矩阵的形式来表达)应用于SHC20A。因为SHC20A以三维形式描述声场,所以SHC20A以 能够适应大多数解码器局部扬声器几何结构(其可指将重放多声道音频数据40的扬声器 的几何结构)的方式来表示促进多声道音频数据40的渲染的音频格式。此外,通过将SHC 20A渲染到用于音频编码装置10处布置成密集T设计的32个扬声器的声道,所述技术在解 码器处提供充分的音频信息(呈SHC20A的形式),以使音频渲染单元38能够使用解码器 局部扬声器几何结构,以充分的保真度和准确性来再现所捕获的音频数据。下文相对于图 8描述关于多声道音频数据40的渲染的更多信息。
[0082] 在操作中,音频解码装置30可调用音频解码单元32来解码位流24,以产生具有 对应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据22。此第 一扬声器几何结构可包括上文所述的密集T设计,其中作为一个实例,扬声器的数目可为 32。虽然在本发明中描述为包含32个扬声器,蛋密集T设计扬声器几何结构可包含64个 或128个扬声器,以提供几个替代实例。音频解码装置30可接着调用逆音频渲染单元34 来相对于所产生的第一多声道音频数据22执行逆渲染过程,以产生SHC20B(当执行时频 变换时)或SHC20A(当不执行时频分析时)。当音频编码装置10执行时频分析时,音频解 码装置30还可调用逆时频分析单元36来将SHC20B从频域变换回到时域,从而产生SHC 20A。在任何情况下音频解码装置30可接着基于经编码-解码的SHC20A来调用音频渲染 单元38,以渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道 音频数据40。
[0083] 图6A到6C各自是更详细地说明图4A的实例中所示的音频编码单元16的不同实 例变化的框图。在图4A的实例中,音频编码单元16包含环绕声编码器50A到50N( "环绕 声编码器50")和音频编码器52A道52N( "音频编码器52")。环绕声编码器50中的每一 者可表示经配置以执行某一形式的音频环绕声编码来编码多声道音频数据以便产生多声 道音频数据的环绕声音经编码版本(其可被称为环绕声音音频经编码多声道音频数据)的 单元。音频编码器52中的每一者可表示经配置以对环绕声音音频经编码多声道音频数据 进行音频编码以产生位流24A(其可指图4A的实例中所示的位流24的一部分)的单元。
[0084] 环绕声编码器50中的每一者可执行上文所参考的MPEG环绕声的经修改版本,以 编码多声道音频数据。此经修改版本可表示基于空间分析模块18(图1的实例中所示)所 确定的空间特性26来编码多声道音频数据22的MPEG环绕声的版本。环绕声编码器50中 的每一者可包含空间参数估计单元54A到54N( "空间参数估计单元54")中的对应一者。 音频编码器52中的对应一者可详细编码声道22的对应子集中的一个声道。然而,在详细 编码声道22的对应子集中的此一个声道之前,相应的空间参数估计单元54中的每一者可 相对于声道22的对应子集中的所述一个声道来编码声道22的对应子集中的其余声道。就 是说,空间参数估计单元54中的每一者可确定或,在一些情况下,估计反映声道22的对应 子集中的一个声道与声道22的对应子集中的其余声道之间的差异的空间参数。这些空间 参数可包含声道间层级、声道间时间和声道间相关,提供几个实例。空间参数估计单元54 可各自输出这些空间参数作为位流24B(其再次可表示图4A的实例中所示的位流24的一 部分)。
[0085] 在一些情况下,空间参数估计单元54可各自经修改以至少部分地基于空间分析 单元18所确定的空间特性26,来确定这些空间参数。为了说明,空间参数估计单元54中 的每一者可计算声道之间的增量或差异,且从而基于空间特性26来确定空间参数(其可包 含声道间层级、声道间时间和声道间相关)。举例来说,基于空间特性26,空间参数估计单 元54可确定用以指定空间参数的准确性(或换句话说,当不存在大量能量时,如何粗略地 量化参数)。
[0086] 在任何情况下环绕声编码器50中的每一者将声道22的对应子集中的一个声道输 出到音频编码器52中的对应一者,其将声道22的对应子集中的此一个声道编码为单声道 音频信号。就是说,音频编码器52中的每一者表示单声道听觉音频编码器52。音频编码器 52可包含熵编码器56A到56N( "熵编码器56")中的对应一者。熵编码器56中的每一者 可执行一种形式的无损统计译码(其通常由误称"熵编码"指代),例如霍夫曼译码,以编码 声道22的对应子集中的一个声道。在一些情况下,熵编码器56可各自基于空间特性26来 执行此熵译码。熵编码器56中的每一者可输出多声道音频数据的经编码版本,其可与多声 道音频数据的其它经编码版本以及空间参数24B多路复用,以形成位流24。
[0087] 在图6B的实例中,并非音频编码器52中的每一者包含单独的熵编码器56,而是 音频编码单元16包含单个熵编码器56,其对音频编码器52的输出中的每一者进行熵编码 (其也可被称作"统计无损译码")。在几乎所有其它方面,图6B的实例中所示的音频编码 单元16可类似于图6C的实例中所示的音频编码单元16。虽然图6B的实例中未图示,但音 频编码单元16可包含混频器或混频单元,以合并或以其它方式组合音频编码器52中的每 一者的输出,以形成单个位流,熵编码器56可对其执行统计无损译码,以压缩此位流,且形 成位流24A。
[0088] 在图6C的实例中,音频编码单元16包含音频编码器52A到52N,其不包含熵编码 器56。图6C的实例中所示的音频编码单元16不包含用于编码音频数据的任何形式的熵编 码。实情为,此音频编码单元16可执行本发明中描述的空间掩蔽技术。在一些情况下,图 6C的音频编码装置16仅执行掩蔽(在时间上或空间上,或在时间和空间两者上,如下文更 详细地描述),而不执行任何形式的熵编码。
[0089] 图7是更详细地说明图5的音频解码单元32的实例的框图。首先参看图7的实 例,音频解码单元32的第一变化包含音频解码器70A到70N( "音频解码器70")以及环绕 声解码器72A到72N( "环绕声解码器72")。音频解码器70中的每一者可执行与上文相 对于图6A的实例所述的音频编码器50所执行的过程互反的单声道听觉音频解码过程。尽 管图7的实例中为了便于说明的目的而未图示,但音频解码器70中的每一者可包含熵解码 器,或不类似于熵编码单元16的上文相对于图6A到6C所述的变化。音频解码器70中的 每一者可接收位流24的相应部分,在图7的实例中表示为部分24A,妾解码部分24A中的相 应一者,以输出声道22的对应子集中的一个声道。可使用多路分用器来对位流24的部分 24A和位流24的部分24B进行多路分用,为了便于说明的目的,所述多路分用器在图7的实 例中未示出。
[0090] 环绕声解码器72A可表示经配置以基于表示为位流部分24B的空间参数来重新和 成声道22的对应子集中的其余声道的单元。环绕声解码器72可各自包含声音合成单元 76A到76N( "声音合成单元76")中的对应一者,其接收声道22的对应子集中的经解码声 道,以及这些空间参数。基于所述空间参数,声音合成单元76中的每一者可重新合成声道 22的对应子集中的其余声道。以此方式,音频解码单元32可解码位流24,以产生多声道音 频数据22。
[0091] 图8是更详细地说明图5的实例中所示的音频解码单元32的音频渲染单元38的 框图。一般来说,图8说明从SHC20A到与解码器局部扬声器几何结构兼容的多声道音频 数据40的转换。对于一些局部扬声器几何结构(其可再次指代在解码器处的扬声器几何 结构),确保可逆性的一些变换可导致不太合乎需要的音频图像质量。就是说,当正所捕获 的音频相比较时,声音再现可并不总是导致声音的正确
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1