高阶高保真度立体声响复制音频数据的数据结构的制作方法

文档序号:7885913阅读:693来源:国知局
专利名称:高阶高保真度立体声响复制音频数据的数据结构的制作方法
技术领域
本发明涉及一种高阶高保真度立体声响复制(Ambisonics)音频数据的数据结构,其包括二维和/或三维空间音频内容数据,并且也适用于具有大于’ 3’阶的高阶高保真度立体声响复制(Higher Order Ambisonics (HOA))音频数据。
背景技术
3D音频可以通过被称为如下所述的高阶高保真度立体声响复制(HOA)的技术使用声场描述来实现。存储HOA数据需要一些协定和约定,其约定特定解码器必须如何使用该数据才能够创建用于在给定再现扬声器设置上进行重播的扬声器信号。没有现有的存储格式定义HOA的所有这些约定。例如在2009年3月30日在Martin Leese^FileFormat for B-Format",http://www.ambisonia.com/Members/etienne/Members/mleese/f ile-format-for-b-format中描述的(基于可扩展‘Riff/wav’结构)的B-格式及其*.amb文件格式实现是当今可用的最复杂的格式。在2010年7月16日,在高保真度立体声响复制交换站点(AmbisonicsXchange Site) 上在"Existing formats", http://ambisonics.1em.at/xchange/format/existing-formats中公开了现有文件格式的概述,并且在该站点上在"Afirst proposal to specify, define and determine the parameters for anAmbisonics exchange format", http://ambisonics.1em.at/xchange/format/a~first-proposal-for-the-format中还公开了对于高保真度立体声响复制交换格式的建议。

发明内容
关于HOA信号,对于3D,可以全部记录(编码)以相同频率从不同声源采集M=(N十I)2个(对于2D是(2 N+1)个)不同的音频对象,并且将其再现为不同的声音对象,假设他们是均匀空间分布的。这意味着,I阶高保真度立体声响复制信号可以携带四个3D或三个2D音频对象,并且这些对象需要围绕着3D的球面或者围绕2D的圆均匀分隔开。在记录中空间重叠和多于M个信号将导致模糊,仅仅可以将最大声信号再现为相干对象,而其它弥漫性信号取决于空间上的重叠、频率和响度(loudness)相似度将在一定程度上使相干信号退化。关于电影院中的声学情况,对于前屏幕区域,要求高空间声音定位精度,以便配合视觉场景。环绕声对象的感知较不重要(混响(reverb)、与视觉场景无关的声音对象)。这里,扬声器的密度与前面区域相比可以更小。(与前面区域相关的)HOA数据的HOA阶需要大,以便使得能够选择声音全息(holophonic)重播。典型的阶是N=10。这要求(N+1)2=121个HOA系数。理论上,如果这些音频对象将均匀地空间分布,我们还可以编码M=121个音频对象。但是,在我们的情形下,它们被限制到前面区域(因为我们仅仅在这里需要这样高阶)。实际上,在没有模糊的情况下,我们可能仅仅编码大约M=60个音频对象(前面区域至多是球体方向的一半,因此是M/2)。关于上述B-格式,其使能了仅仅高达3高保真度立体声响复制阶的描述,而文件大小被限制为4GB。其它空间信息丢失,诸如对现代解码器重要的波类型或参考解码半径。不可能对不同的高保真度立体声响复制分量(声道)使用不同的采样格式(字宽度)和带宽。也没有对于存储用于高保真度立体声响复制的辅助信息和元数据的标准化。在现有技术中,使用麦克风阵列记录高保真度立体声响复制信号被限制为一阶。如果将开发HOA麦克风的试验原型,这将在将来改变。对于3D内容的创建,可以在一阶高保真度立体声响复制下使用麦克风阵列来记录环境声场的描述,由此方向性源可以被使用特写单声道(closed-up mono)麦克风或者高方向性麦克风与方向性信息一起(即该源的位置)来捕捉。然后,方向性信号可以被编码为HOA描述,或者这可以由复杂解码器执行。无论如后,需要新的高保真度立体声响复制文件格式能够一次存储多于一个声场描述,但是没有现有格式能够封装多于一个高保真度立体声响复制描述。本发明要解决的问题是提供一种高保真度立体声响复制文件格式,其能够一次存储两个或多个声场描述,其中高保真度立体声响复制阶可以大于3。通过权利要求1中公开的数据结构以及权利要求12中公开的方法来解决该问题。为了创建逼真的3D音频,下一代高保真度立体声响复制解码器将要求处理大量协定和约定以及存储数据,或者可以相干地存储所有相关参数和数据元素的单文件格式。空间声音内容的发明性文件格式可以存储一个或多个HOA信号、以及/或者方向性的单声道信号和方向性信息,其中高保真度立体声响复制阶大于3以及文件大于4GB是可行的。此外,发明性文件格式提供了现有格式没有提供的附加元素:I)在该文件格式中存储了下一代HOA解码器所需的重要信息:一高保真度立体声响复制波信息(平面、球面、混合类型)、感兴趣区域(收听区域外部的源或收听区域内的源)、以及(用于球面波解码的)参考半径一可以存储相关的方向性的单声道信号。可以使用角度和距离信息、或者使用高保真度立体声响复制系数的编码矢量来描述这些方向性信号的位置信息。2)在辅助信息中包含定义高保真度立体声响复制数据的所有参数,以便确保记录清楚:一高保真度立体声响复制缩放和规范化(SN3D、N3D、福尔斯马勒姆(FurseMalham)、B格式、…、用户定义)、混合阶信息。3)扩展高保真度立体声响复制数据的存储格式以允许灵活且经济地存储数据:一发明性的格式允许利用不同的PCM-字大小的分辨率并且使用限制的带宽来存储与高保真度立体声响复制阶(高保真度立体声响复制声道)相关的数据。4)元字段允许存储关于文件的附属信息(如用于麦克风信号的记录信息):一记录参考坐标系、麦克风、源和虚拟收听者位置、麦克风方向性特性、房间和源信息。用于2D和3D音频内容的该文件格式覆盖高阶高保真度立体声响复制描述(HOA)以及具有固定或时变位置的单源的 存储,并且包含使得下一代音频解码器能够提供逼真的3D音频的所有信息。
使用适当设置,发明性的文件格式还适用于音频内容的流传输。因此,可以在文件创建者选择的时间实例处发送依赖于内容的辅助信息(头部数据)。发明性文件格式也用作场景描述,其中音频场景的音轨可以在任何时间处开始和结束。原理上,发明性的数据结构适用于高阶高保真度立体声响复制HOA音频数据,其数据结构包括用于一个或多个不同HOA音频数据流描述的2D和/或3D空间音频内容数据,并且其数据结构也适用于具有大于’ 3’阶的HOA音频数据,另外其数据结构可以包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据。原理上,发明性的方法适用于音频呈现,其中接收包含至少两个不同HOA音频数据信号的HOA音频数据流,并且在具有位于呈现点的不同区域处的密集扬声器布置的情况下至少将其中的第一个用于呈现,并且在具有环绕所述呈现点的低密集扬声器布置的情况下至少将其中的至少第二个和不同的一个用于呈现。在各从属权利要求中公开了本发明的其它有利实施例。


参考附图描述本发明的实例实施例,在附图中:图1是在前面区域具有密集扬声器布置而围绕收听区域具有稀疏扬声器密度的电影院中的声音全息再现;图2是复杂的解码系统;图3是从麦克 风阵列记录、单源记录、简单和复杂声场生成的HOA内容创建;图4是下一代浸入式内容创建;图5是简单环绕扬声器设置的HOA信号的2D解码、以及前面阶段的声音全息扬声器设置以及更稀疏3D环绕扬声器设置的HOA信号的3D解码;图6是内部域问题,其中源在感兴趣区域/有效区域外部;图7是球面坐标的定义;图8是外部域问题,其中源在感兴趣区域/有效区域内部;图9是简单示例的HOA文件格式;图10是包含多帧和多音轨的HOA文件的示例;图11是具有多个元数据块(MetaDataChunk)的HOA文件;图12是音轨区域编码处理;图13是音轨区域解码处理;图14是使用MDCT处理降低带宽的实现;图15是使用MDCT处理重构带宽的实现。
具体实施例方式随着3D视频的日益蔓延,浸入式的音频技术正在成为用以区分的有趣特征。高阶高保真度立体声响复制(HOA)是这些能够提供以增量方式将3D音频引入到电影院中的方法的技术之一。使用HOA声音音轨和HOA解码器,电影院可以以现有的音频环绕扬声器设置开始并且逐步投入更多扬声器,逐步提高浸入式体验。图1a示出了在前面区域具有密集扬声器布置11而围绕收听或座位区域10具有稀疏扬声器密度12的电影院中的声音全息再现,提供了精确再现与视觉动作相关的声音以及足够精确再现所再现的环境声音的方法。图1b示出了所再现的前面声波到达的感知方向,其中平面波到达的方向匹配不同的屏幕位置,即平面波适用于再现深度。图1c示出了所再现的球面波到达的感知方向,其导致所感知的声音方向和围绕屏幕的3D视觉动作的更高一致度。由于在电影院中主视觉动作在收听者的前面区域中发生的事实,引起了对两种不同的HOA流的需要。而且,对于前面声源的检测声音方向的感知精度比对于环绕源的检测声音方向的感知精度要高。因此,前面空间声音再现的精度需要比用于所再现的环境声音的空间精度高。对于前面屏幕区域要求用于声音再现的声音全息部件、大量扬声器、专用解码器和相关扬声器驱动器,而对于环境声音再现需要更低成本的技术(环绕收听区域的较低密度的扬声器、以及更不完美的解码技术)。由于内容创建和声音再现技术,有利的是为环境声音提供一个HOA再现并且为前景动作声音提供一个HOA再现,参见图4。使用简单设置以及简单的稀疏再现声音装备的电影院可以在解码之前混合两个流(参见图5上部分)。装备有完全浸入式再现部件的更复杂的电影院可以使用两个解码器,一个用于解码环境声音,而另一个专用解码器用于前景主动作的虚拟声源的高精度定位,如在图2的复杂解码系统以及图5下部分中示出的。具体HOA文件包含至少两个音轨,其呈现用于环境声音以及用于与虚拟主
动作相关的前面声音CnmOr)的HOA声场。 可以提供用于方向性效果的可选流。两个对应的解码器系统与声像调节器(panner)—起提供用于密集的前面3D声音全息扬声器系统21和较低密集的(即稀疏的)3D环绕系统22的信号。音轨I流的HOA数据信号呈现环境声音,并且在HOA转换器231中被转换以输入到专用于环境再现的解码器I (232)。对于音轨2数据流,HOA信号数据(与虚拟场景相关的前面声音)在HOA转换器241中被转换以输入到距离校正(方程(26))滤波器242,以便以专用解码器2 (243)围绕屏幕区域更好地放置球面声音源。方向性的数据流被直接声像调节(pan)到L扬声器。三个扬声器信号被PCM混合以便利用3D扬声器系统进行联合再现。看上去没有已知的文件格式专用于这样的情形。已知的3D声场记录使用具有相关声音音轨的完整场景描述,或者在存储以用于稍后再现时使用单声音场描述。第一类的示例是WFS (波场合成)格式和各种容器格式。第二类的示例是像B或AMB格式的高保真度立体声响复制格式,参见上述文章“File Format for B-Format”。后者限于高保真度立体声响复制阶为三、固定传输格式、固定解码器型号和单声音场。HOA内容创建和再现在图3中描绘了生成HOA声音唱描述的处理。在图3a中,通过使用麦克风阵列来创建声音场的自然记录。采集信号(capsulesignal)被矩阵化和均衡化,以便形成HOA信号。高阶信号(高保真度立体声响复制阶>1)通常被带通滤波以降低由于采集距离效应引起的伪像,被低通滤波以降低高频处的空间混声(spatial alias),被高通滤波以在增加高保真度立体声响复制阶nhn(krd_mi。)的情况下降低额外的低频电平,参见方程(34)。可选地,可以应用距离编码滤波,参见方程(25)和
(27)。在存储之前,HOA格式信息被添加到音轨头部。通常使用多个方向性的单源流来创建人工声音场再现。如图3b中所示,可以将单源信号捕获为PCM记录。这可以通过特写(close-up)麦克风进行或者通过使用具有高方向度的麦克风进行。另外,记录声音源相对于虚拟最佳收听位置的方向性参数(rs,0s, φ3)(HOA坐标系,或者用于稍后映射的任何参考点)。当呈现电影场景时,还可以通过人工地放置声音来创建距离信息。如图3c中所示,然后使用方向性信息( s,Φ3)来创建编码矢量Ψ,将方向性的源信号编码为高保真度立体声响复制信号,参见方程(18)。这等效于平面波再现。拖尾滤波处理可以使用距离信息来将球面源特征印记到高保真度立体声响复制信号(方程(19))中,或者应用距离编码滤波(方程(25) (27))。在存储之前,HOA格式信息被添加到首轨头部。如图3d中所描绘的,通过HOA混合高保真度立体声响复制信号,生成更复杂的波场描述。在存储之前,HOA格式信息被添加到音轨头部。在图4中描绘了用于3D电影院的内容生成的处理。利用高空间精度编码与视频动作相关的前面声音,并且将其与HOA信号(波场)Cf (t)混合并存储为音轨2。所包含的编码器以高空间精度和最佳匹配视频场景所需的特定波类型来进行编码。音轨I包含声场
其与所编码的环境声音相关而不限制源方向。通常,环境声音的空间精度不需要与
前面声音的空间精度那样高(因此,高保真度立体声响复制阶可以更小),并且波类型的建模将更不重要。环境声音场还可以包括前面声音信号的回响(reverberant)部分。两个音轨被多路复用以便存储和/或交换。可选地,可以将方向性的声音(例如,音轨3)多路复用到文件。这些声音可以是特殊效果的声音、对话或运动信息(像用于视觉障碍的叙事演讲)。图5示出了解码的原理。如上部分所描绘的,在简化的HOA解码之间,具有稀疏扬声器设置的电影院可以将来自音轨I和音轨2的两个HOA信号混合,并且可以截断音轨2的阶并且将两个音轨的维度降低为2D。在出现方向性的流的情况下,将其编码为2D Η0Α。然后,所有三个流被混合以形成单HOA表示,其然后被解码并再现。下部分对应于图2。装备有用于前面阶段的声音全息系统和稀疏的3D环绕系统的电影院将使用专用的复杂解码器,并且混合扬声器供给。对于音轨I数据流,表示环境声音的HOA数据被转换到专用于再现环境的解码器I。对于音轨2数据流,HOA (与视觉场景相关的前面声音)被转换并且被距离校正(方程(26))以便用于更好地围绕屏幕区域放置球面声音源以及用于专用解码器2。方向性的数据流被直接声像调节到L扬声器。三个扬声器信号被PCM混合以便利用3D扬声器系统进行联合再现。使用高阶高保真度立体声响复制的声音场描述使用球面谐波(SH)的声音场描述当使用球面谐波/贝塞尔描述时,在方程(I)中提供了声波方程的解,参见M.A.Polettij" Three-dimensional surround sound systems based on sphericalharmonics'Journal of Audio Engineering Society, 53(11), pp.1004 - 1025,2005 年 11月、以及 Earl G.Williams,"Fourier Acoustics",Academic Press, 1999 年。声压是球面坐标I*,Θ,Φ (对于其定义请参见图7)和空间频率的函数
, ut inj
JL" -ZZ — 1ΣΖ.............................f4 σ该描述对于感兴趣区域或有效区域外部的音频声音源有效(内部域问题,如图6所示),并且假设正交规范化的球面谐波:
权利要求
1.一种高阶高保真度立体声响复制HOA音频数据的数据结构,包括高保真度立体声响复制系数,该数据结构包括用于一个或多个不同HOA音频数据流描述的2D和/或3D空间音频内容,并且该数据结构也适用于具有大于’ 3’阶的HOA音频数据,该数据结构另外还包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据, 其中,所述不同HOA音频数据流描述与不同扬声器位置密度、编码的HOA波类型、HOA阶和HOA维度中的至少两个有关, 以及其中,一个HOA音频数据流描述包含用于具有位于呈现位置(10)的不同区域处的密集扬声器布置(11,21)的呈 现的音频数据,另一 HOA音频数据流描述包含用于具有环绕所述呈现点(10)的不太密集扬声器布置(12,22)的呈现的音频数据。
2.如权利要求1所述的数据结构,其中,用于所述密集扬声器布置(11,21)的所述音频数据表示球面波和第一高保真度立体声响复制阶,用于所述不太密集扬声器布置(12,22)的所述音频数据表示平面波和/或小于所述第一高保真度立体声响复制阶的第二高保真度立体声响复制阶。
3.如权利要求1或2所述的数据结构,其中,所述数据结构充当场景描述,其中,音频场景的音轨可以在任何时间开始或结束。
4.如权利要求1到3之一所述的数据结构,其中,所述数据结构包括关于以下的数据项: 一与收听区域外部或内部的音频源有关的感兴趣区域; 一球形基函数的规范化; 一传播方向性; 一高保真度立体声响复制系数缩放信息; 一高保真度立体声响复制波类型,例如平面或球面 一在球面波情况下,用于解码的参考半径。
5.如权利要求1到4之一所述的数据结构,其中,所述高保真度立体声响复制系数是复数系数。
6.如权利要求1到5之一所述的数据结构,其中,所述数据结构包括关于用于一个或多个麦克风的方向和特性的元数据,并且/或者包括用于单源输入信号的至少一个编码矢量。
7.如权利要求1到6之一所述的数据结构,其中,所述高保真度立体声响复制系数的至少部分被带宽降低,从而对于不同的HOA阶,相关的高保真度立体声响复制系数的带宽是不同的(1221-122N)。
8.如权利要求7所述的数据结构,其中,所述带宽降低基于MDCT处理(1431-143M)。
9.一种根据如权利要求1到8之一所述的数据结构的编码和排列数据的方法。
10.一种音频呈现方法,其中,接收包含至少两个不同HOA音频数据信号的HOA音频数据流,并且使用(231,232)它们中的至少第一流来利用位于呈现点(10)的不同区域处的密集扬声器布置(11,21)进行呈现,使用(241,242,243)它们中的至少第二流和不同流来利用环绕所述呈现点(10)的不太密集扬声器布置(12,22)进行呈现。
11.如权利要求10所述的方法,其中,用于所述密集扬声器布置(11,21)的所述音频数据表示球面波和第一高保真度立体声响复制阶,用于所述不太密集扬声器布置(12,22)的所述音频数据表示平面波和/或小于所述第一高保真度立体声响复制阶的第二高保真度立体声响复制阶。
12.如权利要求1或2的数据结构,或者如权利要求10或11所述的方法,其中,所述呈现点是电影院中的收听区域或座位区域。
13.一种被适配为执 行如权利要求10或11所述的方法的装置。
全文摘要
本发明涉及一种高阶高保真度立体声响复制HOA音频数据的数据结构,该数据结构包括用于一个或多个不同HOA音频数据流描述的2D或3D空间音频内容。HOA音频数据具有大于'3'的阶,该数据结构另外还包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据。
文档编号H04S3/00GK103250207SQ201180053153
公开日2013年8月14日 申请日期2011年10月26日 优先权日2010年11月5日
发明者F.基勒, S.科登, J.贝姆, H.克罗普, J-M.巴特克 申请人:汤姆逊许可公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1