HOA内容的显示屏相关调适的制作方法

文档序号:12515878阅读:533来源:国知局
HOA内容的显示屏相关调适的制作方法与工艺

技术领域

本发明涉及音频数据,并且更具体地说,涉及高阶立体混响音频数据的编码。



背景技术:

高阶立体混响(HOA)信号(往往由多个球面谐波系数(SHC)或其它层级元素表示)为声场的三维表示。所述HOA或SHC表示可以以与用于重放从SHC信号呈现的多声道音频信号的本地扬声器几何布置无关的方式表示所述声场。所述SHC信号也可促进向后兼容性,因为所述SHC信号可被呈现为众所周知的且被广泛采用的多声道格式(例如,5.1音频声道格式或7.1音频声道格式)。因此,所述SHC表示可实现也适应向后兼容性的对声场的更好表示。



技术实现要素:

一般来说,描述用于编码高阶立体混响音频数据的技术。高阶立体混响音频数据可包括与具有大于一的阶数的球面谐波基函数对应的至少一个高阶立体混响(HOA)系数。本发明描述用于调整HOA声场以在混合音频/视频再现情形中潜在改善声波元素与可视分量的空间对准的技术。

在一个实例中,用于呈现高阶立体混响(HOA)音频信号的装置包括一或多个处理器,其被配置成基于参考显示屏的一或多个视场(FOV)参数和观看窗的一或多个FOV参数在一或多个扬声器上呈现所述HOA音频信号。

在另一实例中,呈现高阶立体混响(HOA)音频信号的方法包括基于参考显示屏的一或多个视场(FOV)参数和观看窗的一或多个FOV参数在一或多个扬声器上呈现所述HOA音频信号。

在另一实例中,用于呈现高阶立体混响(HOA)音频信号的设备包括用于接收所述HOA音频信号的装置,和用于基于参考显示屏的一或多个视场(FOV)参数和观看窗的一或多个FOV参数在一或多个扬声器上呈现所述HOA音频信号的装置。

在另一实例中,计算机可读存储媒体存储指令,在由一或多个处理器执行时,所述指令致使所述一或多个处理器呈现高阶立体混响(HOA)音频信号,包含基于参考显示屏的一或多个视场(FOV)参数和观看窗的一或多个FOV参数在一或多个扬声器上呈现所述HOA音频信号。

在附图和以下描述中阐述所述技术的一或多个方面的细节。所述技术的其它特征、目标和优点将从描述和附图以及权利要求而显而易见。

附图说明

图1为说明具有各种阶数和子阶数的球面谐波基函数的简图。

图2为说明可执行本发明中所描述的技术的各种方面的系统的简图。

图3为更详细说明可执行本发明中所描述的技术的各种方面的图2的实例中所示的音频编码装置的一个实例的框图。

图4为更详细说明图2的所述音频解码装置的框图。

图5为说明音频编码装置执行本发明中所描述的基于向量的合成技术的各种方面中的示范性操作的流程图。

图6为说明音频解码装置在执行本发明中所描述的所述技术的各种方面中的示范性操作的流程图。

图7A示出可用于基于参考显示屏大小和观看窗大小将初始方位角映射到修改后的方位角的实例映射函数。

图7B示出可用于基于参考显示屏大小和观看窗大小将初始仰角映射到修改后的仰角的实例映射函数。

图8示出作为第一实例的参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。

图9A和9B示出计算出的HOA效果矩阵的实例。

图10示出效果矩阵如何可被预呈现并施加于扩音器呈现矩阵的实例。

图11示出如果所述效果矩阵可产生高阶内容(例如,6阶),则在该阶中的呈现矩阵如何可被乘法运算以预计算在所述初始阶(在这里,为3阶)中的所述最终呈现矩阵的实例。

图12A示出可用于基于参考显示屏大小和观看窗大小将初始方位角映射到修改后的方位角的实例映射函数。

图12B示出可用于基于参考显示屏大小和观看窗大小将初始仰角映射到修改后的仰角的实例映射函数。

图12C示出计算出的HOA效果矩阵。

图13示出用于作为参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。

图14A示出可用于基于参考显示屏大小和观看窗大小将初始方位角映射到修改后的方位角的实例映射函数。

图14B示出可用于基于参考显示屏大小和观看窗大小将初始仰角映射到修改后的仰角的实例映射函数。

图14C示出计算出的HOA效果矩阵。

图15示出用于作为参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。

图16A示出可用于基于参考显示屏大小和观看窗大小将初始方位角映射到修改后的方位角的实例映射函数。

图16B示出可用于基于参考显示屏大小和观看窗大小将初始仰角映射到修改后的仰角的实例映射函数。

图16C示出计算出的HOA效果矩阵。

图17示出用于作为参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。

图18A示出可用于基于参考显示屏大小和观看窗大小将初始方位角映射到修改后的方位角的实例映射函数。

图18B示出可用于基于参考显示屏大小和观看窗大小将初始仰角映射到修改后的仰角的实例映射函数。

图18C示出计算出的HOA效果矩阵。

图19示出用于作为参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。

图20A-20C为说明被配置成实现本发明的所述技术的音频呈现装置的实例实施方案的框图。

图21为说明音频解码装置在执行本发明中所描述的基于显示屏的调适技术中的实例操作的流程图。

具体实施方式

环绕声的演进现今已使得许多输出格式可用于娱乐。此些消费型环绕声格式的实例大部分为基于“声道”的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含流行的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,以及低频效果(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式和22.2格式(例如,用于与超高清电视标准一起使用)。非消费型格式可以跨越任何数量的扬声器(成对称和非对称几何布置),其往往被称为“环绕阵列”。此阵列的一个实例包含被安置在截角二十面体的拐角上的坐标上的32个扩音器。

至未来MPEG编码器的输入任选地为三个可能格式中的一者:(i)传统的基于声道的音频(如上文所论述),其意图通过在预先指定的位置的扩音器进行播放;(ii)基于对象的音频,其涉及具有包含其位置坐标(除了其它信息之外)的相关联元数据的用于单个音频对象的离散脉冲代码调制(PCM)数据;以及(iii)基于场景的音频,其涉及使用球面谐波基函数的系数(也称为“球面谐波系数”或SHC、“高阶立体混响”或HOA和“HOA系数”)来表示声场。所述未来MPEG编码器可在由国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411在2013年1月在瑞士日内瓦发布的标题为“对3D音频的建议的要求(Call for Proposals for 3D Audio)”的文献中更详细地描述,并且该文献可在网址http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip获得。

在市场中存在各种基于“环绕声”声道的格式。它们的范围(例如)从所述5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到由NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望一次产生电影的音轨,而不花费精力来针对每个扬声器配置对其进行重混。近来,标准开发组织一直在考虑如下方式:将编码提供到标准化位流中,并且提供可调适并对在重放位置处的扬声器几何布置(和数量)和声学状况不可知的后续解码。

为向内容创建者提供此灵活性,可使用层级元素集合来表示声场。所述层级元素集合可指的是其中所述元素被排序以使得低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合被扩展以包含高阶元素时,所述表示变得更详细,从而提高分辨率。

层级元素集合的一个实例为一组球面谐波系数(SHC)。以下表达式示范使用SHC对声场的描述或表示:

所述表达式显示出在时间t在所述声场的任何点的压力pi可以由SHC,唯一表示。在这里,c为音速(~343m/s),为参考点(或观看点),jn(·)为阶n的球面Bessel函数,以及为阶n和子阶m的球面谐波基函数。可认识到,方括号中的项为信号的频域表示(即,),其可以通过各种时频变换,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换来近似。层级集合的其它实例包含小波变换系数集合和多分辨率基函数的系数的其它集合。

视频数据往往结合对应的同步化音频数据来显示,其中,所述音频数据通常被生成为匹配所述视频数据的视角。例如,在示出在餐馆中说话的两个人的特写视角的视频帧期间,所述两个人的对话可相对于在所述餐馆的任何背景噪声,例如其它就餐者的对话、厨房噪声、背景音乐等更响亮和清晰。在示出说话的所述两个人的更远视角的视频帧期间,所述两个人的对话可相对于现在其来源可在所述视频帧中的所述背景噪声较不响亮和较不清晰。

传统上,关于视角的决定(例如,场景的放大和缩小或围绕场景的水平移动)由内容产生者通过具有极少或不具有修改由初始内容产生者选择的所述视角的能力的内容的终端消费者来进行。然而,对于当观看视频时对他们观看的所述视角具有一些控制级别的用户来说,这变得更普遍。作为一个实例,在足球广播期间,用户可接收示出场地的大区段的视频馈源,但是可具有在专用播放器或播放器组上放大的能力。本发明提出用于以匹配对应视频的感知的变化的方式调适音频再现的感知的技术。例如,如果在观看足球比赛时,用户放大四分卫,则所述音频也可被调适以产生放大所述四分卫的音频效果。

用户的视频感知也可根据用于重放视频的显示器的大小来改变。例如,当在10英寸平板计算机上观看电影时,整个显示器可在观看者的中心视觉内,而当在100英寸电视上观看相同电影时,所述显示器的外部可能仅在所述观看者的外围视觉内。本发明提出用于基于被用于对应视频数据的显示器的大小调适音频再现的所述感知的技术。

MPEG-H 3D音频位流包含在内容制作过程期间所使用的参考显示屏大小的信号信息的新位字段。符合MPEG-H 3D的音频解码器(其若干实例将在本发明中描述)也可被配置成确定结合与正被解码的音频对应的视频一起使用的所述显示器装置的实际显示屏大小。因此,根据本发明的所述技术,音频解码器可基于参考显示屏大小和实际显示屏大小调适HOA声场,以便显示屏相关音频内容从视频中示出的相同位置感知。

本发明描述HOA声场如何可以被调整以确保在混合音频/视频再现情形中声波元素与可视分量的空间对准的技术。本发明的技术可被用于帮助形成用于仅HOA内容或用于具有HOA和音频对象(目前仅显示屏相关音频对象被调整)的组合的内容的相干音频/视频体验。

图1为说明从零阶(n=0)到四阶(n=4)的球面谐波基函数的简图。可以看出,对于每个阶,存在子阶m的扩展,其中,为了便于说明目的,子阶m被示出但未在图1的所述实例中明确提到。

SHC可以通过各种麦克风阵列配置以物理方式获取(例如,记录),或另选地,它们可以从所述声场的基于声道或基于对象的描述导出。所述SHC表示基于场景的音频,其中,所述SHC可输入到音频编码器以获得编码的SHC,所述编码的SHC可促成更有效的传输或存储。例如,可使用涉及(1+4)2个(25个,并因此为四阶)系数的四阶表示。

如上所述,可使用麦克风阵列从麦克风记录导出所述SHC。如何可从麦克风阵列导出SHC的各种实例在Poletti,M的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(音频工程学会志(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025页)中描述。

为说明如何可从基于对象的描述导出所述SHC,考虑以下方程式。用于与单独音频对象对应的所述声场的系数可被表示为:

其中,i为为n阶的(第二种的)球面Hankel函数,以及为对象的位置。知道作为频率的函数的对象源能量g(ω)(例如,使用时频分析技术,例如对PCM流执行快速傅里叶变换)允许我们将每个PCM对象和对应位置转换到SHC中。另外,可以示出(由于上述方程式为线性的并且正交分解)用于每个对象的系数为附加的。以此方式,众多的PCM对象可以由所述系数表示(例如,作为用于单独对象的系数向量的总和)。实质上,所述系数包含关于所述声场的信息(作为3D坐标的函数的压力),且上述方程式表示在观看点附近的从单独对象到整个声场的表示的变换。下文在基于对象和基于SHC的音频编码的情形中描述其余各图。

图2为说明可执行本发明中所描述的技术的各种方面的系统10的简图。如图2的实例所示,系统10包含内容创建者装置12和内容消费者装置14。虽然在所述内容创建者装置12和所述内容消费者装置14的情形中描述,但是所述技术可在声场的SHC(其也可被称作HOA系数)或任何其它层级表示被编码以形成表示音频数据的位流的任何情形中实现。此外,所述内容创建者装置12可表示能够实现在本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能电话或台式计算机以提供几个实例。同样,所述内容消费者装置14可表示能够实现在本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能电话、机顶盒或台式计算机以提供几个实例。

所述内容创建者装置12可通过电影工作室或可生成用于由内容消费者装置,例如所述内容消费者装置14的操作者消费的多声道音频内容的其它实体来操作。在一些实例中,所述内容创建者装置12可由希望生成具有压缩HOA系数11的音频信号,并且在所述音频信号中还包含一或多个视场(FOV)参数的个体用户操作。所述内容创建者往往结合视频内容生成音频内容。所述FOV参数可例如描述用于所述视频内容的参考显示屏大小。所述内容消费者装置14可由个人操作。所述内容消费者装置14可包含音频重放系统16,其可指能够呈现SHC以用于作为多声道音频内容的重放的任何形式的音频重放系统。

所述内容创建者装置12包含音频编辑系统18。所述内容创建者装置12获得采用各种格式(包含直接作为HOA系数)的实时记录7和音频对象9,所述内容创建者装置12可使用音频编辑系统18编辑所述实时记录7和音频对象9。麦克风5可捕获所述实时记录7。所述内容创建者可在所述编辑过程期间呈现来自音频对象9的HOA系数11,从而收听所呈现的扬声器馈源以试图识别需要进一步编辑的所述声场的各个方面。所述内容创建者装置12接着可编辑HOA系数11(潜在间接通过与所述音频对象9不同的运算,通过所述运算,可以以上文所述的方式导出源HOA系数)和所述FOV参数13。所述内容创建者装置12可采用所述音频编辑系统18来生成所述HOA系数11和FOV参数13。所述音频编辑系统18表示能够编辑音频数据并输出作为一或多个源球面谐波系数的所述音频数据的任何系统。

当所述编辑过程完成时,所述内容创建者装置12可基于所述HOA系数11生成音频位流21。也就是说,所述内容创建者装置12包含音频编码装置20,其表示被配置成根据在本发明中描述的所述技术的各种方面编码或以其它方式压缩HOA系数11以生成所述音频位流21的装置。音频编码装置20可在位流21中包含用于用信号传送FOV参数13的值。作为一个实例,所述音频编码装置20可生成用于跨传输信道传输的所述音频位流21,所述传输信道可为有线或无线信道、数据存储装置等。所述音频位流21可表示所述HOA系数11的编码版本,并且可包含主位流和另一侧位流,所述另一侧位流可被称为侧声道信息。在一些实例中,音频编码装置20可包含在所述侧信道中的FOV参数13,而在其它实例中,音频编码装置20可包含在别处的FOV参数13。在另外其它实例中,音频编码装置20可不编码FOV参数13,并且代替地,音频重放系统16可向FOV参数13'分配默认值。

虽然在图2中被示为直接传送至所述内容消费者装置14,但是所述内容创建者装置12可向被安置在所述内容创建者装置12和所述内容消费者装置14之间的中间装置输出所述音频位流21。所述中间装置可存储所述音频位流21以用于以后传递至可能请求所述位流的所述内容消费者装置14。所述中间装置可包括文件服务器、万维网服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储所述音频位流21以用于音频解码器以后检索的任何其它装置。所述中间装置可驻留在能够将所述音频位流21串流(且可能结合传送对应的视频数据位流)到请求所述音频位流21的订户,例如所述内容消费者装置14的内容传递网络中。

另选地,所述内容创建者装置12可将所述音频位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频盘或其它存储媒体,大多数存储媒体能够由计算机读取并因此可被称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此情形中,所述传输信道可指借以传送被存储到所述媒体的内容的所述信道(且可包含小量存储和其它基于存储的传送机制)。因此,在任何情况下,本发明的所述技术不应就此而言受图2的实例限制。

内容创建者装置12可另外被配置成生成和编码视频数据23,而内容消费者装置14可被配置成接收和解码视频数据23。视频数据23可与音频位流21相关联并随着所述音频位流21传送。就此而言,内容创建者装置12和内容消费者装置14可包含未在图2中明确示出的另外硬件和软件。内容创建者装置12可例如包含用于获取视频数据的摄像头、用于编辑所述视频数据的视频编辑系统和用于编码所述视频数据的视频编码器,以及内容消费者装置14也可包含视频解码器和视频呈现器。

如图2的实例中进一步所示,所述内容消费者装置14包含所述音频重放系统16。所述音频重放系统16可表示能够重放多信道音频数据的任何音频重放系统。所述音频重放系统16可包含多个不同的呈现器22。所述呈现器22可各自提供不同形式的呈现,其中所述不同形式的呈现可包含执行基于向量的振幅平移(VBAP)的各种方式中的一或多者和/或执行声场合成的各种方式中的一或多者。如本文所使用,“A和/或B”意味着“A或B”或“A和B”两者。

所述音频重放系统16可另外包含音频解码装置24。所述音频解码装置24可表示被配置成对来自所述音频位流21的HOA系数11'和FOV参数13'进行解码的装置,其中,所述HOA系数11'可类似于所述HOA系数11,但由于经由所述传输信道的有损操作(例如,量化)和/或传输而有所不同。相比之下,FOV参数13可被无损地编码。所述音频重放系统16可在解码所述音频位流21之后获得所述HOA系数11',并呈现所述HOA系数11'以输出扩音器馈源25。如将在下文更详细地阐释,音频重放系统16呈现HOA系数11'的所述方式可在一些情况下基于FOV参数13'结合显示器15的FOV参数而被修改。所述扩音器馈源25可驱动一或多个扩音器(为了易于说明目的,所述一或多个扩音器未在图2的所述实例中示出)。

为了选择适当的呈现器或在一些情况下生成适当的呈现器,所述音频重放系统16可获得指示扩音器的数量和/或所述扩音器的空间几何布置的扩音器信息13。在一些情况下,所述音频重放系统16可使用参考麦克风并且以使得动态地确定所述扩音器信息13的方式驱动所述扩音器,来获得所述扩音器信息13。在其他情况下或结合所述扩音器信息13的动态确定,所述音频重放系统16可提示用户与所述音频重放系统16进行交互并输入所述扩音器信息13。

所述音频重放系统16接着可基于所述扩音器信息13选择所述音频呈现器22中的一者。在一些情况下,当所述音频呈现器22中无一者在对在所述扩音器信息13中指定的所述扩音器几何布置的某一阈值类似性量度(按照所述扩音器几何布置)内时,所述音频重放系统16可基于所述扩音器信息13生成音频呈现器22中的一者。在一些情况下,所述音频重放系统16可基于所述扩音器信息13生成所述音频呈现器22中的一者而无需首先尝试选择所述音频呈现器22中的现有一者。一或多个扬声器3接着可重放所述呈现的扩音器馈源25。

如图2所示,内容消费者装置14也具有相关联的显示器装置,显示器15。在图2的所述实例中,显示器15被示为被并入到内容消费者装置14中;然而,在其它实例中,显示器15可在内容消费者装置14外部。如将在下文更详细地阐释,显示器15可具有与FOV参数13'不同的一或多个相关联FOV参数。FOV参数13'表示与内容创建时的参考显示屏相关联的参数,而显示器15的所述FOV参数为用于重放的观看窗的FOV参数。音频重放系统16可基于FOV参数13'和与显示器15相关联的所述FOV参数两者修改或生成音频呈现器22中的一者。

图3为更详细说明可执行本发明中所描述的所述技术的各种方面的图2的实例中所示的音频编码装置20的一个实例的框图。所述音频编码装置20包含内容分析单元26、基于向量的分解单元27和基于方向的分解单元28。尽管下面进行了简单描述,但是关于所述音频编码装置20和压缩或以其它方式编码HOA系数的各种方面的更多信息可在2014年5月29日提交的题为“用于声场的分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的国际专利申请公开号WO 2014/194099中获得。

所述内容分析单元26表示被配置成分析所述HOA系数11的所述内容以识别所述HOA系数11表示从实况记录生成还是从音频对象生成的内容的单元。所述内容分析单元26可确定所述HOA系数11是从实际声场的记录生成还是从人工音频对象生成。在一些情况下,当所述帧式HOA系数11从记录中生成时,所述内容分析单元26将所述HOA系数11传递至所述基于向量的分解单元27。在一些情况下,当所述帧式HOA系数11从合成音频对象生成时,所述内容分析单元26将所述HOA系数11传递至所述基于方向的分解单元28。所述基于方向的分解单元28可表示被配置成执行所述HOA系数11的基于方向的合成以生成基于方向的位流21的单元。

如在图3的所述实例中所示,所述基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、心理声学音频编码器单元40、位流生成单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、时空内插单元50和量化单元52。

所述线性可逆变换(LIT)单元30接收呈HOA声道形式的所述HOA系数11,每一声道表示与所述球面基函数的给定阶数、子阶数相关联的系数的块或帧(其可被表示为HOA[k],其中,k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2

所述LIT单元30可表示被配置成执行被称为奇异值分解的形式的分析的单元。虽然相关于SVD加以描述,但可相关于提供线性不相关的能量密集输出的集合的任何类似变换或分解来执行在本发明中所描述的所述技术。而且,本发明中对“集合”的参考一般意图指非零集合(除非特定地相反陈述),且无意指包含所谓的“空集合”的集合的经典数学定义。替代变换可包括往往被称作“PCA”的主分量分析。根据情形,PCA可由多个不同名称指代,仅举几例,例如离散卡亨南-洛维变换、霍特林变换、特征正交分解(POD)和本征值分解(EVD)。有利于压缩音频数据的基本目标的此些操作的特性为多声道音频数据的“能量压缩”和“去相关”。

在任何情况下,出于实例的目的,假定所述LIT单元30执行奇异值分解(其再次可被称作“SVD”),所述LIT单元30可将所述HOA系数11变换成变换的HOA系数的两个或更多个集合。变换的HOA系数的所述“集合”可包含变换的HOA系数的向量。在图3的实例中,所述LIT单元30可相关于所述HOA系数11执行所述SVD以生成所谓的V矩阵、S矩阵和U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多声道音频数据,例如所述HOA系数11)的因式分解:

X=USV*

U可表示y乘y实数或复数单位矩阵,其中,U的y列被称为所述多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角矩阵,其中,S的所述对角线值被称为所述多声道音频数据的所述奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中,V*的z列被称为所述多声道音频数据的右奇异向量。

在一些实例中,以上提及的SVD数学表达式中的所述V*矩阵被表示为所述V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,所述V矩阵的复共轭(或换句话说,V*矩阵)可被视为所述V矩阵的转置。在下文中,为了易于说明的目的,假定所述HOA系数11包括实数,结果是通过SVD而非所述V*矩阵输出所述V矩阵。此外,虽然在本发明中被表示为所述V矩阵,但对所述V矩阵的提及应理解为在适当的情况下是指所述V矩阵的所述转置。虽然假定为所述V矩阵,但所述技术可以以类似方式应用于具有复数系数的HOA系数11,其中,所述SVD的所述输出为所述V*矩阵。因此,所述技术不应限于仅在这方面提供应用SVD以生成V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以生成V*矩阵。

以此方式,所述LIT单元30可相关于所述HOA系数11执行SVD,以输出具有维度D:M×(N+1)2的US[k]向量33(其可表示S向量与U向量的组合版本)和具有维度D:(N+1)2×(N+1)2的V[k]向量35。所述US[k]矩阵中的单独向量元素也可被称为XPS(k),而所述V[k]矩阵的单独向量也可被称为v(k)。

所述U、S和V矩阵的分析可揭示所述矩阵携带或表示上面由X表示的所述基本声场的空间和时间特性。在(长度M个样本的)U中的所述N个向量中的每者可表示作为时间的函数(用于由M个样本表示的时段)的彼此正交并已从任何空间特性(其也可被称作方向信息)解耦的归一化的分开音频信号。表示空间形状和位置的所述空间特性可代替地由在所述V矩阵中的单独第i向量v(i)(k)表示(每者长度为(N+1)2)。v(i)(k)向量中的每者的所述单独元素可表示描述用于相关联音频对象的所述声场的所述形状(包含宽度)和位置的HOA系数。所述U矩阵和所述V矩阵中的所述向量两者均被归一化而使得它们的均方根能量等于单位元素。因此,在U中的所述音频信号的所述能量由S中的所述对角元素表示。将U和S相乘以形成US[k](具有单独向量元素XPS(k)),因此表示具有能量的所述音频信号。所述SVD分解使所述音频时间信号(U中)、它们的能量(S中)与它们的空间特性(V中)解耦的能力可支持本发明中所描述的所述技术的各种方面。另外,通过US[k]与V[k]的向量乘法合成所述基本HOA[k]系数X的模型产生贯穿本文使用的术语“基于向量的分解”。

尽管被描述为直接相关于所述HOA系数11来执行,但所述LIT单元30可对所述HOA系数11的导出项应用所述线性可逆变换。例如,所述LIT单元30可相关于从所述HOA系数11导出的功率谱密度矩阵应用SVD。通过相关于所述HOA系数的所述功率谱密度(PSD)而不是所述系数自身来执行SVD,所述LIT单元30可潜在减小按照处理器周期和存储空间中的一或多者执行所述SVD的计算复杂度,同时实现相同的源音频编码效率,好像所述SVD被直接应用于所述HOA系数。

所述参数计算单元32表示被配置成计算各种参数的单元,所述参数为例如相关性参数(R)、方向特性参数和能量特性(e)。用于当前帧的所述参数中的每一者可被表示为R[k]、θ[k]、r[k]和e[k]。所述参数计算单元32可相关于所述US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别所述参数。所述参数计算单元32也可确定前一帧的参数,其中,所述前一帧的参数可基于具有US[k-1]向量和V[k-1]向量的所述前一帧而被表示为R[k-1]、θ[k-1]、r[k-1]和e[k-1]。所述参数计算单元32可将所述当前参数37和所述先前参数39输出至重排序单元34。

由所述参数计算单元32计算的所述参数可供所述重排序单元34用以将所述音频对象重排序以表示其自然评估或随时间推移的连续性。所述重排序单元34可逐轮地比较来自所述第一US[k]向量33的所述参数37中的每一者与用于第二US[k-1]向量33的参数39中的每一者。所述重排序单元34可基于所述当前参数37和所述先前参数39将所述US[k]矩阵33和所述V[k]矩阵35内的各种向量重排序(作为一实例,使用匈牙利算法),以将重排序的US[k]矩阵33'(其可在数学上表示为)和重排序的V[k]矩阵35'(其可在数学上表示为)输出至前景声音(或占优势声音——PS)选择单元36(“前景选择单元36”)和能量补偿单元38。

所述声场分析单元44可表示被配置成相关于所述HOA系数11执行声场分析以便潜在地实现目标比特率41的单元。所述声场分析单元44可基于所述分析及/或所接收的目标比特率41确定心理声学编码器实例化的总数(其可为环境或背景声道的总数(BGTOT)和前景声道或换句话说占优势声道的数量的函数)。心理声学编码器实例化的总数可以被表示为numHOATransportChannels。

再次为了潜在地实现所述目标比特率41,所述声场分析单元44还可确定前景信道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或另选地,MinAmbHOAorder)、表示背景声场的最小阶数的实际声道的对应数量(nBGa=(MinAmbHOAorder+1)2)以及要发送的另外BG HOA声道的索引(i)(其在图3的实例中可共同地被表示为背景声道信息43)。所述背景声道信息42也可被称作环境声道信息43。从numHOATransportChannels-nBGa保持的声道中的每一者可为“另外背景/环境声道”、“起作用的基于向量的占优势声道”、“起作用的基于方向的占优势信号”或“完全未起作用”。一方面,可由两个位将所述声道类型指示为(作为“ChannelType”)语法元素(例如,00:基于方向的信号;01:基于向量的占优势信号;10:另外环境信号;11:未起作用信号)。可由(MinAmbHoaOrder+1)2+索引10(在以上实例中)呈现为用于该帧的所述位流中的声道类型的次数给出背景或环境信号的所述总数nBGa。

所述声场分析单元44可基于所述目标位速率41选择背景(或换句话说,环境)声道的数量和前景(或换句话说,占优势)声道的数量,从而在所述目标比特率41相对较高时(例如,在所述目标比特率41等于或大于512Kbps时)选择更多背景和/或前景声道。一方面,在所述位流的标头部分中,numHOATransportChannels可被设置为8,而MinAmbHOAorder可被设置为1。在此情况下,在每个帧,四个声道可专用于表示所述声场的背景或环境部分,而另4个声道可以在逐帧基础上随声道类型而变化,例如任一者用作另外背景/环境声道或前景/占优势声道。如上所述,所述前景/占优势信号可以为基于向量或基于方向的信号中的任一者。

在一些情况下,用于帧的基于向量的占优势信号的所述总数可由所述ChannelType索引在该帧的所述位流中为01的次数给出。在以上方面中,对于每个另外背景/环境声道(例如,对应于ChannelType 10),可在该声道中表示可能的HOA系数(除前四个以外)中的何者的对应信息。对于四阶HOA内容,所述信息可为指示所述HOA系数5-25的索引。当minAmbHOAorder被设置为1时,所述前四个环境HOA系数1-4可一直发送,因此,所述音频编码装置可能仅需要指示具有5-25的索引的所述另外环境HOA系数中的一者。因此,所述信息可以使用可被表示为“CodedAmbCoeffIdx”的5位语法元素(用于4阶内容)来发送。在任何情况下,所述声场分析单元44将所述背景声道信息43和所述HOA系数11输出至所述背景(BG)选择单元36,将所述背景声道信息43输出至系数减少单元46和所述位流生成单元42,且将所述nFG 45输出至前景选择单元36。

所述背景选择单元48可表示被配置成基于所述背景声道信息(例如,所述背景声场(NBG)及待发送的另外BG HOA声道的数量(nBGa)和索引(i))确定背景或环境HOA系数47的单元。例如,当NBG等于一时,所述背景选择单元48可选择具有等于或小于一的阶数的所述音频帧的每一样本的所述HOA系数11。在此实例中,所述背景选择单元48可接着选择具有由索引(i)中的一者识别的索引的所述HOA系数11作为另外的BG HOA系数,其中,将所述nBGa提供给所述位流生成单元42以在所述音频位流21中指定,以便使得所述音频解码装置,例如图2和4的实例中所示的所述音频解码装置24能够从所述音频位流21提取所述背景HOA系数47。所述背景选择单元48可接着将所述环境HOA系数47输出至所述能量补偿单元38。所述环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。所述环境HOA系数47也可被称作“环境HOA系数47”,其中,所述环境HOA系数47中的每者对应于待由所述心理声学音频编码器单元40编码的单独环境HOA声道47。

所述前景选择单元36可表示被配置成基于nFG 45(其可表示识别所述前景向量的一或多个索引)选择表示所述声场的前景或不同分量的重排序的US[k]矩阵33'及重排序的V[k]矩阵35'的单元。所述前景选择单元36可将nFG信号49(其可被表示为重排序的US[k]1,…,nFG 49,FG1,…,nfG[k]49,或49)输出至所述心理声学音频编码器单元40,其中,所述nFG信号49可具有维度D:M×nFG,且每个所述nFG信号49表示单声道音频对象。所述前景选择单元36也可将对应于所述声场的前景分量的重排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出至所述时空内插单元50,其中,对应于所述前景分量的所述重排序的V[k]矩阵35'的子集可被表示为具有维度D:(N+1)2×nFG的前景V[k]矩阵51k(其可被数学表示为)。

所述能量补偿单元38可表示被配置成相关于所述环境HOA系数47执行能量补偿,以补偿由于通过所述背景选择单元48去除所述HOA声道中的各种HOA声道所造成的能量损失的单元。所述能量补偿单元38可相关于所述重排序的US[k]矩阵33'、所述重排序的V[k]矩阵35'、所述nFG信号49、所述前景V[k]向量51k和所述环境HOA系数47中的一或多者执行能量分析,并且接着基于所述能量分析执行能量补偿以生成能量补偿的环境HOA系数47'。所述能量补偿单元38可将能量补偿的环境HOA系数47'输出到所述心理声学音频编码器单元40。

所述时空内插单元50可表示被配置成接收第k帧的所述前景V[k]向量51k和所述前一帧(因此为k-1记法)的所述前景V[k-1]向量51k-1,并执行时空内插以生成内插前景V[k]向量的单元。所述时空内插单元50可将所述nFG信号49与所述前景V[k]向量51k重新组合以恢复重排序的前景HOA系数。所述时空内插单元50可接着将所述重排序的前景HOA系数除以所述内插的V[k]向量以生成内插的nFG信号49'。所述时空内插单元50也可输出所述前景V[k]向量51k,其用于生成所述内插前景V[k]向量,使得音频解码装置例如所述音频解码装置24可生成所述内插前景V[k]向量并由此恢复所述前景V[k]向量51k。用于生成所述内插前景V[k]向量的所述前景V[k]向量51k被表示为所述其余前景V[k]向量53。为确保在编码器和解码器处使用所述相同V[k]和V[k-1](以创建内插向量V[k]),可在编码器和解码器处使用所述向量的量化/解量化版本。所述时空内插单元50可将所述内插的nFG信号49'输出到所述心理声学音频编码器单元46,并将所述内插前景V[k]向量51k输出到所述系数减少单元46。

所述系数减少单元46可表示被配置成基于所述背景声道信息43相关于所述其余前景V[k]向量53执行系数减少,以将减少前景V[k]向量55输出到所述量化单元52的单元。所述减少前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。就此而言,所述系数减少单元46可表示被配置成减少所述其余前景V[k]向量53中的系数的所述数量的单元。换言之,系数减少单元46可表示被配置成消除所述前景V[k]向量(其形成所述其余前景V[k]向量53)中具有极少或没有方向信息的所述系数的单元。在一些实例中,相异的所述系数或换句话说对应于一阶和零阶基函数(其可被表示为NBG)的前景V[k]向量提供极少方向信息,并因此可从所述前景V向量去除(通过可被称为“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅识别对应于NBG的所述系数而且从[(NBG+1)2+1,(N+1)2]的所述集合识别另外HOA声道(其可由所述变量TotalOfAddAmbHOAChan表示)。

所述量化单元52可表示被配置成执行任何形式的量化以压缩所述减少前景V[k]向量55以生成编码前景V[k]向量57,从而向所述位流生成单元42输出所述编码前景V[k]向量57的单元。在操作中,所述量化单元52可表示被配置成压缩所述声场的空间分量,即在该实例中的所述减少前景V[k]向量55中的一或多者的单元。所述量化单元52可执行如由被表示为“NbitsQ”的量化模式语法元素指示的以下12种量化模式中的任一者:

所述量化单元52也可执行前述类型的量化模式中的任一者的预测版本,其中,确定前一帧的所述V向量的元素(或执行向量量化时的权重)与当前帧的所述V向量的元素(或执行向量量化时的权重)之间的差。所述量化单元52接着可量化所述当前帧与前一帧的所述元素或权重之间的差而非所述当前帧本身的所述V向量的所述元素的值。

所述量化单元52可相关于所述减少前景V[k]向量55中的每者执行多种形式的量化以获得所述减少前景V[k]向量55的多个编码版本。所述量化单元52可将所述减少前景V[k]向量55的所述编码版本中的一者选择为所述编码前景V[k]向量57。换句话说,所述量化单元52可基于在本发明中论述的标准的任何组合来选择所述非预测向量量化的V向量、预测向量量化的V向量、所述非霍夫曼编码标量量化的V向量和所述霍夫曼编码标量量化的V向量中的一者以用作输出切换量化的V向量。在一些实例中,所述量化单元52可从包含向量量化模式以及一或多个标量量化模式的一组量化模式中选择量化模式,并且基于(或根据)所选择的模式来量化输入V向量。所述量化单元52接着可向所述位流生成单元52提供所述非预测向量量化的V向量(例如,按照指示其的权重值或位)、预测向量量化的V向量(例如,按照指示其的误差值或位)、所述非霍夫曼编码标量量化的V向量和所述霍夫曼编码标量量化的V向量中的所选择的一者以作为所述编码前景V[k]向量57。所述量化单元52也可提供指示所述量化模式的所述语法元素(例如,所述NbitsQ语法元素)和用于解量化或以其它方式重构所述V向量的任何其它语法元素。

被包含在音频编码装置20内的心理声学音频编码器单元40可表示心理声学音频编码器的多个例子,所述多个例子中的每一者用以编码经能量补偿的环境HOA系数47'和经内插nFG信号49'中的每一者的不同音频对象或HOA声道,以生成经编码环境HOA系数59和经编码nFG信号61。心理声学音频编码器单元40可将经编码环境HOA系数59和经编码nFG信号61输出至位流生成单元42。

被包含在音频编码装置20内的位流生成单元42表示格式化数据以符合已知格式(其可指解码装置已知的格式),由此生成基于向量的位流21的单元。换句话说,音频位流21可表示已经以上述的方式编码的经编码音频数据。在一些实例中,位流生成单元42可表示多路复用器,其可接收经编码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61和背景声道信息43。位流生成单元42接着可基于经编码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61和背景声道信息43生成音频位流21。以此方式,位流生成单元42可由此指定所述音频位流21中的向量57以获得音频位流21。音频位流21可包含主要或主位流和一或多个侧声道位流。

尽管未在图3的实例中示出,但音频编码装置20也可包含位流输出单元,所述位流输出单元基于使用基于方向的合成还是基于向量的合成对当前帧进行编码而切换从音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。所述位流输出单元可基于由内容分析单元26输出的所述语法元素执行所述切换,所述语法元素指示基于方向的合成被执行(由于检测到HOA系数11从合成音频对象生成)还是基于向量的合成被执行(由于检测到所述HOA系数被记录)。所述位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应一者的所述切换或当前编码。

此外,如上所述,声场分析单元44可识别BGTOT环境HOA系数47,其可逐帧改变(尽管有时BGTOT可保持恒定或跨越两个或更多个邻近(在时间上)帧相同)。在BGTOT中的变化可产生在减少前景V[k]向量55中表示的系数的变化。在BGTOT中的变化可产生逐帧改变(尽管有时BGTOT可保持恒定或跨越两个或更多个邻近(在时间上)帧相同)的背景HOA系数(其也可被称作“环境HOA系数”)。所述变化往往产生所述声场的各方面的能量变化,所述能量变化由所述另外环境HOA系数的添加或去除以及系数从减少前景V[k]向量55的对应去除或系数到减少前景V[k]向量55的添加来表示。

因此,所述声场分析单元44可进一步确定所述环境HOA系数何时从帧到帧改变,并生成指示所述环境HOA系数的所述变化的旗标或其它语法元素(就用于表示所述声场的所述环境分量来说)(其中,所述变化也可被称作所述环境HOA系数的“转换”或所述环境HOA系数的“转换”)。具体来说,所述系数减少单元46可生成所述旗标(其可被表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供给所述位流生成单元42,使得所述旗标可被包含在所述音频位流21中(可能作为侧声道信息的一部分)。

除指定所述环境系数转换旗标之外,所述系数减少单元46也可修改如何生成所述减少前景V[k]向量55。在一个实例中,在确定所述环境HOA环境系数中的一者在所述当前帧期间处于转换中时,所述系数减少单元46可指定用于所述减少前景V[k]向量55的所述V向量中的每者的向量系数(其也可被称作“向量元素”或“元素”),所述向量系数对应于处于转换中的所述环境HOA系数。再次,处于转换中的所述环境HOA系数可添加到背景系数的BGTOT总数或从所述背景系数的BGTOT总数中去除。因此,背景系数的总数的所得变化影响所述环境HOA系数是否被包含在所述位流中,以及所述V向量的所述对应元素是否被包含以用于在上述的所述第二配置模式及第三配置模式中在所述位流中所指定的所述V向量。关于所述系数减少单元46可如何指定所述减少前景V[k]向量55以克服所述能量变化的更多信息在2015年1月12日提交的题为“环境高阶立体混响系数的转换(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的美国申请第14/594,533号中提供。

图4为更详细地说明图2的所述音频解码装置24的框图。如图4的实例所示,所述音频解码装置24可包含提取单元72、基于方向的重构单元90和基于向量的重构单元92。尽管在下面进行了描述,但关于所述音频解码装置24和解压缩或以其它方式解码HOA系数的各种方面的更多信息可在2014年5月29日提交的题为“用于声场的分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的国际专利申请公开号WO 2014/194099中获得。

所述提取单元72可表示被配置成接收所述音频位流21并提取所述HOA系数11的所述各种编码版本(例如,基于方向的编码版本或基于向量的编码版本)的单元。所述提取单元72可经由所述各种基于方向的或基于向量的版本从上面提到的指示所述HOA系数11是否被编码的语法元素做出确定。当执行基于方向的编码时,所述提取单元72可提取所述HOA系数11的所述基于方向的版本和与所述编码版本相关联的所述语法元素(在图4的所述实例中,其被表示为基于方向的信息91),向所述基于方向的重构单元90传递所述基于方向的信息91。所述基于方向的重构单元90可表示被配置成基于所述基于方向的信息91以HOA系数11'的形式重构所述HOA系数的单元。所述位流和在所述位流内的语法元素的所述布置在下面相关于图7A-7J的实例更详细地描述。

当所述语法元素指示所述HOA系数11使用基于向量的合成进行编码时,所述提取单元72可提取所述编码前景V[k]向量57(其可包含编码权重57和/或索引63或标量量化的V向量)、所述编码环境HOA系数59和所述对应的音频对象61(其也可被称作所述编码nFG信号61)。所述音频对象61中的每者对应于所述向量57中的一者。所述提取单元72可向所述V向量重构单元74传递所述编码前景V[k]向量57,并向所述心理声学解码单元80传递所述编码环境HOA系数59与所述编码nFG信号61。

所述V向量重构单元74可表示被配置成从所述编码前景V[k]向量57重构所述V向量的单元。所述V向量重构单元74可以以与所述量化单元52的方式互逆的方式操作。

所述心理声学解码单元80可以以与图3的所述实例中所示的所述心理声学音频编码器单元40互逆的方式操作,以便对所述编码环境HOA系数59及所述编码nFG信号61进行解码,并由此生成能量补偿的环境HOA系数47'及所述内插的nFG信号49'(其也可被称作内插的nFG音频对象49')。所述心理声学解码单元80可将所述能量补偿的环境HOA系数47'传递至所述淡化单元770,且将所述nFG信号49'传递至所述前景制订单元78。

所述时空内插单元76可以以类似于上面相关于所述时空内插单元50所述的方式操作。所述时空内插单元76可接收所述减少前景V[k]向量55k并相关于所述前景V[k]向量55k和所述减少前景V[k-1]向量55k-1执行所述时空内插以生成内插前景V[k]向量55k”。所述时空内插单元76可将所述内插前景V[k]向量55k”转发至所述淡化单元770。

所述提取单元72也可将指示所述环境HOA系数中的一者何时处于转换中的信号757输出至淡化单元770,所述淡化单元可接着确定所述SHCBG 47'(其中,所述SHCBG 47'也可被表示为“环境HOA声道47'”或“环境HOA系数47'”)及所述内插前景V[k]向量55k”的元素将要么淡入要么淡出。在一些实例中,所述淡化单元770可相关于所述环境HOA系数47'和所述内插前景V[k]向量55k”的元素中的每一者相反地操作。也就是说,所述淡化单元770可相关于所述环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或者执行淡入或淡出两者,同时相关于所述内插前景V[k]向量55k”的所述元素中的所述对应元素执行淡入或淡出或者执行淡入和淡出两者。所述淡化单元770可向所述HOA系数制订单元82输出调整的环境HOA系数47”和向所述前景制订单元78输出调整的前景V[k]向量55k”'。在这方面,所述淡化单元770表示被配置成相关于所述HOA系数或其导出项的各种方面,例如以所述环境HOA系数47'和所述内插前景V[k]向量55k”的所述元素的形式执行淡化操作的单元。

所述前景制订单元78可表示被配置成相关于所述调整的前景V[k]向量55k”'和所述内插nFG信号49'执行矩阵乘法以生成所述前景HOA系数65的单元。在这方面,所述前景制订单元78可组合所述音频对象49'(其为表示所述内插nFG信号49'的另一方式)与所述向量55k”'以重构所述前景,或换句话说,所述HOA系数11'的占优势方面。所述前景制订单元78可执行所述内插nFG信号49'乘以所述调整的前景V[k]向量55k”'的矩阵乘法。

所述HOA系数制订单元82可表示被配置成将所述前景HOA系数65组合到所述调整的环境HOA系数47”以便获得所述HOA系数11'的单元。撇号符号反映所述HOA系数11'可类似于但不同于所述HOA系数11。在所述HOA系数11和11'之间的差值可能由于在有损传输媒体上的传输、量化或其它有损操作的损失而产生。

图5为说明音频编码装置,例如在图3的实例中示出的所述音频编码装置20在执行本发明中描述的所述基于向量的合成技术的各种方面中的示范性操作的流程图。最初,所述音频编码装置20接收所述HOA系数11(106)。所述音频编码装置20可调用所述LIT单元30,所述LIT单元30可相关于所述HOA系数应用LIT以输出变换的HOA系数(例如,在SVD的情况下,所述变换的HOA系数可包括所述US[k]向量33和所述V[k]向量35)(107)。

所述音频编码装置20接下来可调用所述参数计算单元32以按上文所述的方式相关于所述US[k]向量33、US[k-1]向量33、所述V[k]和/或V[k-1]向量35的任何组合执行上文所述的分析以识别各种参数。也就是说,所述参数计算单元32可基于所述变换HOA系数33/35的分析确定至少一个参数(108)。

所述音频编码装置20可接着调用所述重排序单元34,如上所述,所述重排序单元34可基于所述参数将所述变换的HOA系数(在SVD的上下文中,其再次变换的HOA可指所述US[k]向量33和所述V[k]向量35)重排序以生成重排序的变换的HOA系数33'/35'(或,换句话说,所述US[k]向量33'和所述V[k]向量35')(109)。在前述操作或后续操作中的任一者期间,所述音频编码装置20也可调用所述声场分析单元44。如上所述,所述声场分析单元44可相关于所述HOA系数11及/或所述变换的HOA系数33/35执行声场分析以确定前景声道的所述总数(nFG)45、所述背景声场的所述阶数(NBG)以及待发送的另外BG HOA声道的所述数量(nBGa)和索引(i)(其在图3的实例中可被共同地表示为背景声道信息43)(109)。

所述音频编码装置20也可调用所述背景选择单元48。所述背景选择单元48可基于所述背景声道信息43确定背景或环境HOA系数47(110)。所述音频编码装置20可进一步调用所述前景选择单元36,所述前景选择单元36可基于nFG 45(其可表示识别所述前景向量的一或多个索引)选择所述重排序的US[k]向量33'和表示所述声场的前景或不同分量的所述重排序的V[k]向量35'(112)。

所述音频编码装置20可调用所述能量补偿单元38。所述能量补偿单元38可相关于所述环境HOA系数47执行能量补偿,以补偿由于由所述背景选择单元48去除所述HOA系数中的各种HOA系数所造成的能量损失(114),并由此生成能量补偿的环境HOA系数47'。

所述音频编码装置20也可调用所述时空内插单元50。所述时空内插单元50可相关于所述重排序的变换的HOA系数33'/35'执行时空内插以获得所述内插前景信号49'(其也可被称作所述“内插的nFG信号49'”)和所述其余的前景方向信息53(其也可被称作所述“V[k]向量53”)(116)。所述音频编码装置20可接着调用所述系数减少单元46。所述系数减少单元46可基于所述背景声道信息43相关于所述其余前景V[k]向量53执行系数减少,以获得减少前景方向信息55(其也可被称作所述减少前景V[k]向量55)(118)。

所述音频编码装置20可接着调用所述量化单元52以按上文所述的方式压缩所述减少前景V[k]向量55且生成编码前景V[k]向量57(120)。

所述音频编码装置20也可调用所述心理声学音频编码器单元40。所述心理声学音频编码器单元40可对所述能量补偿的环境HOA系数47'和所述内插nFG信号49'的每个向量进行心理声学编码以生成编码环境HOA系数59和编码nFG信号61。所述音频编码装置可接着调用所述位流生成单元42。所述位流生成单元42可基于所述编码前景方向信息57、所述编码环境HOA系数59、所述编码nFG信号61和所述背景声道信息43生成所述音频位流21。

图6为说明音频解码装置,例如图4中所示的所述音频解码装置24在执行本发明中描述的所述技术的各种方面中的示范性操作的流程图。最初,所述音频解码装置24可接收所述音频位流21(130)。在接收所述位流时,所述音频解码装置24可调用所述提取单元72。出于论述的目的,假设所述音频位流21指示有待于执行基于向量的重构,所述提取单元72可解析所述位流以检索所述上面提到的信息、将所述信息传递至所述基于向量的重构单元92。

换句话说,所述提取单元72可按上文所述的方式从所述音频位流21中提取所述编码前景方向信息57(再次,其也可被称作所述编码前景V[k]向量57)、所述编码环境HOA系数59和所述编码前景信号(其也可被称作所述编码前景nFG信号59或所述编码前景音频对象59)(132)。

所述音频解码装置24可进一步调用所述解量化单元74。所述解量化单元74可对所述编码前景方向信息57进行熵解码并解量化,以获得减少前景方向信息55k(136)。所述音频解码装置24也可调用所述心理声学解码单元80。所述心理声学解码单元80可解码所述编码环境HOA系数59和所述编码前景信号61,以获得能量补偿的环境HOA系数47'和所述内插前景信号49'(138)。所述心理声学解码单元80可将所述能量补偿的环境HOA系数47'传递至所述淡化单元770,且将所述nFG信号49'传递至所述前景制订单元78。

所述音频解码装置24接下来可调用所述时空内插单元76。所述时空内插单元76可接收所述重排序的前景方向信息55k',并相关于所述减少前景方向信息55k/55k-1执行所述时空内插以生成所述内插前景方向信息55k”(140)。所述时空内插单元76可将所述内插前景V[k]向量55k”转发至所述淡化单元770。

所述音频解码装置24可调用所述淡化单元770。所述淡化单元770可接收或以其它方式获得(例如,从所述提取单元72)指示所述能量补偿的环境HOA系数47'何时处于转换中的语法元素(例如,所述AmbCoeffTransition语法元素)。所述淡化单元770可基于所述转换语法元素和所述保持转换状态信息淡入或淡出所述能量补偿的环境HOA系数47',从而向所述HOA系数制订单元82输出调整的环境HOA系数47”。所述淡化单元770也可基于所述语法元素和所述保持转换状态信息并淡出或淡入所述内插前景V[k]向量55k”的对应的一或多个元素,从而向所述前景制订单元78输出所述调整的前景V[k]向量55k”'(142)。

所述音频解码装置24可调用所述前景制订单元78。所述前景制订单元78可执行所述nFG信号49'与所述调整的前景方向信息55k”'的矩阵乘法以获得所述前景HOA系数65(144)。所述音频解码装置24也可调用所述HOA系数制订单元82。所述HOA系数制订单元82可向调整的环境HOA系数47”添加所述前景HOA系数65以便获得所述HOA系数11'(146)。

根据本发明的所述技术,音频解码装置24可基于制作和再现的显示屏大小计算HOA效果矩阵。所述HOA效果矩阵接着可被乘以给定的HOA呈现矩阵R以形成所述显示屏相关的HOA呈现矩阵。在一些实施方案中,例如在音频解码装置24的初始化阶段期间,所述HOA呈现矩阵的调适可脱机完成,使得运行时间复杂性并未增加。

本发明提出的一种技术使用在球体上的900个等间隔采样点(Ω900),所述采样点中的每者用方向(θ,φ)定义,如在ISO/IEC DIS 23008-3的附件9“信息技术-在异质环境中的高效率编码和媒体递送-部分3:3D音频(在下文中,也称为“DIS 23008”)”中所描述。基于那些方向,音频解码装置可计算模式矩阵Ψ900,如在DIS 23008的附件F.1.5中概述。那些900个采样点的所述方向经由所述映射函数修改,并且所述修改模式矩阵Ψm900被相应地计算出。为避免显示屏相关音频对象和显示屏相关HOA内容之间的失配,使用已经在DIS 23008的条款18.3中描述的相同映射函数。所述效果矩阵F接着被计算为:

接着所述显示屏相关呈现矩阵被计算为:

D=RF.(2)

可以预计算并存储所述矩阵以避免该处理步骤的任何重复。在方程式(1)和(2)中生成D的其余操作的总数为(900+M)*(N+1)4。对于阶数N=4和扬声器数M=22的呈现矩阵,所述复杂性约为0.58加权MOPS。

现将参考图7-11描述本发明的所述基于显示屏的调适技术的第一实例。图7A示出可用于将用于参考显示屏的方位角映射到用于观看窗的方位角的映射函数的实例。图7B示出可用于将用于参考显示屏的仰角映射到用于观看窗的仰角的映射函数的实例。在图7A和7B的所述实例中,所述参考显示屏的所述角度为29到-29度的方位角和16.3到-16.3度的仰角,以及所述观看窗的所述角度为58到-58度的方位角和32.6到-32.6度的仰角。因此,在图7A和7B的所述实例中,所述观看窗是参考显示屏的两倍大。

如在本发明中所使用,观看窗可指用于再现视频的显示屏的全部或部分。当在电视、平板计算机、电话或其它此些装置上以全屏模式重放电影时,所述观看窗可对应于所述装置的整个显示屏。然而,在其它实例中,观看窗可对应于小于所述装置的所述整个显示屏。例如,同时重放四个体育赛事的装置可在一个显示屏上包含四个不同的观看窗,或装置可具有用于重放视频的单个观看窗并使用其余显示屏区域用于显示其它内容。观看窗的视场可基于参数例如所述观看窗的物理大小和/或从所述观看窗到观看位置的距离(测量的或假定的中的任一者)来确定。所述视场可例如通过方位角和仰角来描述。

如在本发明中所使用,参考显示屏是指与HOA音频数据的所述声场对应的视场。例如,HOA音频数据可相关于特定视场(即,参考显示屏)生成或捕获,但可相关于不同视场(例如,观看窗的所述视场)再现。如在本发明中所解释,所述参考显示屏提供参考,音频解码器可通过此参考调适用于在大小、位置或一些其它此些特性与所述参考显示屏不同的显示屏上本地重放的所述HOA音频数据。出于解释的目的,本发明中的某些技术可参考制作显示屏和再现显示屏来描述。应理解,这些相同技术适用于参考显示屏和观看窗。

图8示出作为所述第一实例的参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。在图8中,点对应于映射目的地,而进入所述点中的线对应于映射轨迹。虚线矩形对应于参考显示屏大小,以及实线矩形对应于观看窗大小。

图61示出所述显示屏相关的效果如何可致使所述内容的所述HOA阶数增加的实例。在图61的所述实例中,所述效果矩阵被计算以从3阶输入素材形成49HOA系数(6阶)。然而,如果所述矩阵被计算为具有(N+1)2×(N+1)2个元素的方阵,则也可实现令人满意的结果。

图10示出所述效果矩阵如何可被预呈现并应用于所述扩音器呈现矩阵,从而在运行时不需要附加计算的实例。

图11示出如果所述效果矩阵可产生高阶内容(例如,6阶),则在该阶中的呈现矩阵如何可被乘法运算以预计算在所述初始阶(在这里,为3阶)中的所述最终呈现矩阵的实例。

现将参考图12-13来描述本发明的所述基于显示屏的调适技术的第二实例。图12A示出可用于将用于参考显示屏的方位角映射到用于观看窗的方位角的映射函数的实例。图12B示出可用于将用于参考显示屏的仰角映射到用于观看窗的仰角的映射函数的实例。在图12A和12B的所述实例中,所述参考显示屏的所述角度为29到-29度的方位角和16.3到-16.3度的仰角,以及所述观看窗的所述角度为29到-29度的方位角和32.6到-32.6度的仰角。因此,在图12A和12B的所述实例中,所述观看窗的高度为所述参考显示屏的两倍但宽度与所述参考显示屏相同。图12C示出用于所述第二实例的计算出的HOA效果矩阵。

图13示出作为所述第二实例的参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。在图13中,点对应于映射目的地,而进入所述点中的线对应于映射轨迹。虚线矩形对应于参考显示屏大小,以及实线矩形对应于观看窗大小。

现将参考图14-15描述本发明的所述基于显示屏的调适技术的第三实例。图14A示出可用于将用于参考显示屏的方位角映射到用于观看窗的方位角的映射函数的实例。图14B示出可用于将用于参考显示屏的仰角映射到用于观看窗的仰角的映射函数的实例。在图14A和14B的所述实例中,所述参考显示屏的所述角度为29到-29度的方位角和16.3到-16.3度的仰角,以及所述观看窗的所述角度为58到-58度的方位角和16.3到-16.3度的仰角。因此,在图14A和14B的所述实例中,所述观看窗的宽度为所述参考显示屏的两倍但高度与所述参考显示屏相同。图14C示出用于所述第三实例的计算出的HOA效果矩阵。

图15示出作为所述第三实例的参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。在图15中,点对应于映射目的地,而进入所述点中的线对应于映射轨迹。虚线矩形对应于参考显示屏大小,以及实线矩形对应于观看窗大小。

现将参考图16-17描述本发明的所述基于显示屏的调适技术的第四实例。图16A示出可用于将用于参考显示屏的方位角映射到用于观看窗的方位角的映射函数的实例。图16B示出可用于将用于参考屏幕的仰角映射到用于观看窗的仰角的映射函数的实例。在图16A和16B的所述实例中,所述参考显示屏的所述角度为29到-29度的方位角和16.3到-16.3度的仰角,以及所述观看窗的所述角度为49到-9度的方位角和16.3到-16.3度的仰角。因此,在图14A和14B的所述实例中,所述观看窗的宽度为所述参考显示屏的两倍但高度与所述参考显示屏相同。图16C示出用于所述第三实例的计算出的HOA效果矩阵。

图17示出作为所述第四实例的参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。在图17中,点对应于映射目的地,而进入所述点中的线对应于映射轨迹。虚线矩形对应于参考显示屏大小,以及实线矩形对应于观看窗大小。

现将参考图18-19描述本发明的所述基于显示屏的调适技术的第五实例。图18A示出可用于将用于参考显示屏的方位角映射到用于观看窗的方位角的映射函数的实例。图18B示出可用于将用于参考显示屏的仰角映射到用于观看窗的仰角的映射函数的实例。在图18A和18B的所述实例中,所述参考显示屏的所述角度为29到-29度的方位角和16.3到-16.3度的仰角,以及所述观看窗的所述角度为49到-9度的方位角和16.3到-16.3度的仰角。因此,在图18A和18B的所述实例中,所述观看窗相对于所述参考显示屏在方位角位置中移位。图18C示出用于所述第五实例的计算出的HOA效果矩阵。

图19示出作为所述第四实例的参考显示屏和观看窗的效果的所述声场的所希望的显示屏相关扩展效果的向量场。在图19中,点对应于映射目的地,而进入所述点中的线对应于映射轨迹。虚线矩形对应于参考显示屏大小,以及实线矩形对应于观看窗大小。

图20A-20C为说明可实现在本发明中描述的音频的基于显示屏的调适的所述技术的各种方面的音频解码装置900的另一实例的框图。为简单起见,并没有在图20A-20C中示出音频解码装置900的所有方面。在此考虑了音频解码装置900的所述特征和功能可结合在本发明中描述的其它音频解码装置,例如上面相关于图2和4所描述的音频解码装置24的所述特征和功能来实现。

音频解码装置900包含USAC解码器902、HOA解码器904、本地呈现矩阵发生器906、发信号通知的/本地呈现矩阵决定器908和扩音器呈现器910。音频解码装置900接收编码位流(例如,MPEG-H 3D音频位流)。USAC解码器902和HOA解码器904使用上面描述的所述USAC和HOA音频解码技术来解码所述位流。本地呈现矩阵发生器906至少部分地基于将重放所述解码音频的所述系统的本地扩音器配置生成一或多个呈现矩阵。所述位流也可包含可从所述编码位流解码的一或多个呈现矩阵。本地/发信号通知的呈现矩阵决定器908确定当重放所述音频数据时,要使用所述本地生成或发信号通知的呈现矩阵中的哪些。扩音器呈现器910基于所选择的呈现矩阵向一或多个扬声器输出音频。

图20B为说明音频解码装置900的另一实例的框图。在图20B的所述实例中,音频解码装置900另外包含效果矩阵发生器912。效果矩阵发生器912可从所述位流确定参考显示屏大小,并基于用于显示对应视频数据的所述系统确定观看窗大小。基于所述参考显示屏大小和所述观看窗大小,效果矩阵发生器912可生成用于修改通过本地/发信号通知的呈现矩阵决定器908选择的所述呈现矩阵(R')的效果矩阵(F)。在图20B的所述实例中,扩音器呈现器910可基于所述修改的呈现矩阵(D)向所述一或多个扬声器输出音频。在图20C的所述实例中,如果在HOADecoderConfig()中,所述旗标isScreenRelative flag==1,则音频解码装置900可被配置成仅呈现所述效果。

根据本发明的所述技术,效果矩阵发生器912也可生成响应于显示屏旋转的效果矩阵。效果矩阵发生器912可例如根据以下算法生成效果矩阵。在伪码中的用于新映射函数的实例算法为:

%1.计算相关显示屏映射参数

originalWidth=originalAngles.azi(1)-originalAngles.azi(2);

originalHeight=originalAngles.ele(1)-originalAngles.ele(2);

newWidth=newAngles.azi(1)-newAngles.azi(2);

newHeight=newAngles.ele(1)-newAngles.ele(2);

%2.寻找参考显示屏的中心和观看窗的中心。

originalCenter.azi=originalAngles.azi(1)-originalWidth*0.5;

originalCenter.ele=originalAngles.ele(1)-originalHeight*0.5;

newCenter.azi=newAngles.azi(1)-newWidth*0.5;

newCenter.ele=newAngles.ele(1)-newHeight*0.5;

%3.执行相关显示屏相关映射

heightRatio=newHeight/originalHeight;

widthRatio=newWidth/originalWidth;

使用heightRatio和widthRatio,使用MPEG-H显示屏相关映射函数映射均匀分布的空间位置,而不是制作和观看窗的绝对位置。

%4.转动声场

将(3)中处理的空间位置从originalCenter转动到newCenter。

%5.计算HOA效果矩阵

使用初始的空间位置和经处理的空间为(来自4)。

根据本发明的所述技术,效果矩阵发生器912也可生成响应于显示屏旋转的效果矩阵。效果矩阵发生器912可例如根据以下算法生成效果矩阵。

1.计算相关显示屏映射参数:

widthRatio=localWidth/productionWidth;

heightRatio=localHeight/productionHeight;

其中:

productionWidth=production_Azi_L-production_Azi_R;

productionHeight=production_Ele_Top-production_Ele_Down;

localWidth=local_Azi_L-local_Azi_R;

localHeight=local_Ele_Top-local_Ele_Down;

2.计算规范制作显示屏和本地再现显示屏的中心的中心坐标:

productionCenter_Azi=production_Azi_L-productionWidth/2;

productionCenter_Ele=production_Ele_Top-productionHeight/2;

localCenter_Azi=local_Azi_L-localWidth/2;

localCenter_Ele=local_Ele_Top-localHeight/2;

3.显示屏相关映射:

以显示屏相关映射函数使用heightRatio和widthRatio将Ω900映射到

4.转动位置:

使用转动核心R将空间位置从productionCenter坐标转动到localCenter坐标,产生

y轴转动(节距)z轴转动(摇摆)

5.计算HOA效果矩阵:

其中为从形成的模式效果矩阵。

图20C为说明音频解码装置900的另一实例的框图。在图20C的所述实例中,音频解码装置900大体上以与上面关于图20B的所述实例所描述相同的方式运行,但在图20C的所述实例中,效果矩阵发生器912另外被配置成确定用于缩放操作的缩放因子,并基于所述缩放信息、所述参考显示屏大小和所述观看窗大小生成用于修改通过本地/发信号通知的呈现矩阵决定器908来选择的所述呈现矩阵(R')的效果矩阵(F)。在图20C的所述实例中,扩音器呈现器910可基于所述修改的呈现矩阵(D)向所述一或多个扬声器输出音频。在图20C的所述实例中,如果在HOADecoderConfig()中,所述旗标isScreenRelativeHOA flag==1,则音频解码装置900可被配置成仅呈现所述效果。

在所述HOADecoderConfig()语法表(下文被示为表1)中,所述旗标isScreenRelativeHOA足以使显示屏相关HOA内容能够适应所述再现显示屏大小。在标称制作显示屏上的信息可作为元数据音频元素的一部分分开发信。

表1—HOADecoderConfig()的语法(在DIS 23008中为表120)

本发明的音频重放系统,例如音频重放系统16可被配置成通过基于参考显示屏的一或多个FOV参数(例如,FOV参数13')和观看窗的一或多个FOV参数在一或多个扬声器(例如,扬声器3)上呈现HOA音频信号,来呈现所述HOA音频信号。所述呈现可例如另外基于响应于用户起始的缩放操作而获得的缩放因子。在一些实例中,用于所述参考显示屏的所述一或多个FOV参数可包含所述参考显示屏的中心的位置和所述观看窗的中心的位置。

音频重放系统16可例如接收包括所述HOA音频信号的编码音频数据的位流。所述编码音频数据可与对应视频数据相关联。音频重放系统16可从所述位流获得用于所述对应视频数据的所述参考显示屏的所述一或多个FOV参数(例如,FOV参数13')。

音频重放系统16也可获得用于显示所述对应视频数据的所述观看窗的所述一或多个FOV参数。所述观看窗的所述FOV参数可基于用户输入、自动化测量值、默认值等的任何组合来本地确定。

音频重放系统16可基于所述观看窗的所述一或多个FOV参数和所述参考显示屏的所述一或多个FOV参数从音频呈现器22确定用于所述编码音频数据的呈现器、修改音频呈现器22中的一者,并基于所述修改的呈现器和所述编码音频数据来在所述一或多个扬声器上呈现所述HOA音频信号。当执行缩放操作时,音频重放系统16可另外基于所述缩放因子修改音频呈现器22中的一者。

音频重放系统16可例如基于扬声器配置(包含但不一定限于一或多个扬声器的空间几何布置和/或可供用于重放的扬声器的数量)确定用于所述编码音频数据的所述呈现器。

音频呈现器22可例如包含用于将所述编码音频数据转换为再现格式的算法和/或利用呈现格式。所述呈现格式可例如包含矩阵、射线、直线或向量中的任一者。音频呈现器22可在所述位流中发信号通知或基于重放环境来确定。

用于所述参考显示屏的所述一或多个FOV参数可包含用于所述参考显示屏的一或多个方位角。用于所述参考显示屏的所述一或多个方位角可包含用于所述参考显示屏的左方位角和用于所述参考显示屏的右方位角。用于所述参考显示屏的所述一或多个FOV参数可另选或另外包含用于所述参考显示屏的一或多个仰角。用于所述参考显示屏的所述一或多个仰角可包含用于所述参考显示屏的上仰角和用于所述参考显示屏的下仰角。

用于所述观看窗的所述一或多个FOV参数可包含用于所述观看窗的一或多个方位角。用于所述观看窗的所述一或多个方位角可包含用于所述观看窗的左方位角和用于所述观看窗的右方位角。用于所述观看窗的所述一或多个FOV参数可包含用于所述观看窗的一或多个方位角。用于所述观看窗的所述一或多个仰角可包含用于所述观看窗的上仰角和用于所述观看窗的下仰角。

音频重放系统16可通过基于所述参考显示屏的所述一或多个FOV参数和所述观看窗的所述一或多个FOV参数确定用于修改扬声器的方位角的方位角映射函数,并基于所述方位角映射函数来修改所述一或多个扬声器的第一扬声器的方位角以生成用于所述第一扬声器的修改方位角,来修改音频呈现器22中的一或多者。

所述方位角映射函数包括:

其中,表示用于所述第一扬声器的所述修改方位角;

表示用于所述第一扬声器的所述方位角;

表示所述参考显示屏的左方位角;

表示所述参考显示屏的右方位角;

表示所述观看窗的左方位角;以及,

表示所述观看窗的右方位角。

音频重放系统16可通过基于所述参考显示屏的所述一或多个FOV参数和所述观看窗的所述一或多个FOV参数确定用于修改扬声器的仰角的仰角映射函数,并基于所述仰角映射函数修改所述一或多个扬声器的第一扬声器的仰角,来修改所述呈现器。

所述仰角映射函数包括:

其中,θ'表示用于所述第一扬声器的所述修改仰角;

θ表示用于所述第一扬声器的所述仰角;

表示所述参考显示屏的顶部仰角;

表示所述参考显示屏的底部仰角;

表示所述观看窗的顶部仰角;以及,

表示所述观看窗的底部仰角。

音频重放系统16可响应于在所述观看窗处的用户起始的缩放功能修改所述呈现器。例如,响应于用户起始的缩放功能,音频重放系统16可确定缩放观看窗的一或多个FOV参数,并基于所述参考显示屏的所述一或多个FOV参数和所述缩放观看窗的所述一或多个FOV参数来修改所述呈现器。音频重放系统16也可通过基于所述观看窗的所述缩放因子和所述一或多个FOV参数确定缩放观看窗的一或多个FOV参数,基于所述缩放观看窗的所述一或多个FOV参数和所述参考显示屏的所述一或多个FOV参数确定用于修改扬声器的方位角的方位角映射函数,并基于所述方位角映射函数修改所述一或多个扬声器的第一扬声器的方位角以生成用于所述第一扬声器的修改方位角,来修改所述呈现器。

所述方位角映射函数包括:

其中,表示用于所述第一扬声器的所述修改方位角;

表示用于所述第一扬声器的所述方位角;

表示所述参考显示屏的左方位角;

表示所述参考显示屏的右方位角;

表示所述缩放观看窗的左方位角;以及,

表示所述缩放观看窗的右方位角。

音频重放系统16可通过基于所述缩放因子和所述观看窗的所述一或多个FOV参数确定缩放观看窗的一或多个FOV参数,基于所述缩放观看窗的所述一或多个FOV参数和所述参考显示屏的所述一或多个FOV参数确定用于修改扬声器的仰角的仰角映射函数,并基于所述仰角映射函数来修改所述一或多个扬声器的第一扬声器的仰角以生成用于所述第一扬声器的修改仰角,来修改所述呈现器。

所述仰角映射函数包括:

其中,θ'表示用于所述第一扬声器的所述修改仰角;

θ表示用于所述第一扬声器的所述仰角;

表示所述参考显示屏的顶部仰角;

表示所述参考显示屏的底部仰角;

表示所述缩放观看窗的顶部仰角;以及,

表示所述缩放观看窗的底部仰角。

音频重放系统16可通过基于用于所述观看窗的一或多个方位角和所述缩放因子确定用于所述缩放观看窗的一或多个方位角来确定所述缩放观看窗的所述一或多个FOV参数。音频重放系统16可通过基于用于所述观看窗的一或多个仰角和所述缩放因子确定用于所述缩放观看窗的一或多个仰角来确定所述缩放观看窗的所述一或多个FOV参数。音频重放系统16可基于所述参考显示屏的所述一或多个FOV参数来确定所述参考显示屏的所述中心,并基于所述观看窗的所述一或多个FOV参数来确定所述观看窗的所述中心。

音频重放系统16可被配置成确定用于所述编码音频数据的呈现器、基于所述观看窗的所述中心和所述参考显示屏的所述中心修改所述呈现器,并基于所述修改呈现器和所述编码音频数据在所述一或多个扬声器上呈现所述HOA音频信号。

音频重放系统16可根据以下算法确定所述观看窗的所述中心:

originalWidth=originalAngles.azi(1)-originalAngles.azi(2);

originalHeight=originalAngles.ele(1)-originalAngles.ele(2);

newWidth=newAngles.azi(1)-newAngles.azi(2);

newHeight=newAngles.ele(1)-newAngles.ele(2);

originalCenter.azi=originalAngles.azi(1)-originalWidth*0.5;

originalCenter.ele=originalAngles.ele(1)-originalHeight*0.5;

newCenter.azi=newAngles.azi(1)-newWidth*0.5;

newCenter.ele=newAngles.ele(1)-newHeight*0.5,

其中“originalWidth”表示参考显示屏的宽度;“originalHeight”表示参考显示屏的高度;“originalAngles.azi(1)”表示参考显示屏的第一方位角;“originalAngles.azi(2)”表示参考显示屏的第二方位角;“originalAngles.ele(1)”表示参考显示屏的第一仰角;“originalAngles.ele(2)”表示参考显示屏的第二仰角;“newWidth”表示观看窗的宽度;“newHeight”表示观看窗的高度;“newAngles.azi(1)”表示观看窗的第一方位角;“newAngles.azi(2)”表示观看窗的第二方位角;“newAngles.ele(1)”表示观看窗的第一仰角;“newAngles.ele(2)”表示观看窗的第二仰角;“originalCenter.azi”表示参考显示屏的中心的方位角;“originalCenter.ele”表示参考显示屏的中心的仰角;“newCenter.azi”表示观看窗的中心的方位角;“newCenter.ele”表示观看窗的中心的仰角。

音频重放系统16可从所述参考显示屏的所述中心向所述观看窗的所述中心转动所述声场。

所述HOA音频信号可为负荷MPEG-H 3D的位流的一部分。所述观看窗可例如为再现显示屏或再现显示屏的一部分。所述观看窗也可对应于本地显示屏。所述参考显示屏可例如为制作显示屏。

音频重放系统16可被配置成接收指示对应于默认值的所述参考显示屏的所述一或多个FOV参数的值的语法元素,和/或接收指示与包含在包括所述HOA音频信号的位流中的发信号通知值对应的所述参考显示屏的所述一或多个FOV参数的值的语法元素。

图21为说明音频解码装置在执行本发明中所描述的基于显示屏的调适技术中的实例操作的流程图。图21的所述技术将相关于内容消费者装置14来描述,但应理解,图21的所述技术不一定限于此装置并且可通过其它类型的音频呈现装置来执行。内容消费者装置14获得用于观看窗的一或多个FOV参数和用于参考显示屏的一或多个FOV参数(1000)。内容消费者装置14可例如从包含HOA音频信号的位流获得用于所述参考显示屏的所述一或多个FOV参数。内容消费者装置14可基于本地显示器的特性,例如所述本地显示器的大小来本地获得所述观看窗的所述一或多个FOV参数。所述FOV参数也可基于特性例如所述显示器的取向、用于显示视频的缩放量和其它此些特性。基于所述参考显示屏的一或多个视场FOV参数和所述观看窗的所述一或多个FOV参数,内容消费者装置14在一或多个扬声器上呈现所述HOA音频信号(1020)。

前述技术可相关于任何数量的不同情形和音频生态系统来执行。下文描述多个实例情形,但所述技术应限于所述实例情形。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于声道的音频内容、译码引擎、游戏音频原声、游戏音频译码/呈现引擎和递送系统。

所述电影工作室、所述音乐工作室和所述游戏音频工作室可接收音频内容。在一些实例中,所述音频内容可表示获取的输出。所述电影工作室可例如通过使用数字音频工作站(DAW)来输出基于声道的音频内容(例如,呈2.0、5.1和7.1)。所述音乐工作室可例如通过使用DAW来输出基于声道的音频内容(例如,呈2.0和5.1)。在任一情况下,所述译码引擎可基于一或多个编解码器(例如,AAC、AC3、杜比真实HD、杜比数字增强版和DTS Master Audio)接收并编码所述基于声道的音频内容以通过所述递送系统来输出。所述游戏音频工作室可例如通过使用DAW来输出一或多个游戏音频原声。所述游戏音频译码/呈现引擎可译码所述音频原声和/或将所述音频原声呈现为基于声道的音频内容以通过所述递送系统来输出。可执行所述技术的另一实例情形包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费者装置上捕获、HOA音频格式、装置上呈现、消费者音频、TV和附件以及汽车音频系统。

所述广播记录音频对象、所述专业音频系统和所述消费者装置上捕获都可使用HOA音频格式对其输出进行译码。以此方式,可使用所述HOA音频格式将所述音频内容译码成单一表示,其可使用所述装置上呈现、所述消费者音频、TV和附件以及所述汽车音频系统来重放。换句话说,可在通用音频重放系统(即,与需要特定配置例如5.1、7.1等相比),例如音频重放系统16重放所述音频内容的所述单一表示。

可执行所述技术的情形的其它实例包含可包含获取元件和重放元件的音频生态系统。所述获取元件可包含有线和/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获和移动装置(例如,智能电话和平板计算机)。在一些实例中,有线及/或无线获取装置可经由一或多个有线及/或无线通信信道耦合到移动装置。

根据本发明的一或多种技术,所述移动装置可用于获取声场。例如,所述移动装置可经由所述有线及/或无线获取装置及/或所述装置上环绕声捕获(例如,集成到所述移动装置中的多个麦克风)来获取声场。所述移动装置接着可将所获取的声场编码为所述HOA系数以用于由所述重放元件中的一或多者重放。例如,所述移动装置的用户可记录(获取其声场)实时事件(例如,会面、会议、演奏、音乐会等)并将所述记录编码为HOA系数。

所述移动装置还可利用所述重放元件中的一或多者来重放所述HOA编码声场。例如,所述移动装置可对所述HOA编码声场进行解码,并将信号输出至所述重放元件中的一或多者以致使所述重放元件中的所述一或多者重新产生所述声场。作为一个实例,所述移动装置可利用所述无线及/或无线通信信道将所述信号输出至一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,所述移动装置可利用对接解决方案将所述信号输出至一或多个对接站和/或一或多个对接扬声器(例如,智能汽车及/或家庭中的声音系统)。作为另一实例,所述移动装置可利用头戴式耳机呈现将所述信号输出至一组头戴式耳机例如以形成逼真的立体声声音。

在一些实例中,特定移动装置可获取3D声场并且在稍后时间重放同一3D声场。在一些实例中,所述移动装置可获取3D声场、将所述3D声场编码为HOA且将所述编码3D声场传送至一或多个其它装置(例如,其它移动装置及/或其它非移动装置)以用于重放。

可执行所述技术的又一情形包含音频生态系统,其可包含音频内容、游戏工作室、编码音频内容、呈现引擎和递送系统。在一些实例中,所述游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。例如,所述一或多个DAW可包含可被配置成与一或多个游戏音频系统一起操作(例如,一起工作)的HOA插件及/或工具。在一些实例中,所述游戏工作室可输出支持HOA的新原声格式。在任何情况下,所述游戏工作室可将编码音频内容输出至所述再现引擎,所述再现引擎可呈现声场以用于通过所述递送系统来重放。

所述技术也可相关于示范性音频获取装置来执行。例如,所述技术可相关于可包含共同地被配置成记录3D声场的多个麦克风的本征麦克风来执行。在一些实例中,本征麦克风的所述多个麦克风可位于具有大约4cm的半径的大体上为球面球的表面上。在一些实例中,所述音频编码装置20可被集成到所述本征麦克风中以便直接从所述麦克风输出音频位流21。

另一示范性音频获取情形可包含可被配置成从一或多个麦克风,例如一或多个本征麦克风接收信号的制作车。所述制作车也可包含音频编码器,例如图3的音频编码装置20。

在一些情况下,所述移动装置也可包含共同地被配置成记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以相关于所述移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。所述移动装置还可包含音频编码器,例如图3的音频编码装置20。

加固型视频捕获装置可进一步被配置成记录3D声场。在一些实例中,所述加固型视频捕获装置可被附接到参与活动的用户的头盔。例如,所述加固型视频捕获装置可在用户漂流时附接到所述用户的头盔。以此方式,所述加固型视频捕获装置可捕获表示所述用户周围的动作(例如,水在所述用户身后的撞击、另一漂流者在所述用户前方说话等)的3D声场。

所述技术也可相关于可被配置成记录3D声场的附件增强型移动装置来执行。在一些实例中,所述移动装置可类似于上文所论述的所述移动装置,其中,所述移动装置添加了一或多个附件。例如,本征麦克风可被附接到上文所提及的移动装置以形成附件增强型移动装置。以此方式,相比仅使用与所述附件增强型移动装置成一体式的声音捕获部件,所述附件增强型移动装置可捕获所述3D声场的较高质量版本。

下文进一步论述可执行本发明中所描述的所述技术的各种方面的实例音频重放装置。根据本发明的一或多种技术,扬声器及/或声棒可被布置在任何任意配置中,同时仍然重放3D声场。此外,在一些实例中,头戴式耳机重放装置可经由有线或无线连接耦合到音频解码装置24。根据本发明的一或多种技术,可利用声场的单一通用表示来在所述扬声器、所述声棒和所述头戴式耳机重放装置的任何组合上呈现所述声场。

多个不同实例音频重放环境还可适用于执行本发明中所描述的所述技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,以及具有耳塞重放环境的移动装置。

根据本发明的一或多种技术,可利用声场的单一通用表示来在前述重放环境中的任一者上呈现所述声场。另外,本发明的所述技术使得呈现器能够从通用表示呈现声场以供在除上文所描述的重放环境之外的所述重放环境上重放。例如,如果设计考虑禁止扬声器根据7.1扬声器重放环境的恰当放置(例如,如果不可以放置右环绕扬声器),则本发明的所述技术使得呈现器能够以其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上实现重放。

此外,用户可在佩戴头戴式耳机时观看体育比赛。根据本发明的一或多种技术,可获取所述体育比赛的所述3D声场(例如,可将一或多个本征麦克风放置于棒球场中及/或其周围),可获得对应于所述3D声场的HOA系数且将所述HOA系数传送至解码器,所述解码器可基于所述HOA系数重构所述3D声场且将所述重构3D声场输出至呈现器,且所述呈现器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将所述重构3D声场呈现为致使所述头戴式耳机输出所述体育比赛的所述3D声场的表示的信号。

应理解,在上述各种情况中的每一者中,所述音频编码装置20可执行方法或以其它方式包括执行所述音频编码装置20被配置成执行的所述方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令进行配置的专用处理器。换句话说,编码实例的集合中的每一者中的所述技术的各种方面可提供存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行所述音频编码装置20已经被配置成执行的所述方法。

在一或多个实例中,所描述的功能可以用硬件、软件、固件或其任何组合实现。如果以软件实现,那么所述功能可作为一或多个指令或代码存储在计算机可读媒体上或通过所述计算机可读媒体传送,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体例如数据存储媒体。数据存储媒体可为可以由一或多个计算机或一或多个处理器存取以检索用于实现本发明中所描述的所述技术的指令、代码和/或数据结构的任何可用的媒体。计算机程序产品可包含计算机可读媒体。

同样地,应理解,在上文所描述的所述各种情况中的每一者中,所述音频解码装置24可执行方法或以其它方式包括用于执行所述音频解码装置24被配置成执行的所述方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令进行配置的专用处理器。换句话说,所述编码实例的集合中的每一者中的所述技术的各种方面可提供存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行所述音频解码装置24已经被配置成执行的所述方法。

借助于实例而非限制,此些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用于存储呈指令或数据结构形式的所要程序代码并且可由计算机存取的任何其它媒体。然而,应理解,计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是代替地针对于非暂时性有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中,磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上文的组合也应包含在计算机可读媒体的范围内。

指令可由一或多个处理器执行,所述一或多个处理器例如为一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或分立逻辑电路系统。因此,如本文中所使用的术语“处理器”可指的是上述结构或适合于实现本文中所描述的所述技术的任何其它结构中的任一者。另外,在一些方面,本文中所描述的功能可在被配置成用于编码和解码的专用硬件和/或软件模块内提供,或被并入在组合的编解码器中。并且,所述技术可完全在一或多个电路或逻辑元件中实现。

本发明的所述技术可在包含无线手机、集成电路(IC)或一组IC(例如,芯片组)的多种多样的装置或设备中实现。本发明中所描述的各种部件、模块或单元是为了强调被配置成执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。而是如上所述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或者通过包含如上所述的一或多个处理器的可交互操作的硬件单元的集合来提供。

已经描述了所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1