译码从高阶立体混响音频信号分解的向量的制作方法

文档序号:12288474阅读:182来源:国知局
译码从高阶立体混响音频信号分解的向量的制作方法与工艺

2014年5月16日申请的题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美国临时申请案第61/994,794号;

2014年5月28日申请的题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美国临时申请案第62/004,128号;

2014年7月1日申请的题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美国临时申请案第62/019,663号;

2014年7月22日申请的题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美国临时申请案第62/027,702号;

2014年7月23日申请的题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美国临时申请案第62/028,282号;

2014年8月1日申请的题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美国临时申请案第62/032,440号;

前述所列各美国临时申请案中的每一者以引用的方式并入本文中,如同在本文中按其相应全文所阐述般。

技术领域

本发明涉及音频数据,且更确切地说,涉及高阶立体混响音频数据的译码。



背景技术:

高阶立体混响(HOA)信号(常常由多个球谐系数(SHC)或其它分层元素表示)为声场的三维表示。HOA或SHC表示可按独立于用以播放从SHC信号再现的多信道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号还可促进后向兼容性,此是因为可将SHC信号再现为熟知且被高度采用的多信道格式(例如,5.1音频信道格式或7.1音频信道格式)。SHC表示因此可实现对声场的更好表示,其还适应后向兼容性。



技术实现要素:

大体上,描述用于基于一组码向量有效率地表示一经分解高阶立体混响(HOA)音频信号的v-向量(所述v-向量可表示相关联的音频物件的空间信息,例如宽度、形状、方向及位置)的技术。所述技术可涉及:将所述v-向量分解成码向量的加权总和,选择多个权重及对应码向量的子集,将所述权重的所述所选择的子集量化,及将码向量的所述所选择的子集编索引。所述技术可提供用于译码HOA音频信号的改良的位速率。

在一个方面中,一种获得多个高阶立体混响(HOA)系数的方法,所述方法包括从位流获得指示表示向量的多个权重值的数据,所述向量包含于所述多个HOA系数的经分解版本中。所述权重值中的每一者对应于表示所述向量的包含一组码向量的码向量的加权总和中的多个权重中的相应权重。所述方法进一步包括基于所述权重值及所述码向量重建构所述向量。

在另一方面中,一种经配置以获得多个高阶立体混响(HOA)系数的装置,所述装置包括一或多个处理器,所述一或多个处理器经配置以从位流获得指示表示向量的多个权重值的数据,所述向量包含于所述多个HOA系数的经分解版本中。所述权重值中的每一者对应于表示所述向量且包含一组码向量的码向量的加权总和中的多个权重中的相应权重。所述一或多个处理器经进一步配置以基于所述权重值及所述码向量重建构所述向量。所述装置还包括经配置以存储所述经重建构的向量的存储器。

在另一方面中,一种经配置以获得多个高阶立体混响(HOA)系数的装置,所述装置包括:用于从位流获得指示表示向量的多个权重值的数据的装置,所述向量包含于所述多个HOA系数的经分解版本中,所述权重值中的每一者对应于表示所述向量的包含一组码向量的码向量的加权总和中的多个权重中的相应权重;以及用于基于所述权重值及所述码向量重建构所述向量的装置。

在另一方面中,一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器进行以下操作:从位流获得指示表示向量的多个权重值的数据,所述向量包含于多个高阶立体混响(HOA)系数的经分解版本中,所述权重值中的每一者对应于表示所述向量的包含一组码向量的码向量的加权总和中的多个权重中的相应权重;以及基于所述权重值及所述码向量重建构所述向量。

在另一方面中,一种方法包括:基于一组码向量确定表示向量的一或多个权重值,所述向量包含于多个高阶立体混响(HOA)系数的经分解版本中,所述权重值中的每一者对应于表示所述向量的所述码向量的加权总和中所包含的多个权重中的相应权重。

在另一方面中,一种装置,其包括:存储器,其经配置以存储一组码向量;以及一或多个处理器,其经配置以基于所述组码向量确定表示向量的一或多个权重值,所述向量包含于多个高阶立体混响(HOA)系数的经分解版本中,所述权重值中的每一者对应于表示所述向量的所述码向量的加权总和中所包含的多个权重中的相应权重。

在另一方面中,一种设备,其包括用于关于多个高阶立体混响(HOA)系数执行分解以产生所述HOA系数的经分解版本的装置。所述设备进一步包括用于基于一组码向量确定表示向量的一或多个权重值的装置,所述向量包含于所述HOA系数的所述经分解版本中,所述权重值中的每一者对应于表示所述向量的所述码向量的加权总和中所包含的多个权重中的相应权重。

在另一方面中,一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器进行以下操作:基于一组码向量确定表示向量的一或多个权重值,所述向量包含于多个高阶立体混响(HOA)系数的经分解版本中,所述权重值中的每一者对应于表示所述向量的所述码向量的加权总和中所包含的多个权重中的相应权重。

在另一方面中,一种解码指示多个高阶立体混响(HOA)系数的音频数据的方法,所述方法包括确定是否关于所述多个HOA系数的经分解版本执行向量解量化或标量解量化。

在另一方面中,一种经配置以解码指示多个高阶立体混响(HOA)系数的音频数据的装置,所述装置包括:存储器,其经配置以存储所述音频数据;以及一或多个处理器,其经配置以确定是否关于所述多个HOA系数的经分解版本执行向量解量化或标量解量化。

在另一方面中,一种编码音频数据的方法,所述方法包括确定是否关于多个高阶立体混响(HOA)系数的经分解版本执行向量量化或标量量化。

在另一方面中,一种解码音频数据的方法,所述方法包括选择多个码簿中的一者以在关于声场的经向量量化的空间分量执行向量解量化时使用,所述经向量量化的空间分量经由对多个高阶立体混响系数应用分解而获得。

在另一方面中,一种装置,其包括:存储器,其经配置以存储多个码簿以在关于声场的经向量量化的空间分量执行向量解量化时使用,所述经向量量化的空间分量经由对多个高阶立体混响系数应用分解而获得;以及一或多个处理器,其经配置以选择所述多个码簿中的一者。

在另一方面中,一种装置,其包括:用于存储多个码簿以在关于声场的经向量量化的空间分量执行向量解量化时使用的装置,所述经向量量化的空间分量经由对多个高阶立体混响系数应用分解而获得;以及用于选择所述多个码簿中的一者的装置。

在另一方面中,一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器选择多个码簿中的一者以在关于声场的经向量量化的空间分量执行向量解量化时使用,所述经向量量化的空间分量经由对多个高阶立体混响系数应用分解而获得。

在另一方面中,一种编码音频数据的方法,所述方法包括选择多个码簿中的一者以在关于声场的空间分量执行向量量化时使用,所述空间分量经由对多个高阶立体混响系数应用分解而获得。

在另一方面中,一种装置包括:存储器,其经配置以存储多个码簿以在关于声场的空间分量执行向量量化时使用,所述空间分量经由对多个高阶立体混响系数应用分解而获得。所述装置还包括经配置以选择所述多个码簿中的一者的一或多个处理器。

在另一方面中,一种装置,其包括:用于存储多个码簿以在关于声场的空间分量执行向量量化时使用的装置,所述空间分量经由对多个高阶立体混响系数应用基于向量的合成而获得;以及用于选择所述多个码簿中的一者的装置。

在另一方面中,一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器选择多个码簿中的一者以在关于声场的空间分量执行向量量化时使用,所述空间分量经由对多个高阶立体混响系数应用基于向量的合成而获得。

在附图及以下描述中阐述所述技术的一或多个方面的细节。所述技术的其它特征、目标及优点将从所述描述及所述图式以及从权利要求书而显而易见。

附图说明

图1为说明具有各种阶数及子阶数的球谐基底函数的图。

图2为说明可执行本发明中所描述的技术的各种方面的系统的图。

图3A及3B为更详细地说明可执行本发明中所描述的技术的各种方面的图2的实例中所展示的音频编码装置的不同实例的框图。

图4A及4B为更详细地说明图2的音频解码装置的不同版本的框图。

图5为说明音频编码装置在执行本发明中所描述的基于向量的合成技术的各种方面中的示范性操作的流程图。

图6为说明音频解码装置在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。

图7及8为更详细地说明图3A或图3B的音频编码装置的V-向量译码单元的不同版本的图。

图9为说明从v-向量产生的声场的概念图。

图10为说明从v-向量的25阶模型产生的声场的概念图。

图11为说明图10中所展示的25阶模型的每一阶的加权的概念图。

图12为说明上文关于图9所描述的v-向量的5阶模型的概念图。

图13为说明图12中所展示的5阶模型的每一阶的加权的概念图。

图14为说明用以执行奇异值分解的实例矩阵的实例尺寸的概念图。

图15为说明可通过使用本发明的v-向量译码技术获得的实例性能改良的图表。

图16为展示在根据本发明中所描述的技术执行时的V-向量译码的实例的数个图。

图17为说明根据本发明的V-向量的实例基于码向量的分解的概念图。

图18为说明可藉以供图10及11中的任一者或两者的实例中所展示的V-向量译码单元使用16个不同的码向量的不同方式的图。

图19A及19B为说明可根据本发明中所描述的技术的各种方面使用的具有256行的码簿的图,其中每一行分别具有10个值及16个值。

图20为说明实例曲线的图,所述实例曲线展示根据本发明中所描述的技术的各种方面的用以选择X*数目个码向量的阈值误差。

图21为说明根据本发明的实例向量量化单元520的框图。

图22、24及26为说明向量量化单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。

图23、25及27为说明V-向量重建构单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。

具体实施方式

大体上,描述用于基于一组码向量有效率地表示经分解高阶立体混响(HOA)音频信号的v-向量(所述v-向量可表示相关联的音频物件的空间信息,例如宽度、形状、方向及位置)的技术。所述技术可涉及:将所述v-向量分解成码向量的加权总和,选择多个权重及对应码向量的子集,将所述权重的所述所选择的子集量化,及将码向量的所述所选择的子集编索引。所述技术可提供用于译码HOA音频信号的改良的位速率。

环绕声的演化现今已使得许多输出格式可用于娱乐。这些消费型环绕声格式的实例大部分为“声道”式的,此是因为其以某些几何座标隐含地指定到扩音器的馈入。消费型环绕声格式包含流行的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰度电视标准使用)。非消费型格式可横跨任何数目个扬声器(成对称及非对称几何布置),其常常被称为“环绕阵列”。此类阵列的一实例包含定位于截顶二十面体(truncated icosohedron)的拐角上的座标处的32个扩音器。

到未来MPEG编码器的输入任选地为以下三种可能格式中的一者:(i)传统的基于声道的音频(如上文所论述),其意欲经由处于预先指定的位置处的扩音器播放;(ii)基于物件的音频,其涉及用于单个音频物件的具有含有其位置座标(以及其它信息)的相关联后设数据的离散脉码调制(PCM)数据;以及(iii)基于场景的音频,其涉及使用球谐基底函数的系数(还被称为“球谐系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。所述未来MPEG编码器可能更详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411的题为“要求针对3D音频的提议(Call for Proposalsfor 3D Audio)”的文件中,所述文件于2013年1月在瑞士日内瓦发布,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip获得。

在市场中存在各种基于“环绕声”声道的格式。举例来说,其范围从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到由日本广播协会或日本广播公司(NHK)开发的22.2系统。内容建立者(例如,好莱坞工作室)将希望产生影片的音轨一次,而不花费精力来针对每一扬声器配置对其进行重混(remix)。近年来,标准开发组织一直在考虑如下方式:提供到标准化位流中的编码及后续解码(其可为调适的且不知晓播放位置(涉及再现器)处的扬声器几何布置(及数目)及声学条件)。

为了向内容建立者提供此类灵活性,可使用一组分层元素来表示声场。所述组分层元素可指其中元素经排序而使得一组基本低阶元素提供经模型化声场的完整表示的一组元素。当将所述组扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。

一组分层元素的实例为一组球谐系数(SHC)。以下表达式示范使用SHC进行的对声场的描述或表示:

所述表达式展示:在时间t在声场的任何点处的压力pi可独特地由SHC来表示。此处,c为音速(~343m/s),为参考点(或观测点),jn(·)为n阶球面贝塞尔函数,且为n阶及m子阶球谐基底函数。可认识到,方括号中的术语为可通过各种时间-频率变换来近似的信号的频域表示(即,),所述变换例如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层组的其它实例包含数组小波变换系数及其它数组多分辨率基底函数系数。

图1为说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。如可见,对于每一阶来说,存在m子阶的扩展,出于易于说明的目的,在图1的实例中展示了所述子阶但未明确地提及。

可通过各种麦克风阵列配置来实体地获取(例如,记录)SHC或替代地,可从声场的基于声道或基于物件的描述导出SHC。SHC表示基于场景的音频,其中可将SHC输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效率的传输或存储。举例来说,可使用涉及(1+4)2(25,且因此为四阶)系数的四阶表示。

如上文所提及,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M.的“基于球谐的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004到1025页)中。

为了说明可如何从基于物件的描述导出SHC,考虑以下方程式。可将对应于个别音频物件的声场的系数表达为:

其中i为为n阶球面汉克尔函数(第二种类),且为物件的位置。知道依据频率的物件源能量g(ω)(例如,使用时间-频率分析技术,例如,对PCM串流执行快速傅立叶变换)允许我们将每一PCM物件及对应位置转换成SHC另外,可展示(因为上述情形为线性及正交分解)每一物件的系数为加成性的。以此方式,可由系数表示众多PCM物件(例如,作为用于个别物件的系数向量的总和)。基本上,所述系数含有关于声场的信息(依据3D座标的压力),且上述情形表示在观测点附近从个别物件到整个声场的表示的变换。下文在基于物件及基于SHC的音频译码的内容脉络中描述剩余诸图。

图2为说明可执行本发明中所描述的技术的各种方面的系统10的图。如图2的实例中所展示,系统10包含内容建立者装置12及内容消费者装置14。虽然在内容建立者装置12及内容消费者装置14的内容脉络中加以描述,但可在声场的SHC(其还可被称作HOA系数)或任何其它分层表示经编码以形成表示音频数据的位流的任何内容脉络中实施所述技术。此外,内容建立者装置12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能手机或台式计算机(提供几个实例)。同样地,内容消费者装置14可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能手机、机顶盒,或台式计算机(提供几个实例)。

内容建立者装置12可由影片工作室或可产生多声道音频内容以供内容消费者装置(例如,内容消费者装置14)的操作者消耗的其它实体来操作。在一些实例中,内容建立者装置12可由将希望压缩HOA系数11的个别用户操作。常常,内容建立者产生音频内容连同视频内容。内容消费者装置14可由个体来操作。内容消费者装置14可包含音频播放系统16,其可指能够再现SHC以供作为多声道音频内容播放的任何形式的音频播放系统。

内容建立者装置12包含音频编辑系统18。内容建立者装置12获得呈各种格式(包含直接作为HOA系数)的实况记录7及音频物件9,内容建立者装置12可使用音频编辑系统18对实况记录7及音频物件9进行编辑。麦克风5可捕获实况记录7。内容建立者可在编辑处理程序期间从音频物件9再现HOA系数11,从而在识别声场的需要进一步编辑的各种方面的尝试中倾听所再现的扬声器馈入。内容建立者装置12可接着编辑HOA系数11(可能经由操纵可供以上文所描述的方式导出源HOA系数的音频物件9中的不同者间接地编辑)。内容建立者装置12可使用音频编辑系统18产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球谐系数的任何系统。

当编辑处理程序完成时,内容建立者装置12可基于HOA系数11产生位流21。即,内容建立者装置12包含音频编码装置20,所述音频编码装置20表示经配置以根据本发明中所描述的技术的各种方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供传输,作为一实例,跨越传输信道(其可为有线或无线信道、数据存储装置或其类似者)。位流21可表示HOA系数11的经编码版本,且可包含主要位流及另一旁侧位流(其可被称作旁侧声道信息)。

虽然在图2中经展示为直接传输到内容消费者装置14,但内容建立者装置12可将位流21输出到定位于内容建立者装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以供稍后递送到可能请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网页服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能手机,或能够存储位流21以供音频解码器稍后检索的任何其它装置。所述中间装置可驻留于能够将位流21串流传输(且可能结合传输对应视频数据位流)到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。

替代地,内容建立者装置12可将位流21存储到存储媒体,例如紧密光盘、数字多功能光盘、高清晰度视频光盘或其它存储媒体,其中的大部分能够由计算机读取且因此可被称作计算机可读存储媒体或非暂时性计算机可读存储媒体。在此内容脉络中,传输信道可指藉以传输存储到所述媒体的内容的那些信道(且可包含零售商店及其它基于商店的递送机构)。在任何情况下,本发明的技术因此在这方面不应限于图2的实例。

如图2的实例中进一步展示,内容消费者装置14包含音频播放系统16。音频播放系统16可表示能够播放多声道音频数据的任何音频播放系统。音频播放系统16可包含数个不同再现器22。再现器22可各自提供不同形式的再现,其中不同形式的再现可包含执行基于向量的振幅移动(VBAP)的各种方式中的一或多者及/或执行声场合成的各种方式中的一或多者。如本文所使用,“A及/或B”意味着“A或B”,或“A及B”两者。

音频播放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11,但归因于经由传输信道的有损操作(例如,量化)及/或传输而有所不同。音频播放系统16可在解码位流21之后获得HOA系数11'且再现HOA系数11'以输出扩音器馈入25。扩音器馈入25可驱动一或多个扩音器(其出于易于说明的目的而未在图2的实例中加以展示)。

为了选择适当再现器或在一些情况下产生适当再现器,音频播放系统16可获得指示扩音器的数目及/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频播放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扩音器而获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频播放系统16可提示用户与音频播放系统16介接且输入扩音器信息13。

音频播放系统16可接着基于扩音器信息13选择音频再现器22中的一者。在一些情况下,当音频再现器22中无一者在与扩音器信息13中所指定的扩音器几何布置处于某一阈相似度度量(依据扩音器几何布置)内时,音频播放系统16可基于扩音器信息13产生音频再现器22中的所述者。在一些情况下,音频播放系统16可基于扩音器信息13产生音频再现器22中的一者,而不会首先试图选择音频再现器22中的现有的一者。一或多个扬声器3可接着播放经再现的扩音器馈入25。

图3A为更详细地说明可执行本发明中所描述的技术的各种方面的图2的实例中所展示的音频编码装置20的实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27及基于方向的分解单元28。尽管下文简要描述,但关于音频编码装置20及压缩或以其它方式编码HOA系数的各种方面的更多信息可在2014年5月29日申请的题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的国际专利申请公开案第WO 2014/194099号中获得。

内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11表示从实况记录产生的内容还是从音频物件产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的记录产生还是从人工音频物件产生。在一些情况下,当帧式HOA系数11是从记录产生时,内容分析单元26将HOA系数11传递到基于向量的分解单元27。在一些情况下,当帧式HOA系数11是从合成音频物件产生时,内容分析单元26将HOA系数11传递到基于方向的合成单元28。基于方向的合成单元28可表示经配置以执行对HOA系数11的基于方向的合成以产生基于方向的位流21的单元。

如图3A的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重新排序单元34、前景选择单元36、能量补偿单元38、心理声学音频译码器单元40、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、空间-时间内插单元50及V-向量译码单元52。

线性可逆变换(LIT)单元30接收呈HOA声道形式的HOA系数11,每一声道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2

LIT单元30可表示经配置以执行被称作奇异值分解的形式的分析的单元。虽然关于SVD加以描述,但可关于提供数组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的所述技术。又,本发明中对“组”的提及大体上意欲指非零组(除非特别地相反陈述),且并不意欲指包含所谓的“空组”的组的经典数学定义。替代变换可包括常常被称作“PCA”的主分量分析。取决于内容脉络,可通过数个不同名称来提及PCA,例如离散卡忽南-拉维变换(discrete Karhunen-Loeve transform)、哈特林变换(Hotelling transform)、适当正交分解(POD)及本征值分解(EVD)(仅举几个实例)。有利于压缩音频数据的基本目标的这些操作的性质为多声道音频数据的“能量压缩”及“解相关”。

在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其再次可被称作“SVD”),LIT单元30可将HOA系数11变换成两组或多于两组经变换的HOA系数。“数组”经变换的HOA系数可包含经变换的HOA系数的向量。在图3A的实例中,LIT单元30可关于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多声道音频数据,例如HOA系数11)的因子分解:

X=USV*

U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多声道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多声道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多声道音频数据的右奇异向量。

在一些实例中,将上文提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或,换句话说,V*矩阵)可被视为V矩阵的转置。下文为易于说明的目的,假定:HOA系数11包括实数,结果为经由SVD而非V*矩阵输出V矩阵。此外,虽然在本发明中表示为V矩阵,但在适当时,对V矩阵的提及应被理解为是指V矩阵的转置。虽然假定为V矩阵,但所述技术可按类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,在这方面,所述技术不应限于仅提供应用SVD以产生V矩阵,而可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。

以此方式,LIT单元30可关于HOA系数11执行SVD以输出具有维度D:M×(N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本),及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素还可被称为XPS(k),而V[k]矩阵中的个别向量还可被称为v(k)。

U、S及V矩阵的分析可揭示:所述矩阵携有或表示上文由X表示的基础声场的空间及时间特性。U(长度为M个样本)中的N个向量中的每一者可表示依据时间(对于由M个样本表示的时间段)的经正规化的分离音频信号,其彼此正交且已与任何空间特性(其还可被称作方向信息)解耦。表示空间形状及位置的空间特性可改为由V矩阵中的个别第i向量v(i)(k)(每一者具有长度(N+1)2)表示。v(i)(k)向量中的每一者的个别元素可表示描述针对相关联的音频物件的声场的形状(包含宽度)及位置的HOA系数。U矩阵及V矩阵两者中的向量经正规化而使得其均方根能量等于单位。U中的音频信号的能量因此由S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有能量的音频信号。进行SVD分解以使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中所描述的技术的各种方面。另外,由US[k]与V[k]的向量乘法合成基础HOA[k]系数X的模型引出贯穿此文件使用的术语“基于向量的分解”。

尽管描述为直接关于HOA系数11执行,但LIT单元30可将线性可逆变换应用于HOA系数11的导数。举例来说,LIT单元30可关于从HOA系数11导出的功率谱密度矩阵应用SVD。由关于HOA系数的功率谱密度(PSD)而非系数自身执行SVD,LIT单元30可在处理器循环及存储空间中的一或多者方面可能地降低执行SVD的计算复杂性,同时实现相同的源音频编码效率,如同SVD是直接应用于HOA系数一般。

参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向性质参数及能量性质(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]及e[k]。参数计算单元32可关于US[k]向量33执行能量分析及/或相关(或所谓的交叉相关)以识别所述参数。参数计算单元32还可确定用于先前帧的参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、r[k-1]及e[k-1]。参数计算单元32可将当前参数37及先前参数39输出到重新排序单元34。

由参数计算单元32计算的参数可供重新排序单元34用以将音频物件重新排序以表示其自然评估或随时间推移的连续性。重新排序单元34可逐轮地比较来自第一US[k]向量33的参数37中的每一者与用于第二US[k-1]向量33的参数39中的每一者。重新排序单元34可基于当前参数37及先前参数39将US[k]矩阵33及V[k]矩阵35内的各种向量重新排序(作为一实例,使用匈牙利算法(Hungarian algorithm))以将经重新排序的US[k]矩阵33'(其可在数学上表示为)及经重新排序的V[k]矩阵35'(其可在数学上表示为)输出到前景声音(或占优势声音--PS)选择单元36(“前景选择单元36”)及能量补偿单元38。

声场分析单元44可表示经配置以关于HOA系数11执行声场分析以便有可能实现目标位速率41的单元。声场分析单元44可基于分析及/或基于所接收目标位速率41,确定心理声学译码器执行个体的总数目(其可为环境或背景声道的总数目(BGTOT)的函数)及前景声道(或换句话说,占优势声道)的数目。心理声学译码器执行个体的总数目可表示为numHOATransportChannels。

再次为了可能地实现目标位速率41,声场分析单元44还可确定前景声道的总数目(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHOAorder)、表示背景声场的最小阶数的实际声道的对应数目(nBGa=(MinAmbHOAorder+1)2),及待发送的额外BG HOA声道的索引(i)(其在图3A的实例中可共同地表示为背景声道信息43)。背景声道信息42还可被称作环境声道信息43。numHOATransportChannels-nBGa后剩余的声道中的每一者可为“额外背景/环境声道”、“作用中的基于向量的占优势声道”、“作用中的基于方向的占优势信号”或“完全不活动”。在一方面中,可由两个位以(“ChannelType”)语法元素形式指示声道类型:(例如,00:基于方向的信号;01:基于向量的占优势信号;10:额外环境信号;11:非作用中信号)。背景或环境信号的总数目nBGa可由(MinAmbHOAorder+1)2+在用于所述帧的位流中以声道类型形式显现索引10(在上述实例中)的次数给出。

声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)声道的数目及前景(或换句话说,占优势)声道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景及/或前景声道。在一方面中,在位流的标头区段中,numHOATransportChannels可被设置为8,而MinAmbHOAorder可被设置为1。在此情境下,在每个帧处,四个声道可专用于表示声场的背景或环境部分,而其它4个声道可逐帧地在声道类型上变化--例如,用作额外背景/环境声道或前景/占优势声道。前景/占优势信号可为基于向量或基于方向的信号中的一者,如上文所描述。

在一些情况下,用于帧的基于向量的占优势信号的总数目可由所述帧的位流中ChannelType索引为01的次数给出。在上述方面中,对于每个额外背景/环境声道(例如,对应于ChannelType 10),可在所述声道中表示可能的HOA系数(前四个除外)中的哪一者的对应信息。对于四阶HOA内容,所述信息可为指示HOA系数5到25的索引。可在minAmbHOAorder被设置为1时始终发送前四个环境HOA系数1到4,因此,音频编码装置可能仅需要指示额外环境HOA系数中具有索引5到25的一者。因此可使用5位语法元素(对于四阶内容)发送所述信息,其可表示为“CodedAmbCoeffIdx”。在任何情况下,声场分析单元44将背景声道信息43及HOA系数11输出到背景(BG)选择单元36,将背景声道信息43输出到系数减少单元46及位流产生单元42,且将nFG 45输出到前景选择单元36。

背景选择单元48可表示经配置以基于背景声道信息(例如,背景声场(NBG)以及待发送的额外BG HOA声道的数目(nBGa)及索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择用于具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位流产生单元42以便使得音频解码装置(例如,图4A及4B的实例中所展示的音频解码装置24)能够从位流21解析背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。环境HOA系数47还可被称作“环境HOA系数47”,其中环境HOA系数47中的每一者对应于待由心理声学音频译码器单元40编码的单独环境HOA声道47。

前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或特异分量的经重新排序的US[k]矩阵33'及经重新排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重新排序的US[k]1,…,nFG49、FG1,…,nfG[k]49或49)输出到心理声学音频译码器单元40,其中nFG信号49可具有维度D:M×nFG且每一者表示单声道-音频物件。前景选择单元36还可将对应于声场的前景分量的经重新排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中对应于前景分量的经重新排序的V[k]矩阵35'的子集可表示为前景V[k]矩阵51k(其可在数学上表示为),其具有维度D:(N+1)2×nFG。

能量补偿单元38可表示经配置以关于环境HOA系数47执行能量补偿以补偿归因于通过背景选择单元48移除HOA声道中的各者而产生的能量损失的单元。能量补偿单元38可关于经重新排序的US[k]矩阵33'、经重新排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k及环境HOA系数47中的一或多者执行能量分析,且接着基于能量分析执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到心理声学音频译码器单元40。

空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k及前一帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插的前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重新排序的前景HOA系数。空间-时间内插单元50可接着将经重新排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。空间-时间内插单元50还可输出用以产生经内插的前景V[k]向量的前景V[k]向量51k,以使得音频解码装置(例如,音频解码装置24)可产生经内插的前景V[k]向量且进而恢复前景V[k]向量51k。将用以产生经内插的前景V[k]向量的前景V[k]向量51k表示为剩余前景V[k]向量53。为了确保在编码器及解码器处使用相同的V[k]及V[k-1](以建立经内插的向量V[k]),可在编码器及解码器处使用向量的经量化/经解量化的版本。空间-时间内插单元50可将经内插的nFG信号49'输出到心理声学音频译码器单元46且将经内插的前景V[k]向量51k输出到系数减少单元46。

系数减少单元46可表示经配置以基于背景声道信息43关于剩余前景V[k]向量53执行系数减少以将减少的前景V[k]向量55输出到V-向量译码单元52的单元。减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。在这方面,系数减少单元46可表示经配置以减少剩余前景V[k]向量53的系数的数目的单元。换句话说,系数减少单元46可表示经配置以消除前景V[k]向量中具有极少或几乎没有方向信息的系数(其形成剩余前景V[k]向量53)的单元。在一些实例中,特异或(换句话说)前景V[k]向量的对应于一阶及零阶基底函数的系数(其可表示为NBG)提供极少方向信息,且因此可将其从前景V-向量移除(经由可被称作“系数减少”的处理程序)。在此实例中,可提供较大灵活性以使得不仅从组[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA声道(其可由变量TotalOfAddAmbHOAChan表示)。

V-向量译码单元52可表示经配置以执行任何形式的量化以压缩减少的前景V[k]向量55以产生经译码前景V[k]向量57从而将经译码前景V[k]向量57输出到位流产生单元42的单元。在操作中,V-向量译码单元52可表示经配置以压缩声场的空间分量(即,在此实例中为减少的前景V[k]向量55中的一或多者)的单元。V-向量译码单元52可执行如由表示为“NbitsQ”的量化模式语法元素指示的以下12种量化模式中的任一者。

V-向量译码单元52还可执行前述类型的量化模式中的任一者的预测版本,其中确定前一帧的V-向量的元素(或执行向量量化时的权重)与当前帧的V-向量的元素(或执行向量量化时的权重)之间的差。V-向量译码单元52可接着将当前帧与前一帧的元素或权重之间的差而非当前帧自身的V-向量的元素的值量化。

V-向量译码单元52可关于减少的前景V[k]向量55中的每一者执行多种形式的量化以获得减少的前景V[k]向量55的多个经译码版本。V-向量译码单元52可选择减少的前景V[k]向量55的经译码版本中的一者作为经译码前景V[k]向量57。换句话说,V-向量译码单元52可基于本发明中所论述的准则的任何组合选择以下各者中的一者以用作输出经切换式量化的V-向量:未经预测的经向量量化的V-向量、经预测的经向量量化的V-向量、未经霍夫曼译码的经标量量化的V-向量,及经霍夫曼译码的经标量量化的V-向量。

在一些实例中,V-向量译码单元52可从包含向量量化模式及一或多个标量量化模式的一组量化模式中选择量化模式,且基于(或根据)所述所选择的模式将输入V-向量量化。V-向量译码单元52可接着将以下各者中的所选择者提供到位流产生单元52以用作经译码前景V[k]向量57:未经预测的经向量量化的V-向量(例如,在权重值或指示权重值的位方面)、经预测的经向量量化的V-向量(例如,在误差值或指示误差值的位方面)、未经霍夫曼译码的经标量量化的V-向量,及经霍夫曼译码的经标量量化的V-向量。V-向量译码单元52还可提供指示量化模式的语法元素(例如,NbitsQ语法元素)及用以将V-向量解量化或以其它方式重建构V-向量的任何其它语法元素。

关于向量量化,v-向量译码单元52可基于码向量63译码减少的前景V[k]向量55以产生经译码V[k]向量。如图3A中所展示,v-向量译码单元52在一些实例中可输出经译码权重57及索引73。在这些实例中,经译码权重57及索引73可一起表示经译码V[k]向量。索引73可表示译码向量的加权总和中的哪些码向量对应于经译码权重57中的权重中的每一者。

为了译码减少的前景V[k]向量55,v-向量译码单元52在一些实例中可基于码向量63将减少的前景V[k]向量55中的每一者分解成码向量的加权总和。码向量的加权总和可包含多个权重及多个码向量,且可表示可将权重中的每一者的乘积的总和乘以码向量中的相应码向量。码向量的加权总和中所包含的所述多个码向量可对应于由v-向量译码单元52接收的码向量63。将减少的前景V[k]向量55中的一者分解成码向量的加权总和可涉及确定码向量的加权总和中所包含的权重中的一或多者的权重值。

在确定对应于码向量的加权总和中所包含的权重的权重值之后,v-向量译码单元52可译码权重值中的一或多者以产生经译码权重57。在一些实例中,译码权重值可包含将权重值量化。在其它实例中,译码权重值可包含将权重值量化及关于经量化的权重值执行霍夫曼译码。在额外实例中,译码权重值可包含使用任何译码技术译码以下各者中的一或多者:权重值、指示权重值的数据、经量化的权重值、指示经量化的权重值的数据。

在一些实例中,码向量63可为一组正规正交向量。在其它实例中,码向量63可为一组伪正规正交向量。在额外实例中,码向量63可为以下各者中的一或多者:一组方向向量、一组正交方向向量、一组正规正交方向向量、一组伪正规正交方向向量、一组伪正交方向向量、一组方向基底向量、一组正交向量、一组伪正交向量、一组球谐基底向量、一组经正规化的向量,及一组基底向量。在码向量63包含方向向量的实例中,方向向量中的每一者可具有对应于2D或3D空间中的方向或定向辐射型样的方向性。

在一些实例中,码向量63可为一组预定义及/或预定码向量63。在额外实例中,码向量可独立于基础HOA声场系数及/或并非基于基础HOA声场系数而产生。在其它实例中,当译码HOA系数的不同帧时,码向量63可为相同的。在额外实例中,当译码HOA系数的不同帧时,码向量63可为不同的。在额外实例中,码向量63可替代地被称作码簿向量及/或候选码向量。

在一些实例中,为了确定对应于减少的前景V[k]向量55中的一者的权重值,v-向量译码单元52可针对码向量的加权总和中的权重值中的每一者将减少的前景V[k]向量乘以码向量63中的相应码向量以确定相应权重值。在一些状况下,为了将减少的前景V[k]向量乘以码向量,v-向量译码单元52可将减少的前景V[k]向量乘以码向量63中的相应码向量的转置以确定相应权重值。

为了将权重量化,v-向量译码单元52可执行任何类型的量化。举例来说,v-向量译码单元52可关于权重值执行标量量化、向量量化或矩阵量化。

在一些实例中,代替译码所有权重值以产生经译码权重57,v-向量译码单元52可译码码向量的加权总和中所包含的权重值的子集以产生经译码权重57。举例来说,v-向量译码单元52可将码向量的加权总和中所包含的一组权重值量化。码向量的加权总和中所包含的权重值的子集可指权重值的数目小于码向量的加权总和中所包含的整组权重值中的权重值的数目的一组权重值。

在一些实例中,v-向量译码单元52可基于各种准则选择码向量的加权总和中所包含的权重值的子集以进行译码及/或量化。在一个实例中,整数N可表示码向量的加权总和中所包含的权重值的总数目,且v-向量译码单元52可从所述组N个权重值中选择M个最大权重值(即,最大值权重值)以形成权重值的子集,其中M为小于N的整数。以此方式,可保留对经分解的v-向量做出相对大量贡献的码向量的贡献,同时可丢弃对经分解的v-向量做出相对小量贡献的码向量的贡献,从而增加译码效率。还可使用其它准则来选择权重值的子集以用于进行译码及/或量化。

在一些实例中,M个最大权重值可为来自所述组N个权重值的具有最大值的M个权重值。在其它实例中,M个最大权重值可为来自所述组N个权重值的具有最大绝对值的M个权重值。

在v-向量译码单元52译码权重值的子集及/或将权重值的子集量化的实例中,除指示权重值的经量化的数据之外,经译码权重57还可包含指示选择权重值中的哪些者用于进行量化及/或译码的数据。在一些实例中,指示选择权重值中的哪些者用于进行量化及/或译码的数据可包含来自对应于码向量的加权总和中的码向量的一组索引中的一或多个索引。在这些实例中,对于经选择以用于进行译码及/或量化的权重中的每一者,可将对应于码向量的加权总和中的权重值的码向量的索引值包含于位流中。

在一些实例中,可基于以下表达式表示减少的前景V[k]向量55中的每一者:

其中Ωj表示一组码向量({Ωj})中的第j码向量,ωj表示一组权重({ωj})中的第j权重,且VFG对应于由v-向量译码单元52表示、分解及/或译码的v-向量。表达式(1)的右侧可表示包含一组权重({ωj})及一组码向量({Ωj})的码向量的加权总和。

在一些实例中,v-向量译码单元52可基于以下方程式确定权重值:

其中表示一组码向量({Ωk})中的第k码向量的转置,VFG对应于由v-向量译码单元52表示、分解及/或译码的v-向量,且ωk表示一组权重({ωk})中的第j权重。

在所述组码向量({Ωj})正规正交的实例中,以下表达式可适用:

在这些实例中,方程式(2)的右侧可简化如下:

其中ωk对应于码向量的加权总和中的第k权重。

对于方程式(1)中所使用的码向量的实例加权总和,v-向量译码单元52可使用方程式(2)计算码向量的加权总和中的权重中的每一者的权重值且可将所得权重表示为:

k}k=1,…,25 (5)

考虑v-向量译码单元52选择五个最大权重值(即,具有最大值或绝对值的权重)的实例。可将待量化的权重值的子集表示为:

可使用权重值的子集以及其对应码向量形成估计v-向量的码向量的加权总和,如以下表达式中所展示:

其中Ωj表示码向量({Ωj})的子集中的第j码向量,表示权重()的子集中的第j权重,且对应于所估计的v-向量,其对应于由v-向量译码单元52分解及/或译码的v-向量。表达式(1)的右侧可表示包含一组权重()及一组码向量({Ωj})的码向量的加权总和。

v-向量译码单元52可将权重值的子集量化以产生经量化的权重值,其可表示为:

可使用经量化的权重值以及其对应码向量形成表示所估计的v-向量的经量化的版本的码向量的加权总和,如以下表达式中所展示:

其中Ωj表示码向量({Ωj})的子集中的第j码向量,表示权重()的子集中的第j权重,且对应于所估计的v-向量,其对应于由v-向量译码单元52分解及/或译码的v-向量。表达式(1)的右侧可表示包含一组权重()及一组码向量({Ωj})的码向量的子集的加权总和。

前文的替代重新叙述(其大部分等效于上文所描述的叙述)可如下。可基于一组预定义码向量译码V-向量。为了译码V-向量,将每一V-向量分解成码向量的加权总和。码向量的加权总和由k对预定义码向量及相关联权重组成:

其中Ωj表示一组预定义码向量({Ωj})中的第j码向量,ωj表示一组预定义权重({ωj})中的第j实数值权重,k对应于加数的索引(其可高达7),且V对应于经译码的V-向量。k的选择取决于编码器。如果编码器选择两个或多于两个码向量的加权总和,那么编码器可选择的预定义码向量的总数目为(N+1)2,其中在一些实例中,预定义码向量是从表F.2到F.11导出作为HOA扩展系数。对通过F后接续句号点及数字表示的表格的参考是指在MPEG-H 3D音频标准(题为“信息技术-异质环境中的高效率译码及媒体递送-第3部分:3D音频(Information Technology-High efficiency coding and media delivery in heterogeneous environments-Part 3:3D Audio)”,ISO/IEC JTC1/SC 29,日期为2015-2-20(2015年2月20日),ISO/IEC 23008-3:2015(E),ISO/IEC JTC 1/SC 29/WG 11(文件名称:ISO_IEC_23008-3(E)-Word_document_v33.doc))的附录F中指定的表格。

当N为4时,使用附录F.6中具有32个预定义方向的表格。在所有状况下,将权重ω的绝对值关于下文所展示的表F.12中的表格之前k+1列中可见的且由相关联的行编号索引用信号通知的预定义加权值向量量化。

将权重ω的数字正负号分别译码为

换句话说,在用信号通知值k之后,由指向k+1个预定义码向量{Ωj}的k+1个索引、指向预定义加权码簿中的k个经量化的权重的一索引及k+1个数字正负号值sj编码V-向量:

如果编码器选择码向量的加权总和,那么结合表F.11的表格中的绝对加权值使用从表F.8导出的码簿,其中在下文展示这些表格中的两者。又,可分别译码加权值ω的数字正负号。

在这方面,所述技术可使得音频编码装置20能够选择多个码簿中的一者以在关于声场的空间分量执行向量量化时使用,所述空间分量经由对多个高阶立体混响系数应用基于向量的合成而获得。

此外,所述技术可使得音频编码装置20能够在多个成对码簿中选择以在关于声场的空间分量执行向量量化时使用,所述空间分量经由对多个高阶立体混响系数应用基于向量的合成而获得。

在一些实例中,V-向量译码单元52可基于一组码向量确定表示向量的一或多个权重值,所述向量包含于多个高阶立体混响(HOA)系数的经分解版本中。所述权重值中的每一者可对应于表示所述向量的码向量的加权总和中所包含的多个权重中的相应权重。

在这些实例中,V-向量译码单元52在一些实例中可将指示权重值的数据量化。在这些实例中,为了将指示权重值的数据量化,V-向量译码单元52在一些实例中可选择权重值的子集以进行量化,且将指示权重值的所选择的子集的数据量化。在这些实例中,V-向量译码单元52在一些实例中可能并不将指示并未包含于权重值的所选择的子集中的权重值的数据量化。

在一些实例中,V-向量译码单元52可确定一组N个权重值。在这些实例中,V-向量译码单元52可从所述组N个权重值中选择M个最大权重值以形成权重值的子集,其中M小于N。

为了将指示权重值的数据量化,V-向量译码单元52可关于指示权重值的数据执行标量量化、向量量化及矩阵量化中的至少一者。除上文所提及的量化技术的外或代替上文所提及的量化技术,还可执行其它量化技术。

为了确定权重值,V-向量译码单元52可针对权重值中的每一者基于码向量63中的相应码向量确定相应权重值。举例来说,V-向量译码单元52可将向量乘以码向量63中的相应码向量以确定相应权重值。在一些状况下,V-向量译码单元52可涉及将向量乘以码向量63中的相应码向量的转置以确定相应权重值。

在一些实例中,HOA系数的经分解版本可为HOA系数的奇异值经分解版本。在其它实例中,HOA系数的经分解版本可为以下各者中的至少一者:HOA系数的经主分量分析(PCA)版本、HOA系数的经卡忽南-拉维变换版本、HOA系数的经哈特林变换版本、HOA系数的经适当正交分解(POD)版本,及HOA系数的经本征值分解(EVD)版本。

在其它实例中,所述组码向量63可包含以下各者中的至少一者:一组方向向量、一组正交方向向量、一组正规正交方向向量、一组伪正规正交方向向量、一组伪正交方向向量、一组方向基底向量、一组正交向量、一组正规正交向量、一组伪正规正交向量、一组伪正交向量、一组球谐基底向量、一组经正规化的向量,及一组基底向量。

在一些实例中,V-向量译码单元52可使用分解码簿来确定用以表示V-向量(例如,减少的前景V[k]向量)的权重。举例来说,V-向量译码单元52可从一组候选分解码簿中选择分解码簿,且基于所选择的分解码簿确定表示V-向量的权重。

在一些实例中,候选分解码簿中的每一者可对应于一组码向量63,所述组码向量63可用以分解V-向量及/或确定对应于V-向量的权重。换句话说,每一不同的分解码簿对应于可用以分解V-向量的一组不同的码向量63。分解码簿中的每一条目对应于所述组码向量中的向量中的一者。

分解码簿中的所述组码向量可对应于用以分解V-向量的码向量的加权总和中所包含的所有码向量。举例来说,所述组码向量可对应于表达式(1)的右侧上所展示的码向量的加权总和中所包含的所述组码向量63({Ωj})。在此实例中,码向量63中的每一码向量(即,Ωj)可对应于分解码簿中的条目。

在一些实例中,不同的分解码簿可具有相同数目个码向量63。在其它实例中,不同的分解码簿可具有不同数目个码向量63。

举例来说,候选分解码簿中的至少两者可具有不同数目个条目(即,在此实例中为码向量63)。作为另一实例,所有候选分解码簿可具有不同数目个条目63。作为另一实例,候选分解码簿中的至少两者可具有相同数目个条目63。作为额外实例,所有候选分解码簿可具有相同数目个条目63。

V-向量译码单元52可基于一或多个各种准则从所述组候选分解码簿中选择分解码簿。举例来说,V-向量译码单元52可基于对应于每一分解码簿的权重选择分解码簿。举例来说,V-向量译码单元52可执行对应于每一分解码簿的权重的分析(从表示V-向量的对应加权总和)以确定在某一裕度的准确度(如例如由阈值误差定义)内表示V-向量需要多少个权重。V-向量译码单元52可选择需要最少数目个权重的分解码簿。在额外实例中,V-向量译码单元52可基于基础声场的特性(例如,人工建立、自然记录、高度分散等)选择分解码簿。

为了基于所选择的码簿确定权重(即,权重值),V-向量译码单元52可针对权重中的每一者选择对应于相应权重(如例如由“WeightIdx”语法元素识别)的码簿条目(即,码向量),且基于所选择的码簿条目确定相应权重的权重值。为了基于所选择的码簿条目确定权重值,V-向量译码单元52在一些实例中可将V-向量乘以由所选择的码簿条目指定的码向量63以产生权重值。举例来说,V-向量译码单元52可将V-向量乘以由所选择的码簿条目指定的码向量63的转置以产生标量权重值。作为另一实例,方程式(2)可用以确定权重值。

在一些实例中,分解码簿中的每一者可对应于多个量化码簿中的相应量化码簿。在这些实例中,当V-向量译码单元52选择分解码簿时,V-向量译码单元52还可选择对应于所述分解码簿的量化码簿。

V-向量译码单元52可将指示选择哪一分解码簿(例如,CodebkIdx语法元素)来译码减少的前景V[k]向量55中的一或多者的数据提供到位流产生单元42,以使得位流产生单元42可将此数据包含于所得位流中。在一些实例中,V-向量译码单元52可针对待译码的HOA系数的每一帧选择分解码簿来使用。在这些实例中,V-向量译码单元52可将指示选择哪一分解码簿来译码每一帧的数据(例如,CodebkIdx语法元素)提供到位流产生单元42。在一些实例中,指示选择哪一分解码簿的数据可为对应于所选择的码簿的码簿索引及/或识别值。

在一些实例中,V-向量译码单元52可选择指示将使用多少个权重来估计V-向量(例如,减少的前景V[k]向量)的数目。指示将使用多少个权重来估计V-向量的数目还可指示将由V-向量译码单元52及/或音频编码装置20量化及/或译码的权重的数目。指示将使用多少个权重来估计V-向量的数目还可被称作待量化及/或译码的权重的数目。指示多少个权重的此数目可替代地表示为这些权重所对应于的码向量63的数目。此数目因此还可表示为用以将经向量量化的V-向量解量化的码向量63的数目,且可由NumVecIndices语法元素来表示。

在一些实例中,V-向量译码单元52可基于针对特定V-向量所确定的权重值选择待针对所述特定V-向量进行量化及/或译码的权重的数目。在额外实例中,V-向量译码单元52可基于与使用一或多个特定数目个权重估计特定V-向量相关联的误差选择待针对所述V-向量进行量化及/或译码的权重的数目。

举例来说,V-向量译码单元52可确定与估计V-向量相关联的误差的最大误差阈值,且可确定使得由所述数目个权重估计的所估计的V-向量与V-向量之间的误差小于或等于最大误差阈值需要多少个权重。在来自码簿的少于全部的码向量用于加权总和中的情况下,所估计的向量可对应于码向量的加权总和。

在一些实例中,V-向量译码单元52可基于以下方程式确定使得误差低于阈值需要多少个权重:

其中Ωi表示第i码向量,ωi表示第i权重,VFG对应于由V-向量译码单元52分解、量化及/或译码的V-向量,且|x|α为值x的范数,其中α为指示使用哪种类型的范数的值。举例来说,α=1表示L1范数且α=2表示L2范数。图20为说明实例曲线700的图,所述实例曲线700展示根据本发明中所描述的技术的各种方面的用以选择X*数目个码向量的阈值误差。曲线700包含线702,所述线说明误差如何随着码向量的数目增加而减小。

在上文所提及的实例中,索引i在一些实例中可按次序序列将权重编索引,以使得较大量值(例如,较大绝对值)权重按有序序列出现于较低量值(例如,较低绝对值)权重之前。换句话说,ω1可表示最大权重值,ω2可表示次最大权重值,等等。类似地,ωX可表示最低权重值。

V-向量译码单元52可将指示选择多少个权重以用于译码减少的前景V[k]向量55中的一或多者的数据提供到位流产生单元42,以使得位流产生单元42可将此数据包含于所得位流中。在一些实例中,V-向量译码单元52可针对待译码的HOA系数的每一帧选择用于译码V-向量的权重的数目。在这些实例中,V-向量译码单元52可将指示选择多少个权重以用于译码所选择的每一帧的数据提供到位流产生单元42。在一些实例中,指示选择多少个权重的数据可为指示选择多少个权重以用于进行译码及/或量化的数目。

在一些实例中,V-向量译码单元52可使用量化码簿来将用以表示及/或估计V-向量(例如,减少的前景V[k]向量)的所述组权重量化。举例来说,V-向量译码单元52可从一组候选量化码簿中选择量化码簿,且基于所选择的量化码簿将V-向量量化。

在一些实例中,候选量化码簿中的每一者可对应于可用以将一组权重量化的一组候选量化向量。所述组权重可形成待使用这些量化码簿量化的权重的向量。换句话说,每一不同的量化码簿对应于一组不同的量化向量,可从所述组不同的量化向量中选择单个量化向量以将V-向量量化。

码簿中的每一条目可对应于一候选量化向量。候选量化向量中的每一者中的分量的数目在一些实例中可等于待量化的权重的数目。

在一些实例中,不同的量化码簿可具有相同数目个候选量化向量。在其它实例中,不同的量化码簿可具有不同数目个候选量化向量。

举例来说,候选量化码簿中的至少两者可具有不同数目个候选量化向量。作为另一实例,所有的候选量化码簿可具有不同数目个候选量化向量。作为另一实例,候选量化码簿中的至少两者可具有相同数目个候选量化向量。作为额外实例,所有的候选量化码簿可具有相同数目个候选量化向量。

V-向量译码单元52可基于一或多个各种准则从所述组候选量化码簿中选择量化码簿。举例来说,V-向量译码单元52可基于用以确定用于V-向量的权重的分解码簿选择用于V-向量的量化码簿。作为另一实例,V-向量译码单元52可基于待量化的权重值的机率分布选择用于V-向量的量化码簿。在其它实例中,V-向量译码单元52可基于选择以下各者的组合选择用于V-向量的量化码簿:用以确定用于V-向量的权重的分解码簿,以及被视为在某一误差阈值(例如,按照方程式14)内表示V-向量所必要的权重的数目。

为了基于所选择的量化码簿将权重量化,V-向量译码单元52在一些实例中可确定用于基于所选择的量化码簿将V-向量量化的量化向量。举例来说,V-向量译码单元52可执行向量量化(VQ)以确定用于将V-向量量化的量化向量。

在额外实例中,为了基于所选择的量化码簿将权重量化,V-向量译码单元52可针对每一V-向量基于与使用量化向量中的一或多者表示V-向量相关联的量化误差从所选择的量化码簿中选择量化向量。举例来说,V-向量译码单元52可从所选择的量化码簿中选择使得量化误差最小化(例如,使得最小平方误差最小化)的候选量化向量。

在一些实例中,量化码簿中的每一者可对应于多个分解码簿中的相应分解码簿。在这些实例中,V-向量译码单元52还可基于用以确定用于V-向量的权重的分解码簿选择用于将与V-向量相关联的所述组权重量化的量化码簿。举例来说,V-向量译码单元52可选择对应于用以确定用于V-向量的权重的分解码簿的量化码簿。

V-向量译码单元52可将指示选择哪一量化码簿来将对应于减少的前景V[k]向量55中的一或多者的权重量化的数据提供到位流产生单元42,以使得位流产生单元42可将此数据包含于所得位流中。在一些实例中,V-向量译码单元52可针对待译码的HOA系数的每一帧选择量化码簿来使用。在这些实例中,V-向量译码单元52可将指示选择哪一量化码簿以用于将每一帧中的权重量化的数据提供到位流产生单元42。在一些实例中,指示选择哪一量化码簿的数据可为对应于所选择的码簿的码簿索引及/或识别值。

包含于音频编码装置20内的心理声学音频译码器单元40可表示心理声学音频译码器的多个执行个体,其中的每一者用以编码经能量补偿的环境HOA系数47'及经内插的nFG信号49'中的每一者的不同音频物件或HOA声道,以产生经编码环境HOA系数59及经编码nFG信号61。心理声学音频译码器单元40可将经编码环境HOA系数59及经编码nFG信号61输出到位流产生单元42。

包含于音频编码装置20内的位流产生单元42表示将数据格式化以符合已知格式(其可指为解码装置已知的格式)进而产生基于向量的位流21的单元。换句话说,位流21可表示以上文所描述的方式编码的经编码音频数据。位流产生单元42在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61,及背景声道信息43。位流产生单元42可接着基于经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61及背景声道信息43产生位流21。以此方式,位流产生单元42可进而在位流21中指定向量57以获得位流21。位流21可包含主要或主位流及一或多个旁侧声道位流。

尽管在图3A的实例中未展示,但音频编码装置20还可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是基于向量的合成编码而切换从音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(作为检测到HOA系数11是从合成音频物件产生的结果)还是执行基于向量的合成(作为检测到HOA系数经记录的结果)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应位流的切换或当前编码。

此外,如上文所提及,声场分析单元44可识别BGTOT环境HOA系数47,所述BGTOT环境HOA系数可基于逐个帧而改变(但时常BGTOT可跨越两个或多于两个邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可导致在减少的前景V[k]向量55中表达的系数的改变。BGTOT的改变可导致背景HOA系数(其还可被称作“环境HOA系数”),其基于逐个帧而改变(但再次,时常BGTOT可跨越两个或多于两个邻近(在时间上)帧保持恒定或相同)。所述改变常常导致由以下各者表示的对声场的各方面来说的能量的改变:额外环境HOA系数的添加或移除及系数从减少的前景V[k]向量55的对应移除或系数到减少的前景V[k]向量55的添加。

因此,声场分析单元44可进一步确定环境HOA系数何时逐帧而改变且产生指示环境HOA系数的改变的旗标或其它语法元素(在用以表示声场的环境分量方面)(其中所述改变还可被称作环境HOA系数的“转变”或被称作环境HOA系数的“转变”)。具体来说,系数减少单元46可产生旗标(其可表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供到位流产生单元42,以便可将所述旗标包含于位流21中(有可能作为旁侧声道信息的部分)。

除指定环境系数转变旗标的外,系数减少单元46还可修改产生减少的前景V[k]向量55的方式。在实例中,当确定环境HOA环境系数中的一者在当前帧中处于转变中时,系数减少单元46可指定用于减少的前景V[k]向量55的V-向量中的每一者的向量系数(其还可被称作“向量元素”或“元素”),其对应于处于转变中的环境HOA系数。同样地,处于转变中的环境HOA系数可添加到背景系数的BGTOT总数目或从背景系数的BGTOT总数目移除。因此,背景系数的总数目的所得改变影响以下情形:环境HOA系数包含于或不包含于位流中,及在上文所描述的第二及第三配置模式中是否针对位流中所指定的V-向量包含V-向量的对应元素。关于系数减少单元46可如何指定减少的前景V[k]向量55以克服能量的改变的更多信息提供于2015年1月12日申请的题为“环境HIGHER_ORDER立体混响系数的转变(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的美国申请案第14/594,533号中。

图3B为更详细地说明可执行本发明中所描述的技术的各种方面的图3的实例中所展示的音频编码装置420的另一实例的框图。除了以下情形以外,图3B中所展示的音频编码装置420类似于音频编码装置20:音频编码装置420中的v-向量译码单元52还将权重值信息71提供到重新排序单元34。

在一些实例中,权重值信息71可包含由v-向量译码单元52计算的权重值中的一或多者。在其它实例中,权重值信息71可包含指示v-向量译码单元52选择哪些权重以用于进行量化及/或译码的信息。在额外实例中,权重值信息71可包含指示v-向量译码单元52不选择哪些权重以用于进行量化及/或译码的信息。除上文所提及的信息项目的外或代替上文所提及的信息项目,权重值信息71还可包含上文所提及的信息项目以及其它项目中的任一者的任何组合。

在一些实例中,重新排序单元34可基于权重值信息71(例如,基于权重值)将向量重新排序。在v-向量译码单元52选择权重值的子集以进行量化及/或译码的实例中,重新排序单元34在一些实例中可基于选择权重值中的哪些权重值以用于进行量化或译码(其可由权重值信息71指示)而将向量重新排序。

图4A为更详细地说明图2的音频解码装置24的框图。如图4A的实例中所展示,音频解码装置24可包含提取单元72、基于方向性的重建构单元90及基于向量的重建构单元92。尽管下文加以描述,但关于音频解码装置24及解压缩或以其它方式解码HOA系数的各种方面的更多信息可在2014年5月29日申请的题为“用于声场的经分解表示的内插(NTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的国际专利申请公开案第WO 2014/194099号中获得。

提取单元72可表示经配置以接收位流21及提取HOA系数11的各种经编码版本(例如,基于方向的经编码版本或基于向量的经编码版本)的单元。提取单元72可确定上文所提及的指示HOA系数11是经由各种基于方向的版本还是基于向量的版本编码的语法元素。当执行基于方向的编码时,提取单元72可提取HOA系数11的基于方向的版本及与所述经编码版本相关联的语法元素(其在图4A的实例中表示为基于方向的信息91),将所述基于方向的信息91传递到基于方向的重建构单元90。基于方向的重建构单元90可表示经配置以基于基于方向的信息91以HOA系数11'的形式重建构HOA系数的单元。

当语法元素指示HOA系数11是使用基于向量的合成编码时,提取单元72可提取经译码前景V[k]向量(其可包含经译码权重57及/或索引73)、经编码环境HOA系数59及经编码nFG信号59。提取单元72可将经译码权重57传递到量化单元74且将经编码环境HOA系数59连同经编码nFG信号61一起传递到心理声学解码单元80。

为了提取经译码权重57、经编码环境HOA系数59及经编码nFG信号59,提取单元72可获得包含表示为CodedVVecLength的语法元素的HOADecoderConfig容器应用程序。提取单元72可解析来自HOADecoderConfig容器应用程序的CodedVVecLength。提取单元72可经配置以在上文所描述的配置模式中的任一者中基于CodedVVecLength语法元素操作。

在一些实例中,提取单元72可根据以下伪码中所呈现的switch叙述与用于VVectorData的以下语法表(其中加删除线指示加删除线的标的物的移除且加底线指示加底线的标的物相对于语法表的先前版本的添加)中所呈现的语法操作,如鉴于伴随的语义而理解:

VVectorData(VecSigChannelIds(i))

此结构含有用于进行基于向量的信号合成的经译码V-向量数据。

VVec(k)[i] 此为用于第i声道的第k HOAframe()的V-向量。

VVecLength 此变量指示待读出的向量元素的数目。

VVecCoeffId 此向量含有经传输的V-向量系数的索引。

VecVal 介于0与255之间的整数值。

aVal 在解码VVectorData期间使用的暂时变量。

huffVal 待进行霍夫曼解码的霍夫曼码字。

sgnVal 此符号为在解码期间使用的经译码正负号值。

intAddVal 此符号为在解码期间使用的额外整数值。

NumVecIndices 用以将经向量量化的V-向量解量化的向量的数目。

WeightIdx WeightValCdbk中用以将经向量量化的V-向量解量化的索引。

nbitsW 用于读取WeightIdx以解码经向量量化的V-向量的字段大小。

WeightValCdbk 含有正实数值加权系数的向量的码簿。如果NumVecIndices被设置为1,那么使用具有16个条目的WeightValCdbk,否则,使用具有256个条目的WeightValCdbk。

VvecIdx 用以将经向量量化的V-向量解量化的VecDict的索引。

nbitsIdx 用于读取个别VvecIdxs以解码经向量量化的V-向量的字段大小。

WeightVal 用以解码经向量量化的V-向量的实数值加权系数。

在前述语法表中,具有四种状况(状况0到3)的第一switch叙述提供藉以依据系数的数目(VVecLength)及索引(VVecCoeffId)确定VTDIST向量长度的方式。第一状况(状况0)指示用于VTDIST向量的所有系数(NumOfHoaCoeffs)经指定。第二状况(状况1)指示仅VTDIST向量的对应于大于MinNumOfCoeffsForAmbHOA的数目的那些系数经指定,其可表示上文所提及的(NDIST+1)2-(NBG+1)2。另外,减去ContAddAmbHoaChan中所识别的那些NumOfContAddAmbHoaChan系数。列表ContAddAmbHoaChan指定对应于超过阶数MinAmbHoaOrder的阶数的额外信道(其中“信道”是指对应于某一阶数、子阶组合的特定系数)。第三状况(状况2)指示VTDIST向量的对应于大于MinNumOfCoeffsForAmbHOA的数目的那些系数经指定,其可表示上文所提及的(NDIST+1)2-(NBG+1)2。VVecLength以及VVecCoeffId列表两者对于HOAFrame上的所有VVectors皆为有效的。

在此switch叙述之后,可由NbitsQ(或,如上文所指示,nbits)来控制是执行向量量化还是均匀标量解量化的决策。先前,仅提议标量量化来将Vvectors量化(例如,当NbitsQ等于4时)。虽然当NBitsQ等于5时仍提供标量量化,但当(作为一个实例)NbitsQ等于4时,可根据本发明中所描述的技术执行向量量化。

换句话说,由前景音频信号及对应空间信息(即,在本发明的实例中,为V-向量)表示具有强方向性的HOA信号。在本发明中所描述的V-向量译码技术中,由如以下方程式给出的预定义方向向量的加权加总表示每一V-向量:

其中ωi及Ωi分别为第i加权值及对应方向向量。

在图16中说明V-向量译码的实例。如图16(a)中所展示,可由若干个方向向量的混合来表示原始V-向量。可接着由加权总和来估计原始V-向量,如图16(b)中所展示,其中在图16(e)中展示加权向量。图16(c)及(f)说明仅选择IS(IS≤I)个最高加权值的状况。可接着针对所选择的加权值执行向量量化(VQ)且在图16(d)及(g)中说明结果。

可如下来确定此v-向量译码方案的计算复杂性:

0.06MOPS(HOA阶数=6)/0.05MOPS(HOA阶数=5);且

0.03MOPS(HOA阶数=4)/0.02MOPS(HOA阶数=3)。

可确定ROM复杂性为16.29千字节(对于HOA阶数3、4、5及6),而确定算法延迟为0个样本。

可在上文通过使用底线展示的VVectorData语法表内表示对上文提及的3D音频译码标准的当前版本的所需修改。即,在上文所提及的MPEG-H 3D音频提议标准的CD中,通过标量量化(SQ)或SQ后接续霍夫曼译码执行V-向量译码。所提议的向量量化(VQ)方法的所需位可能比常规SQ译码方法少。对于12个参考测试项目,所需位平均如下:

●SQ+霍夫曼:16.25KB

●所提议的VQ:5.25KB

可将所节省的位改变用途以用于感知音频译码。

换句话说,V-向量重建构单元74可根据以下伪码操作以重建构V-向量:

根据前述伪码(其中加删除线指示加删除线的标的物的移除),v-向量重建构单元74可根据关于switch叙述的伪码基于CodedVVecLength的值确定VVecLength。基于此VVecLength,v-向量重建构单元74可反复进行考虑NbitsQ值的后续if/elseif叙述。当用于第k帧的第i NbitsQ值等于4时,v-向量重建构单元74确定将执行向量解量化。

cdbLen语法元素指示码向量的辞典或码簿中的条目的数目(其中此辞典在前述伪码中表示为“VecDict”且表示具有cdbLen个码簿条目的码簿,其含有用以解码经向量量化的V-向量的HOA扩展系数的向量),其基于NumVvecIndicies及HOA阶数而导出。当NumVvecIndicies的值等于一时,从上述表F.8结合上述表F.11中所展示的8×1加权值的码簿导出向量码簿HOA扩展系数。当NumVvecIndicies的值大于一时,结合上述表F.12中所展示的256×8加权值使用具有O个向量的向量码簿。

尽管上文描述为使用大小为256×8的码簿,但可使用具有不同数目个值的不同码簿。即,代替val0到val7,可使用具有256行的码簿,其中每一行由不同索引值(索引0到索引255)编索引且具有不同数目个值,例如值0到值9(总共十个值)或值0到值15(总共16个值)。图19A及19B为说明可根据本发明中所描述的技术的各种方面使用的具有256行的码簿的图,其中每一行分别具有10个值及16个值。

v-向量重建构单元74可基于权重值码簿(表示为“WeightValCdbk”,其可表示基于以下各者中的一或多者编索引的多维表:码簿索引(在前述VVectorData(i)语法表中表示为“CodebkIdx”),及权重索引(在前述VVectorData(i)语法表中表示为“WeightIdx”))导出用以重建构V-向量的每一对应码向量的权重值。可在旁侧声道信息的一部分中定义此CodebkIdx语法元素,如以下ChannelSideInfoData(i)语法表中所展示。

表格-ChannelSideInfoData(i)的语法

前表中的加底线表示用以适应CodebkIdx的添加的对现有语法表的改变。用于前表的语义如下。

此有效负载保持用于第i声道的旁侧信息。有效负载的大小及数据取决于声道的类型。

AddAmbHoaInfoChannel(i)此有效负载保持用于额外环境HOA系数的信息。

根据VVectorData语法表语义,nbitsW语法元素表示用于读取WeightIdx以解码经向量量化的V-向量的字段大小,而WeightValCdbk语法元素表示含有正实数值加权系数的向量的码簿。如果NumVecIndices被设置为1,那么使用具有8个条目的WeightValCdbk,否则,使用具有256个条目的WeightValCdbk。根据VVectorData语法表,当CodebkIdx等于零时,v-向量重建构单元74确定nbitsW等于3且WeightIdx可具有在0到7的范围内的值。在此情况下,码向量辞典VecDict具有相对大量条目(例如,900个)且与仅具有8个条目的权重码簿配对。当CodebkIdx并不等于零时,v-向量重建构单元74确定nbitsW等于8且WeightIdx可具有在0到255的范围内的值。在此情况下,VecDict具有相对少量条目(例如,25或32个条目)且权重码簿中需要相对大量权重(例如,256个)以确保可接受的误差。以此方式,所述技术可提供成对码簿(参考成对的所使用的VecDict及权重码簿)。可接着如下来计算权重值(在前述VVectorData语法表中表示为“WeightVal”):

|WeightVal[j]=((SgnVal*2)-1)*WeightValCdbk[CodebkIdx(k)[i]][WeightIdx][j];

可接着根据上述伪码将此WeightVal应用于对应码向量以将v-向量解向量量化。

在这方面,所述技术可使得音频解码装置(例如,音频解码装置24)选择多个码簿中的一者以在关于声场的经向量量化的空间分量执行向量解量化时使用,所述经向量量化的空间分量经由对多个高阶立体混响系数应用基于向量的合成而获得。

此外,所述技术可使得音频解码装置24能够在多个成对码簿之间选择以在关于声场的经向量量化的空间分量执行向量解量化时使用,所述经向量量化的空间分量经由对多个高阶立体混响系数应用基于向量的合成而获得。

当NbitsQ等于5时,执行均匀8位标量解量化。与此对比,大于或等于6的NbitsQ值可导致霍夫曼解码的应用。上文提及的cid值可等于NbitsQ值的两个最低有效位。上文所论述的预测模式在以上语法表中表示为PFlag,而HT信息位在以上语法表中表示为CbFlag。剩余语法指定解码如何以大体上类似于上文所描述的方式的方式发生。

基于向量的重建构单元92表示经配置以执行与上文关于基于向量的合成单元27所描述的操作互逆的操作以便重建构HOA系数11'的单元。基于向量的重建构单元92可包含v-向量重建构单元74、空间-时间内插单元76、前景制订单元78、心理声学解码单元80、HOA系数制订单元82及重新排序单元84。

v-向量重建构单元74可接收经译码权重57且产生减少的前景V[k]向量55k。v-向量重建构单元74可将减少的前景V[k]向量55k转递到重新排序单元84。

举例来说,v-向量重建构单元74可经由提取单元72从位流21中获得经译码权重57,且基于经译码权重57及一或多个码向量重建构减少的前景V[k]向量55k。在一些实例中,经译码权重57可包含对应于用以表示减少的前景V[k]向量55k的一组码向量中的所有码向量的权重值。在这些实例中,v-向量重建构单元74可基于整组码向量重建构减少的前景V[k]向量55k

经译码权重57可包含对应于用以表示减少的前景V[k]向量55k的一组码向量的子集的权重值。在这些实例中,经译码权重57可进一步包含指示使用多个码向量中的哪一者来重建构减少的前景V[k]向量55k的数据,且v-向量重建构单元74可使用由此数据指示的码向量的子集来重建构减少的前景V[k]向量55k。在一些实例中,指示使用多个码向量中的哪一者来重建构减少的前景V[k]向量55k的数据可对应于索引57。

在一些实例中,v-向量重建构单元74可从位流获得指示表示向量的多个权重值的数据,所述向量包含于多个HOA系数的经分解版本中,且基于权重值及码向量重建构所述向量。所述权重值中的每一者可对应于表示所述向量的码向量的加权总和中的多个权重中的相应权重。

在一些实例中,为了重建构向量,v-向量重建构单元74可确定码向量的加权总和,其中码向量由权重值而加权。在其它实例中,为了重建构所述向量,v-向量重建构单元74可针对权重值中的每一者将权重值乘以码向量中的相应码向量以产生多个加权码向量中所包含的相应加权码向量,且将所述多个加权码向量加总以确定所述向量。

在一些实例中,v-向量重建构单元74可从位流中获得指示使用多个码向量中的哪一者来重建构所述向量的数据,且基于权重值(例如,基于CodebkIdx及WeightIdx语法元素从WeightValCdbk导出的WeightVal元素)、码向量及指示使用多个码向量中的哪一者(如例如由VVecIdx语法元素以及NumVecIndices识别)来重建构所述向量的数据重建构所述向量。在这些实例中,为了重建构所述向量,v-向量重建构单元74在一些实例中可基于指示使用多个码向量中的哪一者来重建构所述向量的数据选择码向量的子集,且基于权重值及码向量的所选择的子集重建构所述向量。

在这些实例中,为了基于权重值及码向量的所选择的子集重建构所述向量,v-向量重建构单元74可针对权重值中的每一者将权重值乘以码向量的子集中的码向量中的相应码向量以产生相应加权码向量,且将多个加权码向量加总以确定所述向量。

心理声学解码单元80可以与图4A的实例中所展示的心理声学音频译码单元40互逆的方式操作,以便解码经编码环境HOA系数59及经编码nFG信号61,且进而产生经能量补偿的环境HOA系数47'及经内插的nFG信号49'(其还可被称作经内插的nFG音频物件49')。尽管经展示为彼此分离,但经编码环境HOA系数59及经编码nFG信号61可能并非彼此分离,且实际上,可被指定为经编码声道,如下文关于图4B所描述。当经编码环境HOA系数59及经编码nFG信号61一起被指定为经编码声道时,心理声学解码单元80可解码经编码声道以获得经解码声道,且接着关于经解码声道执行一种形式的声道重新指派以获得经能量补偿的环境HOA系数47'及经内插的nFG信号49'。

换句话说,心理声学解码单元80可获得所有占优势声音信号的经内插的nFG信号49'(其可表示为帧Xps(k))、表示环境HOA分量的中间表示的经能量补偿的环境HOA系数47'(其可表示为帧CI,AMB(k))。心理声学解码单元80可基于位流21或29中所指定的语法元素执行此声道重新指派,所述语法元素可包含针对每一输送声道指定环境HOA分量的有可能含有的系数序列的索引的指派向量,及指示一组作用中V向量的其它语法元素。在任何情况下,心理声学解码单元80可将经能量补偿的环境HOA系数47'传递到HOA系数制订单元82且将nFG信号49'传递到重新排序单元84。

换句话说,心理声学解码单元80可获得所有占优势声音信号的经内插的nFG信号49'(其可表示为帧Xps(k))、表示环境HOA分量的中间表示的经能量补偿的环境HOA系数47'(其可表示为帧CI,AMB(k))。心理声学解码单元80可基于位流21或29中所指定的语法元素执行此声道重新指派,所述语法元素可包含针对每一输送声道指定环境HOA分量的有可能含有的系数序列的索引的指派向量,及指示一组作用中V向量的其它语法元素。在任何情况下,心理声学解码单元80可将经能量补偿的环境HOA系数47'传递到HOA系数制订单元82且将nFG信号49'传递到重新排序单元84。

为了重新叙述前文,可按上文所描述的方式从基于向量的信号重新制订HOA系数。可首先关于每一V-向量执行标量解量化以产生其中当前帧的第i个别向量可表示为可使用线性可逆变换(例如,奇异值分解、主分量分析、卡忽南-拉维变换、哈特林变换、适当正交分解或本征值分解)从HOA系数分解V-向量,如上文所描述。在奇异值分解的状况下,分解还输出S[k]及U[k]向量,所述向量可经组合以形成US[k]。US[k]矩阵中的个别向量元素可表示为XPS(k,l)。

可关于及(其表示来自前一帧的V-向量,其中的个别向量表示为)执行空间时间内插。作为一个实例,由wVEC(l)控制空间内插方法。在内插之后,接着将第i个经内插的V-向量乘以第i个US[k](其表示为XPS,i(k,l))以输出HOA表示的第i列可接着将列向量加总以制订基于向量的信号的HOA表示。以此方式,针对帧通过关于及执行内插而获得HOA系数的经分解的经内插的表示,如下文进一步详细描述。

图4B为更详细地说明音频解码装置24的另一实例的框图。音频解码装置24的在图4B中所展示的实例经表示为音频解码装置24'。除了音频解码装置24'的心理声学解码单元902并不执行上文所描述的声道重新指派以外,音频解码装置24'大体上类似于图4A的实例中所展示的音频解码装置24。实际上,音频编码装置24'包含执行上文所描述的声道重新指派的单独声道重新指派单元904。在图4B的实例中,心理声学解码单元902接收经编码声道900且关于经编码声道900执行心理声学解码以获得经解码声道901。心理声学解码单元902可将经解码声道901输出到声道重新指派单元904。声道重新指派单元904可接着关于经解码声道901执行上文所描述的声道重新指派以获得经能量补偿的环境HOA系数47'及经内插的nFG信号49'。

空间-时间内插单元76可以与上文关于空间-时间内插单元50所描述的方式类似的方式操作。空间-时间内插单元76可接收减少的前景V[k]向量55k且关于前景V[k]向量55k及减少的前景V[k-1]向量55k-1执行空间-时间内插以产生经内插的前景V[k]向量55k”。空间-时间内插单元76可将经内插的前景V[k]向量55k”转递到淡化单元770。

提取单元72还可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元770可接着确定SHCBG 47'(其中SHCBG 47'还可表示为“环境HOA声道47'”或“环境HOA系数47'”)及经内插的前景V[k]向量55k”的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可关于环境HOA系数47'及经内插的前景V[k]向量55k”的元素中的每一者相反地操作。即,淡化单元770可关于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时关于经内插的前景V[k]向量55k”的元素中的对应经内插的前景V[k]向量执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元82且将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面,淡化单元770表示经配置以关于HOA系数或其导出项(例如,呈环境HOA系数47'及经内插的前景V[k]向量55k”的元素的形式)的各种方面执行淡化操作的单元。

前景制订单元78可表示经配置以关于经调整的前景V[k]向量55k”'及经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。在这方面,前景制订单元78可组合音频物件49'(所述方式为藉以表示经内插的nFG信号49'的另一种方式)与向量55k”'以重建构HOA系数11'的前景(或换句话说,占优势)方面。前景制订单元78可执行经内插的nFG信号49'乘以经调整的前景V[k]向量55k”'的矩阵乘法。

HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境HOA系数47”以便获得HOA系数11'的单元。撇号记法反映HOA系数11'可类似于HOA系数11但与HOA系数11不相同。HOA系数11与11'之间的差可起因于归因于有损传输媒体上的传输、量化或其它有损操作产生的损失。

图5为说明音频编码装置(例如,图3A的实例中所展示的音频编码装置20)在执行本发明中所描述的基于向量的合成技术的各种方面中的示范性操作的流程图。最初,音频编码装置20接收HOA系数11(106)。音频编码装置20可调用LIT单元30,LIT单元30可关于HOA系数应用LIT以输出经变换的HOA系数(例如,在SVD的状况下,经变换的HOA系数可包括US[k]向量33及V[k]向量35)(107)。

音频编码装置20接下来可调用参数计算单元32以按上文所描述的方式关于US[k]向量33、US[k-1]向量33、V[k]及/或V[k-1]向量35的任何组合执行上文所描述的分析以识别各种参数。即,参数计算单元32可基于经变换的HOA系数33/35的分析确定至少一个参数(108)。

音频编码装置20可接着调用重新排序单元34,重新排序单元34基于参数将经变换的HOA系数(再次在SVD的内容脉络中,其可指US[k]向量33及V[k]向量35)重新排序以产生经重新排序的经变换的HOA系数33'/35'(或,换句话说,US[k]向量33'及V[k]向量35'),如上文所描述(109)。在前述操作或后续操作中的任一者期间,音频编码装置20还可调用声场分析单元44。如上文所描述,声场分析单元44可关于HOA系数11及/或经变换的HOA系数33/35执行声场分析以确定前景声道的总数目(nFG)45、背景声场的阶数(NBG)以及待发送的额外BG HOA声道的数目(nBGa)及索引(i)(其在图3A的实例中可共同地表示为背景声道信息43)(109)。

音频编码装置20还可调用背景选择单元48。背景选择单元48可基于背景声道信息43确定背景或环境HOA系数47(110)。音频编码装置20可进一步调用前景选择单元36,前景选择单元36可基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或特异分量的经重新排序的US[k]向量33'及经重新排序的V[k]向量35'(112)。

音频编码装置20可调用能量补偿单元38。能量补偿单元38可关于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA系数中的各种HOA系数而产生的能量损失(114),且进而产生经能量补偿的环境HOA系数47'。

音频编码装置20还可调用空间-时间内插单元50。空间-时间内插单元50可关于经重新排序的经变换的HOA系数33'/35'执行空间-时间内插以获得经内插的前景信号49'(其还可被称作“经内插的nFG信号49'”)及剩余前景方向信息53(其还可被称作“V[k]向量53”)(116)。音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景声道信息43关于剩余前景V[k]向量53执行系数减少以获得减少的前景方向信息55(其还可被称作减少的前景V[k]向量55)(118)。

音频编码装置20可接着调用V-向量译码单元52以按上文所描述的方式压缩减少的前景V[k]向量55且产生经译码前景V[k]向量57(120)。

音频编码装置20还可调用心理声学音频译码器单元40。心理声学音频译码器单元40可对经能量补偿的环境HOA系数47'及经内插的nFG信号49'的每一向量进行心理声学译码以产生经编码环境HOA系数59及经编码nFG信号61。音频编码装置可接着调用位流产生单元42。位流产生单元42可基于经译码前景方向信息57、经译码环境HOA系数59、经译码nFG信号61及背景声道信息43产生位流21。

图6为说明音频解码装置(例如,图4A中所展示的音频解码装置24)在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。最初,音频解码装置24可接收位流21(130)。在接收到位流后,音频解码装置24可调用提取单元72。出于论述的目的假定位流21指示将执行基于向量的重建构,提取单元72可解析位流以检索上文所提及的信息,将所述信息传递到基于向量的重建构单元92。

换句话说,提取单元72可按上文所描述的方式从位流21中提取经译码前景方向信息57(再次,其还可被称作经译码前景V[k]向量57)、经译码环境HOA系数59及经译码前景信号(其还可被称作经译码前景nFG信号59或经译码前景音频物件59)(132)。

音频解码装置24可进一步调用解量化单元74。解量化单元74可对经译码前景方向信息57进行熵解码及解量化以获得减少的前景方向信息55k(136)。音频解码装置24还可调用心理声学解码单元80。心理声学音频解码单元80可解码经编码环境HOA系数59及经编码前景信号61以获得经能量补偿的环境HOA系数47'及经内插的前景信号49'(138)。心理声学解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。

音频解码装置24接下来可调用空间-时间内插单元76。空间-时间内插单元76可接收经重新排序的前景方向信息55k'且关于减少的前景方向信息55k/55k-1执行空间-时间内插以产生经内插的前景方向信息55k”(140)。空间-时间内插单元76可将经内插的前景V[k]向量55k”转递到淡化单元770。

音频解码装置24可调用淡化单元770。淡化单元770可接收或以其它方式获得指示经能量补偿的环境HOA系数47'何时处于转变中的语法元素(例如,AmbCoeffTransition语法元素)(例如,从提取单元72)。淡化单元770可基于转变语法元素及维持的转变状态信息使经能量补偿的环境HOA系数47'淡入或淡出,从而将经调整的环境HOA系数47”输出到HOA系数制订单元82。淡化单元770还可基于语法元素及维持的转变状态信息,及使经内插的前景V[k]向量55k”中的对应一或多个元素淡出或淡入,从而将经调整的前景V[k]向量55k”'输出到前景制订单元78(142)。

音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'乘以经调整的前景方向信息55k”'的矩阵乘法以获得前景HOA系数65(144)。音频解码装置24还可调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65加到经调整的环境HOA系数47”以便获得HOA系数11'(146)。

图7为更详细地说明可用于图3A的音频编码装置20中的实例v-向量译码单元52的框图。v-向量译码单元52包含分解单元502及量化单元504。分解单元502可基于码向量63将减少的前景V[k]向量55中的每一者分解成码向量的加权总和。分解单元502可产生权重506且将权重506提供到量化单元504。量化单元504可将权重506量化以产生经译码权重57。

图8为更详细地说明可用于图3A的音频编码装置20中的实例v-向量译码单元52的框图。v-向量译码单元52包含分解单元502、权重选择单元510及量化单元504。分解单元502可基于码向量63将减少的前景V[k]向量55中的每一者分解成码向量的加权总和。分解单元502可产生权重514且将权重514提供到权重选择单元510。权重选择单元510可选择权重514的子集以产生权重的一所选择的子集516,且将权重的所选择的子集516提供到量化单元504。量化单元504可将权重的所选择的子集516量化以产生经译码权重57。

图9为说明从v-向量产生的声场的概念图。图10为说明从上文关于图9所描述的v-向量的25阶模型产生的声场的概念图。图11为说明图10中所展示的25阶模型的每一阶的加权的概念图。图12为说明上文关于图9所描述的v-向量的5阶模型的概念图。图13为说明图12中所展示的5阶模型的每一阶的加权的概念图。

图14为说明用以执行奇异值分解的实例矩阵的实例尺寸的概念图。如图14中所展示,UFG矩阵包含于U矩阵中,SFG矩阵包含于S矩阵中,且VFGT矩阵包含于VT矩阵中。

在图14的实例矩阵中,UFG矩阵具有1280乘以2的尺寸,其中1280对应于样本的数目,且2对应于经选择用于进行前景译码的前景向量的数目。U矩阵具有1280乘以25的尺寸,其中1280对应于样本的数目,且25对应于HOA音频信号中的声道的数目。声道的数目可等于(N+1)2,其中N等于HOA音频信号的阶数。

SFG矩阵具有尺寸2乘以2,其中每一个2对应于经选择用于进行前景译码的前景向量的数目。S矩阵具有25乘以25的尺寸,其中每一个25对应于HOA音频信号中的声道的数目。

VFGT矩阵具有尺寸25乘以2,其中25对应于HOA音频信号中的声道的数目,且2对应于经选择用于进行前景译码的前景向量的数目。VT矩阵具有25乘以25的尺寸,其中每一个25对应于HOA音频信号中的声道的数目。

如图14中所展示,UFG矩阵、SFG矩阵及VFGT矩阵可相乘在一起以产生HFG矩阵。HFG矩阵具有1280乘以25的尺寸,其中1280对应于样本的数目,且25对应于HOA音频信号中的声道的数目。

图15为说明可通过使用本发明的v-向量译码技术获得的实例性能改良的图表。每一行表示一测试项目,且列从左到右指示测试项目编号、测试项目名称、与测试项目相关联的每一帧位数、使用本发明的实例v-向量译码技术中的一或多者进行的位速率,及使用其它v-向量译码技术(例如,将v-向量分量标量量化,而并不分解v-向量)获得的位速率。如图15中所展示,相对于并不将v-向量分解成权重及/或选择权重的子集以进行量化的其它技术来说,本发明的技术在一些实例中可提供位速率的显著改良。

在一些实例中,本发明的技术可基于一组方向向量执行V-向量量化。V-向量可由方向向量的加权总和来表示。在一些实例中,对于彼此正规正交的一组给定方向向量,v-向量译码单元52可计算每一方向向量的加权值。v-向量译码单元52可选择N个最大值加权值{w_i},及对应方向向量{o_i}。v-向量译码单元52可将对应于所选择的加权值及/或方向向量的索引{i}传输到解码器。在一些实例中,当计算最大值时,v-向量译码单元52可使用绝对值(通过忽略正负号信息)。v-向量译码单元52可将N个最大值加权值{w_i}量化以产生经量化的加权值{w^_i}。v-向量译码单元52可将用于{w^_i}的量化索引传输到解码器。在解码器处,可将经量化的V-向量合成为sum_i(w^_i*o_i)。

在一些实例中,本发明的技术可提供性能的显著改良。举例来说,与使用标量量化后接续霍夫曼译码的情形相比较,可获得大约85%的位速率减小。举例来说,标量量化后接续霍夫曼译码的情形在一些实例中可能需要16.26kbps(每秒千位)的位速率,而本发明的技术在一些实例中可能能够按2.75kbsp的位速率译码。

考虑使用来自码簿的X个码向量(及X个对应权重)译码v-向量的实例。在一些实例中,位流产生单元42可产生位流21以使得由3种类别的参数来表示每一v-向量:(1)X数目个索引,每一索引指向码向量的码簿(例如,经正规化的方向向量的码簿)中的特定向量;(2)与上述索引相配的对应(X)数目个权重;以及(3)用于上述(X)数目个权重中的每一者的正负号位。在一些状况下,可使用又一向量量化(VQ)进一步将X数目个权重量化。

在此实例中用于确定权重的分解码簿可选自一组候选码簿。举例来说,码簿可为8个不同码簿中的一者。这些码簿中的每一者可具有不同长度。因此,例如,不仅用以确定6阶HOA内容的权重的大小为49的码簿可给出使用8个不同大小的码簿中的任一者的选项,而且本发明的技术还可给出使用8个不同大小的码簿中的任一者的选项。

用于进行权重的VQ的量化码簿在一些实例中还可具有与用以确定权重的可能的分解码簿的数目相同的对应数目个可能的码簿。因此,在一些实例中,可能存在用于确定权重的可变数目个不同的码簿,及用于将权重量化的可变数目个码簿。

在一些实例中,用以估计v-向量的权重的数目(即,经选择用于进行量化的权重的数目)可为可变的。举例来说,可设置阈值误差准则,且经选择以用于进行量化的权重的数目(X)可取决于达到误差阈值,其中误差阈值如上文在方程式(10)中所定义。

在一些实例中,可在位流中用信号通知上文所提及的概念中的一或多者。考虑以下实例:其中用以译码v-向量的权重的最大数目被设置为128个权重,且使用8个不同的量化码簿来将权重量化。在此实例中,位流产生单元42可产生位流21以使得位流21中的存取帧单元指示可基于逐个帧使用的索引的最大数目。在此实例中,索引的最大数目为从0到128的数目,因此上文所提及的数据可消耗存取帧单元中的7个位。

在上文所提及的实例中,基于逐个帧,位流产生单元42可产生位流21以包含指示以下情形的数据:(1)使用8个不同码簿中的哪一者来进行VQ(对于每个v-向量);以及(2)用以译码每一v-向量的索引的实际数目(X)。在此实例中,指示使用8个不同码簿中的哪一者来进行VQ的数据可消耗3个位。指示用以译码每一v-向量的索引的实际数目(X)的数据可由存取帧单元中所指定的索引的最大数目来给出。在此实例中,此数目可在0个位到7个位的范围内。

在一些实例中,位流产生单元42可产生位流21以包含以下各者:(1)指示选择及传输哪些方向向量的索引(根据所计算的加权值);以及(2)用于每一所选择的方向向量的加权值。在一些实例中,本发明可提供用于使用对经正规化的球谐码向量的码簿的分解进行V-向量的量化的技术。

图17为说明在空间域中表示的16个不同的码向量63A到63P的图,所述码向量可由图7及8中的任一者或两者的实例中所展示的V-向量译码单元52使用。码向量63A到63P可表示上文所论述的码向量63中的一或多者。

图18为说明可藉以供图7及8中的任一者或两者的实例中所展示的V-向量译码单元52使用16个不同的码向量63A到63P的不同方式的图。V-向量译码单元52可接收减少的前景V[k]向量55中的一者,所述减少的前景V[k]向量55是在经再现到空间域之后展示且表示为V-向量55。V-向量译码单元52可执行上文所论述的向量量化以产生V-向量55的三个不同的经译码版本。V-向量55的三个不同的经译码版本是在经再现到空间域之后展示且表示为经译码V-向量57A、经译码V-向量57B及经译码V-向量57C。V-向量译码单元52可选择经译码V-向量57A到57C中的一者作为对应于V-向量55的经译码前景V[k]向量57中的一者。

V-向量译码单元52可基于在图17的实例中更详细地展示的码向量63A到63P(“经译码向量63”)产生经译码V-向量57A到57C中的每一者。V-向量译码单元52可基于如曲线300A中所展示的所有16个码向量63产生经译码V-向量57A,其中所有16个索引是连同16个加权值一起指定。V-向量译码单元52可基于码向量63的非零子集(例如,围封于正方形方框中且与索引2、6及7相关联的码向量63,如曲线300B中所展示,在给定其它索引具有加权零的情况下)产生经译码V-向量57A。除了首先将原始的V-向量55量化以外,V-向量译码单元52可使用与在产生经译码V-向量57B时使用的码向量相同的三个码向量63产生经译码V-向量57C。

审阅经译码V-向量57A到57C的再现,与原始V-向量55相比较,说明:向量量化可提供原始V-向量55的大体上类似的表示(意味着经译码V-向量57A到57C中的每一者之间的误差很可能较小)。将经译码V-向量57A到57C彼此相比较还揭示了仅存在微小或轻微差异。因而,经译码V-向量57A到57C中提供最好的位减少的经译码V-向量很可能为经译码V-向量57A到57C中可供V-向量译码单元52选择的经译码V-向量。在给定经译码V-向量57C最可能提供最小位速率的情况下(在给定经译码V-向量57C利用V-向量55的经量化的版本同时还仅使用码向量63中的三个码向量的情况下),V-向量译码单元52可选择经译码V-向量57C作为经译码前景V[k]向量57中对应于V-向量55的经译码前景V[k]向量。

图21为说明根据本发明的实例向量量化单元520的框图。在一些实例中,向量量化单元520可为图3A的音频编码装置20中或图3B的音频编码装置20中的V-向量译码单元52的实例。向量量化单元520包含分解单元522、权重选择及排序单元524,及向量选择单元526。分解单元522可基于码向量63将减少的前景V[k]向量55中的每一者分解成码向量的加权总和。分解单元522可产生权重值528且将权重值528提供到权重选择及排序单元524。

权重选择及排序单元524可选择权重值528的子集以产生权重值的所选择的子集。举例来说,权重选择及排序单元524可从所述组权重值528中选择M个最大量值权重值。权重选择及排序单元524可基于权重值的量值进一步将权重值的所选择的子集重新排序以产生权重值的经重新排序的所选择的子集530,且将权重值的经重新排序的所选择的子集530提供到向量选择单元526。

向量选择单元526可从量化码簿532中选择M-分量向量来表示M个权重值。换句话说,向量选择单元526可将M个权重值向量量化。在一些实例中,M可对应于由权重选择及排序单元524选择以表示单个V-向量的权重值的数目。向量选择单元526可产生指示经选择以表示M个权重值的M-分量向量的数据,且将此数据提供到位流产生单元42作为经译码权重57。在一些实例中,量化码簿532可包含经编索引的多个M-分量向量,且指示M-分量向量的数据可为量化码簿532中指向所选择的向量的索引值。在这些实例中,解码器可包含经类似地编索引的量化码簿以解码索引值。

图22为说明向量量化单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。如上文关于图21的实例所描述,向量量化单元520包含分解单元522、权重选择及排序单元524,及向量选择单元526。分解单元522可基于码向量63将减少的前景V[k]向量55中的每一者分解成码向量的加权总和(750)。分解单元522可获得权重值528且将权重值528提供到权重选择及排序单元524(752)。

权重选择及排序单元524可选择权重值528的子集以产生权重值的所选择的子集(754)。举例来说,权重选择及排序单元524可从所述组权重值528中选择M个最大量值权重值。权重选择及排序单元524可基于权重值的量值进一步将权重值的所选择的子集重新排序以产生权重值的经重新排序的所选择的子集530,且将权重值的经重新排序的所选择的子集530提供到向量选择单元526(756)。

向量选择单元526可从量化码簿532中选择M-分量向量来表示M个权重值。换句话说,向量选择单元526可将M个权重值向量量化(758)。在一些实例中,M可对应于由权重选择及排序单元524选择以表示单个V-向量的权重值的数目。向量选择单元526可产生指示经选择以表示M个权重值的M-分量向量的数据,且将此数据提供到位流产生单元42作为经译码权重57。在一些实例中,量化码簿532可包含经编索引的多个M-分量向量,且指示M-分量向量的数据可为量化码簿532中指向所选择的向量的索引值。在这些实例中,解码器可包含经类似地编索引的量化码簿以解码索引值。

图23为说明V-向量重建构单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。图4A或图4B的V-向量重建构单元74可首先(例如)从提取单元72获得权重值(在从位流21解析之后)(760)。V-向量重建构单元74还可(例如)按上文所描述的方式使用在位流21中用信号通知的索引从码簿获得码向量(762)。V-向量重建构单元74可接着按上文所描述的各种方式中的一或多者基于权重值及码向量重建构减少的前景V[k]向量(其还可被称作V-向量)55(764)。

图24为说明图3A或图3B的V-向量译码单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。V-向量译码单元52可获得目标位速率(其还可被称作阈值位速率)41(770)。当目标位速率41大于256Kbps时(或任何其它经指定、经配置或确定的位速率)(772的“否”),V-向量译码单元52可确定对V-向量55应用且接着应用标量量化(774)。当目标位速率41小于或等于256Kbps时(772的“是”),V-向量重建构单元52可确定对V-向量55应用且接着应用向量量化(776)。V-向量译码单元52还可在位流21中用信号通知:关于V-向量55执行标量量化或向量量化(778)。

图25为说明V-向量重建构单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。图4A或图4B的V-向量重建构单元74可首先获得指示关于V-向量55是执行标量量化还是向量量化的指示(例如,语法元素)(780)。当语法元素指示并不执行标量量化时(782的“否”),V-向量重建构单元74可执行向量解量化以重建构V-向量55(784)。当语法元素指示执行标量量化时(782的“是”),V-向量重建构单元74可执行标量解量化以重建构V-向量55(786)。

图26为说明图3A或图3B的V-向量译码单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。V-向量译码单元52可选择多个(意味着两个或多于两个)码簿中的一者以在将V-向量55向量量化时使用(790)。V-向量译码单元52可接着按上文关于V-向量55所描述的方式使用两个或多于两个码簿中的所选择的码簿执行向量量化(792)。V-向量译码单元52可接着在位流21中指示或以其它方式用信号通知在将V-向量55量化时使用两个或多于两个码簿中的一码簿(794)。

图27为说明V-向量重建构单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。图4A或图4B的V-向量重建构单元74可首先获得关于在将V-向量55向量量化时使用的两个或多于两个码簿中的一者的指示(例如,语法元素)(800)。V-向量重建构单元74可接着执行向量解量化以按上文所描述的方式使用两个或多于两个码簿中的所选择的码簿重建构V-向量55(802)。

所述技术的各种方面可实现一种在以下条项中阐述的装置:

条项1。一种装置,其包括:用于存储多个码簿以在关于声场的空间分量执行向量量化时使用的装置,所述空间分量经由对多个高阶立体混响系数应用分解而获得;以及用于选择所述多个码簿中的一者的装置。

条项2。根据条项1所述的装置,其进一步包括用于在包含所述经向量量化的空间分量的位流中指定语法元素的装置,所述语法元素识别到具有在执行所述空间分量的所述向量量化时使用的权重值的所述多个码簿中的所述所选择的码簿中的索引。

条项3。根据条项1所述的装置,其进一步包括用于在包含所述经向量量化的空间分量的位流中指定语法元素的装置,所述语法元素识别到具有在执行所述空间分量的所述向量量化时使用的码向量的向量辞典中的索引。

条项4。根据条项1所述的方法,其中用于选择多个码簿中的一者的所述装置包括用于基于在执行所述向量量化时使用的码向量的一数目选择所述多个码簿中的所述码簿的装置。

所述技术的各种方面还可实现一种在以下条项中阐述的装置:

条项5。一种设备,其包括:用于关于多个高阶立体混响(HOA)系数执行分解以产生所述HOA系数的经分解版本的装置,及用于基于一组码向量确定表示向量的一或多个权重值的装置,所述向量包含于所述HOA系数的所述经分解版本中,所述权重值中的每一者对应于表示所述向量的所述码向量的加权总和中所包含的多个权重中的相应权重。

条项6。根据条项5所述的设备,其进一步包括用于从一组候选分解码簿中选择分解码簿的装置,其中用于基于所述组码向量确定所述一或多个权重值的所述装置包括用于基于由所述所选择的分解码簿指定的所述组码向量确定所述权重值的装置。

条项7。根据条项6所述的设备,其中所述候选分解码簿中的每一者包含多个码向量,且其中所述候选分解码簿中的至少两者具有不同数目个码向量。

条项8。根据条项5所述的设备,其进一步包括:用于产生位流以包含指示使用哪些码向量来确定所述权重的一或多个索引的装置,及用于产生所述位流以进一步包含对应于所述索引中的每一者的权重值的装置。

可关于任何数目个不同内容脉络及音频生态系统执行前述技术中的任一者。下文描述数个实例内容脉络,但所述技术应限于所述实例内容脉络。实例音频生态系统可包含音频内容、影片工作室、音乐工作室、游戏音频工作室、基于声道的音频内容、译码引擎、游戏音频符尾(game audio stems)、游戏音频译码/再现引擎,及递送系统。

影片工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。影片工作室可例如通过使用数字音频工作站(DAW)输出基于声道的音频内容(例如,呈2.0、5.1及7.1)。音乐工作室可例如通过使用DAW输出基于声道的音频内容(例如,呈2.0及5.1)。在任一状况下,译码引擎可基于一或多个编码解码器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比数字Plus(Dolby Digital Plus)及DTS主音频)接收及编码基于声道的音频内容以供由递送系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频符尾。游戏音频译码/再现引擎可译码音频符尾及或将音频符尾再现成基于声道的音频内容以供由递送系统输出。可执行所述技术的另一实例内容脉络包括音频生态系统,其可包含广播记录音频物件、专业音频系统、消费型装置上捕获、HOA音频格式、装置上再现、消费型音频、TV及附件,及汽车音频系统。

广播记录音频物件、专业音频系统及消费型装置上捕获皆可使用HOA音频格式译码其输出。以此方式,可使用HOA音频格式将音频内容译码成单个表示,可使用装置上再现、消费型音频、TV及附件及汽车音频系统播放所述单个表示。换句话说,可在通用音频播放系统(即,与需要例如5.1、7.1等的特定配置的情形形成对比)(例如,音频播放系统16)处播放音频内容的单个表示。

可执行所述技术的内容脉络的其它实例包含可包含获取元件及播放元件的音频生态系统。获取元件可包含有线及/或无线获取装置(例如,Eigen麦克风)、装置上环绕声捕获器及移动装置(例如,智能手机及平板计算机)。在一些实例中,有线及/或无线获取装置可经由有线及/或无线通信信道耦接到移动装置。

根据本发明的一或多个技术,移动装置可用以获取声场。举例来说,移动装置可经由有线及/或无线获取装置及/或装置上环绕声捕获器(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取声场译码成HOA系数以用于由播放元件中的一或多者播放。举例来说,移动装置的用户可记录(获取声场)实况事件(例如,集会、会议、比赛、音乐会等),且将记录译码成HOA系数。

移动装置还可利用播放元件中的一或多者来播放HOA经译码声场。举例来说,移动装置可解码HOA经译码声场,且将使得播放元件中的一或多者重新建立声场的信号输出到播放元件中的一或多者。作为一实例,移动装置可利用无线及/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒(sound bar)等)。作为另一实例,移动装置可利用衔接解决方案将信号输出到一或多个衔接台及/或一或多个衔接的扬声器(例如,智能汽车及/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机再现将信号输出到一组头戴式耳机(例如)以建立实际的双耳声音。

在一些实例中,特定移动装置可获取3D声场并且在稍后时间播放相同的3D声场。在一些实例中,移动装置可获取3D声场,将所述3D声场编码为HOA,且将经编码3D声场传输到一或多个其它装置(例如,其它移动装置及/或其它非移动装置)以用于播放。

可执行所述技术的又一内容脉络包含可包含音频内容、游戏工作室、经译码音频内容、再现引擎及递送系统的音频生态系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含HOA插件及/或可经配置以与一或多个游戏音频系统一起操作(例如,工作)的工具。在一些实例中,游戏工作室可输出支持HOA的新符尾格式。在任何状况下,游戏工作室可将经译码音频内容输出到再现引擎,所述再现引擎可再现声场以供由递送系统播放。

还可关于示范性音频获取装置执行所述技术。举例来说,可关于可包含共同地经配置以记录3D声场的多个麦克风的Eigen麦克风执行所述技术。在一些实例中,Eigen麦克风的所述多个麦克风可位于具有大约4cm的半径的大体上球面球的表面上。在一些实例中,音频编码装置20可集成到Eigen麦克风中以便直接从麦克风输出位流21。

另一示范性音频获取内容脉络可包含可经配置以接收来自一或多个麦克风(例如,一或多个Eigen麦克风)的信号的制作车。制作车还可包含音频编码器,例如图3A的音频编码器20。

在一些情况下,移动装置还可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以关于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图3A的音频编码器20。

加固型视频捕获装置可经进一步配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话,等等)的3D声场。

还可关于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个附件。举例来说,Eigen麦克风可附接到上文所提及的移动装置以形成附件增强型移动装置。以此方式,附件增强型移动装置可捕获3D声场的较高质量版本(与仅使用与附件增强型移动装置成一体式的声音捕获组件的情形相比较)。

下文进一步论述可执行本发明中所描述的技术的各种方面的实例音频播放装置。根据本发明的一或多个技术,扬声器及/或声棒可布置于任何任意配置中,同时仍播放3D声场。此外,在一些实例中,头戴式耳机播放装置可经由有线或无线连接耦接到解码器24。根据本发明的一或多个技术,可利用声场的单个通用表示来在扬声器、声棒及头戴式耳机播放装置的任何组合上再现声场。

数个不同实例音频播放环境还可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器播放环境、2.0(例如,立体声)扬声器播放环境、具有全高前扩音器的9.1扬声器播放环境、22.2扬声器播放环境、16.0扬声器播放环境、汽车扬声器播放环境,及具有耳挂式耳机的移动装置播放环境。

根据本发明的一或多个技术,可利用声场的单个通用表示来在前述播放环境中的任一者上再现声场。另外,本发明的技术使得再现器能够从通用表示再现声场以供在不同于上文所描述的环境的播放环境上播放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器播放环境的恰当放置(例如,如果不可能放置右环绕扬声器),那么本发明的技术使得再现器能够用其它6个扬声器进行补偿,使得可在6.1扬声器播放环境上实现播放。

此外,用户可在佩戴头戴式耳机时观看运动比赛。根据本发明的一或多个技术,可获取运动比赛的3D声场(例如,可将一或多个Eigen麦克风放置于棒球场中及/或周围),可获得对应于3D声场的HOA系数且将所述HOA系数传输到解码器,所述解码器可基于HOA系数重建构3D声场且将经重建构的3D声场输出到再现器,所述再现器可获得关于播放环境的类型(例如,头戴式耳机)的指示,且将经重建构的3D声场再现成使得头戴式耳机输出运动比赛的3D声场的表示的信号。

在上文所描述的各种情况中的每一者中,应理解,音频编码装置20可执行方法或另外包括用以执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,数组编码实例中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器执行音频编码装置20已经配置以执行的方法。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体进行传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

同样,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行方法或另外包括用以执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,数组编码实例中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器执行音频解码装置24已经配置以执行的方法。

借助于实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存或可用来存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而是针对非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。以上各者的组合还应包含于计算机可读媒体的范围内。

指令可由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路系统。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,可在经配置用于编码及解码的专用硬件及/或软件模组内提供本文中所描述的功能性,或将本文中所描述的功能性并入于组合式编码解码器中。又,所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施,所述装置或设备包含无线手机、集成电路(IC)或一组IC(例如,芯片组)。在本发明中描述各种组件、模组或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要由不同硬件单元来实现。确切地说,如上文所描述,各种单元可与合适的软件及/或固件一起组合于编码解码器硬件单元中或由互操作性硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。

已描述所述技术的各种方面。所述技术的这些及其它方面在以下权利要求书的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1