按运动稳定译码高阶立体混响音频数据的制作方法

文档序号：11289141阅读：259来源：国知局

本申请要求以下各者的权益：

2015年2月3日申请的题为“按运动稳定译码高阶立体混响音频数据(codinghigher-orderambisonicaudiodatawithmotionstabilization)”的美国临时申请第62/111,641号；和

2015年2月3日申请的题为“按运动稳定译码高阶立体混响音频数据(codinghigher-orderambisonicaudiodatawithmotionstabilization)”的美国临时申请第62/111,642号，所述申请中的每一个的全部内容被以引用的方式并入本文中。

本发明涉及音频数据，并且更具体地说，高阶立体混响音频数据的译码。

背景技术：

高阶立体混响(hoa)信号(常常由多个球面谐波系数(shc)或其它分层元素表示)是声场的三维表示。hoa或shc表示可以独立于用以重放从shc信号呈现的多信道音频信号的局部扬声器几何布置的方式来表示声场。所述shc信号也可有助于向后兼容性，因为所述shc信号可被呈现为众所周知的且被高度采用的多声道格式(例如，5.1音频声道格式或7.1音频声道格式)。因此，所述shc表示可实现也适应向后兼容性的对声场的更好表示。

技术实现要素：

一般来说，描述用于高阶立体混响音频数据的译码的技术。高阶立体混响音频数据可包括对应于具有大于一的阶数的球面谐波基底函数的至少一个高阶立体混响(hoa)系数。

在一个方面，本发明是针对一种运动补偿的方法。所述方法包含由被配置以补偿运动的装置接收指示与由麦克风阵列进行的三维(3d)声场的一或多个音频对象的捕获相关联的一或多个移动的运动信息。所述方法进一步包含由被配置以补偿运动的所述装置调整与麦克风阵列的一或多个麦克风相关联的虚拟定位信息以补偿与由所述麦克风阵列进行的所述3d声场的所述一或多个音频对象的所述捕获相关联的所述一或多个移动。所述方法可进一步包含由被配置以补偿运动的所述装置基于所述调整的虚拟定位信息产生经运动补偿的位流。

在另一方面，本发明是针对一种被配置以补偿运动的装置。所述装置包含被配置以存储与三维(3d)声场相关联的音频数据的存储器，和一或多个处理器。所述一或多个处理器被配置以接收指示与由麦克风阵列进行的三维(3d)声场的一或多个音频对象的捕获相关联的一或多个移动的运动信息，和调整与麦克风阵列的一或多个麦克风相关联的虚拟定位信息以补偿与由所述麦克风阵列进行的所述3d声场的一或多个音频对象的捕获相关联的一或多个移动。所述一或多个处理器也可被配置以基于所述经调整的虚拟定位信息产生经运动补偿的位流。

在另一方面，本发明是针对一种被配置以补偿运动的装置。所述装置包含用于存储与三维(3d)声场相关联的音频数据的装置、用于接收指示与由麦克风阵列进行的所述3d声场的一或多个音频对象的捕获相关联的一或多个移动的运动信息的装置和用于调整与麦克风阵列的一或多个麦克风相关联的虚拟定位信息以补偿与由所述麦克风阵列进行的所述3d声场的所述一或多个音频对象的所述捕获相关联的所述一或多个移动的装置。所述装置还可包含用于基于所述经调整的虚拟定位信息产生经运动补偿的位流的装置。

在另一方面，本发明是针对一种用指令编码的非暂时性计算机可读存储媒体。所述指令在经执行时使用于补偿运动的计算装置的一或多个处理器接收指示与由麦克风阵列进行的所述3d声场的一或多个音频对象的捕获相关联的一或多个移动的运动信息，调整与麦克风阵列的一或多个麦克风相关联的虚拟定位信息以补偿与由所述麦克风阵列进行的所述3d声场的一或多个音频对象的所述捕获相关联的所述一或多个移动，和基于所述经调整的虚拟定位信息产生经运动补偿的位流。

在附图和以下描述中阐述所述技术的一或多个方面的细节。所述技术的其它特征、目标和优势将从描述和图式和从权利要求书显而易见。

附图说明

图1是说明各种阶和子阶的球面谐波基底函数的图。

图2是说明可执行本发明中描述的技术的各种方面的系统的图。

图3a和3b是更详细地说明根据本发明的方面的内容捕获装置和内容捕获辅助装置的实例实施方案的框图。

图4a是说明音频编码装置在执行本发明中所描述的译码技术的各种方面过程中的示范性操作的流程图。

图4b是说明图4a中说明的过程的替代性表示的流程图。

图4c是说明根据本发明的一或多个方面的稳定单元可在测量声场的音频对象的3d移动过程中使用的各种角度的概念图。

图4d是说明根据本发明的一或多个方面的稳定单元针对hoa域中的音频对象的运动稳定可关于图4a的过程实施的改进的概念图。

图5是说明音频解码装置在执行本发明中所描述的译码技术过程中的示范性操作的流程图。

图6a到6f是说明根据本发明的各种方面的内容捕获装置300和麦克风的不同组合的图。

图7a到7e是说明根据本发明中描述的技术的呈利用紧固到内容捕获装置的三维麦克风的智能电话的形式的内容捕获装置的不同实例的图。

图8a和8b是说明根据本发明的一或多个方面的麦克风的不同实例的图。

图9是说明根据本发明的一或多个方面的与一或多个实例内容捕获辅助装置通信的实例内容捕获装置的概念图。

具体实施方式

环绕声音的演变现今已使用于娱乐的许多输出格式可用。此类消费型环绕声格式的实例大部分基于‘声道’，其中其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含流行的5.1格式(其包含以下六个声道：左前(fl)、右前(fr)、中心或前方中央、左后或左环绕、右后或右环绕和低频效果(lfe))、成长中的7.1格式、包含高度扬声器的各种格式，例如7.1.4格式和22.2格式(例如，用于供超高清电视标准使用)。非消费型格式可跨越常被称为‘环绕阵列’的任何数目个扬声器(以对称和非对称几何形状)。此阵列的一个实例包含定位在截头二十面体的拐角上的坐标处的32个扩音器。

到未来mpeg编码器的输入任选地为三个可能格式中的一个：(i)传统的基于声道的音频(如上所论述)，其意在通过在预先指定的位置处的扩音器播放；(ii)基于对象的音频，其涉及用于单个音频对象的具有含有其位置坐标(在各信息当中)的相关联元数据的离散脉冲代码调制(pcm)数据；和(iii)基于场景的音频，其涉及使用球面谐波基底函数的系数(也叫作“球面谐波系数”或shc、“高阶立体混响”或hoa和“hoa系数”)来表示声场。所述未来mpeg编码器可在由国际标准化组织/国际电工委员会(iso)/(iec)jtc1/sc29/wg11/n13411在2013年1月在瑞士日内瓦发布的标题为“对3d音频的提议的要求(callforproposalsfor3daudio)”的文献中更详细地描述，并且该文献可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip获得。

在市场中存在各种基于“环绕声”声道的格式。其范围(例如)从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到nhk(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如，好莱坞工作室)将希望一次产生电影的音轨，且不用花费精力来针对每个扬声器配置对其进行再混合。近来，标准开发组织一直在考虑如下方式：将编码提供到标准化位流中并且提供可适应并对扬声器几何布置(和数目)和回放位置处的声学状况不可知的后续解码。

为向内容创建者提供此灵活性，可使用分层要素集合来表示声场。所述分层要素集合可指要素被排序使得较低阶要素的基础集合提供模型化声场的完全表示的一组要素。在扩展所述集合以包含高阶元素时，所述表示变得更详细，从而增加分辨率。

分层要素集合的一个实例为球面谐波系数(shc)的集合。以下表达式演示使用shc对声场的描述或表示：

所述表达式展示在时间t，在声场的任一点处的压力pi可由shc唯一地表示。此处，c是声速(～343m/s)，是参考点(或观测点)，jn(·)是阶数为n的球面贝塞尔函数，且是阶数为n且子阶为m的球面谐波基底函数。可认识到，方括号中的项是信号的频域表示(即，)，其可通过各种时间-频率变换来估算，例如，离散傅立叶变换(dft)、离散余弦变换(dct)或小波变换。分层集合的其它实例包含小波变换系数的集合和其它多分辨率基底函数系数集合。

图1是说明从零阶(n＝0)到四阶(n＝4)的球面谐波基底函数的图。如可看出，对于每一阶，存在子阶m的扩展，出于易于说明的目的，在图1的实例中展示所述子阶但未明确地指出。

shc可通过各种麦克风阵列配置物理获取(例如，记录)，或替代地，其可从声场的基于声道或基于对象的描述导出。shc表示基于场景的音频，其中shc可输入到音频编码器以获得经编码shc，所述经编码shc可促进更高效的发射或存储。举例来说，可使用涉及(1+4)²个(25，且因此为四阶)系数的四阶表示。

如上所指出，可使用麦克风阵列从麦克风记录导出shc。可从麦克风阵列导出shc的方式的各种实例在波莱蒂·m的“基于球面谐波的三维环绕声系统(three-dimensionalsurroundsoundsystemsbasedonsphericalharmonics)”(听觉工程学协会会刊(j.audioeng.soc.)，第53卷,第11期，2005年11月，第1004到1025页)中描述。

为说明可如何从基于对象的描述导出shc，考虑以下等式。可将对应于个别音频对象的声场的系数表达为：

其中i为是阶数n的(第二种)球面汉克尔函数，且是对象的位置。知道对象源能g(ω)为频率的函数(例如，使用时间-频率分析技术，例如，对pcm流执行快速傅立叶变换)允许我们将每一pcm对象和对应的位置转换成shc另外，可展示(由于以上是纯属且正交分解)每一对象的系数是加成的。以此方式，大量pcm对象可由系数表示(例如，作为用于个别对象的系统向量的总和)。基本上，系数含有关于声场的信息(作为3d坐标的函数的压力)，且以上表示在观测点附近从个别对象到总声场的表示的变换。下文在基于对象和基于shc的音频译码的上下文中描述其余各图。

图2是说明可执行本发明中描述的技术的各种方面的系统10的图。如图2的实例中所展示，系统10包含内容创建者装置12和内容消费者装置14。虽然在所述内容创建者装置12和所述内容消费者装置14的上下文中描述，但是所述技术可在声场的shc(其也可被称作hoa系数)或任何其它分层表示被编码以形成表示音频数据的位流的任何情境中实施。此外，内容创建者12可表示能够实施在本发明中描述的技术的任何形式的计算装置，包含手机(或蜂窝式电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样地，内容消费者装置14可表示能够实施在本发明中描述的技术的任何形式的计算装置，包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒或台式计算机(提供几个实例)。

内容创建者装置12可由电影工作室或可产生用于由内容消费者装置(例如，内容消费者装置14)的操作者消费的多声道音频内容的其它实体来操作。在一些实例中，内容创建者装置12可由希望压缩hoa系数11的个人用户操作。通常，内容创建者可产生音频内容与视频内容。内容消费者装置14可由个人操作。内容消费者装置14可包含音频回放系统16，其可指能够呈现shc以用于作为多声道音频内容回放的任何形式的音频回放系统。

内容创建者装置12包含内容捕获装置300和内容捕获辅助装置302。内容捕获装置300可被配置以与麦克风5接口连接或以其它方式通信。麦克风5可表示或能够捕获和表示声场作为hoa系数11的其它类型的3d音频麦克风。在一些实例中，内容捕获装置300可包含集成麦克风5，其集成到内容捕获装置300的外壳内。在一些实例中，内容捕获装置300可与麦克风5无线或经由有线连接而接口连接。以下更详细地描述内容捕获装置与麦克风的各种组合。

内容捕获装置300可包含相机、加固型相机(其可包含适合于在体育和其它激烈活动期间的实况记录的保护性壳和组件)、蜂窝式电话、所谓的“智能电话”、平板计算机、台式计算机、工作站或能够与麦克风5接口连接以捕获表示声场的hoa系数11的任一其它装置。内容捕获装置300也可被配置以与内容捕获辅助装置302接口连接或以其它方式通信。内容捕获辅助装置302可包含蜂窝式电话、所谓的“智能电话”、平板计算机、台式计算机、工作站或能够与内容捕获装置300接口连接的任一其它装置。

在一些实例中，内容捕获装置300可被配置以与内容捕获辅助装置302无线通信。在一些实例中，内容捕获装置300可经由无线连接或有线连接中的一或两个与内容捕获辅助装置302通信。经由内容捕获装置300与内容捕获辅助装置302之间的连接，内容捕获装置300可以内容301的各种形式提供内容。内容301可包含视频数据、文本数据、图像数据和音频数据中的一或多个。当内容301包含视频数据时，视频数据可处于未压缩形式或经压缩形式。当内容包含图像数据时，图像数据可处于未压缩形式或经压缩形式。当内容包含音频数据时，音频数据可处于未压缩形式或经压缩形式。

内容捕获辅助装置302可表示被配置以与内容捕获装置300接口连接以辅助捕获内容301的装置。在一些实例中，内容捕获辅助装置302可执行被配置以允许内容捕获辅助装置302的操作者控制内容捕获装置300的操作的应用程序(其可被称作“app”)。所述应用程序可允许操作者配置内容捕获装置300的各种设定，例如，视频记录设定、文字设定、图像捕获设定和音频记录设定。应用程序还可允许操作者起始内容301的捕获，停止内容301的捕获，或起始和停止内容301的捕获两者。

内容捕获辅助装置302还可以各种方式辅助内容301的处理。在一些实例中，内容捕获装置300可充分利用内容捕获辅助装置302的各种方面(就内容捕获辅助装置302的硬件或软件能力来说)。举例来说，内容捕获辅助装置302可包含专用硬件，其被配置以(或专用软件，其在经执行时使一或多个处理器)执行心理声学音频编码(例如，由动画专家组(mpeg)阐述的表示为“usac”的统一化语音和音频译码器)。内容捕获装置300可不包含心理声学音频编码器专用硬件或专用软件，且取而代之，以非心理声学音频译码形式提供内容301的音频方面。内容捕获辅助装置302可至少部分通过执行关于内容301的音频方面的心理声学音频编码来辅助内容301的捕获。

内容捕获辅助装置302还可通过至少部分基于内容301产生一或多个位流21来辅助内容捕获。位流21可表示hoa系数11的经压缩型式和内容301的任何其它不同类型(例如，所捕获的视频数据、图像数据或文本数据的经压缩型式)。作为一个实例，内容捕获辅助装置302可产生位流21供跨发射信道(其可为有线或无线信道、数据存储装置或类似者)发射。位流21可表示hoa系数11的经编码型式，且可包含主要位流和另一旁侧位流(其可被称作旁侧信道信息)。

虽然在图2中展示为直接发射到内容消费者装置14，但内容创建者装置12可将位流21输出到定位于内容创建者装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以用于稍后传递到可能请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网络服务器、台式计算机、笔记本电脑、平板计算机、移动电话、智能电话或能够存储位流21以供音频解码器稍后检索的任一其它装置。中间装置可驻留在能够将位流21流式传输(且可能与发射对应的视频数据位流一起)到请求位流21的订户(例如，内容消费者装置14)的内容传递网络中。

替代地，内容创建者装置12可将位流21存储到存储媒体，例如，压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体，其中大多数能够由计算机读取且因此可被称作计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中，发射信道可指发射存储到媒体的内容所借的信道(且可包含零售店和其它基于商店的传递机构)。因此，无论如何，在此方面，本发明的技术不应限于图2的实例。

如图2的实例中进一步展示，内容消费者装置14包含音频回放系统16。音频回放系统16可表示能够回放多信道音频数据的任何音频回放系统。音频回放系统16可包含多个不同的呈现器22。呈现器22可各自提供不同形式的呈现，其中所述不同形式的呈现可包含执行向量基幅度平移(vbap)的各种方式中的一或多个和/或执行声场合成的各种方式中的一或多个。如本文所使用，“a和/或b”意味着“a或b”或“a和b”两者。

音频回放系统16可进一步包含音频解码装置24。所述音频解码装置24可表示被配置以解码来自位流21的hoa系数15的装置，其中所述hoa系数15可类似于hoa系数11，但归因于有损操作(例如，量化)和/或经由发射信道的发射而不同。音频回放系统16可在解码位流21以获得hoa系数15且呈现hoa系数15以输出扩音器馈送25后。扩音器馈给25可驱动一或多个扩音器(为了易于说明目的，其未在图2的实例中展示)。

为了选择适当的呈现器或在一些情况下产生适当的呈现器，所述音频回放系统16可获得指示扩音器的数目和/或所述扩音器的空间几何布置的扩音器信息13。在一些情况下，所述音频回放系统16可使用参考麦克风且以使得动态地确定所述扩音器信息13的方式驱动所述扩音器来获得所述扩音器信息13。在其它情况下或与所述扩音器信息13的动态确定一起，所述音频回放系统16可提示用户与所述音频回放系统16接口连接并输入所述扩音器信息13。

所述音频回放系统16可接着基于所述扩音器信息13选择所述音频呈现器22中的一个。在一些情况下，当所述音频呈现器22中无一个在于在所述扩音器信息13中指定的扩音器几何布置的某一阈值类似性量度(就扩音器几何布置来说)内时，所述音频回放系统16可基于扩音器信息13产生音频呈现器22中的一个。在一些情况下，所述音频回放系统16可基于扩音器信息13产生音频呈现器22中的一个，而无需首先尝试选择所述音频呈现器22中的现有一个。一或多个扬声器可接着回放所述呈现的扩音器馈送25。

图3a和3b是更详细地说明内容捕获装置300和内容捕获辅助装置302的实例实施方案的框图。图3a的实例大体是针对本发明的后转码稳定技术。内容捕获装置300包含音频内容捕获单元310、音频编码装置20、非音频内容捕获单元312、非音频编码装置314和接口单元316(“接口316”)。如所展示，内容捕获装置300还包含稳定单元320。音频内容捕获单元310可表示被配置以与麦克风5接口连接且将从麦克风5接收的音频数据供应到稳定单元320的单元。音频内容捕获单元310可将捕获的hoa系数11提供到稳定单元320。虽然麦克风5在以上描述为捕获以上hoa系数11，但应了解，在各种实施方案中，内容捕获装置的其它组件(例如，音频内容捕获单元310)可使用由麦克风5提供的音频数据产生hoa系数11。举例来说，稳定单元320可使用用于麦克风5的麦克风阵列中包含的每一个别麦克风的位置信息将麦克风5的输出转码成hoa系数。

又，稳定单元320可实施本发明的技术以调整hoa系数11以补偿与麦克风5有关的特定运动信息。更具体地说，稳定单元320可使声场的音频对象稳定以减轻或(在一些情况下)去除由麦克风抖动或与麦克风5相关联的其它此类移动造成的效应。在图3a的实例中，稳定单元320可使用hoa域中的数据(即，hoa系数11)补救指示麦克风5的移动的抖动。

另外，稳定单元320可从被配置以在多个自由度(例如，三维(3d)或六个自由度)中感测运动信息的装置(例如，加速度计或帮助追踪移动的罗盘)接收用于麦克风5的移动信息。又，稳定单元320可应用3d运动信息以执行本发明的运动稳定技术。在各种实例中，麦克风5可包含内置式加速度计(例如，定位于个别麦克风的球形阵列的中心处)，或可耦合到外部加速度计(例如，贴附麦克风5的其它组件的加速度计)。在一个实例中，加速度计可包含于麦克风5的杆或柄中。一般来说，加速度计可定位于沿着同一平面或沿着大体上类似于麦克风5的阵列的平面旋转的任一位置处。更具体地说，稳定单元320可通过将反向旋转应用到hoa系数11来执行运动稳定。

当在hoa域中实施(例如，关于hoa系数11)时，通过补偿移动(例如，其指示抖动)来使声场稳定可在计算上更高效，如在图3a的实施方案中的情况。因此，在各种情境中，图3a中说明的解决方案可比其它替代方案可行。举例来说，稳定单元320可补偿由麦克风5捕获的3d声场中的移动(例如，抖动)，而不需要引入结构约束和添加到麦克风5或内容捕获装置300。因此，稳定单元320可补偿移动(例如，抖动)，而不潜在地妨碍内容捕获装置300和/或麦克风5的可用性(关于捕获用户产生的内容和/或第一人帐户)。

在特定实例中，稳定单元320可分析与麦克风5相关联的运动信息，且以与记录的运动信息相反的方式旋转声场。在一些实例中，稳定单元320可只补偿(或反向旋转)麦克风5的某些移动。举例来说，稳定单元320可只补偿快速移动、抖动或高频移动，这些都在上文被描述为“微移动”。更具体地说，在此实例中，稳定单元320可保留由加速度计记录的其它(例如，更平滑或更渐变)运动信息，由此维持3d音频产生的完整性。

在各种实例中，稳定单元320可通过将效应矩阵应用到hoa系数11来实施本发明的运动稳定技术。稳定单元320可使用由加速度计针对麦克风5记录的运动信息来产生效应矩阵。更具体地说，稳定单元320可产生效应矩阵使得如与由加速度计针对麦克风5记录的运动信息相比，效应矩阵到声场的应用导致声场的反向旋转。通过应用效应矩阵，稳定单元320可将混合和/或加权添加到由音频内容捕获单元310产生的hoa系数11。在此实例中，由稳定单元320接收的hoa系数11可表示“未补偿的”hoa系数。通过将效应矩阵应用到未补偿的hoa系数11，稳定单元320可产生经运动补偿的hoa系数15。以下关于图4a到4d描述本发明的效应矩阵和运动补偿过程的另外细节。

音频编码装置20可表示被配置以译码hoa系数11以便减小hoa系数11的大小(以位为单位)的单元。音频编码装置20可产生位流21，出于重新发射或存储的目的，接着将所述位流传到内容捕获辅助装置302。音频编码装置20可产生位流21以遵照已知音频标准，例如，题目为“rm1-hoa工作草案文本(rm1-hoaworkingdrafttext)”、日期为2014年1月且在美国圣何塞提出的iso/iecjtc1/sc29/wg11新兴标准，其具有文献编号iso/iecjtc1/sc29/wg11mpeg2014/m31827。

非音频内容捕获单元312可表示被配置以捕获所有非音频内容(例如，视频数据、图像数据或文本数据)的单元。用于说明的目的，假定非音频内容捕获单元312可捕获呈视频数据的形式的非音频内容。非音频编码装置314可表示被配置以编码视频数据的单元。非音频编码装置314可产生遵照视频译码标准的位流。实例视频译码标准为高效视频译码(hevc)标准，其最近由itu-t视频译码专家组(vceg)与iso/iec动画专家组(mpeg)的视频译码联合合作小组(jct-vc)完成。下文被称作hevc版本1的最新hevc规范可从http://www.itu.int/rec/t-rec-h.265-201304-i获得。非音频编码装置314可产生表示视频数据的经压缩型式的位流21。

接口单元316表示被配置以与另一装置接口连接的单元。接口单元316可经由例如无线局域网(wlan)、对等网络或个人局域网(pan)的网络与其它装置接口连接。wlan的实例为遵照ieee802.11g无线标准的ieee802.11gwlan。pan的实例为遵照bluetooth^tm规范集的pan。在一些实例中，接口单元316可经由专用连接(例如，电线)与其它装置接口连接。

假定hoa系数11可按三维(3d)描述声场，那么未压缩的hoa系数11的大小可相当地大。在声场的四阶表示中，hoa系数11的每一样本包含(4+1)²或25个系数。所述系数中的每一个为32位数。hoa系数11的每一样本因此为大致25×32或800个位。

内容捕获装置300可调用接口316以经由发射信道321与内容捕获辅助装置302接口连接。不管经由pan还是wlan，发射信道321可提供不足的带宽来容纳呈未压缩的hoa系数11的形式的原始音频数据，尤其当内容捕获装置300还尝试经由同一发射信道321提供视频数据时。虽然关于无线发射信道(其可表示pan或wlan发射信道)描述，但也可在有线设定中利用技术。在有线设定中，可引起某些其它限制，例如，数据处理、高速缓冲存储和存储速度方面的限制。此外，存储大小可限制可存储的数据的量。因而，技术应不限于无线发射信道的实例，而也可应用于有线设定。此外，数据处理、高速缓冲存储、存储速度和存储大小限制也可在有线和无线设定两者中引起。因此，所述技术可在这些设定的任何组合中应用，并具有任何限制组合。

为了允许内容301经由发射信道321的发射，内容捕获装置300可首先编码hoa系数11和任何伴随的非音频数据(例如，视频数据)。为了编码hoa系数11，内容捕获装置300可调用音频编码装置20。音频编码装置20可编码hoa系数11以获得位流21，从而将位流21提供为内容301的部分。接口316可在形成发射信道321时调用发射(tx)信道协商单元317。tx信道磋商单元317可与包含于内容捕获辅助装置302内的接口316的对应的tx信道磋商单元317协商。

内容捕获装置300的tx信道磋商单元317和内容捕获辅助装置302的对应的tx信道磋商单元317'可接着协商发射信道321的建立，从而选择适当的信道且配置这些信道以允许内容捕获装置300的接口316与内容捕获辅助装置302的对应的接口316'之间的数据通信。在发射信道321的协商期间，内容捕获装置300的tx信道磋商单元317可请求关于内容捕获辅助装置302的各种方面的信息。信息可包括指示在内容捕获辅助装置302处可用于内容301的存储的存储容量。内容捕获辅助装置302的tx信道磋商单元317可将指示存储容量的信息提供到内容捕获装置300的tx信道磋商单元317。

图3b说明大体针对本发明的预先转码稳定技术的实例实施方案。换句话说，图3b的实施方案是针对在预先转码阶段对音频数据(即，不在hoa域中的音频数据)的运动补偿操作。

如图3b中所展示，虚拟重新定位单元330可将虚拟重新定位数据331传达到麦克风5以补偿移动，例如，指示抖动的移动。又，麦克风5可应用虚拟重新定位数据331以调整用于由麦克风5的个别麦克风捕获的音频对象的空间信息，且传播虚拟重新定位供未来音频捕获。以下关于图5描述图3b的预先转码稳定技术的另外细节。

图4a是说明音频编码装置在执行本发明中所描述的译码技术过程中的示范性操作的流程图。虽然过程200可由多种装置执行，但仅为了易于论述目的，以下将过程200描述为由图3a的音频编码装置20的一或多个组件执行。举例来说，稳定单元320(和/或其一或多个组件，个别地或按各种组合工作)可实施图4a的过程200以使声场的音频对象稳定以减轻或(在一些情况下)去除由麦克风抖动或其它此类移动造成的效应。图4a说明图3a的稳定单元320补救hoa域中的移动问题的实施方案。如图4a的特定实例中所展示，稳定单元320可使用具备3d音频功能的麦克风阵列m1到mn中的每一个别麦克风的实际位置将麦克风输出转码成hoa系数(210)。举例来说，用于每一个别麦克风的实际位置信息可反映由麦克风阵列的移动造成的移动(包含抖动和/或所谓的“微移动”)。

另外，根据图4a中说明的过程200，稳定单元320可从被配置以按3d感测运动信息的装置(例如，加速度计或帮助追踪移动的罗盘)接收用于麦克风m1到mn的运动信息(220)。又，稳定单元320可使用接收到的运动信息导出或以其它方式确定用于个别麦克风m1到mn中的每一个的移动信息。又，稳定单元320可应用3d运动信息以执行本发明的运动稳定技术(230)。在各种实例中，麦克风可包含内置式加速度计(例如，定位于个别麦克风m1到mn的球形阵列的中心处)或可耦合到外部加速度计(例如，贴附到相机/麦克风设置的其它组件的加速度计)。在一个实例中，加速度计可包含于麦克风的杆或柄中。更具体地说，稳定单元320可通过将反向旋转应用到由个别麦克风m1到mn的阵列捕获的3d声场的hoa域表示来执行运动稳定。加速度计可定位于沿着同一平面或沿着大体上类似于个别麦克风m1到mn的阵列的平面旋转的任一位置处。在稳定单元320能够存取加速度计与个别麦克风m1到mn的阵列之间的位置关系的实施方案中，稳定单元320可导出用于麦克风阵列的运动信息，即使加速度计不沿着与麦克风阵列相同或大体上类似的平面旋转。以此方式，稳定单元320可以多种方式实施本发明的技术以充分利用由加速度计提供的数据，以确定麦克风阵列的运动信息，且又获得个别麦克风m1到mn中的每一个的移动信息。

当在hoa域中实施时，通过补偿移动来稳定声场可在计算上更高效，如在图4a的实例中的情况。因此，在各种情境中，过程200的解决方案可比其它替代方案可行。举例来说，通过实施图4a的过程200，稳定单元320可补偿声场中的移动，而不需要引入结构约束和添加到相机和/或麦克风系统。因此，稳定单元320可补偿移动，而不潜在地妨碍相机和/或麦克风系统的可用性(关于捕获用户产生的内容和/或第一人帐户)。

在特定实例中，稳定单元320可分析接收(220)到的运动信息，和以与捕获的运动反向的方式旋转声场(230)。在一些实例中，稳定单元320可只补偿(或反向旋转)在步骤220接收的某些移动。举例来说，稳定单元320可只补偿快速移动、抖动或高频移动，这些在以上都被描述为“微移动”。更具体地说，在此实例中，音频编码装置20可保留其它(例如，更平滑或更渐变)运动信息，由此维持3d音频产生的完整性。

图4b是说明图4a的过程200的替代性表示的流程图。在图4b的实例中，通过效应矩阵240来说明运动稳定。音频编码装置20可使用在步骤220处针对麦克风m1到mn接收的运动信息来产生效应矩阵240。更具体地说，稳定单元320可产生效应矩阵240，使得如与在步骤220接收的运动信息相比，效应矩阵240到声场的应用导致声场的反向旋转。效应矩阵240包含零区域242，以图形方式将其与图4b中的有效区域244区别开来。零区域可表示不指示对效应矩阵240应用到的未补偿的hoa系数的任何旋转的矩阵条目或单元。相反地，有效区域244可表示具有相关联的某一“权数”的矩阵条目或单元，且因此，表示某一旋转等级以旋转在步骤210处产生的未补偿的hoa系数。在应用效应矩阵240过程中，稳定单元320可将混合和/或加权添加到在步骤210产生的未补偿的hoa系数。

在图4b的实例中，有效区域244形成小于百分之五十的效应矩阵240，而零区域242表示大于百分之五十的效应矩阵240。因此，在图4b的实例中，稳定单元320可执行本发明的运动稳定技术以反向旋转在步骤210处转码的仅少数的未补偿的hoa系数。如图4b中所说明，稳定单元320可以在计算上高效的方式通过目标针对在步骤220处接收的特定移动(例如，指示抖动的微移动)且只补偿靶向移动、通过应用效应矩阵240来根据本发明执行运动补偿。

图4c是说明稳定单元320可在测量声场的音频对象的3d移动过程中使用的各种角度(即，旋转)的概念图。图4b中说明的效应矩阵240的计算的数学表示如下：

在以上等式中，效应矩阵240由表达表示。又，表示横摇角，θ表示俯仰角，且ψ表示偏航角。在应用效应矩阵240以反向旋转未补偿的hoa系数过程中，音频编码装置20可应用一或多个滤波器，例如，低通滤波器、中值滤波器或卡尔曼滤波器。

计算hoa域中的旋转矩阵的各种技术已(例如)由佐特在“具有球形阵列的声音辐射的分析和合成(analysisandsynthesisofsound-radiationwithsphericalarrays)”或由克龙拉克勒和佐特在“用于立体混响记录的增强的空间变换(spatialtransformationsfortheenhancementofambisonicrecordings)”中描述。本文中描述一个此技术。根据此实例技术，旋转矩阵是在空间域中计算且经由离散球面谐波变换(“dsht”)而转换成hoa域。通过采样点在l方向上的合适分布来采样变换积分γ＝[γ1,...γl]^t，其中l>＝(n+1)²个方向。

hoa域中的旋转矩阵mrot是基于旋转核心和高达hoa阶n的球形谐波(对于方向γ和r·γ)而计算。旋转矩阵mrot的计算可如下表达：

其中表示(·)的蒙罗斯-佩恩伪反向。

图4d是说明稳定单元320可关于过程200实施以用于hoa域中的音频对象的运动稳定的改进的概念图。在一些实施方案中，稳定单元320可计算效应矩阵240的单独例项且将其应用到每一音频样本或帧，由此补偿每一样本的音频对象以补救对应的空间信息的移动诱发的改变。然而，在一些实施方案(例如，图4d中说明的实施方案)中，稳定单元320可通过按给定间隔(例如，每10个样本、每12个等等)导出效应矩阵240的单独例项且将其应用到样本来保存计算资源。由稳定单元320确定的样本的间隔在本文中被称作样本的“块”。

图4d说明四个此类块，即，音频样本块250a到250d。为了减轻或可能去除通过按此类间隔应用效应矩阵所造成的块假象，音频编码装置可应用本发明的技术以内插效应矩阵240的单独例项。换句话说，稳定单元320可通过将对应的内插函数260a到260d应用到效应矩阵240的先前例项来“弄平”在音频样本块250a到250d中的每一个内的过渡。

通过将内插函数260a到260d应用到效应矩阵240的对应例项，稳定单元320可应用本发明的技术以减轻精确度损失，同时改善译码效率。更具体地说，稳定单元320可采用效应矩阵240的稀疏性(例如，就有效的权重值来说，如与更普通的零条目相反)以按多样本间隔应用效应矩阵240，且通过间隔内插效应矩阵240。图4d的基于内插的实施方案可表示比针对经转码的音频输入的每一样本的效应矩阵240的实时计算和应用高效且计算上不太繁重的解决方案。

如图4d中所说明，关于图4a到4d描述的后转码运动补偿技术可定制。关于后转码运动补偿技术的可能的其它定制包含应用运动补偿到目标以仅选择捕获的音频数据的段，设定阈值以确定移动是否有资格为待补偿的微移动等等。因此，图4a到4d的后转码运动补偿解决方案表示音频编码装置20可基于装置特性、声音特性、用户输入或设定或特定针对特定情境的各种其它参数实施以补偿微移动的可定制解决方案。

图5是说明音频解码装置在执行本发明中所描述的译码技术过程中的示范性操作的流程图。图5说明根据本发明的各种方面的虚拟重新定位单元330(和/或个别地或按任何组合发挥功能的其一或多个组件)可通过实施运动补偿来使声场的音频对象稳定所借的实例过程270。在图5的实施方案中，虚拟重新定位单元330可在预先转码阶段对音频数据(即，不在hoa域中的音频数据)执行运动补偿操作。

如图5中所示，虚拟重新定位单元330可执行个别麦克风m1到mn中的一或多个的虚拟重新定位(280)以补偿移动。更具体地说，到步骤280的输入包含麦克风阵列的运动信息(如在步骤210从3d运动传感器(例如，加速度计)确定)，和个别麦克风m1到mn的实际位置。又，在步骤280，虚拟重新定位单元330可组合在步骤210接收的运动信息与实际麦克风位置以导出虚拟重新定位信息。音频编码装置可应用在步骤280处的虚拟重新定位调整用于由个别麦克风m1到mn捕获的音频对象的空间信息，且传播虚拟重新定位供未来音频捕获。

图5中说明的过程270表示低复杂性且因此计算上不太昂贵的实施方案，如与关于图4a到4d描述的后转码补偿技术相比。通过如在过程270中“在运行中”实施虚拟麦克风重新定位和向前传播任何运动补偿调整供未来音频捕获，虚拟重新定位单元330可减轻或潜在地消除麦克风抖动的效应，同时保存计算资源和能耗。因此，过程270可说明对于低电池情境以及音频编码装置具有相对较少计算资源可用(例如，经由智慧型电话或平板计算机)的情境可行的运动补偿过程。

从球形麦克风阵列的麦克风信号xl到hoa域的转换(或转码)可基于阵列的几何性质，经由离散球形变换dsht结合后续信号处理来执行。可通过将麦克风信号xn乘以针对麦克风的方向γ＝[γ1,...γl]^t计算的高达hoa阶n的球形谐波来进行dsht，如下：

dshtn＝yn^-1(γ)·xl

通过实际上使用旋转核心旋转麦克风的方向来执行声场的预期旋转，如下：

图6a到6f为说明内容捕获装置300与麦克风5的不同组合的图。在图6a的实例中，内容捕获装置300(出于说明的目的，展示为加固型相机)可表示具有外壳375的相机系统，在外壳中，包含透镜的图像捕捉系统377被配置以捕获视频数据和图像数据中的一或两个。外壳375可适于集成全部麦克风5，包含麦克风5的台座3。换句话说，麦克风5包含台座3和麦克风阵列6。台座3可贴附到外壳375和麦克风阵列6。

在图6b的实例中，麦克风5不包含台座3，但仍然与内容捕获装置300集成在一起。换句话说，麦克风5仅包含麦克风阵列6，其贴附到外壳375。在图6c的实例中，麦克风5与内容捕获装置300经由电线4通信。处理器(未图示)可被配置以经由电线4获得hoa系数11。在图6d和6e的实例中，麦克风5与内容捕获装置300分别经由pan1和wlan2无线通信。在图6d和6e的实例中，处理器可被配置以无线获得hoa系数11(例如，分别经由pan1和wlan2)。

在图6f的实例中，内容捕获装置300还包含集成麦克风390a到390c。3d音频麦克风5包含麦克风阵列，其中所述麦克风阵列中的每一麦克风大致距邻近麦克风距离d1。麦克风阵列中的每一麦克风还围绕半球或替代地围绕球等距离地定位。集成的麦克风390a到390c可距邻近麦克风距离d2定位。距离d2可大于距离d1。内容捕获装置300可包含集成麦克风390a到390c以扩增由麦克风5捕获的hoa音频数据。与集成麦克风390a到390c分开(如由距离d2表示)的较大麦克风可有助于较低频率的捕获。因为麦克风阵列中的麦克风的距离d1小，所以麦克风5可能不能够充分捕获较低频率。

图7a到7e是说明根据本发明中描述的技术的呈利用紧固到内容捕获装置的三维麦克风的智能电话的形式的内容捕获装置的不同实例的图。在图7a的实例中，内容捕获装置300提供固持装置395贴附到的平台。固持装置395可包含夹钳。夹钳可经由张力齿合机构棘轮向下以便容纳供麦克风5使用的潜在内容捕获装置300的不同大小和外观尺寸。固持装置395可包含许多麦克风附接点。麦克风附接点可包括阴螺丝附接点，其接受普通螺钉大小且成螺纹以用于相机或其它类型的音频/视觉设备。麦克风附接点可位于夹钳的顶部上(其中顶部指当在将内容捕获装置300保持于横向定向上时使用的夹钳的顶部)。麦克风附接点也可位于夹钳的后部上，如在图7b中由麦克风连接点397所展示。图7c到7e的实例提供紧固装置395的另外侧、后和前快照。

图8a和8b是说明麦克风5的不同实例的图。在图8a的实例中，展示由高通技术公司(qualcommtechnologiesinc.)开发的32麦克风阵列麦克风。作为一个实例，图8a的麦克风5包含usb有线连接。图8b中展示的实例为对高通32麦克风装置的替代麦克风，其被称作eigenmike^tm。

图9是说明与一或多个实例内容捕获辅助装置302通信的实例内容捕获装置300的概念图。如图9的实例中所展示，内容捕获辅助装置302(用于说明的目的，将其展示为智能电话和平板计算机/笔记本电脑)可经由无线局域网380与内容捕获装置300通信。替代地，内容捕获辅助装置302可经由个人区域网路、蜂窝式网络或其它无线形式的通信与内容捕获装置300通信。此外，内容捕获辅助装置302可经由有线连接与内容捕获装置300通信。虽然展示为经由个人局域网1与麦克风5通信，但内容捕获装置300可经由任何形式的通信(例如，以上关于图4a到4d的实例描述的通信)与麦克风5通信。

如所展示，在一些实例中，本发明是针对一种运动补偿的方法，所述方法包含调整三维(3d)声场的一或多个高阶立体混响(hoa)表示以补偿与3d声场的一或多个音频对象的捕获相关联的一或多个移动。在一些实例中，调整一或多个hoa表示包含获得与一或多个移动相关联的效应矩阵。在一些实例中，效应矩阵表示关于一或多个移动的反向旋转操作。

在一些实例中，调整一或多个hoa表示包含将效应矩阵应用到一或多个hoa表示以获得经运动补偿的3d声场。根据一些实例，获得效应矩阵包含获得与一或多个移动相关联的旋转信息和至少部分通过计算旋转信息的逆来计算效应矩阵。在一些实例中，效应矩阵包括零条目的集合和有效条目的集合。根据一个此实例，零条目的集合包含比有效条目的集合数目大的条目。

根据一些实例，调整一或多个hoa表示包括调整用于音频数据的每一音频样本的一或多个hoa表示。在一些实例中，调整一或多个hoa表示包括调整用于音频样本的子集的一或多个hoa表示，使得所述子集中的任何一对音频样本表示所述多个音频样本中的间隔。根据一些实例，间隔包括十样本间隔或十二样本间隔中的一个。在一些实例中，所述方法可进一步包含关于每一间隔内插效应矩阵，以获得一或多个内插的效应矩阵。在一个此实例中，所述方法可进一步包含将每一内插的效应矩阵应用到包含于对应的间隔中的对应的样本。

在一些实例中，所述方法可进一步包含从运动感测装置获得描述移动的数据。在一些实例中，运动感测装置包括加速度计或罗盘中的一或多个。根据一些实例，运动传感器耦合到被配置以捕获音频数据的麦克风阵列。在一些实例中，运动感测装置形成麦克风阵列的部分。根据一些实例，所述方法可进一步包含区分一或多个微移动与相关联于3d声场的一或多个音频对象的一或多个逐渐移动。在一个此实例中，区分微移动与逐渐移动是基于与描述与捕获相关联的运动信息的距离、频率或角度锐度中的一或多个相关联的阈值。

根据一些实例，所述方法可进一步包含获得与移动相关联的偏航角、俯仰角或横摇角中的一或多个。在一些实例中，调整一或多个hoa表示包含更改与一或多个hoa表示相关联的空间信息。在根据本发明的方面的一些实例中，装置被配置以补偿运动，且装置可包含被配置以存储高阶立体混响(hoa)音频数据的存储器，和被配置以执行以上描述的方法中的任一个或描述的方法的任何组合的一或多个处理器。在一些实例中，装置被配置以补偿运动，且装置可包含用于存储高阶立体混响(hoa)音频数据的装置，和用于执行以上描述的方法中的任一个或描述的方法的任何组合的装置。在一些实例中，计算机可读存储媒体可用指令编码，所述指令在经执行时执行以上描述的方法中的任一个或描述的方法的任何组合。

根据一些方面，本发明是针对一种运动补偿的方法。所述方法可包含调整与麦克风阵列中的一或多个麦克风相关联的虚拟定位信息以补偿与由麦克风阵列进行的三维(3d)声场的一或多个音频对象的捕获相关联的一或多个移动。在一些实例中，所述方法包含调整虚拟定位信息，包括调整用于3d声场的时域表示的虚拟定位信息。在一些实例中，3d声场的时域表示包括3d声场的预先转码表示。在一些实例中，所述方法可进一步包含调整用于由麦克风阵列关于3d声场捕获的所有音频样本的虚拟定位信息。

在一些实例中，调整虚拟定位信息包括基于与麦克风阵列相关联的移动和实际定位信息产生虚拟重新定位信息。在一些此类实例中，所述方法进一步包含从运动感测装置获得描述移动的数据。在一个此实例中，运动感测装置包括加速度计或罗盘中的一或多个。

在根据本发明的方面的一些实例中，装置被配置以补偿运动，且装置可包含被配置以存储高阶立体混响(hoa)音频数据的存储器，和被配置以执行以上描述的方法中的任一个或描述的方法的任何组合的一或多个处理器。在一些实例中，装置被配置以补偿运动，且装置可包含用于存储高阶立体混响(hoa)音频数据的装置，和用于执行以上描述的方法中的任一个或描述的方法的任何组合的装置。在一些实例中，计算机可读存储媒体可用指令编码，所述指令在经执行时执行以上描述的方法中的任一个或描述的方法的任何组合。

根据一些方面，本发明是针对一种相机系统，其包含外壳、捕获视频数据和图像数据中的一或两个的图像捕获系统(包含透镜)和被配置以捕获高阶立体混响音频数据的三维(3d)麦克风，其中所述3d麦克风包含台座和麦克风阵列，且其中台座贴附到相机的外壳和麦克风阵列。在一些实例中，外壳被配置以收纳一或多个运动感测装置。根据一个此实例，3d麦克风被配置以耦合到一或多个运动感测装置。

在一些实例中，一或多个运动感测装置包括加速度计或罗盘中的至少一个。根据一个此实例，加速度计被配置以获得与3d麦克风相关联的运动信息。在一些实例中，罗盘被配置以获得与3d麦克风相关联的运动信息，其包含与一或多个主要方向相关联的信息。

根据一些方面，本发明是针对一种相机系统，其包含外壳、捕获视频数据和图像数据中的一或两个的图像捕获系统(包含透镜)和被配置以捕获高阶立体混响音频数据的三维(3d)麦克风，其中所述3d麦克风包含贴附到相机的外壳的麦克风阵列。在一些实例中，所述外壳被配置以收纳一或多个运动感测装置。在一些实例中，3d麦克风被配置以耦合到一或多个运动感测装置。在一些实例中，所述一或多个运动感测装置包括加速度计或罗盘中的至少一个。一个此实例，加速度计被配置以获得与3d麦克风相关联的运动信息。根据一些实例，罗盘被配置以获得与3d麦克风相关联的运动信息，其包含与一或多个主要方向相关联的信息。

根据一些方面，本发明是针对一种相机系统，其包含处理器、捕获视频数据和图像数据中的一或两个的图像捕获系统(包含透镜)和被配置以捕获高阶立体混响音频数据的三维(3d)麦克风，其中所述3d麦克风包含将3d麦克风通信耦接到处理器的电线，且其中所述处理器被配置以经由所述电线获得高阶立体混响音频数据。在一些实例中，所述外壳被配置以收纳一或多个运动感测装置。在一些实例中，3d麦克风被配置成耦合到一或多个运动感测装置。根据一些实例，一或多个运动感测装置包括加速度计或罗盘中的至少一个。在一个此实例中，加速度计被配置以获得与3d麦克风相关联的运动信息。根据一些实例，罗盘被配置以获得与3d麦克风相关联的运动信息，其包含与一或多个主要方向相关联的信息。

在一些方面，本发明是针对一种运动补偿的方法。所述方法包括由被配置以补偿运动的装置接收指示与由麦克风阵列进行的三维(3d)声场的一或多个音频对象的捕获相关联的一或多个移动的运动信息。所述方法进一步包含由被配置以补偿运动的所述装置调整与麦克风阵列的一或多个麦克风相关联的虚拟定位信息以补偿与由所述麦克风阵列进行的所述3d声场的所述一或多个音频对象的所述捕获相关联的所述一或多个移动。所述方法可进一步包含由被配置以补偿运动的所述装置基于所述调整的虚拟定位信息产生经运动补偿的位流。在一些实例中，调整所述虚拟定位信息包括由被配置以补偿运动的所述装置调整所述3d声场的一或多个高阶立体混响(hoa)表示。在一些实例中，调整所述一或多个hoa表示包括由被配置以补偿运动的所述装置更改与所述一或多个hoa表示相关联的空间信息。在一些实例中，调整所述一或多个hoa表示包括由被配置以补偿运动的所述装置获得与所述一或多个移动相关联的效应矩阵。

根据一些实例，效应矩阵表示关于一或多个移动的反向旋转操作。在一些情况下，调整所述一或多个hoa表示包括由被配置以补偿运动的所述装置将所述效应矩阵应用到所述一或多个表示以获得经运动补偿的3d声场。在一些实例中，获得所述效应矩阵包括由被配置以补偿运动的所述装置获得与所述一或多个移动相关联的旋转信息，和由被配置以补偿运动的所述装置至少部分通过计算所述旋转信息的逆来计算所述效应矩阵。

在一些实例中，所述效应矩阵包括零条目的集合和有效条目的集合，且零条目的所述集合包含比有效条目的所述集合数目大的条目。在一些情况下，调整所述一或多个hoa表示包括由被配置以补偿运动的所述装置调整用于与所述3d声场相关联的多个音频样本的子集的所述一或多个hoa表示，使得所述子集中的任何一对音频样本表示所述音频样本中的所述多个的间隔。

根据一些实例，所述间隔包括十样本间隔或十二样本间隔中的一个。在一些实施方案中，所述方法进一步包括由被配置以补偿运动的所述装置关于每一间隔内插所述效应矩阵以获得一或多个内插的效应矩阵。在一个此实例中，所述方法进一步包括由被配置以补偿运动的所述装置将每一内插的效应矩阵应用到对应的间隔中包含的对应的样本。

在一些实施方案中，所述方法进一步包括由被配置以补偿运动的所述装置区分一或多个微移动与相关联于所述3d声场的所述一或多个音频对象的一或多个逐渐移动。在一个此实施方案中，区分所述微移动与所述逐渐移动是基于与描述与所述捕获相关联的运动信息的距离、频率或角度锐度中的一或多个相关联的阈值。

在一些实例中，接收指示与由所述麦克风阵列进行的所述3d声场的所述一或多个音频对象的所述捕获相关联的所述一或多个移动的所述运动信息包含由被配置以补偿运动的所述装置接收与所述移动相关联的偏航角、俯仰角或横摇角中的一或多个。在一个此实例中，调整所述虚拟定位信息以补偿所述移动包括由被配置以补偿运动的所述装置基于所述偏航角、所述俯仰角或所述横摇角中的所述获得的一或多个补偿旋转信息。根据一些实例，调整所述虚拟定位信息包括由被配置以补偿运动的所述装置调整用于所述3d声场的时域表示的所述虚拟定位信息。

根据一些实例，所述3d声场的所述时域表示包括所述3d声场的预先转码表示。在一些实例中，所述方法进一步包含由被配置以补偿运动的所述装置调整用于由所述麦克风阵列关于所述3d声场捕获的所有音频样本的所述虚拟定位信息。在一些实例中，调整所述虚拟定位信息包括由被配置以补偿运动的所述装置基于与所述麦克风阵列相关联的所述移动和实际定位信息产生虚拟重新定位信息。

在一些方面，本发明是针对一种被配置以补偿运动的装置。所述装置包括被配置以存储与三维(3d)声场相关联的音频数据的存储器，和一或多个处理器。所述一或多个处理器被配置以接收指示与由麦克风阵列进行的三维(3d)声场的一或多个音频对象的捕获相关联的一或多个移动的运动信息，和调整与麦克风阵列的一或多个麦克风相关联的虚拟定位信息以补偿与由所述麦克风阵列进行的所述3d声场的一或多个音频对象的捕获相关联的一或多个移动。所述一或多个处理器也可被配置以基于所述经调整的虚拟定位信息产生经运动补偿的位流。

在一些实例中，所述一或多个处理器被进一步配置以从运动感测装置获得描述所述移动的数据。在一些实例中，运动感测装置包括加速度计或罗盘中的一或多个。在一些实例中，为了调整虚拟定位信息，所述一或多个处理器被配置以调整所述3d声场的一或多个高阶立体混响(hoa)表示。在一些实例中，为了调整一或多个hoa表示，所述一或多个处理器被配置以获得与所述一或多个移动相关联的效应矩阵。在一个此实例中，效应矩阵表示关于一或多个移动的反向旋转操作。

根据一些实例，所述一或多个处理器被配置以通过调整用于所述3d声场的时域表示的所述虚拟定位信息来调整所述虚拟定位信息。在一些实例中，所述3d声场的所述时域表示包括所述3d声场的预先转码表示。根据一些实例，所述一或多个处理器被配置以通过基于与所述麦克风阵列相关联的所述移动和实际定位信息来产生虚拟重新定位信息而调整所述虚拟定位信息。

在各种方面中，本发明是针对一种被配置以补偿运动的装置。所述装置包括用于存储与三维(3d)声场相关联的音频数据的装置、用于接收指示与由麦克风阵列进行的所述3d声场的一或多个音频对象的捕获相关联的一或多个移动的运动信息的装置和用于调整与麦克风阵列的一或多个麦克风相关联的虚拟定位信息以补偿与由所述麦克风阵列进行的所述3d声场的所述一或多个音频对象的所述捕获相关联的所述一或多个移动的装置。所述装置还可包含用于基于所述经调整的虚拟定位信息产生经运动补偿的位流的装置。根据一些实施方案，所述用于调整所述虚拟定位信息的装置包含用于调整所述3d声场的一或多个高阶立体混响(hoa)表示的装置。在一些实例中，其中所述用于调整所述虚拟定位信息的装置包含：用于获得与所述一或多个移动相关联的旋转信息的装置、用于计算所述旋转信息的逆以获得表示关于所述旋转信息的逆运算的效应矩阵的装置和用于将所述效应矩阵应用到所述一或多个hoa表示以获得经运动补偿的3d声场的装置。根据一些实例，所述用于调整所述虚拟定位信息的装置包括用于调整用于所述3d声场的时域表示的所述虚拟定位信息的装置，所述3d声场的所述时域表示包括所述3d声场的预先转码表示。

在一些方面，本发明是针对一种用指令编码的非暂时性计算机可读存储媒体。所述指令在经执行时使用于补偿运动的计算装置的一或多个处理器接收指示与由麦克风阵列进行的所述3d声场的一或多个音频对象的捕获相关联的一或多个移动的运动信息，调整与麦克风阵列的一或多个麦克风相关联的虚拟定位信息以补偿与由所述麦克风阵列进行的所述3d声场的一或多个音频对象的所述捕获相关联的所述一或多个移动，和基于所述经调整的虚拟定位信息产生经运动补偿的位流。

可关于任何数目个不同情境和音频生态系统执行前述技术。以下描述多个实例情境，但所述技术应限于所述实例情境。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于声道的音频内容、译码引擎、游戏音频符尾、游戏音频译码/呈现引擎和传递系统。

电影工作室、音乐工作室和游戏音频工作室可接收音频内容。在一些实例中，音频内容可表示获取的输出。电影工作室可例如通过使用数字音频工作站(daw)输出基于声道的音频内容(例如，呈2.0、5.1及7.1)。所述音乐工作室可例如通过使用daw来输出基于声道的音频内容(例如，呈2.0及5.1)。在任一情况下，译码引擎可基于一或多个编解码器(例如，aac、ac3、杜比真hd、杜比数字加和dts主音频)接收并编码基于声道的音频内容以供由传递系统输出。游戏音频工作室可例如通过使用daw输出一或多个游戏音频符尾。所述游戏音频译码/呈现引擎可译码所述音频符尾和或将所述音频符尾呈现为基于声道的音频内容以供由传递系统输出。可执行所述技术的另一实例情境包括音频生态系统，其可包含广播记录音频对象、专业音频系统、消费者装置上捕获、hoa音频格式、装置上呈现、消费者音频、tv和配件以及汽车音频系统。

所述广播记录音频对象、所述专业音频系统和所述消费者装置上捕获都可使用hoa音频格式译码其输出。以此方式，可使用hoa音频格式将音频内容译码成单个表示，可使用装置上呈现、消费者音频、tv和附件以及汽车音频系统回放所述单个表示。换句话说，可在例如音频回放系统16的一般音频回放系统(即，与需要例如5.1、7.1等的特定配置相反)处回放音频内容的单个表示。

可执行所述技术的情境的其它实例包含音频生态系统，其可包含获取元件和回放元件。获取元件可包含有线和/或无线获取装置(例如，本征麦克风)、装置上环绕声捕获和移动装置(例如，智能电话和平板计算机)。在一些实例中，有线和/或无线获取装置可经由有线和/或无线通信信道耦合到移动装置。

根据本发明的一或多个技术，所述移动装置可用以获取声场。举例来说，移动装置可经由有线和/或无线获取装置和/或装置上环绕声捕获(例如，集成到移动装置内的多个麦克风)获取声场。移动装置可接着将所获取的声场译码成hoa系数以用于由回放元件中的一或多个回放。举例来说，移动装置的用户可记录实况事件(例如，集会、会议、比赛、音乐会等)(获取实况事件的声场)，且将记录译码成hoa系数。

所述移动装置还可利用所述回放元件中的一或多个来回放所述经hoa译码的声场。举例来说，移动装置可解码经hoa译码的声场，且将使重放元件中的一或多个重新创建声场的信号输出到回放元件中的一或多个。作为一个实例，移动装置可利用无线和/或无线通信声道将信号输出到一或多个扬声器(例如，扬声器阵列、声棒等)。作为另一实例，移动装置可利用对接解决方案将信号输出到一或多个对接站和/或一或多个对接扬声器(例如，智能汽车和/或家庭中的声音系统)。作为另一实例，移动装置可利用头戴式耳机呈现将信号输出到一组头戴式耳机，例如，以创建逼真立体声声音。

在一些实例中，特定移动装置可获取3d声场并且在稍后时间回放同一3d声场。在一些实例中，移动装置可获取3d声场，将所述3d声场编码成hoa，且将经编码的3d声场发射到一或多个其它装置(例如，其它移动装置和/或其它非移动装置)以供回放。

可执行所述技术的又一情境包含音频生态系统，其可包含音频内容、游戏工作室、经译码音频内容、呈现引擎和传递系统。在一些实例中，所述游戏工作室可包含可支持hoa信号的编辑的一或多个daw。举例来说，所述一或多个daw可包含可被配置以与一或多个游戏音频系统一起操作(例如，一起工作)的hoa插件和/或工具。在一些实例中，游戏工作室可输出支持hoa的新符尾格式。在任何情况下，游戏工作室可将经译码音频内容输出到呈现引擎，所述呈现引擎可呈现声场以供由传递系统回放。

也可关于示范性音频获取装置执行所述技术。举例来说，可关于可包含共同地被配置以记录3d声场的多个麦克风的本征麦克风来执行所述技术。在一些实例中，本征麦克风的所述多个麦克风可位于具有大致4cm的半径的大体上为球面球的表面上。在一些实例中，音频编码装置20可集成到本征麦克风内，以便直接从麦克风输出位流21。

另一示范性音频获取情境可包含可被配置以从一或多个麦克风(例如，一或多个本征麦克风)接收信号的生产车。生产车还可包含音频编码器，例如，音频编码器20。

在一些情况下，所述移动装置还可包含共同地被配置以记录3d声场的多个麦克风。换句话说，所述多个麦克风可具有x、y、z分集。在一些实例中，移动装置可包含可经旋转以关于移动装置的一或多个其它麦克风提供x、y、z分集的麦克风。移动装置还可包含音频编码器，例如，音频编码器20。

加固型视频捕获装置可进一步被配置以记录3d声场。在一些实例中，加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说，加固型视频捕获装置可在用户泛舟时附接到所述用户的头盔。以此方式，所述加固型视频捕获装置可捕获表示在用户周围的动作(例如，水在用户身后的撞击、另一泛舟者在所述用户前方说话等)的3d声场。

还可关于可被配置以记录3d声场的配件增强型移动装置执行所述技术。在一些实例中，移动装置可类似于上文所论述的移动装置，其中添加了一或多个配件。举例来说，本征麦克风可附接到以上所提到的移动装置以形成配件增强型移动装置。以此方式，配件增强型移动装置可捕获比仅使用与附件增强型移动装置成一体的声音捕获组件质量版本高的3d声场。

下文进一步论述可执行本发明中描述的技术的各个方面的实例音频回放装置。根据本发明的一或多个技术，扬声器和/或声棒在仍回放3d声场时可布置于任何任意配置中。此外，在一些实例中，头戴式耳机回放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多个技术，可利用声场的单个一般表示来在扬声器、声棒和头戴式耳机回放装置的任何组合上呈现声场。

许多不同实例音频回放环境也可适合于执行本发明中所描述的技术的各种方面。举例来说，以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境：5.1扬声器回放环境、2.0(例如，立体声)扬声器回放环境、具有全高前扩音器的9.1扬声器回放环境、22.2扬声器回放环境、16.0扬声器回放环境、汽车扬声器回放环境和具有耳芽(earbud)回放环境的移动装置。

根据本发明的一或多个技术，可利用声场的单个一般表示来在前述回放环境中的任一个上呈现声场。另外，本发明的技术使呈现器能够从一般表示呈现声场以供在除上文所描述的环境之外的回放环境上播放。举例来说，如果设计考虑禁止扬声器根据7.1扬声器回放环境的恰当放置(例如，如果不可能放置右环绕扬声器)，那么本发明的技术使呈现能够以其它6个扬声器补偿，使得可在6.1扬声器回放环境上达成回放。

此外，使用者可在佩戴头戴式耳机时观看体育比赛。根据本发明的一或多种技术，可获取体育比赛的3d声场(例如，可将一或多个本征麦克风放置在棒球场中和/或周围)，可获得对应于3d声场的hoa系数，且将所述hoa系数发射到解码器，所述解码器可基于hoa系数重构3d声场且将经重构3d声场输出到呈现器，所述呈现器可获得关于回放环境的类型(例如，头戴式耳机)的指示，且将经重构3d声场呈现为使头戴式耳机输出所述体育比赛的3d声场的表示的信号。

应理解，在以上描述的各种实例中的每一个中，音频编码装置20可执行方法或另外包括执行所述音频编码装置20被配置以执行的方法的每一步骤的装置。在一些情况下，所述装置可包括一或多个处理器。在一些情况下，所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说，编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体，所述指令在执行时使一或多个处理器执行音频编码装置20已被配置以执行的方法。

在一或多个实例中，所描述功能可用硬件、软件、固件或其任何组合来实施。如果以软件实施，那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或发射，并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。

同样地，在上文所描述的各种实例中的每一个中，应理解，音频解码装置24可执行方法或另外包括执行音频解码装置24被配置以执行的方法的每一步骤的装置。在一些情况下，所述装置可包括一或多个处理器。在一些情况下，所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说，编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体，所述指令在执行时使所述一或多个处理器执行音频解码装置24已被配置以执行的方法。

借助于实例而非限制，此类计算机可读存储媒体可包括ram、rom、eeprom、cd-rom或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或任何其它可用以存储呈指令或数据结构的形式的所要程序代码并且可由计算机存取的媒体。然而，应理解，所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体，而是取而代之针对非暂时性的有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(cd)、激光光盘、光学光盘、数字多功能光盘(dvd)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上的组合也应包含于计算机可读媒体的范围内。

指令可以由一或多个处理器执行，所述一或多个处理器例如是一或多个数字信号处理器(dsp)、通用微处理器、专用集成电路(asic)、现场可编程逻辑阵列(fpga)或其它等效的集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指前述结构或适用于实施本文中所描述的技术的任一其它结构中的任一个。此外，在一些方面，本文中所描述的功能性可在被配置以用于编码和解码的专用硬件和/或软件模块内提供，或并入在组合编解码器中。并且，所述技术可完全实施在一或多个电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施，包含无线手持机、集成电路(ic)或ic的集合(例如，芯片组)。本发明中描述各种组件、模块或单元以强调被配置以执行所揭示的技术的装置的功能方面，但未必需要由不同硬件单元实现。相反地，如上所述，各种单元可以与合适的软件和/或固件一起在编解码器硬件单元中组合，或通过包含如上所述的一或多个处理器的互操作硬件单元的集合来提供。

已经描述了所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N·G·彼得斯
技术所有人：高通股份有限公司
我是此专利的发明人

上一篇：音频数据的录制方法与装置与流程
上一篇：用于语音活动性检测的方法和设备与流程