用于控制带限音频对象的装置、方法和计算机程序与流程

文档序号：24892853发布日期：2021-04-30 13:20阅读：167来源：国知局

本公开的示例涉及用于控制带限音频对象的装置、方法和计算机程序。一些示例涉及用于提供带限音频对象的方向控制的装置、方法和计算机程序。

背景技术：

诸如低频效果音频对象之类的带限音频对象可能需要特定的扬声器以使能渲染频带内的音频。当向用户渲染空间音频时，需要考虑到这一点。声音系统可包含的用于渲染低频效果音频对象的扬声器的数量小于用于渲染其他类型的音频对象的扬声器的数量。

技术实现要素：

根据本公开的各种但并非全部示例，可以提供一种装置，包括用于执行以下操作的部件：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；确定用户的位置；以及使用所确定的用户的位置和与该带限音频对象相关联的空间元数据，控制该带限音频对象的参数中的至少一个参数。

空间元数据可以与带限音频对象一起被获得。

空间元数据可以与非带限音频对象一起被存储，并且带限音频对象可以与指示非带限音频对象的元数据一起被获得。与带限音频对象一起获得的元数据可以指示带限音频对象与非带限音频对象之间的关联。带限音频对象和非带限音频对象可以被配置为同时进行播放。

带限音频对象可以包括低频效果音频对象。

带限音频对象可以包括带限音频对象播放音量和/或带限音频对象播放信号。

带限音频对象可以被配置为经由至少一个带限扬声器进行播放。

一个或多个参数可以包括音量、延迟、混响、扩散性中的至少一个。

上述部件可以被配置为在播放带限音频对象正被播放时确定用户的位置。

用户的位置可以是相对于被配置为播放带限音频对象的一个或多个扬声器来确定的。

用户的位置可以包括用户与被配置为播放带限音频对象的一个或多个扬声器之间的距离。

根据本公开的各种但并非全部示例，可以提供一种装置，包括：处理电路；以及包括计算机程序代码的存储器电路，该存储器电路和计算机程序代码被配置为与处理电路一起使该装置执行以下操作：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；确定用户的位置；以及使用所确定的用户的位置和与该带限音频对象相关联的空间元数据，控制该带限音频对象的参数中的至少一个参数。

根据本公开的各种但并非全部示例，可以提供包括上述装置的音频渲染设备。

根据本公开的各种但并非全部示例，可以提供一种方法，包括：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；确定用户的位置；以及使用所确定的用户的位置和与该带限音频对象相关联的空间元数据，控制该带限音频对象的参数中的至少一个参数。

空间元数据可以与带限音频对象一起被获得。

空间元数据可以与非带限音频对象一起被存储，并且带限音频对象可以与指示非带限音频对象的元数据一起被获得。

根据本公开的各种但并非全部示例，可以提供一种计算机程序，该计算机程序包括计算机程序指令，这些计算机程序指令在由处理电路执行时导致执行以下操作：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；确定用户的位置；以及使用所确定的用户的位置和与该带限音频对象相关联的空间元数据，控制该带限音频对象的参数中的至少一个参数。

根据本公开的各种但并非全部示例，可以提供一种体现上述计算机程序的物理实体。

根据本公开的各种但并非全部示例，可以提供一种承载上述计算机程序的电磁载体信号。

根据本公开的各种但并非全部示例，可以提供一种装置，包括用于执行以下操作的部件：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；确定与该带限音频对象相关联的显示器的方向；以及使用与该带限音频对象相关联的空间元数据，根据所确定的显示器的方向，控制该带限音频对象的一个或多个参数。

一个或多个参数可以包括带限音频对象的音量。

确定显示器的方向可以包括：确定显示器是否被定向在阈值角度范围内，其中，该阈值角度范围由空间元数据定义。

上述部件可以被配置为：如果显示器被定向在阈值角度范围内，则以第一方式控制带限音频对象的一个或多个参数，以及如果显示器未被定向在阈值角度范围内，则以第二方式控制带限音频对象的一个或多个参数。

根据本公开的各种但并非全部示例，可以提供一种装置，包括：处理电路；以及包括计算机程序代码的存储器电路，该存储器电路和计算机程序代码被配置为与处理电路一起使该装置执行以下操作：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；确定与该带限音频对象相关联的显示器的方向；以及使用与该带限音频对象相关联的空间元数据，根据所确定的显示器的方向，控制该带限音频对象的一个或多个参数。

根据本公开的各种但并非全部示例，可以提供包括上述装置的音频渲染设备。

根据本公开的各种但并非全部示例，可以提供一种方法，包括：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；确定与该带限音频对象相关联的显示器的方向；以及使用与该带限音频对象相关联的空间元数据，根据所确定的显示器的方向，控制该带限音频对象的一个或多个参数。

一个或多个参数可以包括带限音频对象的音量。

根据本公开的各种但并非全部示例，可以提供一种计算机程序，该计算机程序包括计算机程序指令，这些计算机程序指令在由处理电路执行时导致执行以下操作：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；确定与该带限音频对象相关联的显示器的方向；以及使用与该带限音频对象相关联的空间元数据，根据所确定的显示器的方向，控制该带限音频对象的一个或多个参数。

根据本公开的各种但并非全部示例，可以提供一种体现上述计算机程序的物理实体。

根据本公开的各种但并非全部示例，可以提供一种承载上述计算机程序的电磁载体信号。

根据本公开的各种但并非全部示例，可以提供一种装置，包括用于执行以下操作的部件：获得带限音频对象，该带限音频对象包括一个或多个参数；获得与该带限音频对象相关联的空间元数据；以及使用与带限音频对象相关联的元数据，控制该带限音频对象的一个或多个参数。

附图说明

现在将参考附图描述一些示例性实施例，其中：

图1示出示例性装置；

图2示出包括装置的示例性设备；

图3示出可在本公开的一些示例中使用的示例性音频捕获系统；

图4示出示例性方法；

图5示出另一示例性方法；

图6示出示例性音频渲染系统；

图7示出另一示例性音频渲染系统；

图8示出另一示例性音频渲染系统；

图9示出另一示例性音频渲染系统；

图10示出另一示例性音频渲染系统；

图11示出另一示例性方法；

图12示出另一示例性音频渲染系统；

图13示出另一示例性方法；

图14示出另一示例性方法。

具体实施方式

附图示出了装置101，该装置101包括用于执行以下操作的部件：获得401包括一个或多个参数的带限音频对象211，以及获得与带限音频对象211相关联的空间元数据；确定403用户605的位置；使用405所确定的用户605的位置，控制带限音频对象211的参数中的至少一个参数。这些参数可以包括音量、延迟、混响、扩散性或任何其他合适的参数中的至少一个。这提供了实现对带限音频对象211的空间控制的技术效果。这可以为用户605提供改进的空间音频体验。例如，当用户605在音频空间内移动时，可以使能控制带限音频对象211，以使得能够将更逼真的音频信号提供给用户605。

图1示意性地示出了根据本公开的示例的装置101。在图1的示例中，装置101包括控制器103。在图1的示例中，控制器103的实现可以是作为控制器电路。在一些示例中，控制器103可以仅以硬件来实现，具有只包括固件的软件中的某些方面，或者可以是硬件和软件(包括固件)的组合。

如图1所示，控制器103可使用实现硬件功能的指令来实现，例如，通过在通用或专用处理器105中使用计算机程序109的可执行指令(其可存储在计算机可读存储介质(磁盘、存储器等)上以由这种处理器105执行)来实现。

处理器105被配置为从存储器107读取和向存储器107写入。处理器105还可以包括输出接口和输入接口，处理器105经由输出接口输出数据和/或命令，数据和/或命令经由输入接口被输入到处理器105。

存储器107被配置为存储包括计算机程序指令(计算机程序代码111)的计算机程序109，该计算机程序指令在被加载到处理器105中时控制装置101的操作。计算机程序109的计算机程序指令提供使装置能够执行图4、5、13和14所示的方法的逻辑和例程。通过读取存储器107，处理器502能够加载和执行计算机程序109。

因此，装置101包括：至少一个处理器105；包括计算机程序代码111的至少一个存储器107，该至少一个存储器107和计算机程序代码111被配置为与至少一个处理器105一起使装置101至少执行以下操作：获得401包括一个或多个参数的带限音频对象211，以及还获得与带限音频对象211相关联的空间元数据；确定403用户605的位置；使用405所确定的用户605的位置和所获得的空间元数据，控制带限音频对象211的参数中的至少一个参数。

在一些示例中，装置101可以包括：至少一个处理器105；包括计算机程序代码111的至少一个存储器107，该至少一个存储器107和计算机程序代码111被配置为与至少一个处理器105一起使装置101至少执行以下操作：获得包括一个或多个参数的带限音频对象，以及还获得与带限音频对象211相关联的空间元数据；确定与带限音频对象211相关联的显示器的方向；以及使用与带限音频对象211相关联的空间元数据，根据所确定的显示器的方向，控制带限音频对象的一个或多个参数。

如图1所示，计算机程序109可经由任何合适的传送机制113到达装置101。传送机制113例如可以是机器可读介质、计算机可读介质、非暂时性计算机可读存储介质、计算机程序产品、存储设备、诸如光盘只读存储器(cd-rom)或数字多功能光盘(dvd)或固态存储器之类的记录介质、包括或有形地体现计算机程序109的制造产品。传送机制可以是被配置以可靠地传送计算机程序109的信号。装置101可将计算机程序109作为计算机数据信号来传播或发送。在一些示例中，可以使用诸如蓝牙、蓝牙低功耗、蓝牙智能、6lowpan(基于ipv6的低功率个域网)、zigbee、ant+、近场通信(nfc)、射频识别、无线局域网(无线lan)或任何其他合适的协议之类的无线协议将计算机程序109发送到装置101。

计算机程序109包括用于使装置101至少执行以下操作的计算机程序指令：获得401包括一个或多个参数的带限音频对象211，其中，该带限音频对象211被配置为经由至少一个带限扬声器进行播放，以及还获得与带限音频对象211相关联的空间元数据；确定403用户605的位置；以及使用405所确定的用户605的位置和所获得的空间元数据，控制带限音频对象211的参数中的至少一个参数。

在一些示例中，计算机程序109可以包括用于使装置101至少执行以下操作的计算机程序指令：获得包括一个或多个参数的带限音频对象，其中，该带限音频对象211被配置为经由至少一个带限扬声器播放，以及还获得与带限音频对象211相关联的空间元数据；确定与带限音频对象211相关联的显示器的方向；使用与带限音频对象211相关联的空间元数据，根据所确定的显示器的方向，控制带限音频对象211的一个或多个参数。

非计算机程序指令可被包括在计算机程序109、非暂时性计算机可读介质、计算机程序产品、机器可读介质中。在一些但并非全部的示例中，计算机程序指令可被分布在多于一个的计算机程序109上。

虽然存储器107被示出为单个组件/电路，但是它可被实现为一个或多个单独的组件/电路，其中一些或所有组件/电路可以是集成/可移除的和/或可提供永久/半永久/动态/缓存存储。

虽然处理器105被示出为单个组件/电路，但是它可被实现为一个或多个单独的组件/电路，其中一些或所有组件/电路可以是集成/可移除的。处理器105可以是单核或多核处理器。

提到“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或者“控制器”、“计算机”、“处理器”等，应当被理解为不仅包括具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构的不同架构的计算机，而且还包括诸如现场可编程门阵列(fpga)、专用集成电路(asic)、信号处理设备和其他处理电路的专用电路。提到计算机程序、指令、代码等，应被理解为包括用于可编程处理器的软件、或者可包括用于处理器的指令的例如硬件设备的可编程内容的固件、或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。

如在本申请中使用的，术语“电路”是指以下中的一个或多个或全部：

(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现)；

(b)硬件电路和软件的组合，诸如(如果适用)：

(i)模拟和/或数字硬件电路与软件/固件的组合；以及

(ii)具有软件的硬件处理器的任何部分(包括数字信号处理器、软件和存储器，其一起工作以使诸如移动电话或服务器的装置执行各种功能)；以及

(c)硬件电路和/或处理器，诸如微处理器或微处理器的一部分，其需要软件(例如，固件)来操作，但操作不需要软件时可以不存在软件。

“电路”的这一定义应用于在本申请中的该术语的全部使用，包括在任何权利要求中的使用。作为另一个示例，如在本申请中使用的，术语“电路”还覆盖仅硬件电路或处理器及其伴随的软件和/或固件的实现。术语“电路”还覆盖(例如且如果适用于具体要求的元件)用于移动设备或服务器中的类似集成电路、蜂窝网络设备、或其他计算或网络设备的基带集成电路。

图2示出了包括装置101的示例性设备201。设备201可以是音频渲染设备或任何其他合适的设备。在图2的示例中，设备201包括装置101、至少一个扬声器203和定位部件205。应当理解，在图2中仅示出了以下描述中涉及的组件，并且在本公开的实现中，可以提供其他组件。

装置101可以是图1中所示的装置101，并且针对对应的特征使用对应的参考标号。

存储器107可以被配置为存储表示一个或多个带限音频对象211的信息。带限音频对象可以是具有实质上比正常人类听觉范围更窄的带宽的对象。带限音频对象211可以包括低频效果音频对象。低频对象可以包括处于人类听觉的较低范围内的频率。带限音频对象211可以仅包括低频声音。在一些示例中，带限音频对象211可以被限制在20-120hz的频率范围。在一些示例中，带限音频对象211的最低频率可以在10-50hz之间，而在一些示例中，带限音频对象211的最高频率可以在50-120hz之间。

带限音频对象211不同于非带限音频对象，因为非带限音频对象可以覆盖全部或几乎全部的正常人类听觉频率，而带限音频对象仅覆盖这些频率的很小一部分范围。带限音频对象可以被配置为经由至少一个带限扬声器进行播放，而非带限音频对象可以经由至少一个普通扬声器进行播放。

带限音频对象211可以与空间位置相关联。空间位置可以是生成带限音频对象211的声源的位置。在一些示例中，空间位置可以是带限音频对象211被感知从何处到达的方向。这可受到可能反射或以其他方式引导声音的墙壁或其他物理对象的影响。

带限音频对象211可以包括带限音频对象播放音量和/或带限音频对象播放信号。

带限音频对象211可以包括一个或多个不同的参数。可以控制这些参数以使带限音频对象211的空间特性能够被用户605重新创建和感知。不同的参数可以包括由带限音频对象211的空间特性所确定的音量、延迟、扩散性、混响或任何其他参数中的任何一个或多个。

存储器107还可以被配置为存储元数据213。元数据213可以与带限音频对象211一起被存储。元数据213可以与带限音频对象211一起被存储，以使得当获取带限音频对象211时，还可以获取元数据213。

在一些示例中，元数据213可以包括空间元数据。空间元数据可以包括使得能够重新创建带限音频对象211的空间效果的信息。例如，它可以包括指示应如何根据用户的位置来控制带限音频对象211的音量或其他参数的信息。音量可以是带限音频对象211的响度。音量可以是应用于带限音频对象211的增益。用户605的位置可以是用户605的角度定向和/或用户605与参考点之间的距离。参考点可以是渲染设备201或任何其他合适的参考点。可以使用诸如图3中所示的系统之类的空间音频捕获系统301来获得空间元数据。

在一些示例中，元数据213可以包括指示与带限音频对象211相关联的另一音频对象的信息。另一音频对象可以是非带限音频对象。例如，非带限音频对象可以包括高频声音。非带限音频对象可以包括覆盖正常听觉范围的声音。非带限音频对象可以包括覆盖20hz至20khz频率范围的声音。非带限音频对象所覆盖的频率范围可以与带限音频对象211所覆盖的频率范围重叠。另一音频对象可以被存储在装置101的存储器107中，或者可以被存储在不同设备的存储器中。

在一些示例中，带限音频对象211和非带限音频对象可以是相关联的，因为它们可以源自相同的声源。例如，声源可以产生低频声音和高频声音两者。低频声音可以被包括在带限音频对象211内，而高频声音可以被包括在非带限音频对象内。

在一些示例中，带限音频对象211和非带限音频对象可以是相关联的，因为它们可以源自相同的方向或相似的方向，但是可以由不同的源生成。例如，如果使用音频重新创建战斗场景的声音，则带限音频对象211可以对应于炮声，而非带限音频对象可以对应于枪声。这些声音可以由不同的源生成，但是这些源可以位于相同或相似的位置。

当渲染音频时，可以同时播放带限音频对象211和非带限音频对象两者。带限音频对象211和非带限音频对象可以经由不同的扬声器来播放。

在这些示例中，可以存储单组空间元数据213。该组元数据可以与非带限音频对象一起被存储。与带限音频对象211一起被存储的元数据可以提供与带限音频对象211相关联的非带限音频对象的指示，并且使能获取空间元数据213。这使得能够在两个或更多个不同的音频对象之间共享相同的空间元数据。应当理解，空间元数据213可以与任何一个或多个相关联的音频对象一起被存储。这可以减少需要发送和/或存储的数据量。

带限音频对象211可以由装置101通过任何合适的手段来获得。在一些示例中，装置可以构成空间音频捕获系统的一部分，该空间音频捕获系统可以被配置为记录和捕获带限音频对象211和其他音频对象。在一些示例中，带限音频对象211可以经由通信链路被接收并且被存储在装置101的存储器107中。

至少一个扬声器203可以包括使得能够将电输入信号渲染为可听输出信号的任何部件。在一些示例中，至少一个扬声器203可以包括带限扬声器，该带限扬声器可以被配置为提供低频效果可听输出信号。这使得能够向用户605渲染带限音频对象211。至少一个扬声器203可以耦合到存储器107，以使得带限音频对象211能够从存储器107中被获取并且被提供给扬声器203。

定位部件205可以包括使得能够确定用户605的位置的任何部件。在一些示例中，用户605的位置可以包括用户605与一个或多个参考点之间的距离。参考点可以是扬声器203的位置或任何其他合适的点。

在一些示例中，用户605的位置可以包括用户605的角度定向。用户605的角度定向可以通过与诸如扬声器203或显示器或任何其他合适的点之类的给定参考点进行比较来确定。

在一些示例中，定位部件205可以包括一个或多个电磁传感器。电磁传感器可以包括红外传感器或任何其他合适类型的传感器。电磁传感器可用于确定用户605与参考点之间的距离和/或确定用户605的角度定向。在本公开的其他示例中可以使用其他类型的传感器。

在一些示例中，定位部件205可以被配置为从系统内的显示器或其他装置的位置推断用户605的角度定向。例如，如果显示器的位置是已知的，或者是由定位部件205确定的，则可以假定用户605面向显示器。可以使用诸如加速度计、磁力计或任何其他合适的设备之类的任何合适的部件来确定显示器的位置。该显示器可以是头戴式显示器或任何其他合适类型的显示器。

应当理解，图2所示的设备是示例，在本公开的其他示例中可以提供渲染设备的其他配置。例如，定位部件可以作为单独的设备被提供给渲染设备201，并且可以被配置为经由通信链路将定位信息提供给渲染设备201。作为示例，可以在诸如增强现实头戴式装置之类的头戴式装置内提供定位部件。定位部件205可以被配置为确定用户605与扬声器203之间的距离，并且还可被用于确定用户605的角度定向。这可以使得能够在六个自由度中监视用户605的移动。

图3示出了可用于使能获得带限音频对象211的示例性系统301。示例性系统301可以是空间音频捕获系统。图3所示的系统301可以是沉浸式语音和音频服务(ivas)系统。在本公开的其他示例中可以使用其他类型的空间音频捕获系统。

系统301包括多个被配置为捕获空间音频信号的麦克风303。麦克风303可以在任何合适的设备内提供。例如，麦克风303可以在移动电话、麦克风阵列、计算设备或任何其他合适类型的麦克风设备中提供。麦克风303可以被配置为捕获低频声音，以使得能够获得带限音频对象211。

可以使用任何合适的手段从麦克风获得带限音频对象211。在一些示例中，带限音频对象211可以由音频工程师使用数字音频工作站或通过任何其他合适的手段来获得。

系统303包括麦克风捕获处理模块305。麦克风捕获处理模块305被配置为处理由多个麦克风303捕获的信号。麦克风捕获处理模块305可以包括可被配置为处理由多个麦克风303捕获的信号的任何部件，从而提供空间音频输出信号307。空间音频输出信号可以包括任何合适类型的空间格式，诸如全景环绕声(ambisonics)、多通道格式、具有空间元数据的多通声道或任何其他合适的格式。

在一些示例中，麦克风捕获处理模块305可以被配置为处理所捕获的音频信号以创建带限音频对象211。麦克风捕获处理模块305还可以被配置为生成与带限音频对象211相关联的空间元数据，从而使得能够重新创建带限音频对象211的空间特性。

空间音频信号307被提供给编码器模块309。编码器模块309可以包括可被配置为将空间音频输出信号307和任何空间元数据处理成适合于传输的格式的任何部件。编码器模块309被配置为将空间音频信号307和空间元数据编码并多路复用到比特流311。编码器模块309提供比特流311作为输出。在本公开的示例中，可以使用任何合适类型的编码器模块309。在一些示例中，编码器模块可以是沉浸式语音和音频服务(ivas)编码器模块309。

在一些示例中，可以将比特流311提供给发送器，以使得比特流311能够被发送到诸如图2中所示的渲染设备201之类的设备。在这样的示例中，可以在渲染设备201内提供解码器，并将其配置为对比特流311进行解码。解码器可以在渲染设备201的控制器103内提供。在其他示例中，可以将比特流311发送到诸如远程服务器之类的存储设备。远程服务器可以被配置为使得渲染设备201能够从远程服务器存取比特流311。

图4示出了示例性方法。该方法可以使用参考图1至图3所描述的装置101和渲染设备来实现。

该方法包括在框401处，获得包括一个或多个参数的限带音频对象211。带限音频对象211可以包括低频效果音频对象或任何其他合适类型的对象。带限音频对象211可以被配置为经由至少一个带限扬声器203进行播放或渲染。

带限音频对象211可以包括一个或多个不同的参数。这些参数可以使能重新创建带限音频对象211的空间特性。不同的参数可以包括影响带限音频对象211的空间特性的音量、延迟、扩散性、混响、位置或任何其他参数中的任何一个或多个。

带限音频对象211可以通过任何合适的手段来获得。在一些示例中，获得带限音频对象211可以包括从存储器107中获取带限音频对象211。存储器107可以是渲染设备201的存储器或诸如存储设备之类的不同设备的存储器。在一些示例中，获得带限音频对象211可以包括从诸如图3中所示的系统之类的空间音频捕获系统301接收带限音频对象211。

在一些示例中，该方法还可以包括获得空间元数据。空间元数据可以与带限音频对象211一起被获得，或者可以与带限音频对象211分开地获得。

在框403处，该方法包括确定用户605的位置。可以使用任何合适的过程来确定用户605的位置。在一些示例中，可以由定位部件205确定用户605的位置，该定位部件205包括渲染设备201的一部分。在其他示例中，可以由远程设备确定用户605的位置，然后该远程设备将指示所确定的位置的信息提供给渲染设备201。

在一些示例中，用户605的位置可以包括用户605与一个或多个参考点之间的距离。参考点可以是扬声器203的位置、渲染设备201的一部分的位置或任何其他合适的点。在一些示例中，用户605的位置可以包括用户605的角度定向。用户605的角度定向可以通过与诸如扬声器203或显示器或任何其他合适的点之类的给定参考点进行比较来确定。

在一些示例中，用户605的位置可以从显示器或音频渲染系统的其他部分的位置进行推断。显示器可以被配置为显示与带限音频对象211和/或正被渲染的其他音频相关联的视觉图像。在一些示例中，显示器可以是在头戴式装置中提供的近眼显示器。显示器可用于增强现实的目的或用于任何其他合适的目的。

在框405处，该方法包括使用所确定的用户605的位置和所获得的空间元数据，控制带限音频对象211的参数中的至少一个参数。参数的控制可以使得能够重新创建带限音频对象211对应于用户605的位置的空间效果。

如果用户605正在移动，则可以改变控制参数的方式，以使得空间效果对应于用户605的移动。定位部件205可以确定用户605的距离和定向两者，从而使得用户605的移动能够在六个自由度内。这使得能够通过控制带限音频对象211的参数来描述用户605的平移移动和用户605的旋转移动。平移移动可以包括沿着三个垂直轴中任一个的移动。旋转移动可以包括关于三个垂直轴中任一个的旋转。

在一些示例中，空间元数据可被用于控制带限音频对象211的参数。空间元数据可以与带限音频对象211一起被获得。空间元数据可以包括指示应如何根据用户605的位置来改变参数的信息。

在本公开的示例中，可以在播放带限音频对象211时确定用户605的位置。也就是说，可以在一个或多个扬声器203渲染带限音频对象211时确定用户605的位置。这可以使得能够确定用户605的当前位置，并且可以使得能够控制带限音频对象211的参数以描述用户605的移动。

图5示出了图示本公开的示例性实现的另一方法。

在框501处，确定用户605的位置。可以相对于音频渲染系统的组件来确定用户605的位置。例如，一个或多个扬声器203的位置可以是已知的。扬声器203的位置可以从音频渲染系统的校准数据或从由合适的定位部件或通过任何其他合适的过程进行的测量获知。

还可以确定带限音频对象211的位置。带限音频对象211的位置可以从空间元数据确定，该空间元数据可以与带限音频对象211一起被存储或以其他方式与带限音频对象211相关联。带限音频对象211的位置可以是虚拟位置，其表示带限音频对象211在虚拟音频空间中的位置。这可以确定用户605所感知到的带限音频对象211所在的位置或带限音频对象211所源自的位置。当捕获声音时，该位置可以由声源的位置确定。该位置还可受到影响声音方向性的其他因素(诸如可反射或转移声音的墙壁和其他特征的存在)的影响。

在框503处，基于所确定的用户605的位置，控制带限音频对象211的音量。扬声器203的位置和带限音频对象211的虚拟位置也可被用于控制扬声器605的音量。例如，如果用户605移动得更接近带限音频对象211的虚拟位置，则可以增大带限音频对象211的音量，而如果用户605移动得离带限音频对象211的虚拟位置更远，则可以减小带限音频对象211的音量。

在控制音量的同时，还可以考虑扬声器在音频渲染系统内的位置。例如，可以确定用户605是朝向渲染带限音频对象211的扬声器203移动，还是远离渲染带限音频对象211的扬声器203移动，并且可以根据需要来控制音量。

图6示出了用于实现图5中所示的方法的示例性音频渲染系统601。音频渲染系统601也可用于实现该方法的其他变型。例如，在图5和图6的示例中，带限音频对象211的音量在被控制，而在本公开的其他示例中，作为音量的替代或补充，可以控制带限音频对象211的其他参数。

音频渲染系统601包括多个扬声器203、603。音频渲染系统601包括多个非带限扬声器603以及带限扬声器203。非带限扬声器603可以被配置为渲染非带限音频对象。带限扬声器203可以被配置为渲染带限音频对象211。在图6的示例中，音频渲染系统601包括五个非带限扬声器603和一个带限扬声器203。在本公开的其他实现中，可以使用其他数量的扬声器203、603。

在图6的示例中，多个扬声器203、603在空间上分布，从而使得能够将空间音频提供给位于多个扬声器203、603之间的区域中的用户605。多个扬声器203、603的的空间分布使得能够为用户605重新创建虚拟音频空间。在图6所示的示例中，多个扬声器203、603均位于同一垂直水平面上。在其他示例中，多个扬声器203、603可以提供在不同的垂直水平面上。例如，可以将多个扬声器203、603中的一些设置在用户605的上方，以及可以将多个扬声器203、603中的一些设置在用户605的下方。

在图6的示例中，重新创建的虚拟音频空间包括带限音频对象211。在图6的示例中，带限音频对象可以包括由乐器生成的音频。在本公开的其他示例中，可以使用用于生成带限音频对象211的其他手段。虚拟音频空间还可以包括由非带限扬声器603渲染的其他非带限音频对象。

用于控制带限音频对象211的参数的装置101可以在音频渲染系统内的任何合适的位置处提供。在一些示例中，装置101可以在带限扬声器203内提供。

带限音频对象211位于虚拟音频空间内的第一位置611。在图6的示例中，第一位置位于用户605的后面，并且也位于非带限扬声器603之一的后面。应当理解，在本公开的其他示例中，带限音频对象211可以位于其他位置。

带限音频对象211可以包括单声道信号或立体声信号。在其中仅提供单个带限扬声器203的图6的示例中，立体声信号在被单个带限扬声器203渲染之前下进行下混合。

带限扬声器203位于音频渲染系统601内的第二位置613。第二位置613可以与第一位置611不同。在图6的示例性音频渲染系统601中，带限扬声器203邻近两个非带限扬声器603定位。在本公开的其他示例中，可以使用带限扬声器203的其他位置。

在图6的示例中，用户605在被音频渲染系统601覆盖的空间内自由移动。用户605可以在六个自由度中自由移动。也就是说，用户605可以横向移动，也可以改变他们的定向。这将使得用户605能够改变他们与音频渲染系统601内的扬声器603、203接近的程度。

当用户605移动时，用户605还可在消费与音频有关的附加内容。例如，用户605可在使用可包括图像以及音频的增强现实内容或虚拟现实内容。图像可以在近眼显示器上进行渲染，该近眼显示器可以在头戴式装置或任何其他合适类型的显示器中提供。

可以使用任何合适的手段来跟踪用户605的移动。在一些示例中，扬声器203、603中的一个或多个可以包括定位部件205，该定位部件205使得能够确定用户605与一个或多个扬声器203、603之间的距离。在一些示例中，可由用户605穿戴的诸如头戴式装置之类的设备可以包括定位部件，该定位部件可以被配置为跟踪用户605的移动。

在图6的示例中，用户被示出为处于当前位置617。当前位置617与校准位置615不同。应当理解，这些位置615、617作为示例示出，并且用户可以在音频渲染系统601内的任何位置之间和任何方向上自由移动。

校准位置615可以是音频渲染系统601内的中心位置。扬声器603、203可以被校准，以使得当用户605处于该校准位置615时，来自扬声器203、603中每个扬声器的声音水平是相同的。校准位置615可以是用于收听由音频渲染系统601渲染的声音的最佳位置。

当用户605处于校准位置615时，应用于带限音频对象211的增益由与带限音频对象211相关联的元数据213指示。在图6的示例中，校准位置615是最佳位置，因此，应用的增益将会是1.0。当用户605移动远离该校准位置615时，应用于带限音频对象211的增益将增大或减小。与带限音频对象211相关联的元数据213可以指示应如何根据用户的位置来改变增益。

当用户605改变位置时，应用于带限音频对象211的增益可以基于用户605与带限音频对象211之间的距离以及用户605与带限扬声器203之间的距离两者来确定。例如，在图6的示例中，当用户605已经从校准位置615移动到当前位置617时，他们已经进一步移动远离带限扬声器203，但更接近带限音频对象211的位置611。如果不对带限音频对象211进行任何改变，用户605便会感知到带限音频对象211更安静，因为它们现在进一步移动远离带限扬声器。因此，为了使得用户605能够正确地感知到带限音频对象211的位置，必须增大带限音频对象211的音量。在一些示例中，可以通过以下公式给出应用于带限音频对象211的增益：

其中，a是带限扬声器203与用户的当前位置617之间的距离，b是带限音频对象211与校准位置615之间的距离，c是带限扬声器203与校准位置615之间的距离，d是带限音频对象211与用户605的当前位置617之间的距离。

图7示出了另一示例性音频渲染系统701。图7的音频渲染系统701与图6所示的音频渲染系统601的类似之处在于它包括相同的非带限扬声器603和带限扬声器203的布置，并且用户605能够在扬声器203、603的布置之间四处移动。针对对应的特征使用对应的参考标号。

在图7的示例性音频渲染系统701中，带限音频对象211的位置是未知的。例如，与带限音频对象211相关联的元数据213可不包括指示带限音频对象211的位置的任何信息。在这种情况下，可以使用带限音频对象211的位置的近似或估计。在一些示例中，可以将带限音频对象211的位置假定为与扬声器203、603相同。在一些示例中，可以将带限音频对象211的位置取为扬声器203、603与校准位置615之间的平均。在一些示例中，可以将带限音频对象211的位置取为最接近的扬声器603、203和校准位置615的位置。在本公开的其他示例中，可以使用其他估计或近似。

在图7所示的示例中，假定带限音频对象211的位置711是最接近的扬声器603、203和校准位置615的位置。在这种情况下，带限音频对象211仍位于用户605的后面，而带限扬声器203位于用户的前面。应用于带限音频对象211的增益由以下公式给出：

其中，a是带限扬声器203与用户的当前位置617之间的距离，b是最接近的扬声器603与校准位置615之间的距离，c是带限扬声器203与校准位置615之间的距离，d是最接近的扬声器603与用户605的当前位置617之间的距离。

图8示出了另一示例性音频渲染系统801。图8的音频渲染系统801与图6和图7中所示的音频渲染系统601、701的类似之处在于它包括相同的非带限扬声器603和带限扬声器203的布置，并且用户605能够在扬声器203、603的布置之间四处移动。针对对应的特征使用对应的参考标号。

在图8的示例性音频渲染系统801中，带限音频对象211的位置是未知的。例如，与带限音频对象211相关联的元数据213可不包括指示带限音频对象211的位置的任何信息。在图8所示的示例中，假定带限音频对象211的位置811是带限扬声器203的位置。在这种情况下，带限音频对象211位于用户605的前面。在这种情况下，可以确定带限音频对象211的增益不随着用户605的移动而改变，因为带限扬声器203与用户605之间的距离的变化将导致感知到正确的音量变化。在这种情况下，与带限音频对象211相关联的元数据213可以指示应当应用于带限音频对象211的增益的值为1。

图9示出了另一示例性音频渲染系统901。图9的音频渲染系统901与图6、图7和图8中所示的音频渲染系统601、701、801的类似之处在于它包括非带限扬声器603和带限扬声器203的布置，并且用户605能够在扬声器203、603的布置之间四处移动。然而，音频渲染系统901的不同之处在于在图9的示例中，音频渲染系统901包括两个带限音频扬声器203。针对对应的特征使用对应的参考标号。

在图9的示例中，带限音频对象211的位置911被确定为在两个带限扬声器之间。在这样的示例中，当用户在音频渲染系统901内移动时，不需要改变带限音频对象211的音量。与带限音频对象211相关联的元数据213可以提供带限音频对象211的音量不需要进行改变的指示。

图10示出了另一示例性音频渲染系统1001。图10的音频渲染系统1001与图9中所示的音频渲染系统901的类似之处在于它包括相同的非带限扬声器603和两个带限扬声器203的布置，并且用户605能够在扬声器203、603的布置之间四处移动。针对对应的特征使用对应的参考标号。

在图10的示例中，带限音频对象211的位置被确定为位于用户605的后面。该位置不在两个带限扬声器203之间。在这样的示例中，带限扬声器203被控制，以使得仅通过其中一个带限扬声器来渲染带限音频对象211。可以使用上述用于确定将要由单个带限扬声器203应用的增益的值的公式。应当理解，可以使用带限扬声器203中任一个来渲染带限音频对象211。

在图5至图10的示例中，被控制的带限音频对象211的参数是音量。音量可以是应用于带限音频对象211的响度或增益。应当理解，作为带限音频对象211的音量的替代或补充，还可以控制带限音频对象211的其他参数。例如，作为音量的替代或补充，可以改变延迟、扩散性、混响或任何其他合适的参数。

图11示出了图示本公开的示例性实现的另一方法。

在框1111处，确定用户605的位置。可以相对于音频渲染系统的组件来确定用户605的位置。例如，一个或多个扬声器203、603的位置可以是已知的。一个或多个扬声器可以是带限扬声器203。在一些示例中，扬声器203还可以包括非带限扬声器603。扬声器203、603的位置可以从音频渲染系统的校准数据或从由合适的定位部件或通过任何其他合适的过程进行的测量获知。

在框1113处，基于所确定的用户605的位置，控制带限音频对象211的延迟。还可以使用扬声器203、603的位置以及带限音频对象211的虚拟位置来控制带限音频对象211的延迟。带限音频对象211的延迟可以是相较于与带限音频对象211同时被渲染的其他非带限音频对象的延迟。

图12示出了可用于实现图11的方法的另一示例性音频渲染系统1201。

图12的音频渲染系统1201与图6中所示的音频渲染系统601的类似之处在于它包括相同的非带限扬声器603和带限音频扬声器203的布置，并且用户605能够在扬声器203、603的布置之间四处移动。针对对应的特征使用对应的参考标号。

在图12的示例性音频渲染系统1201中，带限音频对象211在由带限扬声器203进行渲染，而非带限音频对象在由其中一个非带限扬声器603进行渲染。带限音频对象211和非带限音频对象可以同时被渲染。带限扬声器203位于用户603的前面，渲染非带限音频对象的非带限扬声器603在用户605的后面提供。扬声器203、603的位置使得如果用户605朝向带限扬声器203移动，则他们移动远离非带限扬声器603，而如果用户605朝向带限扬声器203移动，则他们移动远离带限扬声器203。在这种情况下，与带限音频对象211或非带限音频对象相关联的元数据213包括指示应如何调整延迟以便考虑用户605的位置变化的信息。

在图12所示的示例中，用户605被定位为与带限扬声器203相比更接近非带限扬声器603。在这种情况下，必须向非带限对象添加延迟，或者带限音频对象211必须提前。相反，如果用户605被定位为与非带限扬声器603相比更接近带限扬声器203，则将需要向带限音频对象211添加延迟，或者非带限音频对象将需要提前。在一些示例中，可以向其中一个音频对象添加很小的延迟，同时向另一音频对象应用很小的提前。延迟的添加改变了带限音频对象211与非带限音频对象之间的延迟。

在一些示例中，可以通过以下公式给出应用于带限音频对象211的延迟：

其中，a是用户605与带限扬声器203之间的距离，b是用户605与非带限扬声器603之间的距离，c是声速。声速可以被估计为340m/s。

在一些示例中，可以校准音频渲染系统1201，以使得来自扬声器203、603中每一个的音频被同步为同时到达校准位置615。校准位置615可以是音频渲染系统1201内的中心位置。除了该校准延迟之外，还可以添加在本公开的示例中添加的延迟。

除了图5至图10中所示的音量控制之外，还可以添加在图11和图12中所示的示例中添加的延迟。应当理解，还可以控制带限音频对象的其他参数。

图13示出了图示本公开的示例性实现的另一方法。可以使用上面所示的任何系统和装置101来实现图13的方法。在一些示例中，图13所示的方法可以与本说明书中描述的其他示例性方法同时应用。

在框1301处，访问与第一音频对象一起存储的空间元数据。在一些示例中，空间元数据可以与非带限音频对象一起被存储，但可能被需要以便使能渲染带限音频对象211。非带限音频对象和带限音频对象211可以彼此相关联，因为它们表示相同或相似的声源，它们可以来自相同或相似的方向，它们可以同时播放以创建空间音频空间，或者可存在任何其他合适的关联。

在这种情况下，指示非带限音频对象的元数据213可以与带限音频对象211一起被存储。与带限音频对象211一起获得的元数据213可以指示带限音频对象211与非带限音频对象之间的关联。指示音频对象或音频对象之间的关联的元数据213可以是表示音频对象的整数。在这样的示例中，可以为每个音频对象分配参考整数。

因此，与带限音频对象211一起获得的元数据213可以使得能够访问空间元数据，即使空间元数据与不同的音频对象一起被存储。

在框1303处，使用空间元数据，控制第一音频对象和第二音频对象两者的参数。第一音频对象可以是非带限音频对象，第二音频对象可以是带限音频对象211。在一些示例中，空间元数据可被用于控制两个以上的音频对象的参数。空间元数据可被用于同时控制不同音频对象的参数。

在上述示例中，空间元数据与非带限音频对象一起被存储，而带限音频对象211与元数据213一起被存储，该元数据213指示如何存取所存储的空间元数据。在其他示例中，空间元数据可以与带限音频对象211一起被存储，而与非带限音频对象一起存储的元数据213可以按需用于获取空间元数据。

图13的方法提供了减少需要被存储和/或发送的元数据213的量的技术效果。这可以提供更有效的音频渲染系统。

图14示出了图示本公开的示例性实现的另一方法。

该方法包括在框1401处，获得包括一个或多个参数的带限音频对象211。带限音频对象211可以包括低频效果音频对象或任何其他合适类型的对象。带限音频对象211可以被配置为经由至少一个带限扬声器203进行播放或渲染。

带限音频对象211可以包括一个或多个不同的参数。这些参数可以使能重新创建带限音频对象211的空间特性。不同的参数可以包括影响带限音频对象211的空间特性的音量、延迟、扩散性、混响、位置或任何其他参数中的任何一个或多个。音量可以是应用于带限音频对象211的响度或增益。

在框1403处，该方法包括确定与带限音频对象211相关联的显示器的方向。该显示器可以是其上在显示与带限音频对象211相关联的视觉内容的显示器。可以假定观看显示器上的内容的用户605被定位为面向显示器。

显示器可以是近眼显示器，其可以在头戴式装置或其他类似的设备内提供。在这样的示例中，显示器的方向可以随着用户605旋转他们的头部和/或身体而改变。

在一些示例中，显示器可以在诸如移动电话之类的手持设备内提供。在这样的示例中，用户605可以在他们观看在显示器上显示的内容时倾斜或以其他方式改变手持设备的方向。

可以使用定位部件205来确定显示器的方向。该定位部件可以包括加速度计、磁力计或可被配置为确定显示器的方向的任何其他合适的部件。

在一些示例中，该方法还可以包括获得空间元数据。该空间元数据可以与带限音频对象211一起被获得，或者可以与带限音频对象211分开地获得。

在框1403处，该方法包括使用与带限音频对象211相关联的空间元数据，根据所确定的显示器的方向，控制带限音频对象211的一个或多个参数。被控制的一个或多个参数可以包括音量或任何其他合适的参数。

作为示例，音频渲染系统中的带限扬声器203可以仅覆盖有限的角度范围。与非带限扬声器603相比，带限扬声器203的角度范围可受到限制。带限扬声器203的角度范围可以是有限的，因为它并不覆盖显示器可被定向到的整个角度范围。

如果确定显示器的方向在阈值范围内，则可以控制带限音频对象211，以使得不对带限音频对象211的参数做出任何改变。阈值范围可以包括对应于用户605被定位在由带限扬声器203所覆盖的角度范围内的角度范围。

如果确定显示器的方向在阈值范围以外，则可以按照空间元数据所指示地控制带限音频对象211。如果该方向被确定在阈值范围以外，则这可以对应于用户被定位在由带限扬声器203所覆盖的角度范围以外。在这种情况下，带限音频对象211的参数使得可为用户605重新创建带限音频对象211的空间效果。例如，如果确定显示器在阈值范围以外，则可以减小带限音频对象211的音量。这可重新创建带限音频对象211位于或朝向用户605的后面的空间效果。

本公开的示例提供了使得能够重新创建带限音频对象211的空间方面的技术效果。由于用户对带限音频对象211的空间感知可低于其对非带限音频对象的感知，因此，这使得能够使用不同的方法来提供空间效果。

图4、5、13和14中所示的框可表示方法中的步骤和/或计算机程序109中的部分代码。对框的特定顺序的说明并不意味着对于框存在所要求或优选的顺序，并且框的顺序和布置可变化。此外，可以省略一些框。

在本申请中，术语“耦合/耦接”是指可操作地耦合。在耦合元件之间可以存在任何数量的中间元件或中间元件的组合，包括没有任何中间元件。

在本文中使用的术语“包括”具有包容而非排他性的含义。也就是说，任何表述“x包括y”表示x可以仅包括一个y或可以包括多于一个y。如果意图使用具有排他性含义的“包括”，则将在上下文中通过提及“仅包括一个……”或者使用“由……组成”来明确。

已经在该说明中参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述，在文本中术语“示例”或“例如”或“可以”或“可”的使用表示这种特征或功能至少存在于所描述的示例中，无论是否作为示例来描述，并且这种特征或功能可以但不必需存在于一些或所有其他示例中。因此，“示例”、“例如”或“可以”或“可”是指一类示例中的特定实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此，隐含公开了针对一个示例但未针对另一个示例描述的特征可用于其他示例作为工作组合的一部分，但不必需用于其他示例。

尽管已经在前面的段落中参考各种示例描述了实施例，但应当理解，可在不背离权利要求的范围的情况下对给出的示例进行修改。

在前面的说明中描述的特征可用于除了在上面明确描述的组合以外的组合中。

尽管已经参考某些特征描述了功能，这些功能可由其他特征来执行，无论是否描述。

尽管已经参考某些实施例描述了特征，这些特征也可存在于其他实施例中，无论是否描述。

在本文中使用的术语“一/一个”或“该”具有包容而非排他性的意义。也就是说，任何提到“x包括一个/该y”指示“x可以仅包括一个y”或“x可以包括多于一个的y”，，除非上下文清楚地指出并非如此。如果意图使用具有排他性意义的“一/一个”或“该”，则将在上下文中明确说明。在一些环境下，可使用“至少一个”或“一个或多个”来强调包容性的意义，但缺少这些术语不应被视为意指非排他性的意义。

权利要求中特征(或特征的组合)的存在是对该特征(或特征的组合)本身的引用，并且也是对实现基本相同的技术效果的特征(等效特征)的引用。等效特征例如包括是变型的并且以基本相同的方式实现基本相同的结果的特征。等效特征例如包括以基本相同的方式执行基本相同的功能以实现基本相同的结果的特征。

在该说明中已经参考了使用形容词或形容词短语的各种示例来描述示例的特性。这种关于示例对特性的描述表示该特性在一些示例中与所描述的完全相同，而在其他示例中与所描述的基本相同。

无论是否明确陈述，在文本中术语“示例”或“例如”或“可以”或“可”的使用表示这种特征或功能至少存在于所描述的示例中，无论是否作为示例来描述，并且这种特征或功能可以但不必需存在于一些或所有其他示例中。因此，“示例”、“例如”或“可以”或“可”是指一类示例中的特定实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此，隐含公开了针对一个示例但未针对另一个示例描述的特征可用于其他示例作为工作组合的一部分，但并非必需用于其他示例。

尽管在前面的说明中试图指出那些被认为是重要的特征，但应当理解，申请人可经由权利要求来寻求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容，无论是否已强调。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·维勒尔莫;M·塔米;M-V·莱蒂南;J·维罗莱宁;J·维卡莫
技术所有人：诺基亚技术有限公司
我是此专利的发明人