启用空间音频内容的渲染以用于由用户消费的制作方法

文档序号:21789846发布日期:2020-08-07 20:44阅读:191来源:国知局
启用空间音频内容的渲染以用于由用户消费的制作方法

本发明的实施例涉及启用空间音频内容的渲染以用于由用户消费。



背景技术:

空间(或体积)音频涉及在不同的三维位置处渲染不同的声音对象。每个声音对象可以单独控制。例如,可以控制其强度,可以控制其定位(位置和/或取向),或者可以单独控制声音对象的其他特性。这使得能够在渲染给用户的声音场景内重新定位声源。它还实现该声音场景的工程设计。

例如,可以使用多个扬声器(例如,5.1、7.1、22.2环绕声)将空间音频渲染给用户,或者可以经由耳麦(例如,双耳渲染)将空间音频渲染给用户。

空间音频内容可以是音频内容或多媒体内容的音频部分。在渲染多媒体内容的情况下,视觉内容例如可以经由介导现实(诸如虚拟现实或增强现实)来渲染。



技术实现要素:

在某些情况下,可能期望允许用户(其可能是例如内容消费者或内容工程师)理解声音场景的内容,而不将声音场景完全渲染给该用户。

根据本发明的各种但并非全部实施例,提供了一种装置,该装置包括:

用于引起取决于用户的定位对空间音频内容的选择的部件;

用于引起包括第一空间音频内容的所选择的空间音频内容的渲染以用于由用户消费的部件;

用于在第一空间音频内容的用户消费之后引起与第一空间音频内容有关的数据的记录的部件;

用于在稍后时间使用所记录的数据来检测与第一空间音频内容有关的新事件的部件;以及

用于通过渲染表示第一空间音频内容的经简化的声音对象来针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项的部件。

在一些但并非全部示例中,在稍后时间使用所记录的数据来检测新事件包括:检测第一空间音频内容已经被适配为创建新的第一空间音频内容;并且其中针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项包括:针对用户提供用以启用新的第一空间音频内容的渲染以用于由用户消费的用户可选择选项。

在一些但并非全部示例中,在稍后时间使用所记录的数据来检测新事件包括:将针对第一空间音频内容的所记录的数据与针对新的第一空间音频内容的等效数据相比较。

在一些但并非全部示例中,针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项包括:引起表示第一空间音频内容或新的第一空间音频内容的经简化的声音对象的渲染。

在一些但并非全部示例中,针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项包括:渲染新的第一空间音频内容的有限预览。

预览可能是有限的,因为它是经由经简化的声音对象12'、12”提供的,和/或因为它仅给出对已经改变的内容的指示。

例如,在一些但并非全部示例中,有限预览取决于用于消费的新的第一空间音频内容与用户消费的第一空间音频内容有何不同。

在一些但并非全部示例中,针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项包括:引起如下的经简化的声音对象的渲染,该经简化的声音对象的渲染在取决于与一组一个或多个声音对象相关联的体积的所选择的定位以及取决于与一组一个或多个声音对象相关联的体积的范围处,取决于新的第一空间音频内容的一组一个或多个声音对象的所选择的子集。

在一些但并非全部示例中,针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项包括:引起在垂直平面中延伸的经简化的声音对象的渲染。

在一些但并非全部示例中,针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项包括:通过优先于其他空间音频内容渲染新的第一空间音频来突出显示新的第一空间音频。

在一些但并非全部示例中,与第一空间音频内容有关的所记录的数据包括标识以下中的一项或多项的数据:

第一空间音频内容;

第一空间音频内容的版本标识符;

对用户何时消费了第一空间音频内容的指示;

对消费了第一空间音频内容的用户的指示;

对在第一空间音频内容被消费时用户的定位的指示;

定义第一空间音频内容的消费的起点和消费的终点。

在一些但并非全部示例中,该装置包括:

用于将声音空间划分为与声音空间的不同的非重叠体积相关联的一个或多个声音对象的不同的非重叠组的部件;

用于通过与相关联的体积交互来针对用户提供用以启用一个或多个声音对象的相应组中的任何一组一个或多个声音对象的渲染以用于由用户消费的用户可选择选项的部件,

其中针对第一组提供用户可选择选项包括:取决于第一组的声音对象的所选择的子集来渲染经简化的声音对象。

在一些但并非全部示例中,与相关联的体积相交互是通过虚拟用户接近、凝视或进入体积而进行的,其中虚拟用户的定位随用户的定位而改变。

在一些但并非全部示例中,该装置包括:

用于在用户的定位改变时改变虚拟用户的定位的部件;

用于在虚拟用户位于与第一组相关联的第一体积的外部时取决于第一组的声音对象的所选择的第一子集来渲染经简化的声音对象的部件;

用于在虚拟用户位于与第一组相关联的第一体积的内部时引起第一组的声音对象的渲染的部件;以及

用于在虚拟用户正从第一体积的外部移动到第一体积的内部时引起第一组的声音对象的所选择的第二子集的渲染的部件。

根据本发明的各种但并非全部实施例,提供了一种方法,该方法包括:

引起取决于用户的定位对空间音频内容的选择;

引起所选择的空间音频内容的渲染以用于由用户消费,所选择的空间音频内容包括第一空间音频内容;

在第一空间音频内容的用户消费之后,引起与第一空间音频内容有关的数据的记录;

在稍后时间使用所记录的数据来检测与第一空间音频内容有关的新事件;以及

通过渲染表示第一空间音频内容的经简化的声音对象来针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项。

根据本发明的各种但并非全部实施例,提供了一种计算机程序,该计算机程序在被加载到处理器中时使得处理器能够引起:

所选择的空间音频内容的渲染以用于由用户消费,所选择的空间音频内容包括第一空间音频内容;

在第一空间音频内容的用户消费之后,与第一空间音频内容有关的数据的记录;

在稍后时间使用所记录的数据来检测与第一空间音频内容有关的新事件;以及

通过渲染表示第一空间音频内容的经简化的声音对象来针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项。

根据本发明的各种但并非全部实施例,提供了一种装置,该装置包括:

用于引起取决于用户的定位对空间音频内容的选择的部件;

用于引起所选择的空间音频内容的渲染的部件;

用于在所选择的空间音频内容的渲染之后引起与所选择的空间音频内容有关的数据的记录的部件;

用于在稍后时间使用所记录的数据来检测与空间音频内容有关的新事件的部件;以及

用于通过渲染表示空间音频内容的经简化的声音对象来提供用以启用空间音频内容的渲染的选项的部件。

根据本发明的各种而非全部实施例,提供了如所附权利要求书中所要求保护的示例。

附图说明

为了更好地理解有助于理解详细说明的各种示例,现在将仅以示例方式参考附图,在附图中:

图1a、1b、1c、1d示出了在不同时间的声音空间的示例,图2a、2b、2c、2d示出了在这些时间的对应视觉空间的示例;

图3示出了空间音频处理系统的示例;

图4a、4b、5a、5b、6a、6b示出了使用包括空间音频内容的虚拟内容对介导现实的渲染;

图7示出了用以启用第一空间音频内容的渲染以用于由用户消费的方法的示例;

图8示出了图7的方法的一部分的示例;

图9a示出了包括大量声音对象的声音空间的示例,图9b示出了其中图9a的声音空间已经被划分为非重叠体积的示例;

图10a示出了体积402i和与这些体积402i相关联的声音对象12的组404i,并且图10b和10c示出了针对每个体积的经简化的声音对象的渲染;

图11示出了作为外观的经简化的声音对象;

图12a、12b、12c、12d示出了以一体积渲染给虚拟用户的经简化的声音对象的不同示例;

图13示出了其中不同的渲染过程取决于虚拟用户的位置的示例;

图14a示出了图7的方法的示例;

图14b呈现了利用预览特征增强的图14a的方法的示例;

图15a示出了被配置为执行所描述的方法并且提供所描述的系统的装置的示例;

图15b示出了用于计算机程序的传递机制的示例。

定义

“人造环境”可以是已经被记录或生成的东西。

“虚拟视觉空间”是指可以被观看的完全或部分人造的环境,其可以是三维的。

“虚拟视觉场景”是指从虚拟视觉空间内的特定视点(定位)观看的虚拟视觉空间的表示。

“虚拟视觉对象”是虚拟视觉场景内的可见虚拟对象。

“声音空间”(或“虚拟声音空间”)是指三维空间中的声源的布置。声音空间可以相对于记录声音(所记录的声音空间)并且相对于渲染声音(所渲染的声音空间)来定义。

“声音场景”(或“虚拟声音场景”)是指从声音空间内的特定视点(定位)收听的声音空间的表示。

“声音对象”是指可以位于声音空间内的声源。与同虚拟视觉空间中的对象相关联的声源相对照,源声音对象表示声音空间内的声源。所记录的声音对象表示在特定麦克风或位置处记录的声音。经渲染的声音对象表示从特定位置渲染的声音。

“虚拟空间”可以表示虚拟视觉空间,表示声音空间,或者表示虚拟视觉空间和对应的声音空间的组合。在一些示例中,虚拟空空间可以水平地延伸到360°,并且可以垂直地延伸到180°。

“虚拟场景”可以表示虚拟视觉场景,表示声音场景,或者表示虚拟视觉场景和对应的声音场景的组合。

“虚拟对象”是虚拟场景内的对象,它可以是人造虚拟对象(例如,计算机生成的虚拟对象),也可以是真实对象在真实空间中的图像,该图像是实况的或记录的。它可以是声音对象和/或虚拟视觉对象。

“虚拟定位”是虚拟空间内的定位。它可以使用虚拟位置和/或虚拟取向来定义。它可以被认为是一种可移动的“视点”。

当关于声音空间和虚拟视觉空间使用时,“对应(correspondence)”或“对应(corresponding)”是指声音空间和虚拟视觉空间是时间和空间对准的,即,它们是相同时间的相同的空间。

当关于声音场景和虚拟视觉场景(或视觉场景)使用时,“对应(correspondence)”或“对应(corresponding)”是指声音空间和虚拟视觉空间(或视觉场景)是对应的,并且其视点定义了声音场景的名义(虚拟)听众以及其视点定义了虚拟视觉场景(或视觉场景)的名义(虚拟)观众位于相同的位置和取向,即,它们具有相同的视点(相同的虚拟定位)。

“真实空间”(或“物理空间”)是指可以是三维的真实环境。

“真实场景”是指从真实空间内的特定视点(定位)的真实空间的表示。

“真实视觉场景”是指从真实空间内的特定真实视点(定位)观看到的真实空间的视觉表示。

在本文档中的“介导现实”是指用户例如在视觉上体验完全或部分人造环境(虚拟空间)作为至少部分地由装置渲染给用户的虚拟场景。虚拟场景由虚拟空间内的视点(虚拟定位)确定。显示虚拟场景表示以用户可以感知的形式提供虚拟视觉场景。

本文档中的“增强现实”是指一种形式的介导现实,其中用户体验部分人造环境(虚拟空间)作为虚拟场景,该虚拟场景包括由装置渲染给用户的一个或多个视觉或音频元素补充的物理真实环境(真实空间)的真实场景,例如,真实视觉场景。术语“增强现实”意味着混合(mixed)现实或混合(hybrid)现实,并且不一定意味着虚拟的程度(相对于现实)或介导的程度;

本文档中的“虚拟现实”是指一种形式的介导现实,其中用户体验完全人造环境(虚拟视觉空间)作为由装置显示给用户的虚拟场景;

“虚拟内容”是对来自真实场景的真实内容(如果有的话)的附加内容,它可以通过例如提供一个或多个人造虚拟对象来实现介导现实。

“介导现实内容”是虚拟内容,其使得用户能够例如在视觉上体验完全或部分人造环境(虚拟空间)作为虚拟场景。介导现实内容可以包括交互式内容(诸如视频游戏)或非交互式内容(诸如运动视频)。

“增强现实内容”是一种形式的介导现实内容,其使得用户能够在视觉上体验部分人造环境(虚拟空间)作为虚拟场景。增强现实内容可以包括交互式内容(诸如视频游戏)或非交互式内容(诸如运动视频)。

“虚拟现实内容”是一种形式的介导现实内容,其使得用户能够例如在视觉上体验完全人造环境(虚拟空间)作为虚拟场景。虚拟现实内容可以包括交互式内容(诸如视频游戏)或非交互式内容(诸如运动视频)。

应用于介导现实、增强现实或虚拟现实的“透视介导”是指用户动作确定虚拟空间内的视点(虚拟定位),从而改变虚拟场景;

应用于介导现实、增强现实或虚拟现实的“第一人称透视介导”是指具有附加约束的透视介导,即,用户的真实视点(位置和/或取向)确定虚拟用户在虚拟空间内的视点(虚拟定位);

应用于介导现实、增强现实或虚拟现实的“第三人称透视介导”是指具有附加约束的透视介导,即,用户的真实视点不能确定虚拟空间内的视点(虚拟定位);

应用于介导现实、增强现实或虚拟现实的“用户交互”是指用户动作至少部分地确定虚拟空间内发生的事情;

“显示”是指以用户在视觉上感知(观看)的形式提供。

“渲染”是指以用户感知的形式提供

“虚拟用户”定义了虚拟空间中用于生成透视介导的声音场景和/或视觉场景的视点(虚拟定位-位置和/或取向)。虚拟用户可以是名义听众和/或名义观众。

“名义听众”定义了虚拟空间中用于生成透视介导的声音场景的视点(虚拟定位-位置和/或取向),与用户是否实际在收听无关

“虚拟观众”定义了虚拟空间中用于生成透视介导的视觉场景的视点(虚拟定位-位置和/或取向),与用户是否实际在观看无关。

三自由度(3dof)描述了介导现实,其中虚拟定位仅由取向确定(例如,三维取向的三个度)。关于第一人称透视介导现实,只有用户的取向才能确定虚拟定位。

六自由度(6dof)描述了介导现实,其中虚拟定位由取向(例如,三维取向的三个度)和位置(例如,三维位置的三个度)两者确定。关于第一人称透视介导现实,用户的取向和用户在真实空间中的位置两者确定虚拟定位。

具体实施方式

以下描述描述了控制如何感知音频内容的方法、装置和计算机程序。在一些但并非全部示例中,空间音频渲染可以用于将声源渲染为声音空间内的特定定位处的声音对象。

图1a示出了在声音空间20内包括声音对象12的声音空间20的示例。声音对象12可以是记录的声音对象(与声音对象的声源位于相同的定位),或者可以是被渲染的声音对象(独立于声源定位)。例如,可以使用空间音频处理来修改声音对象12,例如以改变其声音或定位特性。例如,可以将声音对象修改为具有较大的体积,以改变其在声音空间20内的位置(图1b和1c)和/或改变其在声音空间20内的空间范围(图1d)。图1b示出了在声音对象12在声音空间20中移动之前的声音空间20。图1c示出了在声音对象12移动之后的相同的声音空间20。图1d示出了在声音对象12在声音空间20中延伸之后的声音空间20。图1d的声音空间20与图1c的声音空间20的不同之处在于,声音对象12的空间范围已经被增加,使得声音对象12具有较大的广度(较大的宽度)。

可以跟踪声源的定位以在声源的定位处渲染声音对象12。例如,这可以当通过将定位标签放置在声源上进行记录时来实现。然后,可以记录声源的定位和定位改变。然后,可以使用声源的定位来控制声音对象12的定位。这在使用近距离麦克风(诸如吊杆麦克风或领夹式麦克风)来记录声源的情况下尤其适用。

在其他示例中,可以在声源的记录期间通过使用空间上多样化的声音记录来确定声源在视觉场景内的定位。空间上多样化的声音记录的一个示例是使用麦克风阵列。在不同的、空间上多样化的麦克风处记录的声音之间的相位差提供了可以用于使用波束形成等式来定位声源的信息。例如,可以使用基于到达时间差(tdoa)的方法进行声源定位。

声源的定位也可以通过后期制作注释来确定。作为另一示例,可以使用基于蓝牙的室内定位技术、或视觉分析技术、雷达、或任何合适的自动定位跟踪机制来确定声源的定位。

在一些示例中,与所渲染的声音空间20相对应的视觉场景60可以被渲染给用户。视觉场景60可以是在记录创建声音对象12的声源的同时记录的场景。

图2a示出了与声音空间20相对应的视觉空间60的示例。在这种意义上的对应表示在声音空间20与视觉空间60之间存在一对一的映射,使得声音空间20中的定位在视觉空间60中具有对应的定位并且视觉空间60中的定位在声音空间20中具有对应的定位。对应还表示声音空间20的坐标系和视觉空间20的坐标系处于对准,使得从用户的角度来看,在相同的公共定位处对象在声音空间20中被定位为声音对象12并且在视觉空间60中被定位为视觉对象22。声音空间20和视觉空间60可以是三维的。

图2b示出了在与声源12相对应的视觉对象22在视觉空间60中移动之前与图1b的声音空间20相对应的视觉空间60。图2c示出了在视觉对象22移动之后与图1c的声音空间20相对应的相同的视觉空间60。图2d示出了在声音对象12在对应的声音空间20中延伸之后的视觉空间60。尽管图1d的声音空间20与图1c的声音空间20的不同之处在于,声音对象12的空间范围已经增加,使得声音对象12具有较大的广度,但是视觉空间60不必改变。

图3示出了空间音频处理系统100的示例,该空间音频处理系统100包括频谱分配模块110和空间分配模块120。

频谱分配模块110获取所接收的输入音频信号101的频率子信道111,并且将它们分配给多个空间音频信道114,作为频谱受限的音频信号113。

分配可以是准随机分配(例如,基于halton序列),也可以基于预定义规则集合来确定。预定义规则可以例如将频谱相邻的频率子信道111的空间分隔约束为高于阈值。在一些但并非全部示例中,分配模块112是可编程滤波器组。

空间分配模块120控制不同空间音频信道114在由不同音频输出设备渲染的不同音频设备信道124上的混合122。因此,每个空间音频信道114被渲染在声音空间20内的不同位置。音频设备信道的数目由扬声器的数目定义,例如,2.0(双声道)、4.0(四声道)或5.1、7.1、22.2等环绕声。

声音空间20可以被认为是空间音频信道114的集合,其中每个空间音频信道114是不同的方向。在一些示例中,可以针对所有声音对象12全局定义空间音频信道114的集合。在其他示例中,可以针对每个声音对象12本地定义空间音频信道114的集合。空间音频信道114的集合可以是固定的,或者可以随时间动态变化。

在一些但并非全部示例中,输入音频信号101包括单音源信号,并且包括、伴随或与一个或多个空间处理参数相关联,该空间处理参数定义将渲染单音源信号101的声源的定位和/或空间范围。

在一些但并非全部示例中,每个空间音频信道114可以使用幅度平移信号121(例如,使用矢量基本幅平移(vbap))渲染为单个经渲染的声源。

例如,在球形极坐标中,空间音频信道snm的方向可以由极角和方位角φm的耦合来表示。其中是n个可能极角的集合中的一个极角,而φm是m个可能方位角的集合中的一个方位角。定位z处的声音对象12可以与最接近arg(z)的空间音频信道snm相关联。如果声音对象12与空间音频信道snm相关联,则其被渲染为点源。然而,声音对象12可以具有空间范围并且与多个空间音频信道114相关联。例如,可以在由arg(z)和声音对象12的空间范围定义的空间音频信道集合{s}中同时渲染声音对象12。该空间音频信道集合{s}可以例如包括在n-δn和n+δn之间的每个n'值和在n-δm到和n+δm之间的每个m'值的空间音频信道sn'm'的集合,其中n和m定义最接近arg(z)的空间音频信道,δn和δm组合定义声音对象12的空间范围。δn的值定义极化方向上的空间范围,δm的值定义方位方向上的空间范围。由空间分配模块120分配的空间音频信道集合{s}中的空间音频信道的数目及其空间关系取决于声音对象12的期望空间范围。

通过将表示声音对象12的音频信号101分解为多个不同的频率子信道111并且将每个频率子信道111分配给多个频谱受限的音频信号113中的一个,可以在空间音频信道集合{s}中同时渲染单个声音对象12。每个频谱受限的音频信号113被分配给一个空间音频信道114。

在使用数字信号处理将时频仓分布到不同的空间音频信道114的情况下,则可以使用短期傅立叶变换(stft)102从时域变换到频域,其中针对每个频带进行选择性滤波。对于每个stft,可以使用相同的时间段或不同的时间段来创建不同的频谱受限的音频信号113。可以通过选择相同带宽(不同中心频率)或不同带宽的频率子信道111来创建不同的频谱受限的音频信号113。频谱受限的音频信号113被放置到其中的不同空间音频信道{s}可以由恒定的角度分布(例如,相同的立体角(在球坐标系中δω=sinθ.δθ.δφ))或非均匀的角度分布(例如,不同的立体角)来定义。将需要逆变换126以从频域转换到时域。

可以通过使用表示声音对象12的音频信号的直接和间接处理的组合来控制声音对象12到用户处的原点之间的距离。在来自路径的输出被混合在一起之前,音频信号被并行地传递通过“直接”路径和一个或多个“间接”路径。这可能作为预处理来进行以创建输入音频信号101。

直接路径表示对听众似乎已经直接从音频源接收到的音频信号,而间接(解相关)路径表示对听众似乎已经经由间接路径(诸如多路径或反射路径或折射路径)从音频源接收到的音频信号。修改直接路径与间接路径之间的相对增益,改变了对在经渲染的声音空间20中声音对象12与听众的距离d的感知。相对于直接路径增益,增加间接路径增益会增加对距离的感知。解相关路径可以例如引入至少2ms的预延迟。

在一些但并非全部示例中,为了实现具有空间范围(宽度和/或高度和/或深度)的声音对象12,将空间音频信道114视为频谱不同的声音对象12,然后使用音频再现方法将其定位在合适的宽度和/或高度和/或距离上。

例如,在扬声器声音再现的情况下,幅度平移可以用于在宽度和/或高度维度上定位频谱不同的声音对象12,并且通过增益控制以及可选地直接与混响(间接)之比的距离衰减可以用于在深度维度上定位频谱不同的声音对象12。

例如,在双耳渲染的情况下,通过取决于其定位针对每个频谱不同的声音对象选择合适的头部相关传递函数(hrtf)滤波器(一个用于左耳,一个用于右耳)来获得宽度和/或高度维度的定位。一对hrtf滤波器对从空间中的点到听众耳朵的路径建模。针对声音的所有可能的到达方向存储hrft系数对。类似地,通过对利用增益控制和可选地直接与混响(间接)之比的距离衰减进行建模来控制频谱不同的声音对象12的距离维度。

因此,假设声音渲染系统支持宽度,则声音对象12的宽度可以由空间分配模块120控制。它通过在由不同音频输出设备渲染的不同宽度分隔的音频设备信道124上的不同空间音频信道114的受控混合122来实现空间音频信道114的正确的空间渲染。

因此,假设声音渲染系统支持高度,则可以以与声音对象的宽度相同的方式来控制声音对象12的高度。空间分配模块120通过在由不同音频输出设备渲染的不同高度分隔的音频设备信道124上的不同空间音频信道114的受控混合122来实现空间音频信道114的正确的空间渲染。

因此,假设声音渲染系统支持深度,则可以以与声音对象12的宽度相同的方式来控制声音对象12的深度。空间分配模块120通过在由不同音频输出设备渲染的不同深度分隔的音频设备信道124上的不同空间音频信道114的受控混合122来实现空间音频信道114的正确的空间渲染。然而,如果不可能,则空间分配模块120可以通过以下来实现空间音频信道114的正确的空间渲染:对使用增益控制和可选地直接与混响(间接)之比的距离衰减进行建模来在不同的感知距离上在不同深度分隔的频谱不同的声音对象12上的不同空间音频信道114的受控混合122。

因此,将理解,可以在宽度和/或高度和/或深度上控制声音对象的范围。

回到前面的示例,在某些情况下,可能需要附加处理。例如,当声音空间20通过头戴式音频输出设备(例如,使用双耳音频编码的耳麦或耳机)渲染给听众时,当听众在空间中转动其头时,可能期望经渲染的声音空间在空间中保持固定。这表示经渲染的声音空间需要相对于音频输出设备在与头部旋转相反的意识上旋转相同的量。经渲染的声音空间的取向跟踪听众的头部的旋转,使得经渲染的声音空间的取向在空间中保持固定,并且不会随听众的头部移动。该系统使用传递函数来执行变换t,该变换t使声音对象12在声音空间内旋转。头部相关传递函数(hrtf)内插器可以用于渲染双耳音频。矢量基幅平移(vbap)可以用于以扬声器格式(例如,5.1)音频进行渲染。

图4a、4b、5a、5b、6a、6b示出了使用包括空间音频内容的虚拟内容对介导现实的渲染。空间(或体积)音频涉及在不同的三维位置处对不同的声音对象的渲染。每个声音对象可以单独地控制。例如,可以控制其强度,可以控制其定位(位置和/或取向),或者可以单独地控制声音对象的其他特性。这使得能够在渲染给用户的声音场景内重新定位声源。它还实现该声音场景的工程设计。

如果第二空间音频内容与第一空间音频内容相同或者是第一空间音频内容的子集,则第一空间音频内容可以包括第二空间音频内容。例如,如果第二空间音频内容的所有声音对象也是未经修改的第一空间音频内容的声音对象,则第一空间音频内容包括第二空间音频内容。

在该上下文中,介导现实表示为了实现介导现实(例如,增强现实或虚拟现实)而渲染介导现实。在这些示例中,介导现实是第一人称透视介导现实。它可以是也可以不是用户交互的。它可以是3dof或6dof。

图4a、5a、6a在第一时间示出了真实空间50、声音空间20和视觉空间60。在声音空间20与虚拟视觉空间60之间存在对应关系。真实空间50中的用户51具有由位置52和取向53定义的定位。该位置是三维位置,并且该取向是三维取向。

在3dof介导现实中,用户51的取向53控制虚拟用户71的虚拟取向73。取向53与虚拟取向73之间存在对应关系,使得取向53中的改变产生虚拟取向73中的相同改变。虚拟用户71的虚拟取向73与虚拟视野74相结合定义了虚拟视觉空间60内的虚拟视觉场景75。在一些示例中,它还可以定义虚拟声音场景76。虚拟视觉场景75是显示给用户的虚拟视觉空间60的一部分。虚拟声音场景76是渲染给用户的虚拟声音空间20的一部分。虚拟声音空间20和虚拟视觉空间60相对应,因为虚拟声音空间20内的定位在虚拟视觉空间60内具有等同的定位。在3d0f介导现实中,用户51的位置52的改变不会改变虚拟用户71的虚拟定位72或虚拟取向73。

在6dof介导现实的示例中,情况如针对3dof所描述的,并且此外,可以通过用户51的位置52的移动来改变经渲染的虚拟声音场景76和被显示的虚拟视觉场景75。例如,在用户51的位置52与虚拟用户71的虚拟位置72之间可能存在映射。用户51的位置52中的改变产生虚拟用户71的虚拟位置72的对应改变。虚拟用户71的虚拟位置72中的改变改变了经渲染的声音场景76,并且还改变了经渲染的视觉场景75。

这可以从图4b、5b和6b中理解,图4b、5b和6b示出了用户51分别在经渲染的声音场景76(图5b)和经渲染的视觉场景75(图6b)上的位置52和取向53中的改变的后果。

通过取决于用户51的定位52、53的空间音频内容的选择而定义的虚拟声音场景76被渲染以用于由用户消费。

在一些示例中,用户51的位置52的改变被检测为用户头部的位置中的改变(例如,通过跟踪头戴式装置),或者用户身体的位置中的改变。

在一些示例中,用户51的取向53中的改变被检测为用户头部的取向中的改变(例如,通过跟踪头戴式装置的偏航/俯仰/侧倾),或者用户身体的取向中的改变。

图7示出了用于启用第一空间音频内容的渲染以用于由用户消费的方法200的示例。

在框202处,方法200包括引起取决于用户51的定位(例如,位置52和/或取向53)对空间音频内容的选择。

在框204处,方法200包括引起所选择的空间音频内容的渲染以用于由用户消费,所选择的空间音频内容包括第一空间音频内容,如参考图4a、4b、5a、5b所述。

在框206处,方法200包括在第一空间音频内容的用户消费之后,引起与第一空间音频内容有关的数据的记录。

在框208处,方法200包括在稍后时间使用所记录的数据来检测与第一空间音频内容有关的新事件。

在框210处,方法200包括针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项。

在一些但并非全部示例中,在框210处提供用户可选择选项包括:将第一空间音频内容转换为经简化的形式。如果第一空间音频内容是多声道格式,则框210可以包括:将第一空间音频内容降混为单声道格式。如果第一空间音频内容是多对象格式,则框210可以包括对第一空间音频内容的一个或多个对象的选择。经简化的形式可以是保留用户51感兴趣的第一空间音频内容的一部分并且移除用户51不感兴趣的第一空间音频内容的一部分的形式。感兴趣或不感兴趣的内容可以基于用户的内容消费的历史。因此,使用户51知道对空间音频内容的有意义的改变。

因此,在一些但并非全部示例中,框210包括引起表示第一空间音频内容或新的第一空间音频内容的经简化的声音对象的渲染。

在框206处,在一些示例中,通过监测用户51的定位(取向53或位置52和取向53)来检测(或推断)第一空间音频内容的消费。如果与用户51的定位52、53相对应的虚拟用户71的定位72、73至少在预定时间段内与第一空间音频内容的位置相关,则可以做出用户已经消费了第一空间音频的决定。在一些示例中,如果a)虚拟用户的位置72和第一空间音频内容的位置小于阈值,和/或b)由虚拟用户71的位置72和虚拟用户71的取向73定义的矢量与第一空间音频内容的位置在阈值内相交,则虚拟用户71的定位72、73与第一空间音频内容的位置相关。

如果用户似乎只是短暂地专注于第一空间音频内容,则可以确定用户尚未消费第一空间音频内容。当然,将理解,存在许多其他和不同的方式来确定用户是否已经消费了第一空间音频内容。

图8示出了方法200的一部分的示例。在该示例中,更详细地示出了图7中的方法200的框208和210的示例。

在方法200中,在框208处,方法200包括检测第一空间音频内容已经被适配为创建新的第一空间音频内容。例如,这可以通过将针对第一空间音频内容的所记录的数据与针对新的第一空间音频内容的等效数据相比较来检测。

在框210处,该方法包括针对用户提供用以启用新的第一空间音频内容的渲染以用于由用户消费的用户可选择选项。例如,这可以通过引起表示新的第一空间音频内容的经简化的声音对象的渲染来实现。

与第一空间音频内容有关的所记录的数据是记录由用户对第一空间音频内容的消费的数据。所记录的数据可以例如包括标识以下中的一项或多项的数据:第一空间音频内容;第一空间音频内容的版本标识符;对用户何时消费了第一空间音频内容的指示;对消费了第一空间音频内容的用户的指示;对与渲染第一空间音频内容相关联的用户设备的指示;对在第一空间音频内容被消费时用户的定位的指示;以及第一音频空间内容内的消费的起点和消费的终点。

在一些但并非全部示例中,所记录的数据记录以下各项:用户消费第一空间音频内容的所有实例,或者仅用户已经消费了第一空间音频内容的最后预定次数,或者用户在预定时间段内已经消费了第一空间音频内容的最后次数,或者用户已经消费了第一空间音频内容的最后时间。另外,在一些但并非全部示例中,关于第一空间音频内容的所记录的数据可能到期,并且在框208处不再使用。到期可能在标准或准则满足时发生。例如,任何所记录的数据都可以在预定时间段之后到期,该预定时间段可以例如由用户编程。另外,用户可能能够启用“隐身”功能,其中用户在特定时间段期间的消费不会导致记录与所消费的空间音频内容有关的数据。

应当理解,尽管已经关于第一空间音频内容描述了图7和8中的方法200,但是其也可以应用于任何其他空间音频内容。第一空间音频内容不一定必须预先预定。例如,它可以是由用户51通过任意的、特别的消费而选择的任意空间音频内容。

图9a示出了声音空间20的示例,声音空间20包括大量声音对象12。声音对象12可以涉及相同或不同的服务和应用。在声音空间20内还指示了虚拟用户71。如先前所述,参考图4a、4b、5a、5b和图7,虚拟用户71的的定位72、73选择用于渲染的空间音频内容,并且虚拟用户的定位72、73取决于用户51的定位52、53。

在这些情况下,用户51可能难以确定用户51希望收听哪个声音对象12。

根据方法200的一方面,声音空间20被分成一个或多个声音对象12的不同的非重叠组404i。组404i中的每个与声音空间20的不同的非重叠体积402i相关联。图9b示出了其中图9a的声音空间20已经被划分为非重叠体积402i的示例。

组404i可以使用用以聚类声音对象12的聚类算法来形成,或者可以基于声音对象12的接近度或交互来形成。在其他示例中,可以对组404i进行注释。

每个非重叠体积402i可以被认为是引出“大厅”400的“房间”。当虚拟用户71进入体积402i时,该体积402i内的声音对象12被渲染给用户51。然而,为了简化声音空间,当虚拟用户71在与组404i相关联的体积402i的外部时,不向用户51渲染组404i的每个声音对象12。相反,当虚拟用户71在体积402i的外部的大厅区域400中时,根据方法200,向用户51渲染经简化的声音空间20。

每个体积402i表示用以启用由与该体积402i相关联的组404i的声音对象12定义的空间音频内容的渲染以用于由用户51消费的用户51的用户可选择选项。用户选择可以例如通过虚拟用户71凝视、接近或进入体积402i来进行。

为了使用户理解什么空间音频内容与特定体积402i相关联,期望在体积402i处渲染表示与体积402i相关联的针对组404i的空间音频内容的经简化的声音对象,而不是渲染组404i的声音对象12。

图10a示出了体积402i和与这些体积402i相关联的声音对象12的组404i。图10a类似于图9b,并且声音对象12和体积402i的布置等同于图9a和9b所示的布置。从该图应当理解,每个体积402i可以包括多个声音对象12。

图10b示出了表示组402i的空间音频内容的经简化的声音对象12i'的渲染,而不是该组402i的声音对象12的渲染。

图10c示出了经简化的声音对象12i'可以被渲染为扩展的经简化的声音对象12i”。在该示例中,每个经简化的声音对象12i'已经在长度和广度上扩展,使得从虚拟用户71的角度来看,它可以对应于与其相关联的体积402i的大小。因此,每个扩展的经简化的声音对象12i”形成用于体积402i的墙壁或立面。该墙壁或立面可以形成正交于(垂直于)虚拟用户71的视点的平面。

这在图11的示例中更详细地示出,其中虚拟用户71站在体积402的前面,并且扩展的经简化的声音对象12”被渲染在体积402的正面上。扩展的经简化的声音对象12”可以具有取决于体积402的大小和体积402相对于虚拟用户71的取向的宽度和高度。如果体积402被重新缩放并且改变大小,则扩展的经简化的声音对象12”也可以被重新缩放并且改变大小。

因此,将理解,在一些示例中,方法200包括将声音空间20划分为与声音空间20的不同的非重叠体积402i相关联的一个或多个声音对象12的不同的非重叠组404i。

在框210处,方法200包括针对用户提供用以启用一个或多个声音对象12的相应组404i中的任何一个的渲染以用于由用户消费的用户可选择选项。与相关联的体积402i交互引起用户对选项的选择并且引起随后与体积402i相关联的一个或多个声音对象12的组404i的渲染。

在一些示例中,与相关联的体积402i交互可以通过虚拟用户71接近、凝视或进入体积402i来进行。虚拟用户的定位可以通过改变用户51的定位来改变。

在框210处,针对组404i提供用户可选择选项包括:取决于组404i的声音对象12的所选择的子集来渲染经简化的声音对象12i'、12i”。

为了渲染经简化的声音对象12i'、12i”,必须将与组404i内的多个声音对象12相关联的空间音频内容转换成经简化的形式。如果空间音频内容是多声道格式,则这可以通过降混到单声道格式来实现。如果空间音频内容是多对象格式,则其可以通过选择一个或多个声音对象12来实现。

应当理解,用户51通过改变他们的定位52、53可以改变虚拟用户71在声音空间20内的定位72、73。这将改变渲染给用户51的声音场景。因此,用户可能朝着特定体积402i或特定经简化的声音对象12'或扩展的经简化的声音对象12”移动或看向特定体积402i或特定经简化的声音对象12'或扩展的经简化的声音对象12'。

关于虚拟用户71的经简化的声音对象12'、12”的布置可以用作用户接口(人机接口),例如三维菜单系统,其中每个不同的体积402i表示不同的可选择的菜单类别,并且与特定体积402i相关联的组404i内的每个声音对象12表示该菜单类别中的条目。

可以以取决于用户定位,特别是取决于相对于单个经简化的声音对象12'、12”的相应位置的用户定位的方式来渲染以体积402i渲染给用户的单个经简化的声音对象12'、12”。

如先前关于图8所述,针对用户提供用以启用第一空间音频内容的渲染以用于由用户消费的用户可选择选项可以包括:针对用户提供用以启用新的第一空间音频内容的渲染以用于由用户消费的用户可选择选项。在该示例中,被渲染以标识用户可选择选项的经简化的声音对象12'、12”基于新的第一空间音频内容。

因此,方法200可以通过引起如下的经简化的声音对象12”的渲染来针对用户提供用以启用空间音频内容的渲染以用于由用户消费的用户可选择选项,该经简化声音对象12”的渲染在所选择的定位取决于与一个或多个声音对象12的组404i相关联的体积402i以及取决于与一个或多个声音对象12相关联的组402i的体积402i的范围,取决于新的第一空间音频内容的一个或多个声音对象12的组404i的所选择的子集。经简化的声音对象12'、12”在垂直平面中作为墙壁或立面延伸。

在一些但并非全部示例中,经简化的声音对象12'、12”基于与先前的第一空间音频内容相比在新的第一空间音频内容中不同的空间音频内容。即,经简化的声音对象12'、12”给出了对已经改变的内容的指示。以这种方式,经简化的声音对象12'、12”提供了新的第一空间音频内容的有限预览。

在一些但并非全部示例中,经简化的声音对象12'、12”取决于用于消费的新的第一空间音频内容与用户消费的第一空间音频内容有何不同,并且重点在于被改变的那些信道/对象。

例如,可能期望通过优先于其他空间音频内容渲染新的第一空间音频来突出显示任何新的第一空间音频。例如,这可以通过使新的空间音频内容靠近或提升新的空间音频内容或以其他方式强调新的空间音频内容来实现。

图12a示出了简单示例,其中经简化的声音对象12'以体积402渲染给虚拟用户71。经简化的声音对象12'可以基于新的第一空间音频内容,并且例如可以是基于已经改变的声音对象12。

经简化的声音对象12'指示用户的用户可选择选项,如果选择该用户可选择选项,则启用新的第一空间音频内容的渲染。新的第一空间音频内容由与体积402相关联的组404的声音对象12定义。用户可选择选项可以由虚拟用户71与体积402交互来选择。

图12b示出了与图12a所示的示例类似的示例。然而,在该示例中,渲染了两个经简化的声音对象12'。经简化的声音对象12'可以基于新的第一空间音频内容,并且可以例如分别基于已经改变的声音对象12。

图12c类似于图12b,除了在该示例中,经简化的声音对象12中的一个通过被提升来被突出显示。突出显示可以例如指示提升的经简化的声音对象12'基于新的第一空间音频内容,例如基于已经改变的声音对象12。

图12d类似于图12b,除了在该示例中,经简化的声音对象12中的一个通过靠近虚拟用户71来被突出显示。在该示例中,改变体积402的取向以使与新的空间音频内容相关联的经简化的音频对象12'较接近虚拟用户71。

图12a至12d所示的经简化的声音对象12的示例可以被提供作为先前关于体积402所述的立面的一部分或代替先前关于体积402所述的立面。在这样的示例中,代替渲染单个扩展的经简化的声音对象12以形成立面,包括经简化的声音对象12(包括突出显示的经简化的声音对象12)的场景形成立面。场景可以在长度和广度上扩展,使得从虚拟用户71的角度来看,它可以对应于与其关联的体积402i的大小。因此,经简化的声音对象12i'的场景形成了体积402i的墙壁或立面。墙壁或立面可以形成正交于(垂直于)虚拟用户71的视点并且在垂直平面中延伸的平面。

在其他示例中,可以在虚拟用户71距体积402一定距离时渲染立面,并且当虚拟用户71接近体积402时,可以将图12a至12d中所示的示例渲染为预览。

图13示出了其中不同的渲染过程取决于虚拟用户71的位置的示例。

在框502处,当虚拟用户71在大厅400中的体积402i的外部时,方法200引起取决于与体积402i相关联的组404i的声音对象12的所选择的第一子集的、针对体积402i中的每个体积402i的经简化的声音对象12'、12”的渲染。

在框506处,当虚拟用户71在与声音对象12的组404i相关联的体积402i的内部时,方法200引起该组404i的声音对象12的渲染。

在框504处,处理在大厅400中和在体积402i内的转变。当虚拟用户71正从体积402i的外部移动到体积402i的内部时,方法200引起与该体积402i相关联的组404i的声音对象12的所选择的第二子集的渲染。该所选择的第二子集是比在框502处用于渲染经简化的声音对象12'、12'的第一子集大的子集。

以这种方式,存在从经简化的声音对象12'、12'在其中被渲染的大厅400到所有声音对象12在其中被渲染的体积402i的平稳转变。

在转变阶段504期间渲染的第二子集的声音对象12可以包括与在第一位置处的特写记录相关联的第一声音对象和与在第二位置处的背景记录相关联的第二声音对象。在转变阶段504期间渲染的第二子集的声音对象12在空间上被分开。混响可以添加到渲染中。

在大厅阶段502期间被渲染为经简化的声音对象12'、12”的第一子集的声音对象12可以仅包括与在第一位置处的特写记录相关联的第一声音对象,或者仅包括与在第二位置处的背景记录相关联的第二声音对象。在大厅阶段502期间被渲染为经简化的声音对象12'、12'的第一子集的声音对象12被扩展并且重新定位以形成立面。

在一个用例中,用户51已经将爵士乐房间(体积402i)与其他体积402一起放置在他的多房间内容消费空间中。歌曲正在体积402i中播放,并且用户51之前已经听过这首歌。当虚拟用户71在任何体积402的外部(例如,虚拟用户71在大厅空间400中)时,用户51可以听到歌曲的降混。体积402i具有针对歌曲的经简化的声音对象12i”,该经简化的声音对象12i”指示爵士乐俱乐部的大小,该爵士乐俱乐部的大小随体积402i的大小而缩放。

在该示例中,由于存在针对歌曲的经简化的声音对象12i”,所以用户51知道自从他最近一次访问房间402i以来,内容提供方已经添加了备选歌曲。因此,用户以前已经体验过的空间音频内容已经发生了很大的变化,并且这通过突出显示新的空间音频内容的渲染的经简化的声音对象12'、12”以非介入的方式被指示给用户51。

因此,每个房间402都有存储器效果。至少将虚拟用户71最后一次在房间402中时的状态保存为元数据。备选地并且另外地,该存储器状态可以涵盖所有用户51对房间的访问、在一定时间跨度内的访问、或特定次数的最新访问等。该元数据包括例如与空间音频内容的音频对象12有关的信息。在这种情况下,已经存储了关于音乐曲目和在用户已经听过的每个曲目上表演的音乐家的信息。

因此,当房间的空间音频内容中发生相关改变(例如,其可以由内容提供方或用户本人定义的改变)时,就可以检测到该相关改变。该改变将被呈现为立面的经简化的声音对象12'、12”的内容驱动到房间402,该房间进而控制用户51听到的房间402的预览。可以针对虚拟用户71旋转房间402,使得新的钢琴曲目在空间上较靠近虚拟用户71并且用户51可以清楚地听到。在一些示例中,旧的空间音频内容和新的空间音频内容两者被顺序地预览。因此,用户51理解存在新的钢琴曲目以及用以渲染该曲目的选项。用户51通过控制虚拟用户71进入房间402来选择该选项。

可以通过适配立面渲染参数来指示对由与体积402相关联的组404中的声音对象12定义的空间音频内容的相关改变。例如,可以将多信道记录(例如,5.1)更新为添加高度信道的22.2信道表示,并且可以使用高度来突出显示改变(图12c)。已经接收到来自消费者的积极反馈的新曲目可以被提升高于其他内容,而已经接收到较差评论的另一曲目将朝着体积402的一角被渲染。

在一些示例中,当虚拟用户71接近体积402时,由体积402呈现的内容改变。在一段距离内,可以将简单的降混呈现为立面,该立面例如由范围、平衡和旋转参数的集合控制。随着用户的接近,呈现空间预览。该预览是比降混更复杂的渲染。例如,主要声音对象12在声音空间20中被渲染为空间上不同的对象,并且根据体积402中的不同定位被渲染。不同定位可以基于虚拟用户71的偏好收听位置,该位置可以已经基于由用户51的使用或设置而被记录为元数据。

图14a示出了基于方法200的示例方法700。

在框702处,向在第一体积(房间)4021中的虚拟用户71呈现第一房间4021中的第一空间音频内容。该空间音频内容可以是任何类型,但是在该示例中,考虑沉浸式体积音频(6dof)。

在框704处,检测虚拟用户71何时退出体积4021并且进入大厅空间400。

在框708处,向虚拟用户71呈现多房间空间音频体验(图10b、10c)。创建经简化的声音对象121'、121”,其作为体积4021的立面被选择(714)和渲染(718)给大厅400中的虚拟用户71。这针对每个体积402进行。因此,存在呈现的多个经简化的声音对象12'、12”,这些声音对象向用户51通知与每个体积402相关联的空间音频内容,而无需针对每个体积402渲染完整的空间音频内容。每个体积402是用于向用户51渲染与该体积402相关联的全部空间音频内容的选项,并且该选项可以由虚拟用户71进入体积402来选择。

在框706处,当虚拟用户退出第一体积4021时,存储对应的元数据。

在框710、712处,当发生与第一体积4021的所存储的元数据有关的随后改变时,在框716处创建新的经简化的声音对象121'、121”,该新的经简化的声音对象121'、121”作为来自体积4021的立面被选择(714)和渲染(718)给大厅400中的虚拟用户71。例如,先前已经参考图10c、11和12a至12d描述了示例。作为示例,如果体积4021的当前元数据改变,使得其与体积4021的所存储的元数据不同或明显不同,则可以基于改变后的元数据相关联的空间音频内容来创建新的经简化的声音对象121'、121”作为降混,其作为来自体积4021的立面被渲染给大厅400中的虚拟用户71。

图14b示出了基于方法200的示例方法800,该方法200将图14a所示的方法700扩展为包括预览特征。

框702、704、706、708、710、712、714、716、718如参考图14a所述地操作。

然而,如果虚拟用户71远离房间4021,则进行框718。这对应于图13中的框502。

如果虚拟用户71不远离房间4021并且例如正在接近房间4021或聚焦在房间4021上,则预览功能经由框802、804、806而不是框718进行。例如,这对应于图13中的框504。

在框804处,创建预览。预览可以包括与体积4021相关联的组4041中的最相关的(例如,最主要的、新的那些等)声音对象12。所选择的音频对象12在预览期间被渲染为具有不同定位的空间音频对象。如果还播放氛围成分,则可以将其作为空间扩展的单声道源播放。可以根据框718来渲染大厅空间400中的其他附近房间402的经简化的声音对象12'、12”,例如降混。

在一个实施例中,预览包括先前体验的内容的第一回放,随后是经更新的内容。

返回参考用例的先前示例,其中用户51已经将爵士乐房间(体积402i)与其他体积402(例如,图10c)一起放置在他的多房间内容消费空间中。新版本的喜爱歌曲可用。当虚拟用户71在爵士乐房间的外部并且与之隔开一定距离时(例如,虚拟用户71在大厅空间400中),用户51可以听到新版本歌曲的降混。体积402i具有被呈现为立面的、用于歌曲的新版本的经简化的声音对象12i”,该立面指示爵士乐俱乐部的大小,该大随体积402i的大小而缩放(例如,图11)。

如果用户接近爵士乐房间,则渲染多个经简化的声音对象12',并且通过使其靠近虚拟用户71来突出显示与已经改变的内容相关的经简化的声音对象12中的一个,进而控制用户51听到的房间402的预览(例如,图12a至12d)。例如,爵士乐房间可以针对虚拟用户71旋转,使得新的钢琴曲目在空间上更靠近虚拟用户71并且用户51可以清楚地听到(例如,图12d)。因此,用户51理解存在新的钢琴曲目,并且具有用以以空间音频来渲染新版本歌曲的选项。用户51通过控制虚拟用户71进入房间402来选择该选项。在一些示例中,当爵士乐房间旋转时,在相同歌曲部分的简短摘录中顺序地再现旧歌曲和新版本的歌曲两者。因此,用户51理解新版本与先前版本有何不同。

具有存储器效果的预览的好处在于,用户51可以较好地感知到他已经消费的空间音频内容的任何重要更新。

根据一些但并非全部示例,预览是基于用户的优选收听定位进行个性化的,从而允许用户51以与以前的体验提供最大相关差异的方式来预览改变。

在框810、812处,当用户先前在体积4021中时,跟踪虚拟用户71的定位和旋转以便记录用户的优选收听/观看定位(视点)。在某些情况下,用户51还可以使用用户接口指示优选定位。在框802处,优选的视点被用于定位所选择的声音对象12,使得它们在框806处被渲染,就像虚拟用户71处于优选的视点一样,尽管其在大厅400中。

图15a示出了被配置为执行上述方法的装置620的示例。装置620包括控制器610,控制器610被配置为控制上述方法。

控制器610的实现可以作为控制器电路系统。控制器610可以仅以硬件来实现,可以在仅包括固件的软件中具有某些方面,或者可以是硬件和软件(包括固件)的组合。

如图15a所示,控制器610可以使用启用硬件功能的指令来实现,例如,通过使用通用或专用处理器602中的计算机程序606的可执行指令,该可执行指令可以存储在计算机可读存储介质(磁盘、存储器等)上以由这样的处理器602执行。

处理器602被配置为从存储器604读取和向存储器604写入。处理器602还可以包括:输出接口,处理器602经由其输出数据和/或命令;以及输入接口,数据和/或命令经由其被输入到处理器602。

存储器604存储计算机程序606,该计算机程序606包括计算机程序指令(计算机程序代码),该计算机程序指令在被加载到处理器602中时控制装置620的操作。计算机程序606的计算机程序指令提供使得该装置能够执行图7和8中所示的方法的逻辑和例程。处理器602通过读取存储器604能够加载并且执行计算机程序606。

因此,装置620包括:

至少一个处理器602;以及

至少一个存储器604,其包括计算机程序代码

至少一个存储器604和计算机程序代码被配置为与至少一个处理器602一起使装置620至少执行:

引起取决于用户51的定位52、53对空间音频内容的选择;

引起所选择的空间音频内容的渲染以用于由用户51消费,所选择的空间音频内容包括第一空间音频内容;

在第一空间音频内容的用户消费之后,引起与第一空间音频内容有关的数据的记录;

在稍后时间,使用所记录的数据来检测与第一空间音频内容有关的新事件;以及

针对用户51提供用以启用第一空间音频内容的渲染以用于由用户51消费的用户可选择选项。

如图15b所示,计算机程序606可以经由任何合适的传递机构630到达装置620。传递机构630可以是例如非瞬态计算机可读存储介质、计算机程序产品、存储器设备、记录介质(诸如光盘只读存储器(cd-rom)或数字多功能光盘(dvd))、有形地实施计算机程序606的制品。传递机构可以是被配置为可靠地传送计算机程序606的信号。装置620可以将计算机程序606作为计算机数据信号传播或传输。

尽管存储器604被示出为单个组件/电路系统,但是其可以被实现为一个或多个分开的组件/电路系统,其中的一些或全部可以被集成/可移动和/或可以提供永久/半永久/动态/高速缓存的存储。

尽管处理器602被示出为单个组件/电路系统,但是其可以被实现为一个或多个分开的组件/电路系统,其中的一些或全部可以被集成/可移动。处理器602可以是单核或多核处理器。

对“计算机可读存储介质”、“计算机程序产品”、“有形地实施的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应当被理解为不仅包括具有不同架构的计算机,诸如单/多处理器架构和顺序(冯·诺依曼)/并行架构,而且还包括专用电路,诸如现场可编程门阵列(fpga)、专用电路(asic)、信号处理设备和其他处理电路系统。对计算机程序、指令、代码等的引用应当被理解为涵盖用于可编程处理器或固件的软件,诸如例如硬件设备的可编程内容,而无论是用于处理器的指令,还是用于固定功能设备、门阵列或可编程逻辑器件等的配置设置。

如本申请中使用的,术语“电路系统”是指以下的所有各项:

(a)仅硬件电路实现(诸如仅在模拟和/或数字电路系统中的实现)和

(b)电路和软件(和/或固件)的组合,诸如(如果适用):(i)(多个)处理器的组合,或(ii)(多个)处理器/软件(包括(多个)数字信号处理器)、软件和(多个)存储器的部分,这些部分共同工作以使装置(诸如手机或服务器)执行各种功能,以及

(c)需要软件或固件才能操作的电路,诸如(多个)微处理器或(多个)微处理器的一部分,即使该软件或固件实际上并不存在。

“电路系统”的该定义适用于本申请中该术语的所有使用,包括在任何权利要求中。作为另一示例,如在本申请中使用的,术语“电路系统”还将覆盖仅处理器(或多个处理器)或处理器的一部分及其(或它们的)随附软件和/或固件的实现。术语“电路系统”还将覆盖(例如,如果适用于特定权利要求元素)用于移动电话的基带集成电路或应用处理器集成电路,或者服务器、蜂窝网络设备或其他网络设备中的类似集成电路。

图7和8中所示的框可以表示方法中的步骤和/或计算机程序606中的代码部分。对框的特定顺序的图示并不一定意味着对框具有要求的或优选的顺序,并且框的顺序和布置可以改变。此外,可以省略一些框。

在已经描述了结构特征的情况下,可以用用于执行结构特征的一个或多个功能的部件来代替该结构特征,无论该功能或这些功能是显式还是隐式地描述的。

本文档中使用的术语“包括”具有包括性而非排他性含义。也就是说,对包括y的x的任何引用都表示x可以仅包括一个y或者可以包括一个以上的y。如果旨在使用具有排他性含义的“包括”,则在上下文中通过提及“仅包括一个……”或使用“由……组成”来使其清楚。

在该简要描述中,已经参考了各种示例。关于示例的特征或功能的描述指示这些特征或功能存在于该示例中。不管是否明确声明,在本文中使用术语“示例”或“例如”或“可以”表示至少在所描述的示例中存在这样的特征或功能,而无论是否被描述为示例,并且它们可以但不一定存在于某些或所有其他示例中。因此,“示例”、“例如”或“可以”是指一类示例中的特定实例。实例的属性可以是仅该实例的属性,也可以是该类的属性,或者是包括该类中的一些而非全部实例的该类的子类的属性。因此,隐式地公开了参考一个示例而不是参考另一示例描述的特征在可能的情况下可以在该另一示例中使用,但不一定必须在该另一示例中使用。

尽管在前面的段落中已经参考各种示例描述了本发明的实施例,但是应当理解,可以在不脱离所要求保护的本发明的范围的情况下对给出的示例进行修改。

除了以上明确描述的组合之外,在先前的描述中描述的特征可以用于除了显式地描述的组合之外的组合。

尽管已经参考某些特征描述了功能,但是无论是否描述,这些功能都可以由其他特征来执行。

尽管已经参考某些实施例描述了特征,但是无论是否描述,这些特征也可以存在于其他实施例中。

尽管尽力在前述说明书中引起对被认为特别重要的本发明的特征的注意,但是应当理解,无论是否已将重点放在其上,本申请人要求保护关于上文中描述和/或附图中示出的任何可专利的特征或特征的组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1