预测性的头部跟踪的双耳音频渲染的制作方法

文档序号:20842557发布日期:2020-05-22 17:42阅读:286来源:国知局
预测性的头部跟踪的双耳音频渲染的制作方法



背景技术:

虚拟现实(vr)允许用户体验和/或与沉浸式人工环境进行交互,使得用户感觉他们好像身处于该环境中。例如,虚拟现实系统可向用户显示立体场景以产生深度错觉,并且计算机可实时调整场景内容以提供用户在场景内移动的错觉。当用户通过虚拟现实系统观看图像时,用户可因此感觉他们好像正从第一人称视角在场景内移动。类似地,混合现实(mr)将计算机生成的信息(称为虚拟内容)与真实世界图像或真实世界视图组合,以增强用户的世界视图或向用户的世界视图添加内容,或者另选地将真实世界对象的虚拟表示与三维(3d)虚拟世界的视图组合。因此,虚拟现实的模拟环境和/或混合现实的混合环境可用于为多种应用提供交互式用户体验。



技术实现要素:

本文描述了用于预测性的头部跟踪的双耳音频渲染的方法和装置的各种实施方案。本文描述了音频渲染系统和音频渲染方法的实施方案,其可例如由移动多用途设备诸如智能电话、平板设备和平板电脑设备实施,所述移动多用途设备渲染并经由无线技术(例如,蓝牙)传输头部跟踪的双耳音频给用户所穿戴的双耳音频设备(例如,耳机、耳塞等)。实施方案也可在包括计算设备(称为基站)的vr/ar系统中实施,所述计算设备渲染并经由无线技术将头部跟踪的双耳音频传输给提供双耳音频输出的头戴式显示器(hmd)或提供给与hmd一起使用的单独的双耳音频设备。用户所穿戴的提供双耳音频输出的设备(例如,hmd、耳机、耳塞等)在本文中可称为“头戴式耳机”。渲染并传输音频给头戴式耳机的设备在本文中可被称为“渲染设备”。头戴式耳机可包括头部跟踪技术(例如,imu(惯性测量单元)、陀螺仪、姿态传感器、罗盘等)。

头部跟踪的双耳音频渲染是可用于包括但不限于vr/ar应用的应用中来创建虚拟音频源的技术,该虚拟音频源在环境中看起来是稳定的,而与收听者的实际取向/位置无关。头部跟踪的双耳音频渲染方法可将双耳音频流(包括左音频声道和右音频声道)输出给头戴式耳机,使得收听者以空间音频感听到声音。换句话说,收听者听到的声音就好像声音是以精确的距离和方向来自真实世界位置一样。

在对头部运动进行响应时,所感知到的延迟可能在头部跟踪、渲染和回放音频方面是一个问题。当头部跟踪数据和音频在渲染设备和头戴式耳机之间通过无线链路传输时,延迟可能是个特别的问题,可能会增加300ms或更长的延迟。在实施方案中,为了缓解所感知到的延迟的问题,渲染设备不是基于预测的头部位置生成单个音频流,而是基于头部跟踪数据渲染用于多个不同头部位置的多个音频流,例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且在多个音频流中将用于这些不同位置的音频传输给头戴式耳机。标识不同流的位置的元数据可以与音频流包括在一起。然后头戴式耳机基于当前头部跟踪数据和所述元数据来选择所述音频流中最靠近实际头部位置的一个音频流。选择音频流是一种相对简单且低成本的操作,因此在头戴式耳机上只需要最小的处理能力。在一些实施方案中,如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则头戴式耳机可选择两个最靠近的音频流并混合所述音频流。向头戴式耳机发送多个音频流以及在头戴式耳机上选择(或混合)匹配音频流可缓解或消除感知到的头部跟踪延迟。

在一些实施方案中,如果存在单个虚拟音频源,则渲染设备可基于由头戴式耳机接收的头部跟踪数据所指示的头部位置来渲染单个音频流。在头戴式耳机处,头戴式耳机可基于由当前头部跟踪数据确定的用户的头部的实际位置来改变左音频声道和/或右音频声道以调节虚拟音频源的感知位置,例如通过向左音频声道或右音频声道添加延迟。

在一些实施方案中,当多个音频流被渲染和被传输时,渲染设备可使用多声道音频压缩技术,该技术利用音频信号的相似性来压缩音频信号并因此减少无线带宽使用。

虽然参考通过无线技术连接到用户所穿戴的头戴式耳机或hmd的移动多用途设备或基站来描述实施方案,但实施方案也可在其他系统中实施,例如在家用娱乐系统中实施,家用娱乐系统渲染并经由无线技术将双耳音频传输给用户所穿戴的头戴式耳机。另外,实施方案也可在使用有线技术而不是无线技术来将双耳音频传输给头戴式耳机的系统中实现。更一般地,实施方案可在任何包括双耳音频输出并且提供头部运动和取向跟踪的系统中实施。

附图说明

图1a和图1b例示了可实施本文所述音频渲染方法的实施方案的示例性移动多用途设备的实施方案。

图2a和图2b例示了可实施本文所述音频渲染方法的实施方案的示例性vr/ar系统的实施方案。

图2c例示了与vr/ar系统一起使用以实施本文所述音频渲染方法的实施方案的移动多用途设备。

图3例示了根据一些实施方案的音频渲染系统的部件。

图4为根据一些实施方案的可由图1a至图3所示系统实施的音频渲染方法的流程图。

图5是可由图1a至图3所示系统实施的其中音频流可被混合的音频渲染方法的流程图。

图6a和图6b例示了通过双耳音频设备的传统音频输出。

图6c和图6d例示了根据一些实施方案的预测性的头部跟踪的双耳音频渲染。

图7a和图7b例示了根据一些实施方案的为不同的可能头部位置渲染的多个音频流。

图8例示了根据一些实施方案的在多个维度中提供声音的方向性。

本说明书包括参考“一个实施方案”或“实施方案”。出现短语“在一个实施方案中”或“在实施方案中”并不一定是指同一个实施方案。特定特征、结构或特性可以与本公开一致的任何合适的方式被组合。

“包括”,该术语是开放式的。如在权利要求书中所使用的,该术语不排除附加结构或步骤。考虑以下引用的权利要求:“一种包括一个或多个处理器单元...的装置”此类权利要求不排除该装置包括附加部件(例如,网络接口单元、图形电路等)。

“被配置为”,各种单元、电路或其他部件可被描述为或叙述为“被配置为”执行一项或多项任务。在此类上下文中,“被配置为”用于通过指示单元/电路/部件包括在操作期间执行这一项或多项任务的结构(例如,电路)来暗指该结构。如此,单元/电路/部件据称可被配置为即使在指定的单元/电路/部件当前不可操作(例如,未接通)时也执行该任务。与“被配置为”语言一起使用的单元/电路/部件包括硬件——例如电路、存储可执行以实现操作的程序指令的存储器等。引用单元/电路/部件“被配置为”执行一项或多项任务明确地旨在针对该单元/电路/部件不援引35u.s.c.§112的第六段。此外,“被配置为”可包括由软件或固件(例如,fpga或执行软件的通用处理器)操纵的通用结构(例如,通用电路)以能够执行待解决的一项或多项任务的方式操作。“被配置为”还可包括调整制造过程(例如,半导体制作设施),以制造适用于实现或执行一项或多项任务的设备(例如,集成电路)。

“第一”“第二”等。如本文所用,这些术语充当它们所在之前的名词的标签,并且不暗指任何类型的排序(例如,空间的、时间的、逻辑的等)。例如,缓冲电路在本文中可被描述为执行“第一”值和“第二”值的写入操作。术语“第一”和“第二”未必暗指第一值必须在第二值之前被写入。

“基于”或“取决于”,如本文所用,这些术语用于描述影响确定的一个或多个因素。这些术语不排除可影响确定的附加因素。即,确定可仅基于这些因素或至少部分地基于这些因素。考虑短语“基于b来确定a”。在这种情况下,b为影响a的确定的因素,此类短语不排除a的确定也可基于c。在其他实例中,可仅基于b来确定a。

“或”,在权利要求书中使用时,术语“或”被用作包含性的或,而不是排他性的或。例如,短语“x、y或z中的至少一个”表示x、y和z中的任何一个以及它们的任何组合。

具体实施方式

本文描述了用于预测性的头部跟踪的双耳音频渲染的方法和装置的各种实施方案。本文描述了音频渲染系统和音频渲染方法的实施方案,其可例如由移动多用途设备诸如智能电话、平板设备和平板电脑设备实施,所述移动多用途设备渲染并经由无线技术(例如,蓝牙)传输头部跟踪的双耳音频给用户所穿戴的双耳音频设备(例如,耳机、耳塞等)。实施方案也可在包括计算设备(称为基站)的vr/ar系统中实施,所述计算设备渲染并经由无线技术将头部跟踪的双耳音频传输给提供双耳音频输出的头戴式显示器(hmd)或提供给与hmd一起使用的单独的双耳音频设备。用户所穿戴的提供双耳音频输出的设备(例如,hmd、耳机、耳塞等)在本文中可称为“头戴式耳机”。渲染并传输音频给头戴式耳机的设备在本文中可被称为“渲染设备”。头戴式耳机可包括头部跟踪技术(例如,imu(惯性测量单元)、陀螺仪、姿态传感器、罗盘等)。

头部跟踪的双耳音频渲染是可用于包括但不限于vr/ar应用的应用中来创建虚拟音频源的技术,该虚拟音频源在环境中看起来是稳定的,而与收听者的实际取向/位置无关。头部跟踪的双耳音频渲染方法可渲染并输出双耳音频流(包括左音频声道和右音频声道)给头戴式耳机,使得收听者以空间音频感听到声音。换句话说,收听者听到的声音就好像声音是以精确的距离和方向来自真实世界位置一样。例如,系统可通过头戴式耳机播放声音,使得收听者听到来自在其左方、其右方、正前方、后方或某一角度的虚拟源的声音。左音频声道和右音频声道的各方面(例如,等级、频率、延迟、混响等)可被衰减以影响声音的所感知方向性和距离。

头戴式耳机包括穿戴在用户的左耳中或上的左音频输出部件、以及穿戴在用户的右耳中或上的右音频输出部件。用户所感知的声音的方向性可例如通过渲染双耳音频流的左音频声道和右音频声道以提高由音频输出部件中一者所输出的声音的等级和/或降低由另一音频输出部件所输出的声音的等级来提供。如果这两个部件处于同一等级,则声音可能像是来自用户的前方。如果等级在右部件中接近零并且在左部件中更高,则声音可能像是来自用户的左方。如果等级在左部件中接近零并且在右部件中更高,则声音可能像是来自用户的右方。如果等级在左部件中较高而在右部件中较低,则声音可能像是来自用户左前方的位置。如果等级在右部件中较高而在左部件中较低,则声音可能像是来自用户右前方的位置。此外,由一个或这两个部件输出的声音可被调制,以使得像是声音来自用户的后方。此外,调制一个或这两个部件的声级可提供距离感;在较低等级,声音可能像是来自更远的地方;在较高等级,声音可能像是来自附近。代替或除了调节声音之外,左音频声道和右音频声道的其他方面可被衰减以影响音频的所感知的方向性和距离,包括但不限于频率、延迟和混响。

与常规音频不同,在头部跟踪的双耳音频中,声音的虚拟源不随收听者的头部移动。这可通过跟踪收听者头部的运动、以及在收听者移动其头部时调节双耳音频流的渲染来实现。然而,在对头部运动进行响应时,所感知到的延迟可能在头部跟踪、渲染和回放音频方面是一个问题。例如,在所渲染的音频通过头戴式耳机播放时,用户的头部可能已移动。虚拟音频源可最初与头部一起移动,然后在移动停止时恢复到其正确的虚拟位置。当头部跟踪数据和音频在渲染设备和头戴式耳机之间通过无线链路传输时,延迟可能特别有问题,可能会增加300ms或更长的延迟。在头戴式耳机上执行渲染和回放两者减少延迟,并因此可减轻延迟问题。然而,双耳音频渲染是计算密集型的,从而需要昂贵的硬件(例如,处理器)和电源。使用单独的渲染设备诸如基站或移动多用途设备来执行音频渲染允许更轻的以及更廉价的头戴式耳机,因为重载荷渲染由该渲染设备执行。渲染设备可基于头部跟踪数据来预测未来的头部取向/位置,并且基于所述预测来渲染音频流。然而,这可能导致虚拟音频源在头部运动改变(即,开始、结束、加速)时偏离目标,从而导致实际头部位置与所述预测不同。

在实施方案中,为了缓解所感知到的延迟的问题,渲染设备不是基于已知或预测的头部位置来生成单个音频流,而是基于头部跟踪数据渲染用于多个不同头部位置的多个音频流,例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且在多个音频流中将用于这些不同位置的音频传输给头戴式耳机。标识不同流的位置的元数据可以与音频流包括在一起。然后头戴式耳机基于当前头部跟踪数据和所述元数据来选择所述音频流中最靠近实际头部位置的一个音频流。选择音频流是一种相对简单且低成本的操作,因此在头戴式耳机上只需要最小的处理能力。在一些实施方案中,如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则头戴式耳机可选择两个最靠近的音频流并混合所述音频流。在一些实施方案中,头戴式耳机可选择并混合两个以上音频流。向头戴式耳机发送多个音频流以及在头戴式耳机上选择(或混合)匹配音频流可缓解或消除感知到的头部跟踪延迟。

作为一个非限制性实例,如果渲染设备对从头戴式耳机接收的头部跟踪数据的分析指示用户的头部当前是静止的,则渲染设备可渲染并传输用于已知位置、用于已知位置向左5度的位置、和用于已知位置向右5度的位置的音频流,以防用户在获得头部跟踪信息到渲染设备、渲染音频、以及将所渲染的音频传输到头戴式耳机所花费的时间期间转动其头部。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。

又如,如果渲染设备对从头戴式耳机接收的头部跟踪数据的分析指示用户的头部以已知角速率转动,则渲染设备可渲染和传输在当前已知位置(假使头部移动停止)、在由已知角速率预测的位置处以及在以已知角速率的两倍预测的位置处的音频流。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。

在一些实施方案中,如果存在单个虚拟音频源,则渲染设备可基于由从头戴式耳机接收的头部跟踪数据所指示的头部位置来渲染单个音频流。在头戴式耳机处,头戴式耳机可基于由当前头部跟踪数据确定的用户的头部的实际位置来改变左音频声道和/或右音频声道以调节虚拟音频源的感知位置,例如通过向左音频声道或右音频声道添加延迟。

在一些实施方案中,当多个音频流被渲染和被传输时,渲染设备可使用多声道音频压缩技术,该技术利用音频信号的相似性来压缩音频信号并因此减少无线带宽使用。

虽然一般性地描述实施方案,其中渲染设备渲染多个音频流并且头戴式耳机选择一个或多个音频流来在一个维度(即,水平维度)中提供声音的方向性,但实施方案可用于在多个维度中提供声音的方向性,例如提供在方位角、仰角处的声音以及指示平移运动的声音。例如,基站可渲染水平维度中多个位置处的音频流,并且还渲染高于和/或低于水平维度的音频流。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置和高度(或倾斜)的音频流,或者另选地,如果头部的实际位置在所述音频流之间某个地方,则混合所述流中的两个流或更多个流。

虽然参考通过无线技术连接到用户所穿戴的头戴式耳机或hmd的移动多用途设备或基站来描述实施方案,但实施方案也可在其他系统中实施,例如在家用娱乐系统中实施,家用娱乐系统渲染并经由无线技术将双耳音频传输给用户所穿戴的头戴式耳机。另外,实施方案也可在使用有线技术而不是无线技术的系统中实施,将双耳音频传输给头戴式耳机。更一般地,实施方案可在任何包括双耳音频输出并且提供头部运动和取向跟踪的系统中实施。

图1a和图1b例示了可实施本文所述空间音频导航系统和方法的实施方案的示例性移动多用途设备的实施方案。如图1a所示,移动设备100诸如智能电话、平板电脑或平板设备可由用户190例如在手中或口袋中携带。用户108可穿戴被称为头戴式耳机108的双耳音频设备(例如,耳机、头戴式耳机、有线或无线耳塞等)。头戴式耳机108可包括右音频110a和左音频110b输出部件(例如耳塞)以及用于检测和跟踪用户190的头部相对于真实世界的运动和取向的一个或多个运动传感器106。运动传感器可包括但不限于imu(惯性测量单元)、陀螺仪、姿态传感器、罗盘等中的一者或多者。

头戴式耳机108可经由有线或无线连接向设备100传送头部取向和运动信息(头部跟踪数据111)。移动设备100可基于头部跟踪数据111渲染用于多个不同头部位置的多个音频流112(每个流包括右音频声道和左音频声道),例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流112传输给头戴式耳机108。元数据可以与音频流112包括在一起,以标识不同流的位置。然后头戴式耳机108的处理器106可基于当前头部跟踪数据和元数据来选择音频流112中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流112中没有任何一个音频流与实际头部位置紧密匹配,则头戴式耳机108的处理器106可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给头戴式耳机108的右音频110a和左音频110b输出部件。

图3为根据一些实施方案的进一步例示如图1所示系统的部件的框图。移动多用途设备100诸如智能电话、平板电脑或平板设备可包括但不限于一个或多个处理器104、存储器130、一个或多个传感器120、和支持触摸的显示器102。

设备100可包括支持触摸的显示器102,经由显示器102可将内容显示给用户,并且用户经由显示器102可向设备100输入信息和命令。显示器102可实施各种类型的支持触摸的显示技术中的任一者。

设备100还可包括实施移动多用途设备的功能的一个或多个处理器104。设备100还可包括存储器130,该存储器存储能够由处理器104执行的软件(代码132)以及当在处理器104上执行时可由代码132使用的数据134。代码132和数据134可例如包括用于执行设备100的操作系统的代码和数据、以及用于在设备100上实施各种应用的代码和数据。代码132还可包括但不限于能够由控制器104执行的用于实施本文所述预测性的头部跟踪的双耳音频渲染方法的程序指令。数据134还可包括但不限于真实世界标测图信息、音频文件、或可由本文所述预测性的头部跟踪的双耳音频渲染方法使用的其他数据。

在各种实施方案中,处理器104可为包括一个处理器的单处理器系统、或包括若干个处理器(例如,两个、四个、八个或另一合适数量)的多处理器系统。处理器104可包括被配置为实现任何合适的指令集架构的中央处理单元(cpu),并且可被配置为执行在该指令集架构中定义的指令。例如,在各种实施方案中,处理器104可包括实现多种指令集架构(isa)(诸如x86、powerpc、sparc、risc或mipsisa、或任何其他合适的isa)中的任何指令集架构的通用处理器或嵌入式处理器。在多处理器系统中,每个处理器可共同实现相同的isa,但不是必需的。处理器104可采用任何微架构,包括标量、超标量、流水线、超流水线、乱序、有序、推测性、非推测性等,或它们的组合。处理器104可以包括实现微码技术的电路。处理器104可以包括各自被配置为执行指令的一个或多个处理核心。处理器104可以包括一个或多个级别的高速缓存,该高速缓存可以采用任何大小和任何配置(集合关联、直接映射等)。在一些实施方案中,处理器104可包括至少一个音频处理单元(apu),该至少一个音频处理单元(apu)可包括任何合适的音频处理电路。在一些实施方案中,处理器104可包括至少一个图形处理单元(gpu),该至少一个图形处理单元(gpu)可包括任何合适的图形处理电路。通常,gpu可被配置为将待显示对象渲染到帧缓冲区中(例如,包括整个帧的像素数据的帧缓冲区)。gpu可包括一个或多个图形处理器,该图形处理器可执行图形软件以进行部分或全部的图形操作或某些图形操作的硬件加速。在一些实施方案中,处理器104可包括用于处理和渲染视频和/或图像的一个或多个其他部件,例如图像信号处理器(isp)、编码器/解码器(编解码器)等。在一些实施方案中,处理器104可包括至少一个片上系统(soc)。

存储器130可包括任何类型的存储器,诸如动态随机存取存储器(dram)、同步dram(sdram)、双数据速率(ddr、ddr2、ddr3等)sdram(包括sdram的移动版本,诸如mddr3等,或sdram的低功率版本,诸如lpddr2等)、rambusdram(rdram)、静态ram(sram)等。在一些实施方案中,一个或多个存储器设备可以耦合到电路板上以形成存储器模块,诸如单列直插存储器模块(simm)、双列直插存储器模块(dimm)等。另选地,设备可以与实现系统的集成电路在芯片堆叠构造、封装堆叠构造或者多芯片模块构造中安装。

设备100可包括一个或多个位置传感器120,例如使得能够确定设备100的真实世界位置的传感器,例如gps(全球定位系统)技术传感器、dgps(差分gps)技术传感器、相机、室内定位技术传感器、slam(同时定位和标测)技术传感器等。

用户可穿戴被称为头戴式耳机108的双耳音频设备(例如,耳机、头戴式耳机、有线或无线耳塞等)。头戴式耳机108可包括右音频110a和左音频110b输出部件(例如耳塞)以及用于检测和跟踪用户190的头部相对于真实世界的运动和取向的一个或多个运动传感器106。运动传感器106可包括但不限于imu(惯性测量单元)、陀螺仪、姿态传感器、罗盘等中的一者或多者。头戴式耳机108还可包括一个或多个处理器102。在一些实施方案中,处理器102可包括至少一个音频处理单元(apu),该至少一个音频处理单元(apu)可包括任何合适的音频处理电路。

头戴式耳机108可经由有线或无线连接向设备100传送头部取向和运动信息(头部跟踪数据111)。移动设备100可基于头部跟踪数据111渲染用于多个不同头部位置的多个音频流112(每个流包括右音频声道和左音频声道),例如用于最后已知头部位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流112传输给头戴式耳机108。元数据可以与音频流112包括在一起,以标识不同流的位置。然后头戴式耳机108的处理器106可基于当前头部跟踪数据和元数据来选择音频流112中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流112中没有任何一个音频流与实际头部位置紧密匹配,则头戴式耳机108的处理器106可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给头戴式耳机108的右音频110a和左音频110b输出部件。

图2a和图2b例示了可实施本文所述预测性的头部跟踪的双耳音频渲染方法的实施方案的示例性vr/ar系统的实施方案。

图2a例示了根据至少一些实施方案的vr/ar系统。在一些实施方案中,vr/ar系统可以包括可由用户290穿戴的hmd200诸如头盔、护目镜或眼镜。vr/ar系统还可包括基站260,该基站执行vr/ar系统的至少一些功能(例如,渲染用于显示的虚拟内容和伴随音频)并且经由无线连接与hmd200通信。

hmd200可包括收集关于用户290的环境的信息(视频、深度信息、照明信息等)和关于用户290的信息(例如,用户的表情、眼睛移动、头部运动、注视方向、手势等)的传感器。可至少部分地基于从传感器获得的各种信息来渲染虚拟内容以用于显示给用户290。虚拟内容可由hmd200显示给用户290以提供虚拟现实视图(在vr应用中)或提供现实的増强视图(在mr应用中)。hmd200可实施各种类型的显示技术中的任一者。hmd200还可包括使得能够确定hmd200的真实世界位置的一个或多个位置传感器,例如gps(全球定位系统)技术传感器、dgps(差分gps)技术传感器、相机、室内定位技术传感器、slam(同时定位和标测)技术传感器等。hmd200还可包括用于检测和跟踪用户290的头部相对于真实世界的运动和取向的一个或多个运动传感器206。运动传感器206可包括但不限于imu(惯性测量单元)、陀螺仪、姿态传感器、罗盘等中的一者或多者。

hmd200可提供双耳音频输出(例如,经由右音频210a和左音频210b输出部件)。例如,右音频210a和左音频210b输出部件可为集成在hmd200中并且分别定位在用户的右耳和左耳处或上的罩耳式扬声器或受话器。又如,右音频210a和左音频210b输出部件可为通过有线或无线连接耦接到hmd200的右和左耳塞或耳机。

hmd200可经由无线连接向基站260传送头部取向和运动信息(头部跟踪数据211)。基站260可基于头部跟踪数据211渲染用于多个不同头部位置的多个音频流212(每个流包括右音频声道和左音频声道),例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流212传输给hmd200。元数据可以与音频流212包括在一起,以标识不同流的位置。hmd200上的包括一个或多个处理器的控制器204然后可基于当前头部跟踪数据和元数据来选择音频流212中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流212中没有任何一个音频流与实际头部位置紧密匹配,则控制器204可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给hmd200的右音频210a和左音频210b输出部件。

图2b为根据一些实施方案的进一步例示如图2a所示vr/ar系统的部件的框图。在一些实施方案中,vr/ar系统可包括hmd200,诸如头戴式耳机、头盔、护目镜或眼镜。vr/ar系统还可包括基站260,该基站执行vr/ar系统的至少一些功能(例如,渲染用于显示的虚拟内容和伴随音频)并且经由无线连接与hmd200通信。

hmd200可包括显示器202部件或子系统,虚拟内容可经由其被显示给用户以提供虚拟现实视图(在vr应用中)或提供现实的増强视图(在mr应用中)。显示器202可实施各种类型的显示技术中的任一者。例如,hmd200可包括近眼显示系统,该近眼显示系统在用户290的眼睛前面的屏幕上显示左图像和右图像,诸如dlp(数字光处理)、lcd(液晶显示器)和lcos(硅上液晶)技术显示系统。作为另一示例,hmd200可以包括将左图像和右图像扫描到受试者的眼睛的投影仪系统。为了扫描图像,左投影仪和右投影仪生成光束,该光束被引导到位于用户290的眼睛的前面的左显示器和右显示器(例如,椭球镜);显示器将光束反射到用户的眼睛。左显示器和右显示器可为透射显示器,其允许来自环境的光透过,使得用户看到以所投影虚拟内容增强的现实的视图。

hmd200还可包括实施vr/ar系统的hmd侧功能的包括一个或多个处理器的控制器204。hmd200还可包括存储器230,该存储器存储能够由控制器204执行的软件(代码232)以及当在控制器204上执行时可由代码232使用的数据234。代码232和数据234可例如包括用于向用户显示虚拟内容的vr和/或ar应用代码和数据。代码232和数据234还可包括但不限于用于实施本文所述预测性的头部跟踪的双耳音频渲染方法的程序指令和数据。

在各种实施方案中,控制器204可为包括一个处理器的单处理器系统、或包括若干个处理器(例如,两个、四个、八个或另一合适数量)的多处理器系统。控制器204可包括被配置为实现任何合适的指令集架构的中央处理单元(cpu),并且可被配置为执行在该指令集架构中定义的指令。例如,在各种实施方案中,控制器204可包括实现多种指令集架构(isa)(诸如x86、powerpc、sparc、risc或mipsisa、或任何其他合适的isa)中的任何指令集架构的通用处理器或嵌入式处理器。在多处理器系统中,每个处理器可共同实现相同的isa,但不是必需的。控制器204可采用任何微架构,包括标量、超标量、流水线、超流水线、乱序、有序、推测性、非推测性等,或它们的组合。控制器204可包括实现微码技术的电路。控制器204可包括各自被配置为执行指令的一个或多个处理核心。控制器204可包括一个或多个级别的高速缓存,该高速缓存可采用任何大小和任何配置(集合关联、直接映射等)。在一些实施方案中,控制器204可包括至少一个音频处理单元(apu),该至少一个音频处理单元(apu)可包括任何合适的音频处理电路。在一些实施方案中,控制器204可包括至少一个图形处理单元(gpu),该至少一个图形处理单元(gpu)可包括任何合适的图形处理电路。通常,gpu可被配置为将待显示对象渲染到帧缓冲区中(例如,包括整个帧的像素数据的帧缓冲区)。gpu可包括一个或多个图形处理器,该图形处理器可执行图形软件以进行部分或全部的图形操作或某些图形操作的硬件加速。在一些实施方案中,控制器204可包括用于处理和/或渲染视频和/或图像的一个或多个其他部件,例如图像信号处理器(isp)、编码器/解码器(编解码器)等。在一些实施方案中,控制器204可包括至少一个片上系统(soc)。

存储器230可包括任何类型的存储器,诸如动态随机存取存储器(dram)、同步dram(sdram)、双数据速率(ddr、ddr2、ddr3等)sdram(包括sdram的移动版本,诸如mddr3等,或sdram的低功率版本,诸如lpddr2等)、rambusdram(rdram)、静态ram(sram)等。在一些实施方案中,一个或多个存储器设备可以耦合到电路板上以形成存储器模块,诸如单列直插存储器模块(simm)、双列直插存储器模块(dimm)等。另选地,设备可以与实现系统的集成电路在芯片堆叠构造、封装堆叠构造或者多芯片模块构造中安装。

在一些实施方案中,hmd200可包括收集关于用户的环境的信息(视频、深度信息、照明信息等)和关于用户的信息(例如,用户的表情、眼睛移动、手势等)的传感器。传感器可向hmd200的控制器204提供所收集的信息。传感器可包括但不限于可见光相机(例如,摄像机)、红外(ir)相机、具有ir照明源的ir相机、光探测和测距(lidar)发射器和接收器/检测器、以及具有激光发射器和接收器/检测器的基于激光的传感器中的一者或多者。传感器数据中的至少一些可被传输给基站260。

hmd200可包括至少一个运动传感器206,诸如惯性测量单元(imu),用于检测hmd200的位置、取向和运动,并且因此检测用户的头部相对于真实世界的位置、取向和运动。代替imu或除了imu之外,运动传感器206可包括陀螺仪、姿态传感器、罗盘、或其他用于检测hmd200的位置、取向和运动并且从而检测用户的头部相对于真实世界的位置、取向和运动的传感器技术。

hmd200可包括使得能够确定hmd200的真实世界位置的一个或多个位置传感器,例如gps(全球定位系统)技术传感器、dgps(差分gps)技术传感器、相机、室内定位技术传感器、slam(同时定位和标测)技术传感器等。

hmd200可提供双耳音频输出(例如,经由右音频210a和左音频210b输出部件)。例如,右音频210a和左音频210b可为集成在hmd200中并且分别定位在用户的右耳和左耳处或上的罩耳式扬声器或受话器。又如,右音频210a和左音频210b可为通过有线或无线连接耦接到hmd200的右和左耳塞或耳机。hmd可经由有线或无线连接将右音频声道212a和左音频声道212b传输给右音频210a和左音频210b输出部件。

基站260可包括实施vr/ar系统的基站侧功能的一个或多个处理器264。基站260还可包括存储器270,该存储器存储能够由处理器264执行的软件(代码272)以及当在处理器264上执行时可由代码272使用的数据274。代码272和数据274可例如包括用于渲染要显示给用户的虚拟内容的vr和/或ar应用代码和数据。代码272和数据274还可包括但不限于用于实施本文所述预测性的头部跟踪的双耳音频渲染方法的程序指令和数据。

在各种实施方案中,处理器264可为包括一个处理器的单处理器系统、或包括若干个处理器(例如,两个、四个、八个或另一合适数量)的多处理器系统。处理器264可包括被配置为实现任何合适的指令集架构的中央处理单元(cpu),并且可被配置为执行在该指令集架构中定义的指令。例如,在各种实施方案中,处理器264可包括实现多种指令集架构(isa)(诸如x86、powerpc、sparc、risc或mipsisa、或任何其他合适的isa)中的任何指令集架构的通用处理器或嵌入式处理器。在多处理器系统中,每个处理器可共同实现相同的isa,但不是必需的。处理器264可采用任何微架构,包括标量、超标量、流水线、超流水线、乱序、有序、推测性、非推测性等,或它们的组合。处理器264可以包括实现微码技术的电路。处理器264可以包括各自被配置为执行指令的一个或多个处理核心。处理器264可以包括一个或多个级别的高速缓存,该高速缓存可以采用任何大小和任何配置(集合关联、直接映射等)。在一些实施方案中,处理器264可包括至少一个音频处理单元(apu),该至少一个音频处理单元(apu)可包括任何合适的音频处理电路。在一些实施方案中,处理器264可包括至少一个图形处理单元(gpu),该至少一个图形处理单元(gpu)可包括任何合适的图形处理电路。通常,gpu可被配置为将待显示对象渲染到帧缓冲区中(例如,包括整个帧的像素数据的帧缓冲区)。gpu可包括一个或多个图形处理器,该图形处理器可执行图形软件以进行部分或全部的图形操作或某些图形操作的硬件加速。在一些实施方案中,处理器264可包括用于处理和/或渲染视频和/或图像的一个或多个其他部件,例如图像信号处理器(isp)、编码器/解码器(编解码器)等。在一些实施方案中,处理器264可包括至少一个片上系统(soc)。

存储器270可包括任何类型的存储器,诸如动态随机存取存储器(dram)、同步dram(sdram)、双数据速率(ddr、ddr2、ddr3等)sdram(包括sdram的移动版本,诸如mddr3等,或sdram的低功率版本,诸如lpddr2等)、rambusdram(rdram)、静态ram(sram)等。在一些实施方案中,一个或多个存储器设备可以耦合到电路板上以形成存储器模块,诸如单列直插存储器模块(simm)、双列直插存储器模块(dimm)等。另选地,设备可以与实现系统的集成电路在芯片堆叠构造、封装堆叠构造或者多芯片模块构造中安装。

hmd200可经由无线连接向基站260传送头部取向和运动信息(头部跟踪数据211)。基站260可基于头部跟踪数据211渲染用于多个不同头部位置的多个音频流212(每个流包括右音频声道和左音频声道),例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流212传输给hmd200。元数据可以与音频流212包括在一起,以标识不同流的位置。控制器204然后可基于当前头部跟踪数据和元数据来选择音频流212中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流212中没有任何一个音频流与实际头部位置紧密匹配,则控制器204可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给hmd200的右音频210a和左音频210b输出部件。

图2c例示了与vr/ar系统一起使用以实施本文所述音频渲染方法的实施方案的移动多用途设备。在一些实施方案中,图1和图1b所示的移动多用途设备100可与图2a和图2b所示的hmd一起使用。hmd200可经由无线连接向设备100传送由运动传感器206收集的头部取向和运动信息(头部跟踪数据)。设备100可基于头部跟踪数据渲染用于多个不同头部位置的多个音频流(每个流包括右音频声道和左音频声道),例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流传输给hmd200。元数据可以与音频流包括在一起,以标识不同流的位置。hmd200的控制器204然后可基于当前头部跟踪数据和元数据来选择音频流中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则控制器204可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给hmd200的右音频210a和左音频210b输出部件。

图3例示了根据一些实施方案的音频渲染系统的部件。音频渲染系统可由图1a和图1b所示的移动多用途设备100和头戴式耳机108、由图2a和图2b所示的hmd200和基站260、或由图2c所示的移动多用途设备100和hmd200来实现。更一般地,实施方案可在任何渲染双耳音频输出并且提供头部运动和取向跟踪的设备或系统中实施。

在音频渲染系统的实施方案中,头戴式耳机300的头部跟踪部件306可收集头部跟踪数据。头部跟踪数据可经由无线连接传输给渲染设备360。在渲染设备360处,头部跟踪分析部件362可分析头部跟踪数据以确定用户的头部的位置和运动,并且基于当前位置和运动角速率来生成两个或更多个预测位置364,例如当前头部位置和一个或多个可能位置。渲染设备360的音频渲染部件366然后可渲染与预测位置364对应的多个音频流。

所述多个音频流通过无线连接被传输给头戴式耳机300。元数据可以与音频流包括在一起,以标识不同流的位置。在一些实施方案中,渲染设备360可使用多声道音频压缩技术,该技术利用音频信号的相似性来压缩音频信号并因此减少无线带宽使用。

在头戴式耳机300处,流选择和混合部件304然后可基于来自头部跟踪部件306的当前头部跟踪数据和所述元数据来选择音频流中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则流选择和混合部件304可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给头戴式耳机300的右音频310a和左音频310b输出部件。右音频声道和左音频声道被渲染,使得用户以空间音频感听到声音。换句话说,用户听到的声音就好像声音是以精确的距离和方向来自真实世界位置一样。例如,系统可通过头戴式耳机播放声音,使得用户听到来自其左方、其右方、正前方、后方或某一角度的声音。当用户移动其头部时,本文所述的预测性头部跟踪双耳音频渲染方法使得虚拟声音源在环境中保持稳定,而与用户的头部的取向/位置无关,并且没有常规系统中的感知到延迟问题。

作为一个非限制性实例,如果渲染设备360对从头戴式耳机300接收的头部跟踪数据的分析指示用户的头部当前是静止的,则渲染设备360可渲染并传输用于已知位置、用于已知位置向左5度的位置、和用于已知位置向右5度的位置的音频流,以防用户在获得头部跟踪信息到渲染设备360、渲染音频、以及将所渲染的音频传输到头戴式耳机300所花费的时间期间转动其头部。在头戴式耳机300处,头戴式耳机300基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。

又如,如果渲染设备360对从头戴式耳机300接收的头部跟踪数据的分析指示用户的头部以已知角速率转动,则渲染设备360可渲染和传输在当前已知位置(假使头部移动停止)处、在由已知角速率预测的位置处以及在以已知角速率的两倍预测的位置处的音频流。在头戴式耳机300处,头戴式耳机300基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。

图4为根据一些实施方案的可由图1a至图3所示系统实施的音频渲染方法的高级流程图。如在400处所示,头戴式耳机跟踪用户的头部的运动并且经由无线连接将头部跟踪数据传输给渲染设备。如在410处所示,渲染设备分析头部跟踪数据以预测用户的头部的多个潜在位置。如在420处所示,渲染设备渲染与用户的头部的多个潜在位置对应的音频流,并且经由无线连接将音频流与元数据一起传输给头戴式耳机。如在430处所示,头戴式耳机选择并播放所述多个音频流中与用户的头部的实际当前位置最匹配的一者。

如图4中的虚线所示,该方法可以是连续过程,其中头戴式耳机连续地收集并发送头部跟踪数据给渲染设备,渲染设备周期性地或非周期性地分析头部跟踪数据以渲染和发送音频流给头戴式耳机,并且头戴式耳机在从渲染设备接收的音频流中选择最佳匹配的音频流来播放。

图5是可由图1a至图3所示系统实施的其中音频流可被混合的音频渲染方法的高级流程图。如在500处所示,头戴式耳机跟踪用户的头部的运动并且经由无线连接将头部跟踪数据传输给渲染设备。如在510处所示,渲染设备分析头部跟踪数据以预测用户的头部的多个潜在位置。如在520处所示,渲染设备渲染与用户的头部的多个潜在位置的音频流,并且经由无线连接将音频流与元数据一起传输给头戴式耳机。如在530处所示,头戴式耳机检查元数据以定位与用户的头部的实际当前位置匹配的音频流。在540处,如果找到与用户的头部的实际当前位置紧密匹配的音频流,则选择该音频流,如在540处所示。否则,选择并混合两个最靠近的音频流以生成大致在用户的头部的实际当前位置处的音频流,如在560处所示。然后如570处所示,播放所选择或混合的音频流。

如图5中的虚线所示,该方法可以是连续过程,其中头戴式耳机连续地收集并发送头部跟踪数据给渲染设备,渲染设备周期性地或非周期性地分析头部跟踪数据以渲染和发送音频流给头戴式耳机,并且头戴式耳机在从渲染设备接收的音频流中选择最佳匹配的音频流或混合音频流用于播放。

图6a和图6b例示了通过双耳音频设备(右610a和左610b音频设备诸如耳塞或耳机)的常规音频输出。图6a示出了声音可能像是来自用户周围,或者另选地来自用户的右侧和左侧。如图6b所示,当用户转动其头部时,在常规系统中,声音相对于用户的头部保持在相同的相对位置。

图6c和图6d例示了根据一些实施方案的预测性的头部跟踪的双耳音频渲染。如图6c所示,用户正直视前方,并且一个声音在用户看来是在某个距离来自用户的正前方,而另一声音在用户看来是来自用户的右方。在图6d中,用户已将其头部向左转动,但不是如图6b所示与用户的头部一起旋转,声音的方向在环境中保持不变。

图7a和图7b例示了根据一些实施方案的为不同的可能头部位置渲染的多个音频流。在图7a中,作为一个非限制性实例,如果渲染设备对从头戴式耳机接收的头部跟踪数据的分析指示用户的头部当前是静止的,则渲染设备可渲染并传输用于已知位置的音频流700a、用于已知位置向左n(例如5)度的位置的音频流700b、和用于已知位置向右n(例如5)度的位置的音频流700c,以防用户在获得头部跟踪信息到渲染设备、渲染音频、以及将所渲染的音频传输到头戴式耳机所花费的时间期间转动其头部。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。

在图7b中,又如,如果渲染设备对从头戴式耳机接收的头部跟踪数据的分析指示用户的头部以已知角速率转动,则渲染设备360可渲染和传输在当前已知位置(假使头部移动停止)处的音频流700d、在由已知角速率预测的位置处的音频流700e、以及在以已知角速率的两倍预测的位置处的音频流700f。在一些实施方案中,可渲染一个或多个附加音频流700g,所述附加音频流在当前已知位置的后面,以防用户逆转其头部的旋转。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。

虽然一般性地描述实施方案,其中渲染设备渲染多个音频流并且头戴式耳机选择一个或多个音频流来在一个维度(即,水平维度)中提供声音的方向性,但实施方案可用于在多个维度中提供声音的方向性,例如提供在方位角、仰角处的声音以及指示平移运动的声音。例如,基站可渲染水平维度中多个位置处的音频流,并且还渲染高于和/或低于水平维度的音频流。例如,如图8所示,基站可以渲染水平维度中位置a和位置b处的音频流,并且还渲染水平维度上方的音频流c。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置和高度(或倾斜)的音频流,或者另选地,如果头部的实际位置和倾斜在所述音频流之间某个地方,则混合所述流中的两个流或更多个流。例如,头戴式耳机可以选择a、b或c(如果头部位置在那些位置之一处或附近),可以在头部位置在a和b之间的情况下混合a和b,可以在头部位置在a和c之间的情况下混合a和c,可以在头部位置在b和c之间的情况下混合b和c,或者可以在头部位置在中间某处的情况下混合a、b和c。

在不同的实施方案中,本文所述的方法可以在软件、硬件或它们的组合中实现。此外,可改变方法的框的次序,并且可对各种要素进行添加、重新排序、组合、省略、修改等。对于受益于本公开的本领域的技术人员,显然可做出各种修改和改变。本文所述的各种实施方案旨在为例示的而非限制性的。许多变型、修改、添加和改进是可能的。因此,可为在本文中被描述为单个示例的部件提供多个示例。各种部件、操作和数据存储库之间的界限在一定程度上是任意性的,并且在具体的示例性配置的上下文中示出了特定操作。预期了功能的其他分配,它们可落在所附权利要求的范围内。最后,被呈现为示例性配置中的分立部件的结构和功能可被实现为组合的结构或部件。这些和其他变型、修改、添加和改进可落入如以下权利要求书中所限定的实施方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1