动态增强真实世界声音到虚拟现实混音的制作方法

文档序号:17814308发布日期:2019-06-05 21:25阅读:240来源:国知局
动态增强真实世界声音到虚拟现实混音的制作方法

本申请要求2016年9月1日提交的且序列号为62/382,455的标题为“动态增强真实世界声音到虚拟现实混音(dynamicaugmentationofreal-worldsoundsintoavirtualrealitysoundmix)”的美国临时专利申请的权益。本相关申请的主题据此以引用的方式并入本文中。

所公开的实施方案大体涉及音频设备,并且更具体地,涉及动态增强真实世界声音到虚拟现实混音。



背景技术:

传统的虚拟现实(vr)系统通常包括将用户沉浸在模拟中的可穿戴计算平台。例如但不限于,传统vr系统通常包括分别生成用于表示模拟的3d图形数据和声音数据的光学和声学输出设备。在使用传统vr系统时,用户可以通过在真实世界环境中移动来与模拟交互。vr系统跟踪用户的真实世界移动,然后将这些移动转换为模拟。因此,vr系统向用户提供他或她在模拟内四处走动并与之交互的效果。

传统的增强现实(ar)系统是另一种可穿戴计算平台,其增强了用户使用模拟元素定位的真实世界环境,而没有将用户完全地沉浸到模拟中。与传统的vr系统一样,传统的ar系统包括用于生成3d图形和声音数据的光学和声学输出设备。然而,传统的ar系统还允许来自真实世界环境的光学和声学数据通过ar系统传递给用户。具体地,来自真实世界环境的光学和声学数据通过ar系统生成的3d图形和声音数据来增强,从而使用户感知所述环境的增强版本。与传统的vr系统一样,传统的ar系统将用户的真实世界移动转换为环境的增强版本。因此,ar系统可以向用户提供他或她在环境的增强版本内四处走动并与之交互的效果。

一般而言,vr系统和ar系统都属于下文称为“可穿戴模拟系统”的广泛类别的设备。可穿戴模拟系统通过将用户完全地沉浸到模拟中(如由vr系统实现)或将用户部分地沉浸到环境的增强版本中(如由ar系统实现)来生成并输出模拟。在任何一种情况下,可穿戴模拟系统生成的模拟都会干扰用户对真实世界的感知。这种对真实世界感知的干扰可能给用户带来各种问题。

特别地,用户可能想要在与可穿戴模拟系统交互时感知特定的真实世界事件。然而,在用户参与可穿戴模拟系统生成的模拟时,这类事件通常会被用户忽视。例如但不限于,用户可能想要接听呼入的电话呼叫,但是在使用可穿戴模拟系统时,用户将无法听到这些电话呼叫。此外,用户可能想要避免某些真实世界的情况,但是在使用可穿戴模拟系统时,用户将无法察觉到这类情况。例如但不限于,用户可能希望在使用可穿戴模拟系统时避免撞到宠物,但是模拟可能使宠物的存在被忽视。

如前所述,用于与可穿戴模拟系统交互的改进技术将是有用的。



技术实现要素:

所阐述的一个或多个实施方案包括用于修改由可穿戴模拟系统生成的模拟的计算机实现的方法,包括从可穿戴模拟系统所在的环境获取传感器数据,确定传感器数据满足第一标准,识别对应于第一标准的第一协议,基于第一协议将第一部分数据合并到模拟,其中第一部分数据包括传感器数据的一部分的表示和源自环境的信号中的至少一者。

所公开的实施方案的至少一个优点是可穿戴模拟系统不会完全干扰用户对环境的感知,从而降低用户错过重要的真实世界事件或者不知道真实世界事件的风险。

附图说明

为了可以详细地理解上文阐述的一个或多个实施方案的详述特征所用方式,可参考某些特定实施方案来获得以上简要概述的一个或多个实施方案的更具体的描述,这些特定实施方案中的一些在附图中示出。然而,应注意,附图仅示出典型实施方案,且因此不应被视为以任何方式限制其范围,因为所公开实施方案的范围也包括其它实施方案。

图1a-1b图示被配置为实现各种实施方案的一个或多个方面的系统;

图2是根据各种实施方案的对图1a的计算设备的更详细图解;

图3是示出根据各种实施方案的图2的模拟应用如何生成模拟的概念图;

图4示出了根据各种实施方案的用于将环境音频与模拟音频混合的边界;

图5a-5h示出了根据各种实施方案的图2的模拟应用如何将环境音频与模拟音频混合的各种曲线图;

图6示出了根据各种实施方案的图2的模拟应用如何将环境音频与模拟音频双向混合;

图7示出了根据各种实施方案的图2的模拟应用如何修改模拟音景以合并音频源;

图8示出了根据各种实施方案的图2的模拟应用如何根据音频源特性将音频源选择性地合并到模拟音景中;

图9示出了根据各种实施方案的图2的模拟应用如何基于识别过程将音频源选择性地合并到模拟音景中;

图10示出了根据各种实施方案的图2的模拟应用如何将广告选择性地合并到模拟音景中;

图11是根据各种实施方案的用于利用环境音频来增强模拟音景的方法步骤的流程图;并且

图12是根据各种实施方案的用于利用选择的音频源来增强模拟音景的方法步骤的流程图。

具体实施方式

在以下描述中,阐述众多具体细节以提供对某些具体实施方案的更透彻理解。然而,本领域的技术人员将明白,其它实施方案可在没有这些具体细节中的一个或多个的情况下或在具有额外具体细节的情况下加以实践。

如上所述,可穿戴模拟系统可能会干扰用户感知用户所在的真实世界环境的能力。这种干扰会给用户带来各种问题。为了解决这些问题,各种实施方案包括将从环境导出的音频与模拟所相关联的音频混合的可穿戴模拟系统。通过以这种方式将环境音频和模拟音频混合在一起,可穿戴模拟系统可以减小模拟干扰用户对环境的感知的程度。下面结合图1a-12更详细地描述用于将环境音频和模拟音频选择性地混合在一起的各种技术。

系统概述

图1a-1b示出了被配置来实现各种实施方案的一个或多个方面的可穿戴模拟系统100。可穿戴模拟系统100可以是vr系统,其被配置为生成并输出用以表示模拟的视听数据。可穿戴模拟系统100还可以是ar系统,其被配置为利用与模拟相关联的视听数据来增强从环境导出的视听数据。另外,可穿戴模拟系统100可具有与ar系统和vr系统相关联的特征。

如图1a所示,可穿戴模拟系统100包括光学传感器阵列110、光学输出设备120、声学传感器阵列130(0)和130(1)、声学输出设备140(0)和140(1),以及计算设备150。光学传感器阵列110接收光学信号112。光学输出设备120耦合到光学传感器阵列110并配置成生成光学信号122。声学传感器阵列130接收声学信号132。声学输出设备140耦合到声学传感器阵列130并配置成生成声学信号142。

光学传感器阵列110可包括用于检测和/或测量电磁波,尤其是可见光的任何技术上可行的装置。光学传感器阵列110可包括一个或多个摄像机、立体成像设备、红外传感器、lidar传感器、radar传感器、飞行时间传感器(声学和其它)及其任何组合。光学输出设备120耦合到光学传感器阵列110,并且可以包括用于输出光学数据的任何技术上可行的设备,包括立体视频屏幕、基于激光的可视化系统、平视显示器及其任何组合。

声学传感器阵列130可以是用于检测和/或测量声波,尤其是在人类听觉的正常范围内的声音的任何技术上可行的装置。声学传感器阵列130可包括一个或多个麦克风、声学换能器、波束形成设备、超声波检测器及其任何组合。声学输出设备140耦合到声学传感器阵列130,并且可包括用于输出声学数据的任何技术上可行的设备,包括一个或多个扬声器、超声设备、声学换能器、骨传导换能器、触觉换能器及其任何组合。本领域技术人员将理解,上述部件的任何技术上可行的安装都落入所公开实施方案的范围内。

计算设备150是协调可穿戴模拟系统100的所有操作的计算机。计算设备100还生成并维护模拟。模拟可以表示与用户160周围的环境分离的沉浸式虚拟世界。模拟还可以包括对靠近用户160的环境的增强。

在操作中,计算设备150处理从环境捕获的光学信号112和声学信号132。计算设备150还生成光学信号122和声学信号142,然后将这些信号输出给用户160。光学信号122可从光学信号112导出和/或生成以实现上述模拟。以类似的方式,声学信号142可从声学信号132导出和/或生成以实现上述模拟。下文结合图2更详细地描述计算设备150。

如图1b所示,可穿戴模拟系统100通常佩戴在用户160的头部上或周围。可穿戴模拟系统100可包括头戴式部件、肩装式部件、入耳式部件、安装到用户160的身体的其它部分的部件及其任何组合。可穿戴模拟系统100还可包括安装在用户160外部的部件。例如但不限于,可穿戴模拟系统100可包括一个或多个壁装式传感器和/或输出设备,其无线地耦合到计算设备150并配置为跟踪用户160在预定义物理空间内的移动。此外,但不限于,可穿戴模拟系统100可包括外部声学输出设备,例如将声音直接发射到耳朵或用户160的定向声学设备。

图2是根据各种实施方案的对图1a的计算设备的更详细图解。如图所示,计算设备150包括耦合在一起的处理器200、输入/输出(i/o)设备210以及存储器220。处理器200可以是被配置为处理数据和执行软件应用程序的任何技术上可行的设备。例如但不限于,处理器200可以是中央处理单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)及其任何组合。i/o设备210包括用于接收输入的设备、用于产生输出的设备,以及既接收输入又产生输出的设备。例如但不限于,i/o设备210可以包括键盘、扬声器和/或触摸屏,以及其它可能性。存储器220可以是被配置为存储数据和软件应用程序的任何技术上可行的存储介质。例如但不限于,存储器220可包括耦合在一起的硬盘和/或随机存取存储器(ram)。

存储器220包括模拟应用程序230和数据库240。模拟应用程序230处理从用户160周围的环境接收的光学和声学信号。模拟应用程序230还生成可合并从用户160周围的环境接收的信号的模拟。模拟应用程序230包括环境引擎232、混合引擎234和模拟引擎236。这些各种模块互操作以执行模拟应用程序230的整体功能,如下面结合图3更详细地描述。

图3是示出根据各种实施方案的图2的模拟应用程序如何生成模拟的概念图。如图所示,光学传感器阵列110从环境300接收光学信号112。类似地,声学传感器阵列130从环境300接收声学信号132。基于光学信号112和声学信号132,环境引擎232生成环境数据310。环境数据310包括相对于用户160的空间、视觉和/或声学环境的模型。例如但不限于,环境引擎232可以处理光学信号122以生成相对于用户160的位置的环境300的空间或视觉图。在另一个实施例中,但不限于,环境引擎232可以处理声学信号132以生成用户160周围的环境300的声学图。在这样做时,环境引擎232将识别环境300内的特定音频源并将这些源与特定空间位置相关联以生成声学图。

与环境引擎232的操作并行地,模拟引擎236生成模拟数据340。模拟数据340指定可用于构建模拟360的各种图形和声学元素。基于模拟数据340,模拟引擎236使光学输出设备120和声学输出设备140分别输出光学信号122和声学信号142,以表示模拟360。基于这些信号,用户160可感知模拟360。模拟360可以是,例如但不限于,通常与vr系统相关联的沉浸式虚拟世界模拟,或者通常与ar系统相关联的对环境300的部分增强。在一些实施方案中,模拟引擎236可以是游戏引擎的一部分,并且模拟数据340可以表示发生游戏的模拟世界。因此,在参与模拟360时,用户160可加入视频游戏。在其它实施方案中,模拟360是与远程定位的另一用户相关联的真实世界环境的再现。在这样的实施方案中,模拟360增强了用户160的音频和/或视觉体验以支持远程呈现用例。

混合引擎234被配置为与环境引擎232和模拟引擎236互操作,以将来自环境300的光学信号112和/或声学信号132合并到模拟360。混合引擎234基于混合标准320确定要合并的特定光学和/或声学信号(或其部分)。例如但不限于,一个混合标准320可以指示特定频率范围内的声学信号应合并到模拟360。所述混合标准320还可以指示应抑制具有特定频率范围的模拟声音。

混合引擎234还可实现多个不同的混合协议330,其描述光学信号112和/或声学信号132如何合并到模拟360。例如但不限于,混合引擎234可跟踪用户160在环境300内的位置,然后,根据混合协议330,基于用户160与边界之间的距离将从环境300导出的光学和/或声学信号淡入或淡出模拟360。在另一个实施例中,但不限于,混合引擎234可以识别环境300内的特定对象和/或音频源,如环境数据310所示,然后基于一个或多个混合协议330将来自所述源的光学和/或音频信号选择性地合并到模拟360。

混合协议330还可以指定将光学信号112和/或声学信号132合并到模拟360的其它方式。在一个实施方案中,基于混合协议330,混合引擎234使模拟引擎236修改模拟数据340,使得模拟360包括光学信号112和/或声学信号132的模拟版本。例如但不限于,混合引擎234可以使模拟引擎236生成驻留在环境300中的对象的模拟版本,然后经由光学输出设备120将所述模拟版本输出给用户160。可以从模拟对象的数据库中提取模拟对象,或者从对真实世界对象的扫描中导出模拟对象。在另一实施例中,但不限于,混合引擎234可以使模拟引擎236生成环境声音的放大版本,然后经由音频输出设备140将所述声音输出给用户160。在这样做时,音频输出设备140可以将来自环境300的环境声音直接转换到模拟360,以便替换特定的模拟声音。在可穿戴计算系统100作为vr系统操作时,可以实现上述实施方案。

在其它实施方案中,根据混合协议330,混合引擎234将可穿戴模拟系统100配置为作为传递设备操作,然后分别选择性地允许光学信号112和/或声学信号132的部分312和332从环境300进入模拟360。混合引擎234可以例如但不限于实现有源噪声控制(anc)以消除原本用户160可能听到的环境声音,直到确定应将所述声音中的一些或全部引入到模拟360。然后,混合引擎234可以减少anc消除以允许环境声音进入模拟360。另外,混合引擎234可以实现有源声学透明(aat)以将环境声音主动地转换到模拟360。混合引擎234还可以选择性地减少已经存在于模拟360中的特定频率的声音,以便允许所述特定频率以减少的干扰进入模拟360。在可穿戴计算系统100作为ar系统操作时,可以实现上述实施例。

本领域技术人员将理解,本领域中存在用于混合光学信号和/或声学信号的许多不同技术。可穿戴模拟系统100可以应用这些技术中的任何一种,以便修改模拟360以合并从环境300导出的特定数据。图4-10示出了可穿戴模拟系统100如何将来自环境300的声学信号与模拟360混合在一起的具体实施例。

基于位置的混合环境声音

图4-6示出了模拟应用程序230可实现以将从环境300导出的音频(在下文中称为“环境音频”)与与模拟360相关联的音频(在下文中称为“模拟音频”)混合的技术的实施例。尽管这些实施例聚焦于音频混合技术,但是本领域技术人员将理解,这些技术也可以用于将从环境300导出的光学数据与与模拟360相关联的图形组合。

图4示出了根据各种实施方案的用于将环境音频与模拟音频混合的边界。如图所示,用户160位于边界400内。边界400可以表示由用户160定义的或由模拟应用程序230建立的指定模拟区域。在用户160朝向边界400或远离边界400移动时,模拟应用程序230修改包括环境音频和模拟音频的混合。例如,在用户160沿着轨迹410从位置412,通过位置414移动到位置416时,模拟应用程序230逐渐减小模拟音频的幅度和/或促进环境音频的幅度的增加。模拟应用程序230还可在模拟音频和环境音频之间的位置414处实现硬开关。同样,模拟应用程序230可以实现anc和/或aat以控制音频幅度。模拟应用程序230可以使用下面结合图5a-5h描述的各种技术来调制这两个音频源的幅度。

图5a-5h示出了根据各种实施方案的图2的模拟应用程序如何将环境音频与模拟音频混合的各种曲线图。可在图3中所示的混合协议330中指定这些技术。如图5a所示,曲线图500(a)包括位置轴510、幅度轴520、模拟音频曲线530以及环境音频曲线540。位置轴510指示沿轨迹410的位置412、414和416。幅度轴520指示与环境音频和模拟音频相关联的音频水平。模拟音频曲线530指示作为用户160的位置的函数的与模拟360相关联的音频幅度。环境音频曲线540指示作为用户160的位置的函数的与环境300相关联的音频幅度。

根据曲线图500(a),模拟音频曲线530保持在恒定的高水平,并且环境音频曲线540保持在恒定的低水平,直到用户160到达位置414,所述位置与边界400重合。超出位置414,模拟音频曲线530下降到低水平并且环境音频曲线540跳到高水平。因此,用户160可主要(或排他地)在驻留在边界400内时感知模拟音频,然后在离开边界400时主要感知环境音频。模拟应用程序230还可以根据下面结合图5b-5h描述的其它混合协议来混合模拟音频和环境音频。

如图5b所示,曲线图500(b)包括模拟音频曲线532和环境音频曲线542。在用户160遍历轨迹410时,模拟音频曲线532逐渐减小并且环境音频曲线542逐渐增加(音频效果通常称为“交叉渐变”)。在位置414处,这两条曲线具有大致相等的幅度。超出位置414,模拟音频曲线532减小到最小水平,并且环境音频曲线542增加到最大水平。与上面结合图5a讨论的方法相比,这一方法可以简化从模拟音频到环境音频的转换。图5c示出了混合环境音频和模拟音频的另一种方法。

如图5c所示,曲线图500(c)包括模拟音频曲线534和环境音频曲线536。在用户160遍历轨迹410时,模拟音频曲线532逐渐减小并且环境音频曲线542逐渐增加,直到在位置414处,这两条曲线达到相似的幅度。经过位置414之后,两条曲线保持不变。

整体参考图5a-5c,曲线图500(a)、500(b)和500(c)中所示的各种混合协议可以在单整体声道声音或立体声声音的环境中实现,以将环境音频与模拟音频混合。图5d-5h示出了用于实现这些混合技术的具体方法,其涉及在用户160沿轨迹410移动时使用anc和aat。

如图5d所示,曲线图500(d)的位置轴510被分成阶段1、2和3。在用户160离开位置412并开始朝向位置414移动时,阶段1对应于轨迹410的第一部分。在用户160接近并经过位置414时,阶段2对应于轨迹410的第二部分。在用户160接近位置416时,阶段3对应于轨迹410的第三部分。

在这些不同阶段的每一个期间,模拟应用程序230修改应用anc以取消环境音频的程度。曲线图500(d)中的anc550示出了anc的水平如何在阶段1、2和3之间变化。类似地,模拟应用程序230修改应用aat以增强环境音频到用户160的传递的程度。曲线图500(d)中的aat560示出了aat的水平如何在阶段1、2和3之间变化。anc550和aat560对环境音频的影响如图5e所示。

如图5e所示,anc550最小化阶段1中的环境音频546(在用户160相对靠近位置412时)。在阶段2中(在用户靠近位置414时),一些环境音频546传递给用户160,尽管阶段2中的环境音频可能具有减小的幅度。这种减小的幅度可能由于例如但不限于由音频输出设备130引起的物理干扰而产生,所述音频输出设备130可以围绕用户160的耳朵。在阶段3(接近位置416),aat560主动地协助环境音频546的传递。利用这一方法,在用户160沿着轨迹410移动时,模拟应用程序230彼此结合地实现anc和aat以促进从全部模拟音频到全部环境音频的转换。模拟应用程序230还可以以不同方式调整模拟音频,如图5f-5h所示。

在图5f中,模拟应用程序230在阶段1中将模拟音频530维持在高水平,同时还经由anc最小化环境音频546。然而,在阶段2中,模拟应用程序230使得模拟音频530快速下降,同时还缓解anc以允许环境546渗透到用户160。在阶段3中,模拟应用程序230将模拟音频530维持在低水平,同时经由aat增强环境音频546的传递。

在图5g中,模拟应用程序230实现修改的交叉渐变方法以减少模拟音频532,同时增加环境音频546。在阶段1中,模拟应用程序230开始减少模拟音频532,同时使用anc将环境音频546保持为低。然后,在阶段2中,模拟应用程序230缓解anc并允许环境音频546增加,同时继续减少模拟音频532。在阶段3中,模拟应用程序230实现aat以提供全部环境音频546,同时还最小化或消除模拟音频532。

在图5h中,模拟应用程序230实现硬切断以在阶段1之后最小化或消除模拟音频532。利用这一方法,模拟应用程序230允许环境音频546在没有阶段2中的干扰的情况下渗透到用户160,然后在阶段3中实现aat以向用户160提供全部环境音频。

整体参考图5d-5h,本领域技术人员将理解,模拟应用程序230可以以各种不同方式修改anc和aat水平,以促进模拟音频与环境音频之间的转换。另外,所述转变可以基于沿着轨迹410的除距离以外的其它参数而发生。例如但不限于,模拟应用程序230可以基于用户160相对于边界400的速度或加速度而不是相对于所述边界的位置来实现结合图5a-5h讨论的任何音频转换技术。图6示出了模拟应用程序230藉以实现以相对于边界混合声音的另一种方法。

图6示出了根据各种实施方案的图2的模拟应用程序如何将环境音频与模拟音频双向混合。如图所示,用户160部分地驻留在边界600之内并且部分地驻留在边界600之外。边界600可以定义指定的模拟区域,类似于上面结合图4讨论的边界400。在这一配置中,用户160的左侧(和用户160的左耳)驻留在边界600之内,而用户160的右侧(和用户160的右耳)并不驻留在所述边界之内。在用户160驻留在边界600上时,模拟应用程序230将环境音频和模拟音频的不同混合输出到用户160的每个耳朵。

具体地,模拟应用程序230将音频混合610(l)输出到用户160的左耳。音频混合610(l)包括高水平的模拟音频612(l)和低水平的环境音频614(l),相对于幅度轴620绘制的。相反,模拟应用程序230将音频混合610(r)输出到用户160的右耳。音频混合610(r)包括低水平的模拟音频612(r)和高水平的环境音频614(r),也相对于幅度轴620绘制。利用这一方法,用户160可以体验到增强的情境感知感,因为模拟音频在用户160的左侧(朝向指定的模拟区域)更响亮,而环境音频在用户160的右侧更响亮(远离所述模拟区域)。模拟应用程序230还可基于用户160接近边界600所沿方向、用户160与边界600之间的角度等来调制声级。

整体参考图4-6,这些图中讨论的实施例通常涉及模拟应用程序230基于用户160相对于边界的位置将环境音频与模拟音频混合的情况。模拟应用程序230还可基于特定识别的音频源将环境和模拟音频混合在一起,如下面结合图7-10更详细地描述。

基于音频源特征混合环境声音

图7示出了根据各种实施方案的图2的模拟应用程序如何修改模拟音景以合并音频源。如图所示,用户160被模拟音景700包围。模拟音景700在概念上表示作为模拟360的一部分生成的立体声或3d全景。模拟应用程序230被配置为暂停或抑制模拟音景700的一部分,以便适应一个或多个音频源的存在。

例如但不限于,模拟应用程序230可以响应于猫710的存在而暂停或抑制模拟音景700的区域702。模拟应用程序230将减少源自区域702内的任何模拟音频和/或放大源自区域702的环境音频。因此,在猫710喵喵叫时,模拟应用程序230促进声音到达用户160,尽管用户160也感知模拟音景700。因此,用户160可感知到猫710的存在,同时保持参与模拟360。

模拟应用程序230可以使用计算机视觉、对象识别、运动检测和/或接近检测技术以及其它方法来识别诸如猫710的音频源。另外,模拟应用程序230可以检测由音频源生成的声学信号,然后基于混合标准320确定是否应将这些声学信号合并到模拟360。例如但不限于,模拟应用程序230可以确定大于阈值响度的声学信号应合并到模拟360。或者,模拟应用程序230可确定仅将与特定音频指纹匹配的声学信号合并到模拟360。下面结合图8更详细地描述这一特定实施例。

图8示出了根据各种实施方案的图2的模拟应用如何根据音频源特征将音频源选择性地合并到模拟音景中。如图所示,用户160被模拟音景800包围,类似于上面讨论的模拟音景700。人810靠近用户160并且生成声学信号。另外,狗820位于用户160附近并且生成声学信号。

模拟应用程序230被配置为修改模拟音景800以将来自人810的声学信号选择性地合并到模拟360,而不合并来自狗820的声学信号。模拟应用程序230维护可用于识别人810的音频指纹812。在识别人810之后,模拟应用程序230执行一种或多种技术以将来自人810的声学信号混合到模拟360。所述技术可以包括先前讨论的任何anc和/或aat技术。类似地,模拟应用程序230维护可用于识别狗820的音频指纹822。在识别狗820时,模拟应用程序230可以实现anc以防止与狗820相关联的声学信号干扰模拟360。

用户160可以使用上面讨论的音频指纹识别技术将模拟应用程序230配置为将某些音频源列入“白名单”和/或“黑名单”。例如但不限于,用户160可以使模拟应用程序230对来自人810的声学信号进行采样,生成音频指纹812,然后将所述指纹标记为“允许”。然后,用户160可以使模拟应用程序230对来自狗820的声学信号进行采样,生成音频指纹822,然后将所述指纹标记为“不允许”。随后,在模拟应用程序230检测到声学信号时,模拟应用程序230然后将所述信号与所有音频指纹进行比较并确定所述信号为“允许”还是“不允许”。如果信号对应于“允许”指纹“,则模拟应用程序230将信号混合到模拟360。模拟应用程序230还可以使用上述方法将特定类别的声音列入白名单。例如但不限于,用户160可以选择“警报”和“声音”以包括在白名单中。在一个实施方案中,可以生成本文讨论的音频指纹以表示与特定音频源相关联的特征频率组。

本领域技术人员将理解,上述技术可以适于在视觉上识别对象,然后在模拟360内包括/抑制所述对象。例如但不限于,模拟系统230可以实现计算机视觉技术以将人810的视频或视觉传感器数据与人810的图像(或通常人的多个图像)相匹配。模拟系统230还可以将狗820的视频与狗820的图像(或通常狗的多个图像)相匹配。这些图像可以包括在白名单或黑名单中,其定义应被允许进入模拟360的特定图像。

利用这一方法,模拟应用程序230允许用户160以高粒度选择性地维持期望水平的情境感知。这一方法在用户160可能希望与其他人交互但仍然沉浸在模拟360中的社交环境中可尤其有用。模拟应用程序230还可实现用于识别要合并到模拟360的音频源的附加技术,如下面结合图9更详细地描述。

图9示出了根据各种实施方案的图2的模拟应用程序如何基于识别过程将音频源选择性地合并到模拟音景中。如图所示,用户160被模拟音景900包围,类似于上面讨论的模拟音景700和800。人910(0)和910(1)位于用户160附近并且分别拥有识别设备912(0)和912(1)。识别设备912可以是独立的射频识别器(rfid)设备,或者可包括在由人910佩戴的可穿戴模拟系统中,以及其他可能性。人920也位于用户160附近,但是人920不具有识别设备912。

识别设备912将信号发送到可穿戴模拟系统100。模拟应用程序230接收这些信号,然后确定来自人910的声学信号应被合并到模拟360。模拟应用程序230可以例如但不限于将源自与识别设备912相同的近似位置的声学信号临时地列入白名单。在这样做时,模拟应用程序230可以以上面结合图7-8讨论的方式暂停或抑制区域902(0)和902(1)内的模拟音景900,从而允许来自人910的声学信号到达用户160的耳朵。因此,尽管用户160沉浸在模拟360中,但人910可以与用户160通信。然而,在缺少识别设备912的情况下,人920可能无法与用户160通信。到目前为止所描述的技术还可以适于选择性地合并与广告相关联的音频和/或视频,如下面结合图10更详细地描述。

图10示出了根据各种实施方案的图2的模拟应用程序如何将广告选择性地合并到模拟音景中。如图所示,用户160被模拟音景1000包围。广告1010和1020与人1030一起位于用户160附近。模拟应用程序230被配置为检测广告1010,然后确定由广告1010生成的声学信号应合并到模拟音景1000中,而来自广告1020或人1030的声学信号不应合并。例如但不限于,广告1010可以包括将来自广告1010的声音临时地列入白名单的特定快速响应(qr)代码,或者那些声音可以包括模拟应用程序230藉以检测以实现音频传递(或音频再生产)的嵌入代码。在一个实施方案中,模拟应用程序230可以使用特定账户设置来操作,所述特定账户设置允许来自所选广告商的广告合并到模拟360。用户160可以升级这些帐户设置以禁止所述广告。

整体参考图7-10,尽管这里讨论的实施例涉及修改结合模拟360生成的模拟音景,但是本领域技术人员将理解,上述技术也可适于修改结合模拟360生成的视觉景观。例如但不限于,模拟应用程序230可以修改模拟景观,以便包括图700中所示的猫710的模拟版本。或者,模拟应用程序230可以抑制模拟景观内的视觉元素,以便允许用户160看到与广告1010相关联的光学信号。大体来说,模拟应用程序230可以执行迄今为止所讨论的任何技术的任何组合,以便将来自环境的光学和/或声学信号与与模拟360相关联的光学和/或声学信号选择性地组合。

混合环境声音与模拟声音

图11是根据各种实施方案的用于利用环境声音来增强模拟音景的方法步骤的流程图。尽管结合图1-10的系统来描述方法步骤,但本领域技术人员将理解,被配置来按任何顺序执行方法步骤的任何系统都落在所公开的实施方案的范围内。

如图所示,方法1100开始于步骤1102,其中模拟应用程序230将模拟360输出给用户160。模拟360可包括立体或3d音频和/或3d图形,以及其它类型的数据。模拟360可以是沉浸式模拟,或代表对真实世界环境的增强。在步骤1104,模拟应用程序230从靠近用户160的环境300捕获光学和/或声学信号。基于所述信号,模拟应用程序230生成环境数据310。

在步骤1106,模拟应用程序230处理环境数据310以确定已满足一个或多个混合标准332。混合标准332可以指示将环境音频合并到模拟音频中的特定环境。在步骤1108,模拟引擎230基于混合标准332选择混合协议330。在一个实施方案中,每个混合标准332对应于不同的混合协议330。

在步骤1110,模拟引擎230将从环境300导出的环境音频与与模拟360相关联的模拟音频混合。在步骤1112,模拟应用程序230将在步骤1110生成的混合音频输出到用户160。然后,用户160可以继续感知模拟360,还可以感知源自环境300的特定音频。

图12是根据各种实施方案的用于利用选择的音频源来增强模拟音景的方法步骤的流程图。尽管结合图1-10的系统来描述方法步骤,但本领域技术人员将理解,被配置来按任何顺序执行方法步骤的任何系统都落在所公开的实施方案的范围内。

如图所示,方法1200开始于步骤1202,其中模拟应用程序230将模拟360输出到用户160,类似于上面结合图11讨论的步骤1102。在步骤1204,模拟应用程序230从靠近用户160的环境300捕获光学和/或声学信号,并且基于所述信号,生成环境数据310。在步骤1206,模拟应用程序230处理环境数据310以识别一组音频源。模拟应用程序230可以处理从环境300导出的声学信号以识别一组音频源和/或处理光学信号以识别所述源。

在步骤1208,模拟应用程序230确定满足一个或多个混合标准332的真实世界源的子集。模拟应用程序230可以例如但不限于识别匹配特定音频指纹的源。或者,模拟应用程序230可以识别满足特定音频标准的源,例如响度。在步骤1210,模拟应用程序230将从所识别的子集中的音频源导出的环境音频与与模拟360相关联的模拟音频混合,从而生成混合音频。在步骤1212,模拟应用程序230将混合音频输出给用户160。

总之,用户佩戴的可穿戴模拟系统输出使用户感知模拟的光学和声学信号。模拟可以是沉浸式虚拟世界,或者对真实世界环境的增强。可穿戴模拟系统还捕获来自用户周围环境的声学和光学信号,并将这些信号选择性地合并到模拟。因此,用户可以在有限的程度上感知环境,同时仍然保持参与模拟。

所公开的技术的至少一个优点是可穿戴模拟系统不会完全干扰用户对环境的感知,从而降低用户错过重要的真实世界事件或者不知道真实世界事件的风险。此外,可穿戴模拟系统保持用户的情境感知,从而允许用户加入真实世界环境,同时还保持参与模拟。

任何权利要求中所述的要求保护的元件和/或本申请中所述的任何元件的以任何方式进行的任何和所有组合都落在本发明和保护的设想范围内。

已出于说明目的而呈现了对各种实施方案的描述,但这些描述并非意图是详尽性的或受限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员来说是显而易见的。

本实施方案的各方面可体现为系统、方法或计算机程序产品。因此,本公开的各方面可采取完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或结合软件和硬件方面的实施方案的形式,所述软件和硬件方面在本文中可全部概括地称作“电路”、“模块”或“系统”。另外,本公开的各方面可采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,所述一个或多个计算机可读介质具有在其上体现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是(例如)但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或者上述各项的任何合适组合。计算机可读存储介质的更特定的示例(非详尽性的列表)将包括以下各项:具有一个或多个电线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便携式光盘只读存储器(cd-rom)、光学存储设备、磁性存储设备或上述各项的任何合适组合。在本文档的上下文中,计算机可读存储介质可为任何有形介质,所述有形介质可含有或存储供指令执行系统、装置或设备使用或连同指令执行系统、装置或设备一起使用的程序。

上文参考根据本公开的实施方案的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述了本公开的各方面。应理解,可通过计算机程序指令来实现流程图和/或方框图中的每个方框以及流程图和/或方框图中的方框组合。这些计算机程序指令可提供至通用计算机、专用计算机的处理器或其它可编程数据处理设备以产生一种机器,使得经由计算机的处理器或其它可编程数据处理设备执行的指令启用一个或多个流程图方框和/或一个或多个方框图方框中指定的功能/动作的实现。这样的处理器可以是但不限于通用处理器、专用处理器、应用特定处理器或现场可编程处理器。

附图中的流程图和方框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就此来说,流程图或方框图中的每个方框均可表示代码的模块、片段或部分,所述代码包括用于实现指定的逻辑功能的一个或多个可执行指令。还应注意,在一些替代实现方式中,方框中指出的功能可按照附图中指出的次序以外的次序发生。例如,连续示出的两个方框实际上可以大致同时执行,或者所述方框有时可以按相反的次序执行,这取决于所涉及的功能性。还应注意,框图和/或流程图图示中的每个方框,以及框图和/或流程图图示中的方框的组合可由执行指定功能或动作的基于专用硬件的系统、或者专用硬件和计算机指令的组合来实现。

虽然上述内容是涉及本公开的实施方案,但是在不背离本公开的基本范围的情况下,可以设想出本公开的其它和另外实施方案,而且本公开的范围由随附的权利要求书加以确定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1