用于沉浸式和交互式多媒体生成的系统和方法

文档序号：10694174阅读：622来源：国知局

用于沉浸式和交互式多媒体生成的系统和方法
【专利摘要】本发明公开一种设备。所述设备包括光学感测系统，其包括至少一个相机，所述至少一个相机被配置为获取物理环境的图像。所述设备还包括处理系统。所述处理系统包括取向和位置确定模块，其被配置为从所述图像检测显著特征，并且基于所述所检测到的显著特征确定所述设备相对于所述物理环境的取向和/或位置变化。所述处理系统还包括渲染模块，其被配置为基于所述图像和所述设备的所述所确定的取向和/或位置变化来确定所述物理环境的渲染，并且将与所述物理环境的所述渲染有关的数据提供给显示系统。
【专利说明】用于沉浸式和交互式多媒体生成的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求2014年10月24日提交的美国第62/068,423号临时申请的权益，在此通过援引的方式并入本申请。
技术领域
[0003]本公开涉及人机交互的技术领域，并且具体地，涉及沉浸式和交互式多媒体生成。
【背景技术】
[0004]沉浸式多媒体通常包括提供与环境有关的多媒体数据(以音频和视频的形式)，其使得接收多媒体数据的人员能够具有身在那个环境中的体验。沉浸式多媒体的生成通常是交互式的，使得提供给人员的多媒体数据能够基于(例如)人员的物理位置、人员所执行的活动等来自动更新。交互式沉浸式多媒体能够通过(例如)使得体验更逼真来改进用户体验。
[0005]存在两种主要类型的交互式沉浸式多媒体。第一种类型是虚拟现实(VR)，其中多媒体数据复制模拟在(例如)真实世界或想象世界中的各地方处的物理存在的环境。对环境的渲染还反映了用户所执行的动作，从而使得用户能够与环境交互。用户的动作(例如，身体移动)可通常由运动传感器来检测。虚拟现实人工地创建感官体验，其可包括视觉、听觉、触摸等。
[0006]第二种类型的交互式沉浸式多媒体是增强现实(AR)，其中多媒体数据包括人员所位于的物理环境的实时图形图像以及额外数字信息。额外数字信息通常位于实时图形图像之上，但不更改或增强对物理环境的实时图形图像的渲染。额外数字信息还可以是虚拟对象的图像，然而，虚拟对象的图像通常仅仅位于实时图形图像之上，而非混合到物理环境中来创建真实感渲染。对物理环境的渲染还可反映用户所执行的动作和/或人员的位置以实现交互。用户的动作(例如，身体移动)可通常通过运动传感器来检测，而人员的位置可通过从图形图像检测并跟踪物理环境的特征来确定。增强现实可复制人员在存在于物理环境中时的一些感官体验，同时向人员提供额外数字信息。
[0007]当前不存在这样一种系统，其可提供创建虚拟对象的图像与物理环境的图像的逼真混合的虚拟现实与增强现实的组合。此外，尽管当前增强现实系统可复制用户的感官体验，但此类系统通常无法增强用户的感知能力。

【发明内容】

[0008]本公开的实施例的其他方面和优点将部分地在以下详细描述中进行陈述，并且部分地将从所述描述内容看出，或者可通过本公开实施例的实践来认识到。
[0009]根据一些实施例，一种设备包括光学感测系统，所述光学感测系统包括至少一个相机，所述至少一个相机被配置为获取物理环境的图像。所述设备还包括处理系统。所述处理系统包括取向和位置确定模块，其被配置为从所述图像检测显著特征，并且基于所检测到的显著特征确定设备相对于物理环境的取向和/或位置变化。处理系统还包括渲染模块，其被配置为基于图像和设备的所确定的取向和/或位置变化来确定物理环境的渲染，并且将与物理环境的渲染有关的数据提供给显示系统。
[0010]根据一些实施例，所述光学感测系统包括第一相机和第二相机，所述第一相机被配置为获取所述物理环境的第一图像，并且所述第二相机被配置为获取所述物理环境的第二图像。所述取向和位置确定模块被配置为当所述设备在所述物理环境中处于第一位置时，从所述第一图像和第二图像检测第一显著特征，确定与所述第一显著特征相关联的第一组坐标，当所述设备在所述物理环境中处于第二位置时，从所述第一图像和第二图像检测第二显著特征，确定与所述第二显著特征相关联的第二组坐标，并且响应于确定所述第一显著特征和第二显著特征彼此对应，基于所述第一组和第二组坐标来确定所述设备相对于所述物理环境的取向和/或位置变化。所述渲染模块被配置为基于所述第一图像和第二图像并且基于所述设备的所述所确定的取向和/或位置变化来确定所述物理环境的立体渲染。根据一些实施例，所述第一相机和第二相机中的每一者包括红-绿-蓝-红夕KRGB-1RMf素传感器。
[0011 ]根据一些实施例，所述光学感测系统包括第一相机、第二相机和反射镜，所述第一相机被配置为获取红外(IR)图像，所述第二相机被配置为获取红-绿-蓝(RGB)图像，并且所述反射镜被配置为将IR光反射离开所述第二相机并且将所述IR图像与所述RGB图像对齐。在一些实施例中，所述第一相机是飞行时间相机。在一些实施例中，所述第一相机是IR相机。
[0012]根据一些实施例，所述光学感测系统包括IR照明器，其被配置为将一个或多个图案投射到所述物理环境中；其中所述所检测到的显著特征包括所述一个或多个图案。
[0013]根据一些实施例，所述处理系统还包括手势确定模块，其被配置为从所述图像检测手势，并且确定与所述手势相关联的用户指令。所述渲染模块被配置为基于所述所确定的用户指令确定所述物理环境的所述渲染。在一些实施例中，所述手势确定模块被配置为确定所述用户指令与被渲染的对象的选择相关联;并且所述渲染模块被配置为基于所述用户指令确定所述对象的所述渲染的变化。在一些实施例中，所述对象是虚拟对象。在一些实施例中，所述对象是存在于所述物理环境中的物理对象。
[0014]根据一些实施例，所述渲染模块被配置为在所述物理环境的所述渲染中将虚拟对象的图像与位于所述物理环境中的物理对象的图像混合;其中所述混合是基于与所述虚拟对象相关联的第一组坐标和与所述物理对象相关联的第二组坐标。在一些实施例中，所述混合包括与所述虚拟对象相关联的音频数据和源自所述物理环境的音频信号的渲染。
[0015]根据一些实施例，所述设备还包括被配置为连接到智能电话的连接器。在一些实施例中，所述智能电话包括所述处理系统的至少一部分。在一些实施例中，所述智能电话被配置为提供附加内容;并且所述渲染模块被配置为基于所述图像和所述附加内容确定所述物理环境的渲染。
【附图说明】
[0016]现将参考附图，附图示出了本申请的实例性实施例，并且在附图中:
[0017]图1是可用以实施本公开的实施例的示例性计算装置的框图。
[0018]图2A至2B是根据本公开实施例的示出沉浸式多媒体生成的示例性渲染的图解。
[0019]图3是根据本公开实施例的用于沉浸式和交互式多媒体生成的示例性系统的框图。
[0020]图4A至4E是根据本公开实施例的用于支持沉浸式和交互式多媒体生成的示例性相机系统的不意图。
[0021]图5是根据本公开实施例的用于感测相机的位置和姿势以支持沉浸式和交互式多媒体生成的示例性方法的流程图。
[0022]图6是根据本公开实施例的用于基于手势更新多媒体渲染的示例性方法的流程图。
[0023]图7A至7B是根据本公开实施例的将3D虚拟对象的图像混合到物理环境的实时图形图像中的图解。
[0024]图8是根据本公开实施例的用于将3D虚拟对象的图像混合到物理环境的实时图形图像中的示例性方法的流程图。
[0025]图9A至9B是示出根据本公开实施例的示例性头戴式交互式沉浸式多媒体生成系统的示意图。
【具体实施方式】
[0026]下面将详细参考实施例，并参考附图描述示例性实施例。尽可能地，附图通篇将使用相同参考标号来指代相同或相似部分。
[0027]实施例的描述仅仅是示例性的，并非出于限制目的。
[0028]图1是可用以实施本公开的实施例的示例性计算装置100的框图。如图1所示，计算装置100包括处理器121和主存储器122。处理器121可为对从主存储器122取出的指令做出响应并进行处理的任何逻辑电路。处理器221可为单个或多个通用微处理器、现场可编程门阵列(FPGA)或数字信号处理器(DSP)，其能够执行存储在存储器(例如，主存储器122)中的指令，或专用集成电路(ASIC)，使得处理器221被配置为执行特定任务。
[0029]存储器122包括有形和/或非暂态计算机可读媒体，诸如软盘、硬盘、CD-ROM(紧致磁盘只读存储器)、M0(磁光)驱动器、DVD-ROM(数字多用磁盘只读存储器)、DVD-RAM(数字多用磁盘随机存取存储器)、快闪驱动器、快闪存储器、寄存器、高速缓冲存储器或半导体存储器。主存储器122可为一个或多个存储器芯片，其能够存储数据并且允许处理器121直接访问任何存储位置。主存储器122可为任何类型的随机存取存储器(RAM)，或能够如本文所述那样操作的任何其它可用存储器芯片。在图1所示的示例性实施例中，处理器121经由系统总线150与主存储器122通信。
[0030]计算装置100还可包括存储装置28，诸如一个或多个硬盘驱动器，其用于存储操作系统和其它相关软件，用于存储应用软件程序，并且用于存储待由应用软件程序使用的应用程序数据。例如，应用程序数据可包括多媒体数据，而软件可包括被配置为渲染多媒体数据的渲染引擎。软件程序可包括一个或多个指令，其可从存储装置128取出到存储器122以由处理器121处理。软件程序可包括不同的软件模块，其可包括，举例来说，部件(诸如软件部件、面向对象的软件部件、类部件和任务部件)、进程、函数、字段、程序、子例程、程序代码片段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表、阵列和变量。
[0031]通常，这里使用的“模块”一词，是指硬件或固件实现的逻辑，或者以编程语言写成的可能具有入口和出口点的软件指令集合，所述编程语言例如Java，Lua，C或C++。软件模块可以被编译并链接到一个可执行程序中，安装在动态链接库中，或写入解释的编程语言，例如BASIC，Perl或Python。应当理解，软件模块可以从其他模块或从其本身被调用，和/或可以响应于检测到的事件或中断来调用。配置为执行在计算设备上的软件模块可提供于一种计算机可读介质上，诸如光盘、数字视频盘、闪存驱动器、磁盘，或任何其他有形介质，或者作为数字下载(可以以在执行前需要安装、解压缩、或解密的压缩或可安装的格式的形式来原始存储)。这样的软件代码可被部分或完全地存储在执行计算设备的存储设备上，用于由计算设备执行。软件指令可嵌入在固件中，诸如EPR0M。将进一步理解的是，硬件模块(例如，在处理器221是ASIC的情况下)，可以包括连接的逻辑单元，例如门和触发器，和/或可以包括可编程单元，如可编程门阵列或处理器。本文所描述的模块或计算装置的功能被优选实现为软件模块，但可以以硬件或固件来表示。一般而言，本文所描述的模块指的是可与其它模块组合或者被分为子模块的逻辑模块，而不考虑其物理组织和存储器。
[0032]如本文所用的术语“非临时性的介质”是指任何非临时性媒体存储数据和/或指令，其可以导致机器以特定方式操作。这样的非临时性介质可以包括非易失性介质和/或易失性介质。非易失性介质可包括，例如存储器128。易失性介质可包括，例如，存储器122。非临时性介质的常见形式包括，例如，软盘，柔性盘，硬盘，固态驱动器，磁带，或任何其它磁性数据存储介质，CD-ROM，任意其它光学数据存储介质，任意孔形图案的行物理介质，RAM，PR0M、EPR0M，FLASH-EPR0M，NVRAM，任意其它存储器芯片或盒，及其联网形式。
[0033]计算装置100还可包括一个或多个输入装置123和一个或多个输出装置124。输入装置123可包括，例如，相机、麦克风、运动传感器等，而输出装置124可包括，例如，显示单元和扬声器。输入装置123和输出装置124两者通过I/O控制器125连接到系统总线150，从而使得处理器121能够与输入装置123和输出装置124通信。处理器121与输入装置123和输出装置124之间的通信可由(例如)执行从存储器122取出的指令的处理器121来执行。
[0034]在一些实施例中，处理器121还可经由I/O控制125与一个或多个智能装置130通信。智能装置130可包括具有处理和生成多媒体数据的能力的系统(例如，智能电话)。在一些实施例中，处理器121可从输入装置123接收数据，将数据取出到智能装置130用于处理，从智能装置130接收作为处理结果的多媒体数据(以例如音频信号、视频信号等的形式)，并且接着将多媒体数据提供给输出装置124。在一些实施例中，智能装置130可充当多媒体内容源并且将与多媒体内容有关的数据提供给处理器121。处理器121可接着添加从智能装置130接收的多媒体内容以输出待提供给输出装置124的数据。处理器121与智能装置130之间的通信可由，例如，执行从存储器122取出的指令的处理器121实施。
[0035]在一些实施例中，计算装置100可被配置为生成交互式和沉浸式多媒体，包括虚拟现实、增强现实或两者的组合。例如，存储装置128可存储用于渲染图形图像的多媒体数据和用于产生虚拟现实体验的音频效果，并且处理器121可被配置为通过输出装置124提供多媒体数据的至少一部分以产生虚拟现实体验。处理器121还可接收从输入装置123(例如，运动传感器)接收的数据，所述数据使得处理器121能够确定，例如，用户的位置的变化、用户所执行的动作(例如，身体移动)等。处理器121可被配置为基于所述确定来通过输出装置124渲染多媒体数据，以便为用户创建交互式体验。
[0036]此外，计算装置100还可被配置为提供增强现实。例如，输入装置123可包括被配置为捕获用户所位于的物理环境的图形图像的一个或多个相机，以及被配置为从物理环境捕获音频信号的一个或多个麦克风。处理器121可从相机接收表示所捕获的图形图像和音频信息的数据。处理器121还可处理表示待提供给用户的附加内容的数据。附加内容可为，例如，与从物理环境的图形图像检测到的一个或多个对象有关的信息。处理器121可被配置为通过输出装置124渲染包括所捕获的图形图像、音频信息以及附加内容的多媒体数据，以产生增强现实体验。表示附加内容的数据可存储在存储装置128中，或可由外部源(例如，智能装置130)提供。
[0037]处理器121还可被配置为通过，例如获取关于用户动作的信息来为用户创建交互式体验，并且通过输出装置124渲染多媒体数据可基于用户动作来进行。在一些实施例中，用户动作可包括用户的位置变化，其可由处理器121基于，例如，来自运动传感器的数据以及来自图形图像的显著特征的跟踪来确定。在一些实施例中，用户动作还可包括手势，其可由处理器121基于由相机捕获的手势的图像来确定。处理器121可被配置为基于位置信息和/或手势信息来更新多媒体数据的渲染以创建交互式体验。在一些实施例中，处理器121还可被配置为通过，例如，基于用户的手势放大到物理环境中的特定位置、增大源自那个特定位置的音频信号的音量等来更新多媒体数据的渲染以增强用户的感知能力。
[0038]现在参考图2A和2B，其示出根据本公开实施例的用于提供增强现实的示例性多媒体渲染200a和200b。如图2A和2B所示，渲染200a和200b反映用户所位于的物理环境的图形表示。在一些实施例中，渲染200a和200b可由计算装置100的处理器221基于由一个或多个相机(例如，输入装置123)捕获的图形图像来构造。处理器221还可被配置为从图形图像检测手势，并且更新渲染以包括与手势有关的附加内容。作为说明性实例，如图2A和2B所示，渲染200a和200b可分别包括表示手势创建所涉及的手指的移动的虚线204a和204b。在一些实施例中，所检测到的手势可触发图形图像的额外处理以增强用户的感知能力(例如，视觉)。作为说明性实例，如图2A所示，在渲染200a中所渲染的物理环境包括对象204。对象204可基于第一手势的检测和创建第一手势的手指的移动(例如，如虚线202a指示)之间的重叠来选择。所述重叠可基于，例如，表示物理环境的3D图中的虚线202a的3D坐标与对象204的3D坐标之间的关系来确定。
[0039]在选择对象204之后，用户可提供第二手势(如虚线202b所指示)，其也可由处理器221检测。处理器221可基于在时间和空间上紧挨发生的两个手势的检测来确定第二手势将指示处理器221在物理环境的渲染中提供对象204的放大且夸大的图像。这可导致渲染200b，其中连同用户所位于的物理环境一起渲染表示对象204的放大且夸大的图像的图像206。通过向用户提供对象的夸大图像，从而允许用户感知比他或她将用裸眼在物理环境内的同一位置处所感知的细节多的关于对象的细节，可增强用户的感官能力。
[0040]在一些实施例中，对象204还可为插入在物理环境的渲染中的虚拟对象，并且图像206可为响应于对象204的选择和由虚线202b表示的手势的检测而提供的任何图像(或仅仅是叠加在物理环境的渲染之上的文字)。
[0041]返回参看图1，在一些实施例中，计算装置100还可包括网络接口 140以通过多种链路介接到LAN、WAN、MAN或因特网，所述链路包括但不限于标准电话线、LAN或WAN链路(例如，802.11、T1、T3、56kb、X.25)、宽带链路(例如，ISDN、帧中继、ATM)、无线连接(W1-F1、蓝牙、Z-Wave、Zigbee)或上述任何或全部链路的某种组合。网络接口 140可包括内置网络适配器、网络接口卡、PCMCIA网络卡、卡总线网络适配器、无线网络适配器、USB网络适配器、调制解调器或适于将计算装置100介接到能够通信并且执行本文所述的操作的任何类型的网络的任何其它装置。在一些实施例中，处理器121可经由网络接口 140将所生成的多媒体数据不仅传输到输出装置124，而且还传输到其它装置(例如，另一个计算装置100)。
[0042]图3是根据本公开实施例的用于沉浸式和交互式多媒体生成的示例性系统300的框图。如图3所示，系统300包括感测系统310、处理系统320、音频/视频系统330和供电系统340。在一些实施例中，系统300的至少一部分是用图1的计算装置100来实施的。
[0043]在一些实施例中，感测系统310被配置为提供用于生成交互式和沉浸式多媒体的数据。感测系统310包括图像感测系统312、音频感测系统313和运动感测系统314。
[0044]在一些实施例中，光学感测系统312可被配置为接收从物理环境反射或发射的各种波长的光(包括可见光和不可见光两者)。在一些实施例中，光学感测系统312包括例如一个或多个灰度红外(灰度IR)相机、一个或多个红-绿-蓝(RGB)相机、一个或多个RGB-1R相机、一个或多个飞行时间(TOF)相机或其组合。基于相机的输出，系统300可获取物理环境的图像数据(例如，以RGB像素和IR像素的形式表示)。光学感测系统312可包括一对相同的相机(例如，一对RGB相机、一对IR相机、一对RGB-1R相机等)，其中每个相机捕获左眼或右眼的视点。正如下文将论述，每个相机所捕获的图像数据可接着由系统300组合以创建物理环境的立体3D渲染。
[0045]在一些实施例中，光学感测系统312可包括被配置为照明对象的IR投影仪。所述照明可用以支持测距成像，所述测距成像使得系统300能够还基于立体匹配算法来确定物理环境中的相机与对象的不同部分之间的距离。基于所述距离信息，可创建对象的三维(3D)深度图以及物理环境的3D图。正如下文将论述，对象的深度图可用以创建表示对象的3D点云；如RGB相机所捕获的对象的RGB数据可接着被映射到3D点云以创建对象的3D渲染以用于产生虚拟现实和增强现实效果。另一方面，物理环境的3D图可用于位置和取向确定以创建交互式体验。在一些实施例中，还可包括飞行时间相机用于测距成像，所述测距成像允许确定相机与对象的各种部分之间的距离，并且可基于所述距离信息来创建物理环境的深度图。
[0046]在一些实施例中，IR投影仪还被配置为将某些图案(例如，条形码、拐角图案等)投射到物理环境的一个或多个表面上。正如下文将论述，用户的运动(如相机的运动所反映)可通过跟踪由相机捕获的各种显著特征点来确定，并且已知图案的投射(其接着由相机捕获并且由系统跟踪)实现高效且稳健的跟踪。
[0047]现在参看图4A至4F，其是分别示出根据本公开实施例的示例性相机系统400、420、440、460、480和494的示意图。图4A至4F的每个相机系统可为图3的光学感测系统312的一部分。
[0048]如图4A所示，相机系统400包括RGB相机402、IR相机404和IR照明器406，其全部附接到板408上。如上文论述，RGB相机402被配置为捕获RGB图像数据，IR相机404被配置为捕获IR图像数据，而IR相机404与IR照明器406的组合可用以创建正被成像的对象的深度图。如前文论述，在对象的3D渲染期间，可将RGB图像数据映射到从深度图创建的对象的3D点云表示。然而，在一些情况下，由于RGB相机与IR相机之间的位置差异，并不是可将RGB图像数据中的所有RGB像素均映射到3D点云。因而，可在对象的3D渲染中引入不精确性和偏差。
[0049]图4B示出相机系统420，所述相机系统420包括RGB-1R相机422和IR照明器424，其全部附接到板426上。RGB-1R相机442包括RGB-1R传感器，其包括联合在一起以形成像素群组的RGB像素传感器和IR像素传感器。在RGB像素传感器和IR像素传感器大体上位于共同位置的情况下，可消除RGB传感器与IR传感器之间的位置差异的上述影响。然而，在一些情况下，由于RGB光谱的一部分与IR光谱的一部分的重叠，使RGB像素传感器和IR像素传感器位于共同位置可导致RGB像素传感器的颜色产生以及RGB像素传感器所产生的彩色图像品质的降级。
[0050]图4C示出相机系统440，所述相机系统440包括IR相机442、RGB相机444、反射镜446和IR照明器448，其全部附接到板450上。在一些实施例中，反射镜446是半透明的，其具有IR反射涂层452。在光(包括可见光和由IR照明器448照明的对象所反射的IR光)入射在反射镜446上时，IR光可由反射镜446反射并且由IR相机442捕获，而可见光可穿过反射镜446并且由RGB相机444捕获。IR相机442、RGB相机444和反射镜446可被定位成使得IR相机442所捕获的IR图像(由IR反射涂层的反射造成)和RGB相机444所捕获的RGB图像(来自穿过反射镜446的可见光)可被对齐以消除IR相机442与RGB相机444之间的位置差异的影响。此外，由于IR光被反射离开RGB相机444，所以可改进RGB相机444所产生的彩色产品以及彩色图像品质。[0051 ] 图4D示出相机系统460，所述相机系统460包括RGB相机462、T0F相机464和IR照明器466，其全部附接到板468上。类似于相机系统400、420和440，RGB相机462被配置为捕获RGB图像数据。另一方面，TOF相机464和IR照明器406被同步以执行图像测距，所述图像测距可用以创建正被成像的对象的深度图，可从所述深度图创建对象的3D点云。类似于相机系统400，在一些情况下，归因于RGB相机与TOF相机之间的位置差异，并不是可将RGB图像数据中的所有RGB像素均映射到基于TOF相机的输出来创建的3D点云。因而，可在对象的3D渲染中引入不精确性和偏差。
[0052]图4E示出相机系统480，所述相机系统480包括TOF相机482、RGB相机484、反射镜486和IR照明器488，其全部附接到板490上。在一些实施例中，反射镜486是半透明的，其具有IR反射涂层492。在光(包括可见光和由IR照明器488照明的对象所反射的IR光)入射在反射镜446上时，IR光可由反射镜446反射并且由TOF相机482捕获，而可见光可穿过反射镜486并且由RGB相机484捕获。TOF相机482、RGB相机484和反射镜486可被定位成使得TOF相机442所捕获的IR图像(由IR反射涂层的反射造成)和RGB相机484所捕获的RGB图像(来自穿过反射镜486的可见光)可被对齐以消除TOF相机482与RGB相机484之间的位置差异的影响。此夕卜，由于IR光被反射离开RGB相机484，所以还可改进RGB相机484所产生的彩色产品以及彩色图像品质。
[0053]图4F示出相机系统494，所述相机系统494包括两个RGB-1R相机495和496，其中每个相机被配置为模拟人眼的视点。RGB-1R相机495和496的组合可用以生成立体图像并且生成物理环境中的对象的深度信息，如下文将论述。由于每个相机使RGB像素和IR像素位于共同位置，所以可减轻导致像素映射降级的RGB相机与IR相机之间的位置差异的影响。相机系统494还包括IR照明器497，其具有与上文论述的其它IR照明器类似的功能性。如图4F所示，RGB-1R相机495和496以及IR照明器497附接到板498。
[0054]返回参看图3，感测系统310还包括音频感测系统313和运动感测系统314。音频感测系统313可被配置为接收源自物理环境的音频信号。在一些实施例中，音频感测系统313包括(例如)一个或多个麦克风阵列。运动感测系统314可被配置为检测用户(以及系统，如果系统附接到用户的话)的运动和/或姿势。在一些实施例中，运动感测系统314可包括(例如)惯性运动传感器(MU)。在一些实施例中，感测系统310可为图1的输入装置123的一部分。
[0055]在一些实施例中，处理系统320被配置为处理来自光学感测系统312的图形图像数据、来自音频感测系统313的音频数据和来自运动感测系统314的运动数据，并且生成多媒体数据以用于渲染物理环境来创建虚拟现实和/或增强现实体验。处理系统320包括取向和位置确定模块322、手势确定系统模块323以及图形和音频渲染引擎模块324。如前文所论述，这些模块中的每一者可为由处理器(例如，图1的处理器121)执行的软件模块，或被配置为执行特定功能的硬件模块(例如，ASIC)。
[0056]在一些实施例中，取向和位置确定模块322可基于感测系统310的至少一些输出来确定用户的取向和位置，可基于所述取向和位置来渲染多媒体数据以产生虚拟现实和/或增强现实效果。在系统300由用户穿戴(例如，护目镜)的情况下，取向和位置确定模块322可确定系统的一部分(例如，相机)的取向和位置，其可用以推断用户的取向和位置。所确定的取向和位置可相对于在移动发生之前的用户的先前取向和位置来说。
[0057]现在参看图5，其是示出根据本公开实施例的用于确定(例如，感测系统310的)一对相机的取向和位置的示例性方法500的流程图。将容易理解，可更改所示出的程序以删除若干步骤或进一步包括额外步骤。尽管方法500被描述为由处理器(例如，取向和位置确定模块322)执行，但应当理解，方法500可由其它装置单独执行或结合处理器来执行。
[0058]在步骤502中，处理器可获得来自第一相机的第一左侧图像和来自第二相机的第一右侧图像。左侧相机可为(例如)图4F的RGB-1R相机495，而右侧相机可为例如图4F的RGB-1R相机496。第一左侧图像可表示来自用户的左眼的对物理环境的视点，而第一右侧图像可表示来自用户的右眼的对物理环境的视点。两个图像均可为IR图像、RGB图像或两者的组合(例如，RGB-1R)。
[0059]在步骤504中，处理器可从第一左侧图像数据和从右侧图像数据识别一组第一显著特征点。在一些情况下，显著特征可为预先存在于物理环境中的物理特征(例如，墙壁上的特定标记、衣服的特征等)，并且基于与这些特征相关联的RGB像素和/或IR像素识别显著特征。在一些情况下，所述显著特征可由IR照明器(例如，图4F的IR照明器497)创建，所述IR照明器将特定IR图案(例如，圆点)投射到物理环境的一个或多个表面上。所述一个或多个表面可将IR反射回到相机。如前文所论述，那些IR图案可被设计用于实现高效检测和跟踪，诸如均匀分布并且包括锐利的边缘和拐角。在一些情况下，所述显著特征可通过放置固定在物理环境内的某些位置处并且在环境内投射IR图案的一个或多个IR投影仪来创建。
[0060]在步骤506中，处理器可基于用于三角测量的立体约束来从所识别的第一显著特征查找对应对。所述立体约束可包括(例如)基于立体属性、偏差容忍限度等来限制每个图像内的用于对应对第一显著特征的搜索范围。对应对的识别可基于候选特征的IR像素、候选特征的RGB像素和/或两者的组合来进行。在识别一对对应第一显著特征之后，可确定其在左侧图像和右侧图像内的位置差异。基于所述位置差异和第一相机与第二相机之间的距离，可经由线性三角测量来确定第一显著特征(在其出现于物理环境中时)与第一相机和第二相机之间的距离。
[0061]在步骤508中，基于通过线性三角测量所确定的第一显著特征与第一相机和第二相机之间的距离以及第一显著特征在左侧图像和右侧图像中的位置，处理器可确定第一显著特征的一个或多个3D坐标。
[0062]在步骤510中，处理器可在表示物理环境的3D图中添加或更新在步骤508中所确定的第一显著特征的3D坐标和关于第一显著特征的信息。所述更新可基于(例如)同时定位与映射算法(SLAM)来执行。所存储的信息可包括(例如)与第一显著特征相关联的IR像素和RGB像素信息。
[0063]在步骤512中，在相机的移动(例如，由携带相机的用户的移动造成)之后，处理器可获得第二左侧图像和第二右侧图像，并且在所述移动之后从第二左侧和右侧图像识别第二显著特征。所述识别过程可类似于步骤504。正被识别的第二显著特征与同第二左侧图像相关联的第一 2D空间和同第二右侧图像相关联的第二 2D空间内的2D坐标相关联。
[0064]在步骤514中，处理器可将第一显著特征的3D坐标(在步骤508中确定的)重新投影到第一 2D空间和第二 2D空间中。
[0065]在步骤516中，处理器可基于(例如)位置接近性、特征接近性和立体约束来识别对应于第一显著特征的一个或多个第二显著特征。
[0066]在步骤518中，处理器可确定第一2D空间和第二2D空间中的每一者内的第一显著特征的重新投影位置与第二显著特征的2D坐标之间的距离。可接着基于所述距离来确定在移动之前和之后的第一相机和第二相机的相对3D坐标和取向，使得(例如)如此确定的该组3D坐标和取向使第一 2D空间和第二 2D空间两者中的距离减到最小。
[0067]在一些实施例中，方法500还包括一个步骤(图5中未示出)，其中处理器可执行3D图中的显著特征的坐标的光束平差以使左侧图像与右侧图像之间的显著特征的位置差异减到最小。所述调整可与方法500的任何步骤同时执行，并且可仅对关键帧执行。
[0068]在一些实施例中，处理器还可使用来自我们的输入装置的数据以促进方法500的执行。例如，处理器可获得来自一个或多个运动传感器(例如，运动感测系统314)的数据，处理器可从所述数据确定已经发生相机的运动。基于这个确定，处理器可执行步骤512。在一些实施例中，处理器还可使用来自运动传感器的数据来促进步骤518中的对相机的位置和取向的计算。
[0069]返回参看图3，处理系统320还包括手势确定模块323。在一些实施例中，手势确定模块323可从来自光学感测系统312的图形图像数据检测手势。所述手势信息技术与2013年9月23日申请的第14/034,286号美国申请和2014年8月18日申请的第14/462,324号美国申请中所描述的那些技术有关。上文提及的申请以引用的方式并入本文中。如此确定的手势信息可用以更新物理环境的渲染(图形和音频两者)以提供附加内容且/或增强用户的感官能力，如前文在图2A至2B中论述。例如，在一些实施例中，手势确定模块323可确定与手势相关联的解释(例如，以选择用于放大的对象)，并且接着将所述解释和其它相关信息提供给下游逻辑(例如，图形和音频渲染模块324)以更新渲染。
[0070]现在参看图6，其是示出根据本公开实施例的用于基于所检测到的手势更新多媒体渲染的示例性方法600的流程图。将容易理解，可更改所示出的程序以删除若干步骤或进一步包括额外步骤。尽管方法600被描述为由处理器(例如，手势确定模块323)执行，但应当理解，方法600可由其它装置单独执行或结合处理器来执行。
[0071]在步骤602中，处理器可接收来自(例如，光学感测系统312的)一个或多个相机的图像数据。在相机是灰度IR相机的情况下，处理器可获得IR相机图像。在相机是RGB-1R相机的情况下，处理器可获得IR像素数据。
[0072]在步骤604中，处理器可基于上文所论述的技术从图像数据确定手势。所述确定还包括确定手势的类型(其可指示特定命令)和手指的轨线的3D坐标(在创建手势的过程中)两者。
[0073]在步骤606中，处理器可确定与所检测到的手势有关的对象，其被渲染为沉浸式多媒体数据的一部分。例如，在手势发信号通知选择的情况下，确定正由所述手势选择的渲染对象。所述确定可基于3D图中的手势的轨线的3D坐标与对象的3D坐标之间的关系，所述关系指示在用户的角度来看手势的某个部分与对象的至少一部分重叠。
[0074]在步骤608中，处理器可基于关于步骤604中所确定的手势和步骤608中所确定的对象的信息来确定更改多媒体数据的渲染。作为说明性实例，基于确定在步骤604中所检测到的手势与选择对象(不管其是位于物理环境中的真实对象，还是插入在渲染中的虚拟对象)用于缩放动作的命令相关联，处理器可将对象的夸大图像提供给下游逻辑(例如，图形和音频渲染模块324)用于渲染。作为另一个说明性实例，如果手势与用于显示关于对象的额外信息的命令相关联，则处理器可将所述额外信息提供给图形和音频渲染模块324用于渲染。
[0075]返回参看图3，基于关于相机的取向和位置的信息(由(例如)取向和位置确定模块322提供)和关于所检测到的手势的信息(由(例如)手势确定模块323提供)，图形和音频渲染模块324可渲染沉浸式多媒体数据(图形和音频两者)以创建交互式虚拟现实和/或增强现实体验。各种方法可用于渲染。在一些实施例中，图形和音频渲染模块324可创建与捕获用于左眼的图像的第一相机相关联的第一 3D网格(可为平面的或弯曲的)以及与捕获用于右眼的图像的第二相机相关联的第二 3D网格(也可为平面的或弯曲的)。可将3D网格放置在距相机的特定虚想距离处，并且可确定3D网格的大小以使得其适合相机在那个虚想距离处的视见体的大小。图形和音频渲染模块324可接着将左侧图像(由第一相机获得)映射到第一 3D网格，并且将右侧图像(由第二相机获得)映射到第二 3D网格。图形和音频渲染模块324可被配置为在渲染用于左眼的场景时仅显示第一 3D网格(和映射到其的内容)并且在渲染用于右眼的场景时仅显示第二 3D网格(和映射到其的内容)。
[0076]在一些实施例中，图形和音频渲染模块324还可使用3D点云执行渲染。如前文所论述，在确定位置和取向期间，可基于IR像素数据确定物理环境内的显著特征(和相关联对象)的深度图。可接着基于深度图生成物理环境的3D点云。图形和音频渲染模块324可将物理环境的RGB像素数据(例如，由RGB相机或RGB-1R传感器的RGB像素获得)映射到3D点云以创建环境的3D渲染。
[0077]在一些实施例中，在3D虚拟对象的图像将与物理环境的实时图形图像混合的情况下，图形和音频渲染模块324可被配置为基于虚拟3D对象和物理环境的深度信息以及相机的位置和取向来确定渲染。现在参看图7A和7B，其示出根据本公开实施例的将3D虚拟对象的图像混合到物理环境的实时图形图像中。如图7A所示，环境700包括物理对象702和物理对象706。图形和音频渲染模块324被配置为在渲染环境700时将虚拟对象704插入在物理对象702与物理对象706之间。环境700的图形图像由相机708沿着从位置A到位置B的路线710捕获。在位置A处，物理对象706在渲染环境内相对于虚拟对象704来说较靠近相机708，并且遮蔽虚拟对象704的一部分，而在位置B处，虚拟对象704在渲染环境内相对于物理对象706来说较靠近相机708。
[0078]图形和音频渲染模块324可被配置为基于其深度信息以及相机的位置和取向来确定虚拟对象704和物理对象706的渲染。现在参看图8，其是示出根据本公开实施例的用于将虚拟对象图像与物理环境的图形图像混合的示例性方法800的流程图。尽管方法800被描述为由处理器(例如，图形和音频渲染模块324)执行，但应当理解，方法800可由其它装置单独执行或结合处理器来执行。
[0079]在步骤802中，处理器可接收与虚拟对象(例如，图7A的虚拟对象704)的第一图像的像素相关联的深度信息。所述深度信息可基于由(例如)图3的取向和位置确定模块322确定的相机708的位置和取向来生成。例如，基于3D图内的虚拟对象的预定位置和那个3D图中的相机的位置，处理器可确定相机与虚拟对象之间的距离。
[0080]在步骤804中，处理器可确定与物理对象(例如，图7A的物理对象706)的第二图像的像素相关联的深度信息。所述深度信息可基于由(例如)图3的取向和位置确定模块322确定的相机708的位置和取向来生成。例如，基于3D图内的物理对象的先前确定的位置(例如，使用SLAM算法)和那个3D图中的相机的位置，可确定相机与物理对象之间的距离。
[0081 ] 在步骤806中，处理器可比较两个像素的深度信息，并且接着在步骤808中，基于比较结果确定渲染所述像素中的一者。例如，如果处理器确定物理对象的像素比虚拟对象的像素更靠近相机(例如，在图7B的位置A处)，则处理器可确定虚拟对象的像素被物理对象的像素遮蔽，并且确定渲染物理对象的像素。
[0082]返回参看图3，在一些实施例中，图形和音频渲染模块324还可提供音频数据用于渲染。音频数据可从例如音频感测系统313(诸如麦克风阵列)收集。在一些实施例中，为了提供增强的感官能力，可基于用户指令(例如，经由手势检测到)夸大一些音频数据。例如，使用麦克风阵列，图形和音频渲染模块324可确定音频数据源的位置，并且可基于用户指令确定增大或减小与那个特定源相关联的音频数据的音量。在音频数据的虚拟源将与源自物理环境的音频信号混合的情况下，图形和音频渲染模块324还可以与方法800相似的方式确定麦克风与虚拟源之间的距离以及麦克风与物理对象之间的距离。基于所述距离，图形和音频渲染模块324可确定来自虚拟源的音频数据是否被物理对象阻断，并且相应地调整音频数据的渲染。
[0083]在确定待渲染的图形和音频数据之后，图形和音频渲染模块324可接着将图形和音频数据提供给音频/视频系统330，所述音频/视频系统330包括被配置为显示所渲染的图形数据的显示系统332(例如，显示屏)以及被配置为播放所渲染的音频数据的音频输出系统334(例如，扬声器)。图形和音频渲染模块324还可将图形和音频数据存储在存储装置(例如，图1的存储装置128)处，或将数据提供给网络接口(例如，图1的网络接口 140)以传输到另一个装置用于渲染。
[0084]另外，系统300还包括供电系统340，其通常包括电池和供电管理系统(图3中未示出)。
[0085]系统300的一些部件(软件或硬件)可分布在不同平台上。例如，如图1所论述，计算系统100(可基于其实施系统300)可连接到智能装置130(例如，智能电话)。智能装置130可被配置为执行处理系统320的一些功能。例如，智能装置130可被配置为执行图形和音频渲染模块324的功能性。作为说明性实例，智能装置130可接收来自取向和位置确定模块322的关于相机的取向和位置的信息和来自手势确定模块323的手势信息，以及来自感测系统310的关于物理环境的图形和音频信息，并且接着执行图形和音频的渲染。作为另一个说明性实例，智能装置130可正在操作另一个软件(例如，应用程序)，所述软件可生成待添加到多媒体渲染的附加内容。智能装置130可接着将附加内容提供给系统300(其经由图形和音频渲染模块324执行渲染)，或可仅仅将附加内容添加到图形和音频数据的渲染。
[0086]图9A至9B是示出根据本公开实施例的示例性头戴式交互式沉浸式多媒体生成系统900的示意图。在一些实施例中，系统900包括计算装置100、系统300和图4F的相机系统494的实施例。
[0087]如图9A所示，系统900包括具有一对开口 904的外壳902和头带906。外壳902被配置为固持被配置为生成交互式沉浸式多媒体数据的一个或多个硬件系统。例如，外壳902可固持电路板950(如图9B示出)，其包括一对相机954a和954b、一个或多个麦克风956、处理系统960、运动传感器962、供电管理系统964、一个或多个连接器968以及IR投影仪/照明器970。相机954a和954b被配置为生成物理环境的图形数据，并且可各自包括RGB-1R相机。麦克风956被配置为收集来自环境的音频数据以渲染为沉浸式多媒体数据的一部分。处理系统960可为通用处理器、FPGA、ASIC等，其被配置为执行图3的处理系统300的至少一些功能。连接器968被配置为将系统900连接到移动装置(例如，智能电话)，所述移动装置充当图1的智能装置130以提供额外能力(例如，渲染音频和图形数据、提供附加内容用于渲染等)，使得处理系统960可与移动装置通信。在此类情况下，外壳902还提供用以固持移动装置的内部空间。外壳902还包括一对透镜(图中未示出)以及任选地，显示装置(其可由移动装置提供)，所述显示装置被配置为显示由移动装置和/或由处理系统960渲染的立体3D图像。外壳902还包括开口 904，相机954可通过所述开口捕获系统900所位于的物理环境的图像。
[0088]如图9A所示，系统900还包括一组头带906。所述头带可被配置为允许人们将系统900穿戴在她的头上，使她的眼睛暴露到显示装置和透镜。在一些实施例中，电池可位于头带中，所述头带还可提供电池与容纳在外壳902中的系统之间的电连接。
[0089]利用本公开的实施例，可提供用户(和相机)的3D位置和取向的精确跟踪。基于用户的位置和取向信息，可提供交互式沉浸式多媒体体验。所述信息还实现虚拟对象的图像与物理环境的图像的逼真混合以创建增强现实和虚拟现实的组合体验。本公开的实施例还使得用户能够有效地更新物理环境的多个部分的图形和音频渲染以增强用户的感官能力。
[0090]在前述的说明书中，已参照可根据各种实现方式变化的多个具体细节来描述实施例。可以对所描述的实施例进行特定的修改和变型。考虑到本文公开的本发明的说明书和实践，其他实施例对于本领域技术人员是显而易见的。本发明意在将说明书和实施例被认为是仅示例性的，由所附权利要求来指示本发明的真正范围和意旨。本发明还意在在图中所示的步骤顺序仅用于说明的目的，并不意在限制步骤的任何特定顺序。正因为如此，本领域技术人员可以理解，这些步骤可以以不同的顺序来实施相同的方法。
【主权项】
1.一种设备，包括: 光学感测系统，其包括至少一个相机，所述至少一个相机被配置为获取物理环境的图像；处理系统，其包括: 取向和位置确定模块，其被配置为: 从所述图像检测显著特征，并且基于所述所检测到的显著特征确定所述设备相对于所述物理环境的取向和/或位置变化；以及渲染模块，其被配置为: 基于所述图像和所述所确定的所述设备的取向和/或位置变化来确定所述物理环境的渲染，并且将与所述物理环境的所述渲染有关的数据提供给显示系统。2.根据权利要求1所述的设备，其中: 所述光学感测系统包括第一相机和第二相机，所述第一相机被配置为获取所述物理环境的第一图像，并且所述第二相机被配置为获取所述物理环境的第二图像；所述取向和位置确定模块被配置为: 当所述设备在所述物理环境中处于第一位置时，从所述第一图像和第二图像检测第一显著特征，确定与所述第一显著特征相关联的第一组坐标，当所述设备在所述物理环境中处于第二位置时，从所述第一图像和第二图像检测第二显著特征，确定与所述第二显著特征相关联的第二组坐标，并且响应于确定所述第一显著特征和第二显著特征彼此对应，基于所述第一组和第二组坐标来确定所述设备相对于所述物理环境的取向和/或位置变化；并且所述渲染模块被配置为基于所述第一图像和第二图像并且基于所述设备的所述所确定的取向和/或位置变化来确定所述物理环境的立体渲染。3.根据权利要求2所述的设备，其中所述第一相机和第二相机中的每一者包括红-绿-蓝-红外(RGB-1R)像素传感器。4.根据权利要求1所述的设备，其中所述光学感测系统包括第一相机、第二相机和反射镜，所述第一相机被配置为获取红外(IR)图像，所述第二相机被配置为获取红-绿-蓝(RGB)图像，并且所述反射镜被配置为将IR光反射离开所述第二相机并且将所述IR图像与所述RGB图像对齐。5.根据权利要求4所述的设备，其中所述第一相机是飞行时间相机。6.根据权利要求4所述的设备，其中所述第一相机是IR相机。7.根据权利要求1所述的设备，其中所述光学感测系统包括IR照明器，其被配置为将一个或多个图案投射到所述物理环境中；其中所述所检测到的显著特征包括所述一个或多个图案。8.根据权利要求1所述的设备，其中: 所述处理系统还包括手势确定模块，其被配置为: 从所述图像检测手势，并且确定与所述手势相关联的用户指令；并且所述渲染模块被配置为基于所述所确定的用户指令确定所述物理环境的所述渲染。9.根据权利要求8所述的设备，其中: 所述手势确定模块被配置为确定所述用户指令与被渲染的对象的选择相关联;并且所述渲染模块被配置为基于所述用户指令确定所述对象的所述渲染的变化。10.根据权利要求9所述的设备，其中所述对象是虚拟对象。11.根据权利要求9所述的设备，其中所述对象是存在于所述物理环境中的物理对象。12.根据权利要求1所述的设备，其中所述渲染模块被配置为在所述物理环境的所述渲染中将虚拟对象的图像与位于所述物理环境中的物理对象的图像混合;其中所述混合是基于与所述虚拟对象相关联的第一组坐标和与所述物理对象相关联的第二组坐标。13.根据权利要求12所述的设备，其中所述混合包括与所述虚拟对象相关联的音频数据和源自所述物理环境的音频信号的渲染。14.根据权利要求1所述的设备，还包括被配置为连接到智能电话的连接器。15.根据权利要求14所述的设备，其中所述智能电话包括所述处理系统的至少一部分。16.根据权利要求14所述的设备，其中: 所述智能电话被配置为提供附加内容；并且所述渲染模块被配置为基于所述图像和所述附加内容确定所述物理环境的渲染。
【文档编号】G09G5/00GK106062862SQ201580005780
【公开日】2016年10月26日
【申请日】2015年10月23日
【发明人】费越, 何安莉
【申请人】何安莉, 费越

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：费越;何安莉;
技术所有人：何安莉;费越;
我是此专利的发明人