提供环绕视频的头戴式显示设备的制作方法

文档序号:2673396阅读:558来源:国知局
专利名称:提供环绕视频的头戴式显示设备的制作方法
技术领域
本发明涉及提供环绕视频的头戴式显示设备。
技术背景
头戴式显示(HMD)设备可用于各种应用中,包括军事、航空、医学、视频游戏、娱乐、体育等等。透视(see-through)HMD设备允许用户观察他或她周围的物理世界,而光学元件将来自一个或多个小型微显示器的光增加到用户的视觉路径中,以提供增强现实图像 (augmented reality image) 0增强现实图像可以与表示用户所处的环境的现实世界场景有关。期望为用户提供身临其境的视觉体验。发明内容
提供一种用户显示装置。该用户显示装置可包括具有相关联电学和光学组件的头戴式部分,所述组件提供对增强现实内容的每用户的、个性化的视点(point-of-view)。在一种方法中,增强现实内容增强或取代诸如电视机或其他视频显示屏上的视频内容。通过在空间中任何地方、对每个用户都透视正确(perspective-correct)地放置声音和图像, 增强现实内容使用户从视频显示屏的约束中解放出来。能够向每个用户呈现不同信息,所述信息对该用户的视点、环境上下文、兴趣和意图是个性化的。在一些情况下,增强现实内容是可基于例如用户的位置或姿势来交互的。
在一个实施例中,用户显示设备包括HMD设备,该HMD设备包括透视透镜。例如, 可通过包括增强现实发射器的眼镜来提供HMD设备,该增强现实发射器向用户的眼睛发射光,以提供增强现实视频图像。提供至少一个传感器,该传感器跟踪用户头部的取向和位置。例如,诸如惯性测量单元等传感器可被安装到HMD设备上。可选地,与HMD设备分开地提供诸如深度相机等附加传感器,并将该附加传感器放置为面向用户。提供至少一个控制电路,所述控制电路能够响应于至少一个传感器来控制增强现实发射器,以显示增强现实视频图像。而且,所述显示可响应于确定该用户正在看着视频监视器而被提供,其中增强现实视频图像增强并同步于该视频监视器显示的内容。
例如,增强现实视频图像可在对用户来说看上去像是毗邻于视频显示屏的至少一条边并从该至少一条边向外延伸、与该视频显示屏在共同的竖直面上的空间区域中显示, 以使得该增强现实视频图像对用户来说看上去像是该视频显示屏所显示的内容的延续,例如,通过与该视频显示屏所显示的内容具有共同色彩和/或光照元素。
在另一实施例中,从用户视角呈现3-D图像,诸如看上去像是从该视频显示设备中出来并在房间到处移动的物体。
提供本发明内容以便以简化形式介绍将在以下的具体实施方式
中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。


在附图中,相同编号的元件彼此对应。
图1是描绘HMD设备的一个实施例的示例组件的框图。
图2是HMD设备的一个实施例的一部分的俯视图。
图2A描绘基于增强现实图像的形状的不透光滤光器的示例配置。
图2B描绘示例现实世界场景。
图2C描绘与图2A的不透光滤光器的配置相对应的增强现实图像。
图2D描绘用户看到的示例混合现实图像。
图3是HMD设备的组件的一个实施例的框图。
图4是与HMD设备相关联的处理单元的组件的一个实施例的框图。
图5是与HMD设备一起使用的中枢计算系统的组件的一个实施例的框图。
图6是可用于实现本文描述的中枢计算系统的计算系统的一个实施例的框图。
图7是描绘多用户系统的框图。
图8是描述中枢跟踪用户和/或HMD设备的位置和取向的过程的一个实施例的流程图。
图9是描述用于跟踪眼睛位置的过程的一个实施例的流程图。
图10是描述用于确定用户视野的过程的一个实施例的流程图。
图IlA描绘其中用户使用HMD设备来观看视频显示屏的环境。
图IlB描绘图IlA的HMD设备的相机的视图,其中标识出了物体的轮廓。
图12A描绘视屏显示屏,以及从该视频显示屏的边延伸的区域。
图12B描绘具有视频内容的图12A的视频显示屏,以及具有增强并同步于该视频显示屏的视频内容的增强现实视频的图12A的区域。
图12C描绘经由HMD设备看到的图12B的图像。
图12D描绘图12B的一种替代,其中该视屏显示屏被阻挡并被更大面积的增强现实视频取代。
图12E描绘经由HMD设备看到的图12D的图像。
图13A描绘具有视频内容的视屏显示屏,其中还提供虚拟观众的增强现实视频。
图13B描绘经由HMD设备看到的图13A的图像。
图14A描绘不同用户相对于视频显示屏的不同视角和位置。
图14B描绘第一用户从第一视角看到的3-D增强现实物体,其中该物体看上去像是正从视频显示屏中出来。
图14C描绘第二用户从第二视角看到的图14C的3-D增强现实物体,其中该物体看上去像是正从视频显示屏中出来。
图14D描绘经由HMD设备看到的图14B的图像。
图14E描绘经由HMD设备看到的图14C的图像。
图15A描绘视频显示屏以及当用户看着该视频显示屏时处于基本竖直面上的一静态位置中的增强现实图像。
图15B描绘当用户向下看时处于基本水平面上的一静态位置中的增强现实图像。
图15C描绘经由HMD设备看到的图15A的图像。
图15D描绘经由HMD设备看到的图15B的图像。
图16描绘检测视频显示屏的边的过程的流程图。
图17描绘提供毗邻视频显示屏的边的增强现实视频的过程的流程图。
图18描绘从用户视角呈现3-D虚拟观众的过程的流程图。
图19描绘从用户视角呈现与视屏显示屏的内容相关联的3-D物体的过程的流程图。
图20示出在一静态位置呈现增强现实图像的过程的流程图。
具体实施方式
透视HMD设备最常使用诸如反射镜(mirror)、棱镜和全息透镜等光学元件将来自一个或两个小型微显示器的光增加到用户的视觉路径中。使用HMD设备,结合视屏显示屏的内容,可为用户提供身临其境的视觉“环绕视频”体验。通过标识出视频显示屏在用户视野中的位置,并通过跟踪用户头部的取向和/或位置,可从用户的当前视角呈现增强现实图像,并且在用户头部的取向和/或位置改变时实时更新增强现实图像。进而,增强现实图像可在空间和/或时间上与视频显示屏的内容同步。在一种方法中,增强现实图像扩展视频显示屏的大小以提供身处影院的感觉。可选地,增强现实图像可提供虚拟观众以再次提供身处影院的感觉。还可提供观众的空间化音频(spatialized audio)以增加逼真度。空间化音频是被处理以给听众声源在三维(3-D)环境中的特定位置中的印象的声音。在另一方法中,增强现实图像提供看上去像是从视频显示屏向外浮现并在用户所处的房间内移动的虚拟物体。从每个用户的视角不同地呈现该虚拟物体以带来更大的逼真度。该虚拟物体可与视频显示屏的内容同步以使该虚拟物体是该内容的自然延伸。
在另一方法中,增强现实图像可在离开视频显示屏的一静态位置中提供,并提供与该视频显示屏的内容有关或无关的信息。有关的内容可包括与在视频显示屏上提供的电影有关的导演评论或演员采访,或诸如在视频显示屏上的烹调相关电视节目上展示的菜谱等文本指令。无关的内容可包括诸如e-mail或文本消息窗等web数据,或来自社交联网网站(例如,TWITTER 、FACEBOOK )的馈送。
视频显示屏可包括静止的或移动的电视机(该电视机是具有调谐器的视频监视器)或没有调谐器的视频监视器(诸如在计算机系统或其他视频显示屏中使用的)。例如, 较大格式的视频显示屏可以被安装到房间内的墙上或安放在桌子上,而较小格式的视频显示屏可在诸如膝上型计算机、平板、移动电话等移动设备中。进而,视频显示屏可以是平面的或曲面的,例如,球面或柱面的。
图1是描绘装载有HMD的显示设备的一个实施例的示例组件的框图。HMD设备2 经由接线6与处理单元4通信。在其他实施例中,HMD设备2经由无线通信与处理单元4通信。头戴式显示设备2 (在一个实施例中是眼镜形的,包括具有透视透镜的镜架)被佩戴在用户的头上以使该用户能透视显示器并由此看见包括不是由HMD设备生成的图像的现实世界场景。下面提供HMD设备2的更多细节。
在一个实施例中,处理单元4被佩戴在用户的腕上,并且包括许多用于操作HMD设备2的计算能力。处理单元4可以与一个或多个中枢计算系统12无线地(例如使用WiFi 、 蓝牙、红外(例如IrDA,即红外数据协会标准)、或其他无线通信手段)通信。
中枢计算系统12可以是计算机、游戏系统或控制台等等。根据一示例性实施例, 中枢计算系统12可以包括硬件组件和/或软件组件,以使得中枢计算系统12可用于执行诸如游戏应用、非游戏应用等等之类的应用。在一个实施例中,中枢计算系统12可以包括诸如标准化处理器、专用处理器、微处理器等等之类的处理器,这些处理器可以执行存储在处理器可读存储设备上的指令以用于执行在此所述的过程。
中枢计算系统12还包括一个或多个捕捉设备,如捕捉设备20A和20B。在其他实施例中,可以使用多于或少于两个的捕捉设备。在一个示例性实施方式中,捕捉设备20A和 20B指向不同方向,以使它们捕捉房间的不同部分。可能有利的是,两个捕捉设备的视野稍微地重叠,使得中枢计算系统12可以理解捕捉设备的视野如何彼此相关。通过这种方式, 可以使用多个捕捉设备来查看整个房间(或其他空间)。替代地,如果捕捉设备可以在操作期间摇动(pan),使得整个相关空间随时间被捕捉设备查看,则可以使用一个捕捉设备。
捕捉设备20A和20B可以是例如相机,该相机在视觉上监视一个或多个用户和周围空间,从而可以捕捉、分析并跟踪该一个或多个用户所执行的姿势和/或移动以及周围空间的结构,以执行一个或多个控制或动作。
中枢计算环境12可以连接到诸如电视机、监视器、高清电视机(HDTV)等可提供游戏或应用视觉的视听设备16。例如,中枢计算系统12可包括诸如图形卡等视频适配器和 /或诸如声卡等音频适配器,这些适配器可提供与游戏应用、非游戏应用等相关联的视听信号。视听设备16可从中枢计算系统12接收视听信号,然后可以输出与该视听信号相关联的游戏或应用视觉和/或音频。根据一个实施例,视听设备16可经由例如S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆、RCA电缆等连接至中枢计算系统12。 在一个示例中,视听设备16包括内置扬声器。在其他实施例中,视听设备16、单独的立体声系统或中枢计算设备12连接到外置扬声器。
中枢计算设备10可以与捕捉设备20A和20B —起用于识别、分析和/或跟踪人类 (以及其他类型的)目标。例如,可使用捕捉设备20A和20B来跟踪佩戴HMD设备2的用户,使得可以捕捉用户的姿势和/或移动来使化身或屏幕上人物动画化,和/或可将用户的姿势和/或移动解释为可用于影响中枢计算系统12所执行的应用的控制。
用户显示装置例如可由HMD设备2以及可选地中枢计算系统12或其他组件提供。
图2示出了 HMD设备2的俯视图,该HMD设备包括镜架中包括镜腿102和鼻中104 的那部分。仅示出了 HMD设备2的右侧。在鼻中104中置入了话筒110以用于记录声音以及将该音频数据传送给处理单元4,这将在下面予以描述。在HMD设备2的前方是朝向房间的可捕捉视频和静止图像的视频相机113。还可以提供朝向房间的深度相机。这些图像被传送给处理单元4,这将在下面予以描述。朝向房间的视频相机113面朝外,并具有与用户的视点类似的视点。
HMD设备2的镜架的一部分将围绕显示器(该显示器包括一个或多个透镜)。为了示出HMD设备2的组件,未描绘围绕显示器的镜架部分。该显示器包括光导光学元件112、 不透光滤光器114、透视透镜116和透视透镜118。在一个实施例中,不透光滤光器114处于透视透镜116之后并与其对齐,光导光学元件112处于不透光滤光器114之后并与其对齐,并且透视透镜118处于光导光学元件112之后并与其对齐。透视透镜116和118是眼镜中使用的标准透镜,并且可根据任何处方(包括无处方)来制作。在一个实施例中,透视透镜116和118可由可变处方透镜取代。在一些实施例中,HMD设备2将仅仅包括一个透视透镜或者不包括透视透镜。在另一替代方案中,处方透镜可以进入光导光学元件112内。 不透光滤光器114滤除自然光(要么以每像素为基础,要么均勻地)以增强虚拟图像的对比度。光导光学元件112将人造光引导至眼睛。下面提供不透光滤光器114和光导光学元件112的更多细节。
在镜腿102处或镜腿102内安装有图像源,该图像源(在一个实施例中)包括用于对虚拟图像进行投影的微显示器120、以及用于将图像从微显示器120引导到光导光学元件112中的透镜122。在一个实施例中,透镜122是准直透镜。增强现实发射器可包括微显示器120、诸如透镜122和光导112等一个或多个光学组件、以及诸如驱动器等相关电子装置。这样的增强现实发射器与该HMD设备相关联,并向用户的眼睛发射光,其中该光表示增强现实视频图像。
控制电路136提供支持HMD设备2的其他组件的各种电子装置。下面参考图3提供控制电路136的更多细节。处于镜腿102内部或安装在镜腿102处的有耳机130、惯性传感器132、以及温度传感器138。在一个实施例中,惯性传感器132包括三轴磁力计132A、三轴陀螺仪132B、以及三轴加速度计132C(参见图幻。惯性传感器用于感测HMD设备2的位置、取向、突然加速。例如,惯性传感器可以是用于确定用户头部的取向和/或方位的一个或多个传感器。
微显示器120通过透镜122来投影图像。存在着可用于实现微显示器120的不同的图像生成技术。例如,微显示器120可以使用透射投影技术来实现,其中光源由光学有源材料来调制,用白光从背后照亮。这些技术通常是使用具有强大背光和高光学能量密度的 LCD类型的显示器来实现的。微显示器120还可使用反射技术来实现,其中外部光被光学有源材料反射并调制。根据该技术,由白光源或RGB源向前点亮照明。数字光处理(DLP)、硅上液晶(LCOS)、以及MIRASOL (来自高通公司的显示技术)都是高效的反射技术的示例,因为大多数能量从调制结构反射。附加地,微显示器120可以使用发射技术来实现,其中光由该显示器生成。例如,PicoP 显示引擎(可从MICR0VISI0N有限公司获得)使用微型镜面操控来将激光信号发射到充当透射元件的微小屏幕上或直接照射到眼睛(例如激光)。
光导光学元件112将来自微显示器120的光传送到佩戴HMD设备2的用户的眼睛 140。光导光学元件112还允许如箭头142所描绘那样将光从HMD设备2的前方通过光导光学元件112透射到用户的眼睛140,从而除接收来自微显示器120的虚拟图像之外还允许用户具有HMD设备2的前方的空间的实际直接视图。因此,光导光学元件112的壁是透视的。光导光学元件112包括第一反射面124(例如镜面或其他表面)。来自微显示器120 的光穿过透镜122并入射在反射面IM上。反射面124反射来自微显示器120的入射光, 使得光通过内反射而被捕获在包括光导光学元件112的平面基底内。在离开基底的表面的若干反射之后,所捕获的光波到达选择性反射面126的阵列。注意,五个表面中只有一个表面被标记为126以防止附图太过拥挤。
反射面1 将从基底出射并入射在这些反射面上的光波耦合到用户的眼睛140。 由于不同光线将以不同角度传播并弹离基底的内部,因此这些不同的光线将以不同角度击中各个反射面126。因此,不同光线将被所述反射面中的不同反射面从基底中反射出。关于哪些光线将被哪个表面1 从基底反射出的选择是通过选择表面126的合适角度来设计的。光导光学元件的更多细节可以在于2008年11月20日公开的美国专利申请公开号 2008/(^85140、序列号12/214,366中找到,该申请的全部内容通过引用并入本文。在一个实施例中,每只眼睛将具有其自己的光导光学元件112。当HMD设备具有两个光导光学元件时,每只眼睛都可以具有其自己的微显示器120,该微显示器120可以在两只眼睛中显示相同图像或者在两只眼睛中显示不同图像。在另一实施例中,可以存在将光反射到两只眼睛中的一个光导光学元件。
与光导光学元件112对齐的不透光滤光器114要么均勻地,要么以每像素为基础来选择性地阻挡自然光,以免其穿过光导光学元件112。在一个实施例中,不透光滤光器可以是透视IXD面板、电致变色膜(electrochromic film)或能够充当不透光滤光器的类似设备。通过从常规IXD中除去基底、背光和漫射器的各层,可以获得这样的透视IXD面板。 IXD面板可包括一个或多个透光IXD芯片,所述透光IXD芯片允许光穿过液晶。例如,在IXD 投影仪中使用了这样的芯片。
不透光滤光器114可以包括致密的像素网格,其中每个像素的透光率能够在最小和最大透光率之间被个别化地控制。尽管0-100%的透光率范围是理想的,然而更有限的范围也是可以接受的。作为示例,具有不超过两个偏振滤光器的单色LCD面板足以提供每像素约50%到90%的不透光度范围,最高为该IXD的分辨率。在50%的最小值处,透镜将具有稍微带色彩的外观,这是可以容忍的。100%的透光率表示完美清澈的透镜。可以从 0-100%定义“阿尔法(alpha)”标度,其中0%不允许光穿过,并且100%允许所有光穿过。 可以由下面描述的不透光滤光器控制电路224为每个像素设置阿尔法的值。
在用代理为现实世界物体进行ζ-缓冲(z-buffering)之后,可以使用来自渲染流水线的阿尔法值的掩码(mask)。当系统为增强现实显示而呈现场景时,该系统注意到哪些现实世界物体处于哪些虚拟物体之前。如果虚拟物体处于现实世界物体之前,则不透光度对于该虚拟物体的覆盖区域而言应当是开启的。如果虚拟物体(实际上)处于现实世界物体之后,则不透光度以及该像素的任何色彩都应当是关闭的,使得对于现实光的该相应区域(其大小为一个像素或更多)而言,用户将会仅仅看到现实世界物体。覆盖将是以逐像素为基础的,所以该系统可以处理虚拟物体的一部分处于现实世界物体之前、该虚拟物体的一部分处于现实世界物体之后、以及该虚拟物体的一部分与现实世界物体相重合的情况。 对这种用途而言,最期望的是能够以低的成本、电力和重量从0%达到100%不透光度的显示器。此外,不透光滤光器可以比如用彩色IXD或用诸如有机LED等其他显示器来以彩色进行呈现,以提供宽视野。于2010年9月21日提交的美国专利申请号12/887,426“0paCity Filter For See-Through Mounted Display (用于透射安装显示器的不透光滤光器)”中提供了不透光滤光器的更多细节,该专利申请的全部内容通过引用并入本文。
诸如IXD之类的不透光滤光器通常还未与在此所述的透视透镜一起使用,因为在与眼睛的该近距离下,其可能失焦。然而,在一些情况下,这个结果可能是所期望的。通过使用相加色(additive color)的普通HMD设备(其被设计为是聚焦的),用户看到具有清晰彩色图形的虚拟图像。该LCD面板被放置在该显示器“之后”,使得模糊的黑色边界围绕任何虚拟内容,使其根据需要而不透明。该系统扭转了自然模糊化的缺陷以方便地获得了抗混叠特征和带宽的减少。这些是使用较低分辨率且失焦图像的自然结果。存在对数字采样图像的有效平滑化。任何数字图像都经历混叠,其中在光的波长附近,采样的离散性导致与自然模拟和连续信号相比的误差。平滑化意味着在视觉上更靠近理想的模拟信号。尽管在低分辨率丢失的信息没有被恢复,但是得到的误差的明显程度更低。
在一个实施例中,显示器和不透光滤光器被同时渲染,并且被校准到用户在空间中的精确位置以补偿角度偏移问题。眼睛跟踪(例如,使用眼睛跟踪相机134)可用于计算视野的末端处的正确的图像偏移。
在一个示例性方案中,从所标识出的用户眼睛的位置的视角出发,为不透光滤光器的处于虚拟图像之后的像素提供增加的不透光度。通过这种方式,处于虚拟图像之后的像素被暗化,使得来自现实世界场景的相应部分的光被阻挡而无法到达用户的眼睛。这允许虚拟图像是逼真的并且表示全范围的色彩和亮度。此外,因为可以以更低的亮度提供虚拟图像,所以减少了增强现实发射器的功耗。在没有不透光滤光器的情况下,将需要以与现实世界场景的相应部分相比更亮的足够高的亮度来提供虚拟图像,以使虚拟图像不同并且不是透明的。在暗化不透光滤光器的像素时,一般而言,沿着虚拟图像的闭合周界的像素与周界内的像素一起被暗化。所期望的可能是提供一些重叠,使得恰好处于周界之外并且围绕周界的一些像素也被暗化(以相同的暗度级或者比周界内的像素暗度低)。恰好处于周界之外的这些像素可以提供从周界内的暗度到周界之外的完全量的不透光度的渐变(例如不透光度的逐渐过渡)。
图2A描绘基于增强现实图像的形状(在本示例中是海豚)的不透光滤光器的示例配置。不透光滤光器190提供具有增加的不透光度的区域191。增加的不透明度通常是指像素的暗化,其可以包括在单色方案中暗化到不同的灰阶,或在彩色方案中暗化到不同的色阶。
图2B描绘示例现实世界场景192。现实世界场景可以是用户在观看的实际的树木,或者诸如在视频显示屏上电子呈现的树木图像。当来自现实世界场景192的光穿过不透光滤光器时,所述光被不透光滤光器190倍增,从而不透光度增加的区域将现实世界场景的相应区域乘以“0”从而现实世界场景的相应区域不穿透不透光滤光器,而未暗化区域将现实世界场景的相应区域乘以“1”从而现实世界场景的相应区域穿透不透光滤光器。
图2C描绘与图2A的不透光滤光器的配置相对应的增强现实图像。可以用色彩和纹理渲染增强现实图像193,在本示例中未描绘所述色彩和纹理。
图2D描绘用户看到的示例混合现实图像。图像194是通过将图像193增加到通过将图像190和192相乘形成的图像而形成的。暗化区域195可围绕海豚的增强现实图像以增加该增强现实图像的显著性。
图3是描绘HMD设备2的各个组件的框图。图4是描述处理单元4的各个组件的框图。图3中描绘了头戴式显示设备2的组件,用于通过将虚拟图像与用户对现实世界的视图相融合来向用户提供虚拟图像。附加地,图3的HMD设备组件包括跟踪各种状况的多个传感器。头戴式显示设备将从处理单元4接收关于虚拟图像的指令,并且将传感器信息提供回给处理单元4。图3中示出了处理单元4的组件,该处理单元4将从HMD设备2、并且还从中枢计算设备12 (参见图1)接收传感信息。基于该信息,处理单元4将确定在何处以及在何时向用户提供虚拟图像并相应地将指令发送给图3的HMD设备。
注意,图3的组件中的一些(例如朝向房间的相机113、眼睛跟踪相机134B、微显示器120、不透光滤光器114、眼睛跟踪照明134A、耳机130和温度传感器138)是以阴影示出的,以指示这些设备中的每个都存在两个,其中一个用于HMD设备的左侧,并且一个用于 HMD设备的右侧。关于朝向房间的相机113,在一种方法中一个相机用于使用可见光获得图像。这些图像可用于使用机器视觉技术来标识视频显示屏在房间中的位置。在另一方法中, 彼此间具有已知间隔的两个或更多相机被用作深度相机,以便还用来获得房间内的物体的深度数据,该深度数据指示从相机/HMD设备到该物体的距离。HMD设备的相机可本质上重复计算中枢12所提供的深度相机的功能(还参见图5的捕捉设备20A)。
图3示出与电源管理电路202通信的控制电路200。控制电路200包括处理器 210、与存储器M4 (例如DRAM)通信的存储器控制器212、相机接口 216、相机缓冲器218、 显示驱动器220、显示格式化器222、定时生成器226、显示输出接口 228、以及显示输入接口 230。在一个实施例中,控制电路200的所有组件都通过专用线路或一个或多个总线彼此进行通信。在另一实施例中,控制电路200的每个组件都与处理器210通信。相机接口 216 提供到两个朝向房间的相机112的接口,并且将从朝向房间的相机所接收到的图像存储在相机缓冲器218中。显示驱动器220驱动微显示器120。显式格式化器222向控制不透光滤光器114的不透光度控制电路2M提供关于微显示器120上所显示的虚拟图像的信息。 定时生成器2 用于向该系统提供定时数据。显示输出接口 2 是用于将图像从朝向房间的相机112提供给处理单元4的缓冲器。显示输入230是用于接收诸如要在微显示器120 上显示的虚拟图像之类的图像的缓冲器。显示输出2 和显示输入230与作为到处理单元 4的接口的带接口 232进行通信。
电源管理电路202包括稳压器234、眼睛跟踪照明驱动器236、音频DAC和放大器 238、话筒前置放大器音频ADC对0、温度传感器接口 M2、以及时钟生成器对5。稳压器234 通过带接口 232从处理单元4接收电能,并将该电能提供给HMD设备2的其他组件。眼睛跟踪照明驱动器236如上所述为眼睛跟踪照明134A提供红外(IR)光源。音频DAC和放大器238从耳机130接收音频信息。话筒前置放大器和音频ADC 240为话筒110提供接口。 温度传感器接口 242是用于温度传感器138的接口。电源管理单元202还向三轴磁力计 132A、三轴陀螺仪132B以及三轴加速度计132C提供电能并从其接收回数据。
图4是描述处理单元4的各个组件的框图。控制电路304与电源管理电路306进行通信。控制电路304包括中央处理单元(CPU) 320 ;图形处理单元(GPU)322 ;高速缓存 324 ;RAM 326 ;与存储器330 (例如D-RAM)进行通信的存储器控制器328 ;与闪存334(或其他类型的非易失性存储)进行通信的闪存控制器332 ;经由带接口 302和带接口 232与HMD 设备2进行通信的显示输出缓冲器336 ;经由带接口 302和带接口 232与HMD设备2进行通信的显示输入缓冲器338 ;与用于连接到话筒的外部话筒连接器342进行通信的话筒接口 340 ;用于连接到无线通信设备;346的PCI express接口 ;344 ;以及USB端口 ;348。
在一个实施例中,无线通信组件346可包括启用WIFI 的通信设备、蓝牙通信设备、红外通信设备等.无线通信组件346是无线通信接口,在一种实现中该无线通信接口接收与视频显示屏16所显示的内容同步的数据。进而,可响应于所接收的数据来显示增强现实视频图像。在一种方法中,这样的数据是从中枢计算系统12接收的。
USB端口可以用于将处理单元4对接到中枢计算设备12,以便将数据或软件加载到处理单元4上以及对处理单元4进行充电。在一个实施例中,CPU320和GPU 322是用于确定在何处、何时以及如何向用户的视野内插入虚拟图像的主负荷设备。下面提供更多的细节。
电源管理电路306包括时钟生成器360、模数转换器362、电池充电器364、稳压器 366、HMD电源376、以及与温度传感器374进行通信的温度传感器接口 372 (其位于处理单元4的腕带(wrist band)上)。模数转换器362连接到充电插座370以用于接收AC供电并为该系统产生DC供电。稳压器366与用于向该系统提供电能的电池368进行通信。电池充电器364被用来在从充电插座370接收到电能时对电池368进行充电(通过稳压器 366)。HMD电源376向HMD设备2提供电能。
上述系统可配置为将虚拟图像插入到用户的视野中,使得该虚拟图像替换现实世界物体的视图。替代地,可插入虚拟图像而不替换现实世界物体的图像。在各个实施例中, 虚拟图像将基于被替换的物体或者该图像将被插入的环境而被调整为与合适的取向、大小和形状相匹配。另外,虚拟图像可以被调整为包括反射和阴影。在一个实施例中,HMD设备 12、处理单元4以及中枢计算设备12 —起工作,因为每个设备都包括用于获得用于确定在何处、何时以及如何插入虚拟图像的数据的传感器的子集。在一个实施例中,确定在何处、 如何以及何时插入虚拟图像的计算是由中枢计算设备12执行的。在另一实施例中,这些计算由处理单元4来执行。在另一实施例中,这些计算中的一些由中枢计算设备12来执行, 而其他计算由处理单元4来执行。在其他实施例中,这些计算可由HMD设备2来执行。
在一个示例性实施例中,中枢计算设备12将创建用户所处的环境的模型,并且跟踪在该环境中的各种移动物体。另外,中枢计算设备12通过跟踪HMD设备2的位置和取向来跟踪HMD设备2的视野。该模型和跟踪信息被从中枢计算设备12提供给处理单元4。 HMD设备2获得的传感器信息被传送给处理单元4。然后,处理单元4使用它从HMD设备2 接收的其他传感器信息来细化用户的视野并且向HMD设备2提供关于如何、在何处以及何时插入虚拟图像的指令。
图5示出了具有捕捉设备的中枢计算系统12的示例性实施例。在一个实施例中, 捕捉设备20A和20B是相同结构,因此,图5仅仅示出了捕捉设备20A。
根据一示例性实施例,捕捉设备20A可被配置为通过可包括例如飞行时间、结构化光、立体图像等在内的任何合适的技术来捕捉包括深度图像的带有深度信息的视频,该深度图像可包括深度值。根据一个实施例,捕捉设备20A可将深度信息组织成“Z层”、或者可与从深度相机沿其视线延伸的Z轴垂直的层。
捕捉设备20A可包括相机组件423,相机组件423可以是或可包括可捕捉场景的深度图像的深度相机。深度图像可包括所捕捉的场景的二维O-D)像素区域,其中2-D像素区域中的每个像素都可以表示深度值,比如所捕捉的场景中的物体与相机相距的例如以厘米、毫米等为单位的距离。
相机组件423可以包括可用于捕捉场景的深度图像的红外(IR)光组件425、红外相机426、以及RGB (视觉图像)相机428。3-D相机由红外发射器M和红外相机沈的组合形成。例如,在飞行时间分析中,捕捉设备20A的顶光组件425可以将红外光发射到场景上,并且然后可以使用传感器(在一些实施例中包括未示出的传感器),使用例如3D相机 426和/或RGB相机4 来检测从场景中的一个或多个目标和物体的表面反向散射的光。 在一些实施例中,可以使用脉冲红外光,使得可以测量出射光脉冲和相应的入射光脉冲之间的时间并将其用于确定从捕捉设备20A到场景中的目标或物体上的特定位置的物理距离。附加地,在其他示例性实施例中,可将出射光波的相位与入射光波的相位进行比较来确定相移。然后可以使用该相移来确定从捕捉设备到目标或物体上的特定位置的物理距离。
根据另一示例性实施例,可使用飞行时间分析,以通过经由包括例如快门式光脉冲成像之类的各种技术分析反射光束随时间的强度来间接地确定从捕捉设备20A到目标或物体上的特定位置的物理距离。
在另一示例性实施例中,捕捉设备20A可使用结构化光来捕捉深度信息。在这样的分析中,图案化光(即,被显示为诸如网格图案、条纹图案、或不同图案之类的已知图案的光)可经由例如顶光组件425被投影到场景上。在落到场景中的一个或多个目标或物体的表面上时,作为响应,图案可变形。图案的这种变形可被例如3-D相机似6和/或RGB 相机4 (和/或其他传感器)捕捉,然后可被分析以确定从捕捉设备到目标或物体上的特定位置的物理距离。在一些实施方式中,顶光组件425从相机425和似6移位,使得可以使用三角测量来确定与相机425和似6相距的距离。在一些实施方式中,捕捉设备20A将包括感测顶光的专用顶传感器或具有顶滤光器的传感器。
根据另一实施例,捕捉设备20A可以包括两个或更多个在物理上分开的相机,这些相机可以从不同的角度观察场景以获得视觉立体数据,这些视觉立体数据可以被解析以生成深度信息。也可使用其他类型的深度图像传感器来创建深度图像。
捕捉设备20A还可以包括话筒430,所述话筒430包括可以接收声音并将其转换成电信号的换能器或传感器。话筒430可用于接收也可由中枢计算系统12来提供的音频信号。
在一示例实施例中,捕捉设备20A还可包括可与图像相机组件423进行通信的处理器432。处理器432可包括可执行指令的标准化处理器、专用处理器、微处理器等,这些指令例如包括用于接收深度图像、生成合适的数据格式(例如,帧)以及将数据传送给中枢计算系统12的指令。
捕捉设备20A还可包括存储器434,该存储器434可存储由处理器432执行的指令、由3-D相机和/或RGB相机所捕捉的图像或图像帧、或任何其他合适的信息、图像等等。 根据一示例性实施例,存储器434可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘或任何其他合适的存储组件。如图5所示,在一个实施例中,存储器434可以是与图像捕捉组件423和处理器432进行通信的单独组件。根据另一实施例,存储器组件 434可被集成到处理器432和/或图像捕捉组件423中。
捕捉设备20A和20B通过通信链路436与中枢计算系统12通信。通信链路436可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线802. lib、 802. llg、802. Ila或802. Iln连接等的无线连接。根据一个实施例,中枢计算系统12可以通过通信链路436向捕捉设备20A提供可用于确定例如何时捕捉场景的时钟。附加地,捕捉设备20A通过通信链路436将由例如3-D相机4 和/或RGB相机4 捕捉的深度信息和视觉(例如RGB或其他色彩)图像提供给中枢计算系统12。在一个实施例中,深度图像和视觉图像以每秒30帧的速率来传送;但是可以使用其他帧速率。中枢计算系统12然后可以创建并使用模型模型、深度信息、以及所捕捉的图像来例如控制诸如游戏或文字处理程序等的应用和/或使化身或屏幕上人物动画化。
中枢计算系统12包括深度图像处理和骨架跟踪模块450,该模块使用深度图像来跟踪能够被捕捉设备20A的深度相机功能检测到的一个或多个人。深度图像处理和骨架跟踪模块450向应用452提供跟踪信息,该应用可以是视频游戏、生产性应用、通信应用或其他软件应用等。音频数据和视觉图像数据也被提供给应用452和深度图像处理和骨架跟踪模块450。应用452将跟踪信息、音频数据和视觉图像数据提供给识别器引擎454。在另一实施例中,识别器引擎4M直接从深度图像处理和骨架跟踪模块450接收跟踪信息,并直接从捕捉设备20A和20B接收音频数据和视觉图像数据。
识别器引擎妨4与过滤器460、462、464、……、466的集合相关联,每个过滤器都包括关于能够被捕捉设备20A或20B检测到的任何人或物体执行的姿势、动作或状况的信息。 例如,来自捕捉设备20A的数据可由过滤器460、462、464、……、466来处理,以便标识出一个用户或一组用户已经何时执行了一个或多个姿势或其他动作。这些姿势可与应用452的各种控制、物体或状况相关联。因此,中枢计算系统12可以将识别器引擎4M和过滤器一起用于解释和跟踪物体(包括人)的移动。
捕捉设备20A和20B向中枢计算系统12提供RGB图像(或其他格式或色彩空间的视觉图像)和深度图像。深度图像可以是多个观测到的像素,其中每个观测到的像素具有观测到的深度值。例如,深度图像可包括所捕捉的场景的二维O-D)像素区域,其中2-D 像素区域中的每个像素都可具有深度值,比如所捕捉的场景中的物体与捕捉设备相距的距离。中枢计算系统12将使用RGB图像和深度图像来跟踪用户或物体的移动。例如,系统将使用深度图像来跟踪人的骨架。可以使用许多方法以使用深度图像来跟踪人的骨架。使用深度图像来跟踪骨架的一个合适的示例在Craig等人2009年10月21日提交的美国专利申请12/603,437"Pose Tracking Pipeline (姿态跟踪流水线),,(以下称为,437申请)中提供,该申请的全部内容通过引用并入本文。‘437申请的过程包括获得深度图像;对数据进行降采样;移除和/或平滑化高方差噪声数据;标识并移除背景;以及将前景像素中的每个分配给身体的不同部位。基于这些步骤,系统将使一模型拟合到该数据并创建骨架。该骨架将包括一组关节和这些关节之间的连接。也可使用用于跟踪的其他方法。在下列四个美国专利申请中还公开了合适的跟踪技术,所述专利的全部内容都通过引用并入本文于2009 年 5 月四日提交的美国专利申请 12/475,308 "Device for Identifying and Tracking Multiple Humans Over Time (用于随时间标识和跟踪多个人类的设备),,;于2010年1月 29日提交的美国专利申请12/696,282 "Visual Based Identity Tracking(基于视觉的身份跟踪),,;于2009年12月18日提交的美国专利申请12/641,788 "Motion Detection Using Depth Images (使用深度图像的运动检测)”;以及于2009年10月7日提交的美国专利申请 12/575,388 "Human Tracking System(人类跟踪系统)”。
识别器引擎妨4包括多个过滤器460、462、464、……、466来确定姿势或动作。过滤器包括定义姿势、动作或状况的信息以及该姿势、动作或状况的参数或元数据。例如,包括一只手从身体背后经过身体前方的运动的投掷可被实现为包括表示用户的一只手从身体背后经过身体前方的移动的信息的姿势,因为该移动将由深度相机来捕捉。然后可为该姿势设定参数。当姿势是投掷时,参数可以是该手必须达到的阈值速度、该手必须行进的距离(绝对的,或相对于用户的整体大小)、以及识别器引擎对发生了该姿势的置信度评级。 用于姿势的这些参数可以随时间在各应用之间、在单个应用的各上下文之间、或在一个应用的一个上下文内变化。在一种方法中,用户执行影响虚拟3-D物体的移动的姿势,诸如 “拍走”该物体以使其远离用户。
过滤器可以是模块化的或是可互换的。在一个实施例中,过滤器具有多个输入 (这些输入中的每一个具有一类型)以及多个输出(这些输出中的每一个具有一类型)。第一过滤器可用具有与第一过滤器相同数量和类型的输入和输出的第二过滤器来替换而不更改识别器引擎架构的任何其他方面。例如,可能具有要驱动的第一过滤器,该第一过滤器将骨架数据作为输入,并输出与该过滤器相关联的姿势正在发生的置信度和转向角。在希望用第二驱动过滤器来替换该第一驱动过滤器的情况下(这可能是因为第二驱动过滤器更高效且需要更少的处理资源),可以通过简单地用第二过滤器替换第一过滤器来这样做, 只要第二过滤器具有同样的输入和输出——骨架数据类型的一个输入、以及置信度类型和角度类型的两个输出。
过滤器不需要具有参数。例如,返回用户的高度的“用户高度”过滤器可能不允许可被调节的任何参数。替代的“用户高度”过滤器可具有可调节参数,比如在确定用户的高度时是否考虑用户的鞋、发型、头饰以及体态。
对过滤器的输入可包括诸如关于用户的关节位置的关节数据、在关节处相交的骨所形成的角度、来自场景的RGB色彩数据、以及用户的某一方面的变化速率等内容。来自过滤器的输出可包括诸如正作出给定姿势的置信度、作出姿势运动的速度、以及作出姿势运动的时间等内容。
识别器引擎妨4可以具有向过滤器提供功能的基本识别器引擎。在一个实施例中,识别器引擎454实现的功能包括跟踪所识别的姿势和其他输入的随时间输入 (input-over-time)存档;隐马尔可夫模型实施方式(其中所建模的系统被假定为马尔可夫过程-其中当前状态封装了用于确定将来状态的任何过去状态信息,因此不必为此目的而维护任何其他过去状态信息的过程-该过程具有未知参数,并且隐藏参数是从可观察数据来确定的);以及求解姿势识别的特定实例的其他功能。
过滤器460、462、464、……、466在识别器引擎妨4之上加载并实现,并且可利用识别器引擎妨4提供给所有过滤器460、462、464、……、466的服务。在一个实施例中,识别器引擎妨4接收数据来确定该数据是否满足任何过滤器460、462、464、……、466的要求。由于这些所提供的诸如解析输入之类的服务是由识别器引擎4M—次性提供而非由每个过滤器460、462、464、……、466提供的,因此这样的服务在一段时间内只能被处理一次而不是在该时间段对每个过滤器处理一次,因此减少了用于确定姿势的处理。
应用452可使用识别器引擎妨4所提供的过滤器460、462、464、……、466,或者它可提供其自己的、插入到识别器引擎妨4中的过滤器。在一个实施例中,所有过滤器具有启用该插入(Plug-in)特性的通用接口。此外,所有过滤器可利用参数,因此可使用以下单个姿势工具来调试并调节整个过滤器系统。
关于识别器引擎454的更多信息可在2009年4月13日提交的美国专利申请 12/422,661 “Gesture Recognizer System Architecture (姿势识别器系统架构)”中找到,该申请通过整体引用并入本文。关于识别姿势的更多信息可在2010年8月5日公开的美国2010/0194762 "Standard Gestures (标准姿势)”;以及2009年5月29日提交的美国专利申请12/474,655 "Gesture Tool (姿势工具)”中找到,这两个申请通过整体引用并入本文。
图6示出了可用于实现中枢计算系统12的计算系统的示例实施例。如图6所示, 多媒体控制台500具有含有一级高速缓存501、二级高速缓存504和闪存R0M(只读存储器)506的中央处理单元(CPU)502。一级高速缓存502和二级高速缓存504临时存储数据并因此减少存储器访问周期数,由此改进处理速度和吞吐量。CPU 501可以配备有多于一个核,并且由此具有附加的一级和二级高速缓存502和504。闪存ROM 506可存储在多媒体控制台500通电时在引导过程初始化阶段加载的可执行代码。
图形处理单元(GPU) 508和视频编码器/视频编解码器(编码器/解码器)514形成用于高速和高分辨率图形处理的视频处理流水线。经由总线从图形处理单元508向视频编码器/视频编解码器514运送数据。视频处理流水线向A/V(音频/视频)端口 540输出数据,用于传输至电视或其他显示器。存储器控制器510连接到GPU 508以方便处理器访问各种类型的存储器512,诸如但不局限于RAM(随机存取存储器)。
多媒体控制台500包括优选地在模块518上实现的I/O控制器520、系统管理控制器522、音频处理单元523、网络接口 524、第一 USB主控制器526、第二 USB控制器528以及前面板I/O子部件530。USB控制器526和528用作外围控制器542 (1) -542 (2)、无线适配器讨8、和外置存储器设备例如闪存、外置⑶/DVD ROM驱动器、可移动介质等)的主机。网络接口 5 和/或无线适配器548提供对网络(例如,因特网、家庭网络等)的访问, 并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线或无线适配器组件中任何一种。
提供系统存储器543来存储在引导过程期间加载的应用数据。提供介质驱动器 M4,且其可包括DVD/⑶驱动器、蓝光驱动器、硬盘驱动器、或其他可移动介质驱动器等。介质驱动器544可位于多媒体控制台500的内部或外部。应用数据可经由介质驱动器544被访问,以由多媒体控制台500执行、回放等。介质驱动器544经由诸如串行ATA总线或其他高速连接(例如IEEE 1394串行总线接口)等总线连接到I/O控制器520。
系统管理控制器522提供涉及确保多媒体控制台500的可用性的各种服务功能。 音频处理单元523和音频编解码器532形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元523与音频编解码器532之间传输。音频处理流水线将数据输出到A/V端口 540以供外部音频用户或具有音频能力的设备再现。
前面板I/O子部件530支持暴露在多媒体控制台100的外表面上的电源按钮550 和弹出按钮552以及任何LED(发光二极管)或其他指示器的功能。系统供电模块536向多媒体控制台100的组件供电。风扇538冷却多媒体控制台500内的电路。
CPU 501、GPU 508、存储器控制器510、和多媒体控制台500内的各个其他组件经由一条或多条总线互连,包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。这些架构可以包括外围部件互连(PCI)总线、 PCI-Express 总线等。
当多媒体控制台500通电时,应用数据可从系统存储器543加载到存储器512和/ 或高速缓存502、504中并在CPU 501上执行。应用可呈现在导航到多媒体控制台500上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中,介质驱动器M4中包含的应用和/或其他媒体可从介质驱动器544启动或播放,以向多媒体控制台500提供附加功能。
多媒体控制台500可通过将该系统简单地连接到电视机或其他显示器而作为独立系统来操作。在该独立模式中,多媒体控制台500允许一个或多个用户与该系统交互、看电影、或听音乐。然而,随着通过网络接口 5M或无线适配器548可用的宽带连接的集成, 多媒体控制台500还可作为较大网络社区中的参与者来操作。附加地,多媒体控制台500 可以通过无线适配器548与处理单元4通信。
当多媒体控制台500通电时,可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可包括存储器、CPU和GPU周期、网络带宽等等的保留。因为这些资源是在系统引导时保留的,所以所保留的资源从应用的角度而言是不存在的。具体而言,存储器保留优选地足够大,以包含启动内核、并发系统应用和驱动程序。CPU保留优选地为恒定,使得若所保留的CPU用量不被系统应用使用,则空闲线程将消耗任何未使用的周期。
对于GPU保留,通过使用GPU中断来显示由系统应用生成的轻量消息(例如,弹出窗口),以调度代码来将弹出窗口呈现为覆盖图。覆盖图所使用的存储器量取决于覆盖区域大小,并且覆盖图较佳地与屏幕分辨率成比例缩放。在并发系统应用使用完整用户界面的情况下,优选使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率,从而消除了对改变频率并引起TV重新同步的需求。
在多媒体控制台500引导且系统资源被保留之后,执行并发系统应用来提供系统功能。系统功能被封装在上述所保留的系统资源中执行的一组系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 501上运行,以便为应用提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用所引起的高速缓存中断最小化。
当并发系统应用需要音频时,则由于时间敏感性而将音频处理异步地调度给游戏应用。多媒体控制台应用管理器在系统应用活动时控制游戏应用音频水平(例如,静音、衰减)。
可选的输入设备(例如,控制器讨2(1)和^2( )由游戏应用和系统应用共享。 输入设备不是保留资源,而是在系统应用和游戏应用之间切换以使其各自具有设备的焦点。应用管理器优选地控制输入流的切换,而无需知晓游戏应用的知识,并且驱动程序维护有关焦点切换的状态信息。捕捉设备20A和20B可以通过USB控制器5 或其他接口来为控制台500定义附加的输入设备。在其他实施例中,中枢计算系统12可以使用其他硬件架构来实现。没有一种硬件架构是必需的。
前面讨论的图1描绘了与一个中枢处理设备12 (称为中枢)通信的一个HMD设备 2和处理单元4(统称为移动显示设备)。在另一实施例中,多个移动显示设备可以与单个中枢通信。每个移动显示设备都将如上述那样使用无线通信与中枢通信。在这样的实施例中所构思的是,有益于所有移动显示设备的信息中的许多信息都将在中枢处被计算和存储并且传送给每个移动显示设备。例如,中枢将生成环境的模型并且将该模型提供给与该中枢通信的所有移动显示设备。附加地,中枢可以跟踪移动显示设备以及房间中的移动物体的位置和取向,并且然后将该信息传输给每个移动显示设备。
在另一实施例中,系统可以包括多个中枢,其中每个中枢都包括一个或多个移动显示设备。这些中枢可以直接地或者通过因特网(或者其他网络)彼此通信。例如,图7示出了中枢560、562和564。中枢560直接与中枢562通信。中枢560通过因特网与中枢564 通信。中枢560与移动显示设备570、572、...、574通信。中枢562与移动显示设备578、 580、. . .、582通信。中枢564与移动显示设备584、586、...、588通信。每个移动显示设备都如上面所讨论的那样通过无线通信与其相应的中枢通信。如果这些中枢处于共同的环境中,则每个中枢都可以提供该环境的模型的一部分,或者一个中枢可以为其他中枢创建该模型。每个中枢都将跟踪移动物体的子集并且将该信息与其他中枢共享,所述其他中枢进而将与合适的移动显示设备共享该信息。用于移动显示设备的传感器信息将被提供给其相应的中枢,并且然后与其他中枢共享以用于最终与其他移动显示设备共享。因此,在中枢间共享的信息可以包括骨架跟踪、关于模型的信息、各种应用状态、以及其他跟踪。在中枢及其相应的移动显示设备之间传递的信息包括移动物体的跟踪信息、世界模型的状态和物理更新、几何和纹理信息、视频和音频、以及用于执行在此所述的操作的其他信息。
例如可通过中枢计算系统12、处理单元4、处理器210、CPU 320、GPU 322、处理器 432和/或控制台500提供至少一个控制电路。该至少一个控制电路可执行存储在有形的、 非晶体管处理器可读存储设备上的指令以实现本文所述的功能。例如可通过存储器M4、高速缓存324、RAM 326、闪存334、存储器330、存储器434、存储器512、高速缓存502或504、 存储器M3、和/或存储器单元546提供存储设备作为计算机可读介质。
中枢还可以例如无线地向HMD设备传递数据以基于被传递到中枢的用户头部的当前的取向和/或位置,从用户的视角来呈现增强现实图像。用于呈现增强现实图像的数据可以与在视频显示屏上显示的内容同步。在一种方法中,用于呈现增强现实图像的数据包括用于控制增强现实显示器的像素以在诸如毗邻视频显示屏等指定虚拟位置、或在相对于视频显示屏的另一静态位置处、或在不是相对于视频显示屏限定的静态位置处提供增强现实图像的图像数据。增强现实图像可包括从用户的当前视角呈现的3-D物体,如下面进一步讨论的。这样的3-D物体可以看上去像是从视频显示屏中出来,在房间内移动并返回视频显示屏。用于控制增强现实显示器的像素的图像数据可以是指定文件格式的,例如,其中个别图像帧被指定。
而且,中枢可以将数据传递给HMD设备以用于呈现与在视频显示屏上显示的内容在时间上同步的增强现实图像。在一种方法中,该数据包括定时数据,该定时数据指示HMD 设备在指定时间呈现图像。为此目的,诸如通过使用时间码来使中枢和HMD设备的时钟同步。中枢的这种通信可以附加于用于呈现增强现实图像的图像数据。在另一方法中,用于呈现增强现实图像的图像数据是从除了中枢之外的另一源获得的,诸如经由与HMD—起被包括或者由用户本人携带(诸如在口袋或臂带中)并有线或无线地连接于该头戴式设备的本地存储设备。
图10是描述用于确定用户视野的过程的一个实施例的流程图。图10的过程依靠来自中枢计算设备12的信息和上述眼睛跟踪技术。图8是描述了由中枢计算系统执行以提供用在图10的过程中的跟踪信息的过程的一个实施例的流程图。图9是描述了用于跟踪眼睛的过程的一个实施例的流程图,其中该过程的结果供图10的过程来使用。
在图8的步骤810,中枢计算设备将跟踪用户的位置。例如,中枢计算设备12将使用一个或多个深度图像和一个或多个视觉图像来跟踪用户(例如使用骨架跟踪)。可以在步骤812使用一个或多个深度图像和一个或多个视觉图像来确定HMD设备2的位置和HMD 设备2的取向。在步骤814,将用户和HMD设备2的位置和取向从中枢计算设备12传送给处理单元4。在步骤816,在处理单元4处接收该位置和取向信息。替代地或附加地,由HMD 设备携带的诸如惯性传感器等一个或多个传感器可用于跟踪用户头部的取向和/或位置。 用户位置还可以通过使用涉及三个或四个位置的RF信号的三角测量来跟踪,其中一个位置在HMD设备上,而其他两个位置在房间内的已知位置处,例如在中枢上或其他地方。
图9是描述用于使用上述技术来跟踪眼睛的一个实施例的流程图。在步骤860,照明眼睛。例如,可以使用红外光从眼睛跟踪照明134A来照明眼睛。在步骤862,使用一个或多个眼睛跟踪相机134B来检测来自眼睛的反射。在步骤864,将反射数据从HMD设备2发送给处理单元4。在步骤866,处理单元4如上所述地基于该反射数据来确定眼睛的位置。
图10是描述用于确定该视野的过程的一个实施例的流程图。在步骤902,处理单元4将访问从中枢接收到的最新的位置和取向信息。图8的过程可以如从步骤814到步骤 810的箭头所描绘的那样连续地执行,因此,处理单元4将周期性地从中枢计算设备12接收已更新的位置和取向信息。然而,处理单元4将与其从中枢计算设备12接收已更新的信息相比更频繁地绘制虚拟图像。因此,处理单元4将依靠本地感测的信息(例如来自头戴式设备幻以在来自中枢计算设备12的采样之间提供取向的更新。在步骤904,处理单元4 将从三轴陀螺仪132B访问数据。在步骤906,处理单元4将从三轴加速度计132C访问数据。在步骤908,处理单元4将从三轴磁力计132A访问数据。在步骤910,处理单元4将用来自该陀螺仪、加速度计和磁力计的数据来细化(或以其他方式更新)来自中枢计算设备 12的位置和取向数据。在步骤912,处理单元4将基于HMD设备的位置和取向来确定潜在的视野。在步骤914,处理单元4将访问最新的眼睛位置信息。在步骤916,处理单元4将基于眼睛位置按照潜在视野的子集来确定模型的被用户所观看的部分。例如,用户可以面向墙壁,并且因此HMD设备的视野可以包括沿着墙壁的任何地方。然而,如果用户的眼睛指向右边,则步骤916将作出的结论是,用户的视野仅仅是墙壁的右手边部分。在步骤916结束时,处理单元4已经确定了用户通过HMD设备2的视野。然后,处理单元4可标识该视野内的一位置,例如,以插入虚拟图像并使用不透光滤光器来阻挡光。
眼睛位置可选地被用于确定用户的视野或视角。在一种方法中,不使用眼睛位置, 而用户的视野或视角是基于用户头部的取向和/或位置的。
图IlA描绘其中用户使用HMD设备来观看视频显示屏的环境。描绘了场景1100, 其中用户1112在房间中,该房间是HMD设备1114可被使用的典型环境或空间。房间包括前壁1102、侧壁1104和地板1108,以及诸如灯1106和桌子1120等示例家具。在本示例中, 视频显示屏1110安装在壁1102上,而中枢1116安放在桌子1120上。
图IlB描绘图IlA的HMD设备的相机的视图,其中标识出了物体的轮廓。在一种方法中,使用HMD设备上的朝前的相机来标识出视频显示屏1110的位置。例如,该相机可感测可见光以获得图像,使用机器视觉技术处理该图像以识别该相机的视野中的物体的轮廓形状。这里描绘了表示灯1106、视频显示屏1110和中枢/桌子1117的轮廓形状。视频显示屏可通过诸如其预期形状(例如,矩形)等特征来识别。也可以使用其他特征,诸如在视频显示屏的位置处看到的预期的更大的光亮度、以及关于该视频显示屏纵向伸展并且是平面的预期。HMD设备可以可选地具有确定HMD设备和视频显示屏间的距离的能力。在另一方法中,中枢确定到用户/HMD设备的距离并可以将此信息传递给HMD设备。由此HMD设备能够大体查明视频显示屏的位置,具体说来,确定视频显示屏的各条边(例如,竖直边和水平边)的位置。这些位置可被存储在存储器中并且被表示在房间的坐标系中。例如,每条边可以通过具有定义的端点的向量来表示。图14A提供了示例坐标系。关于进一步细节也参看图16。图12A示出视屏显示屏,以及从该视频显示屏的边延伸的区域。重复了图IlA和图IlB的视频显示屏1110。视频显示屏1110具有宽度分别为wl的顶部边1200和底部边 1204,以及高度分别为hi的右侧边1202和左侧边1206,这表示电视机、计算机监视器或其他显示设备在其中显示图像的区域。区域1208的宽度为w2而高度为h2,表示使用HMD设备显示增强现实图像的虚拟区域。区域1208可以与视频显示屏具有相同或不同的纵横比。在毗邻视频显示屏的壁上实际上没有显示图像。相反,该虚拟区域被呈现在HMD 处,其呈现方式是它对用户来说看上去像是显示在毗邻视频显示屏的壁上的。用这种方式, 增强现实图像可显示在对用户来说看上去像是毗邻视频显示屏的一条或多条边并从其向外延伸的、与视频显示屏在共同的竖直面上的空间(用户所处的空间,诸如房间)区域中。 在此情况下,区域1208不包括视频显示屏1110的区域,使得区域1208中具有在其中提供视频显示屏1110的开口或切口。在图12B中提供了示例图像。本方法允许提供增强视频显示屏的内容的附加的视频内容或静态图像,从而提供更大的整体图像或提供更令人身临其境的体验。增强现实图像可作为平面上或曲面上的已定义形状而呈现。该已定义形状可以是矩形或者大体上任何的多边形。另一可选项是增强现实图像完全阻挡视频显示屏并以与视频显示屏不同的大小和/或不同的纵横比显示与视频显示屏相同的内容。例如,不透光滤光器可以实现该遮挡。 在此情况下,区域1208包含视频显示屏1110的区域。不同的大小可包括更大、更小、以及不同的纵横比。参见图12D和图12E来获得更多细节。当用户看着视频显示屏时,增强现实图像可对用户来说看上去像是在基本竖直面上的一静态位置中,而该静态位置是相对于视频显示屏的指定位置。例如,增强现实图像可对用户来说看上去像是在空间中固定的,从而当用户从视频显示屏稍微转开他或她的头时,通过由HMD设备中的不同像素呈现,增强现实图像移至视野的不同部分,但是用户仍然看得见。只要当用户旋转或以其他方式移动头部时,就重新计算增强现实图像以使得它看上去像是在空间中是固定的。当用户将他或她的头显著转离视频显示屏时(诸如通过向下看地板或者转身),增强现实图像移出视野,并且不再由HMD设备呈现,因此用户看不见。有利的是,增强现实图像可以大于视频显示屏从而在不需要用户购买大的视频显示屏的情况下,并且通过提供比现实中能放在家中的视频显示屏更大的总图像,提供了影院体验。图12B描绘具有视频内容的图12A的视频显示屏,以及具有增强并同步于该视频显示屏的视频内容的增强现实视频的图12A的区域。视频显示屏1110包括一个人(诸如牛仔)站在山脉环境中的地面区域1216中的场景,背景中有树1210,天空1212中有云1214。 补充或附加区域1208在视频显示屏1110的毗邻空间区域中提供增强现实图像,以使得补充区域1208对用户来说看上去像是视频显示屏所显示的内容的延续。例如,增强现实视频图像可包括视频显示屏所显示的内容的色彩和/或光照元素。这里,补充区域1208的高于视频显示屏的部分提供了具有云(例如,云1218)的附加的天空区域。补充区域1208的在视频显示屏1110右侧的部分提供了地面区域1216到山顶12 的延续,其中房屋12 位于山顶上。补充区域1208的在视频显示屏1110左侧的部分提供了地面区域1216的延续, 具有更多的树1230和向下倾斜的地面区域1232。还提供了云,诸如云1222。视频显示屏 1110中的天空1212和/或地面1216的色彩可在补充区域1208中延续。光照元素可以是视频显示屏1110中的天空和/或地面的亮度,其可在补充区域中延续。这些元素的延续可被设置从而提供从视频显示屏1110的平滑视觉过渡能够在补充区域1208中延续。例如,天空区域1220可以是天空区域1212的延续,而地面区域12 和1232可以是地面区域1216的延续。注意,地面区域12 和1232被示出为与地面区域 1216的右手边和左手边部分对齐。具体而言,表示地面区域的线1233和1234对齐,而表示地面区域的线1235和1236对齐。一般而言,视频显示屏和补充区域间的对齐可涉及任何视觉特征。如同提到过的,补充区域1208中的增强现实图像可以与视频显示屏所显示的内容同步地提供,诸如通过将增强现实图像无线传送(例如,流传输)到HMD设备,或通过在指示的时间从HMD设备或用户的服饰/身体处的存储位置检索增强现实图像。增强现实图像能够响应于与视频显示屏所显示的内容相关联的基于web的信息的流传输层。而且,补充区域1208中的增强现实图像可以按与视频显示屏1110相同的速率,或者按不同的速率被更新。在一种方法中,补充区域1208可包括一个静态背景图像或一系列静态背景图像。例如,如果视频显示屏1110提供包括许多在沙漠环境中的场景的西部流派的电影,则补充区域1208可提供在该电影的一个或多个场景上保持的典型沙漠场景,例如每次保持若干秒或若干分钟,甚至在电影的整个过程中保持。补充区域1208不需要是补充区域1208的内容的精确延续,而是可提供与视频显示屏的内容具有共同主题的背景。图12C描绘经由HMD设备看到的图12B的图像。视频显示屏1110被用户透过HMD 设备2的透视透镜看成为现实世界场景。虚线描绘了从视频显示器1110的角行进到用户的每只眼睛的光线。HMD设备2的视图是从用户视角的,并指示分别通过HMD设备2的每个透镜1242和1246提供相应的增强现实图像1240和1M4(与区域1208相对应)。增强现实图像可对用户来说看上去像是聚焦在与视频显示屏的距离大致相同的距离处的。HMD设备的透镜处的增强现实图像的描绘仅仅是为了指示增强现实图像是由HMD设备生成的而不是包括视频显示屏在内的现实世界场景的一部分。如结合图2提到的,增强现实图像可以由光导光学元件112通过向用户的眼睛中发射光来提供,其中透镜1242和1246中的每一个是为了表示总的透镜部件,该总的透镜部件包括例如透镜116、不透光滤光器114、光导112和透镜118。开口区域1241和1245指示来自视频显示屏的光进入用户的眼睛的地方。图12D描绘图12B的一种替代,其中该视屏显示屏被阻挡并被更大面积的增强现实视频1250取代。在此情况下,与头戴式显示单元相关联的不透光滤光器被控制以阻挡用户的眼睛看到视频显示屏,其中该视频显示屏的位置由虚线矩形1260描绘出以供参考。而且,增强现实视频图像1250用更大尺寸的图像来取代视频显示屏显示的内容,以提供大屏幕影院效果。在一种方法中,响应于检测到用户正看向视频显示屏的方向(例如,视频显示屏在用户视野中),可在空间中与视频显示屏重叠的固定位置处提供增强现实视频图像。在其他时间,当用户没在看向视频显示屏的方向时,在一种可能方法中,可不提供增强现实视频图像并且可不阻挡视频显示屏。在空间中不与视频显示屏重叠的固定位置处提供增强现实视频图像也是可能的(参见图15A)。有利的是,当视频显示屏被阻挡并被增强现实视频1250取代时,增强现实视频 1250可使用提供视频显示屏的内容的相同的数据通道。不需要为增强现实视频提供额外的数据通道。图12E描绘经由HMD设备看到的图12D的图像。相应的增强现实图像1252和 1254(与区域1250相对应)分别由HMD设备的每个透镜1242和1246提供。在一种方法中,如所提到的,基本上没有来自视频显示屏的光进入用户的眼睛。图13A描绘具有视频内容的视屏显示屏,其中还提供虚拟观众的增强现实视频。 为了提升处于影院中或其他公共场所中的感觉,可提供一个或多个观众成员1300的增强现实视频。示例观众成员1302是从背后描绘的,就像观众成员1302正坐在用户前面并与用户一起观看视频显示屏1110 —样。示例观众成员1302正朝向视频显示屏1110,就像他或她正在观看视频显示屏一样。还示出了示例观众成员1302的椅背1304。增强现实视频提供了包括至少一个观众成员在内的3-D图像,所述观众成员对用户来说看上去像是与该用户位于同处并且在与该用户一起观看视频显示屏。可能的是增强现实视频描绘出一个或多个观众成员,就像他们正坐在用户旁边、 用户后面、跨房间在用户的对面或相对于用户在其他相对位置一样。观众成员可被动画化, 做出偶尔的移动(例如,从一侧向另一侧移动、在其椅子上摇动、伸懒腰),并发出声音(例如,大笑、鼓掌、欢呼、打呵欠),这在影院里是常见的。而且,可基于至少一个观众成员的虚拟位置提供空间化音频。即,可使观众成员产生的声音对用户来说看上去像是从该观众成员看上去所在的特定位置发出的,而不必是从扬声器的位置发出的。而且,观众的外观和音频可与视频显示屏的内容同步,以使观众基于内容作出反应。在一种方法中,观众成员可具有基于该用户的朋友的外观的外观,以使该用户看上去像是正在和朋友一起观看视频显示屏。用户可预先经由用户接口选择观众成员的外观和性质。在一个可选项中,观众成员表示在不同位置的其他用户并经由音频通道投射所述其他用户发出的语音和其他声音。观众成员还可基于不同位置的其他用户的被跟踪的移动做出移动。图13B描绘经由HMD设备看到的图13A的图像。相应的增强现实图像1310和 1312(与图像1300相对应)分别由HMD设备的每个透镜1242和1246提供。开口区域1241 和1245指示来自视频显示屏的光进入用户的眼睛的地方。也可提供先前讨论的补充增强现实区域1208,但是此处未描绘。图14A描绘不同用户相对于视频显示屏的不同视角和位置。从俯视图提供了先前描绘的视频显示屏1110,其中看到其宽度Wl和厚度。视频显示屏1110在竖直χ-y平面延伸,其中示出了笛卡尔坐标系的y轴和ζ轴。χ轴(未示出)延伸出纸外。ζ轴正交于或垂直于χ-y平面。该坐标系的原点可位于视频显示屏的位置处、沿着中枢的深度相机的聚焦轴、或在另一指定位置处。角度α 表示当用户在位置1400处时离开ζ轴的角度偏移,而角度α 2表示当用户在位置1402处时离开ζ轴的角度偏移。一般而言,用户从基于用户相对于正交轴的角度偏移(例如,在水平的y_z平面中)的视角观看视频显示屏。类似地,3-D增强现实图像可从用户的视角呈现。例如,3-D增强现实图像可为在位置1400处的第一用户从位置1400的视角呈现,而同时,该3-D增强现实图像为在位置1402处的第二用户从位置1402的视角呈现。以此方式,为每个用户以最逼真的方式呈现增强现实图像。用户相对于增强现实图像的视角是该图像的用户的视点,如下面的示例所示出的。图14B描绘第一用户从第一视角看到的3-D增强现实物体,其中该物体看上去像是正从视频显示屏中出来。在此示例中,3-D增强现实物体1410是看上去像是已从视频显示屏1110浮现的海豚。海豚是从图14A的用户位置的视角呈现的,其略微在正交轴的右侧。在此示例中,假定海豚会看上去像是直直出来,直接朝向直接位于正交轴上的用户。从用户位置1400的视角看,视频显示屏1110的位于3-D增强现实物体1410之后的部分可以通过设定不透光滤光器来被屏蔽,以使用户看到3-D增强现实物体1410而看不到视频显示屏1110的在3-D增强现实物体1410之后的像素。从而与HMD设备相关联的不透光滤光器阻挡用户的眼睛看到视频显示屏的至少一部分。用户继续看到视频显示屏1110的不在3-D 增强现实物体1410之后的像素。这些像素通常提供与3-D增强现实物体有关的图像。针如,海洋场景可与海豚有关。在一种方法中,视频显示屏的内容的开发者为增强现实图像准备附加的内容。例如,电影导演可提供诸如可与电影一起发行的一个或多个附加数据通道等附加内容。该附加内容可在准备电影的同时开发,或在另一时间开发。例如,可为预先存在的电影准备附加内容。这允许与电影公司无关的开发者开发增强现实内容,作为可被用户分开购买或使用的产品附加品。相互竞争的开发者可以制造用户可从中选择的内容。可以鼓励用于这种增强现实内容的市场。还可开发用于该附加内容的动画脚本,例如,以使3-D物体从视频显示屏浮现、在房间中到处飞行并返回视频显示屏。电影本身可以是以2-D或立体地拍摄的。例如,一个数据通道可用于提供补充增强现实区域1208,而另一通道可用于提供3-D增强现实物体1410,或大体地一个或多个3-D 物体。对于不使用HMD设备的用户,视频显示屏的内容可以以2-D或立体格式的形式出现。 可以以不同方式提供附加的内容通道。在一种方法中,诸如电影等视频显示屏的内容可装载在诸如蓝光或DVD盘等光学存储介质上,其中所述盘上的一个或多个附加的轨(track) 提供增强现实内容。在另一方法中,视频显示屏的内容和增强现实内容可经由诸如有线电视网、卫星电视网、因特网或其他计算机网络、蜂窝电话网络或其他手段等传送网络被广播、流传输或以其他形式传送。所传送的内容可由中枢接收并中继到HMD设备。或者,可与增强现实内容分开地提供用于视频显示屏的内容的通道。例如,游戏控制台可用于播放增强现实内容,而用于视频显示屏的内容经由另一存储介质或经由传送网络提供。而且,可以存在多种用于索引增强现实内容的选项,例如,根据分级(成人还是儿童)或其他类别。HMD设备可基于该HMD设备的设定来从例如在无线传输中或来自存储设备的多个可用通道中选择增强现实内容的一个通道。在一种方法中,用户经由用户接口 (诸如经由视频显示屏)输入登录信息,而基于与该用户相关联的偏好和设定,中枢标识相应的增强现实内容通道来无线传送给用户的HMD设备。在一种可选项中,中枢只向用户的 HMD传送相应的增强现实内容通道而不向用户的HMD设备传送一个或多个其他的可用的增强现实内容通道。在另一可选项中,中枢向用户的HMD传送多个增强现实内容通道,而用户的HMD设备只处理并显示该相应的通道而丢弃其他的增强现实内容通道。中枢可向用户的 HMD设备传送设定要处理的通道的数据。当多个用户及其HMD设备在使用中时,每个用户的 HMD设备可以只处理针对它的相应的增强现实内容通道。为了提供3-D增强现实物体,控制增强现实发射器来提供3-D显示,该3-D显示是基于用户头部的取向和位置从用户视角呈现的。该3-D增强现实物体可包括穿过空间移动、远离视频显示屏的物体,其中该物体是基于用户头部的取向和位置从用户的视角呈现的,并与视频显示屏显示的内容在时间上同步。关于时间上同步,这指示例如该3-D增强现实物体是在与视频显示屏显示的内容相对应的特定时间提供的。在一种可选项中,该3-D增强现实物体看上去像是从视频显示屏浮现并在房间内移动。而且,使用能够检测用户的姿势的深度相机,能够控制增强现实发射器来响应于所检测的用户姿势而显示穿过空间移动的3-D物体。例如,该用户可做出拍走该3-D增强现实物体的姿势,响应于该姿势,该3-D增强现实物体的呈现被调整为指示该3-D增强现实物体移离该用户。或者,该3-D增强现实物体可移动得更靠近该用户,从而看上去像是与该用户互动。该3-D增强现实物体还可基于该用户的位置相对于该用户移动,而不必检测用户的姿势。例如,可使该3-D增强现实物体逼近用户,与该用户交互,然后移离该用户。进而,该3-D物体可使用任何类型的虚拟表面显示,包括平坦/平面、球面或柱面视频。对于球面或柱面视频,该物体的显示是响应于用户头部的转动的,而用户的视角可固定于该球或柱的中心。增强现实图像可被编码以用于在球或柱中显示,其中取决于用户看的方向,用户在给定时间只看到该球或柱的一部分。例如,该增强现实图像可用于提供场景,其中用户向下看森林的地面,向上看天空并且向左和向右看树木。当多个用户在场时,因为每个用户从不同视角看该3-D物体,所以增加了逼真度。与立体电视相比(在立体电视中,该电视的像素可被调整以使一物体看上去更靠近或更远离用户),此处所提供的3-D物体不限于视频显示屏及其像素的边界,并且可被显示在用户视野中的任何地方。而且,在保持该内容与非HMD设备用户的兼容性的同时,该 3-D物体的移动和该视频显示屏的内容的协调增加了逼真度和戏剧性。用户可增加该HMD 设备以与现有视频显示屏一起使用。图14C描绘第二用户从第二视角看到的图14C的3-D增强现实物体,其中该物体看上去像是正从视频显示屏中出来。3-D增强现实物体1412是与图14B相同的海豚,但是是从图14A的用户位置1402的视角呈现的,其实质上在该正交轴的右侧。视频显示屏1414 也从同一用户视角被看到。在此情况下,该部分视频显示屏1414中没有像素在物体1412 后面,从而不需要使用该不透光滤光器来屏蔽这些像素。海豚的侧视图,而不是图14B的略微在中心左侧的视图,由该第二用户看到。图14D描绘经由HMD设备看到的图14B的图像。相应的增强现实视频1411和 1413(与物体1410相对应)分别由HMD设备的每个透镜1242和1246提供。开口区域1241 和1245指示来自视频显示屏的没有被屏蔽掉的像素的光进入用户的眼睛的地方。也可提供先前讨论的补充增强现实区域1208,但是此处未描绘。图14E描绘经由HMD设备看到的图14C的图像。相应的增强现实视频1415和 1417(与物体1412相对应)分别由HMD设备的每个透镜1242和1246提供。开口区域1420和1421指示来自视频显示屏的没有被屏蔽掉的像素的光进入用户的眼睛的地方。也可提供先前讨论的补充增强现实区域1208,但是此处未描绘。图15A描绘视频显示屏以及当用户看着该视频显示屏时处于基本竖直面上的一静态位置中的增强现实图像。这里,视频显示屏1110提供诸如烹饪节目等内容,其中在该烹饪节目中,厨师展示如何根据食谱来准备膳食。增强现实图像1500提供指导性文本或与该内容相关的其他文本,诸如食谱的配料的列表。在一种实现中,在一静态位置,诸如在看上去像是略微在视频显示屏的右侧的位置,提供增强现实图像1500。增强现实图像1500可以与视频显示屏的内容在时间上同步,因为增强现实图像1500的食谱在其中厨师正在使用该食谱准备膳食的该节目的一部分的过程中出现。视频显示屏通常在竖直面上延伸并且可安装在壁上,或者以其他方式固定在竖立位置。在此情况中,增强现实图像1500看上去像是在视频显示屏边上是方便的,即便增强现实图像1500不是视频显示屏的相同内容的延续。增强现实发射器的显示可响应于基于如从HMD设备的一个或多个传感器获得的用户头部的取向和/或位置而确定该用户正在看该视频显示屏来被触发。用户正在看该视频显示屏的确定可以是例如通过确定用户正向前看而不是向上或向下看而做出的,和/或是通过确定该视频显示屏在用户的视野内、或在用户视野的中心、子集部分内而做出的。在此实现中,当用户看视频显示屏时,控制增强现实发射器来显示增强现实图像,该增强现实图像对用户来说看上去像是在基本竖直面中的一静态位置中,而基本竖直面中的该静态位置是相对于该视频显示屏的指定位置,例如,在视频显示屏最右侧的边的右方一英尺。当用户不看视频显示屏时,增强现实图像1500相对于该视频显示屏在该静态位置处在竖直面中的显示可被终止。此时,增强现实图像1500可替代地在诸如水平面中的另一虚拟位置处显示,如下面结合图15B讨论的,或者根本不显示。随后,当用户再次看向视频显示屏时,增强现实图像1500在相对于该视频显示屏在该静态位置处在该竖直面中的显示可被恢复。图15B示出当用户向下看时处于基本水平面上的静止位置中的增强现实图像。这里,假定用户1510是在他能向前看到图15A的视频显示屏1110上的烹饪节目,并且也能向下看具有大体水平的面的桌子1514的位置中,例如,其中用户工作以遵照该烹饪节目的食谱的情况。用户周期性地向下看,如HMD设备1512相对于水平方向的向下的角度α所指示的。响应于检测到用户正向下看,可使该增强现实图像对用户来说看上去像是在基本水平面中的一静态位置中,诸如由桌子1514上的增强现实图像1516描绘的。以此方式,用户可容易地遵照该文本或其他指令,同时在向前看视频显示屏和向下看工作面之间过渡。除了烹饪节目之外,该增强现实图像还可提供指令或补充该视频显示屏上的内容并与该内容有关的其他信息。有关的内容还可包括与在视频显示屏上提供的电影相关的导演评论或演员采访。在另一方法中,该增强现实图像可提供与该视频显示屏的内容无关或至少与其在时间上不同步的信息。无关的内容可包括诸如e-mail或文本消息窗等web数据,或来自社交联网网站的馈送。这会允许用户在观看视频显示屏的同时还监视一个信息窗口。用户在向下看的确定可以基于HMD设备1512的角度α (倾斜的角度)超出指定值,或在指定值范围内。类似地,用户在向前看的确定可以基于HMD设备1512的角度α在指定值范围内,和/或基于HMD设备1512的方位角(未示出)在指定值范围内。
图15C描绘经由HMD设备看到的图15A的图像。相应的增强现实图像1520和 1522(与图像1500相对应)分别由HMD设备的每个透镜1242和1246提供。开口区域1241 和1245指示来自视频显示屏的光进入用户的眼睛的地方。图15D描绘经由HMD设备看到的图15B的图像。相应的增强现实图像1530和 1532(与图像1500相对应)分别由HMD设备的每个透镜1242和1246提供。在此情形中来自视频显示屏的光不进入用户的眼睛,因为用户在向下看。在此示例中,大致在用户视野的中心提供增强现实图像1530和1532。然而,在关于增强现实图像1520和1522看到的类似的在中心右侧位置中、或大体在视野内的任何所需位置中提供增强现实图像1530和1532 也是可能的。图16描绘检测视频显示屏的边的过程的流程图。如同先前提到的(参见图 11B-12C),视频显示屏的内容可被补充或扩展以提供位于毗邻视频显示屏的一个或多个边的虚拟空间中的增强现实图像。在一种可能的实现中,步骤1600包括使用HMD设备上的一个或多个朝前的相机来获得包括用户正在看的视频显示屏在内的场景的图像。在另一可能的实现中,相机在房间内的另一位置(诸如一固定位置)处,并朝向视频显示屏。步骤1602包括处理该图像以标识该场景中的物体的轮廓(也参见图11B)。可选地,如果相机具有深度感测能力,则这些物体离该相机的深度可被确定。或者,假定中枢和视频显示屏是大致位于同处的,中枢的深度相机可检测用户离该中枢的距离并将该距离传递给该HMD设备作为从该HMD设备到该视频显示屏的距离的指示。步骤1604包括标识该视频显示屏的一条或多条边。步骤1606包括确定用户头部的取向和/或位置。例如,这可以通过基于由该HMD设备装载的一个或多个传感器确定该HMD设备的取向和/或位置,和 /或通过使用来自中枢处的运动跟踪深度相机的信息来完成。步骤1608包括存储表示该视频显示屏的边的数据。例如,每条边可以通过具有定义的端点的向量来表示。确定一次该视频显示屏的边并在该用户的后续观看中使用该信息就足够了。或者,该视频显示屏的边可在用户的观看会话开始时、或在该HMD设备通电时、 或每天一次、或在其他指定时间、或在检测到用户的指定移动或位置改变时、或基于其他触发标准来被重新确定。图17描绘提供毗邻视频显示屏的边的增强现实视频的过程的流程图。步骤1700 包括访问增强现实图像。例如,该HMD设备能通过从中枢接收无线数据或通过访问本地存储介质来访问增强现实图像。步骤1702包括访问用户头部的当前取向和/或位置,例如, 从来自HMD设备处的一个或多个传感器的实时读数中。这些读数可被持续更新,例如,每秒多次,以使头部的移动被连续地跟踪。步骤1704包括访问所存储的表示该视频显示屏的边的数据(例如,基于图16中的步骤1608)。步骤1706包括确定毗邻该视频显示屏的至少一条边的虚拟位置,诸如图12A中的区域1208。这可以是现实空间中的位置,对用户来说, 该增强现实图像看上去像是在该位置中。步骤1708包括当用户在看该显示设备时,在步骤 1706所确定的虚拟位置处,在所指定的时间显示增强现实图像。该增强现实图像可被呈现为从与用户头部具有相同取向和位置的虚拟相机的视角的图形。每个用户的HMD设备呈现适合其视点的增强现实图像,以使该增强现实图像被变形和旋转以匹配其视角。在决定步骤1710,如果有下一增强现实图像,则重复开始于步骤1700的该过程。该增强现实图像可以以与视频类似的帧速率(例如每秒30帧)、或以任何所需速率、或在不必对应于一固定速率的所指示时间更新。图18描绘从用户视角呈现3-D虚拟观众的过程的流程图。还参见图13A和图13B。 步骤1800开始增强现实观众过程。步骤1802包括访问用户头部的当前取向和/或位置, 类似于图17的步骤1702。步骤1804包括基于用户头部的当前取向和/或位置来确定虚拟观众的虚拟位置。这可以是现实空间中的位置,对用户来说,该虚拟观众看上去像是在该位置中。音频和视频处理可同时地在并行路径中进行。在音频处理路径中,步骤1806包括例如从到中枢的无线链路或从本地存储访问虚拟观众的增强现实音频数据。步骤1808包括在所指示的时间并基于步骤1804的虚拟位置来提供虚拟观众的空间化音频。在决定步骤1810,如果有下一增强现实音频数据,诸如以已知格式(诸如MP3或其他数字音频编码标准)编码的一个或多个音频数据帧,则重复步骤1806。在一些情况下,用户的位置足以提供空间化音频,而不使用头部的取向。在一种方法中,假定用户在观看视频显示屏时是静止的,从而不需要为了提供虚拟观众的空间化音频而对用户的位置进行更新。然而,例如通过在决定步骤1810之后重复步骤1802和步骤1804来执行这样的更新也是可能的。在图像处理路径中,步骤1812包括访问虚拟观众的增强现实图像。步骤1814包括在所指示的时间在步骤1804的虚拟位置处显示虚拟观众的增强现实图像。在决定步骤 1816,如果存在下一增强现实图像,诸如以已知格式编码的一个或多个图像数据帧,则重复步骤1802。在此情况下,对用户头部的取向和/或位置的频繁更新对于跟踪用户头部的移动和相应地调整增强现实图像是有用的,以使该虚拟图像逼真地出现在同一虚拟位置并且在用户移动头部时不会意外改变。图19描绘从用户视角呈现与视屏显示屏的内容相关联的3-D物体的过程的流程图。还参见图14B-14E。步骤1900包括访问增强现实3-D图像,诸如通过使用先前讨论的访问增强现实图像的方式。步骤1902包括访问用户头部的当前取向和/或位置,类似于图 17的步骤1702。步骤1904包括访问视频显示屏的位置,类似于图17的步骤1704。步骤 1906包括基于用户头部的当前取向和/或位置,并基于来自步骤1904的视频显示屏的位置,确定虚拟位置。步骤1908包括在所指示的时间,在步骤1906的虚拟位置处从用户(例如用户的头部)的视角呈现增强现实3-D图像。在决定步骤1910,如果有下一增强现实3-D 图像,则重复开始于步骤1900的该过程。图20描绘在一静态位置呈现增强现实图像的过程的流程图。还参见图12D、12E 和15A-15D。步骤2000包括访问增强现实图像,类似于图17的步骤1700。步骤2002包括访问用户头部的当前取向和/或位置,类似于图17的步骤1702。步骤2004包括访问视频显示屏的位置。这可涉及标识屏幕的边,诸如在图16的步骤1604中,或确定视频显示屏的单一代表性位置。步骤2006包括基于用户头部的当前取向和/或位置并基于视频显示屏的位置,在基本竖直面中确定第一虚拟静态位置(例如图15A中的图像位置1500)。在相同时间或在另一时间,步骤2008包括基于用户头部的当前取向和/或位置,在基本水平面中确定第二虚拟静态位置(例如图15B中的图像位置/桌子1514)。步骤2100包括确定用户是在向前看(例如看视频显示屏)还是在向下看(例如看桌面或工作面)。步骤2012包括当用户向前看和/或在看视频显示屏时,在该第一虚拟位置处呈现增强现实图像。该增强现实图像可补充视频显示屏,诸如以图15A中区域1500补充视频显示屏1110的方式,或全部或部分阻挡视频显示屏,诸如以图12D中区域1250阻挡视频显示屏区域1260的方式。或者,步骤2014包括当用户向下看时在该第二虚拟位置处呈现增强现实图像。参见图15B的区域1516。在决定步骤2016,如果有下一增强现实图像,则重复开始于步骤2000的该过程。本文的技术可用于提供良好校准的并且用户跟踪的系统,该系统将诸如电视机等现有视频显示屏结合到完全身临其境的混合现实中,其中一些内容可被绘在视频显示屏上而其他内容被绘在可从任何用户有利位置在任何方向上看的透视HMD上。绘在HMD上的内容可以是3-D立体视频和立体声音频,潜在地将非常简单的双通道音频和2-D视频转换为完全身临其境的3-D体验。而且,即便是对保持电视机的平面的、2-D内容的情形,本文的技术可向3-D空间通道增加新的内容或元内容,其提供增强现实视频或其他图像。例如,用户在观看电视节目的同时可在空间中创建窗口——该窗口可显示Twitter 或Facebook 网页、或与该节目有关的分层媒体内容。对于任何3-D增强现实内容,每个用户基于他或她自己的唯一视点看到该内容, 针对头部的运动校正并跟踪视差以创建虚拟物体在该房间内的逼真描绘(因此被称为混合现实)。对于新的内容或其中我们能得到用以支持视差的每像素深度信息以及色彩信息的内容,我们可以将此内容描绘得比以前更加3-D。我们可以拿现有的3-D电影并将它们重新投影以使本应从屏幕中弹出的物体对于每个观看者自己的有利位置正确地弹出,从而改善个人地和作为团队的整体体验。标准配置包括2-D电视机、扬声器系统、具有视频和音频的混合现实HMD设备、以及遍布房间的各种跟踪和处理单元。在“环绕”通道中体验增强现实图像的每个用户佩戴 HMD。HMD的取向被校准以知晓视频显示屏在房间中的位置,以及每个用户的位置。内容还被编码为具有全部的深度信息,甚至对于诸如电影等预先录制的场景也是如此。然而,该系统不限于这种高级内容。它可以取现有的电影并轻易地将该电影扩展到视频显示屏的边界之外,制造出可以如所需要的一样大的虚拟影院屏幕。而且,立体格式或非立体格式的球面或柱面360度视频可被绘制为绕房间的球面或柱面,其中每个用户可以看他或她希望的那个体的任何部分,而独立于其他人正在看什么。在球面或柱面视频的情况下,可适应旋转头部运动。对于保留视差信息(例如,流传输几何+纹理+动画)的全3-D内容,我们实际上能在房间内创建任何观察者位置或取向。例如,两个坐在沙发的相对侧的用户能看到“Jaws 4-D”鲨鱼从屏幕中出来的相反视图。影响是巨大的,因为两个人都能真正地看到他们之间的空间中的鲨鱼,而不是对各个座位都不正确而且对每个用户完全相同的传统3-D体验。对于非全景的或非全3-D的内容,例如传统电视或电影,我们仍然能够用副通道来提升“环绕”体验。例如,当在电视上提供烹饪节目时,HMD能在视频显示屏旁边的空间中,或在下方用户的手边取代膝上型计算机、平板设备或纸版书而显示菜谱。在另一示例中,体育频道可广播两个或三个附加信息屏幕或全景图像以增强主显示。作为另一示例,使用该HMD设备,用户能够调出元数据,诸如来自因特网电影数据库(IMDb )的信息或与他或她正在电视上观看的节目相对应的流传播层信息。这样的元数据或流传播层信息可由该 HMD设备显示在视频显示屏旁边的悬浮窗中(或就此而言的任何其他地方)。前面的对本技术的详细描述只是为了说明和描述。它不是为了详尽的解释或将本技术限制在所公开的准确的形式。鉴于上述教导,许多修改和变型都是可能的。所描述的实施例只是为了最好地说明本技术的原理以及其实际应用,从而使精通本技术的其他人在各种实施例中最佳地利用本技术,适合于特定用途的各种修改也是可以的。本技术的范围由所附的权利要求进行定义。
权利要求
1.一种用户显示装置,包括包括透视透镜的头戴式显示单元O);与所述头戴式显示单元相关联的增强现实发射器,所述增强现实发射器向用户的眼睛发射光,所述光表示增强现实视频图像;跟踪所述用户的头部的取向和位置的至少一个传感器;以及至少一个控制电路,所述至少一个控制电路响应于所述至少一个传感器来控制所述增强现实发射器,以响应于确定所述用户正在看视频显示屏而显示所述增强现实视频图像, 其中所述增强现实视频图像与所述视频显示屏所显示的内容同步。
2.如权利要求1所述的用户显示装置,其特征在于所述增强现实视频图像增强所述视频显示屏所显示的内容并对所述用户来说看上去像是处于相对于所述视频显示屏的静态位置中。
3.如权利要求2所述的用户显示装置,其特征在于,还包括标识所述视频显示屏的边的相机,其中所述增强现实视频图像被显示在对所述用户来说看上去像是与所述视频显示屏在共同竖直面上、啦邻所述视频显示屏的所述边并且从所述视频显示屏的所述边向外延伸的空间区域中。
4.如权利要求2所述的用户显示装置,其特征在于,还包括标识所述视频显示屏的至少一条边的相机,其中所述增强现实视频图像被显示在对所述用户来说看上去像是毗邻所述视频显示屏的所述至少一条边并从所述视频显示屏的所述至少一条边向外延伸的空间区域中。
5.如权利要求4所述的用户显示装置,其特征在于在毗邻的所述空间区域中的所述增强现实视频图像对所述用户来说看上去像是所述视频显示屏所显示的内容的延续。
6.如权利要求5所述的用户显示装置,其特征在于所述增强现实视频图像与所述视频显示屏所显示的内容对齐。
7.如权利要求5或6所述的用户显示装置,其特征在于所述增强现实视频图像包括所述视频显示屏所显示的内容的色彩和光照元素中的至少一个。
8.如权利要求1至7中任一项所述的用户显示装置,其特征在于,还包括接收数据的无线通信接口,其中响应于所接收的数据,所述增强现实视频图像与所述视频显示屏所显示的内容同步地显示。
9.如权利要求1至8中任一项所述的用户显示装置,其特征在于,还包括与所述头戴式显示单元相关联的不透光滤光器,所述不透光滤光器阻挡所述用户的眼睛看到所述视频显示屏,其中所述增强现实视频图像用更大尺寸的图像取代所述视频显示屏所显示的内容。
10.如权利要求1至9中任一项所述的用户显示装置,其特征在于与视频显示屏所显示的内容同步操作的所述至少一个控制电路,所述至少一个控制电路响应于所述至少一个传感器来控制所述增强现实发射器以提供3-D显示,所述3-D显示是基于所述用户的头部的取向和位置从所述用户的视角呈现的。
全文摘要
本发明涉及提供环绕视频的头戴式显示设备。一种例如增强现实眼镜形式的透视头戴式显示(HMD)设备,允许用户观看视频显示设备和相关联的增强现实图像。在一种方法中,该增强现实图像与所述视频显示设备的边对齐以提供更大的、增强的观看区域。该HMD可包括标识所述边的相机。该增强现实图像可与该视频显示设备的内容在时间上同步。在另一方法中,该增强现实图像视频提供陪伴用户观看该视频显示设备的虚拟观众。在另一方法中,该增强现实图像包括看上去像是从该视频显示设备中浮现并且是从用户的位置的视角呈现的3-D。在另一方法中,所述增强现实图像可呈现在一静态位置中的竖直或水平表面上。
文档编号G02B27/01GK102540464SQ20111038621
公开日2012年7月4日 申请日期2011年11月17日 优先权日2010年11月18日
发明者A·A-A·基普曼, A·巴-泽埃夫 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1