用于呈现与真实对象相关的数字信息的方法和系统与流程

文档序号:11142401
用于呈现与真实对象相关的数字信息的方法和系统与制造工艺

在增强现实(AR)中,真实环境的视图(诸如真实环境的视频图像)与数字信息的叠层组合,该数字信息通常呈现与真实环境具有空间关系的一个或多个虚拟对象的形式。手持式增强现实需要用户装备有相机的设备,使得相机捕获具有相关联的数字信息的环境或对象。如果真实环境或对象在拍摄图像过程中不可见,则增强现实视图不提供数字信息。某些增强现实应用程序支持用户进行可能耗时几分钟甚至几小时的任务,示例包括步行导航和产品维护手册。用户可能不方便在整个任务执行期间举起设备,用户可能想要暂时放下设备或将设备收起来。在这种情况下使用增强现实视图时,不为用户提供支持其任务的数字信息,除非再次举起设备并且使相机再次面向对象或环境。

在用户测试中观察到,用户体验中发生这种中断将使该用户丧失对其任务的跟踪。进一步观察到,有些用户由于害怕遗漏某物,即使在举着设备很疲劳的情况下也不会放下设备。上述两种状况使得用户体验不尽人意。

进一步发现,最关键的问题在于手持式视频透视式AR应用程序需要用户连续举起手持式设备。这是必需的,因为后置相机需要捕获应被增强的场景。这不管是对老年人还是健康用户而言都是不合理的,因为手持式设备通常很重并且表面光滑,很难较长时间举起它们。

增强现实跟踪系统面临的挑战是在设定适当用户期望所需的可感知时间内准确地估计丧失跟踪这一事件。这种系统通常充当二进制接通/断开开关。增强现实上下文中的标准方法主要限于用于通知用户丧失跟踪并要求用户将设备的相机指向真实对象或环境以恢复视觉跟踪的报警对话框。

EP 2 579 127 A1提出了一种确定移动设备的用户的头部的取向的方法。该系统包括移动设备和头戴式辅助设备,该头戴式辅助设备包括用于获取头部的取向的数字罗盘。该取向用于确定递送给用户的内容。

WO 2013/058950 A1提出了一种确定设备取向(例如在桌子上的面向下的取向)的方法。然后使用该设备取向来激活相应的通知配置文件(例如,“Quiet”)。

US 2012/0280917 A1提出了一种使用设备的传感器(接触传感器、速度传感器、光传感器)基于用户意图和/或身份来调节设备状态(例如,省电模式)的方法。

US 8 594 744 B2描述了一种用于基于对用户声音进行取样来将移动设备的操作模式从免提模式切换到听筒模式的系统和方法。在过渡到另一种信息呈现模式的情况下,并不一定需要附加用户输入。唯一需要是对用户的声音数据(利用麦克风来捕获)进行取样。

EP 2 327 010 A2和WO 2010/022386 A2描述了一种使用虚拟相机、取向传感器和接触交互来在移动设备上的三维环境中进行导航的方法和系统。

期望提供一种用于呈现与真实对象相关的数字信息的方法和系统,该方法和系统能够在例如在手持式设备上执行给定用户任务期间(例如,在放下手持式设备时)提供不中断的用户界面和体验。

根据一方面,公开了一种表示与真实对象相关的数字信息的方法,该方法包括:确定真实对象;提供多个呈现模式,其中该多个呈现模式包括虚拟现实模式和音频模式中的至少一者以及增强现实模式;提供与真实对象相关的数字信息的至少一种表示;在考虑到由相机所捕获的图像的情况下,确定相机与参考坐标系之间的空间关系;根据该空间关系来从多个呈现模式中选择呈现模式;以及使用所选择的呈现模式来呈现数字信息的至少一种表示。

根据另一方面,提供了一种表示与真实对象相关的数字信息的方法,该方法包括:确定真实对象;提供多个呈现模式,其中该多个呈现模式包括虚拟现实模式和音频模式中的至少一者以及增强现实模式;提供与真实对象相关的数字信息的至少一种表示;在考虑到由至少一个相机所捕获的至少一个图像的情况下,确定人眼与参考坐标系之间的空间关系;根据该空间关系来从多个呈现模式中选择呈现模式;以及使用所选择的呈现模式来呈现数字信息的至少一种表示。

根据另一方面,提供了一种用于呈现与真实对象相关的数字信息的系统,该系统包括处理系统,该处理系统被配置为:确定真实对象;提供多个呈现模式,其中该多个呈现模式包括虚拟现实模式和音频模式中的至少一者以及增强现实模式;提供与真实对象相关的数字信息的至少一种表示;在考虑到由相机所捕获的图像的情况下,确定相机与参考坐标系之间的空间关系;根据空间关系来从多个呈现模式中选择呈现模式;以及使用所选择的呈现模式来呈现数字信息的至少一种表示。

根据另一方面,提供了一种用于呈现与真实对象相关的数字信息的系统,该系统包括处理系统,该处理系统被配置为:确定真实对象;提供多个呈现模式,其中该多个呈现模式包括虚拟现实模式和音频模式中的至少一者以及增强现实模式;提供与真实对象相关的数字信息的至少一种表示;在考虑到由至少一个相机所捕获的至少一个图像的情况下,确定人眼与参考坐标系之间的空间关系;根据该空间关系来从多个呈现模式中选择呈现模式;以及使用所选择的呈现模式来呈现数字信息的至少一种表示。

具体地,提议自动确定相机与真实对象或环境之间的当前空间关系是否适于通过使用(视觉)增强现实(AR)呈现来呈现与真实对象或环境相关联的数字信息,并且如果不适用,则提议切换到不同的信息呈现模式(如虚拟现实(VR)呈现或音频呈现),这会更适于将支持用户任务的相关联数字信息传送给用户。本发明有助于通过从AR呈现自动切换到另一种信息呈现模式(例如,VR呈现或音频呈现)来解决上述缺点。

在整个文档中,术语“AR呈现”、“AR呈现模式”、“AR模式”、“增强现实呈现”、“增强现实呈现模式”和“增强现实模式”可互换使用。另外,本文档可互换使用术语“VR呈现”、“VR呈现模式”、“VR模式”、“虚拟现实呈现”、“虚拟现实呈现模式”和“虚拟现实模式”。而且,术语“音频呈现”、“音频呈现模式”和“音频模式”在整个文档中可互换使用。

本发明试图解决的问题是,去除在放下手持式设备或将其收起时被中断的用户体验的间隙。这可例如基于设备取向(的变化)来检测。因此,提出了一种用于连续用户体验的系统和方法,具体地通过分别根据相机或眼睛与真实对象之间的空间关系的至少一部分来改变信息呈现模式。与常用方法相比,其优点在于可与用户连续保持逻辑连接并呈现与真实对象相关的数字信息,其方式最适于给定上下文,即相机或眼睛与对象之间的空间关系这种给定上下文。

当前,在AR应用程序(例如,AR浏览器)和/或AR或计算机视觉软件开发工具包中,提供了对象或环境是否被跟踪的状态,并且应用程序开发者可例如通过向用户提供视觉指令来告知如何达到所需对象或环境被跟踪的状态(例如,通过“请将相机指向杂志封面以开始增强现实体验”),以对该对象或环境未被跟踪这一事件作出反应。根据本发明,AR应用程序和/或AR或计算机视觉软件开发工具包的未来版本可能提供多个状态,告知1)数字信息可在对象的实时视频图像或实时视图的顶部呈现为空间配准地再现(AR模式);或2)数字信息可在屏幕上在视觉上呈现,而无需任何实时配准(VR模式);或3)数字信息无法在屏幕上在视觉上呈现,但可例如通过扬声器或耳机在听觉上呈现(音频模式)。

应用程序开发者可手动处理这些情况,或SDK(软件开发工具包)可理解数字信息描述,该数字信息描述包括不同的呈现,例如包括AR模式的3D模型、VR模式的3D模型或2D图像、可结合AR模式或VR模式在屏幕上打印或可使用文本到语音合成软件在音频模式下读给用户的文本指令。从设备到用户的不同信息呈现模式可能是等效的(这意味着它们承载相同的信息)或它们在细节丰富度方面可能不同。细节较少的模型可鼓励用户在有利的情况下切换到细节更丰富的模式。

不同于上述现有技术,根据本发明的方法基于相机与真实对象(数字信息与真实对象相关)之间的当前空间关系来确定合适的数字信息呈现模式。本发明的方法可改变用户相对于观察的上下文(即,在(视频透视式)AR模式、VR模式与音频模式之间切换)消耗(或感知)关于对象的数字信息的方式,以便例如在执行给定用户任务期间递送不中断的用户体验。用户任务的示例包括执行产品维护并且导航到指定目的地。

本发明提供了以最合适的信息呈现模式(向用户)来呈现与真实对象相关的数字信息这一优点。具体地,这包括增强现实信息呈现模式,所述增强现实信息呈现模式提供特别丰富的信息,但仅在某些状况下适用,即在相机与真实对象之间呈某些空间关系的状况下适用。与现有技术相比,本发明的优点在于,即使状况(即相机与真实对象之间的空间关系)不适于AR,仍可为用户提供与真实对象相关的数字信息,但在这种情况下,现有技术会中断呈现与真实对象相关的数字信息。

AR用户界面的自适应上下文切换并不广泛用于维护和步行导航任务。城市自行车导航也可从本发明获益。我们探究了跟踪系统(即至少使用相机传感器)与所观察的真实对象(数字信息与真实对象相关)之间的空间关系。在给定的观察上下文中,以合适的方式将真实对象的数字信息递送给用户,所述合适的方式包括:视觉方式(例如,以描述性文本、图像、3D模型、2D地图等形式),通过叠加在视频馈送中的显示器进行;无任何实时相机馈送的视觉方式;或听觉方式,通过免提或耳机进行。

例如,根据本发明的处理系统至少部分地包括在移动设备(诸如移动电话、可穿戴式计算机、平板电脑或移动计算机(通常称为膝上型计算机)和/或适于与移动设备通信的服务器计算机中。该处理系统可包括在这些设备中的仅一者中,例如包括在移动设备中或包括在服务器计算机中,或者可以是分布式系统,其中由一个或多个处理设备例如通过点到点通信或经由网络来分布和处理一个或多个处理任务,所述一个或多个处理设备为分布式的且彼此通信。

根据一个实施方案,该系统包括移动设备,移动设备包括相机和显示设备。

本文相对于所述方法描述的实施方案、方面和示例可同样由被配置为(通过软件和/或硬件)执行相应步骤的处理系统实现。任何所使用的处理设备均可经由通信网络(例如,经由服务器计算机或点到点通信)与一个或多个相机、显示器和/或任何其他部件通信。

根据另一方面,本发明还涉及包括软件代码段的计算机程序产品,所述软件代码段被适配为执行根据本发明所述的方法。具体地,软件代码段被包含在非暂态计算机可读介质上。软件代码段可被加载到本文所述的一个或多个处理设备(诸如微处理器)的存储器中。任何所使用的处理设备可经由通信网络例如经由本文所述的服务器计算机或点到点通信进行通信。

根据一个实施方案,多个呈现模式还包括音频模式。具体地,音频模式根据数字信息的至少一种表示来生成声音。

根据一个实施方案,根据相机或人眼分别与真实对象之间的空间关系的至少一部分,增强现实模式在真实对象的实时视图中在显示设备上视觉上混入数字信息的至少一种表示,虚拟现实模式在显示设备上在视觉上呈现数字信息的至少一种表示和真实对象的表示,并且音频模式根据数字信息的至少一种表示来生成声音。

例如,真实对象的实时视图由相机捕获作为至少一个图像,并且显示设备包括屏幕,其中在所述屏幕上显示所述至少一个图像。根据另一个示例,真实对象的实时视图由人眼捕获,并且显示设备包括半透明屏幕。

根据一个实施方案,本发明包括根据至少一个图像的像素信息和/或根据在相机捕获至少一个图像时相机相对于参考坐标系的姿态和/或根据手动输入来将由相机所捕获的真实对象的至少一部分的至少一个图像确定为至少一个关键图像。

例如,真实对象的呈现包括至少一个关键图像。

根据一个实施方案,本发明包括根据至少一个图像的像素信息和/或根据至少一个阈值和/或根据手动输入来将相机捕获真实对象的至少一部分的至少一个图像时相机相对于参考坐标系的至少一个姿态确定为至少一个关键姿态。

例如,根据至少一个关键姿态来呈现真实对象的呈现。

根据一个实施方案,根据由相机所捕获的真实对象的至少一部分的至少一个图像来确定真实对象。

根据另一个实施方案,根据至少一个手动输入来确定真实对象。

根据一个实施方案,数字信息的至少一种表示包括三维对象、三角网格、点云、体数据集、贝塞尔曲线(Bezier curve)、花键、表面描述、图像、声音、文字、视频和动画中的至少一者。

根据一个实施方案,参考坐标系与真实对象相关联。

根据另一个实施方案,参考坐标系与地球或跟踪系统相关联。

例如,根据空间关系从多个呈现模式中选择呈现模式包括确定真实对象的至少一部分是否在相机的视场内,如果是,选择增强现实模式作为呈现模式,否则选择虚拟现实模式和音频模式中的至少一者作为呈现模式。

根据另一个实施方案,根据空间关系从多个呈现模式中选择呈现模式包括确定所述空间关系是否指示相机与真实对象之间的距离低于阈值,如果是,选择增强现实模式作为呈现模式,否则选择虚拟现实模式和音频模式中的至少一者作为呈现模式。

例如,选择虚拟现实模式和音频模式中的至少一者作为呈现模式还包括确定相机相对于重力方向的取向,并且根据相机的取向选择虚拟现实模式和音频模式中的一者作为呈现模式。

根据一个实施方案,选择虚拟现实模式和音频模式中的至少一者作为呈现模式还包括确定一个或多个眼睛是否凝视在显示设备上,其中使用增强现实模式或虚拟现实模式在显示设备上呈现数字信息的至少一种表示,如果是,选择虚拟现实模式作为呈现模式,否则选择音频模式作为呈现模式。

根据一个实施方案,还根据附接至相机的GPS、罗盘和/或惯性传感器或根据跟踪系统确定相机与参考坐标系之间的空间关系。

根据一个实施方案,相机与参考坐标系之间的空间关系为第一空间关系,参考坐标系为第一参考坐标系,并且所述方法还包括确定显示设备与第二参考坐标系之间的第二空间关系,其中使用增强现实模式或虚拟现实模式在显示设备上呈现数字信息的至少一种表示。

例如,第二参考坐标系与人眼相关联,并且根据由附接至显示设备的相机所捕获的眼睛的至少一个图像来确定第二空间关系。

根据另一个实施方案,第二参考坐标系与真实对象相关联,并且根据由附接至显示设备的相机所捕获的真实对象的至少一部分的至少一个图像来确定第二空间关系。

根据另一个实施方案,第二参考坐标系与地球或跟踪系统相关联,并且根据跟踪系统或附接至显示设备的惯性传感器来确定第二空间关系。

根据一个实施方案,根据空间关系从多个呈现模式中选择呈现模式包括根据第一空间关系和第二空间关系来选择呈现模式。

根据一个实施方案,本发明还包括通知用户多个呈现模式中的一个呈现模式为用户提供比多个呈现模式中的另一个呈现模式更丰富的数字信息的表示,并且给出关于移动或位置或取向的指令以改变相机或眼睛分别与参考坐标系之间的空间关系,使得多个呈现模式中的该者适于以更丰富的方式呈现数字信息。

例如,根据空间关系从多个呈现模式中选择呈现模式包括根据第一空间关系和第二空间关系来选择呈现模式。

例如,基于视觉跟踪来确定第一空间关系,并且第一空间关系描述相机与真实对象之间的关系。可例如利用惯性传感器来测量第二空间关系,并且第二空间关系是指显示器(显示设备)与地球之间的关系。第一空间关系可用于确定真实对象在拍摄图像中是否可见,这可能是增强现实模式的先决条件。在这种情况下,第二空间关系可能指示显示器是否面向下且因此不能被用户观察到,或指示显示器是否没有面向下。虚拟现实呈现模式的适用性可能例如要求显示器可被用户观察到。需注意,显示器(显示设备)和相机并不一定以刚性方式连接。因此,第一空间关系和第二空间关系二者可能是指同一坐标系,例如与真实对象相关联,但在相机与显示设备不相关地移动的情况下,仍然是完全无关的。

例如,可在增强现实模式为具有最丰富的信息的呈现模式时手动限定丰富度水平,或针对具体使用情况和每个数字信息来独立地限定丰富度水平。

根据一个实施方案,一种方法包括以下步骤:1)确定相机与真实对象之间的空间关系的至少一部分,2)根据所述空间关系的所述至少一部分确定哪种信息呈现模式适于提供与所述真实对象相关的数字信息,以及3)借助于所确定的信息呈现模式来呈现与所述真实对象相关的数字信息。任选地,可在2)与3)之间执行额外步骤,所述额外步骤检查与所述真实对象相关的数字信息的数据表示的可用性,并且基于该信息和2)的结果(即,哪种呈现模式适用)确定在3)中将使用哪种模式。

现将相对于附图来描述本发明的方面和实施方案,其中:

图1示出了根据本发明的实施方案的流程图,

图2示出了根据本发明的实施方案的示例性场景,

图3示出了根据本发明的实施方案的另一个示例性场景,

图4示出了根据本发明的实施方案的架构的基本层,

图5示出了本发明的实施方案中的数字信息的基础数据表示层的示例,

图6示出了根据实施方案的用于选择适当信息呈现模式的工作流程图,

图7示出了本发明的实施方案可如何基于相机与真实对象之间的空间关系的至少一部分来确定增强现实呈现模式是否合适的流程图,

图8示出了本发明的实施方案可如何基于相机与真实对象之间的空间关系的至少一部分来确定虚拟现实呈现模式是否合适的流程图,

图9示出了根据本发明的实施方案可如何确定相机是否被收起的流程图,

图10示意性地示出了人眼通过光透视式显示器观察到真实对象的两种场景,其中穿过显示器的眼睛的视场分别包括和不包括真实对象。

图1示出了根据本发明的实施方案的流程图。在第一步骤101中,确定相机与真实对象(例如,与真实对象相关联的参考坐标系)之间的空间关系的至少一部分。随后在步骤102中,使用相机与真实对象之间的空间关系的至少一部分来确定哪种信息呈现模式适于提供与真实对象相关的数字信息。步骤103借助于合适的呈现模式呈现与真实对象相关的数字信息。在图2和图3中示出了本发明的示例性实施方案,这将在下文中进行阐述。

数字信息可通过创作过程与真实对象相关联或相关。例如,用户可使用计算机向真实对象的图像分配数字信息,以使数字信息与真实对象相关。又如,真实对象可通过CAD模型或一组图像特征(例如,SIFT描述符)来表示。数字信息可链接至CAD模型或该组图像特征。图1中的步骤101可以不同的方式实现,具体取决于可用信息和传感器并且取决于使用情况。

相机与真实对象之间的空间关系可包括物理距离或角度。空间关系可包括二进制信息。例如,空间关系可以是真实对象位于相机前面,即相机的图像平面前面。空间关系也可以是真实对象的至少一部分位于相机的截锥体内,可将所述截锥体参数化为棱锥体。类似地,空间关系可能是指关于以下内容的二进制信息:真实对象的至少一部分是否位于相机坐标系中的任何几何形状、空间或半空间(包括球体、四面体、立方体、八面体、棱锥体、圆锥体、圆柱体或任何其他三维形状)。所有这些示例是指相机与真实对象之间的平移,其为空间关系的至少一部分。如何定义空间关系的其他示例包括:在相机与真实对象之间提供(1D)距离(例如,深度);或提供三个坐标中的至少一者,所述三个坐标指示相机与真实对象之间在欧几里得空间的三维平移,所述三维平移例如以物理单位(诸如毫米或米)给出。例如,空间关系可相对于相机的高度描述真实对象的高度。空间关系还可指示取向。例如,空间关系可能描述相机的坐标系中真实对象的取向的一个、两个或三个自由度。空间关系还可能描述真实对象的坐标系中相机的取向的一个、两个或三个自由度。例如,如果真实对象为环境(例如,城市、建筑、植物或土地),那么相机与真实对象之间的空间关系的至少一部分可包括相机相对于重力的取向,该取向包含关于两个自由度的信息并且可用惯性传感器测量。另外,附接至相机的GPS传感器也可用于确定相机相对于环境的位置,即空间关系。空间关系可能是指上述所讨论的任何事物和任意组合。类似地,空间关系的至少一部分也可能是指上述所讨论的任意组合。

在一个实施方案中,使用基于模型的视觉跟踪基于拍摄图像和真实对象的模型来确定相机与真实对象之间的空间关系。例如,这可利用模型并使用来自拍摄图像的点特征、特征描述符、特征分类器或线特征及其对应关系来实现。

在另一个实施方案中,可基于基于图像的对象识别方法来确定空间关系,所述方法确定真实对象是否至少部分地位于相机的视锥体内。

在另一个实施方案中,基于由深度感测相机所提供的范围数据来确定相机与真实对象之间的空间关系。如果真实对象存在模型,那么可结合3D旋转和3D平移将空间关系表示为6DoF(DoF:自由度)刚体变换。

另一个实施方案确定相机与真实对象之间的距离(1D)。另一个实施方案并不依赖于用于确定相机与真实对象之间的空间关系的至少一部分的任何拍摄图像,而是使用由附接至相机的辅助传感器所提供的信息,所述辅助传感器诸如惯性传感器、(三轴式)加速度计、(三轴式)陀螺仪、电子罗盘、GPS接收器或任何其他例如基于蓝牙的定位系统。在这些情况下,相机与真实对象之间的部分空间关系可包括仅平移(部分)或仅旋转(部分)或它们的组合。

空间关系可包括旋转的至少一部分、平移的至少一部分,并且其还可包括关于单个部件的确定性或空间关系的自由度的信息。具体地,空间关系可包括利用大于随机猜测的确定性无法确定至少一个或全部的自由度这一信息。这可能是例如由于视觉跟踪未能将对象定位在拍摄图像中引起的。

步骤102(其中基于相机与真实对象之间的空间关系的至少一部分确定合适的信息呈现模式)也可取决于数字信息可用于哪种呈现,并且还可取决于额外传感器的读数并取决于使用情况。

信息呈现模式可能具有不同的优先级,并且步骤102的一个实施方案根据至少部分已知的空间关系在合适的模式中决定优先级最高的模式。

在一个实施方案中,如果相机与真实对象之间的刚体变换的所有六个自由度均具有高于手动定义的特定阈值的确定性和概率(例如,确定性值为0.25,或单位值为0.1米或1度),那么步骤102将增强现实呈现视为合适的。在一个示例中,对于确定性值而言,可指定100%肯定一个人在办公室内。在这种情况下,确定性为1.0。

在一个实施方案中,如果相机相对于真实对象的取向在所限定的取向范围内,那么步骤102将虚拟现实呈现视为合适的。这种限定的取向范围可指示用户可观察到显示器(其刚性地连接至相机)的取向。这将在图2a、图2b、图3a和图3b的上下文中进一步详述。

步骤102的实施方案及其子步骤在图6至图9中进行讨论。

图2a示出了本发明的一个实施方案。在包括房屋201和街道207的真实环境206内,用户202拿着带有后置相机和显示器203的计算机(例如移动设备,诸如智能电话或平板电脑)。用户举起计算机,使得后置相机捕获房屋201的至少一部分,在本示例中,该部分是真实对象(即,真实环境206)的一部分。与真实对象相关的数字信息是用户需要在房屋前面向右转可到达目的地。例如,在一个计算机具体实施中,导航信息(例如,到目的地的路径)与真实环境相关联。可将导航信息保存或预先存储在计算机中,或利用给定目的地由计算机程序生成导航信息。

可使用图像识别算法并根据由相机(例如,后置相机)捕获的房屋的至少一部分的图像来自动确定真实对象206(即,真实环境)或真实对象的一部分(即,房屋201)。可从GPS传感器获取相机的位置,这可确定真实对象(即,真实环境)。可由例如用户手动提供真实对象。

当数字信息的多个实体与真实对象相关联时,手动或自动选择数字信息的多个实体中的至少一者来呈现给用户。

在本示例中,在计算机上执行相机定位法,以确定后置相机与房屋(即真实环境的一部分,即真实对象)之间的空间关系的至少一部分。相机定位法可使用来自后置相机的图像的信息,但其也可在无任何相机的情况下(例如,基于GPS、惯性传感器和/或电子罗盘)起作用。基于所确定的空间关系的至少一部分,本发明的一个实施方案确定视频透视式增强现实是合适的信息呈现形式。因此,在显示器上显示由后置相机所捕获的环境的实时图像204以及空间配准的3D指令元素205,所述指令元素在本示例中为与真实对象相关的数字信息的表示。空间配准是基于后置相机相对于房屋(因而为环境,即真实对象)的空间关系的至少一部分来实现的。3D指令元素205(在这种情况下为箭头(即,“向右转”的表示))通过告知用户在房屋前面向右转来支持用户导航到某个目标目的地。

在根据图2b的不同情况下,同一用户212处于包括房屋211和街道的真实环境中。用户拿着带有后置相机和显示器213的计算机,计算机悬挂在颈部。在这种情况下,后置相机不会捕获房屋211的任何部分,在本示例中,所述任何部分是指真实对象的一部分。在计算机上执行相机定位法,以确定后置相机相对于房屋的空间关系的至少一部分。相机定位法可使用来自后置相机的图像的信息,但其也可在无任何相机的情况下(例如,基于GPS和惯性传感器)起作用。所确定的部分空间关系由本发明的一个实施方案处理,这可确定合适的信息呈现模式。在这种情况下,数字信息同样是用户应当在房屋前面向右转这一信息。由于拍摄图像不会捕获房屋的任何部分,因此利用靠近房屋的空间配准的3D指令元素显示由后置相机捕获的环境的活动图像将导致3D指令不可见。因此,在这种情况下,(视频透视式)增强现实并不是合适的信息呈现模式。此外,由于计算机悬挂在用户的颈部,因此用户无法观察显示器。因此,信息呈现的任何视觉模式都不适用。这可例如根据图6来确定。

在另一个实施方案中,也可将显示器与参考坐标系之间的空间关系确定为用于确定合适呈现模式的额外条件。在本示例中,显示器与用户眼睛之间的空间关系指示用户是否观察显示器。为此,可基于附接至显示器的前置相机所捕获的图像,使用该前置相机来检测人眼。如果在前置相机的图像中没有检测到眼睛,那么可确定用户眼睛不在显示器前面,因此用户无法观察显示器。

在这种情况下,本发明以一种不同但更合适的信息呈现模式(在这种情况下为音频模式)呈现与指令元素205所呈现的信息相对应的信息。本发明使用耳机214为用户呈现音频信号215,告知用户向右转。这可例如使用文本到语音软件来实现。

图3a示出了本发明的另一个实施方案。位于桌子302上的真实对象301由带有显示器303的计算机307的后置相机306捕获。计算机307包括一个或多个处理设备,诸如一个或多个微处理器。对由相机306捕获的图像进行处理,以确定真实对象301与计算机307的后置相机306之间的空间关系的至少一部分。本发明的一个实施方案确定,考虑到空间关系(指示真实对象部分位于相机的视场(FOV)内部,即在拍摄图像中部分可见),增强现实呈现模式是合适的。

因此,在计算机307的显示器303上显示利用后置相机306所捕获的图像304,所述图像显示了真实对象301的至少一部分。还显示了与真实对象相关的数字信息,所述数字信息是与真实对象301具有空间关系(即,已知姿态)且显示为叠加在拍摄图像上的虚拟对象305。在本示例中,真实对象301为杯子,并且虚拟对象305为杯盖。基于所确定的真实对象301与计算机307的后置相机306之间的空间关系的至少一部分,将虚拟对象显示为与真实对象的图像空间配准。在本示例中,真实对象301与后置相机306之间的空间关系为刚性6DoF变换,包括3D平移和3D旋转。在这种情况下,数字信息的表示(例如,虚拟盖305)可以是例如由三角形组成的三维对象,所述三角形的顶点可能分配有属性,诸如颜色坐标、简正坐标或纹理坐标。

在不同的情况下,如图3b所示,本发明的另一个实施方案在带有显示器313和后置相机320的计算机318上实施,所述计算机位于真实桌子312上靠近真实对象311。在后置相机的拍摄图像中并未捕获真实对象,因为真实对象并不位于相机的FOV内的位置处。可根据图像识别法来确定真实对象与相机之间的这种特定空间关系(即,真实对象在相机的FOV之外),以检测真实对象是否部分位于拍摄图像中。因此,对于可能放在真实对象(杯子)上的盖子不能按照增强现实呈现模式那样来解释,即通过使盖子与示出真实对象的至少一部分的实时拍摄图像在空间上配准。

本发明的一个实施方案根据相机的取向和真实对象相对于重力方向的取向来确定这种特定空间关系和合适的呈现模式。由于视觉对象检测不能基于拍摄图像来确定真实对象相对于相机的位置和取向,因此在这种情况下,只有相机相对于真实对象的取向是已知的,只要真实对象相对于重力具有已知的取向。这可例如基于惯性传感器的读数来确定。另外,可手动提供或自动确定真实对象相对于重力方向的取向。例如,如果真实对象之前在拍摄图像中可见,那么可根据真实对象的拍摄图像来确定真实对象相对于相机方向的取向。可从重力传感器或捕获地平面的相机的图像中获取相对于重力方向的相机取向。因此,可自动确定真实对象相对于重力方向的取向。

在另一个实施方案中,还可通过使用跟踪系统来确定相机与真实对象之间的空间关系。例如,包括附接至固定位置(例如,室内环境的天花板上)的若干光学相机的光学跟踪可用于确定相机和真实对象在光学跟踪系统的坐标系中的位置和取向。

由于不是真实对象与相机之间的空间关系的所有自由度都已知具有大于给定阈值的置信度,因此本发明的一个实施方案决定增强现实呈现模式在图3b中是不合适的。然而,虚拟现实呈现模式在这种情况下是合适的,因为相机相对于真实对象的取向指示显示器面向上并且因此可能对用户可见。

本发明的另一个实施方案根据图像识别或跟踪方法来确定这种特定空间关系,以检测真实对象是否部分位于拍摄图像中。

在本示例中,本发明示出了真实对象的图像314,所述图像不是实时图像而是先前捕获的。所述图像也可以是真实对象的3D模型的再现。通过真实对象的这种图像,显示了空间配准的虚拟对象315,所述虚拟对象为杯盖并且表示与由三维对象表示的真实对象相关的数字信息。基于这种可视化,用户可能会理解桌子上的真实杯子与盖子(并非实际存在)之间的空间和语义关系,而无需真实对象的实时图像。

在本示例中,显示器与地球之间的空间关系可用作确定用来呈现与真实杯子相关联的虚拟盖子的合适呈现模式的额外条件。在真实杯子不在相机截锥体内的情况下,虚拟现实呈现模式被确定为用于在显示屏面向上时呈现虚拟盖子,而音频呈现模式被确定为用于在显示屏面向下时呈现虚拟盖子。

在带有显示器和后置相机319的设备316的取向不适于以增强现实或虚拟现实模式呈现数字信息的情况下,将选择音频模式317用于信息呈现并且将选择合适的数据呈现格式。将指令以音频格式例如使用文本到语音引擎或音频文件的预定义回放(无论哪种都可用)提供给用户。

图4概述了根据所述本发明的实施方案的架构的基本层。应用程序层401包括已执行的使用情况的基础逻辑。信息呈现层402包括数字信息的若干信息呈现模式(例如,“向右转”或“附接盖子”)。我们定义了一组以下模式:1)AR(增强现实)模式:数字信息可在真实对象的实时视图的顶部呈现为空间配准地再现;2)VR(虚拟现实)模式:数字信息可在屏幕上在视觉上呈现,而无需与实时视图进行任何实时配准;3)音频模式:数字信息无法在屏幕上在视觉上呈现,但可(例如,通过扬声器或耳机)听觉呈现。数字信息的不同信息呈现模式可能需要数字信息的不同种类的数据表示。数据表示层403包括数字信息的不同表示,包括但不限于文本信息、音频文件、2-D静态图像、视频剪辑、3-D模型。数字信息的表示可在应用程序的设计时间内通过多种创作工具和方法来静态填充,或可通过针对适当内容递送服务的通信请求来动态生成。我们还设想了通过可用于3-D模型创建(即,油泥建模等)的多种3-D重建技术来进行动态信息采集。

图5示出了本发明的一个实施方案中数字信息的基础数据呈现层403的一个示例。例如,可以不同的表示存储向右转501的数字信息。在第一表示502中,可采用字符串(即,一系列字符,拼写为“Turn right!(向右转!)”)表示所述信息。这种表示可例如打印在显示器上或可使用文本到语音软件大声读出来,具体取决于哪种信息呈现模式是合适的。在本示例中,第二表示503为数字音频文件,其表示人们口述的向右转指令的记录。第三表示504为向右弯曲的二维或三维箭头。这种表示可例如用于被示为在AR模式为合适的信息呈现模式的情况下与实时拍摄图像在空间上配准。这种表示还可结合真实对象的图像(非实时图像)用于虚拟现实模式中。

旋松螺钉511指令的数字信息可例如采用以下各项来表示:字符串“Unscrew(旋松)”512、示出手如何旋松螺钉的数字视频序列513或可能具有动画的螺丝刀514的数字3D模型。

不同的信息呈现模式可能需要数字信息的不同表示。不同的信息呈现模式可对相机与真实对象之间的空间关系施加不同限制。不同的信息呈现模式可具有不同的细节丰富度。本发明的一个实施方案可自动确定细节丰富度最高的信息呈现模式,这与相机与真实对象之间的当前空间关系一致并且取决于呈现给用户的数字信息的可用表示。

示例性实施方案

1)计算相机相对于真实对象的姿态,即跟踪真实对象。

2)在跟踪真实对象时,存储最新的有效姿态。

3)在失去跟踪之后,提供替代呈现模式来递送信息。

a.使用情况:维护(参见图3b)。一旦失去跟踪(例如,将设备放置在桌子312上),便切换到VR模型并产生被跟踪对象311的3D模型314,并且使用跟踪的最新有效姿态之一来再现虚拟对象。在这种使用情况下,真实对象是需要维护的杯子。虚拟对象为与需要维护的真实对象配准的盖子的3D模型315。

b.使用情况:步行导航(参见图2b)。一旦失去跟踪(例如,用户将设备放到袋子中,或将其捆绑在肩部213),本方法通过头戴式耳机214产生音频导航指令模式215(可能需要文本到语音引擎)。例如,如参考文献[1]([1]:http://books.google.de/books?hl=en&lr=&id=6Zuj0cWns8EC&oi=fnd&pg=PA3&ots=9vqwof0oL&sig=Px8cBodCFHXO-uCFKYaogWHOApg#v=onepage&q&f=false)中所公开的数字地图可在用户保持与设备相互作用(例如,将相机指向地面)的情况下用作失去跟踪的替代物。在这种使用情况下,真实对象为真实环境,例如环境211的至少一部分(例如,城市)。与环境相关联的数字信息可以是环境的地图或地图的一部分或在房屋前面向右转的信息。数字信息的表示为到达目的地所必要的辅助信息215,例如使用文本到语音软件读取的文本。

4)在呈现3)中的信息时,保持运行相机并试图在后台跟踪。

5)一旦跟踪重新初始化,便切换到信息呈现的增强现实模式。

本发明的一个实施方案包括在观察真实对象时使用可用的额外设备(例如,智能手表、头戴式设备等)。这些可穿戴式设备不仅可递送关于真实对象的视听信息,还可利用车载相机传感器,成为用于与关于真实对象的数字信息相互作用的所述系统的参与主体。如果存在一个以上的配有相机的设备,那么本发明的一个实施方案根据相机与真实对象之间的空间关系来确定这些设备中的每一者适合哪种信息呈现模式。第二步骤随后确定哪个设备可提供更丰富的信息呈现模式,然后相应地分配呈现优先级。例如,在观察真实对象期间,用户拥有均配备有相机的平板电脑和智能手表。一旦确定空间关系,所述方法将选择每个设备的信息呈现模式。如果选择信息呈现的虚拟现实模式用于平板电脑,选择增强现实模式用于智能手表,那么可将优先级指定给细节丰富度最高的设备,在这种情况下为智能手表。此外,不同设备可分配有不同的优先级,例如具体取决于其显示器的尺寸,使得如果增强现实模式在两个设备上都适用,那么显示器较大的设备用于信息呈现。

根据本发明的实施方案的可能具体实施步骤(维护使用情况):

1)用户决定将要执行的用户任务(例如,维护)。

2)跟踪系统试着确定相机与真实对象之间的空间关系。

3)一旦跟踪系统成功确定所述空间关系,数字信息便与真实对象配准。

4)决定AR模式用于呈现与所选择的用户任务和真实对象相关的数字信息。

5)一旦决定呈现模式,便选择给定呈现模式的数字信息的表示(例如,在本具体实施中,正在加载数字信息的3-D模型)。

6)在跟踪成功时,跟踪系统存储最新的N(=1、2、3、4...)个姿态。

7)一旦失去跟踪(即,真实对象在拍摄图像中不可见),系统便实施本发明的一个实施方案来决定合适的呈现模式(即,在本具体实施中,系统利用一些描述性指令切换到VR模式)。

8)利用步骤6中所记录的跟踪姿态N来定位数字信息(3-D模型)。

9)一旦跟踪重新初始化,本具体实施从步骤3再次开始。

在另一个实施方案中,应用程序在增强现实呈现模式中不仅存储姿态(即,相机与参考坐标系之间的空间关系),还存储拍摄(关键)图像。存储这些关键图像,使得它们后来可以虚拟现实呈现模式显示,以表示真实对象的至少一部分,即作为真实对象的(至少一部分的)表示。可使用不同的方法来确定要存储哪些拍摄图像。例如,如果在该组已存储(关键)图像内不存在其他具有相似外观的图像,那么仅存储新的拍摄图像。例如,如果新图像与该组已存储图像中的所有图像之间的相似性低于特定阈值,那么仅将新的拍摄图像添加到该组已存储图像中。两个图像之间的相似性可例如被定义为它们之间的(归一化)互相关性。还可基于两个图像的强度或梯度方向的直方图的交互相关性来计算所述相似性。当利用多种方法(诸如SIFT)检测和描述两个图像中的局部图像特征并且随后将这两个图像的所有特征组合视为在它们的距离小于特定阈值的情况下相匹配时,还可基于匹配数量来计算所述相似性。可手动提供一次用于决定何时将新图像添加到该组中的阈值,或可根据该组中图像之间的相似性来适配该阈值。在另一个实施方案中,如果在已存储图像内不存在以相似相机姿态拍摄的其他图像,那么仅存储新的拍摄图像。可例如基于两个相机姿态之间的平移差和取向差来计算这两个姿态的相似性。

另一个实施方案还基于相机姿态和真实对象在拍摄图像中的可见情况,决定是否存储拍摄图像以供稍后用于虚拟现实呈现模式中。例如,如果真实对象的至少一部分(例如,50%)在图像中可见,那么仅将图像存储为关键图像。又如,如果真实对象在图像中占据至少最小面积,那么仅将图像存储为关键图像。所述面积可例如为500像素或可为拍摄图像的一部分(即,25%)。在另一个实施方案中,还基于相机姿态和与真实对象相关的数字信息叠加在拍摄图像上的情况,决定是否存储拍摄图像以供稍后用于虚拟现实呈现模式中。例如,如果数字信息的至少一部分在与拍摄图像空间配准地叠加的情况下可见,那么一个实施方案仅存储将在虚拟现实模式中使用的图像。

根据实施方案的可能具体实施步骤(此处:使用GPS进行步行导航):

1)用户选择或输出将要导航到的所需目的地。

2)启动附接至设备显示器的相机,并且捕获第一图像并将其呈现给再户。

3)跟踪系统利用监听器初始化,以进行设备的位置更新。

4)一旦初始化,便在屏幕上绘出对应于所需最终目的地的数字辅助信息(POI对象)。

5)一旦第一位置更新(例如,来自GPS),便识别设备的当前位置,并计算与最终目的地的距离并将该距离显示在POI上。

6)计算设备的当前位置与请求的最终目的地之间的建议路线(可能使用第三方路线服务,这涉及与服务器进行通信)。

7)路线被划分为若干个原子状路点,所述原子状路点对应于单条路线。

8)为每个路点创建中间POI,包括必要的数字指令(例如,呈文本表示格式),用于指示如何从每个路点继续进行。

9)在所绘出每个帧上,算法检查设备相对于重力的取向:

a.当相机的光轴接近正交于重力方向时,增强现实模式是合适的,并且结合实时视图以(音频)视频格式将指令呈现给用户。

b.如果增强现实模式不合适(例如,由于将设备收在袋子中),那么将选择音频信息呈现模式来继续导航。

10)一旦后续位置更新,将计算到所有路点的当前距离,并且一旦用户位于距离最近路点X米的附近,以适当信息呈现模式向用户提供指令。

图6示出了根据实施方案的用于选择适当信息呈现模式的工作流程图。如果在给定情况下没有其他提供更丰富信息呈现体验的模式603或605是合适的,那么将选择根据步骤606的模式作为回退模式。基于相机与真实对象之间的空间关系的至少一部分(601),步骤602确定增强现实呈现模式是否是合适的信息呈现模式。这可例如根据图7所示的实施方案来实现。如果AR模式是合适的,那么使用AR模式(步骤603)。否则,考虑到空间关系601,步骤604确定虚拟现实表示模式是否是合适的。如果合适,使用VR呈现模式(步骤605)。否则,使用音频呈现模式(步骤606)。需注意,AR呈现模式(603)和VR呈现模式(605)可能包括听觉输出。

图7示出了本发明的一个实施方案可如何基于相机与真实对象之间的空间关系的至少一部分701来确定增强现实呈现模式是否合适的流程图。决策框702对应于图6中602的一个实施方案。首先,在步骤703中检查701是否包括平移的至少一部分。如果不包括(705),那么决策框702得出AR呈现模式不适用这一结论(710)。否则(704),在步骤706中可进一步评估701的取向部分是否适于AR呈现模式。701的取向部分能够将指示对象在坐标系中的方向的至少一个向量转化为相机的坐标系。随后,706的一个实施方案将限定参考向量(指示在相机坐标系中表示的方向)和阈值,并且706将要求将从对象坐标系转化为相机坐标系的向量与参考向量之间的纯量积高于阈值,使得步骤706得出“是”的结果。可使用多对参考向量和阈值。

例如,如果真实对象是环境的至少一部分,那么感兴趣向量可以是重力向量。在这种情况下,相机与真实对象之间的空间关系可基于附接至相机的惯性传感器,所述惯性传感器测量相机相对于重力的绝对取向。这允许将对象坐标系中所限定的向量(即,重力向量)转化为相机的坐标系。

例如,现在如果虚拟现实呈现模式仅在相机看向地板(是环境的一部分,因而是真实对象的一部分)时适用,那么可使用参考向量和阈值的以下限定。相机坐标系中的参考向量可以是平行于相机的主轴的向量。可以假设的是,指示相机坐标系中重力取向的向量和参考向量二者均具有单位长度。那么将阈值限定为0.9并且强制使得参考向量与所转化向量之间的纯量积高于该阈值意味着以下内容。相机主轴与地板法线(即,重力向量)之间的角度小于cos-1(0.9)度(大约为26度)。

又如,如果增强现实呈现模式仅在相机相对于真实对象呈纵向模式(即,非横向模式)时适用。这可如下实现。将相机坐标系中的参考向量限定为平行于相机的成像传感器的长侧的向量,并且从对象坐标转化为相机坐标的向量仍为如前一个示例中所述的重力向量。现在,如果将阈值选择为0.7071,那么这对应于两个向量之间45度的角,并且该条件仅在相机呈纵向取向而非横向取向时成立。

又如,真实对象为门敞开的车库(即,缺失一个面的立方体),并且数字信息为车库内部的(虚拟)车辆。在这种情况下,可将任何不允许通过门查看车库的相机取向视为不适于增强现实呈现模式。在本示例中,可基于视觉相机跟踪来确定相机与真实对象之间的空间关系,并且该空间关系包括全6DoF相机姿态。对象坐标系中的向量通过敞开的门指向车库内部,并且考虑到向量与相机坐标系之间的空间关系将该向量转化为相机坐标系。将相机坐标系中的参考向量限定为平行于相机的主轴,并且在本示例中,可将阈值限定为0.8。因此,在本示例中,增强现实呈现模式仅在相机取向允许通过敞开的门查看车库的情况下(即,在相机主轴与指向门内部的向量之间的角度小于37度的情况下,其中所述37度对应于所转化的单位向量与大于0.8的参考单位向量的纯量积)适用。并非手动限定阈值,而是根据固有相机参数(诸如焦距)来限定阈值,这可被提供一次或在线估计。

如果取向不适用(709),那么决策框702返回“否”(710)。否则,决策框707返回“是”(708)。

图8示出了本发明的一个实施方案可如何基于相机与真实对象之间的空间关系的至少一部分801来确定虚拟现实呈现模式是否合适的流程图。决策框802对应于图6中604的一个实施方案。首先,在步骤803中检查801的取向部分是否适于VR呈现模式。801的取向部分能够将对象坐标系中的至少一个向量转化为相机的坐标系。随后,803的一个实施方案将限定参考向量(在相机坐标系中表示)和阈值,并且803将要求将从对象坐标系转化为相机坐标系的向量与参考向量之间的纯量积高于阈值,使得步骤803得出“是”的结果。可使用多对参考向量和阈值。例如,在显示器与相机背向且显示器仅在面向上半球时对用户可见的假设下,这一构想可使得803仅在相机面向下半球时返回“是”。如果取向不适用(805),那么决策框802返回“否”(810)。否则(804),可检查相机是否被收起。框806的一个实施方案在图9中详细描述。如果相机被收起(807),那么决策框802返回“是”,即VR模式适用。否则(809),决策框返回“否”,其中810意味着VR模式不适用。

图9描述了确定相机是否被收起的一个实施方案901。决策框902检查包括相机的设备的屏幕(即,显示器)是否关闭。显示器可由用户手动关闭或在空转周期之后由设备的操作系统自动断开。在903“是”的情况下,决策框901返回“是”(910),并且可得出相机被收起这一结论。因此,根据本发明的一个实施方案(如图8所示),将执行步骤809,这意味着VR模式不适用。在屏幕开启的情况下,通过904“否”进行到决策框905,以确定接近传感器是否在延长时间段(例如,30秒)连续检测附近对象。这可指示设备可能放置在对象(例如,口袋或袋子)内部,并且在接近传感器无意被用手覆盖时排除任意情况。在906“是”的情况下,可得出相机被收起这一结论。因此,根据图8所示实施方案,将执行步骤809并且VR模式不适用,否则继续步骤907以执行决策框908,确定当前运动是否与任何运动模式匹配。所述运动因而是指在至少两个时间点测得的相机与真实对象之间的空间关系的至少一部分。

相机相对于真实对象的运动是指相机相对于真实对象在至少两个位置之间的运动。如果对象为静态(相对于地球),那么相机相对于真实对象的运动与相机相对于地球的运动相同。如果对象为动态(相对于地球),那么相机相对于真实对象的运动与相机相对于地球的运动不同。

惯性传感器、(三轴式)加速度计、(三轴式)陀螺仪或其他提供关于设备位置或取向的信息的辅助传感器中可能存在(融合)传感器数据。通过使用监督式机器学习技术,可得知与口袋、袋子或手提袋中携带的设备相对应的运动方式。这能够在稍后识别这种情况并将这种情况与不感兴趣的任意事件区分开(例如,当设备在走路、跑步等期间移动时)。在910“是”的情况下,决策框901返回“是”,并且执行步骤809。这意味着VR模式在运动方式指示相机被收起的情况下适用。否则,步骤909将得出相机未被收起这一结论,执行步骤808,即VR模式。

以上实施方案可使用不同种类的显示器来向用户呈现数字信息,尤其是使用AR呈现模式或VR呈现模式。具体地,可使用反射显示器和发射显示器,诸如LCD显示器或LED显示器。这种显示器例如用于手持式设备,诸如智能电话或平板电脑,其中显示器刚性地连接至后置相机。在增强现实呈现模式下,这些显示器用于示出实时拍摄图像并且用于呈现与真实对象(与实时拍摄图像叠加)相关的数字信息。上述实施方案还可使用半透明显示器,其允许用户看穿显示器从而通过显示器光学观察环境。这可包括在增强现实呈现模式下查看感兴趣真实对象,其中显示器仅用于呈现视觉数字信息但不呈现实时拍摄图像。这种显示器例如基于OLED或LCD技术并且常用于头戴式显示器中。在很多情况下,存在刚性附接至这种头戴式显示器的相机,并且在这种情况下,相机可以是为其确定其相对于对象的空间关系的至少一部分的相机。当戴着头戴式显示器时,用户眼睛与显示器之间的空间关系通常大致恒定。然而,这确定了用户可看到环境的哪一部分。如果光透视式显示器(即,半透明显示器)被举在用户手中,那么眼睛与真实对象之间的空间关系对于确定对象是否可通过显示器(部分地)看见来说变得尤为重要,并且该空间关系随后可指示增强现实呈现模式是否适用。在这种情况下,决定将要选择哪种呈现模式取决于眼睛与至少一个参考坐标系之间的空间关系。至少一个参考坐标系可包括真实对象的坐标系和/或(半透明)显示器的坐标系。

显示器(显示设备)可在相对于眼睛的不同距离处形成图像。视频投影机(例如,基于LCD、LED、DLP、CRT或激光器)是本发明的上下文中可使用的显示设备。视频投影机在其投影到的表面上形成了图像,所形成的图像可能是与正显示的数字信息相关联的真实对象的至少一部分。对于手持式设备诸如平板电脑或智能电话而言,显示器(显示设备)位于用户手中。可穿戴式计算机的显示器通常附接至用户身体,例如使用智能手表时附接至手腕处或使用头戴式显示器时附接在眼睛前面。本发明还可使用附接至眼睛的显示器,例如以隐形眼镜的形状因数直接附接至眼球。显示设备还可将光投射到用户的视网膜上。在这种情况下,显示器与眼睛之间的空间关系可以是静态的,并且我们可以假定用户始终能够看到显示器。

需注意,术语“显示器”和“显示设备”在整个文档中可互换使用。

在虚拟现实呈现模式下,可使用上文讨论的所有种类的显示器,尤其包括光透视式显示器。在这种情况下,不是通过显示器查看真实对象,而是可在显示器上示出真实对象的图像或模型。

图10a示意性地示出了人眼1003通过光透视式显示器1002观察到的真实对象1001。确定眼睛与真实对象相关联的坐标系之间的空间关系1004,并且该空间关系可作为选择与真实对象1001相关的数字信息的呈现模式的基础。具体地,这一空间关系1004影响眼睛1003穿过显示器1002的视场1005。在图10a中存在的空间关系中,真实对象1001位于视场1005内,因此本发明的一个实施方案可选择增强现实呈现模式作为用于在显示器1002上呈现与真实对象1001相关的数字信息的模式。在一个实施方案中,附接至显示器1002的第一相机可捕获真实对象1001的图像,以便确定第一相机与真实对象之间的第一空间关系。附接至显示器1002的第二相机可捕获眼睛1003的另一图像,以便确定第二相机与眼睛之间的第二空间关系。第一相机与第二相机之间的第三空间关系可以是已知的。随后,可根据第一空间关系、第二空间关系和第三空间关系来确定空间关系1004。

在图10b中,示出了真实对象1011、光透视式显示器1012和眼睛1013。再次确定眼睛与坐标系之间的空间关系1014,其中在这种情况下,该坐标系与真实对象1011相关联。在这种情况下,这个空间关系表明眼睛1013穿过显示器1012的视场1015并不包括真实对象1011的任何部分。在这种情况下,本发明的一个实施方案会根据空间关系1014来选择虚拟现实模式。

上文提及的用于基于相机与坐标系(例如,与真实对象相关)之间的空间关系的输入而确定从多个模式中选择哪种信息呈现模式的所有实施方案,可基于眼睛与坐标系(例如,与真实对象或显示器相关)之间的空间关系类似地执行。在这种情况下,相机与眼睛等效。

如何确定眼睛与坐标系之间的空间关系可能存在若干方法。在一个实施方案中,基于由相机所捕获的图像并且通过检测眼睛在拍摄图像中的位置来确定眼睛与坐标系之间的空间关系。这可例如基于多个特征诸如角膜反射和瞳孔中心来进行。拍摄图像可捕获可见光或红外光,或者可能使用它们的组合。这样的方法使得眼睛与相机的坐标系之间存在空间关系。如果相机的坐标系与第二坐标系之间的空间关系是已知的,那么眼睛与第二坐标系之间的空间关系可通过互相联系来确定。

另一个实施方案使用脸部检测或脸部跟踪法来确定相机与脸部之间的空间关系。可使用对呈灰度格式或RGB、YUV或任何其他色彩格式的图像进行操作的任何现有技术算法。此外,可使用对范围数据(例如,从无源或有源立体相机或渡越时间相机获取)进行操作的算法。该检测可以是例如基于神经网络、支持向量机或任何其他使用了机器学习的方法。如果相机的坐标系与脸部之间的空间关系已根据上述算法进行了确定,则可考虑到脸部与脸部眼睛之间的已知空间关系来确定相机的坐标系与脸部眼睛之间的空间关系。与前一个示例类似,如果相机的坐标系与第二坐标系之间的空间关系是已知的,那么眼睛与第二坐标系之间的空间关系可通过互相联系来确定。

本发明进一步包括以下这种方法,即通知用户:数字信息在适用于根据相机(或眼睛)与真实对象之间的当前空间关系而选择的呈现模式的表示中不可用。在这种情况下,该系统可进一步提供关于移动或位置或取向的指令,使得相机(或眼睛)与真实对象之间的空间关系可相应地变化以选择另一种呈现模式。

另外,不同的呈现模式可具有表明其呈现优先级的不同权重,这可手动地指定。例如,可向AR呈现模式指定比VR模式和音频呈现模式更高的权重。可向VR呈现模式指定比音频呈现模式更高的权重。当根据空间关系来确定选择两种呈现模式(例如,AR呈现模式和VR呈现模式)时,那么最终可选择具有较高权重的呈现模式(例如,AR呈现模式)用于呈现数字信息。

数字信息的不同表示可具有不同水平的丰富度,这也可手动地指定。

本文进一步公开了以下这种方法,即通知用户:一种不同的呈现模式可为用户提供更丰富的数字信息的表示,并向用户提供关于移动或位置或取向的指令,以改变相机(或眼睛)与真实对象之间的空间关系,从而使得该信息呈现模式适于以更丰富的方式呈现数字信息。例如,如果呈现模式为音频模式并且数字信息描述了正面的特定位置,那么音频模式可例如说明该位置位于4楼与5楼之间并且从正面看位于告示牌的左侧,而增强现实模式可通过仅在相应位置显示点或叉号而更丰富并且更简单地呈现相同信息。在这种情况下,该方法建议用户:一种不同的信息呈现模式在当前情况下会提供更丰富的信息并向用户提供指令(如“将相机移向告示牌或将相机水平放置”的语音命令),以鼓励用户移动相机从而使得AR模式适用。

根据空间关系,通知用户一种不同的呈现模式可为用户提供更丰富的数字信息呈现也可能是有益的。例如,如果真实对象为汽车并且数字信息为如何再注入冷却液体(例如,数字信息可以是用于再注入冷却液体的过程),那么带有平板电脑的用户可首先将相机指向汽车的发动机舱,并且使用增强现实呈现模式在实时拍摄图像中叠加地呈现再注入流体之处。在将模板计算机放在一边后,本发明的一个实施方案将切换到虚拟现实呈现模式,并将发动机舱的图像(其已在增强现实呈现模式期间被捕获,叠加有数字信息)示为例如虚拟3D模型。在用户确认他或她遵循了数字信息并再注入冷却流体后,下一个维护步骤(即,下一个数字信息)可以是对汽车补给燃料。虚拟现实模式将以叠加虚拟3D指令的方式呈现真实汽车的虚拟3D模型,但它无法呈现真实汽车的拍摄图像,因为汽车的相关部件(即,燃料添加活门)在增强现实模式下尚未被捕获,并且因此不存在活门的任何拍摄图像。

根据本发明的实施方案的一种方法现将通知用户:将平板电脑移动成使相机捕获燃料添加活门的至少一部分的姿态将能够呈现真实物品以及因此数字信息的更丰富的表示。因此,移动平板电脑将使得增强现实视图适用,并且然后在存储了活门的至少一个拍摄图像(即,照片)后,虚拟现实模式也通过示出汽车的照片而不是再现其3D模型而实现更丰富的表示,其中该3D模型具有更少的细节并且看上去较为不现实。

可在增强现实模式为带有最丰富信息的呈现模式、虚拟现实模式为带有第二丰富信息的呈现模式并且音频模式为带有最不丰富信息的呈现模式时,手动地限定丰富度水平。丰富度可进一步取决于单独使用情况,并且由此丰富度顺序可针对每种使用情况和每个数字信息而独立地限定。如果数字信息为(例如)一首歌,那么与例如虚拟现实模式(其例如示出歌曲的节拍或歌词)相比,音频模式通过播放歌曲录音来提供更丰富的表示。

信息呈现

信息呈现模式是一种呈现与真实物品相关的数字信息的方法。信息呈现模式可包括但不限于:

1)增强现实(AR)呈现:在真实对象的实时视图上叠加数字信息。实时视图可作为真实对象的现场拍摄图像来实现(视频透视式),或者该实时视图可以是基于真实对象穿过光透视式显示器的视图。这种呈现形式是基于显示器的。

2)虚拟现实(VR)呈现:数字信息连同真实对象的数字视觉表示一起示出,该数字视觉表示呈例如真实对象的3D几何模型、数字视频、数字照片或图像的形式。这种呈现形式是基于显示器的。

在AR和VR呈现模式下,显示设备(例如,LCD屏幕或半透明屏幕)用于显示数字信息。

3)音频呈现:例如使用耳机或扬声器以听觉方式来呈现数字信息。

这种信息呈现模式并不需要任何显示器。

一种合适的信息呈现模式例如如在根据图6的实施方案中所述而被选择。

表示

数据表示这一抽象概念指出了与真实对象相关的数字信息存储在计算机中的方式。基于信息呈现模式来选择一种合适的数据表示格式。每个信息呈现模式包括至少一个数据表示格式。数据表示格式的任意组合可用于充实给定信息呈现模式,并且可包括但不限于:

1)对于增强现实(AR)呈现来说,与真实对象相关并且在显示器上呈现的数字信息的数据表示可以是例如数字(动画)3D模型、数字(动画)2D模型、视频、图像、文本信息或音频文件。

2)对于虚拟现实(AR)呈现来说,与真实对象相关并且在显示器上呈现的数字信息的数据表示可以是例如数字(动画)3D模型、数字(动画)2D模型、视频、图像、文本信息或音频文件。

3)对于音频呈现来说,与真实物品相关的数字信息的数据表示可以是数字声音文件,或是可借助软件(例如,文本到语音)转换为语音的文本。

虽然本文参考某些部件描述了各种实施方案,但在实现这些实施方案中的任何实施方案时,也可使用本文所述或对本领域技术人员显而易见的部件的任何其他配置。本文所述的设备或部件中的任一者可以是或可包括相应的处理设备(未明确示出)诸如微处理器,用以执行本文所述的任务中的一些或多个。处理任务中的一者或多者可由部件或其彼此通信的处理设备中的一者或多者来处理,例如通过相应的点到点通信或经由网络例如经由服务器计算机来处理。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1