全息视频捕获和远程呈现系统的制作方法

文档序号:16054654发布日期:2018-11-24 11:34阅读:339来源:国知局

本申请是基于2016年1月20日提交的序列号为62/388,334的在先递交的美国临时专利申请和2016年2月23日提交的序列号为62/389,372的美国临时专利申请的发明专利申请,根据35u.s.c.§119(e)要求这些美国临时专利申请的申请日的权益,并且这些美国临时专利申请的内容通过引用被整体合并于此。

本发明总体涉及视频会议系统,更具体地但非排他地,涉及在高度紧凑的基于激光的投影系统中向三维跟踪系统提供有序的像素束扫描。

背景技术

远程呈现系统通常向远程定位的参与者提供视频会议。视频会议通常用于与远程定位的家庭亲属、商业雇员、同事、在线游戏玩家等彼此通信。远程呈现系统通常向视频会议的每个远程定位的参与者提供实时、近实时或预先录制的视频。通常,远程呈现系统在每个远程位置处使用至少一个相机来捕获包括参与者的场景的视频。并且每个捕获的视频被同时显示给选择观看与一个或多个其他所选参与者相对应的视频的每个远程定位的参与者。

到目前为止,远程呈现系统难以捕获远程定位的视频会议参与者的每个场景的视频,这些视频可用于容易且有效地向彼此显示每个参与者的三维视频。特别是,捕获每个远程定位的参与者的多个可视角度的困难已经在提供可靠且经济上可行的三维视频方面带来了问题。

附图说明

图1a示出了示例性头戴式显示系统的实施例;

图1b示出了可以实现本发明的各种实施例的环境;

图1c示出了用于捕获和显示三维视频的过程的流程图;

图2示出了可以包括在系统(诸如图1a和1b中所示的系统)中的示例性客户端计算机的实施例;

图3示出了可以包括在系统(诸如图1b中所示的系统)中的示例性网络计算机的实施例;

图4a示出了示例性远程呈现系统的二维俯视图的实施例,该远程呈现系统包括凹形镜面和具有左眼柄和右眼柄的头戴式投影显示系统;

图4b示出了从头戴式投影显示系统的左眼柄(诸如图4a所示的头戴式投影显示系统的左眼柄)的视角看的示例性未扭曲视图的实施例,其中该未扭曲视图是从如由左眼柄(诸如图4a的左眼柄)所捕获的来自凹形镜面的扭曲视图得到的;

图4c示出了从头戴式投影显示系统的右眼柄(诸如图4a所示的头戴式投影显示系统的右眼柄)的视角看的示例性未扭曲视图的实施例,其中该未扭曲视图是从如由右眼柄(诸如图4a的右眼柄)所捕获的来自凹形镜面的扭曲视图得到的;

图4d示出了来自凹形镜面(诸如图4a的凹形镜面)的示例性扭曲视图的实施例,如由头戴式投影显示系统的左眼柄(诸如图4a中所示的头戴式投影显示系统的左眼柄)所捕获的;

图4e示出了来自凹形镜面(诸如图4a的凹形镜面)的示例性扭曲视图的实施例,如由头戴式投影显示系统的右眼柄(诸如图4a中所示的头戴式投影显示系统的右眼柄)所捕获的;

图4f示出了从头戴式投影显示系统(诸如图4a所示的头戴式投影显示系统)的视角来看的示例性三维模型视图的实施例,该示例性三维模型视图从如由头戴式投影显示系统的左眼柄和右眼柄(诸如图4a的头戴式投影显示系统的左眼柄和右眼柄)所捕获的来自凹形镜面的扭曲视图得到的;

图5示出了针对具有左眼柄和右眼柄的示例性头戴式投影显示系统以及示例性凹入三联(triptych)式镜面的二维逻辑射线图的实施例,以及如由左眼柄和右眼柄捕获的来自三联式镜面的每个面板的视图。

图6a示出了由人a佩戴的头戴式投影显示系统将人b的示例性虚拟图像投射到凹形屏幕上的二维逻辑射线图的实施例;

图6b示出了由人b佩戴的头戴式投影显示系统将人a的示例性虚拟图像投射到凹形屏幕上的二维逻辑射线图的实施例;

图6c示出了针对由人b佩戴的头戴式投影显示系统将人a的虚拟图像投射到凹形屏幕上(如图6b所示的那样)的示例性视角变化的二维逻辑射线图的实施例;

图6d示出了由人b佩戴的头戴式投影显示系统的右眼柄(例如图4e的右眼柄)捕获的来自凹形屏幕的示例性扭曲视图的二维逻辑射线图的实施例,以及由头戴式投影显示系统投射到凹形屏幕上的人a的示例性虚拟图像;

图7示出了在三路视频会议期间由人a佩戴的头戴式投影显示系统将人b和人c的示例性虚拟图像投射到凹形屏幕上的二维逻辑射线图的实施例以及当人a和人b进行目光接触时,人a和人b的视角的示例性图示;

图8a示出了具有多个层的示例性反射不透明显示屏的横截面视图的实施例;

图8b示出了具有多个层的示例性反射半透明显示屏的二维逻辑射线图的实施例;

图8c示出了具有多个层的示例性反射透明显示屏的二维逻辑射线图的实施例;

图8d示出了具有多个层的示例性反射照明显示屏的二维逻辑射线图的实施例;

图9a示出了示例性虚拟圆桌会议的二维逻辑俯视图的实施例;

图9b示出了在虚拟圆桌会议(例如图9a的会议)期间的示例性侧边聊天的二维逻辑俯视图的实施例;

图10a示出了各种示例性显示屏形状(包括平面屏幕形状、椭圆抛物面屏幕形状和圆柱形屏幕形状)的俯视横截面视图的实施例,以突出由这些各种屏幕形状提供的视场(fov)的差异;

图10b示出了各种示例性显示屏形状(包括椭圆抛物面屏幕形状和平面屏幕形状)的横向剖视图的实施例,以突出相比于平面屏幕形状由椭圆抛物面屏幕形状提供的多个维度的fov增加;

图10c示出了向上开口的示例性椭圆抛物面的三维逻辑视图的实施例;

图11a示出了示例性凹形屏幕和具有眼柄的示例性头戴式投影显示系统的二维逻辑射线图的实施例,用于强调采用凹形屏幕时眼柄的fov;

图11b示出了示例性平面屏幕和具有眼柄的示例性头戴式投影显示系统的二维逻辑射线图的实施例,用于强调采用平面屏幕时眼柄的fov;

图12a示出了当用户将她的头部移向凹形屏幕时示例性凹形屏幕的二维逻辑射线图的实施例;

图12b示出了当用户将她的头部移离凹形屏幕时示例性凹形屏幕的二维逻辑射线图的实施例;

图13a示出了在四路视频会议期间由人a佩戴的头戴式投影显示系统将人b、人c和人d的示例性虚拟图像投射到三联式屏幕上的二维逻辑射线图的实施例;

图13b示出了如由头戴式投影显示系统捕获的来自三联式屏幕的每个面板的示例性视图的二维逻辑射线图的实施例;

图14a示出了示例性镜面的二维逻辑射线图的实施例,该镜面采用对每种原色的一个或多个窄带具有抗反射性的滤光器,以便于在跟踪形状时捕获物体的全色图像或物体的运动;

图14b示出了示例性镜面(例如图14a的镜面)的二维逻辑俯视射线图的实施例,其中当左眼柄中的光源向镜面中的点a发射宽带光时,镜面反射宽带光的一个或多个部分以照亮点b处的脸部,并且右眼柄从镜面中的点c捕获脸部的彩色图像;

图14c示出了示例性镜面(例如图14a的镜面)的二维逻辑横向射线图的实施例,其中当右眼柄中的光源向镜面中的点a发射宽带光时,镜面反射宽带光的一个或多个部分以照亮点b处的脸部,并且右眼柄从镜面中的点c捕获脸部的彩色图像,如虚拟点b'处的虚拟图像所表示的;

图14d示出了由水平穿过目标的光束照射的示例性目标的二维透视图的实施例;

图14e示出了如由一个或多个图像传感器捕获的来自镜面的示例性目标(例如图14d的示例性目标)的二维透视图的实施例,其中图像传感器分别具有多行像素并且分别将激活的像素行数减少到与水平穿过目标的光束的垂直位置相关联的像素行数;

图14f示出了当眼柄中的光源向镜面中的点a发射扫描光束时示例性扫描光束的二维逻辑射线图的实施例,其中该镜面反射扫描光束的一个或多个部分以在点b处照亮人a的脸部,从光源垂直偏移的相机从镜面中的点c捕获人a的脸部的彩色图像,并且人a基于具有一个或多个逆反射层的镜面感知人b的虚拟图像,该一个或多个逆反射层逆反射朝向点a发射的扫描光束的一个或多个其他部分;

图14g示出了当扫描光束穿过镜面照射目标(例如用户的脸部)以由相机捕获目标的图像并且提供一个或多个逆反射的视锥时来自眼柄中的光源的示例性扫描光束(例如图14f的扫描光束)的三维逻辑光线图的实施例,其中该一个或多个逆反射的视锥可能与用户的视野重叠,但由于相机和光源之间的偏移距离而保持在相机的视野之外;

图15a示出了传统的提词器的二维逻辑射线图的实施例;

图15b示出了传统平视显示器(hud)的二维逻辑射线图的实施例,传统hud采用特殊光学器件来反射来自车辆挡风玻璃的光,以在狭窄可视空间中提供虚拟图像;

图15c示出了包括采用从窗口偏移的逆反射表面的可穿戴投影系统的示例性立体投影系统的二维逻辑横向射线图、立体投影系统的二维逻辑俯视射线图以及用于立体投影系统的示例性会聚范围的二维逻辑俯视射线图的实施例;

图15d示出了一个或多个示例性相机的二维逻辑射线图的实施例,所述一个或多个示例性相机直接从一个或多个目标或者从一个或多个镜面捕获一个或多个目标的一个或多个视图,其中该一个或多个镜面可以被设置在用户和显示系统之间以提供一个或多个部分环绕或完全环绕一个或多个目标的环绕图像;

图15e示出了一个或多个示例性反射表面和示例性立体投影系统(如图15c所示的那种)的二维逻辑射线图的实施例,以为高级驾驶员辅助系统(adas)提供驾驶员脸部或眼睛的恒定视图;

图16示出了示例性头戴式设备的二维逻辑射线图的实施例,该头戴式设备将人b的一个或多个虚拟图像投影到镜面上并且直接从一个或多个对象或从镜面捕获一个或多个目标的一个或多个图像;

图17a示出了示例性曲线图的逻辑图的实施例,该曲线图指示一个或多个波长范围由采用一个或多个反射涂层的一个或多个示例性空间滤光器阻挡;

图17b示出了用于示例性空间滤光器的二维逻辑射线图的实施例,该空间滤光器具有用于阻挡一个或多个波长范围的一个或多个反射涂层和穿过整个光场的一个或多个针孔;

图17c示出了用于示例性混合现实环境的二维逻辑射线图的实施例,其中在从用户眼睛的位置到虚拟对象的感知位置的距离(聚散度(vergence)距离)和从用户眼睛的位置到显示器表面的位置的距离(调节(accommodation)距离)之间存在差异,从而强调用户在虚拟对象的感知位置附近的位置处体验真实对象的模糊性或者用户体验将焦点从聚散度距离调整到调节距离并再次返回的不适感;

图17d示出了用于示例性眼镜的二维逻辑射线图的实施例,该示例性眼睛包括具有一个或多个针孔(例如图17b中的一个或多个针孔)的一个或多个透镜,以减轻两个或更多个距离之间的一个或多个差异(例如图17c的差异)的一个或多个影响;

图18示出了示例性数据集生成系统的逻辑流程图的实施例,该系统提供一个或多个数据集(例如一个或多个点云),其表示基于一个或多个目标的一个或多个重叠视图的一个或多个目标的一个或多个三维视图,例如一个或多个立体图像对或一个或多个环绕视图,例如图4b-4e或图5中的一个或多个;

图19a示出了用于示例性运动和图像捕获系统的二维逻辑射线图的实施例,该系统包括在由墙壁限定的房间内使用的全景相机阵列,其中每个墙壁具有镜面以捕获房间内的目标的一个或多个的360度环绕图像;

图19b示出了通过诸如图19a的运动和图像捕获系统从一个或多个反射表面(例如图19a的反射表面)捕获的示例性图像的二维透视图的实施例;

图19c示出了由一个或多个镜面围绕的示例性凹形空间的二维俯视图的实施例,其中所述一个或多个镜面形成圆柱形或环形形状以便于捕获凹形空间内的一个或多个对象的一个或多个环绕视图;

图19d示出了示例性凹形空间(例如图19e的凹形空间)的横截面视图的实施例;

图19e示出了用于示例性运动和图像捕获系统的二维射线图的实施例,其中该系统包括全景相机阵列,该全景相机阵列具有用于围绕全景相机阵列的每个象限的立体对;

图20a示出了示例性曲线图的逻辑视图的实施例,该曲线图指示人体皮肤对一个或多个波长范围内的光有更高的反射性(相比于一个或多个其他波长范围内的光);

图20b示出了示例性曲线图的逻辑图的实施例,该曲线图表示投射到人体皮肤外表面上的给定位置的光束可以提供来自皮肤外表面的对光的一个或多个部分的反射、可以利用光的一个或多个其他部分穿透皮肤、并且可以在距离给定位置的不同距离处提供对光的一个或多个其他部分的各种程度的皮下反射以提供光束的模糊反射;

图21示出了全息投影到镜面上的公主的示例性虚拟图像的三维视图的实施例;

图22a示出了用于示例性远程呈现系统的二维逻辑射线图的实施例,该远程呈现系统包括围绕空间的六个镜面和六个相机的阵列,其中该六个相机的阵列围绕该空间放置且被布置为在该空间内形成共同fov以便于该共同fov内的一个或多个目标的三维图像捕获,其中沿共同fov中的目标的外表面示出的点指示从阵列中的第一相机和第二相机的视角可直接看到的表面的部分;

图22b示出了示例性远程呈现系统(例如图22a的远程呈现系统)的透视图的实施例;

图22c示出了沿图22b的虚线的图22b的远程呈现系统的二维逻辑射线图的实施例;

图23a示出了用于示例性远程呈现系统的二维逻辑射线图的实施例,该远程呈现系统包括围绕空间的四个镜面和四个相机的阵列,其中该四个相机的阵列围绕该空间放置并且被布置为在该空间内形成共同fov,以便于该共同fov内的一个或多个目标的三维图像捕获,其中沿共同fov中的目标的外表面示出的虚线指示从阵列中的第一相机和第二相机的视角可直接看到的表面的部分;

图23b示出了用于远程呈现系统的相机阵列中的示例性高架相机对(例如图23a的远程呈现系统的相机阵列中的第一相机和第二相机)的二维逻辑射线图的实施例;

图23c示出了用于远程呈现系统的相机阵列中的示例性高架相机对(例如图23a的远程呈现系统的相机阵列中的第一相机和第三相机)的二维逻辑射线图的实施例;

图23d示出了用于远程呈现系统的相机阵列中的示例性高架相机对和用于远程呈现系统的相机阵列中的示例性地面相机对(例如图23a的远程呈现系统的相机阵列中的第一相机和第二相机)的二维逻辑射线图的实施例;

图23d示出了用于远程呈现系统的相机阵列中的示例性高架相机对和用于远程呈现系统的相机阵列中的示例性地面相机对(例如图23a的远程呈现系统的相机阵列中的第一相机和第三相机)的二维逻辑射线图的实施例;

图24a示出了朝向表面s中的点p发射的并且由一个或多个相机从表面s捕获的示例性光束的三维逻辑射线图的实施例,其中每个相机输出体素像素对的流,每个体素像素对与时间戳相关联,该时间戳对应于单个像素时间,以便于以基于相应像素时间的精度来以一定精度将每个体素锚定在空间中;

图24b示出了示例性矢量的三维逻辑透视图的实施例,其中该矢量指示基于由一个或多个相机(例如,图24a的一个或多个相机)从表面上的点捕获的光确定的体素的位置;

图24c示出了示例性矢量的三维逻辑透视图的实施例,其中该矢量指示表示基于由一个或多个相机(例如图24a的一个或多个相机)从表面上的点捕获的光确定的体素的颜色的像素值;

图25a示出了示例性包括相机阵列的有源信标响应系统的二维逻辑射线图的实施例,其中阵列中的第一相机在t3处从阵列中的第三相机捕获光、在t4处从阵列中的第四相机捕获光、并且在t5处从阵列中的第五相机捕获光,并且阵列中的第二相机在t4处从阵列中的第四相机捕获光、在t5处从阵列中的第五相机捕获光、并且并在t6处从阵列中第六相机捕获光,以促进自动相机位置发现;

图25b示出了由有源信标响应系统(例如图25a的系统)中的相机拍摄快照时的自动相机位置发现过程中的示例性步骤的二维逻辑射线图的实施例;

图25c示出了在用于有源信标响应系统的自动相机位置发现过程中的示例性步骤(例如图25b所示的步骤)期间由相机捕获的示例性图像的二维透视图的实施例;

图25d示出了基于相机的已知高度与如在图像(例如图25c的图像)中捕获的相机的观察高度的比较为多个相机确定的相对距离的二维逻辑示意图的实施例;

图25e示出了基于在图像(例如图25c的图像)中捕获的相机的观察位置为多个相机确定的方位角的二维逻辑示意图的实施例;

图25f示出了用于有源相机和通过有源相机观察的多个相机的自动相机位置发现过程(例如图25a-25e的过程)的示例性完成的二维逻辑图的实施例;

图25g示出了用于有源信标响应系统的每个相机(例如图25a中那种)的自动相机位置发现过程(例如图25a-25f的自动相机位置发现过程)的示例性完成的二维逻辑图的实施例;

图26示出了示例性远程呈现系统的三维透视图的实施例,该远程呈现系统包括头戴式显示器、镜面和三个地面相机;

图27a示出了用于示例性远程呈现系统的二维逻辑射线图的实施例,该远程呈现系统包括围绕空间的镜面和围绕该空间放置并且被布置为形成空间内的共同fov的相机阵列,其中具有一个或多个已知尺寸值的基准标记可以在共同fov内放置或移动,以促进远程呈现系统的自校准,包括阵列中每个相机的位置和视角发现以及远程呈现系统的同步;

图27b示出了由诸如图27a的远程呈现系统所包括的相机阵列中的第一相机捕获的目标的示例性图像的二维透视图的实施例,所述图像用于促进远程呈现系统基于图像的自校准,其中该图像指示在观察位置处观察到的对象的高度;

图27c示出了由诸如图27a的远程呈现系统所包括的相机阵列中的第四相机捕获的目标的示例性图像的二维透视图的实施例,所述图像用于促进远程呈现系统基于图像的自校准,其中该图像指示在观察位置处观察到的对象的高度;

图27d示出了由诸如图27a的远程呈现系统中包括的相机阵列中的多个相机捕获的基准标记的示例性图像的二维透视图的实施例,所述基准标记用于促进远程呈现系统基于由多个相机捕获的基准标记的一个或多个维度的各种观察幅度和基准标记的各种观察位置的自校准;

图27e示出了示例性基准棒(fiducialwand)的二维俯视图的实施例,该基准棒用于探测由诸如图27a的远程呈现系统所包括的相机阵列形成的共同fov的周界,以促进远程呈现系统的校准;

图27f示出了示例性基准棒(例如图27e的基准棒)的二维侧视图的实施例,该基准棒用于探测由远程呈现系统(例如图27a的远程呈现系统)所包括的相机阵列形成的共同fov的周界,以促进远程呈现系统的校准;

图28a示出了分别包括与匹配坐标值相关联的部分的示例性图像的三维透视图的实施例;

图28b示出了示例性图像(例如图28a的示例性图像)的三维透视图的实施例,其中示例性图像基于每个图像中与匹配坐标值相关联的部分被拼接在一起;

图28c示出了指示两个矩阵彼此相等(由于两个矩阵表示相同的体素表面点和相同的时间值)的示例性公式的实施例;

图29示出了经由一个或多个服务器可通信地相互耦合的示例性远程呈现系统的三维逻辑透视图的实施例;

图30示出了经由对等连接可通信地相互耦合的示例性远程呈现系统的三维逻辑透视图的实施例;

图31a示出了示例性楔形的三维逻辑透视图的实施例,其中每个楔形具有一个或多个相机和一个或多个投影仪,它们以六角锥体结构布置,其中相机从六角锥体面向外部,并且可以被重新排列以在楔形之间限定六边形空间,同时相机朝内面向六边形空间的中心;

图31b示出了位于房间中的示例性楔形(例如图31a的楔形)的三维逻辑射线图的实施例,其中示例性楔形分别具有一个或多个相机并且以六角锥体配置进行布置,并且相机从六角锥体面向外部,以便于检测环境光场、检测房间中的一个或多个目标、或提供基准标记;

图32a示出了用于两个三维图像捕获装置的三维逻辑射线图的实施例,这两个三维图像捕获装置捕获来自由给定位置发射的光束所照射的表面元件的四个不同角度反射,以针对与表面元素相关联的体素像素对提供角度反射函数;

图32b示出了用于两个三维图像捕获设备(例如图32a的那些)的三维逻辑射线图的实施例,这两个三维图像捕获设备捕获来自由从另一位置发射的不同光束所照射的图32a的表面元件的四个不同角度反射,以针对与表面元素相关的体素像素对提供角度反射函数;

图32c示出了用于表面元件(例如图32a的那些)的示例性颜色和角度反应函数的三维逻辑射线图的实施例,该示例性颜色和角度反应函数表示针对由感兴趣的每种颜色照射的每个角度的来自表面元件的预期反射;

图33示出了示例性曲线图的逻辑图的实施例,该曲线图指示各种人类肤色中的每种对于与长波长人眼视锥细胞(cone)(l视锥细胞)相对应的波长的光以及与中波长人眼视锥细胞(m视锥细胞)相对应的波长的光具有不同的反射率值,从而便于人们感知在与针对各种人类肤色的l视锥细胞和m视锥细胞相对应的波长处由人体皮肤反射的光量之间的差异;

图34示出了示例性曲线图的逻辑图的实施例,该曲线图指示红血球细胞在脸红期间被高度氧化时与红血球细胞在没有脸红期间被较少氧化时相比,人体皮肤针对对应于l视锥细胞和m视锥细胞的波长的光表现出更大的反射率值差异,从而便于一个人基于用于人体l视锥细胞的信号值与用于人体m视锥细胞的信号值之间的差异来感知另一个人的脸红;

图35示出了示例性曲线图的逻辑图的实施例,该曲线图指示典型的互补金属氧化物半导体(cmos)拜耳滤光器相机不能区分与脸红相关联的波长的光;以及

图36示出了示例性曲线图的逻辑图的实施例,该曲线图表明当红血球细胞在脸红期间高度氧化时,人体皮肤对波长约为575nm的光表现出较低的反射率值(与红血球细胞在没有脸红期间被较少氧化时相比),从而促进了检测人是否脸红的额外或替代过程。

具体实施方式

现在将在下文中参考附图更全面地描述各种实施例,附图形成本发明的一部分,并且通过图示的方式示出了可以实践本发明的具体实施例。然而,实施例可以以许多不同的形式体现,并且不应该被解释为限于本文阐述的实施例;相反,提供这些实施例是为了使本公开更透彻和完整,并且向本领域技术人员充分传达实施例的范围。此外,各种实施例可以是方法、系统、媒体或设备。因此,各种实施例可以采用全部硬件的实施例、全部软件的实施例或组合软件和硬件方面的实施例的形式。因此,以下详细描述不应被视为具有限制意义。

贯穿说明书和权利要求,除非上下文清楚地规定,否则以下术语的含义在这里明确相关。这里所用的短语“在一个实施例中”不一定指同一实施例,虽然它可以指同一实施例。此外,这里所用的短语“在另一实施例中”不一定指不同实施例,虽然它可以指不同实施例。因此,如下所述,在不脱离本发明的范围和精神的情况下,本发明的各种实施例可随意组合。

此外,如这里所使用的,除非上下文清楚地规定,否则术语“或”是包含性的“或”运算符,并且相当于术语“和/或”。除非上下文清楚地规定,否则术语“基于”不是排他的,并且允许基于未描述的额外因素。此外,贯穿说明书,冠词“一”和“这”的含义包括多个的情形。“在…中”的含义包括“在…中”和“在…上”。

如本文所使用的,术语“光子束”、“光束”、“电磁束”、“图像束”或“束”是指(在时间和空间上)稍微局部化的光束或电磁(em)频谱内的各种频率或波长的em波或光子束。

如本文所使用的,术语“光源”、“光子源”或“源”是指能够发射、提供、发送或生成em频谱内一个或多个波长或频率的em波或一个或多个光子的各种装置。光源或光子源可以发射一个或多个输出光束。光子源可以是激光器、发光二极管(led)、灯泡等。光子源可以通过原子或分子的受激发射、白炽过程或产生em波或一个或多个光子的各种其他机制来产生光子。光子源可以提供预定频率或频率范围的连续或脉冲输出光束。出射光束可以是相干光束。由光源发射的光子可以具有各种波长或频率。

如本文所使用的,术语“光子检测器”、“光检测器”、“检测器”、“光子传感器”、“光传感器”或“传感器”是指对具有em频谱的一个或多个波长或频率的一个或多个光子的存在敏感的各种装置。光子检测器可以包括光子检测器阵列,例如多个光子检测或感测像素的布置。一个或多个像素可以是对一个或多个光子的吸收敏感的光电传感器。光子检测器可以响应于一个或多个光子的吸收而产生信号。光子检测器可包括一维(id)像素阵列。然而,在其他实施例中,光子检测器可以包括至少二维(2d)像素阵列。像素可包括各种光子敏感技术,例如有源像素传感器(aps)、电荷耦合器件(ccd)、单光子雪崩检测器(spad)(以雪崩模式或盖革模式操作)、光伏电池、光电晶体管等中的一个或多个。光子检测器可以检测一个或多个入射光束。

如本文所使用的,术语“镜面”是指反射入射光、em波或光子的至少一部分的一种或多种不同的2d或3d物体。例如,镜面可以反射由本文公开的各种实施例中的各种实施例发射的出射光束。在本文描述的各种实施例中,一个或多个光子源可以与一个或多个光子检测器和/或一个或多个镜像表面相对运动。类似地,一个或多个光子检测器可以与一个或多个光子源和/或一个或多个镜面相对运动。一个或多个镜面可以与一个或多个光子源和/或一个或多个光子检测器相对运动。

如本文所使用的,术语“反射(reflect)”和“反射(reflection)”是指以下情形之一:(1)镜面反射,用于反射被捕获的图像和构成这些图像的光束;(2)逆反射,其提供沿着与光束的源平行但方向相反的矢量以最小的散射将光束反射回其光源。在一个或多个实施例中,可以在超轻(ultralight)中使用逆反射,或者在立体图像对被形成或投影来由用户的眼睛看到的情况下使用逆反射;(3)漫反射,可用于通常用漫射光束照射表面。在一个或多个实施例中,漫射光束被用于使用相机的光学器件来形成图像。

下面简要描述本发明的实施例,以提供对于本发明的一些方面的基本理解。该简要描述不意欲作为广泛的概述。其不意欲标识关键或决定性元素,或划定或以其他方式缩窄范围。其意图仅是以简化形式呈现一些概念,作为后面所呈现的更详细的描述的前奏。

简而言之,各种实施例涉及将用户的脸部的三维视频图像记录、发送和显示给另一个远程定位的用户。从弯曲的或几何形状的屏幕反射的光线用于提供被转换成图像(该图像被传送到远程定位的用户)的用户脸部的多个透视图。头戴式投影显示系统用于捕获反射光。该系统包括框架,该框架在被用户佩戴时环绕并夹紧用户的头部。而且,至少两个分开的图像捕获模块被包括在该框架上并且当佩戴该系统时这至少两个单独的图像捕获模块通常位于与用户与左眼和右眼相对邻近的位置。每个模块包括一个或多个传感器组件,例如相机,其被布置为至少检测从位于用户前方的屏幕反射的不可见光。可选地,屏幕是逆反射的。

在一个或多个实施例中,头戴式投影显示系统包括框架,该框架在被用户佩戴时环绕并夹紧用户的头部。而且,至少两个分开的图像捕获模块被包括在该框架上并且当佩戴该系统时这至少两个单独的图像捕获模块通常位于与用户与左眼和右眼相对邻近的位置。每个模块包括一个或多个传感器组件,例如相机,其被布置为至少检测从位于用户前方的屏幕反射的不可见光。这种头戴式投影显示系统的一个非限制性示例是photonjetultralighttm系统。

在一个或多个实施例中,检测到的不可见光用于确定佩戴头戴式投影显示系统的用户的脸部的多个透视图。使用用户的脸部的多个透视图来重建用户脸部和头部的虚拟三维图像(化身),该虚拟三维图像随后被发送并显示给远程定位的另一用户。在一个或多个其他实施例中,虚拟图像不限于用户的脸部,并且可以包括被重建以显示给另一用户的用户身体的其他部分。

在一个或多个实施例中,图像捕获模块可以被布置为包括一个或多个不可见光(例如红外光)的投影仪,其朝向被放置为朝一个或多个传感器组件反射回不可见光的屏幕进行发射。在一个或多个实施例中,一个或多个不可见光的投影仪可以设置在天花板、墙壁、桌子或用户附近的任何其他位置,以将不可见光投射到在用户的脸部处被反射的屏幕上。在一个或多个实施例中,一个或多个投影仪是将不可见光的激光束扫描到屏幕上的扫描仪,该不可见光被反射回到用户的脸部和不可见光传感器上。

此外,在一个或多个实施例中,在扫描不可见光束期间,由从屏幕和/或用户的脸部上的点(体素(voxel))进行反射的所扫描的不可见光束顺序地照射各个像素。以这种方式,针对相应体素的每个顺序照射的像素可以由图像捕获模块的一个或多个传感器组件检测。可选地,在扫描可见光束期间,类似地针对相应的体素顺序地照射各个像素。

在一个或多个实施例中,屏幕可以是弯曲的,或者具有几何形状,例如三联式等,以将来自用户的脸部的不可见光朝向系统的接收器组件反射,同时提供脸部的多个透视图。

在一个或多个实施例中,屏幕的表面可以包括涂层或者由如下材料构成:该材料主要将不可见光反射回用户同时对有色光透明。这种类型的屏幕还可以被布置为通过其表面朝向用户的脸部投射有色光图像(例如远程用户的脸部),同时朝脸部反射不可见光。在一个或多个实施例中,屏幕可以是逆反射的。

在一个或多个实施例中,图像捕获模块还可以包括一个或多个可见光(例如,有色光)投影仪,其被布置为将可见光投射到屏幕,该屏幕将可见光反射回用户的脸部。在一个或多个实施例中,一个或多个可见光投影仪可以被配置作为将可见光的激光束扫描到屏幕上的扫描仪。在一个或多个实施例中,投射的可见光还可以包括与一个或多个远程定位的用户相对应的三维化身的一个或多个有色光图像。而且,在一个或多个实施例中,图像捕获模块还可以包括用于检测来自屏幕和/或用户脸部的对可见光的反射的传感器。

图解的操作环境

图1a示出了头戴式投影显示系统100的顶视图。如图所示,该系统包括框架103,框架103在被用户佩戴时环绕并夹紧用户的头部。模块104被包括在框架103中并且被配置为当系统100被佩戴在用户的头上时模块104通常位于与用户的左眼和右眼相对邻近的位置。每个模块104包括一个或多个接收器组件(未示出),其被布置为检测从位于用户脸部前方的屏幕反射的不可见光。在一个或多个实施例中,检测到的不可见光用于确定佩戴头戴式投影显示系统的用户的脸部的多个透视图。使用用户的脸部的多个透视图来重建用户的脸部和头部的虚拟三维图像,该虚拟三维图像被显示给远程定位的另一用户。在一个或多个其他实施例中,虚拟图像不限于用户的脸部,并且可以包括被重建以显示给另一用户的用户身体的其他部分。

在一个或多个实施例中,屏幕的表面可以包括涂层,或者由主要将不可见光反射回用户同时对有色光透明的材料构成。而且,在一个或多个实施例中,主要反射不可见光的屏幕还可以被布置为通过其表面朝用户的脸部投射有色光图像,例如远程定位的用户的脸部。

在一个或多个实施例中,模块104还可以包括一个或多个可见光(例如有色光)投影仪,其被布置为朝如下屏幕投射图像(例如远程用户的脸部):该屏幕将图像朝用户的脸部反射回去。在一个或多个实施例中,可见光投影仪是光扫描仪。

在一个或多个实施例中,模块104可以被布置为包括朝向屏幕(未示出)的一个或多个不可见光(未示出)投影仪(未示出),该屏幕被设置为朝一个或多个接收器组件反射不可见光。在一个或多个实施例中,一个或多个不可见光投影仪可以被设置在天花板、墙壁、桌子或靠近用户的任何其他位置,以将不可见光投射到屏幕上,从而使得光线朝向用户的脸部反射。在一个或多个实施例中,投影仪可以是光扫描仪。

在一个或多个实施例中,本文讨论的系统100的组件可以包括至少在如下专利中被详细描述的这种系统的各种实施例:美国专利no.8,282,222、美国专利no.8,430,512、美国专利no.8,696,141、美国专利no.8.711,370、美国专利公开no.2013/0300,637和美国专利公开no.2016/0041266。注意,上面列出的每个美国专利和美国专利公开都通过引用被整体并入本文。

在一个或多个实施例中,框架103包括计算机101,该计算机101被布置作为客户端计算机以将所接收的透视图处理成信号,该信号被传送到网络计算机上的远程呈现服务器应用和/或用于另一头戴式投影系统的远程呈现客户端计算机上的远程呈现客户端应用中的一者或多者中。客户端计算机和网络计算机关于图1b、2和3更详细地进行了讨论。

图1b示出了可以实践本发明的各种示例性实施例的示例性环境的一个实施例的示例性组件。并不需要所有组件来实施本发明,并且可能需要在不脱离本发明的精神或范围的情况下可以对组件的布置和类型做出改变。如图所示,图1b的系统110包括网络102、远程呈现服务器计算机106以及若干头戴式投影显示系统100和屏幕107。

基于来自每个系统100的表示至少用户脸部的多个透视图的传输信号,远程呈现服务器计算机106可以使用这些视图来重建用户脸部的位置、方向和表情的虚拟图像,以由另一远程定位的系统显示给用户。应当理解,远程呈现服务器计算机106的功能的一个或多个部分可以由头戴式投影显示系统100中的一个或多个执行。下面结合图2和3更详细地描述头戴式投影显示系统和远程呈现服务器的各种实施例。

网络102可以被配置为将网络计算机与其他计算设备(包括头戴式投影显示系统100)耦合。网络102可以包括用于与远程设备通信的各种有线和/或无线技术,例如但不限于usb电缆、蓝牙、wi-fi等。在一些实施例中,网络102可以是被配置为将网络计算机与其他计算设备耦合的网络。在各种实施例中,在设备之间传递的信息可以包括各种信息,包括但不限于处理器可读指令、远程请求、服务器响应、程序模块、应用程序、原始数据、控制数据、系统信息(例如,日志文件)、视频数据、语音数据、图像数据、文本数据、结构/非结构数据等。在一些实施例中,可以使用一种或多种技术和/或网络协议在设备之间传送该信息。

在一些实施例中,这种网络可以包括各种有线网络、无线网络或他们的各种组合。在各种实施例中,可以使得网络102使用各种形式的通信技术、拓扑、计算机可读介质等来将信息从一个电子设备传送到另一电子设备。例如,除了互联网之外,网络102可以包括lan、wan、个域网(pan)、校园区域网、城域网(man)、直接通信连接(例如通过通用串行总线(usb)端口)等或他们的各种组合。

在各种实施例中,网络内和/或网络之间的通信链路可包括但不限于双绞线、光纤、空中激光器、同轴电缆、普通老式电话服务(pots)、波导、声学、全部或部分专用的数字线路(如t1、t2、t3或t4)、电子载波、综合业务数字网(isdn)、数字用户线(dsl)、无线链路(包括卫星链路)、或本领域技术人员已知的其他链路和/或载波机制。此外,通信链路还可以采用各种数字信令技术中的各种技术,包括但不限于例如ds-0、ds-1、ds-2、ds-3、ds-4、oc-3、oc-12、oc-48等。在一些实施例中,路由器(或其他中间网络设备)可以充当各种网络(包括基于不同体系结构和/或协议的网络)之间的链路以使信息能够从一个网络传输到另一网络。在其他实施例中,远程计算机和/或其他相关电子设备可以通过调制解调器和临时电话链路连接到网络。实质上,网络102可以包括各种通信技术,信息可以通过这些技术在计算设备之间传播。

在一些实施例中,网络102可以包括各种无线网络,其可以被配置为耦合各种便携式网络设备、远程计算机、有线网络、其他无线网络等。无线网络可以包括各种子网络中的各种子网络,这些子网络可以进一步覆盖独立的自主组织网络等,以为至少客户端计算机(例如,膝上型计算机112或智能电话或平板电脑114)(或其他移动设备)提供面向基础设施的连接。这种子网络可以包括网状网络、无线lan(wlan)网络、蜂窝网络等。在各种实施例的至少一个实施例中,该系统可以包括一个以上的无线网络。

网络102可以采用多种有线和/或无线通信协议和/或技术。可以由网络使用的各种世代(例如,第三代(3g)、第四代(4g)或第五代(5g))通信协议和/或技术的示例可以包括但不限于全球移动系统通信(gsm)、通用分组无线业务(gprs)、增强型数据gsm环境(edge)、码分多址(cdma)、宽带码分多址(w-cdma)、码分多址2000(cdma2000)、高速下行链路分组接入(hsdpa)、长期演进(lte)、通用移动电信系统(umts)、演进数据优化(ev-do)、全球微波接入互操作性(wimax)、时分多址(tdma)、正交频分复用(ofdm)、超宽带(uwb)、无线应用协议(wap)、用户数据报协议(udp)、传输控制协议/互联网协议(tcp/ip)、开放系统互连(osi)模型协议的各个部分、会话发起协议/实时传输协议(sip/rtp)、短消息服务(sms)、多媒体消息服务(mms)或各种其他通信协议和/或技术中的各种协议或技术。实质上,网络可以包括如下通信技术:通过该通信技术,可以在头戴式投影显示系统100和远程呈现计算机设备106之间以及未示出的其他计算设备之间传播信息。

在各种实施例中,网络102的至少一部分可以被布置作为节点、链路、路径、终端、网关、路由器、交换机、防火墙、负载平衡器、转发器、中继器、光电转换器等(他们可以通过各种通信链路连接)的自治系统。这些自治系统可以被配置为基于当前操作条件和/或基于规则的策略进行自组织,从而使得可以修改网络的网络拓扑。

一般性操作

图1c示出了用于捕获、传输和显示针对远程呈现系统的远程定位的用户的虚拟三维化身的过程120的流程图。从开始块移动,该过程移动到块122,其中头戴式投影显示系统采用光扫描仪将激光束光反射到非平面屏幕。在至少一个实施例中,该屏幕在至少一个维度上弯曲或折叠,包括凹面、抛物面和三联面。而且,在至少一个实施例中,扫描的光的一个或多个部分是不可见的。可选地,扫描的光的一个或多个其他部分是可见的。在块124处,通过一个或多个系统传感器实时接收对扫描的光的反射,该系统传感器通常被设置在相对靠近用户的左眼和右眼的两个位置处。前进到块126,反射的不可见光的一个或多个部分提供用户的脸部的位置、方向和表情的多个透视图。可选地,利用反射的可见光的一个或多个部分来确定用户脸部的颜色和对比度。

该过程流前进到块128,其中基于提供给远程呈现服务器的多个透视图生成用户的虚拟图像(化身)。在块130处,用户的化身由远程呈现服务器传送到系统的远程定位的用户并由其显示。接下来,该过程移动到返回框并继续处理其他操作。

应当理解,过程描述的每个块以及过程描述中的块的组合可以由计算机程序指令实现。可以将这些程序指令提供给一个或多个处理器以产生机器,使得指令在由一个或多个处理器执行时创建用于实现在一个或多个处理块中指定的动作的装置。计算机程序指令可以由一个或多个处理器执行,以使得一个或多个处理器执行一系列操作步骤,从而产生计算机实现的过程,使得在一个或多个处理器中执行的指令提供用于实现在一个或多个处理块中指定的动作的步骤。计算机程序指令还可以使得在过程的框中示出或以其他方式描述的一个或多个操作步骤的一个或多个部分由一个或多个处理器或一个或多个计算机并行或同时执行。此外,还可以跨一个以上的处理器或计算机执行一些步骤。另外,过程描述中的一个或多个块或块的组合也可以与其他块或块的组合同时执行,或者在不脱离本发明的范围或精神的情况下甚至以与所描述的顺序不同的顺序执行。

因此,过程描述的块支持用于执行指定动作的装置的组合、用于执行指定动作的步骤的组合和用于执行指定动作的程序指令装置。还将理解,过程描述的每个块以及过程描述中的块的组合可以由基于专用硬件的系统来实现,该系统执行指定的动作或步骤、或者专用硬件和计算机指令的组合。前述示例不应被解释为限制或穷举,而是说明用例以示出创新的各种实施例中的一个或多个的实现方式。

此外,在一个或多个实施例(未在附图中示出)中,可以使用一个或多个嵌入式逻辑硬件设备(诸如专用集成电路(asic)、现场可编程门阵列(fpga)、可编程阵列逻辑芯片(pal)等或其组合)而不是一个或多个cpu来执行示例性过程描述中的逻辑。嵌入的一个或多个逻辑硬件设备可以直接执行他们的嵌入式逻辑以执行动作。在一个或多个实施例中,一个或多个微控制器可以被布置作为片上系统(soc)以直接执行它们自己本地的嵌入式逻辑以执行动作并访问它们自己的内部存储器和它们自己的外部输入和输出接口(例如,硬件引脚或无线收发器)以执行本文描述的动作。

说明性客户端计算机

图2示出了示例性客户端计算机200的一个实施例,该示例性客户端计算机200被包括在诸如图1a和1b所示的头戴式投影显示系统中。计算机200可以包括比所示的那些示例性组件更多或更少的组件。而且,计算机200也可以是网络计算机300的客户端。

计算机200可以包括经由总线206与存储器204通信的处理器202。客户端计算机200还可以包括电源208、网络接口210、处理器可读固定存储设备212、处理器可读可移动存储设备214、输入/输出接口216、(一个或多个)相机218、视频接口220、触摸接口222、硬件安全模块(hsm)224、投影仪226、显示器228、小键盘230、照明器232、音频接口234、全球定位系统(gps)收发器236、空中手势接口238、温度接口240、触觉接口242和定点设备接口244。计算机200可以可选地与基站(未示出)通信,或者直接与另一计算机通信。并且在一个实施例中,尽管未示出,但是可以在客户端计算机200内采用陀螺仪来测量和/或维护计算机200的方向。

电源208可以向计算机200提供电能。可充电或不可充电电池可用于提供电能。电能还可以由外部电源提供,例如ac适配器或补充电池和/或对电池进行再充的电源对接支架。

网络接口210包括用于将计算机200耦合到一个或多个网络的电路,并且被构造用于与如下的一个或多个通信协议和技术一起使用技术:包括但不限于实现用于移动通信(gsm)cdma、时分多址(tdma)、udp、tcp/ip、sms、mms、gprs、wap、uwb,wi-fitm、wimax,bluetoothtm、sip/rtp、gprs、edge、wcdma、lte、umts、ofdm、cdma2000、ev-do、hsdpa的osi模型的各种部分的协议或技术、或各种其他无线通信协议中的不同无线通信协议。网络接口210有时被称为收发器、收发设备或网络接口卡(nic)。

音频接口234可以是可选的,并且当其被包含时可以被布置为产生和接收音频信号,例如人声的声音。例如,音频接口234可以耦合到扬声器和麦克风(未示出)以实现与其他人的通信和/或为某些动作生成音频确认。音频接口234中的麦克风还可以用于向客户端计算机200进行输入或控制客户端计算机200,例如,使用语音识别、基于声音检测触摸等。

显示器228可以可以是可选的,并且当其被包含时可以是液晶显示器(lcd)、气体等离子体、电子墨水、发光二极管(led)、有机led(oled)或可以与计算机一起使用的各种其他类型的反光或透光显示器。显示器228还可以包括触摸接口222、触摸接口222被布置成接收来自诸如手指的对象的输入或来自人手的手指,并且可以使用电阻、电容、表面声波(saw)、红外、雷达或其他技术来感觉触摸和/或手势。

投影仪226可以是远程手持投影仪或集成投影仪,其能够将图像投影在远程墙壁或诸如远程屏幕的各种其他反射物体上。

视频接口220可以被布置为捕获视频图像,诸如静止照片、视频片段、红外视频等。例如,视频接口220可以耦合到两个或更多个数字相机等。视频接口220可包括用于每个相机的镜头、图像传感器和其他电子设备。图像传感器可以包括互补金属氧化物半导体(cmos)集成电路、电荷耦合器件(ccd)或用于感测光的各种其他集成电路。

小键盘230可以是可选的,并且当其被包含时可以包括各种输入设备,其被布置成接收来自用户的输入。例如,小键盘230可以包括按钮数字拨盘或键盘。小键盘230还可以包括与选择和发送图像相关联的命令按钮。

照明器232可以是可选的,并且当其被包含时可以提供状态指示和/或提供光。照明器232可以在特定时间段内或响应于事件消息保持活动。例如,如果照明器232是活动的,则它可以对小键盘230上的按钮进行背光照亮并在客户计算机通电时保持打开。而且,如果执行特定动作,例如拨打另一客户端计算机,则照明器232可以以各种模式对这些按钮进行背光照亮。照明器232还可以使位于客户端计算机的透明或半透明壳体内的光源响应于动作而照亮。

此外,计算机200还可以可选地包括hsm224,用于提供额外的防篡改安全措施,用于生成、存储和/或使用安全/加密信息,例如密钥、数字证书、密码、密码段、双因素认证信息等。在一些实施例中,可以采用硬件安全模块来支持一个或多个标准公钥基础结构(pki),并且可以采用硬件安全模块来生成、管理和/或存储密钥对等。在一些实施例中,hsm224可以被布置为可以添加到客户端计算机的硬件卡。

计算机200还可以包括输入/输出接口216,用于与外部外围设备或诸如其他客户端计算机和网络计算机的其他计算机通信。外围设备可以包括音频头戴式设备、虚拟现实头戴式设备、显示屏眼镜、远程扬声器系统、远程扬声器和麦克风系统等。输入/输出接口216可以利用一种或多种技术,例如通用串行总线(usb)、红外、wi-fitm、wimax、蓝牙tm等。

输入/输出接口216还可以可选地包括一个或多个传感器,用于确定地理定位信息(例如,gps)、监控电力状况(例如,电压传感器、电流传感器、频率传感器等)、监测天气(例如,恒温器、气压计、风速计、湿度检测器、降水标尺等)。传感器可以是一个或多个硬件传感器,其收集和/或测量客户端计算机200外部的数据。

触觉接口242可以是可选的,并且当其被包含时可以被布置为向计算机200的用户提供触觉反馈。例如,触觉接口242可以被用于响应于事件以特定方式振动计算机200。温度接口240可以是可选的,并且当其被包含时可以用于向计算机200的用户提供温度测量输入和/或温度改变输出。空中手势接口238可以是可选的,并且当其被包含时可以感测计算机200的用户的身体姿势,例如,通过使用单个或立体视频相机、雷达、由用户保持或佩戴的计算机内的陀螺仪传感器等。相机218可用于跟踪计算机200的用户的物理位置。

gps收发器236可以是可选的,并且当其被包含时可以确定计算机200在地球表面上的物理坐标,其通常把位置输出为纬度和经度值。gps收发器236还可以采用其他地理定位机制,包括但不限于三角测量、辅助gps(agps)、增强观测时间差(e-otd)、小区标识符(ci)、服务区域标识符(sai)、增强的定时提前(eta)、基站子系统(bss)等,以进一步确定计算机200在地球表面上的物理位置。应当理解,在不同条件下,gps收发器236可以确定计算机200的物理位置。然而,在一个或多个实施例中,计算机200可以通过其他组件提供可以用于确定客户端计算机的物理位置的其他信息,包括例如媒体访问控制(mac)地址、ip地址,等等。

人机接口组件可以是可选的,并且当其被包含时可以是与计算机200物理分离的外围设备,允许对于计算机200的远程输入和/或输出。例如,在此描述的通过诸如可选的显示器228或可选的小键盘230之类的人机接口组件路由的信息可以替代地通过网络接口210路由到远程定位的适当的人机接口组件。可以是远程的可选人机接口外围组件的示例包括但不限于音频设备、点选设备、小键盘、显示器、相机、投影仪等。这些外围组件可以通过诸如bluetoothtm、zigbeetm等的微型网络进行通信。这种外围人机接口组件的一个非限制性示例可以包括远程微型投影仪以及检测用户的物理位置和方向并且还通过微型投影仪将视频或图像投影到反射表面(例如,屏幕或墙壁)上的两个或更多个相机。

存储器204可以包括随机存取存储器(ram)、只读存储器(rom)和/或其他类型的存储器。存储器204示出了用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的计算机可读存储介质(设备)的示例。存储器204可以存储用于控制客户端计算机200的低级操作的基本输入/输出系统(bios)246。存储器还可以存储用于控制客户端计算机200的操作的操作系统248。应当理解,该组件可以包括通用操作系统(例如unix版本或linuxtm)或专用客户端计算机通信操作系统(例如windowstm、或apple操作系统)。操作系统可以包括java虚拟机模块或者与java虚拟机模块接口,该java虚拟机模块能够通过java应用程序控制硬件组件和/或操作系统操作。

存储器204还可以可选地包括一个或多个数据存储库250,计算机200可以利用该数据存储库250来存储应用252和/或其他数据等。例如,数据存储库250还可以用于存储描述计算机200的各种能力的信息。在各种实施例中的一个或多个中,数据存储库250可以存储跟踪信息251。然后可以基于各种方法中的各方法将信息251提供给另一眼柄计算机或网络计算机,包括在通信期间作为报头的一部分发送、根据请求发送等。数据存储库250还可以用于存储社交网络信息,包括地址簿、好友列表、别名、用户简档信息等。数据存储库250还可以包括程序代码、数据、算法等,供处理器(例如处理器202)使用以运行和执行动作。在一个实施例中,数据存储库250的至少一些也可以存储在计算机200的另一可选组件上,包括但不限于非暂态处理器可读固定存储设备212、处理器可读可移除存储设备214或者甚至在客户端计算机外部。

应用252可以包括计算机可执行指令,如果应用由计算机200执行,则发送、接收和/或以其他方式处理指令和数据。应用252可以包括例如远程呈现客户端引擎254、其他客户端引擎256、web浏览器258等。计算机200可以被布置为与远程呈现应用服务器、网络文件系统应用和/或存储管理应用程序交换通信,诸如查询、搜索、消息、通知消息、事件消息、警报、性能度量、日志数据、api调用等、其组合。

可选web浏览器引擎226可以被配置为接收和发送网页、基于网络的消息、图形、文本、多媒体等。计算机的可选浏览器引擎226实质上可以采用各种编程语言,包括无线应用协议消息(wap)等。在一个或多个实施例中,浏览器引擎258能够采用手持设备标记语言(hdml)、无线标记语言(wml)、wmlscript、javascript、标准通用标记语言(sgml)、超文本标记语言(html)、可扩展标记语言(xml)、html5等。

应用的其他示例包括日历、搜索程序、电子邮件客户端应用、im应用、sms应用、互联网协议语音(voip)应用、联系人管理器、任务管理器、转码器、数据库程序、字处理程序、安全应用、电子表格程序、游戏、搜索程序等。

另外,在一个或多个实施例中(图中未示出),客户端计算机200可以包括嵌入式逻辑硬件设备而不是cpu,例如专用集成电路(asic)、现场可编程门阵列(fpga)、可编程阵列逻辑(pal)等或其组合。嵌入式逻辑硬件设备可以直接执行其嵌入式逻辑以执行动作。而且,在一个或多个实施例中(图中未示出),计算机200可以包括硬件微控制器而不是cpu。在一个或多个实施例中,微控制器可以直接执行其自己的嵌入式逻辑以执行动作以及访问其自己的内部存储器和其自己的外部输入和输出接口(例如,硬件引脚和/或无线收发器)以执行动作,例如片上系统(soc)等。

说明性的网络计算机

图3示出了示例性网络计算机300的一个实施例,其可以包括在实现各种实施例中的一个或多个实施例的示例性系统中。网络计算机300可以包括图3中所示的组件中的一些、全部或更多的组件。然而,所示组件足以公开说明性实施例。网络计算机300可以包括台式计算机、膝上型计算机、平板计算机、服务器计算机、客户端计算机等。网络计算机300可以表示图1b的系统100的远程呈现服务器计算机106的一个实施例。

如图3所示,网络计算机300包括处理器302,处理器302可以经由总线306与存储器304通信。在一些实施例中,处理器302可以包括一个或多个硬件处理器或一个或多个处理器核。在一些情况下,一个或多个处理器中的一个或多个处理器可以是被设计为执行一个或多个专用动作的专用处理器,例如本文所述的那些。网络计算机300还包括电源308、网络接口310、处理器可读固定存储设备312、处理器可读可移除存储设备314、输入/输出接口316、gps收发器318、显示器320、键盘322、音频接口324、点选设备接口326和hsm328。电源308向网络计算机300提供电力。

网络接口310包括用于将网络计算机300耦合到一个或多个网络的电路,并且被构造用于与一个或多个通信协议和技术一起使用,这些通信协议和技术包括但不限于实现全球移动通信系统(gsm)、码分多址(cdma)、时分多址(tdma)、用户数据报协议(udp)、传输控制协议/互联网协议(tcp/ip)、短消息服务(sms)、多媒体消息服务(mms)、通用分组无线服务(gprs)、wap、超宽带(uwb)、ieee802.16全球微波接入互操作性(wimax)、会话发起协议/实时传输协议(sip/rtp)或各种其他有线和无线通信协议中各种通信协议的开放系统互连(osi)模型的各个部分的协议和技术。网络接口310有时被称为收发器、收发设备或网络接口卡(nic)。网络计算机300可以可选地与基站(未示出)通信,或者直接与另一计算机通信。

音频接口324被布置成产生和接收音频信号,例如人声的声音。例如,音频接口324可以耦合到扬声器和麦克风(未示出)以实现与其他人的通信和/或为某些动作生成音频确认。音频接口324中的麦克风还可以用于向网络计算机300进行输入或控制网络计算机300,例如,使用语音识别。

显示器320可以是液晶显示器(lcd)、气体等离子体、电子墨水、发光二极管(led)、有机led(oled)或可以与计算机一起使用的各种其他类型的反光或透光显示器。显示器320可以是能够将图像投影在墙壁或其他物体上的手持式投影仪或微型投影仪。

网络计算机300还可以包括输入/输出接口316,用于与图3中未示出的外部设备或计算机通信。输入/输出接口316可以利用一种或多种有线或无线通信技术,例如usbtm、firewiretm、wi-fitm、wimax、thunderbolttm、红外线、蓝牙tm、zigbeetm、串行端口、并行端口等。

此外,输入/输出接口316还可以包括一个或多个传感器,用于确定地理定位信息(例如,gps)、监控电力状况(例如,电压传感器、电流传感器、频率传感器等)、监测天气(例如,恒温器、气压计、风速计、湿度检测器、降水标尺等)。传感器可以是一个或多个硬件传感器,其收集和/或测量网络计算机300外部的数据。人机接口组件可以与网络计算机300物理分离,允许对于网络计算机300的远程输入和/或输出。例如,在此所描述的通过诸如显示器320或键盘322之类的人机接口组件路由的信息可以替代地通过网络接口310路由到位于网络上其他地方的适当的人机接口组件。人机接口组件包括允许计算机从计算机的人类用户获取输入或向其发送输出的各种组件。因此,诸如鼠标、触笔、跟踪球等的点选备可以通过点选设备接口326进行通信以接收用户输入。

gps收发器318可以确定网络计算机300在地球表面上的的物理坐标,其通常把位置输出为纬度和经度值。gps收发器318还可以采用其他地理定位机制,包括但不限于三角测量、辅助gps(agps)、增强观测时间差(e-otd)、小区标识符(ci)、服务区域标识符(sai)、增强的定时提前(eta)、基站子系统(bss)等,以进一步确定网络计算机300在地球表面上的物理位置。应当理解,在不同条件下,gps收发器318可以确定网络计算机300的物理位置。然而,在一个或多个实施例中,网络计算机300可以通过其他组件提供可以用于确定客户端计算机的物理位置的其他信息,包括例如媒体访问控制(mac)地址、ip地址,等等。

存储器304可以包括随机存取存储器(ram)、只读存储器(rom)和/或其他类型的存储器。存储器304示出了用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的计算机可读存储介质(设备)的示例。存储器304存储用于控制网络计算机300的低级操作的基本输入/输出系统(bios)330。存储器还存储用于控制网络计算机300的操作的操作系统332。应当理解,该组件可以包括通用操作系统(例如unix的版本或linuxtm)或专用操作系统(例如microsoftcorporation的操作系统、或applecorporation的操作系统)。操作系统可以包括java虚拟机模块或者与java虚拟机模块接口,该java虚拟机模块能够通过java应用程序控制硬件组件和/或操作系统操作。同样,可以包括其他运行时环境。

存储器304还可以包括一个或多个数据存储库334,网络计算机300可以利用该数据存储库334来存储应用336和/或其他数据等。例如,还可以采用数据存储库334来存储描述网络计算机300的各种能力的信息。在各种实施例中的一个或多个中,数据存储库334可以存储跟踪信息335。然后可以基于各种方法中的各方法将跟踪信息335提供给另一个设备或计算机,包括在通信期间作为报头的一部分发送、根据请求发送等。数据存储库334还可以用于存储社交网络信息,包括地址簿、好友列表、别名、用户简档信息等。数据存储库334还可以包括程序代码、数据、算法等,供一个或多个处理器(例如处理器302)使用以运行和执行诸如下面描述的那些动作之类的动作。在一个实施例中,数据存储库334的至少一些也可以存储在网络计算机300的另一个组件上,包括但不限于处理器可读固定存储设备312、处理器可读可移除存储设备314或网络计算机300内的或甚至在网络计算机300外部的各种其他计算机可读存储设备内的非暂态介质。

应用336可以包括计算机可执行指令,如果应用由网络计算机300执行,则发送、接收和/或以其他方式处理消息(例如,sms、多媒体消息服务(mms)、即时消息(im)、电子邮件和/或其他消息)、音频、视频,并且能够与另一移动计算机的另一用户进行电信通信。应用程序的其他示例包括日历、搜索程序、电子邮件客户端应用、im应用、sms应用、互联网协议语音(voip)应用、联系人管理器、任务管理器、转码器、数据库程序、字处理程序、安全应用、电子表格程序、游戏、搜索程序等。应用336可以包括跟踪引擎346,其执行下面进一步描述的动作。在各种实施例中的一个或多个中,应用中的一个或多个可以实现为另一应用的模块和/或组件。此外,在各种实施例中的一个或多个中,应用可以实现为操作系统扩展、模块,插件等。

此外,在各种实施例中的一个或多个中,远程呈现引擎346可以在基于云的计算环境中操作。在各种实施例中的一个或多个中,这些应用和其他应用可以在基于云的计算环境中可管理的虚拟机和/或虚拟服务器内执行。在各种实施例中的一个或多个中,在该上下文中,应用可以从基于云的环境内的一个物理网络计算机流向另一个,这取决于由云计算环境自动管理的性能和缩放考虑因素。同样,在各种实施例中的一个或多个中,可以自动提供和解除专用于远程呈现引擎346的虚拟机和/或虚拟服务器。

此外,在各种实施例中的一个或多个中,远程呈现引擎346可以在基于云的计算环境中运行。的虚拟服务器中,在各种实施例中的一个或多个中,这些应用以及其他应用可以在在基于云的计算环境中所管理的虚拟机和/或虚拟服务器中运行。在各种实施例中的一个或多个中,在此上下文中,应用可以从基于云的环境中的一个物理网络计算机流到另一计算机,这依赖于云计算环境所自动管理的性能和扩展性考量。类似地,在各种实施例中的一个或多个中,专用于远程呈现引擎346的虚拟机和/或虚拟服务器可以被自动提供和委任。

此外,在各种实施例中的一个或多个中,远程呈现引擎346或类似设备可以位于在基于云的计算环境中运行的虚拟服务器中,而不是绑定到一个或多个特定物理网络计算机。

此外,网络计算机300可以可选地包括hsm328,用于提供额外的防篡改安全措施,用于生成、存储和/或使用安全/加密信息,例如密钥、数字证书、密码、密码段、双因素认证信息等。在一些实施例中,可以采用硬件安全模块来支持一个或多个标准公钥基础结构(pki),并且可以采用硬件安全模块来生成、管理和/或存储密钥对等。在一些实施例中,hsm328可以是独立的网络计算机,在其他情况下,hsm328可以被布置为可以安装在网络计算机中的硬件卡。

另外,在一个或多个实施例中(图中未示出),网络计算机可以包括一个或多个嵌入式逻辑硬件设备而不是一个或多个cpu,例如专用集成电路(asic)、现场可编程门阵列(fpga)、可编程阵列逻辑(pal)等或其组合。嵌入式逻辑硬件设备可以直接执行其嵌入式逻辑以执行动作。而且,在一个或多个实施例中(图中未示出),网络计算机可以包括一个或多个硬件微控制器而不是cpu。在一个或多个实施例中,一个或多个微控制器可以直接执行它们自己的嵌入式逻辑以执行动作以及访问它们自己的内部存储器和它们自己的外部输入和输出接口(例如,硬件引脚和/或无线收发器)以执行动作,例如片上系统(soc)等。

头戴式投影系统的说明性架构

图4a示出了提供三维视频会议的示例性远程呈现系统400的二维俯视图的实施例。在各种实施例中的一些实施例中,远程呈现系统400可以包括镜面402和头戴式投影显示系统404,该头戴式投影显示系统404具有带有左眼柄406和右眼柄408的框架。在各种实施例中的一个或多个中,左眼柄406和右眼柄408可通过一个或多个可佩戴支撑件410可通信地或机械地彼此耦合。

用户将头戴式投影显示系统(例如头戴式投影显示系统404)佩戴在其眉毛上方的头部上,使得它不会遮挡用户的脸部。这种系统的一个非限制性示例是photonjetultralighttm系统。

在各种实施例中的一个或多个中,镜面402可以是具有凹形表面或者可替代地几何多平面镜面(例如三联面)的投影屏幕,其针对用户以凹面角度布置。在各种实施例中的一个或多个中,用户可以面对凹形镜面402,而镜面402被围绕用户布置。

在各种实施例中的一个或多个中,左眼柄406或右眼柄408中的一个或多个可以包括用于接收不可见光的一个或多个相机。在各种实施例中的一些中,(在用户的头部上的)头戴式系统上的一个或多个相机(例如头戴式投影显示系统404的相机)看到在屏幕的凹形表面(例如镜面402)中以一个或多个波长(例如,近红外(nir)光,例如850nm的光)反射的脸部图像。

在各种实施例中的一个或多个中,来自安装在头戴式投影显示系统404上的相机或检测器的有利位置的脸部图像在镜面402上反射之后,可能看起来跨镜面402横向拉伸,类似于具有凹圆柱形水平扭曲的狂欢乐趣镜子的效果(参见图4d和4e)。

在各种实施例中的一个或多个中,这些被拉伸的图像可以包括从多个视角同时捕获的用户脸部的一个或多个视图,使得图像看起来既被拉伸又环绕着头部,例如如图4d中针对左眼柄406所示出的以及图4e中针对右眼柄408所示出的。在图4b中示出了来自左眼柄的用户头部的未扭曲视图,并且在图4c中示出了来自右眼柄的用户头部的未扭曲视图。此外,图4f中示出了参考三维正前直视图。

图5示出了用于示例性凹形三联式折叠镜面500的二维逻辑射线图的实施例,以及具有左眼柄和右眼柄的示例性头戴式投影显示系统502,以及如由左眼柄和右眼柄捕获的来自三联式镜面的每个面板的视图。

在各种实施例中的一个或多个中,弯曲或折叠的镜面反射记录装置可以提供可能是立体广角全景视频记录的扭曲的几何反转。例如,这如同将多个立体相机对以宽弧度围绕观看者布置并嵌入在显示屏本身中。这种虚拟相机阵列向内看向中心(大约是用户脸部的位置)而不是向外看向周围(如在全景相机中那样),如在屏幕前方或上方的许多会议室中所呈现的那样。相反,本发明的各种实施例从三维环绕式“自拍”视角捕获图像。通过这种方式,这些捕获的图像看起来好像是用一个或多个相机拍摄的,这些相机是围绕用户的脸部从左耳到完全正面视角再一直到右耳扫过的。

在各种实施例之一中,在远程位置处,例如在采用扭曲校正(unwarping)软件的远程呈现服务器计算机处,可以在一定范围的三维视角上重建和显示所捕获的全息“自拍”三维立体视频记录。基于先前获取的用户脸部的3d扫描,图像流的扭曲校正和透视渲染变换可以(可选地)基于用户头部的实际形状的已知“基础事实(groundtruth)”模型(参见图18和图4f)。在各种实施例之一中,还可以使用现有方法预先获取用户的脸部、头部和头部背面的表面的高分辨率准确彩色图像。

在各种实施例之一中,可以预先获取用户的基础事实3d脸部模型,例如,通过使用常规自拍镜头并且围绕脸部移动镜头。例如,通过使脸部保持固定的表情并且通过在围绕自己的脸部以平移运动旋转移动电话的同时录制高分辨率自拍视频来完成高质量的静止脸部3d记录。在各种实施例中的一个或多个中,所得到的合成(融合)全息三维立体视频流允许渲染有色三维表面点云。点云可以通过将先前获取的脸部颜色纹理拟合到跟踪当前三维脸部形状和脸部表情的体素的细粒度三维表面来创建。在各种实施例中的一个或多个中,用户头部的有色三维立体透视图可以被插入到三维渲染虚拟环境中,这使得能够渲染多个同时的视角。

在一个或多个实施例中,接收系统可以使用有色点云流来渲染和显示针对任何视角的任何适当的立体流,并且可以以最小的延迟或伪影实时地平滑地平移这些三维运动立体视频流。关于这种接收系统环境的数据流架构,参见图18。在各种实施例中的一个中,可以使用标准三维图形技术(例如,如用于渲染视频游戏中的化身的技术)以针对环境中的其他人的眼睛的正确位置的自由漫游角度快速渲染多个这样的立体对。而且,在各种实施例之一中,可以使用更传统的显示器来类似地配置其他全息系统。它们可以是布置在用户周围的传统的多视图液晶显示器(lcd)监视器或自动立体显示器,以三联形式布置的凹形或者传统平面的显示器,并且他们的表面由具有特殊涂层的附加反射层等增强(如整个说明书和关于图8a-8d所描述的)。

凹向的三联或曲面屏幕的好处是两个头戴式相机可以记录部分周围视角。为了获得最大效果,期望在相机中具有宽视场。通过该效果的扩展,相机的视场越大并且头部、主体或物体周围的曲率越大,将在每个视图中捕获的圆形物体的表面积就越大。由于百万像素相机的成本非常低,因此一个完整的360度阵列全景自拍系统既体积小又成本低。

远程呈现系统的说明性体系结构

在图19a中,从头戴式投影显示系统或作为项圈提供了整圆360度全景视图。但是,在具有多模态反射表面的holocavetm类型的系统中,可以执行完整的360度视频捕捉,而无需在头部背面、身体或目标的表面进行任何图像修复(in-painting)。用户周围的所有侧都将作为移动形状(体素)并且以颜色表面对比度(像素)被记录,并且宽范围的沉浸式视点可以利用最小的图像修复进行渲染(手、手臂或目标可能暂时遮挡了使用者身体表面的某些部位)。在一个或多个实施例中,这种类型的系统可以很好地用于简单、自助构造的这种holocavetm。一个优点是所有内部表面都可以贴在现有结构(图19a)上或快速安装在帐篷状的临时结构(图19c或图19d)中。一旦被360度捕获,其他用户将能够接近你(你的全息投影化身),并且他们将看到来自任何方向的你的空间中的化身。在你的后脑勺或背部没有奇怪的缺失部分,否则需要进行大量的建模或者会破坏所需的远程呈现错觉。

在一个或多个实施例中,采用凹形、分层的多模态显示表面用于光投射在其上并从其反射的屏幕。由于投影屏幕是凹形的,因此用户的脸部通常位于以与屏幕的径向中心相同的轴为中心的焦点区域中。屏幕有两个功能,每个功能由屏幕中的不同层提供。屏幕的第一个功能是镜像用户脸部的图像(以及可选的他或她的躯干的部分,甚至整个身体)。该反射表面的凹形不仅有助于反射脸部的前部而且有助于反射侧面的一部分,并且可选地,能够反射脸部的顶部和底部,以防止当通信链路的另一端需要更改透视图时由于缺少相机角度而导致出现任何缺口。通过捕获更完整的三维脸部图像流,可以保持全息图像的更好的沉浸式真实感。此外,它允许实现更大程度的头部运动,以及使用全息视频通信系统的参与者的更动态的立体视角。

另外,在一个或多个实施例中,(在表面上或表面附近的)屏幕的反射层需要既反射一个或多个不可见波长,又同时对用于图像投影的或者由该反射层下方的有源发光显示器发射的可见光基本透明。反射层的一个实例是特定波长选择性反射涂层,例如,在窄的近红外光谱带(nir,例如850nm)中,屏幕是镜面反射的。(参见图8a-8d)凹形表面具有有趣的镜面膨胀效果(参见图4d和4e)。通过利用具有不同折射率的不同层来交替薄显示层,波长选择性反射可以采用例如布拉格(bragg)式涂层来实现。在一个或多个实施例中,屏幕的前表面可选地具有抗反射(ar)涂层,以在可见光谱(vis)域(光谱范围为450nm/蓝色至650nm/红色)中具有最佳透明度。

在一个或多个实施例中,当投影屏幕与头戴式投影显示系统一起使用时,屏幕的第二功能是提供逆反射性。后者可以以各种方式实现,例如用光学微结构微结构化屏幕的后表面(压印有小于最小图像元素的小立方体面,例如100微米)以使其逆反射。

在一个或多个实施例中,投影屏幕可以被提供作为便携式弹出屏幕。投影屏幕的表面可以被实例化为易于折叠和打开的轻便的凹形便携式屏幕,而不是固定的屏幕表面。多模态反射(即,镜面反射窄带近红外光用于运动捕捉(即体素),逆反射地反射可见光域中的光用于成像(即像素))可以通过薄的可拉伸的但强而轻的材料(仅300微米厚)实现。可以构造可折叠的超轻弹出屏幕,其允许实现全息视频通信系统的普适移动部署。双功能分层材料在强力编织背衬材料上可能略微有弹性,因此可用于轻型、可收拢或可折叠的弹出式屏幕,如伞或风扇。

在一个或多个实施例中,对于工作场所隔间或个人办公室,在私人或公共工作空间中,屏幕可以成形为适合于具有圆角和略微凹入的二维弯曲的这类空间。这将提供宽角度的三维“无限视图”个人三维可视空间。这样的工作空间三维无限视图扩展也将用作“远程传送门户”,即通过其可以看到其他在线的远程电话会议参与者(就如同他们就在下一隔间中那样(见图16))的窗口。用户可以立即、自发地将自己置于虚拟会场并开始与那里的其他人交互。计算机模型、三维可视化、计算机辅助设计(cad)三维图像或处于该中央工作空间中的真实三维对象将被用户和所选择的其他参与者/用户看到和操纵。通过将真实物体放置在全息观察和捕获区域中可以简单地“虚拟化”真实物体。这种类型的系统将捕获他们的形状(例如,使用内置于头戴式投影显示系统中的立体扫描仪)或甚至通过与捕获用户的脸部相同的方式捕获他们的实时运动。由于真实物体是不反射的,因此面向观看者的正面将由立体彩色扫描仪记录。在物体后面的镜像屏幕表面进行反射之后,可以捕获背面(参见图16)。如其他地方所述,nir光可用于捕获物体的形状,可见光用于捕获物体的颜色、表面纹理和对比度。可见光源可能来自扫描光束、hmd上的附加led照明器或仅来周围环境自然光源或室内光源。

在各种实施例中的一个中,凹形屏幕的中心观察区(cvz)可以大约是用户眼睛所在的位置(例如鼻梁),并且如果相机位于靠近眼睛的位置(例如,微型“眼柄”上的超小型相机),那么虚拟视图中的其他人将能够在很宽的视角范围内看到全息脸部(脸部的活动的实时广角可视立体视频)。观看体验类似于通过窗口窥视:用户越倾斜向凹形屏幕的中央焦点区域,观看者可以观看到越多的虚拟会议空间,并且其他人将看到参与者的更多部分(她头部的侧面等)。感知体验(例如,会议中其他人的图像投影)和可见度(三维脸部和头部曝光)可以被布置为对称一致,因此它是一种完全自然的体验,与现实世界面对面的社交互动一致。此外,每当用户想要离开虚拟场所时,她只需要向后倾斜,远离中央聚焦区。她可能为了应对中断或者从水瓶中喝口水而这样做(参见图12a和12b)。通过这种方式,可以通过这种全息协作系统将真实世界的办公室、家庭或咖啡店桌子朝几乎无限的工作空间和社区无缝地扩展。此外,在圆桌式虚拟呈现圆桌会议或一群朋友坐在(虚拟)圆圈中的情况下,当用户向前倾斜时,将记录用户脸部的两侧,并且用户将能够看到大多数参与者。向前倾斜并环顾会议圆圈将是最自然的体验。请注意,虚拟圆圈中的每个参与者都有自己的凹形个人投影表面(图9a和9b)。

一个或多个实施例提供了通过“向前倾斜”(即朝向桌子或正在进行的会议,朝屏幕向前倾斜,进入cvz,参见图12a)加入全息视频会议。由于用户屏幕的凹面性,屏幕将在用户向前倾斜时逐渐捕获更多的脸部。这样,一个或多个实施例可以仅在用户向前倾斜之后“连接(patchin)”用户,并且可以提供视觉反馈提示,例如,使观看者能够通过简单的头部动作有意识地“进入”和“退出”(向后倾斜,离开cvz,参见图12b)的半透明隐私帘。类似地,当用户向后倾斜时,可以启用一种三维静音冻结功能。

图9a描绘了8路虚拟圆桌会议。每个参与者都在他或她自己的具有凹形全息投影记录屏幕的位置。图9b示出了如图7中的两方,他们可以转向彼此以进行“侧边聊天(sidechat)”,这对于其他人来说将是显而易见的,因为他们将看到侧边聊天的人的脸部远离了主会议桌中央。会议中的每一方始终保持完全沉浸的位置准确的三维立体会议视角。即使是小的头部运动也会产生微妙的视角变化,并提供即时的沉浸式视觉运动反馈,例如运动视差和逼真的遮挡效果。例如,当会议桌上存在虚拟对象时,例如三维建筑模型,所有参与者的身临其境感觉得到增强,因为他们看到其他观看者的脸部以立体三维呈现并且在头部运动期间被这些物体动态遮挡,这增强了“真正存在”的感觉。这种体验将进一步确保参与者保持“调整(tuned-in)”到进程。他们出现在与朋友或同事的会议中,而不是查看远程位置的其他人的视频屏幕图像。

镜面

由于它最容易制造,因此大多数曲面镜具有球形轮廓。不幸的是,球面镜遭受球面像差的问题。具体地,从这种反射镜反射的平行光线不会聚焦到单个点。对于平行光线,例如来自非常远的物体的平行光线,抛物面反射镜可以做得更好。这种抛物面镜通常可以将入射的平行光线聚焦到比球面镜在类似条件下可以聚焦的光斑小得多的光斑。

环形镜是一种形式的抛物面反射镜,其根据镜子的角度具有不同的焦距。曲率实际上是椭圆抛物面(其中a≠b)的曲率,参见图10a、10b和10c。但是,如果镜面的形状是环形的,镜面也会表现出球面像差。通常,环形镜用于其中光源和光检测器不位于镜面的光轴上的装置中,因此使用真正的回转抛物面(当a=b时)将导致图像失真。由于在许多不同的实施例中,相机和扫描投影设备将偏离中心,在头部的两侧(见图4a)处,例如,左侧和右侧“眼柄”彼此相距约15厘米,大约是眼间距离的三倍,因此可能需要椭圆形抛物面表面。

多个单独的镜面、三联面、圆柱形和其他大致凹形的组件将在一定程度上有助于实现凹形的目的,这使得头戴式相机组能够尽可能多地捕获用户的头部。

用于远程呈现的说明性架构

在各种实施例中的一个或多个中,凹面镜表面拉伸并“环绕(wrap)”围绕用户脸部的自拍视频视角。在位于靠近用户眼睛的用户头部左侧和右侧(表示为les和res)的“眼柄”中嵌入的相机或扫描感应系统记录他脸部的反射,从而产生视频流立体对。由于屏幕的凹形曲率,镜像图像被扭曲,如图4d和4e所示。使用先前获得的用户头部的三维形状参考模型,如图4f所示,在对les和res传感器的当前有利位置的准确估计的帮助下,将这些图像去扭曲成“正常”的右侧和左侧视图,如图4b和4c所示。请注意,屏幕的形状和头戴式头戴式设备的位置以及两个眼柄的相对位置基本上是不变的,因此可以预先或在前几帧期间计算对图像进行去扭曲的关键参数。然后存储在系统内存中以提供快速实时转换算法。因此,去扭曲需要最少的计算资源、功率和延迟。此外,可选地,用户移动的说话脸部的原始扭曲数据可以从背景中裁剪出来并被流式传输到服务器或基于云的计算资源,其中除了去扭曲之外,可以针对虚拟远程呈现会议中的许多双眼睛中的每双眼睛生成正确的视角。

在各种实施例中的一个或多个中,可以采用扫描的三角测量投影系统从背景中裁剪出用户的脸部,这相对容易,因为当由具有与投影仪(具有显著的基线偏离设置的立体tx-rx发射-接收器对)分开的视点的传感器查看用户的脸部时,用户脸部上的近红外(nir)扫描光束的斑点被横向移位。逐个像素地进行扫描,可观察到的差异可以用作瞬时滤光器(排序函数),该瞬时滤光器通知哪个像素属于脸部(接近=>较大差异)以及哪些像素属于背景(远离=>比前景中的脸部像素更小的差异)。

在各种实施例中的一个或多个中,可以采用“三重立体(triplestereo)”三联式镜面投影屏幕。利用这种类型的屏幕,图像示出三联面的两个侧面面板通过比平面镜面屏幕更充分地反射用户头部的侧面而显着地进行辅助。如此处所示,每个眼柄相机具有3个头部的反射视图,总共6个视频角度。这6个“三重立体”视图允许围绕脸部的完整的120度平移。基本上,六个脸部角度可以通过图形操作来恢复,并且用于创建具有强旋转透视保真度的可变可视透视图,这对于多视图、多方沉浸的会议特别有价值(参见例如图5、13a和13b)。当然,对于4路会议,每个参与者可以使用三联式面板,以便每个参与者可以看到其他3个人。

在图13a和13b中,四个会议参与者a、b、c和d分别面对三联式反射记录-投影屏幕。四个参与者中的每一个都有三个视图,每个头戴式设备都投射并记录三个立体流。每个头戴式设备包含单个广域扫描投影仪(或广域扫描投影仪立体对)和单个广角扫描检测器(或广角扫描检测器立体对),例如,近红外(nir)扫描像素序列激光头戴式设备,如photonjetultralighttm系统。可替代地,每个头戴式设备可具有三个或更多个投影仪和三个或更多个相机以确保足够宽的视角。在所描绘的情况中,a面向c并且在进行对话,而b和d也在看a。图13a示出a的屏幕(俯视图)和他的头戴式设备投射的b、c和d的全息图像(分别标记为b”、c和d')。图13b示出三个三联表面,其反射a的脸部左侧(红色)、右侧(蓝色)和中央正面视角(黑色)的三个立体自拍视图。这些自拍视频由头戴式设备的眼柄(res和les)中的左右传感器捕获,并且这三个不同的视频流分别被发送给参与者b、c和d以供查看。

在用于一对一的全息远程呈现会议的一个或多个实施例中,a和b双方在进行会议。a看到由内置在a的头戴式设备中的左眼柄和右眼柄中的两台投影仪传输和投射的、由b的头戴式设备录制的全息视频流。图6a中的箭头描绘了a的左眼柄(lesa)投射用于由他的左眼观看的图像。该左眼图像流是基于如下项的组合被实时或提前数毫秒计算的:来自跟踪由b的右眼柄(resb)捕获的b的脸部的反射图像的基于nir的运动捕获体素流、以及由b的系统在会议开始时提供的b的脸部的彩色像素表面映射图。

值得注意的是,b的右耳(re)在镜像中反射为re’(在图6b中),并且从左侧的a视角被投影为re”(在图6a中),就像在真实生活中a面向b。在图6b中,在b的位置处,参与者b看到由他自己的头戴式设备投射的a的全息图。所有这些都是实时发生的,只有极少的延迟。眼柄微型相机与自然眼睛的视角非常接近,但它们不会遮挡脸部和眼睛的视线。通过简单的几何变换,可以针对每个位置处的(针对用户的眼间距离进行调整的)正确立体视角来调整立体透视图。在图6a和6b中,为了清楚起见,省略了相机获取图像的扭曲和去扭曲(还参见图6d)。

图6c示出了这如何成为可能,因为每个参与者的头戴式设备需要完整的“环绕式”立体运动图像以随时改变用户的透视图,这对于实现自然的沉浸式通信体验是非常有价值的。如此处所示,b可以决定查看a脸部的不同侧面,例如旋转a的3d全息图(α’)以明显的角度(α)。

在图6d中,我们示出了b的右侧眼柄(resb)如何能够在凹形镜面进行反射后记录他自己脸部的重要部分。resb相机可以从他的左耳(le)一直看到他的右耳(re),并且这个捕获的“面罩(face-wrap)”运动图像流(通常用nir传感器记录)通知由图6a中的lesa中的投影仪随后投影的3d可见图像(参见图4e中的扭曲的右侧头部特写图像)。

在全息3路远程呈现会议中,3方(a、b和c)在彼此成120度角的虚拟位置面对彼此。每个用户都有自己的位置,并面对凹形反射投影屏幕,这里示出的曲率约为60度。见图7。每个用户都可以在宽投影屏幕上看到其他两个用户。当a与b交谈时,他们可以直接目光接触并彼此面对面。例如,a可以转向b,每个人都将面对面地看到彼此(正面视图)并且具有良好的立体影像眼神接触,但每个人都会从侧面看到c方。a会在他的左侧看到c,看到c脸的右侧,b会在他的右侧看到c,看到c脸的左脸。

如果没有记录如前所述的凹面镜像的环绕立体图像,则难以进行具有良好自然目光接触的多方视频会议。这种3路设置需要在三个屏幕的每一个中嵌入两个相机对。在没有凹形或三角形屏幕的4路会议中,需要在四个屏幕的每一个中嵌入三个立体对。对于较大的数字,相机的数量和所需的数据流将是令人望而却步的。例如,在图9a所示的圆桌远程呈现会议中,如果屏幕没有弯曲,则该八屏系统将需要56个相机立体对和112个相机馈送端,而不是仅仅16个相机馈送端。

屏幕的说明性结构

对于半透明屏幕,nir光被靠近屏幕或在屏幕表面上的波长选择性窄带反射物(例如,布拉格式涂层)镜面反射。底部背面可以是产生逆反射光栅的压印微结构,使得来自激光原色的可见光将逆反射回每个眼睛位置(“返回发送方”)。可选地,可以涂覆额外的顶部涂层,例如调整以使顶层对可见光更透明的抗反射层(显示为ar涂层)和耐摩透明层(未显示)。可以在屏幕的后表面上涂覆额外的反射涂层,通常是溅射金属(au、ag或al)和结构材料(例如环氧树脂、网状物、织物或粘合剂层)参见图8a。

对于透明屏幕,可以利用全内反射(tir)现象,通过将其直接暴露在空气中来确保后表面处的逆反射率。这样就形成了一个半透明的屏幕,该半透明屏幕逆反射从头戴式设备发出的准直激光束,使得投影的图像在用户的3d观看空间(屏幕前后)都显得明亮清晰。外部世界将看到一个具有哑光外观的半透明私密面板。将通过逆反射结构并且可选地通过在逆反射后表面后方安装的具有气隙的附加漫射后面板两者来漫射环境光(参见图8b)。

此外,对于透明屏幕,第二匹配的立方体逆反射结构可以被设置在具有微小气隙的极接近的位置,形成也可以进行逆反射的透明表面。通过涂覆薄的部分反射涂层并且然后回填立方体腔以产生光滑的光学透明后表面可以实现相同的效果。无论哪种方式,屏幕都将足够透明,以便其后方的用户将通过屏幕可见,并且它不会阻挡她对她周围现实世界的视野,也不会通过阻挡照明来产生阴影(参见图8c)。

对于发光屏幕,诸如led的光源可以耦合到屏幕主体中,使得屏幕可以背照明,从而产生照射工作表面的漫射光源。屏幕背面的光学微结构和前表面上的可见ar涂层将增强这种发光功能(参见图8d)。

虽然屏幕可能只有一维曲率,例如60曲线度圆柱形状(在屏幕的径向中心处产生120度的fov角),它们也可具有两个曲率尺寸,例如:球形(未示出)或椭圆形抛物面。(图10c)后者是由等式x2/a2+y2/b2=z2/c定义的几何表面,其中a≠b。它是一个看起来像杯子的屏幕,该杯子的一个横截面为椭圆形,另外两个横截面为抛物线形。a和b分别是xz和yz平面的曲率度量。如图10c所示,如图所示的c为正,因此杯形在顶部开口。平行于xy平面的横截面是椭圆形的。

与平面镜面屏幕(如图11b所示)相比,将光反射到凹形屏幕(如图11a所示)的表面上的优点是,凹形屏幕(如图11a所示)允许眼柄相机看到用户脸部更多的侧面。例如,在图11a中,左眼柄(les)相机可以清楚地看到用户脸部右侧,完全包括他的耳朵,其未被眼柄遮挡。然而,在具有同样大但平坦的屏幕表面的图11b中,情况并非如此。特别地,凹形屏幕使得“环绕”或“倒置全景”图像能够捕获用户脸部的更多三维圆度。

在一个或多个实施例中,除了屏幕上的nir反射之外,还可以通过准宽带屏幕反射来捕获脸部彩色图像,以跟踪cvz中的脸部、头部或物体的形状和运动。当同时捕获全色图像时,对于位置(以体素为单位)和颜色(以像素为单位)两者,实时提供用户脸部的更完整图像。

在图14a中,添加了特殊反射层,其以宽带方式反射超过90%的可见光。由与反射率互补的滤光器实现排除,例如,只有激光原色的特定窄带。如果使用宽带光源照亮脸部,那么大约90%的光会反射在表面上然后返回到脸部,照亮它,并且通过另一次反射,一些90%的漫反射光将可用于相机,其中该相机被对准以查看这个镜像扭曲拉伸的脸部图像。在图14b中,光由左眼柄(les)处的宽带光源发射。百分之九十的光谱被点a处的屏幕表面的波长选择层反射。一些光在点b处从用户的鼻子反射。从b反射的宽带光线之一将再次反射在点c处的屏幕表面上,并由右眼柄(res)处的相机捕获。res处的相机正在捕捉脸部的彩色图像。因为90%的可见光谱仍然存在于所获取的图像中,所以可以实现相当高的色彩保真度,并且可选地,可以在之后应用小的色彩校正以弥补图像中已知的光谱缺陷。参见图20a和20b,其中对人体皮肤的检测被用于改善对肤色的渲染。

极线照明(epipolarillumination)是计算照明的一种形式,其允许在最具挑战性的环境中实现高速且高效的无模糊图像采集。在一个或多个实施例中,可以使用具有稍微改变的波长的额外的一组激光原色作为扫描的照明源。通过使滚动快门相机与垂直扫描进程同步,可以得到强的环境光。然而,由于可能存在脸部的反射扫描线的高度的偏移(在图14c和14d中的点b处),因此相机捕获的镜像需要与该行同步,这可以通过快门机制中的自动锁定同步来实现。例如,在图14e中,最初视野的大部分是开放的(相机中的行被重置并且准备好接收光),但由于相机的智能异步像素逻辑检测到光束点的行位置,连续帧中的行曝光变窄到较窄的区域z,从而仅记录脸部当前被扫描照亮的部分。此自动快门锁定功能可校正由镜面引起的任何水平偏移。

另外,一个或多个实施例可以使用非极线同步来观察逆反射视锥外部的低光反射。参见图14f。在头戴式投影显示系统中,立体图像在靠近投影仪的窄视锥中是可视的。这就是为什么眼柄需要尽可能靠近眼睛放置的原因。当扫描图像光束照射到位置a处的屏幕表面时,一些光将被反射到位置b(a的鼻尖),并且一些光将朝向逆反射后表面发射,在那里它被强烈地逆反射回来回到眼柄及其相应的眼睛。逆反射的光线形成构成被投影的b方的鼻子的部分的像素(注意,图14f中的鼻子a到鼻子b'的对称是巧合)。

另外,扫描的光束照射在点a上的部分反射回来并且足以充分照亮a的鼻子(在图14f中的点b处)以捕获彩色自拍图像。通过使用这种“杂散”投影光捕获的图像可以进行颜色调整,因为我们知道每个瞬间的投影颜色混合,因此可以通过检查捕获图像的序列和时序来扣除每个捕获像素的照明颜色混合。如果我们知道a的鼻尖(在b点处)被照亮的确切颜色混合,那么由彩色相机捕获的反射光的色调就会通过鼻子表面自身的颜色产生的颜色对比来通知。在一个或多个实施例中,彩色相机优选地安装在逆反射视锥外部(即,距眼柄投影源超过5cm)(见图14g)。此外,彩色相机被布置为与(一个或多个)扫描仪处于对极布置。彩色相机以“非极线”方式关闭快门,以排除逆反射回来的任何直接图像投影光。

在图14f中,a的鼻尖(在点b处)通过屏幕上的点c反射回来,因此在彩色相机的像场中,它将远远高于点a,其中当前扫描线照亮了屏幕。非极线捕获是有效的,因为比起直射光(例如,来自点的光),它非常支持间接(反射的)光(例如来自点c的光)。在非极线曝光模式下,在扫描线穿过其在fov中的行时滚动快门保持关闭,这基本上阻止直射光成为捕获图像的一部分。在图14f中,这种行选择性快门是可能的,因为在彩色相机和眼柄投影仪之间存在垂直偏移,因此从b返回的光必须在平面屏幕上反射得更高。但是可以证明,对于所提出的曲面屏幕,彩色相机的任何偏移(例如,如在严格的极线布置中的水平偏移)允许从图像中排除非极线直射光。而且,当仅一小部分光反射回来时,利用仅捕获脸部当前正被照射的一部分的敏感相机设置,可以观察到至少一部分的脸部颜色对比度。可选地,屏幕表面的反射率可以朝更大部分被镜面反射(布拉格涂层、部分镀银的镜面等)进行调整。

在一个或多个实施例中,可以在投影消隐间隔期间提供闪光曝光。在大多数像素连续投影仪中,图像投影仪在消隐间隔期间是暗的,此时镜面返回到fov的顶部以开始下一帧。在该消隐间隔期间,白色照明闪光源可以短暂地闪烁。并且反射光可以用于捕获可以与nir采集的3d表面匹配的全色图像。可以从最终的脸部化身点云中移除遮挡脸部的投影仪、照明源和眼柄的不需要的视图。

可见扫描光束的进一步照明可以被精心设计以排除眼睛的中心部分(虹膜),使得照明基本上不可见。

平视显示器的说明性架构

有些系统有两个独立的表面,一个用于显示器,另一个用于相机。例如,在图15a中,示出了传统的提词器,其中观看者通过部分镜像的表面进行观看,该表面反射在观众和主持人的视野之外并且也在演播厅摄像机的视线之外的通常被隐藏的明亮显示。尽管半反射镜损失了一些显示光,但是显示器照明等级补偿了该损失,并且足够亮以便为主持人创建清晰的图像。类似的布置可以允许显示器在隐藏在屏幕后面的相机捕获观看者的脸部时能被看到。相机看到透过镜面的光线,而观看者看到镜面反射的光线,反之亦然。

在图15b中,示出了传统的平视显示器(headsupdisplay,hud),其中投影成像系统被隐藏在视野之外并且图像经由部分反射表面(通常经由驾驶舱或车窗内部)被中继到观看者(通常是飞行员或驾驶员)。通过将虚拟显示器表面设置在离驾驶员眼睛几英尺远的位置,特殊光学器件使显示的符号出现在车辆前方一定距离处,从而减轻用户眼睛的调节疲劳。这种类型的hud光学器件倾向于产生称为“眼睛盒”的狭窄可视空间。眼睛盒必须足够大以使双眼能够看到图像并且应该允许头部位置移动。

在各种实施例中的一个或多个中,可以为立体hud提供精确的视角跟踪。参见图15c。佩戴头戴式投影显示系统的用户可以看到在车(例如汽车或飞机)窗户内侧反射的立体图像。实际上,用户的左眼和右眼看到由在系统的“眼柄”中构建的左扫描激光投影仪和右扫描激光投影仪投射的图像。在驾驶员的视野空间(例如仪表板)外面有一个逆反射表面,使得来自每个投影仪的所有光线分别逆反射并大致返回到驾驶员的左眼和右眼。

另外,与图15b中描绘的传统hud不同,新颖的系统可以是完全立体的。系统中的传感器可以关于显示器的视场(fov)跟踪驾驶员的头部位置。即使在快速头部运动期间,图像也可以实时调整视角,通过集成在系统中的头部跟踪器以六个自由度(dof)即时通知新头部的位置。使用汽车窗口中的简单逆反射基准的光学跟踪器(例如相机或激光扫描仪)可以每毫秒产生极精确的头部位置。可以调整聚散度视角(vergenceperspective)以对应于针对现实世界对象(例如道路危险物)的距离的正确聚散度,并且危险物警告不会通过在远场中的现实世界道路危险物前面插入单视场近场图像来夺走驾驶员对道路的关注。

例如,当驼鹿在相当远的距离处穿过道路时,高分辨率、高动态范围或高光谱立体相机可能会检测到驼鹿。这种先进的机器视觉系统可以放置在挡风玻璃上的观看者视线之上,或甚至放置在车辆顶部的单独模块上。头戴式设备中较小的相机将驾驶员的视角与汽车的相机系统的视角对齐。良好的对齐确保立体的危险物标注准确地放置在观看者的三维fov中。因此,正好在驼鹿穿越的地方,出现红色、闪烁的“小心!”三维指针的危险标注,该三维指针指向穿越的驼鹿。标注的颜色表示剩余的碰撞距离,从绿色到黄色和红色。警告可以显示预测的冲击力和碰撞点,以及可能的最佳防撞操纵的建议(左转/右转/减速)。

在图15d中,示出了三维全息显示器和交互式工作空间。在一个或多个实施例中,头戴式投影显示系统使用凹形反射物或三联式反射物,如前面部分所描述的。用户佩戴微型相机或扫描传感器,该微型相机或扫描传感器使脸部、手部或用户操纵的对象能够被运动捕捉并有效地变成高分辨率的三维点云。这样的凹形表面可以是如前所述的部分镀银的镜子或者波长可选择镜面,其放置在显示器表面和观看者之间。观看者通过弯曲的反射物看到明亮显示。用户的显示器视图保持不变形,因为它没有在曲面上反射。(一个或多个)头戴式可穿戴相机将脸部、手部和/或被操纵的对象的扭曲“环绕”反射记录为(立体)自拍视频。显示器可以是传统的监视器或tv、针对立体系统优化的投影表面、或任何其他合适的明亮显示系统。

在图15e中,示出了驾驶员辅助多模态立体hud和驾驶员监视器系统的一个或多个实施例。在一个或多个实施例中,附加配置将图15c中描述的立体hud与凹形反射表面组合,以使系统能够保持驾驶员脸部和眼睛的恒定视图。这有助于监控驾驶员检测道路危险的注意力及他们的一般警报状态。该系统与用户的头部同位置不仅允许向驾驶员/用户呈现完整的立体图像,而且还允许呈现驾驶员的脸部的完整三维立体图像,例如,使用红外线、扫描激光或频闪nir闪光灯,并且密切按照驾驶员透过窗户看向道路的实际当前视角,在视角正确的立体三维视图中与驾驶员一起密切关注道路。如先前所描述的,通过监视用户的头部位置和注视,系统可以检测驾驶员是否警觉并且有可能采取预期的规避行动或是否批准动防撞系统的干预。

远程呈现系统的改进

在办公室环境中,针对小隔间和“远程呈现”屏幕提供无限三维视图的多模态屏幕可能是有用的。如图16所示,凹形屏幕可以安装在小隔间中的相邻壁板之间,使得光学投影表面位于小隔间空间角落的视平线处。用户a可以操纵真实物体并将其显示给远程同事b,其中远程同事b是以三维方式以全息图b'在a的无限工作视图全息显示屏幕被看到。a的头戴式设备眼柄(res和les)都显示他正在观看的全息图,并记录他手中的物体以及他的脸部,将他们作为彩色点云发送给远程同事。多模式显示屏可以是不透明的、半透明的或透明的。(参见图8a-8d)。

图17c示出,在处于混合现实时,虚拟图像较近出现而投影表面在远距离处,则眼睛注视物体的适应(accommodation)距离大于感知物体的距离(聚散度距离)。因此,握住物体的真实手指可能看起来是模糊的,没有聚焦。当用户的视力试图调整两个现实之间的放大和缩小时,这可能会引起不适。为了有所缓解这个问题,可以基于针孔眼镜的概念应用特殊的空间滤光器。例如,可以采用特殊的选择性布拉格式反射涂层滤光器来阻挡仅几纳米的可见光谱,其中头戴式投影显示系统的主要激光颜色例如被反射涂层阻挡,例如仅阻挡448-453nm蓝色、518-523nm绿色和637-642nm红色。参见图17a。这样的表面将分别阻挡450、520、640nm处的激光,但该表面是基本透明的,能通过光的其余部分(大于光谱的90%)。此外,在该涂层中可以制造大密度的小针孔。当佩戴具有这种涂层的镜片的眼镜时,虚拟物体图像的激光将仅通过这些针孔进行空间过滤。这将极大地促进虚拟物体的调节,并且这种眼镜将大大减轻调节聚散度冲突(参见图17c和17d)。

在一个或多个实施例中,用户的脸部、身体或物体的一系列视图被凹形屏幕布置朝向一个或多个相机(通常是具有至少部分重叠的视场的立体相机对)反射。从这些多个重叠视图中,导出脸部、身体或对象的三维点云。每个观察到的像素在任何时候都锚定在精确的体素位置上。可选地,脸部、身体或物体的先前形状或纹理模型用于完成暂时被遮挡的表面(即,不在运动捕捉相机的范围内,例如头部的后部或手或手臂下方)。

在一个或多个实施例中,运动中的三维表面的点云由系统实时维护并存储在系统存储器中,其中它表示仅具有最小延迟(10-50毫秒)的移动的三维表面的当前状态。可选地,点云被发送到其他位置。例如。在两路会议中,在生成用户a的新脸部点云数据之后,a的系统将更新发送到系统b,反之亦然。见图18。可以从该点云生成具有用户的脸部、身体或物体的动态视角的几乎无限数量的视图。可以渲染适合每个观看者观察角度、个人眼间距离和当前头部方向的正确沉浸式视角,确保最自然和无伪影的观看体验。在目的地实时呈现这些动态视点确保响应于该目的地处的观看者的快速随机(固有不可预测的)头部移动的最低延迟。快速三维立体视差计算可以在使用图形处理器的本地设备中运行,类似于当前在移动游戏中的三维图形操作中呈现这样的视图的方式。视图可以针对特定的显示系统屏幕几何形状(例如oculustm,photonjetultralighttm或增强现实眼镜)而定制,以确保全息三维视频采集和渲染系统实际上可以在异构网络中起作用。最小化头戴式投影显示系统的延迟需要某种形式的“视觉聚焦(foveation)”。视觉聚焦是在新图像光子呈现到中央凹(fovea)之前的最后1毫秒内、恰好及时只呈现出正在观察的内容。在每种情况下,直接根据表面点云数据来计算最终变换。通过使数据尽可能接近输出系统,例如,在实际渲染系统中的图形处理器缓冲区中,以确保最小延迟。

在一个或多个实施例中,通过围绕用户创建具有所有侧面上的多模态表面的全息空间。反射表面使得全景外看相机阵列能够捕获用户的360度环绕图像。在图19a中,人在一个房间中,该房间已经在围绕用户的四个墙壁中的每一个上改装有多模态表面。头戴式投影显示系统头戴式设备配备有用于捕获用户背部(iii)和侧面(ii和iv)的反射的另外三个相机。这三个附加视图应该使得全息系统能够捕获用户的所有脸部表面并渲染用户头部的完美且完整的表面点云。图19b示出了由这些附加相机中的每一个捕获的三个附加视图。

在图19c中,示出了凹形圆柱形房间,其中围绕用户的表面可以被拉伸成环形形状以最大化捕获角度。参见图19d。可穿戴设备(例如在图19e中的桂冠配置的头戴式投影显示系统)具有额外的相机以捕获360度环绕视图,以捕获后视图和侧视图。例如,部分重叠的八路视图(四个立体对,前(iab)、后(iiiab)和两侧(iiab和ivab)。它具有在所有方向上同时捕捉动作的效果(创建“自拍环绕视频”)。

在一个或多个实施例中,可以利用nir点扩散函数来检测人体皮肤。当高度准直的光束照射小斑点(例如直径<250微米)时,一些nir光将在皮下扩散,因此观察到更宽的斑点。这个点扩散的宽度是我们正在照亮人体皮肤组织的很好的指标。此外,人体皮肤在紫外线和蓝色中反射率最小,在600到800纳米范围内(黄色和红色)上升到最大反射率,但它在nir中再次强烈下降,约970纳米处有最小反射率(参见图20a)。图20a中示出,850nm处开始970nm处达到峰值的nir光倾向于穿透到真皮层中达1mm,并且将至少部分地重新出现,因此其趋于模糊由高度聚焦的照明光源绘制的锐边(见图20b)。在一个或多个实施例中,可以通过两种互补方法来使用nir扫描光束检测人体皮肤。首先,通过观察red-nir差异,这对于浅肤色的人来说效果很好。其次,通过观察nir“点扩散函数”,如前面所描述的,这对于所有肤色均有效。

在三维远程呈现系统中获得在代表用户的全息化身上再现的正确肤色是有利的。使用仅三个窄带红绿蓝(rgb)原色的调色板可能通过其他方式引入同色异谱现象(metamericaberrations),这在脸部或其他身体部位中最明显。人类视觉对于检测“真实”肤色特别敏感。因此,具有用户的精确肤色的预先模型是有利的,因为系统可以立即切换到正确的rgb设置(假设确实实际上正在检测皮肤)。

此外,微笑、咧嘴笑、皱眉和脸红等是重要的情绪反馈信号,该信号在移情通信中非常重要。具有即时的方式来分割和优先化采集物并确保肤色和运动的最低延迟传输有助于实现情感上的闭环传递。此外,当驱动非人类化身(例如一个动画的绿色巨魔)时,这能够瞬间转移这种情绪化的人类脸部感知,这也被证明在建立情感真相感知方面非常引人注目。

全息视频捕获和远程呈现系统通过针对5代移动通信的精确的时空光场注册捕获实时3d运动图像。创建360度可视全息实时图像的自动化校准和设置方法使用全光场(plenoptical)扫描方法来检测表面细节,使用多光谱信号来检测移情感知。

图21显示了公主恳求将军的帮助的“全息图”信息,其类似于1977年最初发布的著名科幻电影中的一个场景,从此激发了实现非虚构版本的全息通信的许多尝试。到目前为止,捕获和传输讲话的人的精确移动的三维图像已被证明在技术上具有挑战性。它仍然是一个引人注目的虚构,但尚未广泛用于消费者。

图22a至22c示出了围绕用户布置的一系列相同的小型三维图像捕获设备,这些设备从多个视角或方向同时记录用户。图像捕获设备的数量(n)是可缩放的,并且可以在4到18的范围内。然而,通常可以使用六个设备。相机可以以圆形、球形、半球形、或者以重叠视点的任何凹入向内看的组合进行布置。每个图像捕获设备可能非常简单,例如,由扫描激光投影设备和一个或多个类似相机的传感器组成。

在一个或多个实施例中,每个图像捕获设备的视场(fov)足够宽并且使得其fov与一个或多个其他图像捕获设备在某种程度上重叠。这些设备可能具有在配置期间可能以各种颜色闪烁的信号发光二极管(led),从而协调、校准和编排他们的扫描,并调整其视图位置。当全息通信正在运行时,这些信号还可以帮助初始设置或者将用户保持在相机传感器的视野中(你的“相机上的”提示,这表明当前活跃的观看者位置:“我就在这里,看着你的孩子!”)。

在一个或多个实施例中,系统可以用一个或多个选项执行自动校准。参见图25a-25g和图27a-27f。此外,指示灯信号可很简单(如绿色闪烁led)以确认正确的视图捕获,或可以更复杂,如激光笔导向器,在设置过程中使用激光扫描仪作为指向或三维注释设备以指示用于放置下一图像捕获设备的良好的位置。在图25a中,位置1中的相机c1在其视场(fov1)中看到三次闪光,并且通过在时间t3、t4和t5处闪烁led来识别相机3、4和5。相机c2看到相机4、5和6。在设置该配置之后,知道每个相机的位置,系统可以调整其预先计算的几何变换。

在图25b-25g中,示出了使用摄影测量法的过程的七个步骤。在图25b(步骤1),相机c1拍摄相机c3、c4和c5的快照。移动图25c(步骤2),已知高度和已知的相机内联函数(intrinsics)用于观察相机c1的fov中的明显(观察到的)高度h3、h4和h5以及在c1的fov中的位置。在步骤3,系统建立相对三维位置,包括分别到相机c3、c4和c5中的每一个的距离z13、z14和z15。流向图25d(步骤4),系统观察相机c3、c4和c5之间的每个方位角,其可以根据相机c1传感器中的图像的位置来计算。在图25e(步骤5),通过简单的几何角度α314和a415是已知的,然后完全表征两个三角形δ314和δ415的边(距离z13、z14和z15)。流到图25f(步骤6),三个相机c3、c4和c5相对于c1的确切位置是完全已知的。此外,在图25g(步骤7),在对6个相机中的每一个重复该过程之后,然后知道所有位置。

自校准。通过有源激光扫描序列设置自动系统几何结构,例如,利用逆反射基准。扫描定时或立体观察将产生每个基准点的即时3d位置。自校准。自动系统几何结构利用固定的校准目标进行设置。

图27a-27f:自校准。使用校准的共同3d基准形状(例如,小雕像(也许莱娅公主!))或者使用移动的校准目标(例如“魔杖”或弹跳球)来设置自动系统几何结构。通过在所有系统相机(图27a-27c:所描绘的四相机telemagictm系统中的4个相机)的视图中放置具有已知高度h的这种基准形状,每个相机的6个自由度的精确定向(其位置和视角)被发现。运动对象将有助于梳理系统的同步。例如。弹跳球(球体)的中心需要在与任意相依从任意观察方向所观察到的点相同的点处。(同一球的n个视图见图8d)。

图27e(顶视图)和图27f(透视图)示出了在设置期间如何使用“魔法棒”探测“中心级”全息区域的不可见周界。

在一个或多个实施例中,图像捕获设备具有作为系统被同步(协调)的扫描模式和相机,用于捕获在系统的“中心阶段”中反射在人或物体上的所有激光束。每个捕获设备被配置为输出体素像素对的流,其在精确到大约10纳秒(例如可能参考100mhz或1ghz系统主时钟)的单独像素时间处被用时间戳仔细地进行了注释。

因为数百万个捕获的体素中的每一个都锚定在空间中的1毫米以内,所以它们捕获的被扫描的人(或物体)的表面的部分3d透视图在时间和空间上被精确记录,因此它们可以无缝地拼接在一起。因此,无论移动表面的运动和结构如何,任何视图都可以在稍后在下游远程地从该合成的体素表面描述中导出到全新的视角。参见图24a-24c。因此,“全息视频”可以从任何视角、任何距离和任何时间由多个观看者以立体形式并且以足够的细节进行观看,这些细节可以包括运动视角变化和自然的手臂、腿、手阴影、遮挡和运动视差效应。与公主一样,用户将在房间中“现场”出现:移动、交谈和互动。

在图26中,示出了祖父与其全息再现的孙女互动的图像。通过佩戴头戴式投影显示系统(如photonjetultralighttm非遮挡头戴式设备),两个或两个以上的人可以在彼此的空间或联合的虚拟会场中“全息地”聚集、自然地互动,而不必成为工作室技术人员,也不需要任何特殊培训。该系统在位置a、b和c处将全息图像投影到三维捕获系统的逆反射屏幕上。在图30中,祖父将合成的三维数据直接发送b方(孙女),她的投影仪显示是祖父在她的屏幕上的运动和视角经调整的三维全息版本。反过来,她的图像由她的系统传输,祖父看到她的全息图像。

如此处所描述的,该系统可以捕获人的表面上的每个体素,以高清晰度和高保真度在3mm距离处观看。每10毫秒(每秒100次),它将捕获人体表面上的每平方毫米作为三维锚定像素。三维锚定表面元素的位置称为“体素”。在反射该表面元素之后记录的光强度是通常称为“像素”的三维等效物。为清楚起见,为了明确地区分位置矢量(体素)和光强度值(像素),我们将组合称为体素-像素对(vpp)。像素通常仅与例如两个相邻像素之间的对比度相关联,而体素仅在限定空间中的3d表面位置,而不管光从那个位置反射还是发射(或传输)。例如,在表面上扫描的两个相邻点可能没有像素对比度,但是仍然可以具有3d表面结构,例如,在角落或边缘处的扩散、中性涂漆和漫射照明的灰泥墙。还参见图24a,其示出了表面s上的点p如何能够以精度(δx,ay,δz)定位到三维坐标(x,y,z)。一旦表面元件的位置已知(图24b),原色照明(r、g和b)的反射就可以作为传统像素值观察到(图24c)。

三维扫描和其他有源照明系统的一个优点是它们可以检测具有与其背景相同颜色的物体,例如,在雪覆盖背景下的轻雾中的雪球。相比之下,无源立体相机阵列在低对比度情况下不能很好地工作,例如本例中的雪球,因为没有像素对比度,没有基准,没有可以匹配的立体对,这使得白雪球在白色背景下不可见、不可检测。值得注意的是,本发明的全息捕捉系统的一个或多个实施例不需要对比度来工作,并且避免了无源立体和其他帧连续系统固有的计算负担。

为了将表面作为点云跟踪,所提出的全息捕获系统仅需要在任何表面点与三维捕捉设备之一之间的一条或多条清晰视线。不需要像素或体素基准,即使平滑且无特征的婴儿脸形状也可以作为点云准确地跟踪。在一个或多个实施例中,系统可以在十毫秒或更短的时间内捕获并呈现至少400万个这样的“体素-像素对”(vpp)的可视表面。为了渲染vpp,例如每秒100个“3d运动帧”(“3dmf”)需要每秒捕获4亿个这样的vpp。该捕获任务被分布在4个或更多个图像捕获设备上。因此,允许20%重叠,每个图像捕获设备可能看到每秒少于1.2亿vpp的加载,数据采集和处理加载可以用当今移动电话中的低成本组件实现。(60fps的高清视频是每秒120万像素)。

在各种实施例中的一个或多个中,每个图像捕获设备仅捕获用户的部分环绕视图。为了制作用户形状的透视图的一个可视全息图,通过匹配重叠边缘的三维坐标点将视图无缝拼接在一起。采集的准确性越高,系统就越容易弄清楚如何在三维空间中正确地将重叠的部分组合在一起。由于用户通常可以运动、跳舞、甩动手臂等,与每个捕获的vpp相关联的微秒精确时间戳确保表面的运动是平滑的,并且在拼接的接缝处没有伪影:没有撕裂、裂口、折叠或褶皱,没有三维颤动。

在各种实施例中的一个或多个中,图像捕获设备具有评估各个vpp的质量并且将传递信息的能力,例如,作为时间空间置信度等级度量。重叠可以慷慨地匹配每个相机的透视视点。在一个或多个实施例中,移动表面被实时匹配和拼接在一起以适合它们的形式和精确位置,这逐点和逐行地进行。每个vpp可以包括精确的时间戳,其可以在时间和三维空间中与其他vpp进行匹配。匹配需要对一个或多个扫描仪光投影仪在扫描期间获得的表面运动和表面连续性有所了解。使用速度矢量和三维轨迹预测(可选地通过使用类似卡尔曼滤波的技术),预测的循环之后进行测量,并且然后测量预测误差,创建匹配点的质量的置信度量。

在某些情况下,系统可能会遗漏用户身体的某些部分,例如,因为它被头发或手臂或一件衣柜暂时遮挡,或者在用户期望的视角与任何一个图像捕获装置都没有充分对齐的情况下。当这种情况发生时,系统可以通过在相邻新捕获的(真实)vpp和最接近的对缺失表面的最近观察之间进行插值来创建补丁,例如,当系统认为它缺少“瞬时表面数据(限定瞬时的时间段)”时,通过使用旧有数据来预测当前状态并将其以适合形状进行拼接以匹配像素图案、三维表面形状和轮廓细节(即“表面运动和形状拟合修补”)来填充此间隙。

漏补观察也适用于临时遮挡(即“遮挡修补”)。系统实际上可以使用某种物理规则折叠或弯曲某些表面以进行匹配,这些规则来源于观察,例如,纺织品可能在之前的几秒钟内以某种方式折叠。系统将匹配遮挡区域中的折叠和产生的图案,然后将其渲染到用户的右透视图。图28a-28c示出了匹配“蛋壳”的拼接三维透视图,(图28a)两个表面拼贴i(视角a)和ii(视角b)无缝拼接成一个连续(闭合/整体)3d物体表面(图28b)。通过找到表面具有相同的4个值的n个点来完成拼接,n匹配体素(xi,yi,zi,ti),其中i在1和n之间。在图28c中,两个体素表面点(x1,y1,z1,t1)和(x2,y2,z2,t2)在位置和时间上完全重叠。因此,它们是一个完美的3d运动“拟合(fit)”,可以被无缝拼接。每个重叠可能有许多这样的点。(n是重叠体素的大%)。三维表面拼接过程包括:(1)找到并匹配体素标记,找到并匹配两个视图中出现的像素(图像)对比度标记;(2)(灵活地)调整二维表面以匹配三个空间中的两个部分,使得所有表面标记(像素)重叠。

在一个或多个实施例中,在拼接和修补期间(参见图28a-28c),体素对应关系(三维表面结构,例如脊、边缘、角)和像素对应关系(对比度、条纹)都可以用作基准。激光信号本身可以产生明确的(以纳秒为单位)对应关系。由相邻图像捕获设备的激光器产生的激光点可以被识别为不同步,例如,在非极性检测周期中,在每个检测系统(三维相机,扫描传感器系统)自身的激光注释(annotation)的同步极线检测之间交替。例如,在图像捕获设备的常规极线扫描期间,设备的相机可能仅曝光和读取落入激光束当前正在扫描的平面内的传感器的行或列(使用滚动快门相机)。但是在替代的非极线检测周期中,相同的传感器可以并行地曝光和读取许多其他列或行,并且能够检测由相邻图像捕获设备生成的表面上的扫描点。此外,使用相同的非极线读取周期,设备还可以捕获不是由系统生成的环境光。

在基于云服务器的系统中(参见图29),在云中缓冲的一个完整图像可以同时服务于许多观看者。在每个新数据点、每个新上传的体素-像素对具有表示“捕获数据新鲜度”的唯一时间戳的意义上,三维运动数据“图像”被“缓冲”,因此可以使运动和视角在某种程度上与本地时间(也许有短的计算延迟(例如几毫秒))一致,以确保存在所有必需的可视vpp。

值得注意的是,对于某些视角,例如,在多个观看者的情况下,遮挡和视差要求对于每个视图位置是不同的。缺少表面透视(例如被手臂临时遮挡了一部分躯干)时,可以检查先前接收的数据并根据其进行“修补”,或者可选地,本地查看系统可以请求针对丢失的vpp的优先级数据请求。在一个或多个实施例中,中央主机或服务器计算机可以引导扫描系统,非常类似于演播室导演决定准备好哪个视角并处于待命状态。在这种情况下,现场直播将是最高的数据处理和传输优先级。此外,用户的系统确定在另一个用户的系统的另一端优先考虑哪个vpp获取;因此,可以为这些演播室导演相机控制信号保留不同位置之间的最高优先级和服务质量(qos)。

在一个或多个实施例中,单向通信将是例如全球观众观看生活表演。云服务器可以扩展并启用本地副本,因此可以在不增加显著延迟或创建任何实际计算瓶颈的情况下服务大量用户。在一个或多个实施例中,可以实现实时双向通信,这将需要更严格的延迟控制并且可能涉及本地化qos样式优先化。当两个群组已经在虚拟远程呈现模式下进行在线会议时,那么在两个用户之间建立一对一的配对会话将有益于最小化两个用户对话之间的延迟,例如当位置a的个体发起与位置b处的另一个体的对话时,这两个人将获得彼此的优先数据和视图,例如增强的脸部放大能力、脸部运动细节,并且确保与脸部动作的精确音频同步将被优先考虑。谈话者会(以最高优先级)看到他们正在谈话(演说)的听众的脸部表情。听众会看到完美同步的嘴唇,以及他们的凝视所针对的人(即他们正在关注的人)的脸部表情。

在一个或多个实施例中,用于一对一会议的对等分发,例如,仍然优先考虑首先传送可视表面,并填充不可视的表面。这将允许第三个用户可以随时进入对话。它还允许用户冻结帧、事后返回和改变视角。如果全息系统用于捕捉极限运动或摇滚音乐会音乐场地,这将是有用的。还进一步支持特写镜头,这允许用户更好地观看,随意进行放大。为了以更多细节支持这种缩放,如果系统带宽允许,更高分辨率vpp将是可用的并且需要被抢先传输到用户的位置。当系统拥塞时,带宽成为问题,并且可能存在较慢的放大分辨率填充延迟。缩放会降低fov,因此观看的体素的总数将保持大致相同,但放大将需要在较小的可视空间中获得更高分辨率。

在使用三维头部激光投影和显示头戴式设备的双向全息视频通信期间,每个用户在被捕获时可能需要逆反射表面,以同时感知远程定位的另一用户。环绕或大凹面屏或其他曲面可能会遮挡太多的自然背景设置。可以利用在房间或自然环境的预安装扫描期间所捕获的该背景的完整三维扫描图像来重新添加被遮挡的背景。可以采用自然环境来提供自然设置,例如,房间的墙壁和任何家具将被单独捕获并重新渲染。可选地,可以呈现可由用户选择性地调整、生成的演播室生成布景、或幻想背景、用户或第三方。可以仔细选择这些道具、布景、背景,例如孙子孙女们可能有某种童话故事布景,他们可以选择、装饰、用虚拟绘画改变自己,可以放置物体,或者可以将整个三维动画特效添加到布景中(三维远程呈现阶段)。远景可以是大型的日落、海洋等,其方式有点类似于各种电影和电视节目中所展示的全息甲板。例如,孙子孙女们可以在改变之前捕捉真实背景,以确保“整洁的房间外观”。

在一个或多个实施例中,三维捕获系统可以捕获沉浸式三维现场场景。用例包括:全息游戏和体验。修道院和城堡的布景,在其中进行真人实景、谋杀之谜游戏,观众可以穿过可能有50间或更多卧室的城堡。并在他们周围的“真人实景”三维场景中寻找线索。同样,用户可以访问其他大的城堡、河流游轮、金字塔等,并体验在过去、现在或未来时间设置的场景。

在一个或多个实施例中,光被投射到由表面反射的任何体素点(x,y,z)并且被用于建立精确的体素表面位置。了解表面上相邻点的位置,使这些接近表面点受到合理的物理限制(因为需要表面(例如皮肤或衣服)的三维连续性、弹性和柔韧性),从而使得可以改善(超分辨)使用下面的过程的每个观察的准确性。首先,对表面三维形状进行初步估计。其次,基于体素限定微结构的表面基准(形状和脊线)、以及像素对比度的着色、表面图像图案,识别它所属的部分、物体表面或皮肤位置。第三,使用邻接和已知动力学与其他观测相关联,基于此改进对位置坐标的估计,然后第四,更准确地预测体素的三维运动流,例如根据其观察到的最近轨迹,然后预测其未来轨迹。

如上所述的过程将能够对各个表面元素(vpp)进行更准确的预测,整体的运动可以通过考虑整体、然后在没有物理模型的情况下单独观察各个表面点而更加可预测。例如,扫描正弯屈的覆盖有纹身的肌肉臂,试图预测或插入单个表面点位置。在数学上将其作为无结构的vpp点云进行处理,这并不像弄清楚皮肤如何在下方的弯屈肌肉上伸展的潜在基础事实那样准确。无论是仔细的物理学和解剖学,还是通过粗略的观察建模,在几秒钟内观察到的弯屈和不弯屈将极大地通知任何表面运动预测的边界(皮肤只伸展到目前为止,肌肉只膨胀那么多)。

光场是矢量函数,其描述在空间中的每个点在每个方向上流动的光量。对于五维全息图,每条射线的方向可以通过五维全光函数给出,并且每条射线的大小可以由辐射率给出。在任何时候,几个图像捕获设备可以观察到表面上的点。因此,可以从多于一个角度照射任何这样的一个表面体素元件,并且可以从不同的视角同时观察连续的这种照明。

在图32a和32b中,在t=t1的表面上示出了一个这样的点,光束1照射该点,并且从两个不同的视角(观察1和观察2)记录一些反射光。在稍后的时间t=t2,第二个激光束(光束2)照射相同的点,并进行两次新的观察。两个光束和两个视角产生关于某些波长的光如何从物体或目标表面上的特定点反射的四种不同观察结果。值得注意的是,以这种方式,可以捕获相同表面元素上的mxn个不同反射或者vpp(n个视点,捕获分别来自另一设备的m个照射光束的反射,产生总共nxm个感知)。因此,对于该体素-像素对,一定量的表面反应二维颜色对比度函数(五维光场函数或角度颜色吸收-反射率函数)正在通过每次连续扫描遍历而被捕获。

此外,如前所述,环境光(即不是由系统自己的扫描光源或额外照明(线扫描或泛光/频闪)产生的环境自然光)例如在非极线捕获周期期间可以被捕获。我们的表面(皮肤和衣服)的物理特性受到物理限制,因此其可能的形状和在时间和空间上变形以及衣服或皮肤的颜色和外观在观察三维表面区域以一定时间间隔后是可预测的。此外,随着对某个体素(例如皮肤点)的每次额外观察,当它可以与同一位置的每个其他观察进行比较时,该过程可以建立“表面正常颜色角度反应函数”,以通知某些波长的射入光(扫描原色)如何在该点(油性或干性皮肤、哑光或有光泽的纺织品、皮革等)以特定角度反射。在图32c中,两个三维图像捕获装置照射并观察相同的表面元素,并观察4种不同的角度的反射。在一些情况下,n个这样的照明和m个视角相乘(nxm)随时间推移可以为每个这样的vpp产生相当完整的角度反射函数(表面反应函数)。

对于混合现实照明,显示位置处的接收器“六角圆”相机可以检测自然光。检测到的自然光场(例如从窗户进入的阳光或顶部灯具的光)可以通知增强现实风格的特效灯光,以添加虚拟光线效果(如光线和阴影),从而为投影在用户眼睛前面的全息图像添加真实感。它有助于将全息呈现置于背景下,使其看起来更真实并且不太虚幻。利用已知的计算三维图形渲染程序(例如光线跟踪)来实现计算和渲染这些“虚拟光照效果”。例如,手电筒或光剑可以“照亮”全息投射的人的表面,在脸上添加自然的“阴影”(在没有阴影的情况下增加额外亮度,对光进行补偿,通过添加额外照明、增加对比度和/或增强现有对比度来“放大阴影”)。此外,当可以捕获“接收器”位置的自然光时,这可以用于向全息图像添加真实感,例如使孙子的阴影对应于祖父母房间中的照明,以便将“全息图”更具体地放置在空间中。

另外,全息投影头戴式设备还可以用作安装指示,在系统设置期间在系统组件上提供注释,并且实际上还可以用作超级智能夜灯以在黑暗环境中安全地走动。

该系统利用简单的自动生成的指令(例如指向或朝向图像捕获设备之一上的最佳位置的箭头)提供自动设置和即时自校准。例如,六个相同的图像捕获设备开箱即用。孩子应该能够将它们正确放在桌子或地板上。它们可能具有内部调平能力(在传感器中如此构建是便宜的,因此开箱即用的所有传感器都可以保证将被垂直对齐,或至少具有精确的自校准水平偏斜检测)。另外,图像捕获设备可以看到彼此,因此可以帮助彼此自动校准。例如,当两个相机看到第三个相机时(在设置和自动校准期间利用基准标记,无源和有源、简单的例如闪烁led灯)。在一个或多个实施例中,系统可选地可以使用有源激光器的信标。而且,然后可以在自动校准期间建立每个图像捕获设备相对于彼此的高度。

在一个或多个实施例中,如果在“六角(hex)”系统中存在例如具有传感器(也称为“相机”)的六个相同的图像捕获设备,则设置可以仅确定每个图像捕获设备相对于其他图像捕获设备的距离。在此配置中,可以假设每个传感器可以看到至少三个其他传感器(参见图25b),然后由六个相机中的每一个观察到这些“对立的”三个相机的相对方位角。此外,如果事先知道相机的高度,有尖的尖顶(可能是麦克风突出或顶部的特殊基准点),那么观察相机和三个被观察的相机之一之间的距离和三个其他被观察的相机中的任何两个之间的角度差异将被知道。因此(通过简单的几何形状),利用已知的两个侧边(距离)和一个角度(角度差异),三角形的形状和大小被完全唯一地定义。因此,在该自动校准期间,通过仅为每个相机拍摄一个快照(总共六个快照),可以几乎立即发现六角布置的所有几何形状。例如,七步自动设置和校准过程参见图25b-25g。

在一个或多个实施例中,可以采用多个激光束来从三维表面“剥离”像素。在六角系统中,六个激光器在垂直方向上快速扫描。在每个三维采集系统中,一个二进制异步相机从上方(下方)的延伸部分记录激光光斑,从而实现产生体素的三维坐标的瞬时三角测量。第二、更传统的相机记录指向表面位置的光的rgb强度。

以这种方式,第一相机仅记录当从偏移距离观察时扫描点位置的垂直视差,从而实现扫描立体三角测量,每1到10纳秒产生新的三维表面位置(新体素)。此外,第二相机可以是能在大多数手机中找到的简易低成本滚动快门相机。在批量生产中,每个相机可以以每个约1美元购买,扫描仪可能是10美元。因此,图像捕获模块的总成本可能低于25美元。对于六角系统,硬件成本可能低至200美元(6x$25加上中央系统逻辑和连接(连接到例如智能手机)的$50)。每个扫描60度的六个光束(参见图22a-22c)围绕正被扫描的人或物体。光束与相机的滚动快门相协调,因此它们的激光点照明始终与相机操作同步,并且光束不会“盲目”(干扰)相对的相机。例如,如果图像捕获模块的体素探测光束没有检测到表面上的反射(即,异步二进制相机没有检测到超过阈值的信号),则由rgb相机记录像素值。

可以由用作先导的第一异步相机提供三维裁剪功能,使得能够预先选择裁剪图像的第二图像捕获设备。这种三维体素通知裁剪功能可以将记录的图像数据流(rgb像素流)极大地减少到仅有能够与属于视野中的目标的实际前景体素匹配的所属的像素。以这种方式,自动移除任何背景图像,从而创建自动蓝屏功能。这显著减少了数据输出流,并且消除了对压缩的需求,并确保了最低的系统延迟。

该系统可以被包装为苹果或其他水果(梨、橙、李子或樱桃)。每个图像捕获模块适合作为所选水果的“切片”。苹果的中央核心(“苹果核”)可以作为收集来自切片的信号的中央服务器,并且用作中央命令单元,其将信号的扫描和拼接编排成一个有凝聚的vpp流。组装苹果时,相机和激光器向外扫描。

图31a和31b示出了基于六边形的金字塔配置系统。六个“切片”中的每一个可以放置在要以全息方式记录和传输的人周围的“六角圆”中。或者,当被组装到金字塔中时,如图所示,在房间的中央,系统将使用一个或多个相机在具体的3d图像中记录360度的环境,这些相机提供分为6个重叠3d透视图的中心定位透视图。图31b示出了从金字塔中的一个或多个投影仪发出的6个光束,同时扫描房间中的物体和表面。此外,中央核心或脊柱可能具有基准点(例如在顶点(如图所示)),使得基本单元可以用作基准共同参考(另外参见图27a-27f的描述)。

在人类互动中,能够正确阅读脸部表情脸部颜色所传达的情绪的重要性是无可争议的。在祖孙沟通系统中,正确捕捉大笑、微笑、皱眉和噘嘴以及更多微妙情绪至关重要。具有良好的三维脸部运动检测并且具有即时检测和传输这些脸部情绪信号的途径对于“疯狂的伟大”通信是重要的。幼儿极其依赖于向他们的护理人员发出内心情感状态的信号。母亲特别善于察觉宝宝的脸部表情。人类移情感知系统中的一个重要元素是脸色,更具体地是局部的脸部颜色动态(例如脸红)。

电视标准、彩色相机和数字传感器被设计用于再现漂亮的图片。宽光谱源和三频段(rgb)过滤以及信号链中的大量白平衡已经实现了当今智能手机和slr、lcd和oled显示器中的成像奇迹。然而,光子输入和输出链中的过滤效率较低的主要原因是因为它们去除了带外光子。带通越窄,损失越大。虽然引入了四颜色系统(r、g、y和b),但效率的损失以及计算和传输成本增加使它们不能成为标准。

迄今为止,捕获、传输和再现人类感知信号以获得共鸣并没有被认为是至关重要的。事实上,自文艺复兴以来,受过教育的精英习惯于相信通过信件、印刷文本以及近来通过更短的电子邮件和140个字符文本进行交流的优越性。视频会议技术作为目前的一种通信工具仍然存在许多关于情绪和人为因素的缺点,例如延迟、帧压缩延迟导致扬声器相互中断、或者由于不正确的相机角度导致视频中的错误目光对齐。年轻的孩子可能最精明,也不会被技术蒙蔽,他们立即明白,skype上的妈妈与真正的妈妈完全不同。在当今现代通信的大量流量中,大量的移情通信在传输中丢失了。

检测另一个人的脸红的一个问题是该人的感知能力取决于再现关键的30nmm-l视锥细胞差分信号。图34显示,在脸部发红期间,红血球细胞充满了氧合血红蛋白,通过降低m视锥细胞的感知峰值535nm处的皮肤反射率并增加l(长波长,红色)视锥细胞的峰值562nm处的相对反射率(长度)来突出反射光谱中的“w”形状。差分信号(如图34所示)超过两倍(所示的绿色曲线是低氧化;红色光谱响应曲线显示高氧化)。因此,人类视觉中的m-l视锥细胞的差异感知对于检测晒黑(tan)、肤色或血液浓度等级变化的相对变化(而不是绝对水平)特别敏感和/或针对该相对变化被优化。注意,如图33和34所示,这些关键的感知线索作用于各种肤色的所有脸红状态。当然,脸部化妆可以隐藏脸红。

图33显示了来自各种人类皮肤数据的反射光谱,当与各种其他光谱相比时,它们是相似的。增加了典型扫描二极管激光投影仪的波长-蓝色445nm,绿色522nm,红色639nm和感知峰值波长535nm(m视锥细胞)和562nm(l视锥细胞)(主要的两个人类色彩视觉感知对象)。

典型的cmos拜耳滤光器相机带如图35所示。显然,红色拜耳滤光器的光谱截止距离较长的波长域太远,无法在562nm(黄色)处获得血红蛋白红脸的峰值反射率。实际上,这种典型的相机对这一关键波长的灵敏度接近于绿色像素的峰值(出现在535nm附近)。因此,这种类型的相机对人类移情通信中最重要的波长特别色盲。红色拜耳滤光器完全拒绝562nm(黄色)的血红蛋白红脸峰值反射率。实际上,这种典型的相机对于这个关键波长的灵敏度太接近于绿色像素的峰值,该峰值出现在535nm附近(这恰好是人眼m视锥细胞的最大灵敏度点)。因此,这种类型的商品相机对人类移情通信中最重要的波长特别色盲。

二极管激光器是天然窄波长发射器。最近已经开发出直径为562nm波长的激光二极管激光器。通过在扫描源的照明中添加562nm光源,我们可以选择性地利用该光源照射脸部。例如,一旦确定了人脸的位置,就可以用562nm波长的激光扫描光束对脸部的特定部位进行点扫描。请注意,cmos传感器将看到此光反射为任何其他光。不需要特殊的窄带滤光器。由于该系统事先知道此时(在该像素处)仅有562nm黄色光源,因此它知道到达特定像素的反射光必须是来自562nm光源的反射。如前所述,环境光通过其他方式很大程度上被抑制。此外,我们可以在空间上或时间上复用(交替)这两个关键频率:针对m个视锥细胞的535nm和针对l视锥细胞的562nm。因此,通过比较两个扫描源的反射,可以检测并发送像素脸部脸红感知的即时像素。

如果接收投影或显示系统具有传输l峰值波长的能力,例如通过添加额外的562nm黄色原色图像投影仪(具有反射光跟踪以及其他应用),并且如果可选地我们添加第五原色(例如535nm选择性绿色),这样一个4原色或更多原色的扫描投影系统将能够忠实再现一个人的脸红。事实上,黄色像素已经添加到一些制造商的oled显示器中。与相机不同,对第四种颜色的这种添加不需要产生效率损失,因为在oled显示器中,有机发光颜色是像激光一样的颜色混合(additive),而不是减色(substractive)。下一代oled屏幕可能也能够重现脸红;为此,它们可能有一个特定的532nm和562nm窄带发射器。

图36中显示了皮肤中氧化血红蛋白的替代检测方法。在约575nm处使用选择性照明(扫描或泛光照明)将捕获例如在脸红期间通过脸部扫描检测到的含氧血的“w”光谱响应的第二个低谷。它同样可以用于医疗应用。在“w”中,将w中心的峰值反射率(在562nm处,也是人类l视锥细胞的峰值灵敏度)与大约575nm处朝全黄色光谱的反射率的下降进行比较。在这个三维波长处的照明可以增加或者是用于捕获535nm处的反射最小值(人类m视锥细胞的峰值灵敏度)的替代方案。

此外,由于预计动画化身和/或增强外观选项可能很快会进入主流通信,因此准确感知人脸颜色会在渲染方面带来许多选择,这甚至可能是人机交互的一部分。机器可能永远不会“理解”人类的情感,但它们至少可以记录我们的一些情绪状态。

我们已经看到,通过使用特定的562nm激光扫描人的脸部并将该深黄色反射率与535nm处的皮肤黄绿反射率进行比较,在输入侧进行红晕检测。这种比较允许系统在任何一个脸部皮肤像素位置处即时检测到此指示移情信号。如前所述,在接收侧使用相同的原色可以忠实地再现脸红。然后不幸的是,当孩子真正的脸红时,忠实的再现对于色盲父母而言(缺少m-l视锥细胞差异感知)是不可察觉的。替代地,可以将信号转变到到亮度域,或者转变成感知受损的父母可感知的颜色信号。

祖父母可能也需要一些帮助。随着年龄的增长,他们的视力明显下降。老化的眼睛看到的肤色与年轻人看到的完全不同。通过使得面部特征易于被看到,通过增加对比度或者放大微笑以及突出某些关键感知标记(如脸红),可能有助于老年父母与孙子孙女重新联系。这在某种程度上帮助人类重新进行情感连接。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1