用于具有显示墙的视频会议端点的多个相机的组合视图的制作方法

文档序号:7910415阅读:225来源:国知局
专利名称:用于具有显示墙的视频会议端点的多个相机的组合视图的制作方法
技术领域
本公开一般地涉及视频会议。
背景技术
非常大的显示器,例如,有八英尺高四十英尺宽那么大或者甚至更大的显示墙通过背投显示器或通过多个平面屏幕显示墙的平板阵列而成为可能。例如利用HDTV分辨率显示设备的具有实物大小图像的视频会议近来已被提出,并且通常被称为“远程呈现 (telepresence) 具有非常大(例如墙大小)的显示器的视频会议终端将拓展远程呈现体验。当各个参与者位于离显示墙一定范围的距离处时,产生了一些基本问题。例如,根本不清楚一个或多个相机可被放置在哪儿,以及每个相机的视频可以如何被处理,以产生有意义的存在幻景(illusion)。理想地,单个相机应当被放置在显示器后面并且离显示器很大距离,以便提供当参与者看着屏幕时具有正确的目光接触的视图,并且不会有伴随着极广视角相机的失真。


图1示出了沿着一平面形成远程呈现显示墙的一组显示监视器的示例。图1的显示墙可用在本发明的实施例中。图2示出了位于例如由使用一个或一个阵列的投影图像的背投系统或者由如图1 所示的一组显示监视器形成的远程呈现显示墙前面的两个参与者的略图。图3示出了来自远程呈现显示墙后面的视图并且示出了在显示墙后面离显示墙很远距离处的所希望相机位置,其中虚线指示出相机的视野。本发明的实施例提供了来自所希望相机位置的合成视图。图4图示出了用于利用几乎位于近似在显示墙平面上的相同点处的多个相机来获得充分的视野以包括进视图的所有参与者的一种方法。图5示出了对于通过将来自如图4所示的一组相机的多个视图拼接在一起而形成的远程显示墙来说,显示图像看起来的样子的略图。图6A示出了具有一场景的多个重叠视野的相机的简化框图,这些相机与远程呈现显示墙的平面共面。图6B示出了根据本发明实施例的装置的简化框图。图6C示出了当仿佛显示墙不存在并且从位于显示墙的与该场景相对一侧上的离显示墙特定距离的特定点处的虚拟相机看时,该场景的特定视图的几何图。
图6D示出了图6B所示的装置中的显示墙和相机的简化素描渲染。图7示出了用于操作诸如图6B的装置之类的视频会议装置的方法的实施例的简化流程图。图8示出了图6B所示的装置实施例的多个部分的框图。图9示出了当视点充分远以使得近似存在正交透视时位于相机前面的参与者的合成图像的简化略图。
具体实施例方式概述本发明的实施例包括远程呈现装置、操作远程呈现装置的方法,以及远程呈现装置中的被配置有指令的有形计算机可读存储介质,当指令被运行时使得对远程呈现装置进行操作。该远程呈现装置包括与显示墙共面地被分布并且捕获场景的相机视图的视频相机。相机视图从视频处理器被处理以形成用于发送给一个或多个远程端点的视频信号,该视频信号对应于来自基本上位于墙后面的点处的并且就好像墙不在那儿时的合成视图。特定实施例包括远程呈现装置,该远程呈现装置包括显示墙和基本上与显示墙共面的多个同步视频相机。每个相机提供场景的相机视图,并且这些相机视图相重叠以覆盖该场景。该装置还包括被配置来接受来自视频相机的该场景的相机视图的接口。该装置还包括相机视图处理器系统,该相机视图处理器系统耦合到该接口并被配置来处理所接受的相机视图,以从位于显示墙的与该场景相对一侧上的并且离显示墙很远距离处的特定点来生成合成特定视图。该相机视图处理器系统包括被配置来创建该场景的集成深度图的集成深度图创建器模块。在一个版本中,集成深度图创建器包括视差创建器模块,被配置为通过对相机对的视图组进行操作来创建各个相机之间的视差图;以及集成器模块,被配置为创建场景的集成深度图。该该相机视图处理器系统还包括视图合成器模块,该视图合成器模块被耦合来并被配置来接受来自接口的相机场景,并且被配置来根据集成深度图以特定方式来组合相机视图。组合相机视图包括弯曲特定相机视图以形成一视点处的合成特定视图,以使得对于在至少一个相机视图中的两个对象或参与者来说,这两个对象或参与者由于他们离显示墙各自距离的差异引起的大小差异在特定视图中比在这两个对象或参与者所在的任何单个相机视图中要小。该视图合成器模块由此被配置来根据对象或参与者离显示墙的各自距离来缩放对象或参与者的大小以维持对象大小的关系和比例 (perspective)。该装置还包括视频形成模块,被配置为从位于不同的连续帧时间处的合成视图来形成视频,所形成的视频用于发送给一个或多个远程端点。特定实施例包括操作视频会议装置的方法。该方法包括接受来自瞄准一场景的多个时间同步相机的相机信号;处理相机信号以创建视频信号,该视频信号表示如从离该场景特定距离处的特定点看时的该场景的特定视图。在一些实施例中,该方法还包括压缩所创建视频信号以形成压缩视频用于发送给一个或多个远程端点;并且将所压缩视频发送给一个或多个远程端点。相机沿着基本上平坦的显示墙并且与显示墙基本上共面地被分布, 显示墙由一个或多个平面屏幕显示墙或者一个或多个投影显示墙组成。特定点的特定距离至少是显示墙的宽度。处理相机信号包括缩放该场景的多个部分以创建特定视图的信号, 其中来自特定相机的相机信号中的、远离该特定相机的对象相对于来自另一相机的相机信号中的、靠近该另一相机的对象被放大,以使得对于在至少一个相机视图中的两个对象或参与者,这两个对象或参与者由于他们离显示墙各自距离的差异引起的大小差异在特定视图中比在这两个对象或参与者所在的任何单个相机视图中要小。特定实施例包括在远程呈现装置中的有形计算机可读存储介质,该有形计算机可读存储介质包括当被远程呈现装置中的一个或多个处理器运行时被配置来操作远程呈现装置的指令。该存储介质包括存储有代码的一个或多个部分,包括当被运行时使得接受来自瞄准一场景的多个时间同步相机的相机信号的部分中的代码。该存储介质还包括存储了当被运行时使得处理相机信号以创建视频信号的代码的一个或多个部分,视频信号表示如从离该场景特定距离处的特定点看的该场景的特定视图。该存储介质还包括存储了当被运行时使得压缩所创建视频信号以形成压缩视频用于发送给一个或多个远程端点的代码的一个或多个部分。相机沿着基本上平坦的显示墙并且与显示墙基本上共面地被分布,显示墙由一个或多个平面屏幕显示墙或者一个或多个投影显示墙组成。特定点的特定距离至少是显示墙的宽度。处理相机信号包括缩放该场景的多个部分以创建特定视图的信号,其中来自特定相机的相机信号中的、远离该特定相机的对象相对于来自另一相机的相机信号中的、靠近该另一相机的对象被放大,以使得对于在至少一个相机视图中的两个对象或参与者,这两个对象或参与者由于他们离显示墙各自距离的差异引起的大小差异在特定视图中比在这两个对象或参与者所在的任何单个相机视图中要小。特定实施例可以提供所有的这些方面、特征或优点,这些方面、特征或优点中的一些,或者不提供这些方面、特征或优点。特定实施例可以提供一个或多个其它方面、特征或优点,本领域技术人员可从这里的附图、描述和权利要求中容易地清楚这些其它方面、特征或优点中的一个或多个。示例实施例远程呈现显示墙装置是指具有很大显示器的远程呈现视频会议端点,很大显示器例如是由来自一个或多个投影仪的一个或多个投影图像组成的很大投影显示器或者由监视器阵列组成的很大显示器以形成很大的基本上平坦的显示器(显示墙)。该装置包括大致位于与显示器的平面相同平面上的多个相机,并且视频相机的输出被处理并被组合以产生用于发送给远程端点的视频图像,远程端点通常也是各自具有显示墙和多个相机的远程呈现显示墙装置。图1示出了沿着一平面形成远程呈现显示墙的一组显示监视器的示例。在此示例中有4 χ 4个,即16个监视器,然而显示监视器阵列不限于该显示器的数目。很大是指例如至少横跨会议室或其它会议空间的宽度至少8英尺宽并且通常更大。注意,大平板显示器现在正在被开发,并且本发明的实施例可以利用这样的大平板显示器或者形成显示墙的多个这样的大平板显示器来工作。图2示出了在远程呈现显示墙前面的两个参与者的略图,该远程呈现显示墙例如由使用一个投影图像或投影图像阵列的背投系统形成,或者由诸如图1所示的显示监视器之类的一组显示监视器形成。图2的远程呈现显示墙示出了三个远程参与者。(理论的)远处的背后相机希望利用一个或多个相机来创建用于发送给远程端点的视频,该视频为远程端点处的正在观看位于远程呈现显示墙前面的一个或多个本地参与者的观看者创建幻景,就好像远程观看者正从本地显示墙的后面观看显示墙上的本地参与者一样。这提供了由远程呈现显示墙的平面切成两半的物理空间的幻景,其中,位于一侧的本地参与者可由远程参与者看到,并且所有远程参与者可由位于另一侧的本地参与者看到。为了为远程观看者实现这样的幻景,相机应当被放置在离远程呈现显示墙相当远的距离处。图3示出了从远程呈现显示墙后面看的视图并且示出了显示墙后面的所希望相机位置,其中虚线指示了相机的视野。还示出了位于远程呈现显示墙的观看侧上的一些本地参与者的略图。当然,在实际中,远程呈现显示墙不是透明的,并且此外,通常在多个相机或者远程呈现显示墙的背投屏幕后面没有足够空间用于这样的相机。虽然光学机构能够产生半透明或可由开关控制的透明度的背投显示屏,但是这样的光学方法以及相关联电子和(一个或多个)机械装置需要空间并且相当复杂且昂贵。全景相机方法图4图示出了一种用于获得足够视野以包括进所有参与者的一种方法,并且包括大致位于同一点(该点大致位于显示墙的平面上)的多个相机(示出了三个相机),每个相机指向不同方向以使得相机的视野重叠。为了使用这样的布置,来自不同相机的视图被处理以拼接在一起,从而形成包括了所有本地参与者的全景视图。这样的布置对于座位数受限并且参与者大致坐在离相机相同距离处的会议室来说可能是满意的。但是,当应用于人们可能位于离显示墙不同距离处和/或从而使得人们可以在房间内任意移动的一般性房间时,如图4的简单示例所示,全景相机方法会遭遇两个缺点。图 5示出了对于通过将来自一组相机的多个视图拼接起来而形成的远程显示墙来说显示图像看起来的样子的略图。该略图通过示例清楚地示出了两个潜在缺点。第一个缺点是严重的哈哈镜问题(比例问题)。当对象或人移动得靠近相机时他们快速地变得很大,而较远的人或对象又显得很小。第二个潜在缺点是较差的目光接触。除了直接面对着相机之一的参与者(例如,位于相机视图中心的参与者)以外,看着屏幕的人好像没有在看正观看所形成图像的远程参与者,而是好像在看旁边。使用共面相机(coplanar camera)的实施例本发明的实施例包括远程呈现装置,该远程呈现装置包括安装在本地远程呈现显示墙的平面中的一个或多个相机。该远程呈现装置被配置为处理(一个或多个)相机视图以生成用于远程远程呈现显示墙的图像,该图像就好像是由(虚拟的)远处的背后相机所产生的。使对这些图像的处理变得复杂的是远离本地远程呈现显示墙的人在多于一个相机视图中,而离本地远程呈现显示墙较近的一些人在任何相机视图中都不能被看见。近的对象可能阻挡背景的很大部分,包括其他对象和/或参与者。因此,将来自多个相机的数个不同视角图组合成产生可视感的单个图片是一项不平凡的任务。图6A、6B、6C和6D示出了远程呈现装置的一个实施例,该远程呈现装置包括远程呈现显示墙603和相机布置,该相机布置包括基本上共面的(例如位于本地远程呈现显示墙603的平面上的)多个相机607。图6A示出了相机607和显示墙603的装置601的简化框图,并且示出了相机607的多个重叠的视野。该场景包括各自位于离远程呈现显示墙 603的平面不同距离处的参与者611、612、613、614、615、616和617。显示墙603包括显示设备的阵列或者投影有一个或多个图像的投影屏幕。
8
在远程呈现显示墙和相机装置601的一个实施例中,多个相机607被同步(例如, 帧同步的视频相机607),并被布置为基本上与大致平坦的本地远程呈现显示墙603的平面共面地分布,例如,沿着显示墙603的平面被布置为一维或二维阵列。所有相机基本上指向朝着场景610的同一方向,场景610在所示附图中包括多个本地参与者611、612.....617。所需要的是一种用于产生与远处相机相符的、但是是由基本上安装在显示墙603 的平面中的相机产生的图像的方式。图6A包括由虚线示出的这样的投影如传统图像拼接方法那样,如果经同步的帧简单地被拼接,则来自相机607的相机视图的不同参与者将会呈现出的样子。这样的拼接在视频的情况中,例如以利用线性移动的相机或者相当于利用稀疏线性阵列的同步相机的建筑渲染而闻名。如图6A可见,参与者根本不能被看见。此外,近的对象(例如参与者)显得较大并且可能阻挡背景的一大部分。利用传统拼接,没有明显的用于将数个不同视角图拼接成产生可视感的单个图片的方式。图6B示出了一装置的简化框图,该装置包括装置600中的图6A所示的显示墙和相机装置601并且还包括被配置为接受来自显示墙和相机601的元件的数据(包括接受各个场景作为从视频相机607捕获的信号)并向显示墙和相机601的元件提供数据的接口 622。接口 622在处理系统621中,处理系统621包括耦合到相机607的一个或多个视频处理器623以及存储子系统625,存储子系统625包括存储器和可能的一个或多个其它存储元件。存储子系统625中的存储介质被编码有(即,被配置有/包括有)逻辑627来作为可执行指令,这些可执行指令在被(一个或多个)视频处理器运行时确定该场景的集成深度图。一些实施例直接确定来自所有相机的深度图。这样的方法的一个示例使用环境中的结构化照明源(structured lighting)。可以直接确定深度图的其它这样的方法可以包括平面扫描。在一些实施例中,逻辑627包含在被(一个或多个)视频处理器运行时通过对来自相应一对相机607的信号对进行立体视觉处理来确定多个深度图的可执行指令,并且包含当被运行时将从立体对确定的深度图相集成以确定场景610的三维深度图的逻辑。替代实施例包括电路形式的逻辑。在其它实施例中,逻辑是与存储了指令的存储器相组合的硬件逻辑的形式。在这些实施例中的任何实施例中,当逻辑操作时使得能够确定深度图。在剩余描述的大部分描述中的逻辑将被假设为但不限于被示为图6B中的627的逻辑的一部分。逻辑627在操作时还被配置来对来自相机的信号和所确定的集成深度图进行处理,以合成相机607前面的场景的特定视图。所合成的场景的特定视图具有位于显示墙的与该场景相对一侧上的视点,并且离场景610很远,就好像显示墙603不存在一样。相机607和处理系统被布置为不引人注目的,以便即使当场景610包括分别位于可能未知的各个深度处的参与者和/或对象时,也会给出“远程呈现”的总体印象。处理系统被配置为从显示墙603后面很远距离605处的虚拟点生成虚拟视图,就好像显示墙不存在一样。图6C示出了从位于显示墙的与场景610相对一侧上的、离显示墙 603特定距离605的特定点处的虚拟相机609看时,场景610的特定视图,并且就好像显示墙不存在一样。该特定点的特定距离605至少是显示墙的宽度,并且通常为数米远。该特定距离使得特定视图不会遭受失真,这种失真将会从离显示墙较近的相机产生。图6D示出了显示墙603的简化素描呈现,其示出了沿着位于场景610中的参与者前面的显示墙上的两条线的二维相机阵列603。该显示墙显示出了远程位置处的、位于包括远程显示墙装置的远程端点前面的参与者。返回图6B的框图,装置600包括音频处理子系统626,在一个实施例中,该子系统包括一个或多个DSP设备。音频处理子系统6 被耦合到麦克风阵列608并且接受来自其的信号,以处理成将被编码并发送给其它端点的音频。音频子系统6 还被耦合到一个或多个扬声器606,以根据从一个或多个其它端点发送来的信号来在显示墙环境中提供声音。一个实施例使用一个或多个图形处理单元(GPU)作为(一个或多个)视频处理器 623。替代实施例使用一个或多个其它类型的处理器。其它实施例使用通用处理器与诸如 DSP设备和/或GPU之类的专用处理器的组合。包括显示设备阵列或者一个或多个投影图像的显示墙603被耦合到显示子系统 628,显示子系统拟8在本实施例中被示为是处理系统621的一部分,然而也可以是分开的但耦合到621。该装置(例如,处理系统621)包括一组编解码器624,该组编解码器拟4包括耦合到音频处理子系统626的至少一个音频编解码器和耦合到(一个或多个)视频处理器623 的至少一个视频编解码器。在一个实施例中,视频编解码器包括并行操作但彼此相连的互连视频编解码器的阵列,以使得高清晰视频信号(每秒60帧1920X 1080)可被编码并且还可被解码。该装置600 (例如,处理系统621)包括通信子系统629,该通信子系统629的一端耦合到网络631(例如,因特网),并且另一端耦合到音频和视频编解码器624。因此,该远程呈现装置600经由网络631被耦合到至少一个远程端点641。远程呈现装置600的目的是为至少一个远程端点641提供信号。如图所示的端点641包括远程显示墙648、一个或多个远程相机649,以及具有处理器和远程存储子系统645的远程处理系统643,远程存储子系统645例如具有用于处理系统643的指令647,以使得远程端点在操作并与远程呈现装置 600通信时向远程端点641处正观看远程显示墙648上的视频的每个远程参与者提供包括本地参与者611至617在内的本地场景610的视觉存在感。类似地,在远程端点包括如这里描述的处理的情况中,远程相机649在处理器645 上的指令647的指示下结合处理系统643使得远程场景被处理并被发送给远程呈现装置 600,以使得场景610中的任何参与者具有远程参与者出现在本地显示墙603上的视觉印象。通信子系统6 如何操作的细节是公知的。本领域技术人员都明白如何包括进通信子系统629的该通信功能,因此这里不需要提供进一步细节来使得这里描述的实施例能够实现。图7示出了操作视频会议装置(如装置600)的方法的实施例。该方法包括在701 中,在接口处接受来自被同步的(例如,帧同步的)并且瞄准场景610的多个相机的相机信号。相机基本上与显示墙共面地被放置并且被分布为使得相机视图一起可覆盖该场景。通常,在该场景中存在位于离显示墙(并因此离各个相机)不同的通常未知的距离处的多个对象和/或参与者。因此,来自不同相机的相机信号的相机视图包括在不同相机信号中具有不同大小的参与者/对象。该方法还包括在731中,处理相机信号以创建代表场景610 的特定视图的视频信号,场景610的该特定视图是从离显示墙603特定距离605的特定点处看的,就好像显示墙不存在一样。特定点的特定距离605至少是显示墙的宽度,并且通常数米远。相机信号的处理731包括缩放场景的多个部分以创建特定视图的信号,从而使得来自特定相机的相机信号中的、远离该特定相机的参与者和/或对象相对于来自另一相机的相机信号中的、靠近该另一相机的对象被放大。即,合成视图对由于任何对象和/或参与者可能离在空间上分布的视频相机607 ( 一个或多个)不同距离引起的他们的大小差异进行补偿,(一个或多个)这样的不同距离通常是预先未知的。一般地,与来自任何单个相机 607的任何视图相比,合成视图减小了视图610中由于参与者的距离引起的参与者的大小差异。该方法还包括在编解码器624的视频编解码器部分中压缩所创建的视频信号,以形成用于发送给一个或多个远程端点的经压缩视频。该方法的实施例还包括在751经由耦合到网络的通信子系统629,即,经由网络(例如因特网)将经压缩视频发送给一个或多个远程端点。在一个实施例中,所发送的信号不仅包括经压缩视频,而且包括来自耦合到麦克风608的音频处理子系统626的经压缩音频。一个实施例包括进行校准以确定相机的确切物理位置、它们的朝向和变焦,以及由于它们的镜头引起的任何径向畸变。在一个实施例中,创建从特定距离605看到的场景的特定视图就好像显示墙不存在一样包括从多个相机视图创建场景610的集成深度图。在一些实施例中,这是通过直接处理相机视图来实现的。在一些实施例中,创建集成深度图包括通过对相机对的视图组进行操作来创建各个相机之间的视差图并且集成视差图以创建场景610的集成视差图。该方法还包括利用相机场景并且利用集成深度图来合成就好像来自位于显示墙 603后面特定点处的合成相机609的合成视图。该合成包括利用来自相机607中的一个或多个的场景的图像弯曲,来自哪个相机的哪个场景是根据对象和/或人被确定位于集成深度图和相机视图中的位置而被弯曲的。在一个实施例中,与被适当弯曲的多于一个视图的不同部分相对应的信号被组合以确定分别位于不同深度处的对象的图像,并且这些对象的图像被合并以形成用于发送的视频形式的视点处的合成视图。一个装置实施例的框图在图8中示出。基本分量处理在接口 803中,接口 803被配置为接受来自被同步的(例如经过帧同步的)相机607的相机视图。相应相机视图由来自多个相机607中的相应相机的相机信号表示。每个相机瞄准场景610。接口 803通常是接口 622的一部分。被配置来处理相机视图的相机视图处理器系统805经由接口 803被耦合到相机,并且被配置为创建与位于显示墙的相对侧上并且离显示墙很远距离的特定点处的特定视图相对应的信号。该处理器包括被配置为创建场景610的3D深度图的集成深度图创建器811。虽然一些实施例包括对所有相机视图进行操作以通过例如首先使用结构化照明源照明场景610或者通过使用诸如平面扫描之类的方法来直接生成深度图的深度图创建器811,然而深度图创建器模块811的一些实施例还可包括用于通过对相机对的视图组进行操作来创建各个相机之间的视差图的视差创建器模块813以及被配置为创建场景610 的集成深度图的集成器模块815。相机视图处理器系统805还包括被耦合到接口 803并被配置为接受来自接口 803的相机场景的视图合成器817,并且视图合成器817被配置为根据来自集成器815的集成深度图以特定方式来组合来自相机607的相机视图,包括弯曲特定相机视图以创建离显示墙很远的特定深度处的对象的图像,并且包括合并对象图像以创建一视点处的合成视图。该装置还包括视频形成模块,被配置为从不同的连续帧时间处的合成视图来创建视频,所形成的视频用于发送给一个或多个远程端点。在一个实施例中,模块813、815和817包含(一个或多个)视频处理器623并且包括存储子系统中的对应部分,存储子系统中的这些对应部分包括627中的代码的对应部分(当被运行时使得模块813、815和819的功能被执行)。在替代实施例中,模块813、815 和817包括被配置来执行这里描述的功能的专用硬件。注意,本领域技术人员明白可以如何将程序用来设计这样的专用硬件中的适当的一组逻辑门(例如甚至通过编译软件语言自动地进行设计),以实现随后可被制造成硬件的硬件设计。该装置还包括编解码器模块807,其被耦合到处理器系统805并被配置为对来自处理器系统805的所生成视频进行压缩以发送给一个或多个远程端点。下面将更详细地描述图7的方法中的元素以及图6A-6D和/或图8的装置中的元件。基于图像的渲染(Rendering)如在任何发明中那样,本发明的实施例中的各个元件本身是已知的,但是所示出的创造性组合不是已知的。这里描述的实施例是通过使用已知技术的元件来实现的。因此, 为了简洁起见,实现本发明实施例的各个元件的细节中的一些在这里仅通过如下方式来描述参考用于这些元件的技术并且提供对公共信息的参考以使得本领域技术人员也可以实现该创造性组合。因此对实施例的描述是根据专利法的要求进行的,从而不会使所撰写的说明书过度冗长。相机校准一个实施例包括用于进行确定的校准,例如,确定相机607的相机参数,在一个实施例中包括确定如下中的一个或多个相机的确切物理位置、它们的朝向和变焦以及由于它们的镜头引起的任何径向畸变。装置600包括一个或多个校准目标618。视图处理器805包括用于确定相机参数的校准模块。在具有固定的一组相机607的房间的情况中,校准仅被执行一次。在一个实施例中,场景610包括位于预定义位置处的,例如,沿着场景610的房间的背墙的校准目标 618。每个校准目标619是预定义的,例如,具有诸如(一个或多个)形状和大小之类的预定义特性,并且在固定的位置处。在替代方法中,目标在校准过程的一部分中在场景中移动。虽然已知了许多校准方法,然而一个实施例使用在aiang,Z.的A flexible new technique for camera calibration. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 11,pp. 1330-1334,2000 中描述的方法。立体视差例如如通过模块813实现的方法的一个实施例包括创建视差,例如,来自所选相机对607的视图之间的视差图。这些对被选择为相距较近,例如相邻。视差图创建包括利用搜索方法来比较来自两个相距较近的相机的视图。在一个实施例中,该搜索受已知几何学限制。得到的任何相机对的视差图表示场景610中的对象和/或参与者的深度。已知了用于确定视差图的许多方法。创建视差图时出现的一个问题是遮挡线(occlusion)。包括确定遮挡线的模块813的一个实施例使用在A. Criminisi, J.Shotton, A. Blake, P.H. S.Torr, “ Gaze Manipulation for One-to-oneTeleconferencing, “ Proceedings, Ninth IEEE International Conference on Computer Vision(ICCV' 03)中描述的、包括动态编程技术的方法。该方法使用用于促进正确遮挡线标注的密集-立体动态编程的三平面图,以及用于动态编程的通过最小代价 (minimum-cost)表面的直接投影的视图合成。此外,该方法包括维持时变的背景模型以增强遮挡线的渲染并减少如闪烁之类的时间失真(temporal artifact) 0 一个版本还包括在三维匹配代价空间上被操作的代价聚集。一个实施例使用在 A. Criminisi, J. Shotton, A. Blake, C. Rother, P. H. S. Torr, Efficient Dense Stereo with Occlusions for New View-Synthesis by Four-State Dynamic Programming, International Journal of Computer Vision archive, Volume 71,Issue 1,Pages =89-110, (January 2007) (2007 年 1 月)中描述的方法,并且包括用于通过在计算上高效的方式来从深度信息中分离遮挡线的动态编程技术。关于适于利用单个相机或利用一对立体相机确定视差图的动态编程方法的更多细节也可参见下面的美国专利申请公报题为PLAYBACK OF DIGITAL IMAGES的US 20080317386 ;题为 IMAGE SEGMENTATION 的 US 20060285747 ;题为 STEREO-BASED IMAGE PROCESSING 的 US 20060193509 ;题为 SYSTEM AND PROCESS FOR VIEWING AND NAVIGATING THROUGH AN INTERACTIVE VIDEO TOUR 的 US 20050283730 ;题为 VIRTUAL IMAGE GENERATION 的 US 20050232510 ;题为 VIRTUAL IMAGE ARTIFACT DETECTION 的 US 20050232509 ;题为 VIRTUAL CAMERA TRANSLATION 的 US 20050078866 ;以及题为 GAZE MANIPULATION 的 US 20050078865。这些美国专利申请的每个的内容通过引用被结合于此。更具体地,模块813的方法包括相机607中相距较近的同步相机对(例如,相机 607中的相邻相机)计算来自该对中的一个相机的图像的扫描线与该对的第二图像的对应扫描线之间的立体视差模型中的最小代价路径。立体视差模型在位于基本上与连接该对相机的轴平行的表面上的相匹配像素和每条扫描线中的被遮挡像素之间进行区分。在一个版本中,计算操作包括计算每个扫描线对中的每个像素的匹配代价。这可以使用加窗匹配代价函数。在一个版本中,该方法包括基于至少一个像素对是否被确定为与基本上平行于连接该对相机的轴或遮挡线来更改用于该像素对的匹配代价。在视差计算方法的一个实施例中,计算操作包括确定立体视差模型中的最小代价路径,并且将这样的代价损失(cost penalty)应用于从被遮挡像素对到相匹配像素对的移动。从被遮挡像素对的移动是到另一被遮挡像素对。第一代价损失被应用于从被遮挡像素对到该另一被遮挡像素对的移动,并且将第二代价损失应用于从相匹配像素对到被遮挡像素对的移动。这两个代价损失最好不同。例如,第一代价损失比第二代价损失。813的实施例中的视差图确定方法还包括基于来自相机对的每个图像的扫描线的相对应像素来计算仿佛来自单个虚拟相机扫描线的虚拟图像。相对应像素的视差由立体视差模型中的最小代价路径来表征。在一个版本中,相匹配的相对应像素作为虚拟像素被投影到仿佛来自单个虚拟相机扫描线的虚拟图像上。在一个版本中,相对应像素被平均,以确定仿佛来自单个虚拟相机扫描线的虚拟图像上的所得到虚拟像素的值。在一特定实现方式中,被遮挡的相对应像素对中的未被遮挡像素根据立体视差模型中的背景视差而作为虚拟像素被投影到仿佛来自单个虚拟相机扫描线的虚拟图像上。被遮挡的相对应像素对中的未被遮挡像素的值被选择作为仿佛来自单个虚拟相机扫描线的虚拟图像上的所得到虚拟像素的值。一个实施例还包括通过将每个像素分类为属于对象图像(例如,属于参与者的像素)或属于背景,来将深度图中来自相机607的相机图像分割成对象。该方法包括对深度图确定的修改,包括对于用于相机607中的一对同步相机的所接受的每对帧,至少部分地基于立体视差、立体匹配和每帧中的多个像素的至少一部分的颜色来定义能量函数,并且将如下方法用于该能量函数该方法利用极值(最小或最大)寻找方法来为至少一部分像素中的每个像素确定分割状态变量值。每个分割变量例如指示该分割,并且可以是前景像素指示符和背景像素指示符。一种分割方法如在题为STEREO IMAGE SEGMENTATION的美国专利申请公报No. US 20070031037中所描述的,该申请的内容通过引用被结合于此。813中的视差图确定的又一实施例包括使用在C. Lawrence Zitnick, Sing Bing Kang, Matthew Uyttendaele, Simon Winder Richard Szeliski :High_quality video view interpolation using a layered representation, International Conference on Computer Graphics and Interactive Techniques, ACMSIGGRAPH 2004 Papers 中,还在ACM Transactions on Graphics(TOG), Volume 23, Issue 3, Pages :600-608, (August 2004) (2004年8月)中描述的方法。副本可以在(于2009年2月23日检索)http://research dot microsoft dot com/users/larryz/ZitnickSiR04 dot pdf 中获得,在此 URL中,以及在本文档的所有其它URL中,“ dot ”是指实际URL中的点“.”。该方法包括用于在视觉上将场景分割成类似颜色的小区域并且然后估计这些分区的深度的流水线。 其结果通常比基于像素计算视差的许多方法更平滑。用于通过补丁被传递的模块813的方法的更多细节参见下面的美国专利申请公报题为SYSTEM AND PROCESS FOR GENERATING A TWO-LAYER, 3D REPRESENTATION OF A SCENE 的 US 20060114253 ;题为 COMPRESSING AND DECOMPRESSING MULTIPLE, LAYERED, VIDEO STREAMS EMPLOYING MULTIDIRECTIONAL SPATIAL ENCODING 的 US 20060031917 ;题为 SYSTEM AND PROCESS FOR COMPRESSING AND DECOMPRESSING MULTIPLE,LAYERED,VIDEO STREAMS OF A SCENE CAPTURED FROM DIFFERENT VIEWPOINTS FORMING A GRID USING SPATIAL AND TEMPORAL ENCODING 的 US 20060031915 ; 题为 SYSTEM AND PROCESS FOR COMPRESSING AND DECOMPRESSING MULTIPLE, LAYERED, VIDEO STREAMS EMPLOYING SPATIAL AND TEMPORAL ENCODING 的 US 20060029134 ;题为 REAL-TIME RENDERING SYSTEM AND PROCESS FOR INTERACTIVE VIEWPOINT VIDEO THAT WAS GENERATED USING OVERLAPPING IMAGES OF A SCENE CAPTURED FROM VIEWPOINTS FORMING A GRID 的 US 20060028489 ;题为 REAL-TIME RENDERING SYSTEM AND PROCESS FOR INTERACTIVE VIEWPOINT VIDEO 的 US 20060028473 ;题为 INTERACTIVE VIEWPOINT VIDEO SYSTEM AND PROCESS EMPLOYING OVERLAPPING IMAGES OF A SCENE CAPTURED FROM VIEWPOINTS FORMING A GRID 的 US 20050286759 ;题为 COLOR SEGMENTATION-BASED STEREO 3D RECONSTRUCTION SYSTEM AND PROCESS EMPLOYING OVERLAPPING IMAGES OF A SCENE CAPTURED FROM VIEWPOINTS FORMING EITHER A LINE OR A GRID 的 US 20050286758 ;题为 COLOR SEGMENTATION-BASED STEREO 3D RECONSTRUCT 10NSYSTEM AND PROCESS 的 US 20050286757 ;题为 INTERACTIVE VIEWPOINT VIDEO SYSTEM AND PROCESS 的 US 20050285875 ;以及题为 SYSTEM AND PROCESS FOR GENERATING A TWO-LAYER, 3DREPRESENTATI0N OF A SCENE的US 20050285874。这些公布的美国专利申请的每个的内容通过引用被结合于此。本发明不限于通过上述方法来实现视差图确定。在813的替代实施例中,深度信息通过其它处理来得出,例如使用结构化照明源的那些处理。本领域技术人员将知道用于这里的元件813和(一个或多个)方法步骤的许多替代方法。通过估计前景元素的每个像素的不透明度来从背景图像提取前景元素是根据在可从(于2009年2月23日检索的)http://research dot microsoft dot com/vision/visionbasedmodelinR/publication s/ChuanR-CVPRO1 dot pdf 获得的 Yung-Yu Chuang, Brian Curless, David H. Salesin, and Richard Szeliski. A Bayesian Approach to Digital Matting,in Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR 2001) ,Vol. II, 264-271,December 2001 (2001 年 12 月)中描述的方法确定的。深度图集成在模块815中,由模块813产生的多个深度图被组合以形成场景的统一三维(3D) 模型(统一深度图)。个体的深度图具有盲点并且还可能在场景的平坦无特征区域中具有错误。模块815的集成处理充当针对视差图像中的各个人工技术(art)的滤波器,并且可以使用模型来将表面约束到场景610中似真(plausible)对象。注意,在本发明的实施例中,集成深度图通常不是完整3D模型,因为该图仅包含来自房间的一侧的数据。已知了用于集成视差图的许多方法,并且替代实施例使用这样的不同方法。这样的方法在 Steve Seitz, Brian Curless, James Diebel, Daniel Scharstein, and Richard Szeliski :A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms, CVPR 2006,vol. 1,pages 519-5 中进行了总结和比较。副本可从(于 2009 年 2 月 23 日检索的)http://vision dot middlebury dot edu/ 获得。Seitz 等人的论文包括了对所总结和比较的方法的引用,因此足以使本说明书中的替代实施例能实现。用于集成模块方法的一个实施例如在Zach,C ;Pock, Τ. ;Bischof,H.,A Globally Optimal Algorithm for Robust TV-Ll Range Image Integration,Proceeding IEEE Ilth International Conference on Computer Vision(ICCV2007),4-21 Oct. 2007(2007 ^Ξ io 月)中所描述的。副本可从(于2009年2月23 B检索的)http //www dot icg dot tu-graz dot ac dot at/pub/pdf/iccv07 paper dot pdf 获得。该方法包括对从2D距离图确定的3D距离场进行平均,称为2. 5D数据。该结果与确定使根本能量函数最小化的(离散)表面相同。简单的平均而不进行进一步正则化会产生由于平均距离场的频繁符号改变引起的不一致表面。因此,一个实施例包括使用被设计来支持平滑几何的附加正则化力。例如,一种方法包括与图截割(graph-cut)算法和变分技术一起来在代价函数中增加一个或多个项,以使得到的3D模型的表面区域受损失。替代地,一种方法包括从(定向的)点样本直接确定对应特性函数,其中,仅仅隐含地迫使所获得表面平滑。集成器模块的一个实施例包括从所设置深度图来构建高质量3D模型。已知该集成过程对于深度图中出现的显而易见的离群值来说是健壮的。这对例如位于深度不连续点或遮挡线处的孤立离群值进行处理,并且还包括大的但错误匹配的背景区域。已发现得到的3D网是平滑的。
该集成方法包括使能量函数最小化,该能量函数将总变化正则化项与L1数据保真度项相结合。已知总变化最小化会产生最少表面,并且包括使得到的三维模型正则化。该方法使用L1常模来测量数据保真度。因此,已知使用常模对于离群值来说是健壮的,同时仍然是凸的。用于将总变化能量的双重公式与点宽最优化方案相组合的全局收敛数值方法被使用。得到的方法在计算上是高效的。GPU的使用在(一个或多个)处理器623的一个实施例中,一个或多个GPU被使用。在本发明的一个实施例中,GPU被用在(一个或多个)处理器623中来加速模块813中深度图的计算。这与用于积分器815的方法(上述hch等人的论文中的方法)一起起到良好的作用。这样的GPU深度图方法在下面的公报中被描述C. Zach,Μ. Sormann, and K. Karner. High-performance multi-view reconstruction. In International Symposium on 3D Data Processing,Visualization and Transmission(3DPVT),2006. G. Vogiatzis,P. Torr, and R. Cipolla. Multi-view stereo via volumetric graph-cuts, in Proceedings, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 391-398,2005.R.Yang and M.Pollefeys. Multi-resolution real-time stereo on commodity graphics hardware. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 211-217,2003.N. Cornells and L.Van Gool. Real-time connectivity constrained depth map computation using programmable graphics hardware, in Proceedings, IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pages 1099_1104,2005。不同实施例使用这样的基于GPU的方法。集成器模块815的一个替代实施例使用在Merrell,P. Akbarzadeh, A. Liang Wang Mordohai, P. Frahm, J. -Μ. Ruigang Yang Nister, D.Pollefeys, M.Real-Time Visibility-Based Fusion of Depth Maps, Proceedings, International Conference on Computer Vision, 2007. ICCV 2007. 14-21 Oct. 2007 (2007年 10 月):Rio de Janeiro 中描述的集成方法。副本可从(于2009年2月23日检索的)www dot cs dot unc dot edu/ mordohai/pub 1 ic/Merre 11 DepthMapFusion07 dot pdf 获得。替代集成器模块815在使用一个或多个GPU的(一个或多个)处理器623的实施例中来实现。被遮挡表面预测本发明的一个实施例包括利用遮挡线预测的时间遮挡线填充。在给定时刻,例如, 对于来自相机607的特定的一组帧,前景对象(例如,人)可能已(刚刚)移动到特定相机前面,并且因此阻挡了远离该相机的不同对象(例如,人)针对该相机的视图。然而,通常希望在合成的视图中被遮挡对象是可见的。在许多已知方法中,至少需要对象的两个视图来确定该深度图的深度。本发明的一个实施例包括存储相机视图的最近过去的帧,以估计当前被遮挡对象的深度和外观。在一个版本中,为了使存储要求保持适度,过去的存储具有边界,例如,在深度图确定中所确定的对象的边界框。具有孔洞的当前深度图和/或具有孔洞的表面视图利用过去的信息来被填充。视点(Viewpoint)将来自不同相机位置的多个图像的组合渲染为一视点是已知的。在该已知的渲染方法中,对视点位于何处的确定通常被延缓直到渲染时间为止。此外,该点通常被限制为相机的平面中的点。例如,已知凝视校正方法会将视点改变到一对相机的左边相机与右边相机之间的中点。本发明的实施例使用不在相机的平面上,而在相机607所位于的显示墙平面603 后面、离显示墙平面603很远距离处的特定点609。使相机很远是指相机位于被选择为离显示墙并且因此离场景610足够远的距离处,以使得正看着远程显示墙的远程参与者仿佛也在本地看着相机。该视点的效果在于正看着墙的人也正看着相机,并且透视缩短量被减少, 以使得场景中的参与者的相对大小在所生成特定视图中显得与他们的实际相对大小相同。 即是说,参与者出现在所生成特定视图中就好像他们都位于离显示墙相等距离处一样。艮口, 相似大小的对象和/或参与者表现出相同大小。在显示墙具有墙大小的一个实施例中,图像被缩放以使得所渲染图像中的每个人以实物大小被渲染。在一个实施例中,视点是正交透视,也称为平行透视,其中大小不随着离显示墙越来越远而减小,这样的方向在这里被称为Z方向。这允许视频墙被扩展为任意长度,同时有效相机视图总是垂直于墙拍摄。图9示出了当视点充分远以使得存在近似正交透视时位于相机607前面的参与者的合成图像的简单略图。在该情形中没有对深度进行缩放。渲染在一个实施例中,场景渲染器817包括经组合的ζ缓冲器实现方式。本实施例中的场景渲染器817被配置为利用ζ缓冲器通过以ζ缓冲器顺序从离显示墙603(因此离相机 607)最近的地方起向远处移动(即,从背后到前面)来填充图像的帧,从而渲染该图像。对于三维深度图中的每个ζ位置,即,对于每个平面,对于三维深度图中的图像的每个分区, 来自离对象最近的(例如,离显示墙平面603与从相机到分区上的点的连线的交点最近的) 相机的相机视图的像素,除非这样的相机视图具有该对象的被遮挡视频。在来自最近相机的该分区的视图被遮挡的情况中,则选择来自更远相机的像素。在一个实施例中,来自所选相机的像素根据来自深度图的本地3D维度而被弯曲为位于新的视图角度。一种实现方式对于集成深度图中所确定的任何对象/参与者的每个平面,对于每条射线,按照每个相机离与相机平面(并且因此显示墙603的平面)交叉的该射线的接近度来确定哪个或哪些相机视图要用来确定渲染。一个实施例使用平面扫描方法,该方法包括检查多个相机视图并且判断这些相机视图一致还是不一致。如果特定平面的所有相机视图一致,则这些视图被标记为正确的,并且最近相机中的一个或多个被使用。否则,如果不一致,则这些相机视图进一步被处理以除去至少一个视图。平面扫描的一些实施例可以包括通过检查所有相机视图来确定深度图,因此也包括了模块811的功能。平面扫描的一个实施例包括将视图610的3D空间离散化为与显示墙平面平行的多个平面。该方法以增大ζ的顺序,即从离显示墙最近的平面开始逐步通过这些平面。对于每个平面,相机视图被投影到该平面上去。现在对于所选平面中的每个像素,在投影到该平面上的相机图像中存在对应(X,y)像素。对于所选平面中的每个像素位置(x,y),计算出像素值(颜色)的均值和方差。因此,针对每个平面中的每个像素来计算方差。在一个实施例中,(χ,y)的最终颜色被选择作为具有最小方差的颜色。在替代实施例中,(X,y)的最终颜色被选择作为在所有相机视图中最一致的颜色。在一个实施例中使用的一种改进方法是如在Gallup,D. Frahm, J. -Μ. Mordohai, P.Qingxiong Yang Pollefeys, Μ. :Real_Time Plane-Sweeping Stereo with Multiple Sweeping Directions,Proceedings, IEEE Conference on Computer Vision and Pattern Recognition, 2007. CVPR' 07,· 17-22 June 2007 (2007 年 6 月),Minneapolis, MN(也可从(于2009年2月23日检索的)www dot cs dot unc dot edu/ marc/ pubs/Gal 1upCVPR07 dot Ddf获得)中所描述的。该平面扫描方法被用在一个或多个 GPU被包括在(一个或多个)视频处理器623中的实施例中。用于视图合成器817的一个增强实施例是在上述C. Lawrence Zitnick,Sing Bing Kang, Matthew Uyttendaele, Simon Winder Richard Szeliski :High_quality video view interpolation using a layered representation, International Conference on Computer Graphics and Interactive Techniques, also in ACM Transactions on Graphics (TOG), Volume 23,Issue 3,Pages :600-608, (August 2004) (2004 年 8 月)中描述的方法。还可从(于2009年2月23 H检索的)http //research dot microsoft dot com/users/larryz/ZitnickSigQ4 dot pdf获得。对象的边缘对于自然外观是至关重要的。稍微散焦的对象的边缘处的像素包含有从该对象和背景混合的颜色。这被用来确定用于分割的边缘。该方法有效地分离开图像和散焦图像,并且利用用于透明度的阿尔法通道进行组合,以使得在渲染期间对象的边缘将具有一定透明度。该软边缘抠像处理增加了自然度并且减少了失真。渲染的一个实施例使用在Gallup, D. Frahm, J. _M. Mordohai, P. Qingxiong Yang Pollefeys, Μ. :Real_Time Plane-Sweeping Stereo with Multiple Sweeping Directions, Proceedings, IEEE Conference on Computer Vision and Pattern Recognition, 2007. CVPR' 07,_17_22 June 2007 (2007 年 6 月),Minneapolis, MN(也可从(于2009年2月23日检索的)www dot cs dot unc dot edu/ marc/ pubs/GallupCVPR07 dot pdf获得)中描述的平面扫描方法。该平面扫描方法被用在一个或多个GPU被包括在(一个或多个)视频处理器623中的实施例中。由此,已描述了一些方法实施例和一些装置实施例。还描述了有形计算机可读存储介质的实施例,其包含有当被一个或多个处理器运行时实现这里描述的功能的代码。这样的介质包括具有当被运行时使得能够实现模块813的功能的有形计算机可读存储介质。 此外,这样的介质包括具有当被运行时使得能够实现模块815的功能的有形计算机可读存储介质。此外,这样的介质包括具有当被运行时使得能够实现模块819的功能的有形计算机可读存储介质。虽然已描述了可用在图8的装置的每个模块中并用于方法的每个步骤的方法,然而这些模块的替代实施例使用替代实现方式和技术,并且本发明的不同实施例包括用于其每个模块和部分的这样的替代方法。用于虚拟视图生成、视图合成、基于图像的渲染、渐变的图像处理领域很大,并且用于当被组合时形成了这里描述的新颖组合的一个或多个元素的许多合适方法是已知的。例如参见可在(于2009年2月23日检索的)www dot visionbib dot com/bibliographv/describe493 dot html 禾口http //www dot visionbib dot com/bibliography/describe490 dot html中获得的关于虚拟视图生成、视图合成、基于图像的渲染、渐变的参考文献。亦可参见 Heung-Yeung Shum 禾口 Sing Bing Kang :A Review of Image Based Rendering Techniques, IEEE/SPIE Visual Communications and Image Processing, pp 2-13,2000,也可在(于 2009年 2 月 23 H 检索的)http //research dot microsoft dot com/pubs/68826/review image rendering dot pdf 获得。亦可参见 Richard Szeliski,Image Alignment 禾口 Stitching :A Tutorial, Foundations and Trends in Computer Graphics and Computer Vision, Vol. 2, Nol, pp. 1-104,December 2006(2006 年 12 月),也可在(于 2009 年 2 月 M 日检索的)http:// research dot microsoft dot com/pubs/75695/Szeliski-FnT06 dot pdf 获得。亦可参见 Aseem Agarwala, Maneesh Agrawala, Michael Cohen, David Salesin, Richard Szeliski :Photographing Long Scenes with Multi-Viewpoint Panoramas, ACM Transactions on Graphics,Vol. 25,No. 3,Pp. 853—861,Aug. 2006 O006 年 8 月)。也可在 (于 2009 年 2 月 23 曰检索的)http://research dot microsoft dot com/en-us/ um/people/cohen/lonRthinRS dot pdf 获得。于 2009 年 2 月 23 日在 http //research dot microsoft dot com/ pubs/75582/Kang-I.TCV04 dot pdf 中检索到的 Sing Bing Kang, Richard Szeliski, Extracting View-Dependent Depth Maps from a Collection of Images,International Journal of Computer Vision,Vol. 139-163,No. 2,pp. 139-163,July 2004Q004 年 7 月)。亦可参见于 2009 年 2 月 23 B ^t http //www dot cs. emu dot edu/ virtualized-reality/papers/Rander98/ri-tr-98-12 dot pdf 中检索至丨J 的 Peter Rander :A Multi-Camera Method for 3D Digitization of Dynamic,Real—World Events, PhD Dissertation,The Robotics Institute,Carnegie Mellon University,Pittsburgh, PA 15213-3890 USA,1998。亦可参见于2009年2月23日在http://ip dot hhi dot de/ imedia G3/assets/pdfs/icipQ3 SCAB dot pdf 中检索至丨J 的 E. Cooke, I. Feldmann, P. Kauff, 0.Schreer, “ A Modular Approach to Virtual View Creation for a Scalable Immersive Teleconferencing Configuration" , Proc. of Int. Conf. on Image Processing(ICIP 2003),pp. 41-44, Barcelona, Spain,September 2003(2003 年 9 月)。除非以其他方式具体说明,否则如从下面的讨论可清楚的,将理解,在本说明书中,利用诸如“处理”、“运算”、“计算”、“确定”等之类的术语的讨论是指计算机或计算系统或类似电子计算设备的动作和/或处理,它们将被表示为诸如电量之类的物理量的数据操纵和/或变换为类似地被表示为物理量的其它数据。以类似方法,术语“处理器”可以指用于处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可被存储在寄存器和/或存储器中的电子数据的任何设备或设备的任何部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。注意,当描述包括数个要素,例如数个步骤的方法时,除非特别指明,否则不暗示这样的要素(例如,步骤)的顺序。
在一个实施例中,这里描述的方法可由一个或多个处理器执行,其接受在一些实施例中被编码在一个或多个计算机可读有形介质上的计算机可读(也称为机器可读)逻辑,在计算机可读有形介质中编码有指令集,当该指令集被处理器中的一个或多个运行时执行这里描述的方法中的至少一个,而在其它实施例中,这里描述的方法被编码为具有或没有(一个或多个)可编程元件的硬件元件。在指令的情况中,能够执行用于指定将要采取的动作的指令集(顺序的或以其它方式)的任何处理器被包括。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元(GPU)和可编程DSP单元中的一个或多个。处理系统还可以包括存储器子系统,包括主RAM和/或静态 RAM和/或ROM。总线子系统可被包括用于在组件之间进行通信。处理系统还可以是分布式处理系统,其中处理器通过网络被耦合起来。如果需要手动数据输入,则处理系统还包括输入设备,例如,诸如键盘之类的字母数字输入单元、诸如鼠标之类的点选可正式版等等中的一个或多个。如这里使用的术语存储器单元,如果可从上下文清楚并且除非以其它方式明确指定,否则还包括诸如盘驱动单元之类的存储系统。在一些配置中处理系统可以包括声音输出设备和网络接口设备。存储器子系统因此包括承载逻辑(例如,软件)的计算机可读介质,该逻辑包括指令集以使得当指令集被一个或多个处理器运行时使得执行这里描述的方法中的一个或多个。软件可以驻留在硬盘中,或者在由计算机系统运行时,也可以完全地或至少部分地驻留在RAM和/或处理器内。因此,存储器和处理器还构成其上编码有例如指令形式的逻辑的计算机可读介质。此外,计算机可读介质可以形成或者被包括在计算机程序产品中,计算机程序产品是通过在制造期间被配置来包括进代码并且在一些版本中还包括与之一起的一个或多个处理元件的制造物品。在替代实施例中,一个或多个处理器作为独立的设备操作或者可被连接,例如,联网到其他(一个或多个)处理器,在联网部署中,一个或多个处理器可以在服务器-客户端网络环境中以服务器或客户端机器的能力来操作,或者作为端对端或分布式网络环境中的对等机器来操作。一个或多个处理器可以形成机顶盒(STB)、用于远程会议终端的终端接口、网络装备,或者位于网络路由器、交换机或桥接器或者能够运行指令集(顺序的或以其它方式)的任何机器中。注意,尽管某个或一些示图仅示出了单个处理器以及承载包括指令的逻辑的单个存储器,然而本领域技术人员将明白,上述组件中的许多组件也被包括,但是未明确示出或描述以不模糊创造性方面。例如,尽管仅单个机器被图示出,然而术语“机器”还被认为包括单独地或联合地运行一个(或多个)指令集以执行这里讨论的任一个或多个方法中的机器的任何集合。因此,这里描述的每个方法的一个实施例是其中编码有一个指令集(例如,计算机程序)的计算机可读存储介质的形式,该指令集用于在一个或多个处理器上运行,例如, 在作为远程会议端点一部分的一个或多个处理器上运行。因此,如本领域技术人员将理解的,本发明的实施例可被实施为方法、诸如专用装置之类的装置、诸如数据处理系统之类的装置,或者有形计算机可读存储介质,例如计算机程序产品。计算机可读介质存储例如指令集形式或者逻辑电路形式的逻辑,当指令集在一个或多个处理器上运行时使得一个或多个处理器实现这里描述的元素。因此,本发明的替代实施例可以采取方法的形式、全为硬件的实施例、全为软件的实施例或者组合了软件和硬件方面的实施例的形式。此外,本发明的一些实施例可以采取有形计算机可读存储介质的形式,在该介质中包含有计算机可读程序代码。尽管在示例实施例中介质被示为单个介质,然而术语“存储介质”应当被认为包括存储一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。存储介质可以采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质例如包括光盘、磁盘和磁光盘。易失性介质包括动态存储器,如主存。例如,术语“存储介质”因此将被认为包括但不限于有形计算机可读存储介质,例如固态存储器或者被编码在形成制造物品的计算机可读光介质或磁介质上计算机软件产品。将明白,这里讨论的方法的步骤在一个实施例中由用于运行存储在存储装置中的指令的处理(即,计算机)系统的适当处理器(或多个处理器)来执行。还将明白,本发明的实施例不限于任何特定的实施方式或编程技术并且本发明可以利用用于实现这里描述的功能的任何适当技术来实现。此外,实施例不限于任何特定的编程语言或操作系统。在本说明书中对“一个实施例”或“实施例”的引用是指结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此,在本说明书各个地方出现的短语“在一个实施例中”或“在实施例中”不一定都指同一实施例,但是可以指同一实施例。 此外,如本领域技术人员将从本公开清楚的,在一个或多个实施例中,特定特征、结构或特性可以以任何合适的方式被组合。类似地,应当理解,在本发明的示例实施例的上面的描述中,为了精简本公开并辅助理解各个创造性方面中的一个或多个方面,本发明的各个特征在单个实施例、附图或其组合中有时被成组在一起。然而,这种公开方法不被解释为反映了这样的发明所要求保护的发明需要比在每个权利要求中明确记载的特征更多的特征。而是,如下面的权利要求所反映的,创造性方面在于比前面公开的单个实施例的所有特征更少。因此,具体实施方式
后面的权利要求在此明确地被包括进本具体实施方式
中,其中每个权利要求作为本发明的单独实施例依靠其自身。此外,虽然这里描述的一些实施例包括一些特征而不包括其它实施例中所包括的其它特征,然而本领域技术人员将明白的,意图使不同实施例的特征的组合落在本发明的范围内,并且形成不同实施例。例如,在下面的权利要求中,要求保护的实施例中的任何实施例可被用在任何组合中。此外,实施例中的一些在这里被描述为可由计算机系统的处理器或者由执行功能的其它装置实现的方法或者方法的要素的组合。因此,具有用于实现这样的方法或方法的要素的必要指令的处理器形成了用于实现该方法或方法的要素的装置。此外,这里描述的装置实施例的元件是用于执行由该元件执行的功能以便实现本发明的装置的示例。在这里提供的描述中,阐述了多个具体细节。然而,将明白,本发明的实施例可以在不用这些具体细节的情况下来实施。在其它实例中,公知的方法、结构和技术未被详细示出,以不模糊对此描述的理解。如这里使用的,除非以其它方式指定,用于描述共同对象的序数形容词“第一”、 “第二”、“第三”等仅仅指示相似对象的不同实例被提及,并且不旨在隐含如此描述的对象必须具有时间地、空间地、排名中的或者任何其它方式的给定顺序。
这里引用的所有专利和美国专利申请通过引用被结合于此。在本说明书中对现有技术的任何讨论绝不应当被认为是对这样的现有技术是广泛知道的、公知的或形成了本领域一般知识的一部分的承认。在下面的权利要求和这里的描述中,术语包含、由...组成或者其包含中的任一种是开放式术语,其意味着至少包括跟随着的要素/特征,但不排除其它的。因此,当术语包含被用在权利要求中时,不应被解释为局限于此后列出的装置或元件或步骤。例如,表述 “包含A和B的设备”的范围不应被限制为仅由元件A和B构成的设备。如这里使用的术语包括或其包括或它包括中的任一种也是开放式术语,其也意味着至少包括跟随着该术语的要素/特征,但不排除其它的。因此,包括与包含同义并且意思是包含。类似地,将注意,术语相耦合当被用在权利要求中时,不应被解释为局限于仅直接连接。术语“相耦合”和“相连接”与其派生词一起可以被使用。应当明白,这些术语不打算被当做彼此同义的。因此,表述“设备A耦合到设备B”的范围不应被限制为设备A的输出直接连接到设备B的输入的设备或系统。其意味着存在A的输出与B的输入之间的路径, 该路径可以是包括其它设备或装置的路径。“相耦合”可以指两个或更多个元件是直接物理接触或电气接触,或者两个或更多个元件不是彼此直接接触但仍然共同操作或彼此交互。因此,尽管已描述了被认为是本发明的优选实施例的内容,然而本领域技术人员将认识到,可以在不脱离本发明的精神的情况下对其作出其它的和进一步的修改,并且当落入本发明的范围之内时打算要求保护所有这样的改变和修改。例如,上面给出的任何公式仅仅是可被使用的过程的表示。可从框图中删除或添加功能,并且可以在功能块间互换操作。对于在本发明的范围内描述的方法,可以添加或删除步骤。
2权利要求
1.一种远程呈现装置,包括显不墙;多个同步视频相机,所述多个同步视频相机基本上与所述显示墙共面并且提供一起覆盖一场景的各自的相机视图;接口,所述接口接受所述相机视图;相机视图处理器系统,所述相机视图处理器系统从位于所述显示墙的与所述场景相对一侧上的并且离所述显示墙很远距离处的特定点来生成合成特定视图,所述相机视图处理器系统包括深度图创建器模块,该深度图创建器模块创建集成深度图;视图合成器模块,该视图合成器模块根据所述集成深度图来组合所述相机视图,包括弯曲所述特定相机视图以形成一视点处的所述合成特定视图,包括根据对象或参与者离所述显示墙的各自距离来缩放对象或参与者的大小以维持对象大小的关系和比例;以及视频形成模块,该视频形成模块形成用于发送给一个或多个远程端点的视频。
2.如权利要求1所述的远程呈现装置,其中,用于所述合成特定视图的很远距离距离所述显示墙充分远以使得近似存在正交透视,从而使得所述场景的参与者的相对大小在所生成特定视图中显得与他们的实际相对大小相同。
3.如权利要求1所述的远程呈现装置,还包括编解码器模块,被配置为压缩所形成的视频以用于发送。
4.如权利要求3所述的远程呈现装置,其中,所述编解码器被耦合到与远程端点相耦合的网络,以使得所述远程端点能够从所述远程呈现装置的所述编解码器接收所形成并被压缩的视频。
5.如权利要求3所述的远程呈现装置,还包括多个麦克风和音频处理模块,该音频处理模块被耦合来并被配置来接受来自所述麦克风的信号并且生成在时间上与所形成的视频同步的音频,其中,所述编解码器模块包括对所生成音频进行压缩以与所形成视频相组合以用于发送给一个或多个远程端点的一个或多个音频编解码器。
6.如权利要求1所述的远程呈现装置,其中所述相机视图处理器系统包括一个或多个可编程处理器和存储器子系统,并且其中视差创建器模块、集成器模块和视图合成器模块中的每个至少包括有形计算机可读存储介质中的各自部分,该有形计算机可读存储介质中的各自部分被配置有指令,所述指令被一个或多个处理器运行时实现各个模块的各自功能。
7.如权利要求6所述的远程呈现装置,其中,所述一个或多个处理器包括一个或多个图形处理单元。
8.如权利要求1所述的远程呈现装置,还包括一个或多个校准目标,其中所述相机视图处理器包括用于确定相机的相机参数的校准器模块。
9.如权利要求1所述的远程呈现装置,其中所述集成深度图创建器模块包括视差创建器模块,被配置为通过对相机对的视图组进行操作来创建各个相机之间的视差图;以及集成器模块,被配置为创建所述场景的集成深度图。
10.如权利要求9所述的远程呈现装置,其中所述视差创建器模块被配置为利用搜索来比较来自所选择的一对相距较近相机的视图,并且使用动态编程来形成该对相机的视差图,该视差图表示所述场景中的对象和/或参与者在来自相机的相机视图中的深度,所述搜索基于已知几何学而被限制。
11.如权利要求10所述的远程呈现装置,其中,所述视差创建器模块还被配置为确定遮挡线。
12.如权利要求1所述的远程呈现装置,其中,所述合成器模块包括ζ缓冲器,所述ζ缓冲器根据所述集成深度图按照从离所述显示墙的平面最近到远处的顺序被填充。
13.如权利要求1所述的远程呈现装置,其中,所述合成器模块被配置为执行平面扫描,包括对于所述集成深度图中任何所确定对象/参与者的每个平面,对于从特定视点到对象的每条射线,确定哪个或哪些相机视图要用来确定所合成视图的渲染,包括确定遮挡线。
14.如权利要求1所述的远程呈现装置,其中,所述平面扫描包括检查多个相机视图并且确定相机视图间是一致还是不一致。
15.一种操作视频会议装置的方法,包括接受来自瞄准一场景的多个时间同步相机的相机信号;处理所述相机信号以创建视频信号,所述视频信号表示如从离该场景特定距离处的特定点看时的该场景的特定视图;压缩所创建视频信号以形成压缩视频用于发送给一个或多个远程端点;以及将所压缩视频发送给所述一个或多个远程端点;其中所述相机沿着基本上平坦的显示墙并且与所述显示墙基本上共面地被分布,所述显示墙由一个或多个平面屏幕显示墙或者一个或多个投影显示墙组成, 其中所述特定点的所述特定距离至少是所述显示墙的宽度,并且其中处理所述相机信号包括缩放该场景的多个部分以创建所述特定视图的信号,其中来自特定相机的相机信号中的、远离该特定相机的对象相对于来自另一相机的相机信号中的、靠近该另一相机的对象被放大,以使得对于在至少一个相机视图中的两个对象或参与者,这两个对象或参与者由于他们离所述显示墙各自距离的差异引起的大小差异在所述特定视图中比在这两个对象或参与者所在的任何单个相机视图中要小。
16.如权利要求15所述的方法,其中,所述视频会议装置包括被耦合到一组的一个或多个麦克风以及至少一个扬声器的音频处理器,该方法还包括经由所述音频处理器接受并处理来自该组的一个或多个麦克风的音频,以形成与所创建视频同步的音频;压缩经处理的音频以形成经压缩音频,用于与经压缩视频一起被发送; 与所述经压缩视频的发送一起来将所述经压缩音频发送给一个或多个远程端点; 接收来自第一远程端点的经压缩远程音频信号和经同步远程音频信号; 对经压缩的远程视频解压缩以形成解压缩的远程视频信号,并且对经压缩远程音频解压缩以形成解压缩的远程音频信号;将所述解压缩的远程视频信号显示在所述显示墙上;经由所述音频处理器来在所述至少一个扬声器上回放所述解压缩的远程音频。
17.如权利要求15所述的方法,其中处理相机信号包括利用所述相机视图创建该场景的深度图;根据集成深度图从所述相机视图合成所述特定视图,包括弯曲特定相机视图。
18.如权利要求17所述的方法,还包括进行校准以确定相机的相机参数。
19.如权利要求17所述的方法,其中,创建该场景的深度图包括通过对相机对的视图组进行操作来创建各个相机之间的视差图;以及集成所创建视差图以生成该场景的集成深度图。
20.如权利要求19所述的方法,其中创建视差图包括比较来自所选择的一对相距较近相机的视图,包括利用动态编程进行搜索,其中该搜索基于该场景的已知几何学而被限制以形成每对相机的视差图,该视差图表示所述场景中的对象和/或参与者在来自相机的相机视图中的深度。
21.如权利要求19所述的方法,其中,创建视差图包括确定遮挡线。
22.如权利要求17所述的方法,其中,合成所述特定视图使用ζ缓冲器,所述ζ缓冲器根据所述集成深度图按照从离所述显示墙的平面最近到远处的顺序被填充。
23.如权利要求17所述的方法,其中,合成所述特定视图包括平面扫描,包括对于所述集成深度图中任何所确定对象/参与者的每个平面,对于从特定视点到对象的每条射线, 确定哪个或哪些相机视图要用来确定所合成视图的渲染,包括确定遮挡线。
24.如权利要求17所述的方法,其中,所述平面扫描包括检查多个相机视图并且确定相机视图间是一致还是不一致。
25.—种在远程呈现装置中的有形计算机可读存储介质,该有形计算机可读存储介质包括当被所述远程呈现装置中的一个或多个处理器运行时被配置来操作所述远程呈现装置的指令,该存储介质包括存储了当被运行时使得接受来自瞄准一场景的多个时间同步相机的相机信号的代码的一个或多个部分;存储了当被运行时使得处理所述相机信号以创建视频信号的代码的一个或多个部分, 所述视频信号表示如从离该场景特定距离处的特定点看的该场景的特定视图;以及存储了当被运行时使得压缩所创建视频信号以形成压缩视频用于发送给一个或多个远程端点的代码的一个或多个部分,其中所述相机沿着基本上平坦的显示墙并且与所述显示墙基本上共面地被分布,所述显示墙由一个或多个平面屏幕显示墙或者一个或多个投影显示墙组成,其中所述特定点的所述特定距离至少是所述显示墙的宽度,并且其中处理所述相机信号包括缩放该场景的多个部分以创建所述特定视图的信号,其中来自特定相机的相机信号中的、远离该特定相机的对象相对于来自另一相机的相机信号中的、靠近该另一相机的对象被放大,以使得对于在至少一个相机视图中的两个对象或参与者,这两个对象或参与者由于他们离所述显示墙各自距离的差异引起的大小差异在所述特定视图中比在这两个对象或参与者所在的任何单个相机视图中要小。
全文摘要
远程呈现装置、操作远程呈现装置的方法,以及远程呈现装置中的被配置有指令的有形计算机可读存储介质,当指令被运行时使得对远程呈现装置进行操作。该远程呈现装置包括与显示墙共面地被分布并且捕获场景的相机视图的视频相机。相机视图从视频处理器被组合以形成用于发送给一个或多个远程端点的视频信号,该视频信号对应于来自基本上位于墙后面的点处的合成视图,并且就好像墙不在那儿一样。
文档编号H04N7/15GK102362495SQ201080013562
公开日2012年2月22日 申请日期2010年3月23日 优先权日2009年3月25日
发明者J·威廉·穆澈利 申请人:思科技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1