用于在网络环境中提供三维成像的系统和方法

文档序号:7910127阅读:391来源:国知局
专利名称:用于在网络环境中提供三维成像的系统和方法
技术领域
本发明一般涉及通信领域,并且更具体地,涉及在网络环境中提供三维成像。
背景技术
在当今的社会中,视频服务已变得越来越重要。在某些体系架构中,服务提供商可寻求为他们的末端用户提供复杂的视频会议服务。视频会议体系架构可通过网络提供“亲身”的会议体验。视频会议体系架构可利用高级视觉的、音频和协作技术来传递人们之间的实时的、面对面的交互。这些技术可发送与实物一般大小的、高分辨率图像,以及空间离散的音频。被特别设计的高分辨率相机可通过高级眼神交流(eye contact)来提供质量好、 高分辨率的图像。音频辅助完整自然的转换,而不会有可感知到的延迟。随着系统已转移到三维呈现,在视频会议情景中出现了某些问题。三维技术给开发人员和网络运营商呈现了重大的挑战,该开发人员和网络运营商试图提供真实的视频会议解决方案,同时考虑带宽参数。因此,在网络中合适地管理三维视频会议的能力向网络设计人员、组件制造商、服务提供商和系统管理员等提供了重大的挑战。


为了提供对示例实施例和其特征和优点的更加完整的理解,结合附图参考以下描述,在附图中,相似的参考标号代表相似的部分,其中图1是根据一个实施例的用于在网络环境中提供三维视频操作的会议系统的简化示意图;图2是根据一个实施例的观看者(viewer)从两个不同投影仪所看到的图像的简化示意图;图3是示出了根据一个实施例的视频会议体系架构的示例用户的简化示意图;图4是根据一个实施例的对视频会议体系架构的示例实现的简化示意图;图5是根据一个实施例的对视频会议体系架构的另一示例实现的简化示意图;图6是根据一个实施例的对视频会议体系架构的又一示例实现的简化示意图;以及图7是能够将图像合成能力与之前的示例布置融合的系统的简化示意图。
具体实施例方式概述在一个示例实施例中提供了一种方法,其包括接收指示末端用户的个人位置的数据并接收与对象相关联的图像数据。图像数据可由在第一角度处的第一相机和在第二角度处的第二相机所捕获。该方法还包括基于指示末端用户的个人位置的数据合成来自相机的图像数据,以便传递在所选择的角度处的对象的三维呈现。在更特定的实施例中,由被配置为与网络相耦合的服务器来执行合成。视频分析可被用来确定末端用户的个人位置。在其他实施例中,该方法包括确定用于合成图像数据的大致时间间隔,然后基于时间间隔来延迟音频数据。时间间隔可与多个像素相关联,该多个像素与相机相关联,或者该时间间隔可与被分配以合成图像数据的任务的处理器的处理速度相关联。对象可以是涉及末端用户的视频会议的对方。转向图1,图1是根据一个示例实施例的会议系统10的简化示意图。会议系统10 包括对象12、观看者14以及被配置为与服务器组30相耦合的相机集20,该服务器组具有与网络38的连接。网络38被配置为与另一服务器组40相耦合,该另一服务器组可与投影仪组通信,以便在多视角屏幕50上呈现图像。媒体流集可被(从相机20)发送到服务器30 以通过网络38发送。类似地,媒体流集观可被从服务器40发送到投影仪M以形成被观看者14观看的图像。在一个示例中,屏幕50由特殊材料构成,该特殊材料使得屏幕为“多视角”屏幕。 利用该特殊屏幕,观看者14更好地观看图像,该图像从正在其之后的投影仪被投影到屏幕上。在图1中,只有被投影仪#8投影的图像和观看者14的头部可以如下的方式排成一行 在相机和观看者14之间的线通过观看者头部的中间。图1中的每个元素可通过简单的接口或通过提供了用于通信的可行路径的任意其他合适的连接(有线或无线)来彼此耦合。另外,基于特定的配置需要,可组合或从体系架构中移除这些元素中的任意一个或多个。注意,取决于一个或多个服务器的特定计算功率、视频相机的分辨率、来自相机的每秒的帧数以及其他与视频相关的参数,服务器30和 40可以是服务器阵列或单个服务器。会议系统10可包括能够用于在网络中发送和接收分组的传输控制协议/因特网协议(TCP/IP)的配置。当合适时或基于特定的需要,会议系统10还可与用户数据报协议 /IP(UDP/IP)或任意其他合适的协议或隧道技术一起操作。为了提供真实的三维(3D)传输的呈现,系统应当能够记录并显示3D图像。针对 3D对象,由于观看者将其头部置于环绕所观察的对象的不同位置处,很自然,观看者将看到该对象的不同示图。例如,假定观看者看到另一人物的3D脸部。随着观看者移动其位置 [相对于该人物],他可从右侧、直视[眼对眼]以及该人物的左侧轮廓(profile)来看到该对方的轮廓。在利用个人计算机屏幕的视频会议会话中,远程用户的图像呈现为二维QD)图像。针对2D显示器,图像并不随着观看者移动其相对于显示器的位置而变化。例如,如果视频会议屏幕呈现远程用户的右侧轮廓图像,则随着观看者变化其相对于其个人计算机屏幕的位置,观看者所看到的图像(在其个人计算机上)并不改变。而是,观看者仅看到远程用户的右侧轮廓。某些体系架构可提供3D视频会议体验,但是,这些体系架构是昂贵的(例如,价格高的投影仪、相机、服务器等),并且,会将相当大的开销引入到数据发送中。针对这种系统, 过度的带宽消耗可带来显著的问题。例如,图1可利用多个视频相机来捕获对象12的不同示图。然后,该视频可被传输到本地站点,在本地站点处其被馈送到位于相对于记录原始视频的相机20的位置处的不同位置的不同投影仪M。系统可利用能容纳各种示图的多视角屏幕。随着观看者移动其相对于多视角屏幕的位置,他可比看到比其他图像更好的所投影的图像中的一个。例如,如果体系架构包括十六个相机,则将使用十六个投影仪来投影图像数据,使得观看者可观看一个图像数据集,而非其他十五个图像数据集。由于遗漏了除了与观看角度相关联的图像之外的来自相机的所投影的图像,这种系统的性能是相当低的。 另外,多视角屏幕仅提供有限数量的示图,如此,当观看者变更其相对于屏幕的位置时,显示出现抖动。返回到图1,出于说明的目的,提供了示例会议情景。在该示例中,在视频会议中存在两个参与者。第一个参与者代表对象,而第二个参与者代表观看者。在某些实例中,在设备中存在对称,使得每个参与者完成作为对象和观看者的两种角色。但是,在该示例情景中,为了简化说明,一个位置具有不同于远程位置的设备。暂时关注对象侧,提供了多个相机20,使得从多个观看角度来捕获与对象12相关联的图像数据。这些相机可以以任意合适的形式安装,诸如,以如图1中所示的弧形配置。其他配置可以是任意的墙式安装、或可将相机等距离地隔开的布置、或作为相机列而线性提供。本质上,相机从在所有侧上的对象捕获图像数据。在其他布置中,可将相机安装到采用加州圣何塞(San Jose, CA)的思科系统公司(Cisco Systems)所制造的远程监控 (TelePresence)技术的墙体或面板上。这些相机配置的目的是捕获图像数据,并且将图像数据发送到可在三维中观看对象的观看者位置处。系统利用在远程站点处的多个相机来从多个角度捕获远程对象的示图。在观看者的位置处,投影仪M在多视角屏幕50上呈现图像。在一个示例中,投影仪对的几何结构模仿相机20的几何结构,使得如果放射状地布置相机20 (在弧形配置中),则也可在相同的放射状布置中配置投影仪对。通过类似的方式,相机#1可与投影仪#1接口 (或对齐),相机#2可与投影仪#2接口(或对齐),等等。注意,三维成像的一个方面包括观看者意欲从一边倾斜头部到另一边,以便收集处于视频会议的另一端处的对象的某些维度方面。在这种实例中,如惯常所做的那样(如果两个人正进行彼此面对面的实际对话[例如,在人行道上、在街角上,等等]),观看者可仅通过将其头部从一边移动到另一边来看到对象的完整图片。三维成像的第二方面是视差,其为沿着两个不同的视线所观看的对象的明显布置或位置差异。其一般通过那两线之间的倾角的角度或半角来测量。当从不同的位置观察时, 附近的对象比更远的对象具有更大的视差。人类感知包括重叠视场以利用视差来获得深度感知,并且该处理被称为立体观测。返回到对图1的说明,如果观看者14正从相机#1接收图像(例如),他可能碰到一种情形,其中,对象12的部分从其特定优势位置(vantage)被模糊。出于说明该概念的目的,在图1中描绘了模糊对象13,并且,其位于相机#1和对象12之间。但是,在相机#12 处并未出现该模糊,并且,模糊对象13并未阻挡在相机#12和对象12之间的视场。媒体流 26可捕获多个相机视点,使得随着观看者14从一边移动到另一边或变更其方向,他从与特定相机相关联的特定投影仪看到图像,该特定相机从与观看者相对于多视角屏幕的位置相关联的角度捕获对象的图像。多视角屏幕的属性即是允许观察者看到从位于用户后方的特定投影仪[在特定投影仪和多视角屏幕50之间的线中]所投影的图像,因此克服了该模糊或仅看到未被遮住的对象12。在图1的示例中,该体系架构十分广泛,因为其包括用于呈现三维图像的多个投影仪和多个相机。投影仪可集中地在多视角屏幕上呈现用于观看者14观看的图像。图2是图像52的简化示意图,其中,观看者#1和观看者#2利用两个不同的投影仪(即,分别为投影仪#1和投影仪#2)来观看图像52。在该示例中,图像是戴有鸭舌帽的女孩,第一观看者看到她图像的一边,而第二观看者看到该图像的不同视点。这是因为第一观看者与投影仪#1相关联,而第二观看者与投影仪#2相关联。随着观看者变更其当前的位置,他可看到与该特定图像相关联的不同细节。例如,随着观看者从一个位置/优势位置移动到另一个,他可看到该女孩有马尾辫。如果该情景涉及在两个参与者之间的视频会议, 则随着观看者移动其自身的位置,他可在视频会议中看到对方的不同侧(或角度)。实际上,观看者正利用不同的投影仪和不同的相机角度,以便看到额外的细节,该额外的细节在简单的面对面对话情景中将不会示出。注意,虽然图2示出了女孩的两个图像,但是,这仅是出于说明目的而给出的。真实的图像仅以关于给定屏幕的与观看者的位置相关的方向上示出女孩的单个图像。图3是对正用个人计算机(PC) 60工作的观看者64的简化示意图。个人计算机60 包括嵌入式相机62,该嵌入式相机用于捕获观看者64的图像并将其发送给远程视频会议伙伴(未示出)。个人计算机60可被配置为通过各种潜在布置来与网络68相耦合,使得图像数据可容易地被在网络68上发送。图4是与视频会议情景相关联的示例布置的简化示意图。在该示例中,描绘了相同的观看者64,网络68被配置为与服务器72相耦合。如在该实施例中所示的,观看者64 可向左和向右、以及向前和向后移动其头部,并且,依旧保持在相机的视场(一般在箭头70 所示处)中。所有该头部定位都可被服务器72捕获,该服务器可存储并处理观看者64在相机62的视场70内的虚拟图像74。虚拟图像74可在网络68上被从PC 60发送到服务器 72,该服务器与网络68附接,并且,随着用户向左和向右(相对于PC 60)移动,其可捕获在虚拟图像帧74中的观看者64头部的位置。该运动通过虚拟图像集76、78和80示出,其示出观看者64在图像的中间、右侧和左侧的情形。另外,观看者64可使其位置被追踪(例如,经由服务器72、经由在网络中所供应的某些软件、或驻留在PC 60上的软件[或从外部提供给PC 60的软件],等等),使得当他从一边倾斜其头部到另一边时,他可看到在其个人显示器上所示出的远程对象的不同角度。 例如,当观看者64已转移了其视线时,软件可利用脸部和眼睛识别算法来识别,然后,通过变更正呈现给PC的感知角度来响应。考虑某人已开始吃苹果并吃掉了该对象的一部分的情形。如果苹果被置于桌上, 则观看者的视角可决定他是否看到了缺失的一口。在简单的线性视频会议布置中,观看者 64可能仅看到苹果的前方而非其他。相反地,图3的布置允许观看者64向左和向右移动, 并实际上看到存在苹果的缺失的一口。在各种位置处(如之前所描述的)所提供的软件可识别观看者何时已转移头部以试图看到所观看的对象的不同角度。在具体的实施例中,如在虚拟图像76、78和80中所示的,服务器72具有能够识别观看者64何时已转移其头部的视频分析软件。因此,当观看者64向右移动时,他间接地或无心地告知系统他希望看到与出现在其计算机的屏幕上的对象相关联的不同视点(视角)。实质上,观看者64正请求来自不同视角的示图,由此,请求来自在远程位置处的不同相机的示图。该讨论自身还涉及图2以及给定观看者可变更其视角并将其自身与不同的相机和不同的投影仪重新关联的方式。随着观看者64向右移动,他移动到与投影仪#2对齐。通过类似的方式,随着观看者64向左移动,他将其自身与投影仪#1对齐。在图4的体系架构的上下文中,随着观看者64向左移动并从投影仪#1接收信息,服务器72具有指示投影仪 #2停止投影图像数据的智能。另外,在一个示例实施例中,随着投影仪#2被指示停止投影图像数据,相机#2也应当停止捕获和/或在网络上发送图像数据。这可提供相当高的效率并节约带宽,因为不再在网络上发送该不必要的信息。图5是示出了系统M的简化示意图,该系统可允许给定观看者在单个视频流被选择的单个点80处控制各种视频流。描绘了多个相机,以便捕获与对象88相关联的图像数据。服务器84被配置为与网络90相耦合,并且,服务器可在服务器84的对应存储器中接收并分析观看者64的虚拟图像82。在虚拟图像82之下是针对该特定用户的虚拟图像集92 的头部定位变化的说明。注意,虚拟图像82和虚拟图像92是相同的虚拟图像,虚拟图像92 示出观看者64的头部运动。示出了带有箭头的线[左和右]以示出在虚拟图像82中相对于图像的中心的头部的位置(左/右)。观看者位置可选择将要发送的特定媒体流。该观看者位置可相对于观看者的PC 60的特定屏幕而被导出。在某种意义上,通过面部指示,或通过头部运动,观看者正控制从相机阵列20向其呈现的视频流。注意,为了辅助来自多个相机的视频中的转换,对来自多个相机的个子视频帧的媒体捕获可被同步。还要注意,选择处理可通过观看者的个人计算机来执行,或者,存在用于通过附接到网络的服务器[例如, 图5的服务器84]执行视频分析(或视频流选择)的选项。在图5中所描绘的虚线用作对正向观看者示出的视频流的控制。因此,该虚拟开关正选择哪个相机正将其图像在网络90上发送并发送给观看者。因此,与使相机的完整阵列连续地在网络上发送图像数据相反,来自单个相机的图像数据可被选择并在网络上传播。前者的这种发送不仅浪费,而且在处理方面还很笨拙,另外,很可能给网络链接和终端带来无法处理这么大量的数据的不可能的带宽情景。在该情景中,接收侧仅接收与单个相机相关联的图像数据,因此,其仅接收单个媒体流。相反地,发送侧仅发送来自单个相机的图像数据,并且,该活动通过观看者在其计算机前方向左和向右移动而被指示。重要的是,观看者能够从不同侧看到对象88,其增强了其对对象88的感知或形象化。系统可利用商用现成的(off-the-shelf) (COTS) PC和2D显示器来向用户提供从多个示图(其作为头部位置的函数)观看图像的能力。这可利用2D显示器给观看者提供3D观看能力。在另一示例操作流中,系统可利用脸部检测算法来检测本地参与者相对于其个人计算机的位置。在该示例中,视频相机与个人计算机集成,这还是许多个人计算机(例如, 苹果计算机)的当前特征。该特定用户(具有视频能力的个人计算机)正参与到与远程的远程监控用户的视频会议中。个人计算机视频相机捕获本地参与者的图像,并且将其发送到处理平台或与网络附接的服务器,以用于处理和后续向远程站点的分布。服务器可包括诸如思科的媒体体验引擎(MXE)(其为可附接到网络的处理元件)的图像处理平台。MXE通过最优化以任意格式向任意设备的传递来简化网络上的媒体共享。其还可提供媒体转换、实时后期生产、编辑、 格式化和用于视觉通信的网络分布。系统可利用实时的脸部和眼睛识别算法来检测参与者的眼睛在视频帧中的位置。在该示例中,系统分析本地用户的眼睛在视频帧中的位置。然后,系统向本地用户呈现相对其在视频帧中的位置的媒体流。在该示例实施例中,可在终端个人计算机或在数字信号处理(DSP)级别来完成对在视场70中(或虚拟图像82的对应帧)的观看者头部的具体位置的分析。随着系统检测本地会议参与者[例如,观看者64]相对于其个人计算机的位置,系统从多个远程站点相机 20所捕获的媒体流中选择合适的媒体流,并且,将其呈现给本地参与者/观看者。根据一个实施例,对将要呈现给个人计算机的视频流的选择在源处被完成。如此, 远程站点无需发送来自所有相机的视频。相反,远程站点仅发送来自代表本地参与者相对于其个人计算机的视角的相机的视频。根据另一实施例,远程站点将所有视频流发送到可附接到网络的处理服务器。在处理服务器处作出应当选择哪个视频流并将其发送到本地个人计算机的决定。在任意情形中,本地参与者相对于其个人计算机的位置可支配媒体选择处理。在当系统检测到多个人正注视相同的个人计算机屏幕时的情形中,系统具有多种其可执行的政策。例如,系统可被默认配置为单个示图并呈现来自远程房间的中间的示图。 第二选项可涉及系统检测(来自本地参与组中的)哪个参与者是发言人,然后,呈现与在房间中的最近发言人的位置相关联的媒体流。在第三选项中,系统可检测在个人计算机观看者中排名最高的人(例如,利用公司目录),并且呈现来自其视点的会议。在其他情形中,可将等级预编程到系统中,或者,在视频会议的开始/建立处将等级预编码到系统中。存在许多这种系统可提供的重要优点。例如,与昂贵的多视角显示器(诸如,在图 1中所描述的多视角显示器)相比,系统可利用现成的个人计算机以获得所意欲的功能。该体系架构将对3D功能的访问授予利用简单个人计算机的任意用户。另外,在该说明书中此处所概述的示例可仅将单个视频流发送到个人计算机用户。因此,具有有限带宽(例如,数字用户线(DSL)连接)的在家中的用户可使用该系统。另外,这种系统可很好地扩展,因为针对多个昂贵的投影仪和多视角屏幕的需求被消除了。所提供的体系架构还可与多个观看者操作。某些示例配置包括当检测到多于一个观看者时默认设置为2D系统的能力。另外, 系统可利用处理服务器(例如,MXE),该处理服务器将对相对于观看者的位置的合适媒体流的3D功能选择移动到网络中。图6是用于实施3-D视频会议的系统110的简化示意图。随着讨论进行到图6,一个重要的主题出现了,并且,其与提供以上所概述的3-D功能相关,但是具有更少的装置, 因此具有更少的花销。图6包括相机#1(116)和相机#2(114),其被设置在所希望的角度处以捕获与对象12相关联的图像数据。这些相机可将视频流(如在图6中Vl和V2所描绘的)馈送到可包括图像合成器120的服务器115中。这两个元件可位于相同的位置,或可替换地,被设置为分离的组件。图像合成器120可处理相机所捕获的视频流,以便产生来自所希望角度的已合成视频(这一般通过130来表示)。图像合成器120可容易地处理相机(从两个不同相机位置/安装点)所捕获的图像数据,以便合成从相机Cl和C2之间的任意视角所感知的对象 12的图像。所希望的视角是可变的,并且,图像合成器120将继续合成这两个相机角度之间的对象12的示图以创建虚拟示图。由于已合成的图像可被数学地创建,因此,针对每一度 (或所希望的角度)来创建新的图像。这改善了涉及对象12的转换的平滑性。注意,该结果可在带宽减少的同时被获得,并且处理被潜在地移动到网络。
图7是系统150的简化的示意图,该系统将图像合成能力合并到图4的之前的示例布置中。如之前所说明的,可利用视频分析法来检测观看者64的末端用户位置。基于所检测的观看者位置,系统合成来自正确的方向的视频。因此,视频流被合成以向观看者64 呈现三维图像,其中仅单个视频流在网络上传播并传播到观看者64。根据一个实施例,当检测到多于一个观看者时,系统150可默认设置为特定的方向(例如,来自两个相机中的一个),或设置为任意所希望的单个示图[例如,对象88的前示图]。在一个示例实现中,图像合成器120可以是附接到网络的DSP服务器(或如以上所标识的MXE元件)。根据一个特定的拓扑,图像合成器120可与在远程站点的视频相机 (例如,两个相机、三个相机,等等)处于相同的位置。图像合成器120可从远程对象的惯常方向(例如,来自左偏60度、来自前方、以及来自右偏60度)接收有限数量的媒体流。图像合成器120还接收所希望的方向,从该方向上合成虚拟示图。系统150利用本地会议参与者相对于其PC的位置作为图像合成器120应当从该方向合成虚拟示图的方向。关于口型同步(lip synchronization),注意,对来自远程相机的视频流的处理和通过图像合成器120的虚拟示图的生成需要时间。这可导致在来自远程站点的音频和来自图像合成器120的对应已合成视频的可用性之间的延迟。例如,算法的延迟时间取决于在相机中的像素数量、图像合成器120的处理速度,以及用于计算的可用存储器量。为了消除 (或最小化)口型同步问题,系统150计算合成所希望的虚拟示图所用的时间,并且相应地延迟来自远程观看者的音频。不同于从十六个(或更多)方向捕获远程参与者的图像的其他系统,系统150可在远程站点处利用有限数量的视频相机(例如,两个、三个,等等)。例如,远程站点可具有三个视频相机,该视频相机从三个不同的方向捕获远程参与者的图像。出于很多原因,这种体系架构是有优势的。例如,系统可提供远程对象的方向示图的精细粒度,而无需多个远程相机(其可能很昂贵)。另外,随着本地用户变更其相对于其 PC的屏幕的位置,他可从不同的方向看到远程对象。即便是观看者的轻微头部运动(其可导致在视频帧中的一个像素的移动)也可导致来来自不同示图的图像。例如,通过高分辨率本地相机,系统可提供上百个远程对象的不同方向的示图,而仅利用很少数量的远程相机(例如,两个、三个,等等)。另外,虽然其他系统在网络上将多个连续视频流发送到远程站点,但是,系统150 可适应仅存在有限的可用带宽的情景。当图像合成器120与远程相机处于相同的位置时, 系统150仅将单个视频流发送到网络中。当图像合成器120附接到网络时,远程站带你可将有限数量的视频流(例如,两个或三个)发送到网络。因此,系统150可仅利用两个相机, 另外,可被在家中的远程用户(其可具有通过DSL连接的有限的带宽)使用。还注意,不同于其他随着本地用户将其头部从做左边移动到右边而提供抖动图像的系统,由于系统150可计算大量的虚拟示图,因此系统150提供了具有在虚拟示图之间的平滑转换的优点。系统150还可确保虚拟视频流可实现口型同步。另外,另一可能的优点在于对在网络中合成虚拟示图的选项,如此,系统可将大多数处理移动到网络云中。可在各种位置处提供用于检查观看者的位置(例如,相对于其屏幕)的软件。在一个示例实现中,该软件被设置在此处所描述的各种服务器中。这可涉及服务器115、84、72、 40和/或30 (单独地,或以任意合适的组合)。在其他示例中,这可涉及专用(proprietary)元件,其可设置在(或靠近)PC 60(或任意其他被在视频会议情景中的给定末端用户所使用的设备)处、或可被在网络中的某处供应。图像识别和/或脸部识别软件可识别在任意给定时刻观看者在哪里,或基于来自之前帧的数据来识别观看者在哪里。基于该信息,命令可被发送到远程位置,以呈现来自特定虚拟相机的图像数据。来自虚拟相机的已合成视频可位于相对于对象88的虚拟位置中。虚拟相机的方向可通过观看者64的左/右位移而被管理。如此处在该说明书中所使用的,术语“服务器”意味着包括路由器、交换机、网桥、 网关、处理器、负载均衡器、防火墙、或任意其他合适的设备、组件、元件、或操作为在网络环境中交换或处理信息的对象。另外,这些服务器可包括任意合适的硬件、软件、组件、模块、 接口、或辅助其操作的对象。这可包括允许对数据或信息的高效交换的合适的算法和通信协议。如此处所使用的,术语“个人位置”[关于捕获在计算机前方的末端用户的位置]还包括末端用户的头部(和相关联的身体)的垂直位置或水平位置(或运动)等,并且,还包括可被系统检测或识别的任意脸部或眼睛的位置。这可包括关于会议点(例如,计算机的屏幕)的位置(或运动),或任意其他类型的头部位置,其为任意的或可通过位置检测技术所识别,或通过存在或不存在会议点的其他协议来识别。任意这种方法被包括在术语“个人位置”中,因此,应当被如此地理解。在这种情景中的术语“计算机”包括任意类型的个人数字助理(PDA)、个人计算机(PC)、膝上型笔记本或电子笔记本、蜂窝电话、带有视频能力的 IP电话、I-Phone、或任意其他设备、组件、元件、或能够在系统中启动视频数据交换的对象。 这包括所附的面板和屏幕,其中,这种计算机可代理视频数据,然后帮助将图像呈现至后续平面。在一个示例实现中,处理服务器包括用于获得此处所概述的某些或全部功能[例如,确定捕获、发送、合成和/或接收哪个视频流]的软件。在其他的实施例中,该特征可设置在服务器外部或包括在某些其他网络设备中,或包括在计算机(例如,个人计算机)中, 以获得这些所意欲的功能。可替换地,这些元件的二者(个人计算机和服务器)可包括可协作的该软件(或交互软件),以便获得此处所概述的媒体流选择或合成操作。在其他实施例中,这些设备中的一个、两个或全部可包括任意合适的算法、硬件、软件、组件、模块、接口或辅助其操作的对象。这些元件(服务器和个人计算机)中的每一个还可包括用于存储在此处所概述的控制和一般处理机制中所使用的信息的存储元件。另外,这些设备中的每一个可包括可执行软件(例如,逻辑)或算法以执行在此说明书中所讨论的活动的处理器。这些组件还可将信息保存在任意合适的存储元件中,诸如,随机访问存储器(RAM)、只读存储器(ROM)、可擦写可编程ROM(EPROM)、电子可擦写PROM(EEPROM)、专用集成电路(ASIC)、软件、硬件、或任意其他合适的组件、设备、元件、或基于特定需求且合适的对象。注意,通过此处所提供的示例,可按照两个、三个、四个或更多个网络元件而描述交互。但是,这样做仅是出于清楚和示例的目的。在某些情形中,仅通过参照有限数量的组件或网络元件来描述给定流程集的功能中的一个或多个可能更容易。应当理解,图7(和其教导)的系统150可被很容易地扩展。图7的体系架构通过最小化所需带宽和通过利用便宜的现成PC而代表可扩展的体系架构。系统150可容纳大量组件,以及更加复杂或精致的布置和配置。因此,所提供的示例不应当限制范围或阻碍系统150的广泛教导,因为其可潜在地应用到大量的其他体系架构中。注意到参照之前的图所描述的步骤仅示出了某些可能的情景也是很重要的,这些可能情景可通过会议系统10、系统110、系统150和系统M执行或在其中被执行。当合适时,可删除或移除某些这些步骤,或者,可相当大地修改或变更这些步骤,只要不偏离所讨论的概念的范围即可。另外,已描述了多个这些操作被与一个或多个额外操作同时执行或并行执行。但是,可相当大地改变这些操作的定时。出于示例和讨论的目的,已提供了之前的操作流程。会议系统10、系统110、系统150和系统M提供了相当大的灵活性,因为任意合适的布置、次序排列、配置和定时机制可被提供,而不偏离所讨论的概念的教导。此处所呈现的概念还可容易地应用于视频游戏应用和相关的屏幕、装置和/或控制台。另外,这些所概述的概念可利用可(以某种方式)捕获多个视角的单个相机。这可涉及某种扫描操作、或在单个相机的部分上的实际物理运动、或涉及其内部组件的运动。任何这种单个相机配置(和任意其置换)明显在所呈现的素材的范围内。本领域技术人员可确认多个其他变更、替换、变化和修改,并且,其意欲所讨论的概念包括所有这种落入所附权利要求的范围内的变更、替换、变化和修改。为了帮助美国专利和商标局(USPTO)和在该申请上所发布的任意专利的在解释所附权利要求的任意读者, 申请人:希望可注意,申请人(a)并不意欲存在于存档日期的任意所附权利要求援引35U. S. C.部分112的第六(6)段的内容,除非文字“用于的装置”或“用于的步骤”被特定用于特定的权利要求中;以及(b)在说明书中的任意声明并不意欲以任意未反映在所附权利要求中的方式限制本发明。
权利要求
1.一种方法,包括接收指示末端用户的个人位置的数据;接收与对象相关联的图像数据,所述图像数据由在第一角度处的第一相机和在第二角度处的第二相机所捕获;以及合成所述图像数据以便传递在所选择的角度处的所述对象的三维呈现,所述所选择的角度基于指示所述末端用户的个人位置的数据。
2.如权利要求1所述的方法,其中,所述合成是由被配置为与网络相耦合的服务器所执行的。
3.如权利要求1所述的方法,其中,所述合成涉及执行数学计算的算法,使得针对所述末端用户移动的每一度创建三维呈现。
4.如权利要求1所述的方法,其中,视频分析方法被用于确定所述末端用户的个人位置。
5.如权利要求1所述的方法,其中,对所述末端用户的个人位置的检测由包括嵌入式相机的计算机所执行。
6.如权利要求1所述的方法,其中,所述个人位置通过检测脸部位置或眼睛位置的一个或多个算法来识别。
7.如权利要求1所述的方法,其中,所述合成由作为服务器的一部分的图像合成器所执行,所述服务器被配置为与网络相耦合。
8.如权利要求1所述的方法,其中,如果在计算机屏幕处检测到多个末端用户,则触发默认机制,以提供来自多个相机中的一个的单个示图。
9.如权利要求1所述的方法,还包括确定用于合成所述图像数据的大致时间间隔;以及基于所述时间间隔延迟音频数据,所述音频数据与涉及与所述末端用户的视频会议中的一个或多个参与者相关联。
10.如权利要求1所述的方法,其中,从与所述用户的个人位置邻近的多个方向同时计算多个合成图像。
11.一种编码在一个或多个有形介质中以供执行的逻辑,该逻辑在被处理器执行时可操作用来接收指示末端用户的个人位置的数据;接收与对象相关联的图像数据,所述图像数据由在第一角度处的第一相机和在第二角度处的第二相机所捕获;以及合成所述图像数据以便传递在所选择的角度处的所述对象的三维呈现,所述所选择的角度基于指示所述末端用户的个人位置的数据。
12.如权利要求11所述的逻辑,其中,所述合成涉及执行数学计算的算法,使得针对所述末端用户移动的每一度创建三维呈现。
13.如权利要求11所述的逻辑,其中,视频分析方法被用于确定所述末端用户的个人位置,并且所述视频分析方法检测所述末端用户的脸部位置或眼睛位置。
14.如权利要求11所述的逻辑,其中,所述合成由作为服务器的一部分的图像合成器元件所执行,所述服务器被配置为与网络相耦合。
15.如权利要求11所述的逻辑,其中,所述逻辑还可操作用来确定用于合成所述图像数据的大致时间间隔;以及基于所述时间间隔延迟音频数据,所述音频数据与涉及与所述末端用户的视频会议中的一个或多个参与者相关联。
16.一种装置,包括图像合成器,该图像合成器被配置为接收指示末端用户的个人位置的数据,其中,接收与对象相关联的图像数据,所述图像数据由在第一角度处的第一相机和在第二角度处的第二相机所捕获,其中,所述图像数据被合成以便传递在所选择的角度处的所述对象的三维呈现,所述所选择的角度基于指示所述末端用户的个人位置的数据。
17.如权利要求16所述的装置,其中,所述图像合成器是被配置为与网络相耦合的服务器的一部分。
18.如权利要求16所述的装置,其中,所述合成涉及执行数学计算的算法,使得针对所述末端用户移动的每一度创建三维呈现。
19.如权利要求16所述的装置,其中,视频分析方法被用于确定所述末端用户的个人位置。
20.如权利要求16所述的装置,其中,如果在计算机屏幕处检测到多个末端用户,则触发默认机制,以提供来自多个相机中的一个的单个示图。
21.—种系统,包括用于接收指示末端用户的个人位置的数据的装置;用于接收与对象相关联的图像数据的装置,所述图像数据由在第一角度处的第一相机和在第二角度处的第二相机所捕获;以及用于合成所述图像数据以便传递在所选择的角度处的所述对象的三维呈现,所述所选择的角度基于指示所述末端用户的个人位置的数据。
22.如权利要求21所述的系统,其中,所述合成涉及执行数学计算的算法,使得针对所述末端用户移动的每一度创建三维呈现。
23.如权利要求21所述的系统,其中,视频分析方法被用于确定所述末端用户的个人位置。
24.如权利要求21所述的系统,其中,如果在计算机屏幕处检测到多个末端用户,则触发默认机制,以提供来自多个相机中的一个的单个示图。
25.如权利要求21所述的系统,还包括用于确定用于合成所述图像数据的大致时间间隔的装置;以及用于基于所述时间间隔延迟音频数据的装置,所述音频数据与涉及与所述末端用户的视频会议中的一个或多个参与者相关联。
全文摘要
在一个示例实施例中提供了一种方法,包括接收指示末端用户的个人位置的数据,并且接收与对象相关联的图像数据。该图像数据可由在第一角度处的第一相机和在第二角度处的第二相机所捕获。该方法还包括合成所述图像数据以便传递在所选择的角度处的对象的三维呈现,所选择的角度基于指示末端用户的个人位置的数据。在更具体的实施例中,合成是由被配置为与网络相耦合的服务器所执行的。视频分析方法可被用于确定末端用户的个人位置。在其他实施例中,该方法包括确定用于合成图像数据的大致时间间隔,然后基于该时间间隔延迟音频数据。
文档编号H04N7/18GK102342100SQ201080010988
公开日2012年2月1日 申请日期2010年3月7日 优先权日2009年3月9日
发明者什穆埃尔·谢弗, 盖德·乔尔特 申请人:思科技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1