3d视频会议系统的制作方法

文档序号:6425772阅读:180来源:国知局
专利名称:3d视频会议系统的制作方法
技术领域
本发明涉及3D视频会议站和方法。
在US 5,872,590中描述了一种允许观察立体效果的视频图像的图像显示装置。立体效果观察区域中的观察者的位置通过位置检测单元进行检测。通过图像形成单元形成右眼图像和左眼图像并显示在显示器上。通过设置投影光学系统的孔径位置,将右眼图像投影到观察者的右眼位置,并将左眼图像投影到观察者的左眼位置,由此允许观察到立体效果的图像。位置检测单元或是基于两个磁传感器,或是基于两个超声传感器。基于磁传感器的方法的缺点在于其是侵入式的将一个特殊标记附着于观察者。基于超声传感器的位置检测单元的缺点在于其不够坚固。
本发明的一个目的在于提供一种设计用于相对容易地跟踪用户位置的3D视频会议站和方法。为了这个目的,本发明提供一种通过独立权利要求定义的3D视频会议站和方法。本发明的另一方面提供一种特别用于这种3D视频会议站的眼睛跟踪方法和设备。从属权利要求定义了具有优势的实施例。
本发明的目的借助包括下列部分的3D视频会议站来实现-视频照相机,用于捕获视频信号;-深度装置,用于创建3D视频会议站的用户的深度图;-发送器,用于发送基于视频信号和深度图的3D视频数据;以及-立体效果显示设备,用于显示基于深度图和所接收的视频信号计算得到的立体图像。
根据本发明的3D视频会议站的主要优点在于将深度图用于3D视频会议站的两种不同的任务-第一个任务是基于由照相机捕获的视频信号创建3D视频数据。3D视频数据使3D视频数据所发送到的第二3D视频会议站上的用户实现3D可视化。换句话说,深度图是第二3D视频会议站所使用的3D视频数据的一个基本要素。第二3D视频会议站通常位于另一个位置。
-第二个任务是跟踪用户相对于立体效果显示设备的位置。需要该位置来计算适当的图像对,即,立体图像。基于用户的位置,计算该图像对并将其从第二3D视频会议站中接收的3D视频数据中提供。换句话说,深度图用于跟踪用户的位置,或者更精确地说是跟踪他的眼睛,以便控制3D视频会议站本身的一部分。基于该深度图,能相对容易地确定用户的位置。在根据本发明的3D视频会议站中不要求对于用户或眼睛跟踪的额外设备,例如传感器。
在根据本发明的3D视频会议站的实施例中,深度装置设置为从与照相机登记(register)的深度传感器中接收信号。它们在几何位置上和时间空间上都相关联。使用与照相机登记的深度传感器的优点在于以相对高质量捕获相对容易的深度图。
在根据本发明的3D视频会议站的另一实施例中,深度装置设计为基于视频信号创建深度图。使用视频信号创建深度图的优点在于不需要额外的深度传感器。
根据本发明的3D视频会议站的实施例包括用于通过分析深度图来检测3D视频会议站的用户鼻子位置的处理器。为了控制显示在立体效果显示设备上的立体对的创建,尽可能更好地知道用户的眼睛位置是很重要的。用户的鼻子位置是眼睛位置的很好指示。在用户的深度图中可以相对容易地发现鼻子。
在根据本发明的3D视频会议站的实施例中,将处理器设计为通过搜索深度图的最大或最小深度值来检测3D视频会议站的用户的鼻子位置。用户的鼻子通常是脸中位于距离照相机最近的那一部分。因此根据坐标系,它对应于深度图的最大或最小值。找出深度图的最大或最小深度值是相对简单的操作。
在根据本发明的3D视频会议站的另一实施例中,处理器设计为通过比较深度图的深度值和人脸模型来检测3D视频会议站的用户的鼻子位置。在用户的头部相对于照相机倾斜的情况下,可能有用户的前额或下巴具有比对应于鼻子的深度值更低/更高的深度值。通过考虑深度图的多个深度值,并将这些深度值与人脸模型进行匹配,可以获得更可靠的鼻子检测。
在根据本发明的3D视频会议站的另一实施例中,处理器设计为通过计算对应于用户脸部一部分的深度图的区域的深度值的平均导数,来检测3D视频会议站的用户的头部方向。在用户头部相对于照相机扭转的情况下,鼻子位置和左眼之间的距离可以在相当大的程度上偏离鼻子位置和右眼之间的距离。在这种情况下,鼻子位置用来指示各个眼睛的位置不是很好。采用对应于用户脸部一部分的深度图的区域的深度值的平均导数,可以估算头部的方向。具有了头部方向和鼻子位置的信息,可以更精确地估算眼睛的位置。
在根据本发明的3D视频会议站的实施例中,处理器设计为基于3D视频会议站的用户的鼻子位置来检测左眼的第一位置和右眼的第二位置。用户的鼻子位置信息是用于控制创建图像对的良好起点。知道了实际的眼睛位置信息,可以实现改进的控制。
在根据本发明的3D视频会议站的优选实施例中,处理器设计为基于视频信号检测左眼的第一位置和右眼的第二位置。除了深度图之外,还输入视频信号用于3D视频会议站的处理器的该实施例。对应于视频信号的像素的任选色度和亮度值提供了额外的数据,这些数据对于改进眼睛检测的可靠性是非常有用的。
在文献“Fast,Reliable Head Tracking under VaryingIlluminationAn Approach Based on Registration of Texture-Mapped3D models”(作者M.La Cascia等,IEEE Transactions on patternanalysis and machine intelligence,Vol.22,No.4,April 2000)中描述了一种在改变照明条件下用于3D头部跟踪的技术。头部被模型化为一个结构映射的圆柱体。产生的动态结构图提供可以用于眼睛跟踪的稳定化的脸部视图。和根据本发明通过3D视频会议站执行的方法相比较,该文献中描述的方法对于眼睛跟踪来说相对更复杂。
视频会议站的各种修改及其变化可以对应于所描述的其眼睛跟踪器和眼睛跟踪方法的修改和变化。
根据本发明的3D视频会议站和方法的这些及其它方面将针对此后描述的实现方式和实施例并参考附图进行说明且变得显而易见,其中

图1A示意性示出了3D视频会议站的实施例;图1B示意性示出了包括深度传感器的3D视频会议站的实施例;图1C示意性示出了设计为基于视频信号计算深度图的3D视频会议站的实施例;图2A示意性示出了包括设计为检测用户的鼻子位置的处理器的3D视频会议站的实施例;图2B示意性示出了包括设计为检测用户的眼睛位置的处理器的3D视频会议站的实施例;图3示意性示出了包括根据本发明的两个3D视频会议站的3D视频会议系统。
在全部附图中相应的参考标号具有相同的含义。
图1A示意性示出了3D视频会议站100的实施例,包括-视频照相机102,用于捕获视频信号;-深度图计算器104,用于创建3D视频会议站100的用户114的深度图120;-发送器106,用于发送基于视频信号和深度图120的3D视频数据;-接收器110,用于接收已经由第二3D视频会议站301获取的3D视频数据;以及-立体图像生成器108,用于基于由接收器110接收的3D视频数据生成立体图像。立体图像生成器108要求关于用户114的位置的信息。该信息从由深度图计算器104生成的深度图120中检索;以及-立体效果显示设备112,用于显示由立体图像生成器108生成的立体图像。
在3D视频会议站100中可以区别两个主要数据流-输出数据流105首先,存在通过视频照相机102捕获的视频信号。这些视频信号用深度图增强,产生3D视频数据。深度图由深度图计算器104生成。通过发送器106发送该3D视频数据。由3D视频会议站100在其输出连接器116处提供该3D视频数据。将3D视频可选地进行编码,例如根据MPEG标准格式其中之一。
-输入数据流107第二,存在由第二3D视频会议站301生成的3D视频数据。该3D视频数据在输入连接器118处提供并由接收器110接收。立体图像生成器108根据用户114的位置,基于该3D视频数据提供立体图像。基于深度图120确定用户的位置。生成的立体图像通过立体效果显示设备112显示。
图1B示意性示出了包括深度传感器124的3D视频会议站101的实施例。将深度传感器124的信号提供给深度图计算器104的输入连接器122用于创建深度图。在这种情况下,深度传感器提供关于例如超声或红外波的传播时间的信号,该波分别由深度传感器生成,由用户反射并由深度传感器接收。深度图计算器104的主要任务是将关于传播时间的信号转换成深度值。其它任务是例如同步和临时存储数据。同步是由视频照相机102生成的视频信号所要求的。深度传感器124和视频照相机102在几何位置和时间空间上都相关联。换句话说,对应于由视频照相机102生成的视频信号的视频图像像素在空间上临时与由深度图计算器104创建的深度图相关联。注意,存在结合了视频照相机102、深度传感器124和深度图计算器104的功能的市场可买得到的系统,例如3DV Systems的ZcamTM。
图1C示意性示出了设计为基于视频信号计算深度图120的3D视频会议站103的实施例。在这种情况下,由视频照相机102捕获的视频信号还提供给深度图计算器104。通过应用几何关系,可以从运动中推导出深度信息。这一概念例如由P.Wilinski和K.van Overveld在文献“Depth from motion using confidence based block matching”(Proceedings of Image and Multidimensional Signal ProcessingWorkshop,pages 159-162,Alpbach,Austria,1998)和WO99/40726中有所描述。一系列图像中所有明显的运动产生于视差。一个片断和另一个片断之间的运动差异表示深度差异。分析两个连续的图像,可以计算在t时刻的给定图像片断和t+1时刻的相同图像片断之间的视差。该视差对应于场景不同部分的运动。在转换照相机的情况下,前景中的目标比背景中的目标移动得多。存在用户相对于照相机的移动这一点是很重要的。是照相机移动还是用户移动在原则上是不相关的。可以使用任选的多个照相机来捕获视频信号。在这种情况下创建深度图的方法在概念上是相同的。估算用于3D视频会议站103中的深度图并不限于在引用文献中描述的方法,还可以使用其它深度估算方法。
图2A示意性示出了包括设计为检测用户的鼻子位置的处理器202的3D视频会议站200的实施例。处理器202要求深度图120作为输入,并提供鼻子的位置坐标202给立体图像生成器108。定义坐标系使得接近于3D视频会议站200的点具有低深度值,即z坐标。用户注视立体效果显示设备112。视频照相机102和/或深度传感器124与立体效果显示设备112对准。结果,用户的鼻子具有相对低的z坐标。处理器的工作如下。每个预定时间间隔处理一个新的深度图。在每个深度图中搜索最低深度值。于是自动得知鼻子尖端的相应x和y坐标。
任选地执行深度图的一个分段,以确定深度图中对应于用户脸部的感兴趣的区域。该分段例如通过阈值运算来执行,即只保留低深度值。假设相对高的深度值对应于用户所在场景中的其它目标,例如背景。感兴趣区域的深度值和人脸模型进行比较。在这种情况下,采用模板匹配技术搜索鼻子的坐标。
任选地估算用户的头部方向。这可以通过计算感兴趣区域的深度值的导数来实现。假设用户的头部是相对对称的。比较感兴趣区域的左半部分的导数和该区域右半部分的导数,使得能够估算头部的方向。
任选地通过利用基于以前获得的深度图N-1所检测的位置来确定深度图N中鼻子的位置。这种方法的优点在于可以更快且更可靠地检测用户的鼻子。
图2B示意性示出了包括设计为检测用户的眼睛位置的处理器202的3D视频会议站201的实施例。处理器202要求深度图120作为输入,并提供眼睛的位置坐标204给立体图像生成器108。考虑用户的右眼和左眼的位置,由于人眼之间的间隔在统计上位于32.5mm至97.5mm的范围内,因此将两眼之间的间隔W设定为例如W=60mm,这已足够用于通过对两眼之间中心位置的坐标值加上或减去W/2来获得各个眼睛的x坐标值。这一中心位置可以对应于鼻子尖端的x坐标。任选地,这一中心位置基于鼻子尖端的x坐标,但是这是通过考虑了头部的方向。在这种情况下,从眼睛投影到鼻子尖端的距离是彼此不等的。
任选地,视频信号输入用于处理器。对应于视频信号的像素的色度和亮度值提供了额外的数据,这些数据对于改进眼睛检测的可靠性是非常有用的。通常眼睛导致对应于视频信号的图像中的高对比度。此外,眼睛的颜色在相当大的程度上偏离皮肤的颜色。
图3示意性示出了包括根据本发明的两个3D视频会议站100和301的3D视频会议系统300。结合图1A、1B、2A或2B其中之一描述3D视频会议站100和301的工作。3D视频会议站100和301可以借助专用通信链路进行连接。也可以使用例如internet的公共通信链路。优选地,3D视频会议系统允许在3D视频会议站100和301之间并行通信。任选地,3D视频会议系统100包括比两个3D视频会议站100和301更多的3D视频会议站。
采用图2A和2B中所示的深度图像计算器104和处理器202,可以构造眼睛跟踪器,其可以用于例如包括立体效果显示设备的各种类型的系统。
在实施例中使用立体效果视频作为3D视频的示例。其它3D可视化也是可能的,例如在其上呈现的3D模型根据观察者进行旋转的标准2D显示。可替换的可以使用多视图显示,例如结合多视频信道的Philips 3D-LCD。这些多视图通常以固定方向投影。可以应用观察者的位置信息来控制这些方向。第三种替换可以为多深度层显示。
应当注意,上述实施例是为了描述而非限制本发明,本领域技术人员应当能够设计替换的实施例而不背离附属权利要求的范围。在权利要求中,括号中的任意参考符号并不意味着限制权利要求。术语“包括”并不意味着排除那些未列于权利要求中的元件或步骤。元件前面的冠词“一”并不排除多个这种元件的存在。本发明可以借助包括一些不同元件的硬件和借助适当编程的计算机来实现。在列举了几种装置的单个的权利要求中,这些装置可以通过一种和相同的硬件项目来体现。
权利要求
1.一种3D视频会议站(100),包括-视频照相机(102),用于捕获视频信号;-深度装置(104),用于创建3D视频会议站(100)的用户(114)的深度图(120);-发送器(106),用于发送基于视频信号和深度图(120)的3D视频数据;以及-立体效果显示设备(112),用于显示基于深度图(120)和所接收的视频信号(110)来计算得到的立体图像。
2.根据权利要求1所述的3D视频会议站(101),其特征在于深度装置(104)被设置为从与照相机登记的深度传感器(124)中接收信号。
3.根据权利要求1所述的3D视频会议站(103),其特征在于深度装置(104)被设计为基于视频信号创建深度图(120)。
4.根据权利要求1所述的3D视频会议站(200),其特征在于3D视频会议站(200)包括用于通过分析深度图(120)来检测3D视频会议站(200)的用户(114)的鼻子位置的处理器(202)。
5.根据权利要求4所述的3D视频会议站(200),其特征在于处理器(202)被设计为通过搜索深度图(120)的最大或最小深度值来检测3D视频会议站(100)的用户(114)的鼻子位置。
6.根据权利要求4所述的3D视频会议站(200),其特征在于处理器被设计为通过比较深度图(120)的深度值和人脸的模型来检测3D视频会议站(100)的用户(114)的鼻子位置。
7.根据权利要求4所述的3D视频会议站(200),其特征在于处理器(202)被设计为通过计算对应于用户(114)脸部的一部分的深度图(120)的区域的深度值的平均导数,来检测3D视频会议站(100)的用户(114)的头部方向。
8.根据权利要求4所述的3D视频会议站(200),其特征在于处理器(202)被设计为基于3D视频会议站(200)的用户(114)的鼻子位置来检测左眼的第一位置和右眼的第二位置。
9.根据权利要求8所述的3D视频会议站(100),其特征在于处理器(202)被设计为基于视频信号检测左眼的第一位置和右眼的第二位置。
10.一种3D视频会议方法(100),包括-捕获(102)视频信号;-创建(104)3D视频会议站(100)的用户(114)的深度图(120);-发送(106)基于视频信号和深度图(120)的3D视频数据;以及-显示(112)基于深度图(120)和所接收的视频信号(110)计算得到的立体图像。
11.一种眼睛跟踪器(104、202),用于估算左眼的第一位置和右眼的第二位置,其特征在于眼睛跟踪器(104、202)被设计为基于深度图(120)估算左眼的第一位置和右眼的第二位置。
12.一种眼睛跟踪方法,用于估算左眼的第一位置和右眼的第二位置,其特征在于基于深度图(120)估算左眼的第一位置和右眼的第二位置。
全文摘要
一种3D视频会议站(100)包括用于捕获视频信号的视频照相机(102)和用于创建3D视频会议站(100)的用户(114)的深度图(120)的深度图计算器(104)。视频信号连同深度图一起被发送作为3D视频数据。3D视频会议站(100)还包括用于显示立体图像的立体效果显示设备(112),该立体图像是基于所接收的3D视频数据计算得到的。由深度图计算器(104)生成的深度图还用于估算用户(114)的位置,以便控制立体图像的计算。
文档编号G06T7/60GK1541485SQ02815878
公开日2004年10月27日 申请日期2002年7月9日 优先权日2001年8月15日
发明者B·W·D·范吉斯特, B W D 范吉斯特, M·J·R·奥普德比克, R 奥普德比克 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1