用于合并视频以实时显示的方法和系统的制作方法

文档序号:7921065阅读:129来源:国知局
专利名称:用于合并视频以实时显示的方法和系统的制作方法
技术领域
本发明总体上涉及图像处理,并且更具体地涉及合并多个输入图像 序列以产生单个输出图像序列。
背景技术
在数字成像中,存在两种可根据多个输入图像产生输出图像的主要 方法。合成步骤将来自单独的输入图像的可视元素(对象)合并以产生
以下错觉(illusion),即所有元素都是同一场景的几个部分。拼接(mosaic) 和全景图(panorama)将全部输入图像合并为单个输出图像。通常,拼 接是由以某种棋盘式镶嵌的方式布置的非重叠图像组成。全景图通常指 视图的广角表示。
期望使来自多个输入序列(输入视频)的全部图像合并以产生单个 输出图像序列(输出视频)。例如,在监视应用中,期望获得相对大的室 外场景的高分辨率图像序列。通常,这可以利用单个摄像机通过"拉远 (zoom out)"以增大视野来实现。但是变焦减少了输出图像的清晰度和 细节。
以下类型的合并方法是已知的视差分析;深度层分解;以及像素 对应。在视差分析中,使用运动视差来估计场景的3D结构,这使得图像 能够被合并。层分解通常限于能够被分解成多个深度层的场景。像素对 应要求立体技术和深度估计。然而,输出图像经常包括恼人的假象 (artifact),例如深度边缘处的条纹(streak)和晕圈(halo)。通常,现 有技术方法是复杂的并且不适于实时应用。
因此,希望将输入视频合并为输出视频并且实时显示该输出视频
发明内容
通过多个窄角摄像机获取场景的一组输入视频。每个摄像机具有场
景的不同视野。即视野基本上以最小重叠而邻接(abut)。同时,广角摄
像机获取整个场景的广角输入视频。广角摄像机的视野基本上与该组窄 角摄像机的视野重叠。
接着使用广角视频将对应的广角视频的图像合并为单个输出视频, 使得输出视频看起来如同由单个摄像机所获取。即输出视频的分辨率近 似为输入视频的分辨率的和。
本发明使用广角视频用于校正并合并窄角视频,而不是如现有技术 中通常所做的那样确定会产生常规拼接的各种图像之间的直接变换。根 据本发明,校正不限于如现有技术中的几何校正,而是还包括比色校正
(colorimetric correction)。比色校正保证了能够以均一的颜色和增益显示 输出视频,如同输出视频是由单个摄像机获取的一样。
本发明的另一目的是实时地同时获取和显示视频。本发明不要求人 工对准和摄像机校准。能够使得摄像机视图(view)之间的重叠量(如 果有的话)最小化。


图1A是根据本发明的一个实施方式的用亍合并输入视频以产生输
出视频的系统的示意图1B是一组窄角输入图像以及广角输入图像的示意图2是根据本发明的一个实施方式的用于将输入视频合并以产生输
出视频的方法的流程图3是根据本发明的一个实施方式的显示设备的正视图;以及 图4示出了根据本发明的一个实施方式的偏移参数。
具体实施方式
方法和系统概述
图1示出了根据本发明的一个实施方式的系统,该系统用于合并由 一组窄角摄像机101获取的场景的一组窄角输入视频111以实时地产生用于显示设备108的输出视频110。
使用由广角摄像机102获取的广角输入视频112将输入视频111合 并。输出视频110能够呈现在显示设备108上。在一个实施方式中,显 示设备包括一组投影显示设备。在优选实施方式中,对于每个窄角摄像 机有一个投影仪。这些投影仪可以是前投影仪或背投影仪。
图1B示出了一组窄角图像111。图像lll'是下述参考图像。广角图 像112由短划线表示。如所看到的,并且作为一个优点,输入图像不必 是矩形的。此外,不要求输入图像彼此对准。虚线301是针对一个显示 屏幕,并且实线302表示最大的内接矩形。
这里使用的术语广角和窄角仅仅是相对的。即,广角摄像机102的 视野与窄角摄像机ioi的视野基本上重叠。实际上,窄角摄像机基本上 具有正常角度,并且广角摄像机只具有2X的变焦因子。不应该将我们的 广角摄像机与常规的鱼眼镜头摄像机混淆,该鱼眼镜头摄像机拍摄非常 宽的半球形图像。我们的广角摄像机不具有任何明显的失真。如果我们 使用常规的鱼眼镜头,则我们可根据镜头失真参数来校正图像112的失 真。
在该组输入视频111之间可能有最小重叠。在通常情况下,广角摄 像机102的视野应该包含该组窄角摄像机101的合并的视野。在优选实 施方式屮,广角摄像机102的视野比四个窄角摄像机101的合并的视图 稍大。因此,输出视频的分辨率近似为该组输入视频lll的分辨率的和。
摄像机101-102经由网络104连接到计算机群103。这些计算机是常 规的并且包括通过总线连接的处理器、存储器和输入\输出接口。这些计 算机实现根据本发明的方法。
为简化该描述,我们针对单个窄角摄像机的情况描述本发明的细节。 稍后,我们描述如何将本发明的实施方式扩展到多个窄角分辨率摄像机。
广角摄像机
在本发明中使用广角摄像机具有几个优点。首先,该组输入视频111 之间的重叠(如果有的话)可以是最小的。第二,可以忽略不对准错误。 第三,本发明可应用于复杂的场景。第四,能够针对几何参数和颜色来校正输出视频。
利用在广角视频112和该组窄角视频111之间的大的重叠,可根据 图像特征确定变换。这使场景的平面区域中的变换具有更少的倾斜
(prone)错误。因此,提高了整体对准精度,并且能够以相对小的不对 准错误来对准就深度复杂度而言更复杂的场景。广角分辨率视频112提 供了几何校正信息和颜色校正信息。 系统配置
在一个实施方式中,窄角摄像机101以2X 2阵列布置,并且单个 广角摄像机102布置在这些窄角摄像机上面或它们之间,如图IA所示。 如上所述,广角摄像机的视野合并了窄角摄像机101的视野。
每个摄像机经由网络104连接到计算机103中的一台。每台计算机 配备有包括图形处理单元(GPU) 105的图形硬件。在一个优选实施方式 中,这些摄像机的帧率是同步的。但是如果场景中的移动元素(像素) 数量很少,则这些摄像机的帧率的同步就不是必要的。
本发明的思想是,诸如用于高速计算机图形应用的现代GPU能够极 快速地(即实时地)处理图像。因此我们将变换和几何参数加载到GPU 以实时合并和变换输入视频,如下所述。
每台计算机和GPU连接到在其上显示输出视频的显示设备108。在 一个优选实施方式中,我们使用2X 2的显示器阵列。每台显示器连接到 这些计算机中的一台。但是,应当理解的是,利用计算机、GPU和显示 设备的不同组合也能够使本发明工作。例如利用单个计算机、GPU和显 示设备以及多个摄像机也可使本发明工作。
图像变换
图2示出了根据本发明的方法的细节。我们以广角(fK4)视频112 和每个窄角(A^)视频111的在时间上对应地选择的一组图像200开始。 在时间上对应是指所选择的图像是在大约相同的时间获取的。例如,在 每个视频中的第一个图像。在时间上精确对应可通过使这些摄像机同步 来实现。应当注意,可根据需要周期性地选择在时间上对应的该组图像 200以更新GPU参数,如下所述。对于每个所选择的A^图像201以及对应的『j图像202,我们检测 (210)特征211,如下所述。
接着,我们确定(220)所检测的特征之间的对应性221。
根据该对应性,我们使用广角视频112来确定230窄角图像111之 间的单应性(homography) 231。该单应性使我们能够对输入图像201进 行变换和合并(240)以获得单个变换图像241。
该单应性使我们能够确定(250)单个最大内接矩形图像302的几何 参数251,该单个最大内接矩形图像302包括该变换图像。该几何参数也 考虑到显示设备108的几何参数,例如,所述一个(多个)显示屏幕的 布置和大小。本质上,显示儿何参数定义了输出视频的外观。该大小可 以用像素的形式来规定,例如宽度和高度、或宽度和纵横比。
窄角视频之间的单应性231和输出视频的几何参数存储在各种处理 器103的GPU 105中。
这时,根据单应性和显示屏幕的几何参数,通过GPU对该组窄角输 入视频111中的后续图像进行流处理(260)以实时地产生输出视频110。 如上所述,根据需要可以动态更新GPU参数以适应于进行流处理时的变 化的环境。
上面我们假设场景包含足够数量的静止对象。此外,我们假设移动 对象与摄像机保持近似相同的距离。移动对象数量不受限制。 动态更新
应当理解,可在GPU中例如每分钟或某些其它时间间隔一次周期性 地更新单应性、几何校正和颜色校正,以适应变化的场景和改变的光照 条件。这尤其适合于室外场景,在室外场景中大的对象可能会周期地进 入和离开场景。更新还可能对于场景中的移动对象或阴影敏感。
特征检测
由于不同的视野,输入图像中的特征可能在尺度上存在差异。为了 适应于尺度差异,我们使用尺度不变特征检测器,例如,尺度不变特征 变换(SIFT),参见Lowe的以下文献"Distinctive image features from scale invariant keypoints", International Journal of Computer Vision, 60 (2):91-110, 2004,通过引用合并于此。也可以使用诸如角点和线(边)检测
器的其它特征检测器来代替,或者增大特征的数量。应当注意,可以通
过使用GPU来加快特征检测。
为了确定(220)特征之间的初始对应性221,我们首先确定每个特 征的邻域的梯度直方图(HoG)。 HoG之间的差异小于阈值的那些特征作 为对应性的候选。我们使用L2范数(norm)作为距离度量。
投影变换
在合并期间的远景变换240可由3 X3投影变换矩阵或单应性231来 近似。根据特征211的对应性221来确定单应性。假设某些对应性候选 可能被错误地匹配,我们使用修正的RANSAC方法来确定单应性,参见 以下文献Fischler等人的"Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography", Commun. ACM, 24 (6): 381-395, 1981,通过引用将其 合并于此。
此外我们还要求适合单应性的对应性的数量大于某个阈值,而不是
仅仅试图找到具有小投影错误的单应性。
我们确定每个窄角图像201和广角图像202之间的单应性,并将其 表示为/Z、,,,,,其中/为该组窄角图像的索引,并且乂为广角图像的索引
(如果存在多个广角图像的话)。我们选择窄角图像lll'中的一个作为参 考图像iVA,,参见图3。我们通过下式将图像Z变换到参考图像
■"am,,。
如果/尸"则
W-i w
其为单位矩阵。我们将每个单应性//二,,^//^,231存储在连接到对应摄
像机/的计算机的GPU中。 镜头失真
大部分摄像机镜头具有某种程度的失真。结果,场景中的直线看起 来象是图像中的曲线。在许多应用中,通过估计幂级数的前两项的参数 来校正镜头失真。如果已知镜头失真参数,则能够在GPU上作为像素查找操作来实现该校正。 附加的约束
我们还可以通过考虑图像中的直线来包括附加的约束,而不是仅仅
根据对应性221来确定单应性231。我们可以使用Canny边检测器来检测
图像中的线。作为一个优点,线对应性能够提高跨图像边界的连续性。 在投影几何中点x和线/是成对的。假定图像/,和图像/,,之间的单应性为
H,则我们有
/' = /r7'-/ 其中r是转置算子。 显示器配置
在我们已经获得了单应性231之后,我们在参考图像lll'的坐标系 统中确定经过变换并且合并后的图像241,如图3中所示。
为了确定输出图像111的哪些部分被合并并显示在输出图像110中, 根据显示设备108的几何参数将输出图像分区。图3是四台显示设备的 正视图。虚线301表示四个显示屏幕之间的缝隙。
第一步将经过变换和合并的图像241内部的最大的矩形302进行定 位。该最大的矩形也可以符合显示设备的纵横比。我们根据显示设备的 配置进一步将该最大的矩形分区(301)。
合并
已经确定单应性和几何参数并将它们存储在GPU105中之后,我们 可实时地变换输入视频流260中的每个单个图像并调整其大小。根据显 示器表面的几何参数251进行裁剪。
因此,存储在GPU中的参数包括用于将窄角图像变换到所选择的参 考图像111'的坐标系统的3X3单应性、每个经过变换的图像的;c和少偏 移401 (参见图4),以及每个经过变换的输入图像的大小(宽度和高度)。 根据合并的图像241和显示设备108的配置来确定偏移和大小。
如上所述,使用单应性231来变换每个图像。利用单应性的变换是 投影变换。由GPU105来支持此操作。我们能够以下面的方式执行GPU中的变换
每顶点对多边形的顶点(儿何参数)进行变换,并将图像应用为 纹理图;以及
每像素针对输出图像中的每个像素执行对输入像素的查找,并且 将这些输入像素合并为单个输出像素。
应当注意,GPU能够通过其纹理函数内的插值来执行调整大小以匹 配显示器几何参数。
利用GPU的图像硬件支持,我们能够实现用于上面两种方法的实时 变换、调整大小和显示。
应当注意,在输入图像重叠的地方,可使用多带域混合(muWband blending)技术将这些图像融合为输入视频,参见2004年6月29日颁发 给Raskar等人的U.S. 6,755,537, "Method for globally aligning multiple projected images",通过引用将其合并于此。该混合在整个输出图像上保 持均一的亮度。
颜色校正
我们的颜色校正方法包括下面的步骤。我们确定每个输入图像111 中的每个特征附近的局部邻域中的像素群。我们将像素群与邻近的或附 近的像素进行匹配。接着,我们确定图像之间的偏移和3X3颜色变换。
我们通过确定输入图像的(RGB)颜色空间中的3D直方图将像素 聚成群。虽然在不同图像之间可能存在一些颜色变换,但是直方图的峰 值通常对应于表示场景的相同部分的群。我们仅考虑其像素数量比某个 阈值大的那些群,因为小的群容易导致不匹配。在接受两个对应群作为 有效匹配之前,我们对这些群的统计量执行附加的检-^。使用L^M色域 图(gamut map)来确定例如均值和标准偏差的统计量,该1^叶*色域图 使用设备无关的C正LAB颜色空间。
我们针对每个群并且还针对邻近的群来确定均值和标准偏差。如果 差异小于某个阈值,则我们将对应的群标记为有效匹配。我们针对所有 对应特征的局部邻域中的所有被接受的群重复此过程。
在已经处理了"个对应之后,我们确定颜色变换为<formula>formula see original document page 13</formula>
其中矩阵,是伪逆变换矩阵z。
上面的颜色变换是基于输入图像的内容。为了避免一些颜色被过表
示(overrepresent),我们可追踪所包括的3D直方图的峰值。跳过已经被 表示的峰值位置有利于尚未被包括的位置。
如上所述,我们孤立地看待每个摄像机、处理器、视频流和显示设 备。除了单应性和几何参数以外,在处理器之间没有信息交换。然而, 我们可确定应当通过网络发送图像的哪个部分以显示在某个其它的平铺 的显示设备上。
我们也可使用多个广角摄像机。在这种情况下,我们确定这些摄像 机之间的几何参数,即位置和定向。我们可以离线地校准摄像机,或者 要求摄像机之间重叠,并且基于此作为几何参数的基础。
虽然以优选实施方式为例已经描述了本发明,但是应当理解,可在 本发明的精神和范围内做出各种其它改变和修改。因此,所附权利要求 的目的涵盖落入本发明的真实精神和范围内的所有这种变型和修改。
权利要求
1. 一种用于将视频合并以实时显示的方法,该方法包括以下步骤获得场景的一组窄角视频;获得所述场景的广角视频,其中所述广角视频中的视野与所述窄角视频中的视野基本上重叠;使用每个窄角视频的一组在时间上对应地选择的图像和所述广角视频的在时间上对应地选择的图像来确定所述窄角视频之间的单应性;对所述窄角视频的所述在时间上对应地选择的图像进行变换并且合并为经过变换的图像;根据输出设备的显示屏幕的几何参数和所述经过变换的图像来确定输出视频的几何参数;将所述单应性和所述显示屏幕的所述几何参数存储在图形处理单元中;以及根据所述单应性和所述几何参数在所述图形处理单元中变换并且合并该组窄角视频中的后续图像,以实时地产生所述输出视频。
2. 根据权利要求1所述的方法,其中所述窄角视频中的所述视野基 本上以最小重叠而邻接。
3. 根据权利要求1所述的方法,其中所述输出视频的分辨率近似为 该组窄角视频的分辨率之和。
4. 根据权利要求1所述的方法,该方法进一步包括以下步骤 获取一组所述广角视频;以及使用该组广角视频的在时间上对应地选择的图像来确定所述单应性。
5. 根据权利要求1所述的方法,该方法进一步包括以下步骤 周期性地更新所述图形处理单元中的所述单应性。
6. 根据权利要求1所述的方法,其中该组窄角视频是通过一组窄角 摄像机获取,所述广角视频是通过广角摄像机获取,并且该方法进一步 包括以下步骤将每个摄像机连接到计算机,并且其中每台计算机包括所述图形处 理单元。
7. 根据权利要求6所述的方法,其中针对每个窄角视频有一个显示 屏幕。
8. 根据权利要求1所述的方法,该方法进一步包括以下步骤 检测所述在时间上对应地选择的图像中的特征; 确定所述特征之间的对应性以确定所述单应性。
9. 根据权利要求l所述的方法,其中所述输出视频的所述几何参数 取决于所述经过变换的图像中内接的最大矩形。
10. 根据权利要求1所述的方法,其中所述输出视频的所述几何参 数包括该组窄角视频的偏移,并且所述显示屏幕的所述几何参数包括所 述显示屏幕的大小。
11. 根据权利要求1所述的方法,该方法进一步包括以下步骤 在所述合并期间,将该组窄角视频中的所述后续图像混合。
12. 根据权利要求1所述的方法,其中所述选择的图像是每个输入 视频中的第一个图像。
13. 根据权利要求1所述的方法,该方法进一步包括以下步骤 根据所述广角视频的所述在时间上对应地选择的图像来校正所述输出视频的颜色。
14. 一种用于将视频合并以实时显示的系统,该系统包括 一组窄角摄像机,该组窄角摄像机被配置为用于获取场景的一组窄一组广角摄像机,该组广角摄像机被配置为用于获取所述场景的广 角视频,其中所述广角视频中的视野与所述窄角视频中的视野基本上重叠;用于使用每个窄角视频的一组在时间上对应地选择的图像和所述广 角视频的在时间上对应地选择的图像来确定所述窄角视频之间的单应性的装置;用于对所述窄角视频的所述在时间上对应地选择的图像进行变换并合并为经过变换的图像的装置;用于根据输出设备的显示屏幕的几何参数和所述经过变换的图像来 确定输出视频的几何参数的装置;图形处理单元,其被配置为用于存储所述单应性和所述显示屏幕的所述几何参数;以及用于根据所述单应性和所述几何参数在所述图形处理单元中变换并 且合并该组窄角视频中的后续图像,以实时地产生所述输出视频的装置。
全文摘要
本发明涉及一种将视频合并以实时显示的系统和方法。获得场景的广角视频和一组窄角视频,其中所述广角视频中的视野与所述窄角视频中的视野基本上重叠。使用所述广角视频来确定所述窄角视频之间的单应性。对所述窄角视频的所述在时间上对应地选择的图像进行变换并且合并为经过变换的图像。根据输出设备的显示屏幕的几何参数和所述经过变换的图像来确定输出视频的几何参数。将所述单应性和所述显示屏幕的所述几何参数存储在图形处理单元中,并且由所述图形处理单元来变换并且合并该组窄角视频中的后续图像,以实时地产生输出视频。
文档编号H04N5/262GK101431617SQ20081017410
公开日2009年5月13日 申请日期2008年11月7日 优先权日2007年11月9日
发明者叶罗恩·范巴尔, 沃伊切赫·毛图希克 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1