用于在部分已知环境中定位相机和3d重建的方法

文档序号:6495787阅读:244来源:国知局
用于在部分已知环境中定位相机和3d重建的方法
【专利摘要】本发明涉及一种用于定位相机和用于所述相机所处的静态环境的3D重建的方法,所述环境包括3D模型是已知的感兴趣对象,所述方法包括以下步骤:a)计算初始重建和所述环境中的所述相机的初始姿态;b)通过将所述环境的3D图元与每个新图像的2D图元相匹配并通过三角测量重建环境的3D图元,来针对每个新图像计算所述相机的姿态;以及c)通过使多个图像上的重投影误差最小化,同时优化所述相机的姿态和所述3D图元。该3D模型是所述感兴趣对象的几何描述,所述重投影误差仅包括两种项,即,与受所述3D模型约束的图元相关联的第一种项和与除所述对象之外的环境的图元相关联的第二种项,且优化步骤包括将图元与环境或与3D模型相关联的子步骤。
【专利说明】用于在部分已知环境中定位相机和3D重建的方法
【技术领域】
[0001]本发明领域是部分已知环境的3D重建以及在相机移动所在的环境中通过观测定位相机;“部分已知环境”这一表述应理解成意味包括已知3D几何模型的感兴趣对象的环境,对象以外的环境是未知的。
【背景技术】
[0002]估算相机轨迹被尤其应用于增强现实应用,其合并在真实场景的数字图像中的虚拟对象。使用单个相机的增强现实系统的主要困难在于如何尽可能准确地估算真实场景(或者真实环境)与3D虚拟信息之间的3D配准,以获得逼真的合并。该3D配准在任何情况下都需要确定相机的姿态,也就是说相对于场景的固定参考系的其位置和其取向。
[0003]相对于3D场景的相机姿态估算是一热点研究课题。
[0004]大多数现有方法,尤其是跟踪3D对象,只考虑场景的已知部分,在这种情况下是感兴趣对象的3D建模部分。在这些方法中,可以区分那些基于模型或“基于模型跟踪”的方法和那些基于学习的方法。
[0005]基于模型的方法包括:通过对于由相机拍摄的每个图像,将投影的3D模型边缘和图像中所检测到的边缘之间的距离最小化,来计算相机的6个姿态参数。由VincentLepetit 和 Pascal Fua 发表在 FTCGV,2005 上的公开出版物 “Monocular model_based3dtracking of rigid objects:A survey”描述了这种方法的一个范例。这些方法的主要限制是他们只在当对象在图像序列中一直可见时有效。为了获得精确的姿态,感兴趣对象还必需占据图像的好部分,或者换言之,让他们“靠近”相机。此外,相机的移动必须小到能够确保3D跟踪。
[0006]基于学习的方法需要一个所谓的初步学习阶段,其包括学习对象的光度方面(gp外观)。该阶段包括通过从图像中提取的纹理描述符来丰富对象的3D模型。两种学习类型是可行的:
[0007]-将已知位置的编码标记放置在对象周围,以便从几个角度估算相机姿态。编码标记(又称编码目标)是已知大小的光学标记,其在图像中很容易被检测到并且通过其编码被识别。对于这些角度中的每一个,从图像中提取感兴趣点并且以周围的纹理为特征,并然后直接与3D点相关联,3D点通过来自相机视角的单一投影对应于对象上的感兴趣点,3D点借助编码目标点而对于这些角度中的每一个而言是已知的。由Juri Platonov、HaukeHeibel、Peter Meier 和 Bert Grollmann 发表在 ISMAR, 2006 上的公开出版物 “A mobilemarker I ess AR system for maintenance and repair” 提出了一个范例。
[0008]-通过对视频序列的2D点进行匹配以及使用SfM重建技术来估算大量3D点,缩写SfM代表“Structure from Motion”。然后,在对象的3D模型上对该大量3D点进行离线半自动重新对准,以获得属于该模型的3D点,通过从该图像中提取的描述符来丰富该大量 3D 点。可以引用 P.Lothe、S.Bourgeois、F.Dekeyser、E.Royer 和 M.Dhome,他们发表在 CVPR, 2009 上的公开出版物 “Towards geographical referencing of monocularslam reconstruction using3d city models:Application to real-time accuratevision-based localization”描述了该方法的一个范例。一旦进行该学习阶段,通过使用描述符的似然准则将从当前图像中提取的2D点与对象的3D点相关联,来执行在线姿态的计算。
[0009]这些方法中的两个主要限制在于,一方面,他们需要初步学习阶段,而另一方面,他们对在学习阶段与姿态计算阶段之间(磨损对象,照明条件的变化)的对象的光度外观的改变非常敏感。此外,这些方法只对有强纹理对象有效。
[0010]总体上说,这些只考虑对象已知部分的方法的主要限制在于他们只在对象在图像序列中一直可见时有效。如果对象被完全遮蔽或者从相机视场中消失,这些方法就无法再计算相机的姿态。
[0011]这些方法还受到“抖动”(由从一个图像到下一个中所计算姿态的不稳定性而引起的在增强现实中的颤动),并且为了获得精确的姿态估算,感兴趣对象必需占据图像大量的空间。在实践中,估算相机姿态时不考虑有关环境的信息。
[0012]其它方法考虑在完全未知的环境中移动的相机。SfM类型或者SLAM“SimultaneousLocalization And Mapping”类型的方法在不具有任何所观测场景的几何结构的先验知识的情况下,估算相机的移动。已经提出了离线然后在线的方法。他们是非常稳定的,因为他们使用所在位置的整个所观测到的场景,他们包括逐渐估算相机轨迹和场景的几何结构。为此,这些算法利用了多视图关系(视图即图像)以估计相机的移动,可具有场景的3D重建(以3D图元的稀疏云的形式:点、直线段等)。一般会执行附加的优化步骤,其包括同时细化相机姿态和重建的3D场景。后一步骤被称为光束法平差(bundle adjustment)。SLAM型算法的主要缺点是它们受到误差累积,并因此受到轨迹随时间漂移的影响。因此不能在其原始形态中考虑它们在始终需要大的3D配准精度的应用(范例:增强现实)中的使用。而且,在单目情况下,在任意比例 尺上进行重建;可以仅通过增加关于场景度量的附加信息来知道实际比例尺;还在不与场景对象相联系的任意参考系中进行重建。
[0013]最后,最近以来,一些方法试图依次组合这两种方法。已经提出了依次使用基于模型的方法然后使用SfM技术的方法,以估计移动相机在部分已知环境中的姿态。Bleser等人在ISMAR,2006中的文章“Online camera pose estimation in partially known anddynamic scenes”中利用模型的几何约束对参考系和SLAM算法的重建的比例尺进行初始化。然后通过不再考虑3D模型的SLAM类型的“常规”方法来计算相机的位置。
[0014]不能保证初始化期间的精确度,因为这是在单个视图上完成的,此外,该方法仍然受到数字误差累积和比例尺因子漂移的影响。如前所述,基于SLAM或SfM类型的方法的位置不允许中期和长期的精确定位:漂移问题等。
[0015]V.Gay-Bellile, P.Lothe, S.Bourgeois, E.Royer 和 S.Naudet-Collette 在 ISMAR,2010 年中的文章 “Augmented Reality in Large Environments !Application to AidedNavigation in Urban Context”组合了 SLAM技术和使用预先学习的重新定位技术。因此能够利用SLAM在对象不再可见时计算相机的姿态并利用重新定位避免漂移。然而,这种方法需要基于学习的方法类型的初步学习阶段。
[0016]后两种方法依次使用该模型的约束,然后使用环境的那些约束。
[0017]类似地,Lothe等人在 CVPR,2010 的文章 “Real-Time Vehicle GlobalLocalisation with a Single Camera in Dense Urban Areas !Exploitation of Coarse3DCity Models”中提出了依次使用环境约束,然后使用模型约束的方法。在这种情况下,进行环境的第一次重建,然后,在第二阶段中,使用基于刚性迭代最近点(ICP)类型的方法的处理来在模型上对重建进行重新对准。它包括:在可能的时候(也就是说在该模型提供充分的几何约束时),仅利用模型的信息重新对准相机的轨迹。这种方法的主要缺点在于,为了在模型3D配准步骤中保全多视图约束,它们向该过程中包括的所有相机应用相似变换,这是在实践中要做出的大假设。与基于模型的方法的相同缺点也存在:在几乎未或根本未观测到感兴趣对象时,缺少精确度和鲁棒性。而且,由于这种方法以两个相继步骤来执行,所以不是最优的,不会确保每个时刻的准确实时位置:在后验步骤中利用模型做出校正,因此给针对当前图像校正的姿态提供了时间延迟,使得该方法不适于诸如增强现实的应用。
[0018]因此,至今仍然需要一种用于定位相机并对相机移动所处的静态环境进行3D重建的方法,该方法在精确度、鲁棒性、稳定性方面同时满足所有上述要求,并实时地这样做。

【发明内容】

[0019]根据本发明,在SLAM型算法的优化阶段期间,在部分已知环境中定位相机和环境的3D重建同时结合环境已知部分的几何约束以及环境已知和未知部分的多视图约束。
[0020]通过具有两种项的单一成本函数来计算相机的姿态和构成环境的重建的3D图元,该成本函数将由属于感兴趣对象的图元(=环境的已知部分)的3D模型的几何形状所约束的优化方程和属于环境未知部分的图元的常规优化方程相结合。
[0021]更具体地,本发明的主题是一种用于定位相机和用于静态环境的3D重建的方法,该相机在该静态环境中移动,并且所述相机形成该静态环境的图像,该环境包括3D模型是已知的感兴趣对象,所述方法包括以下步骤:
[0022]-a/计算初始重 建和环境中所述相机的初始姿态,
[0023]-b/通过将环境的3D图元与每个新图像的2D图元相匹配并通过三角测量重建环境的3D图元,针对每个新图像计算相机的姿态,
[0024]-c/通过使多个图像上的重投影误差最小化,同时优化相机的姿态和3D图元。
[0025]本发明的主要特征在于,3D模型是感兴趣对象的几何描述,重投影误差仅包括两种项,即与受3D模型约束的图元相关的第一种项和与除对象之外的环境中的图元相关的第二种项,并且优化步骤包括将图元与环境或与3D模型相关联的子步骤。
[0026]与SLAM或SfM型常规方法相比,这种方式提高了细化的鲁棒性以及重建所有环境以及甚至利用大尺寸(众多3D图元和众多场景视图)场景(=环境)定位相机的精确度。这是因为我们的系统并入了来自3D几何模型的绝对信息。此外,获得的重建符合实际比例尺(借助3D模型获得)。
[0027]最后,与基于模型的跟踪方法相比,提出的方案更令人满意,因为它不必连续看到场景的感兴趣对象。在实践中,即使未观测到关注的对象(或如果其占据图像的小部分),相机也能够始终位于其移动所处的环境中。因此该方法对于部分甚至全部遮蔽都是完全鲁棒性的。还实现了相机定位的更好稳定性。
[0028]最后,与相继使用两种信息的方法相比,确保两种约束在每个时刻都是同时产生的。然后利用更鲁棒性的方法获得相机和3D重建的更精确位置。[0029]该方法与现有技术相比的主要差别在于:
[0030]-不需要任何预备学习阶段,
[0031]-不需要在相机的整个轨迹中将(已知3D模型的)感兴趣对象保持在相机视野中,或者换言之,不需要在每幅图像中看到对象,
[0032]-对遮蔽和相机/对象距离的较大变化是鲁棒性的,
[0033]-能够自然地细化近似初始姿态,
[0034]-提高环境3D重建的精度,
[0035]-对有纹理或无纹理对象都有效,
[0036]-确保两个相继姿态之间高度的稳定性(没有抖动,对于例如增强现实应用而言,该抖动常常是破坏性的),
[0037]-使得能够同时重建环境和对象,这避免了颤动和不精确效应。
[0038]最后,获得了一种非常精确、鲁棒性且稳定性的定位系统。
[0039]根据本发明的一个特征,利用呈现拒绝阈值的鲁棒性估计器,通过根据该拒绝阈值自适应控制每种项的影响,来执行优化步骤。优选地,重投影误差的每种项都关联于与鲁棒性估计器的所述拒绝阈值相关的拒绝阈值,两个拒绝阈值(cl,c2)等于基于3D模型对残余估计的该估计器的拒绝阈值。这样能够有利于该模型带来的约束,同时保存由环境图元带来的多图像约束。
[0040]可以利用大小已知且相对于该对象的参考系的平面之一来定位的目标(也称为标记器)半自动地执行初始姿态的计算,目标是位于平面之间且可以在图像中识别的一组3D图元,这使得能够固定三个自由度,并通过向模型上反向投影2D图元来获得初始重建。
[0041]根据本发明的一个特征,基于感兴趣对象的3D模型约束的图元和除对象之外的环境的图元,执行针对每个新图像计算相机姿态的步骤。
[0042]所述优化步骤之后可以为三角测量步骤,其中图元不受3D模型的约束。
[0043]在当前图像和上一关键图像之间配对的图元数量低于最小值时,仅针对所选择的关键图像执行优化和/或重建步骤。
[0044]优选利用局部光束法平差来有利地执行优化步骤,这样能够获得实时方法。
[0045]根据研究对象是否有纹理和/或无纹理,来选择受3D模型约束的图元。
【专利附图】

【附图说明】
[0046]在阅读结合附图给出并作为非限制性范例给出的以下详细描述时,本发明的其它特征和优点将变得明显,附图中:
[0047]图1示意性示出了根据现有技术来定位相机和3D重建的方法的主要步骤,
[0048]图2示意性示出了根据本发明来定位相机和3D重建的方法的主要步骤。
【具体实施方式】
[0049]本发明基于一种并入与场景中对象模型的知识相关的几何约束的改进SfM型的方法。场景,也称为环境,是静态的,并且对象在场景中不改变位置,尽管在由相机输入图像序列(视频)期间可以修改其自身,在视频期间感兴趣对象的元素可能被移动或去除。
[0050]以下描述是在定位相机(其轨迹的估计)和对其移动所处的3D环境的建模(或重建)的语境中给出的。
[0051]在下文中,对于环境,将在其已知部分(即对象模型)和环境的未知部分(其为模型之外的环境)之间得出区别。
[0052]本发明基于SfM方法。该SfM方法在其原始版本中与由E.Mouragnon, M.Lhuillier, M.Dhome, F.Dekeyser 和 P.Sayd 在 CVPR,2006 中的文章“Real timelocalization and3d reconstruction”中提出的相同,该方法用于感兴趣点,但可以应用于不同类型的图元。在其原始版本中,结合图1描述的这种常规SfM方法包括以下四个步骤:初始化(步骤A)、定位(步骤B)、重建(步骤D)、优化(步骤E)。应当直接注意,可以相继地或并行地执行最后三个步骤。
[0053]该初始化包括执行所观测场景的第一次3D重建以及计算相机的第一姿态(位置和旋转)。
[0054]该定位(也称为3D跟踪)包括根据已经重建的场景的3D图元与当前图像的2D图元的相关性计算相机的姿态。
[0055]该3D重建包括:将在先图像(2D跟踪)的图元与当前图像中检测到的图元相匹配,从而允许通过3D三角测量对图元(尤其是新图元)进行3D重建。
[0056]该优化使得能够细化3D场景重建和所估计的相机轨迹。该优化基于使非线性成本函数(在这种情况下为重投影误差)最小化,从而能够将图像中重投影的重建性图元与图像中观测到的那些图元最好地匹配。可以使用多种方法,可以提到的其中一种是光束法平差。此外,还可以通过使图像中的2D误差最小化来使用基于核面几何学的方法,并根据该方法首先优化轨迹, 在第二时间优化场景的重建。
[0057]出于实时性能的目的,3D重建和优化步骤并不对于所有图像执行,而仅对于被称为“关键图像”的特定图像执行(步骤C)。通过获得相机姿态之间相对位移与图像中匹配的图元数量之间的折中,以本领域技术人员的已知常规方式来选择它们,以有利于通过三角测量执行的3D重建。这相当于在当前图像和上一关键图像之间的匹配图元数量低于最小值时选择关键图像。
[0058]通常,利用光束法平差执行该优化阶段,这能够同时优化轨迹和重建。通过光束法平差进行优化使得重投影误差之和(即投影的3D图元和所检测的2D图元的距离之和)最小化。
[0059]利用以下表示,将详述基于光束法平差的优化阶段。
[0060]矢量被表达为统一的坐标。例如,q = (x,y,w)T,其中T被移项,且=在比例因子
之内相等。要细化的场景重建包括N个3D点和相机的m个姿态对于姿态
Ck,相机中观测的3D点Qi被表示为qi,k,且观测相机指数Qi的集合表示为K。与相机姿态
Ck相关联的投影矩阵匕由巧=/^,丨(/5|-^.;)给出,其中K为固有参数的矩阵,而(Rk;tk)是在
时刻k的相机姿态的参数。常规的光束法平差使得能够同时细化描述所观测场景的3D点和相机姿态。它使得图像中3D点的投影与其观测之间的平方距离之和最小化。这种几何距离被称为重投影误差ε。要优化的参数是N个3D点的三个坐标和相机m个姿态的六个非固有参数。于是参数的总数为3N+6m。成本函数由下式给出:
【权利要求】
1.一种用于定位相机和用于静态环境的3D重建的方法,所述相机在所述静态环境中移动,并且所述相机形成所述静态环境的图像,该环境包括3D模型是已知的感兴趣对象,所述方法包括以下步骤: -a/计算初始重建和所述环境中所述相机的初始姿态, -b/通过将所述环境的3D图元与每个新图像的2D图元相匹配并通过三角测量重建所述环境的3D图元,来针对每个新图像计算所述相机的姿态, -c/通过使多个图像上的重投影误差最小化,同时优化所述相机的姿态和所述3D图元, 其特征在于,所述3D模型是所述感兴趣对象的几何描述,所述重投影误差仅包括两种项,即与受所述3D模型约束的图元相关的第一种项和与除所述对象之外的环境的图元相关的第二种项,且优化步骤包括将图元与环境或与所述3D模型相关联的子步骤。
2.根据前述权利要求所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,利用呈现拒绝阈值的鲁棒性估计器,通过根据所述拒绝阈值自适应控制每种项的影响,来执行所述优化步骤。
3.根据前述权利要求所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,重投影误差的每种项都关联于与所述鲁棒性估计器的所述拒绝阈值相关的拒绝阈值,两个拒绝阈值(cl,c2)等于基于所述3D模型对残余估计的所述估计器的拒绝阈值。
4.根据前述权利要求之一所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,利用大小已知并相对于所述对象的参考系的平面之一来定位的目标半自动地执行所述初始姿态的计算,目标是位于它们之间并在图像中可识别的一组3D图元,且通过向所述模型上反向投影所述2D图元来获得所述初始重建。
5.根据前述权利要求之一所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,基于受所述3D模型约束的图元和除所述对象之外的所述环境的图元,来执行针对每个新图像计算所述相机的姿态的步骤。
6.根据前述权利要求之一所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,所述优化步骤之后为三角测量步骤,其中图元不受所述3D模型的约束。
7.根据前述权利要求之一所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,在当前图像和上一关键图像之间匹配的图元数量低于最小值时,仅针对选择的关键图像执行所述3D重建步骤和/或所述优化步骤。
8.根据前述权利要求之一所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,利用局部光束法平差执行所述优化步骤。
9.根据前述权利要求之一所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,所述图像来自实时视频流和事先录制的视频。
10.根据前述权利要求之一所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,所述感兴趣对象在特定图像中不可见,或者在图像之间被修改。
11.根据前述权利要求之一所述的用于定位相机和用于静态环境的3D重建的方法,其特征在于,根据所述对象是否有纹理和/或无纹理,来选择受所述3D模型约束的图元。
【文档编号】G06T7/00GK103635937SQ201280032553
【公开日】2014年3月12日 申请日期:2012年5月29日 优先权日:2011年5月30日
【发明者】M·塔玛祖斯蒂, S·布儒瓦, M·多姆, V·盖伊-贝利勒, S·诺代 申请人:原子能和辅助替代能源委员会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1