基于同一场景散乱照片集的三维重构方法

文档序号：6471018阅读：222来源：国知局

专利名称：：基于同一场景散乱照片集的三维重构方法
技术领域：
：本发明属于虚拟现实技术与计算机视觉领域，具体地说是由同一场景的散乱照片进行三维重构，包括恢复相机的拍摄位置、方向和视域，以及稠密的3D场景点云模型，主要用于对PC或Internet上数码照片资源进行三维组织、以及基于图像的绘制与浏览等。技术背景计算机视觉中，多视图几何的三维重建理论和算法在过去的二十几年里已经得到了较成熟的发展，文献1—R.Hartley,andA.Zisserman,MultipleViewGeometryinComputerVision,CambridgeUniversityPress,2000.全面深入地推导并总结了相关理论和算法。针对相机已标定或未标定的不同情况，由一组特征对应同时恢复未知的三维场景结构和相机位置的方法(StructurefromMotion,SfM)都已得到成功应用。但是传统的三维重构通常针对的是序列图像，可由相机拍摄或从视频中提取序列图像帧，序列图像具备进行三维重构至关重要的良好性质l)相继图像间的相机中心距离(基线)小，小基线能保证较好的特征匹配；2)图像有序，非常有利于特征匹配、特征点跟踪串联的质量和效率，尤其是它们保证了相机较均匀规则的运动，这对三维重构计算和相机运动参数的恢复有着决定性影响。然而随着数字摄像技术与Internet的迅速发展，有不可计数的图像资源在传播与共享，这些图像的复杂性对基于图像的三维重构技术在Internet上的发展和应用提出了巨大挑战，这些无组织、未定标的图像可能拍摄年代不同，且具有不同光照、不同分辨率、不同图像质量，传统的三维重建方法已经远远不能满足这样的需求。文献2—M.BrownandD.Lowe，Unsupervised3dObjectRecognitionandReconstructioninUnorderedDataset，Proc.InternationalConf.on3DDigitalImagingandModeling,pp.56-63,2005.提出了一种无监督的基于无序图像库的三维物体识别与重建方法，首先利用SIFT特征算子在所有图像中寻找匹配，用RANSAC算法寻找满足基础矩阵约束的一致匹配，将每个匹配子集看作一个三维物体的构成，然后分别用SfM(StructurefromMotion)方法同时恢复相机运动和三维物体几何信息。但该方法存在缺陷有l)假设匹配错误率非常高，经过RANSAC算法剔除的错误匹配很少，计算的基础矩阵不可靠；2)以最佳匹配对作为SfM初始相机对，而不考虑退化情况极易导致病态估计；3)恢复的几何信息是稀疏三维特征点，远不能满足视觉需求。文献3~N.Snavely，S.Seitz,andR.Szeliski,PhotoTourism:ExploringPhotoCollectionsin3D,Proc.ACMTransactionsonGraphics,25(3):835-846，2006.利用特征匹配和SfM方法自动恢复相机姿态和场景的稀疏三维点，并结合视图变形、非真实感渲染等基于图像会制技术，开发了一个端到端3D照片浏览系统，即为微软公司产品Photosynth的前身。其三维重建方法类似文献2，主要改善了文献2方法的前两点缺陷1)提高了初始匹配特征域约束的比率与RANSAC估计中的错误概率，提高了计算可靠性；2)进行初始相机姿态估计，更合理地选择SfM过程的初始相机对，增加了对退化情况的检查，并利用EXIF数据中的焦距信息估计初始相机内参。但重建结果仍然是稀疏的三维场景点，通过增加图像的办法可以获得更多的三维特征点，但随着图像的增加，SfM过程的速度变的非常慢，根据文献3的实验数据，需要花几天的时间处理1千张照片。文献4—M.Lhuillier,andL.Quan，Aquasi-denseApproachtoSurfaceReconstructionfromUncalibratedImages,IEEETransonPatternAnalysisandMachineIntelligence,27(3》418-433，2005.提出了一种由未定标图像获取三维表面模型的准密方法。首先，通过由视差梯度和ZNCC置信约束的最佳匹配传播，获得准密对应像素；其次，通过局部单应约束重采样，获得子像素级别(8X8区域)的准密对应点；再次，利用RANSAC算法估计基础矩阵F，重新进行增加F约束的最佳匹配传播和重采样，获得准密对应点；最后，再利用RANSAC估计基础矩阵，并剔除异常准密对应点。该方法弥补了稀疏方法与稠密方法之间的空白，且增大了良好匹配的基线宽度，但同样不适用于复杂情况，仅在相机内参变化较小时，对较大基线的两幅视图能获得较好的准密匹配结果；当相机内参变换较大时，反而可能得到比稀疏匹配更糟糕的结果；此外，该方法时间开销较大。文献1中方法是针对序列图像的稀疏重建；文献2研究了基于无序图像的稀疏重建方法，得到的点模型不具有视觉表现力，且恢复的相机姿态可靠性差；文献3对文献2的方法进行了改进，获得了较好的稀疏场景模型，但为此复出了巨大的时间开销；文献4中方法能够重建出高密度的场景模型，但适用于序列图像的情况。上述各种方法均不能从同一场景的无序散乱照片重建出高密度的3D场景点云模型，能够有效地降低时间开销，同时保证相机姿态的可靠性。
发明内容本发明的技术解决问题克服现有技术的不足，提供一种基于同一场景散乱照片集的三维重构方法，该方法既能获得可靠的相机姿态估计，又能得到高密度的场景几何信息，且大大縮短了重构时间，降低时间开销，具有较高的重构效率，适合处理数据量较大的散乱照片集。本发明的技术解决方案基于同一场景散乱照片集的三维重构方法，分为3个阶段第1阶段，两两图像特征匹配与相对相机运动估计，该阶段分为4个步骤(1)对每两幅图像进行双向最近邻搜索与特征域约束，得到候选对应；(2)对候选对应进行视差域对应约束，得到假设对应；G)对假设对应进行图像坐标标准化，以本质矩阵作为参数模型，求假设对应的参数模型估计；再利用本质矩阵反约束假设对应，得到初步匹配；(4)分解本质矩阵得到相机运动的4组可能解，进行可容错正向深度约束，确定最终解；再利用相机运动反约束初步匹配，得到最终匹配；第2阶段，基于第1阶段的结果进行初始重构相机对量化选择，然后再使用标准的稀疏重构方法，同时恢复相机姿态和场景的稀疏几何信息；第3阶段，基于第2阶段的结果进行选择性准密匹配，再使用三角测量方法重建准密的3D场景点云模型。所述第1阶段的步骤(l)中双向最近邻搜索与特征域约束的方法为对于两幅图像(//,/》，首先，由用户设置正、逆向特征域约束比率巾，A;其次，对图像/7上的每个特征点p,在图像/2上寻找4个最近邻作为潜在匹配;然后，进行正向特征域约束将第.5个最近邻视为距离Q的误配，若潜在匹配距离与e/比值小于rt/，则为该潜在匹配在//上寻找1个最近邻；最后，进行逆向特征域约束:将第2个最近邻视为距离e2的误配，若最近邻距离与Q比值小于rt2，且此最近邻即为p，则接受该潜在匹配为候选对应。所述第l阶段的步骤(2)中视差域约束的方法为首先，为候选对应计算x，y两个方向上的视差；其次，将图像宽度、长度等分为量化区间，累计视差落在每个区间的对应数量，分别建立x,y方向上的视差直方图；然后，将峰值区间以及数量不少于峰值50%的次峰值区间视为正常视差范围，剔除x或y方向视差落在正常范围之外的候选对应；最后，剔除所有非单射对应，获得假设对应。所述第l阶段的步骤(3)中图像坐标标准化的方法为首先，从数码照片的可交换图像文件标记，即EXIF标记中直接读出相机拍摄焦距a，图像尺寸宽Wimg和高Himg，并根据读出的相机制造商和型号，对照工业标准得到CCD尺寸宽Wecd,和Hccd;然后，近似估计相机内参，将假设对应点坐标左乘以内参矩阵的逆矩阵，实现图像坐标的标准化。所述第l阶段的步骤(4)中可容错正向深度约束的方法为分解本质矩阵得到相机运动的4组可能解中，如果存在1组对所有对应点均满足正向深度约束，则该组运动即为所求；否则设置允许误差率，如果存在1组相机运动满足正向深度约束的对应点数为4组中最大，且与对应点总数的比值不超过允许误差率，则接受该组解，为最终解；否则宣布运动估计失败。所述第2阶段中初始重构相机对的量化选择方法为基于两两匹配和相机运动估计结果，得到基线宽度b和最终匹配数量n，按照公式Sr=(n-Nmin)x(Nmax-n)xb计算重构优先值Sr，其中Nmin、Nmax为最佳匹配范围的下限与上限；选择Sr最大^]一对作为初始重构相机对。所述第3阶段中选择性准密匹配的方法为基于稀疏重构过程中已恢复的相机内参和相机运动，评估每幅图像与基准图像之间的准密重构配置，得到焦距差J/^l和基线宽度b，按照公式D^(b-BmJx(B^-b)Xl/lf-f。l计算准密重构值Dr,其中Bmin、Bm狀为最佳基线范围的下限与上限；选择Dr大于准密重构阀值Dth的图像对进行准密匹配。本发明与现有技术相比的优点在于(1)本发明的相机姿态重构结果的稳定性与准确性获得较大提高，由于提高了图像匹配以及对极约束关系模型估计方法的准确性，增加了对退化情况的避免、检测和处理方法，保证了最佳初始相机对和特征序列的可靠性，从而极大地减少了同时恢复相机运动和场景几何的三维重构方法，即SfM方法的累计误差和病态估计可能。(2)本发明的场景几何重构结果突破了稀疏的局限，获得了高密度的场景几何信息，具体为准密的3D场景点云模型，能够更形象直观的表示场景几何，从而更好地满足虚拟现实与可视化应用的需求。(3)本发明的重构思想打破了一次性获得场景几何和相机运动的思路，进行两次三维重构，每次以不同的重构目标为中心。第一次重构以相机恢复为中心，同时恢复稀疏的场景几何信息；第二次重构目标是恢复稠密的场景几何信息，具体为准密的3D场景点云模型。极大地克服了由于相机运动和场景几何重构结果相互影响而造成的累积误差，从而保证既能获得更加可靠的相机姿态估计，又能得到高密度的场景几何信息。(4)本发明的重构效率取得了明显进步，虽然有两次重构过程，但第一次重构利用SfM方法以准确、少量的特征点序列为输入，且每次恢复相机个数l<Cnew<4;第二次重构利用第一次重构恢复的枏机运动，有选释性地进行准密特征匹配，保证了最佳匹配效率，且不采用SfM方法，直接利用三角测量法进行重构计算，使得本发明具有较高的计算效率和稳定性。总之，本发明既能获得可靠的相机姿态估计，又能得到高密度的场景几何信息，且大大縮短了重构时间，具有较高的重构效率，适合处理数据量较大的散乱照片集。图1为本发明基于同一场景散乱照片集的三维重构方法流程图；图2为采用本发明对128张北京天安门个人数码照片收藏进行的三维重建效果图。具体实施方式如图1所示，本发明的具体步骤如下(虚线框内步骤为已有技术)1、对每两幅图像进行双向最近邻搜索与特征域约束，得到候选对应。双向最近邻搜索与特征域约束的优点在于两两图像特征匹配时，在正向搜索更多潜在匹配，在逆向加强约束，既能获得较多的候选对应，又提高了正确率，其方法为对于两幅图像(/7,/2)，对//上的每个特征点/,，求其在A上的候选对应点，步骤如下第一步，用户设置正、逆向特征域约束比率分别为，rt2;第二步，在/2上寻找;,的1<=5个最近邻;7,7-/^，与;,距离为《-A，对于/^=7,...,",若满足《站〈W/;第三步，在//上寻找&的k=2个最近邻a,;^，与距离为《7,&，若满足《7",.2<W2且P(/尸P第四步，接受<^，^>为候选对应。2、对候选对应进行视差域对应约束，得到假设对应。-视差域对应约束有优点在于利用运动一致性约束筛选候选对应，得到假设对应，弥补了特征域约束的不足，有效剔除异常匹配，其方法如下对于两幅图像/》的候选对应集(〈;,';V,/V^,;V〉l(Xi〈n,;(Kj〈5):第一步，分别计算x,y方向上的视差l;c,-;c&l和|乂-力|;第二步，将图像宽度W和长度h等分为W和bh个量化区间，累计视差落在每个区间的对应数量，分别建立x，y方向上的视差直方图；第三步，认为峰值区间以及数量不少于峰值50%的次峰值区间范围为正常视差范围，剔除x或y方向视差落在正常范围之外的候选对应；第四步，剔除所有非单射对应，输出(/7,/2)的假设对应集。3、对假设对应进行图像坐标标准化，以本质矩阵作为参数模型，求假设对应的参数模型估计；再利用本质矩阵反约束假设对应，得到初步匹配。图像坐标标准化不同于坐标归一化，能够直接求得标准化的图像坐标，极大地提高了本质矩阵估计的可靠性。对数码照片进行近似内参估计，通过消除不同相机内参的影响，达到图像坐标标准化的目标，且通过ransac参数模型估计直接求得本质矩阵，可直接进行下一步运动提取，步骤如下第一步，利用数码照片exif标记信息进行近似内参估计，计算方法为<formula>formulaseeoriginaldocumentpage9</formula>其中，fl(mm)相机拍摄焦距，J^g(pixel),/^g(pixel)分别为图像宽、高，均可直接从EXIF数据中读出；『c"mm),//caKmm)分别为数码相机CCD的宽、高，可从EXIF数据中获得相机制造商和型号，然后按照工业标准找到对应的CCD尺寸；第二步，设图像/;,/2的近似内参估计为KpK2，进行图像坐标标准化，转换公式为/7,4厂V,;々喝、；第三步，标准化坐标下的基础矩阵F称为本质矩阵E，根据对极几何约束关系p/五/产0，利用RANSAC方法进行参数模型估计求E;第四步，同时用E约束假设对应，剔除异常匹配，获得精确对应。4.分解本质矩阵得到相机运动的4组可能解，进行可容错正向深度约束，确定最终解；再利用相机运动反约束初步匹配，得到最终匹配。输入包含n对标准化坐标下的精确对应点集合，以及本质矩阵E，SVD分解五-t/fi^g(7,/，^^，得到4组可能的相机运动[RIt];第一步，对所有对应点进行正向深度约束。设<table>tableseeoriginaldocumentpage9</column></row><table>每组相机，对每对对应点进行深度计算力Wr广/凡K7,，如果存在一组相机运动对所有对应点均满足Z户O且Z2>0，则该组运动即为所求；否则，第二步，设置rtneg为允许误差率，如果一组相机运动满足ZPK)且Z2X)的对应点数Tneg为4组中最大，且Tneg/lKrtneg，则接受该组运动，为最终解；否则执行第三步；第三步，宣布运动提取失败。5.基于第1阶段的结果进行初始重构相机对量化选择，然后再使用标准的稀疏重构方法，同时恢复相机姿态和场景的稀疏几何信息。同时恢复相机姿态和场几何的方法，即SfM方法，需要基于一个良好的初始重建结果，所以需要选择一对最佳初始相机来决定参考坐标系第一个相机作为世界坐标系，该相机可以由用户选择，因为选择一幅正面中央的场景照片作为世界坐标系是符合用户愿望的，而由算法选择出的可能是边角侧面。第二个相机的选择基于两两匹配与相对运动估计的结果。初始相机对需要具备的两个条件'条件l:较多的特征匹配；条件2:宽基线(两个相机中心的直线距离)。本发明给出的方法是计算重构优先值，选择优先值最大的一对。设b为基线宽度，n为最终匹配数量，Nmin、Nmax为最佳匹配范围的下限与上限，具体计算公式为Sr=("-Nmin)x(Nmax-")xb6.基于第2阶段的结果进行选择性准密匹配，再使用三角测量方法重建准密的3D场景点云模型。根据稀疏重构的结果计算每幅图像与基准图像之间的准密重构值，对达到准密重构阈值的图像对进行准密匹配，既发挥了准密匹配扩大基线的优势，又极大地避免了耗时的退化情况。本发明给出的方法是将文献4提出的准密方法有选择地应用于输A^的散乱照片集中。由于该方法可增大良好匹配的基线宽度，但仅在相机内参变化较小时有效；当相机内参变换较大时，反而可能得到比稀疏匹配更糟糕的结果；且该方法时间开销较大，需要根据相机内参和相机运动情况选择合适的图像对进行准密匹配，图像对需要满足的两个条件条件l:相机内参变化"较小"；条件2:相机运动"适中"。本发明给出的方法是计算准密重构值，选择达到准密重构阈值的图像对进行准密匹配。设J/^I为每幅图像与基准图像之间焦距差，b为基线宽度，Bmin、Bm双为最佳基线范围的下限与上限，具体计算公式为Dr=(b-Bmin)x(Bmax-b)x]/|f-fJ;图2是使用128张北京天安门的数码照片个人收藏作为输入，用本发明方法进行三维重构的例子。重构总时间约75分钟，有85张照片的相机姿态得到恢复并注册到场景中，其中18对被选择进行准密匹配，并通过三角测量方法进行重构计算得到最终的准密的三维场景点云模型。图中的相机被渲染成棱台，可跟据当前视点以不同分辨率和不透明度进行渲染，可应用与照片的空间组织与浏览。权利要求1、基于同一场景散乱照片集的三维重构方法，其特征在于所述的重构方法分为3个阶段，具体如下第1阶段，两两图像特征匹配与相对相机运动估计，该阶段分为4个步骤(1)对每两幅图像进行双向最近邻搜索与特征域约束，得到候选对应；(2)对候选对应进行视差域对应约束，得到假设对应；(3)对假设对应进行图像坐标标准化，求假设对应的参数模型估计，得到本质矩阵；再利用本质矩阵反约束假设对应，得到初步匹配；(4)分解本质矩阵得到相机运动的4组可能解，进行可容错正向深度约束，确定最终解；再利用相机运动反约束初步匹配，得到最终匹配；第2阶段，基于第1阶段的结果进行初始重构相机对量化选择，然后再使用标准的稀疏重构方法，同时恢复相机姿态和场景的稀疏几何信息；第3阶段，基于第2阶段的结果进行选择性准密匹配，再使用三角测量方法重建准密的3D场景点云模型。2、根据权利要求1所述基于同一场景散乱照片集的三维重构方法，其特征在于所述第l阶段的步骤(1)中双向最近邻搜索与特征域约束的方法为对于两幅图像//,/2,首先，由用户设置正、逆向特征域约束比率m,其次，对图像7/上的每个特征点;，在图像/2上寻找4个最近邻作为潜在匹配；然后，进行正向特征域约束将第5个最近邻视为距离q的误配，若潜在匹配距离与。比值小于W/，则为该潜在匹配在力上寻找1个最近邻；最后，进行逆向特征域约束将第2个最近邻视为距离^的误配，若最近邻距离与^比值小于Wj，且此最近邻即为/，则接受该潜在匹配为候选对应。3、根据权利要求1所述基于同一场景散乱照片集的三维重构方法，其特征在于所述第l阶段的步骤(2)中视差域约束的方法为首先，为候选对应计算X，y两个方向上的视差；其次，将图像宽长等分为量化区间，累计视差落在每个区间的对应数量，分别建立x,y方向上的视差直方图；然后，将峰值区间以及大于峰值50%的次峰值区间视为正常视差范围，剔除x或y方向视差落在正常范围之外的候选对应；最后，剔除所有非单射对应，获得假设对应。4、根据权利要求1所述基于同一场景散乱照片集的三维重构方法，其特征在于所述第l阶段的步骤(3)中图像坐标标准化的方法为首先，从数码照片的可交换图像文件标记，即EXIF标记中直接读出相机拍摄焦距a，图像尺寸宽Wimg和高Himg，并根据读出的相机制造商和型号，对照工业标准得到CCD尺寸宽Wecd，和Hccd;然后，近似估计相机内参，将假设对应点坐标左乘以内参矩阵的逆矩阵，实现图像坐标的标准化。5、根据权利要求l所述基于同一场景散乱照片集的三维重构方法，其特征在于所述第l阶段的步骤(4)中可容错正向深度约束的方法为分解本质矩阵得到相机运动的4组可能解中，如果存在1组对所有对应点均满足正向深度约束，则该组运动即为所求；否则设置允许误差率，如果存在1组相机运动满足正向深度约束的对应点数为4组中最大，且与对应点总数的比值不超过允许误差率，则接受该组解，获得最终解；否则宣布运动估计失败。6、根据权利要求1所述基于同一场景散乱照片集的三维重构方法，其特征在于所述第2阶段中初始重构相机对的量化选择方法为基于两两匹配和相机运动估计结果，得到基线宽度b和最终匹配数量n，按照公式Sr=(n画Nmin)x(Nmax-n)xb计算重构优先值Sr，其中Nmin、Nm双为最佳匹配范围的下限与上限；选择Sr最大的一对作为初始重构相机对。7、根据权利要求1所述基于同一场景散乱照片集的三维重构方法，其特征在于所述第3阶段中选择性准密匹配的方法为基于稀疏重构过程中己恢复的相机内参和相机运动，评估每幅图像与基准图像之间的准密重构配置，得到焦距差l/^l和基线宽度b，按照公式Dr-(b-B^)X(B^-b)Xl/lf-f。l计算准密重构值Dr，其中B^、Bmax为最佳基线范围的下限与上限；选择Dr大于准密重构阀值Dth的图像对进行准密匹配。全文摘要基于同一场景散乱照片集的三维重构方法，分为3个阶段第1阶段，两两图像特征匹配与相对相机运动估计；该阶段分为4个步骤(1)对每两幅图像进行双向最近邻搜索与特征域约束，得到候选对应；(2)对候选对应进行视差域对应约束，得到假设对应；(3)对假设对应进行图像坐标标准化，求满足假设对应的本质矩阵估计；(4)分解本质矩阵得到相机运动的4组可能解，进行可容错正向深度约束确定最终解；第2阶段，基于第1阶段的结果选择最佳初始重构相机对，使用标准的稀疏重构方法，同时恢复相机姿态和场景的稀疏几何信息；第3阶段，基于第2阶段的结果进行选择性准密匹配，使用三角测量方法重建准密的3D场景点云模型。本发明既能获得可靠的相机姿态估计，又能得到高密度的场景几何信息，且大大缩短了重构时间，具有较高的重构效率，适合处理数据量较大的散乱照片集。文档编号G06T11/00GK101398937SQ200810224978公开日2009年4月1日申请日期2008年10月29日优先权日2008年10月29日发明者爽何,沈旭昆,越齐申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：齐越;沈旭昆;何爽
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：用于实现多语模拟键盘的系统及方法
上一篇：一种指纹识别的计算机系统及其指纹识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。