融合单视点场景分析的多视点三维场景重建方法及其系统的制作方法

文档序号:6585030阅读:323来源:国知局
专利名称:融合单视点场景分析的多视点三维场景重建方法及其系统的制作方法
技术领域
本发明涉及计算机视觉和图像处理技术领域,特别是针对三维场景重建问题中,
融合单视点场景分析的多视点三维场景重建方法及其系统。
背景技术
三维场景建模是计算机图形学关注的核心问题之一,传统手段是使用诸如3dMax等三维建模工具人工绘制场景模型,在通过纹理映射,把场景对应的照片作为纹理映射到模型上以生成具有真实感的场景模型。从计算机视觉角度讲,三维重建问题一直是计算机视觉理论研究的核心问题之一,它的理想目标就是能够从一幅图像(单目视觉)或多幅图像(多目视觉)恢复出场景中内容在三维空间中的大小、位置、姿态等信息,从而能够对图像所反应的整个场景的三维结构进行重建。 基于图像的建模(Image Based Model (IBM))是一种融合计算机视觉技术和计算机图形学技术的三维建模手段。随着计算机视觉技术中的从运动获取结构(SFM, StructureFrom Motion)和基于模型的重建(Model-based reconstruction)等技术的发展,进一步推动了基于图像的建模技术的发展。另一方面,基于样例的三维重建方法也是今年来计算机图形学中被研究工作者所关注的重建方法之一,它的优势在于直接利用现有数据库中所对应物体或物体部件的三维模型,从而不需要对物体完全从头开始建模,省去了大量的工作。但存在的问题是传统重建方法中,由于弱纹理区域造成的稀疏匹配问题,以及场景的复杂结构的难题都不能得到很好的解决。

发明内容
本发明的目的在于提供一种融合单视点场景分析的多视点三维场景重建方法及其系统,基于本发明,能够克服弱纹理造成的稀疏匹配问题,以及场景的复杂结构难题。
本发明一种融合单视点场景分析的多视点三维场景重建方法,包括如下步骤信息提取的步骤,对输入的原始图像序列分别进行基于多视点和单视点进行信息提取,获取初始语义信息和几何信息;参数估计步骤,依据所述初始语义信息和几何信息,基于先验概率模型及似然概率模型进行参数估计;三维场景重建步骤,依据所述参数估计的结果,重建所述原始图像序列所在场景的三维模型。 上述三维场景重建方法,优选所述信息提取步骤中,基于多视点获取初始语义信息和几何信息包括图像特征提取步骤,采用特征提取的算法,对所述原始图像序列进行特征提取,获取图像特征;稀疏的三维点云获取步骤,利用从运动获取结构的方法,计算表示所述第一图像特征的点在三维空间中的坐标,获取稀疏的三维点云。 上述三维场景重建方法,优选所述信息提取步骤中,基于多视点获取初始语义信息和几何信息还包括如下步骤视差图获取步骤,依据立体匹配的方法,获取所述原始图像序列中每个像素点的视差图。 上述三维场景重建方法,优选所述信息提取步骤中,基于单视点获取所述初始语义信息和几何信息包括语义标注步骤,将所述原始图像分割为多个图像块,依据提取的所述第一图像特征,采用分类器对所述多个图像块分别进行语义标注;语义区域匹配步骤,经过语义标注,图像中每个图像块获得到各自的语义标注;在多幅图像之间,根据图像特征的相似性以及语义标注的内容对不同图像之间的图像块进行相似性的比较;进而,对于两幅图像,获得图像块匹配对;对于多幅图像,获得图像块匹配组;模型选择步骤,从三维模型数据库中,选取与所述语义标注对应的物体类别模型,获取三维模型的假设。
上述三维场景重建方法,优选所述参数估计步骤中,所述三维模型的先验概率模型P(M)形式如下 iYM」=fii^"jfie罕「— e y/附,.,附y〃 ,i,j,k均为自然数其中,I为所述原始输入图像序列,M = (n, m" m2, , mn) , =仏,9》叫,
m2, . . . , mn为构成场景三维模型M中的n个子模型,每一子模型包括类别标签lt及该子模型在世界坐标下的位置及姿态标签9 i ;Pk(nk)表示关于第k类物体的子模型的个数nk的先验,ViOvnij)描述在整个三维模型中,子模型和其周围子模型之间,在包括物体类别、位置、姿态和尺度方面的一致性。 上述三维场景重建方法,优选所述参数估计步骤中,所述三维模型的似然概率模型P(llM)形式如下:iY/ I姊=fi/Y/ I m j =丄";^一|^/附,,_/;"">其中,其中,I为所述原始
输入图像序列,tOv fjl))表示三维模型与所述原始图像序列中对应部分的拟合程度;fi(I)表示子模型mi在原始图像序列中对应的图像特征。 上述三维场景重建方法,优选所述三维场景重建步骤中,重建三维场景所采用的概率模型为 M P(M|I) ^ P(I|M)P(M); M* = arg max p(/ I m) p(m); 其中,M*表示重建的所述原始图像序列所在场景的最优三维模型。 上述三维场景重建方法,优选所述三维场景重建步骤中,采用自底向上和自顶向
下的计算方法对三维场景进行语义信息和几何信息的融合,进而进行重建。 另一方法,本发明还提供了一种融合单视点场景分析的多视点三维场景重建系
统,包括信息提取的模块、参数估计模块和三维场景重建模块。其中,信息提取的模块用于
对输入的原始图像序列分别进行基于多视点和单视点进行信息提取,获取初始语义信息和
几何信息;参数估计模块用于依据所述初始语义信息和几何信息,基于先验概率模型及似
然概率模型进行参数估计;三维场景重建模块用用于依据所述参数估计的结果,重建所述
原始图像序列所在场景的三维模型。 相对于现有技术中,本发明具有如下有益效果 第一、提出了融合单视点场景分析的多视点三维场景重建的统一的数学模型表
示,从而使关于场景三维信息的理解可以在一个统一的框架下进行推理。 第二、从图像语义理解的角度为三位重建引入了场景的语义信息,从而能够克服
传统重建方法中,由于弱纹理区域造成的稀疏匹配问题,以及场景的复杂结构难题。
第三、由于采用结合自底向上和自顶向下的高效计算手段,所以计算的速度和精度也将大大提高。


图1为本发明融合单视点场景分析的多视点三维场景重建方法实施例的步骤流程图; 图2为本发明融合单视点场景分析的多视点三维场景重建系统实施例的结构示意图; 图2A为本发明融合单视点场景分析的多视点三维场景重建系统另一实施例的结构示意图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。 本发明在贝叶斯框架下融合多视点三维重建方法和单视点三维重建方法以及基本模型数据库,重构场景和对象物,以克服弱纹理造成的稀疏匹配以及场景复杂结构难题。其中,多视点三维重建方法包括从运动获取结构(SFM, Structure From Motion)以及立体匹配(SM, Stereo Matching),单视点三维重建方法包括基于单幅图像的建模(MFSI,modeling from asingle image)。 参照图1,图1为本发明融合单视点场景分析的多视点三维场景重建方法实施例的步骤流程图,包括如下步骤 信息提取的步骤IIO,对输入的原始图像序列分别进行基于多视点和单视点进行信息提取,获取初始语义信息和几何信息; 参数估计步骤120,依据所述初始语义信息和几何信息,基于先验概率模型及似然概率模型进行参数估计; 三维场景重建步骤130,依据所述参数估计的结果,重建所述原始图像序列所表示的三维场景。 下面详细说明本发明融合单视点场景分析的多视点三维场景重建方法。其中,信息提取步骤110中,包括 1)多视点信息提取采用已知的特征提取方法,获取原始图像序列的图像特征,主要利用Structure from Motion (SFM)的方法通过匹配特征,从图像序列中计算特征点在三维空间中的坐标,从而形成稀疏的三维点云;同时,也可以利用立体匹配的方法得到图像中每个像素点的视差图。 2)单视点信息提取在提取图像特征(外观特征和部分几何特征)的同时,对图像进行初始的标注,即使用训练好的分类器(如Adaboost或SVM等)在图像中标注出其内含的各类型物体。也就是说,使用分类器的对图像标注的结果即为物体类别。基于标注,可以获取(1)初始匹配对或匹配组;(2)三维模型假设。下面分别说明。
(1)初始匹配对或匹配组 经过语义标注,图像中每个图像决获得到各自的语义标注;在多幅图像之间,根据图像特征的相似性以及语义标注的内容对不同图像之间的图像块进行相似性的比较,从而获得图像块匹配对(对于两幅图像)或匹配组(对于多幅图像)。这部分的工作实则是介于单视点信息提取和多视点信息提取之间,通过在多幅图像之间验证语义标注、匹配图像土央,进而获得多幅图像之间各自单视点信息之间的关联。
(2)三维模型假设 而在三维图形基元库中,每一类物体都有各自的三维图形基元与其相对应,所以三维模型假设的获取实则就是根据标注结果从三维图形基元库中选取相应的三维基元模型即可。也就是说,基于这些标注我们可以从三维模型数据库中选取与之对应物体类别的三维图形基元模型假设,作为当前图像对应的各类物体的初始几何模型。 通过多视点信息提取后,获取的原始图像序列的信息可以包括图像特征、稀疏的三维点云、视差图。 通过单视点信息提取后,取的原始图像序列的信息可以包括初始匹配对或匹配组、三维模型假设。
然后将上述多视点及单视点信息提取获取的信息用于步骤120参数估计的步骤。 在具体说明参数估计步骤120之前,有必要对三维场景重建步骤130中,重建三维
场景依据的概率模型进行说明。这样,我们就可以知道,需要获取哪些信息来以完成依据概
率模型的三维场景的重建。 三维重建问题的形式化表示 我们把三维重建形式化为一个在贝叶斯理论框架下求取最大后验概率的问题,即在给定图像序列的条件下,计算一个最优的三维模型,使得该模型最能满足图像序列提供的三维信息的理解。该概率模型具有以下形式
M P (M 11) ^ P (I I M) P (M)M* = wgmoxiY/ I M,iY鄉 其中,I为输入图像序列,M是对图像的三维理解,即三维模型。该模型具有如下形式 M = (n, m2, . , mn)以及
mi = (li, 9》 上式M集合的含义为三维模型M由n个子模型构成,子模型由类别标签li指定它是哪一类物体(比如车辆、楼房、树木、行人等),及相应参数9 i指定该子模型在世界坐标下的位置及姿态。在执行过程中,依据类别标签从模型库中调用相应基本模型。需要指出的是,本算法所涉及的模型库,其中每个类别模型都是由一些3维模型基元构成,结构简单存储量小。 基于上述分析,对参数估计步骤120中,所涉及的先验概率模型和似然概率模型
进行具体说明。 先验模型 如公式1所示,为了估计三维模型,我们需要在贝叶斯理论框架下分别求得三维模型的先验P(M)和模型的似然P(llM)。 P(M)形式如下iYiK)= fip/wjfie^f- i: y/附(,w."
7
该先验模型由两部分组成,在第一部分中Pk(nk)表示关于第k类物体的子模型的个数nk的先验,在第二部分中ViOv nij)描述了在整个三维模型中,子模型和其周围子模型之间,在物体类别、位置、姿态和尺度等方面的一致性。例如车辆应该出现在公路上,路边的树木通常会在一排上,等等。
似然模型 似然模型P (I IM)形式如下 iy/1 * = fi/y/1=丄e孕f—f^/附, 该似然模型中,fjl))表示三维模型与原始图像序列中对应部分(的特征)的拟合程度。fi(I)表示子模型mi在原始图像序列中对应的图像特征,这些特征既包括外观特征(颜色、纹理、光照等),也包括几何特征(消失线、由立体匹配得到的密集视差图(disparity m即)或由Structurefrom Motion得到的稀疏三维点云等)。在对(J^Ovfi(I))进行计算时,外观特征可以帮助我们有效地判别当前图像区域更接近哪一类物体,从而为选择三维子模型提供依据。几何特征能够帮助我们精确地恢复三维模型在世界坐标系中的位置、姿态和尺度(例如,在进行子模型类别选择后,我们只知道应该选择人的模型还是楼的模型,但具体到楼的位置、朝向,以及楼地高度等这些信息都需要经由几何特征进行判断)。通过融合上述两种特征提供的信息,我们最终可以获得准确类别的三维子模型以及他们在世界坐标系中的位置、姿态和尺度参数,从而达到场景完整重建的目的。
并且,在三维场景重建步骤130中,关于模型计算的方法,其核心策略是融合多视点视觉处理和单视点视觉处理得到的信息,在贝叶斯理论框架下,利用自底向上和自顶向下的计算机制,通过最大化生成三维场景模型的后验概率来进行场景解析,并对其中各个物体进行三维重构,包括对模型的选取以及对其参数(位置、姿态、尺度)的求取。
在上面已经说明,本算法所涉及的三维模型库,其中每个类别模型都是由一些3维模型基元构成,结构简单存储量小。 而建立三维图形基元是形成最终场景模型的基础,同时也是快速计算三维模型的关键的前提(在计算过程中通过语义信息驱动基本三维模型基元的抽取)。这包括如何决定基元表示形式、属性和基元个体之间的关系集等。在这里,我们依据人的认知角度和现实环境的基本常识,借鉴参数化的GE0N模型的思想,手工设定常见的基元模型,包括不同类型的模型及其属性和不同模型之间的关系(互斥、相容等)。 上述实施例,融合单视点场景分析和多视几何的三维场景重建方法,并结合对场
景的语义理解和基本的三维图形库,实现对于场景的三维重建,具有如下优点 基于上述方法中涉及的似然概率模型,能够获取从场景中恢复的消失点、消失线
等单视点几何信息,以及多视点视图像能够提供的三维稀疏点、立体匹配获得的深度信息
等多目几何信息,而上述信息都是恢复三维场景的重要线索,能够有效克服传统重建方法
中,由于弱纹理区域造成的稀疏匹配问题;并且,引入了关于场景内容理解的语义信息来帮
助三维场景重建的进行,通过对单视点场景中景物的识别来驱动从基本的三维图形数据库
中抽取重建所需的图形基元。在整个算法的计算流程中,使用了一套结合自底向上和自顶
向下的计算方法,即单目几何信息抽取、多目几何信息抽取、基本三维图形基元抽取并行计
算,自底向上的提出关于场景三维空间信息的候选信息,再通过已有的关于场景理解的先
8验知识自顶向下的验证、优化场景模型计算的速度和精度也将大大提高。 参照图2,图2为本发明融合单视点场景分析的多视点三维场景重建系统实施例
的结构示意图,包括 信息提取模块20,对输入的原始图像序列分别进行基于多视点和单视点进行信息提取,获取初始语义信息和几何信息; 参数估计模块22,依据所述初始语义信息和几何信息,基于先验概率模型及似然概率模型进行参数估计; 三维场景重建模块24,用于依据所述参数估计的结果,重建所述原始图像序列所在场景的三维模型。 在信息提取模块20中,包括基于多视点的图像信息获取子模块和基于单视点的图像信息获取子模块。 根据前述方法实施例的描述,基于多视点的图像信息获取子模块用于采用已知的特征提取方法,获取原始图像序列的图像特征,主要利用SFM的方法通过匹配特征,从图像序列中计算特征点在三维空间中的坐标,从而形成稀疏的三维点云;同时,也可以利用立体匹配的方法得到图像中每个像素点的视差图。通过该模块,对原始图像序列进行多视点信息提取后,获取的原始图像序列的信息可以包括图像特征、稀疏的三维点云、视差图。
根据前述方法实施例的描述,基于单视点的图像信息获取子模块在提取图像特征(外观特征和部分几何特征)的同时,对图像进行初始的标注,即使用训练好的分类器(如Adaboost或SVM等)在图像中标注出其内含的各类型物体。也就是说,使用分类器的对图像标注的结果即为物体类别。基于标注,可以获取(1)初始匹配对或匹配组;(2)三维模型假设。下面分别说明。
(1)初始匹配对或匹配组 经过语义标注,图像中每个图像块获得到各自的语义标注;在多幅图像之间,根据图像特征的相似性以及语义标注的内容对不同图像之间的图像块进行相似性的比较,从而获得图像块匹配对(对于两幅图像)或匹配组(对于多幅图像)。这部分的工作实则是介于单视点信息提取和多视点信息提取之间,通过在多幅图像之间验证语义标注、匹配图像土央,进而获得多幅图像之间各自单视点信息之间的关联。
(2)三维模型假设 而在三维图形基元库中,每一类物体都有各自的三维图形基元与其相对应,所以
三维模型假设的获取实则就是根据标注结果从三维图形基元库中选取相应的三维基元模
型即可。也就是说,基于这些标注我们可以从三维模型数据库中选取与之对应物体类别的
三维图形基元模型假设,作为当前图像对应的各类物体的初始几何模型。 然后将上述多视点及单视点信息提取获取的信息用于参数估计模块22和三维场
景重建模块24,进而获取最优的三维场景模型。 上述参数估计模块22与三维场景重建模块24的工作原理与上述方法实施例中对应的参数估计的步骤以及三维场景重建步骤的原理一致,相关之处可以互相参照,在此不再赘述。 参照图2A,图2A为本发明融合单视点场景分析的多视点三维场景重建系统中,从原始图像序列的输入到三维场景重现模型的输出的工作原理示意图。其中,在图2A中,矩
9形框表示数据处理的操作,而平行四边形框数据,该数据可以为原始图像序列,也可以为经过处理产生的中间数据,还可以是最终输出的重建的三维模型。 原始图像序列输入,分别进行基于多视点的图像信息获取和基于单视点的图像信息获取。下面结合图2A分别介绍。 第一、基于多视点的图像信息获取子模块工作原理 该步骤是在信息提取模块20中的基于多视点的图像信息获取子模块中完成的。采用现有的特征提取算法,对原始图像序列进行特征提取,获取图像特征,然后主要利用Structure from Motion (SFM)的方法通过匹配特征,从图像序列中计算特征点在三维空间中的坐标,从而形成稀疏的三维点云;同时,也可以利用立体匹配的方法得到图像中每个像素点的视差图。 因此,于多视点的图像信息获取子模块获取的初始语义信息和几何信息除包括图像特征外,还包括稀疏的三维点云和视差图。这些,均可以用于参数估计模块22进行参数估计。主要是基于似然模型的估计。 第二、基于单视点的图像信息获取子模块工作原理 该步骤是在信息提取模块20中的基于单视点的图像信息获取子模块中完成的。
原始图像序列经过分割操作,分割为多个图像块,依据获取的原始图像特征,使用训练好的分类器(如Adaboost或SVM等)在标注出图像块表示的各类型物体。基于上述标注,可以进行语义区域匹配和模型选择的操作,从而,获取图像匹配对和三维模型假设的原始图形信息。该原始图形信息也作为参数估计模块22进行参数估计。主要是基于似然模型的估计。 在基于概率模型的参数估计的处理中,主要包括先验概率模型的参数估计和似然
概率模型的参数估计,然后,基于这两种概率模型的估计结果,在上述贝叶斯理论框架下求
取最大后验概率的问题,即在给定图像序列的条件下,计算一个最优的三维模型,使得该模
型最能满足图像序列提供的三维信息的理解。所求得的最优三维模型即为重建后的三维场
景。其中,先验概率模型的估计主要是先验训练数据经过先验训练后形成的。 其中,先验概率模型和似然概率模型,以及贝叶斯理论框架在上述方法实施例中
已经有详细的说明,在此不再赘述。相互之间互相参阅即可。 以上对本发明所提供的融合单视点场景分析的多视点三维场景重建方法及其系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
一种融合单视点场景分析的多视点三维场景重建方法,其特征在于,包括如下步骤信息提取的步骤,对输入的原始图像序列分别进行基于多视点和单视点进行信息提取,获取初始语义信息和几何信息;参数估计步骤,依据所述初始语义信息和几何信息,基于先验概率模型及似然概率模型进行参数估计;三维场景重建步骤,依据所述参数估计的结果,重建所述原始图像序列所在场景的三维模型。
2. 根据权利要求1所述的三维场景重建方法,其特征在于,所述信息提取步骤中,基于多视点获取初始语义信息和几何信息包括图像特征提取步骤,采用特征提取的算法,对所述原始图像序列进行特征提取,获取图像特征;稀疏的三维点云获取步骤,利用从运动获取结构的方法,计算表示所述第一图像特征的点在三维空间中的坐标,获取稀疏的三维点云。
3. 根据权利要求2所述的三维场景重建方法,其特征在于,所述信息提取步骤中,基于多视点获取初始语义信息和几何信息还包括如下步骤视差图获取步骤,依据立体匹配的方法,获取所述原始图像序列中每个像素点的视差图。
4. 根据权利要求3所述的三维场景重建方法,其特征在于,所述信息提取步骤中,基于单视点获取所述初始语义信息和几何信息包括语义标注步骤,将所述原始图像分割为多个图像块,依据提取的所述第一图像特征,采用分类器对所述多个图像块分别进行语义标注;语义区域匹配步骤,经过语义标注,图像中每个图像块获得到各自的语义标注;在多幅图像之间,根据图像特征的相似性以及语义标注的内容对不同图像之间的图像块进行相似性的比较;进而,对于两幅图像,获得图像块匹配对;对于多幅图像,获得图像块匹配组;模型选择步骤,从三维模型数据库中,选取与所述语义标注对应的物体类别模型,获取三维模型的假设。
5. 根据权利要求4所述的三维场景重建方法,其特征在于,所述参数估计步骤中,所述三维模型的先验概率模型P(M)形式如下<formula>formula see original document page 2</formula>其中,I为所述原始输入图像序列,M二 (n,mi,m2,…,mn),mi二仏,9》;m" m2,…,mn为构成场景三维模型M中的n个子模型,每一子模型包括类别标签li及该子模型在世界坐标下的位置及姿态标签9 i ;Pk(nk)表示关于第k类物体的子模型的个数nk的先验,ViOv mj)描述在整个三维模型中,子模型和其周围子模型之间,在包括物体类别、位置、姿态和尺度方面的一致性。
6. 根据权利要求5所述的三维场景重建方法,其特征在于,所述参数估计步骤中,所述三维模型的似然概率模型P(llM)形式如下1鄉=I附,J = —e孕f —其中,i为所述原始输入图像序列,小iOvfi(i))表示三维模型与所述原始图像序列中对应部分的拟合程度;fi(I)表示子模型mi在原始图像序列中对应的图像特征。
7. 根据权利要求6所述的三维场景重建方法,其特征在于,所述三维场景重建步骤中, 重建三维场景所采用的概率模型为<formula>formula see original document page 3</formula>其中,M*表示重建的所述原始图像序列所在场景的最优三维模型。
8. 根据权利要求7所述的三维场景重建方法,其特征在于,所述三维场景重建步骤中, 采用自底向上和自顶向下的计算方法对三维场景进行语义信息和几何信息的融合,进而进 行重建。
9. 一种融合单视点场景分析的多视点三维场景重建系统,其特征在于,包括 信息提取的模块,对输入的原始图像序列分别进行基于多视点和单视点进行信息提取,获取初始语义信息和几何信息;参数估计模块,依据所述初始语义信息和几何信息,基于先验概率模型及似然概率模 型进行参数估计;三维场景重建模块,用于依据所述参数估计的结果,重建所述原始图像序列所在场景 的三维模型。
全文摘要
本发明公开了一种融合单视点场景分析的多视点三维场景重建方法及其系统。所述方法包括对输入的原始图像序列分别进行基于多视点和单视点进行信息提取,获取初始语义信息和几何信息;依据所述初始语义信息和几何信息,基于先验概率模型及似然概率模型进行参数估计;依据所述参数估计的结果,重建所述原始图像序列所在场景的三维模型。本发明克服传统重建方法中,由于弱纹理区域造成的稀疏匹配问题,以及场景的复杂结构难题。
文档编号G06T17/00GK101719286SQ200910241800
公开日2010年6月2日 申请日期2009年12月9日 优先权日2009年12月9日
发明者张哲斌, 王亦洲, 高文 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1