本发明涉及图像处理领域,尤其涉及基于语义先验和渐进式优化宽基线致密三维场景重建方法。
背景技术:
作为计算机视觉领域的一大研究热点,三维场景重建技术已被广泛研究并应用于航空航天,无人驾驶和数字娱乐等诸多领域中。传统的三维场景重建技术在多个不同视角拍摄的图像序列基础上,采用基于运动的结构恢复法(structurefrommotion,sfm)以递归的形式估计相机的姿态并将场景以稀疏点云或致密模型的形式加以三维呈现。实现该技术的关键问题之一是如何准确找到不同视角图像之间的对应关系。由于拍摄时相机的位置和姿态通常存在随意性,相机之间通常存在较大的运动变化(即相机光心之间存在较长的基线),造成不同视角间存在显著的遮挡和几何形变,从而大大增加图像匹配的难度,这就是经典的宽基线匹配问题。该问题经常存在于机器人视觉导航,航拍地图构建,增强现实等诸多应用领域中,具有重要的研究意义。
宽基线图像匹配问题最早于1998年由牛津大学机器人研究团队的pritchett和zisserman提出,此后诸多研究聚焦于设计更鲁棒的特征以用于估计本质矩阵。tuytelaars等人和xiao等人使用了仿射不变特征,而其他很多工作则使用了sift描述子以及强调速度的daisy描述子或者基于尺度不变的描述子。除此之外,bay等人和micusik等人分别使用了线段和由线段构成的矩形作为特征,而诸如mser或者纹理描述子等区域特征也在宽基线环境下被使用,还有的描述子设计更多考虑了应对遮挡的情况。在致密场景重建中,点和区域特征应用非常广泛,比如sift-flow,patch-match,空间金字塔匹配以及形变模型的使用都有助于宽基线环境的场景重建。总体上,基于区域的匹配是目前宽基线条件下的主流趋势之一,其具有比点和线等特征能更为鲁棒而精确地反映彼此相似度或差异性的特点。
值得注意的是,在sfm过程中基于三角化的几何估计方法要求相邻视角之间的相机运动较小,而这在宽基线条件下通常无法满足。目前,已有不少研究成果通过人工智能技术在单幅图像上实现了场景的深度估计,三维结构推理和语义标注等。一些研究开始利用单幅图像推理得到的语义信息,致力于改善传统基于多视角几何的深度估计,slam视觉导航系统的三维稀疏点云估计以及致密三维模型重建的精度。不过,迄今为主的绝大多数上述工作,无论是稀疏三维重建还是致密三维重建,几乎都还是基于窄基线的环境应用。传统基于几何的三维重建方法和语义的融合,开始成为发展趋势之一,而这也更符合人类对于场景的认知方式,而这也将在基于宽极线的三维重建中发挥作用。因此,提供一种在不同的宽基线环境且具备高精确度的三维重建方法,成为目前亟待解决的问题。
技术实现要素:
本发明的技术方案是:一种基于语义先验和渐进式优化宽基线致密三维场景重建方法,所述方法包括步骤:
s1、提供多幅不同视角的图像,将所有图像进行超像素分割,划分为具有局部同质性和非规则形状的超像素集合;
s2、获取图像中各个超像素的初始深度和不同视角图像之间的位置关系,将高层语义先验作为约束条件,将处于同一平面的相邻超像素区域进行区域合并;
s3、将合并的所有区域利用马尔可夫随机场模型进行深度估计,获取原始深度图;
s4、通过深度融合的方式丢弃错误的深度估计并将原始深度图中冗余的深度信息进行移除,获取最终三维场景。
较佳的,在步骤s2中,在进行区域合并时,利用马尔可夫随机场模型对不同视角图像中每个超像素平面的位置和朝向进行推理,以确定两幅待匹配图像中的两个超像素是否属于三维空间中的同一区域;
其中,将第nth幅图像中的第ith个超像素所对应的平面参数
其中,ψ为存在对应关系的图像对集合,
较佳的,能量函数的第一项的计算公式为:
其中,
较佳的,能量函数的第二项的计算公式为:
其中,
较佳的,能量函数的第三项的计算公式为:
在上式中,假设在图像m和n中存在jmn个匹配点对,
而
较佳的,能量函数的第四项的计算公式为:
在图像n中,有kn个点可以通过三角化获得近似的深度dt。
较佳的,在步骤s2中,利用马尔科夫随机场模型获取图像中各个超像素的初始深度和不同视角图像之间的相抵位置关系后,采用高层语义先验来分别作为超像素之间的新约束,再利用无监督分割法来实现区域合并。
较佳的,基于权重函数w(i,j)并利用无监督分割法来实现区域合并,其中:
在上式中,θij为两个相邻超像素i和j之间的各自法线
上述技术方案具有如下优点或有益效果:本申请中的方法采用mrf模型对不同视角图像中超像素的三维位置和朝向进行同时推理,并结合高层语义先验对三维重建的过程提供指导。与此同时,还使用了一种递归式框架以实现场景深度的渐进式优化。本文方法在不同的宽基线环境下均能够取得比传统方法更为稳定和精确的三维重建效果。
附图说明
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为本发明基于语义先验和渐进式优化宽基线致密三维场景重建方法的总体流程示意图;
图2为基于超像素的图像表示;
图3为平面参数α与射线r之间的二维几何关系;
图4为本发明基于语义先验和渐进式优化宽基线致密三维场景重建方法的流程框图;
图5为本发明基于语义先验和渐进式优化宽基线致密三维场景重建方法中超像素之间的共线性约束;
图6为本发明基于语义先验和渐进式优化宽基线致密三维场景重建方法中区域合并前后的深度图对比;
图7为本发明基于语义先验和渐进式优化宽基线致密三维场景重建方法中不同视角对应深度值之间的视觉关联;
图8为利用本发明的方法基于“stanfordi”数据集进行试验后三维场景模型对比图;
图9为利用本发明的方法基于“stanfordii”数据集进行试验后三维场景模型对比图;
图10为利用本发明的方法基于“stanfordiii”数据集进行试验后三维场景模型对比图;
图11为利用本发明的方法基于“stanfordiv”数据集进行试验后三维场景模型对比图;
图12为利用本发明方法基于不同数据集创建的三维场景模型。
具体实施方式
下面结合附图和具体实施例对本发明基于语义先验和渐进式优化宽基线致密三维场景重建方法进行详细说明。
如图1所示,一种基于语义先验和渐进式优化宽基线致密三维场景重建方法,包括步骤:
s1、提供多幅不同视角的图像,将所有图像进行超像素分割,划分为具有局部同质性和非规则形状的超像素集合;
s2、获取图像中各个超像素的初始深度和不同视角图像之间的位置关系,将高层语义先验作为约束条件,将处于同一平面的相邻超像素区域进行区域合并;
s3、将合并的所有区域利用马尔可夫随机场(markovrandomfield,mrf)模型进行深度估计,获取原始深度图;
s4、通过深度融合的方式丢弃错误的深度估计并将原始深度图中冗余的深度信息进行移除,获取最终三维场景。
具体来说,本发明采用已标定相机对结构化场景进行拍摄,并通过基于图的无监督分割算法将输入图像预先划分为具有局部同质性和非规则形状的超像素集合,如图2所示,。然后,采用的“二维超像素来自三维图像分块的投影”这一假设对于结构化场景是成立的,即三维图像分块必须位于穿越其二维投影的超像素边界的投影圆锥体和其所处的三维平面之间的重合区域。我们将投影到超像素的三维图像分块所对应的三维位置以及朝向进行参数化,用平面参数
在该平面上的任意点
为了确定两幅待匹配图像中的两个超像素是否属于三维空间中的同一区域,本文使用经典的马尔可夫随机场模型来对不同视角图像中每个超像素平面的位置和朝向进行推理。第nth幅图像中的第ith个超像素所对应的平面参数
在式(1)中,ψ为存在对应关系的图像对集合,
本文的宽基线致密三维场景重建算法采用如图4所示的递归式框架:通过mrf模型推理得到的深度将和高层语义先验一起被用于实现分割图中相似超像素区域的合并。合并后的分割图将被再次用于mrf模型来进行深度估计,最终的三维场景模型通过后期的多视角深度融合优化得到。
能量函数的第一项将平面参数αn建模为单幅图像特征xn的函数,并采用sfm算法中常用的相对误差作为评价标准对其进行惩罚,即计算估计得到的深度
上时中,θr为通过groundtruth深度数据学习得到的描述不同图像行特征统计属性的参数。对于特征
基于光度学的摄影一致性度量计算步骤如下:
(a)对不同视角投影得到的超像素进行基于光度学的归一化:计算第k个视角投影的超像素对应的色度向量:
(b)估计超像素投影的代价:通过基于线性核函数的帕森窗(parzenwindow),对于rgb颜色空间中的每个通道归一化后的像素分别计算具有20bin的统计直方图,并将上述直方图用向量hk进行表示。然后,利用chi-squared距离计算直方图之间的差异:
(c)寻找满足整个超像素的投影位于图像中且满足
为了最小化超像素中所有图像点的累积相对误差,我们对图像特征和超像素平面参数之间的关系进行建模,如式(5)所示。其中,θr∈r526,r=1,2,...,11为需要估计的参数特征向量,描述了二维图像中处于不同远近距离(即不同图像行r)的场景所对应的特征统计属性。
能量函数的第二项通过分析两个超像素i和j的平面参数之间的关系,从而对彼此的共线性,连接结构以及共面性上述三种属性分别进行建模,可通过式(6)对上述几何关系进行统一表述:
上式中n代表超像素对的集合。
上述方法通过沿着长直线段进行图像点的选择来对超像素之间的共线性进行约束,这同样有助于获取彼此之间并不直接相邻的区域之间的关系。我们选择两个位于某条直线段不同位置上的超像素i和j,那么将有无数条曲线可投影到二维图像平面中的该条直线上。然而,图像中的直线段在三维空间中同样很可能为直线段。为此,可在图像中选择一个位于该直线段上的图像点p,当p位于参数为αi的平面上时其三维位置为sj,而当其位于参数为αj的平面上时其三维位置则为s'j。该能量项惩罚了沿着
在式(7)中,
我们在超像素i和j的边界上选择两个像素点si和sj并且对它们之间的相对距离进行惩罚以实现连接性约束,从而确保它们之间是完全连接的。si和sj之间的相对距离定义如下,其形式与式(8)类似。其中,当两者没有相连接时,二值变量yij=0,当相互连接时则yij=1。
与超像素之间的连接性定义类似,本文在每个超像素的中心分别选择第三对像素点s”i和s”j来对彼此的共面结构进行约束。沿着射线
在式(9)中,
场景中的三维点通常会在多个不同的视角图像中出现,如果两幅图像中的两个像素点pn=(xn,yn,zn)和
p'n-pn=qmn[pm;1]-pn=qmn[rm/(rmtαm);1]-rn/(rntαn)(10)
根据式(10),我们可以得到如下的能量项定义:
在式(11)中,假设在图像m和n中存在jmn个匹配点对,而
近一步来讲,在步骤s2中,初始深度值的获取公式为:
在图像n中,有部分点可以通过三角化获得近似的深度dt。由于这些点的深度值不够精确,那么我们对深度dt和
我们在基于三角化的深度计算过程中利用单幅图像推理得到的深度以去除场景的尺度模糊性,然后使用光束平差法对得到的像素点关联进行优化。为此,本文采用如下方式:首先,计算128维surf特征,并利用欧氏距离计算像素点之间的关联。接着,使用光束平差法来计算相机的姿态
为了对超像素的平面参数α进行估计,我们需要对条件似然概率d(α|x,y,dt;θ)进行最大化。其中,所有的能量项d1,d2和d4对应于l1归一化项。为此,本文马尔可夫随机场模型的map推理可通过经典的线性规划算法进行求解。在求解时,本文采用了如下的近似方式:由于能量项d3(·)不是凸函数,那么首先通过线性规划计算得到
此外,在步骤s2中,通过mrf推理,我们便可以获取图像中各个超像素的初始深度和不同视角图像之间的相对位置关系。初始深度尽管并不十分精确,尤其对于较远距离的区域而言,但是其却有助于对相邻超像素之间的朝向关系形成了第一种相对可靠的约束c1,即:如果两个相邻的超像素具有相同的平面参数α,那么理论上上述两者很可能在图像中位于同一个平面上。利用该约束,我们可以将一开始通过无监督图像过分割得到的众多超像素进行合理地合并,进而减少图像中区域的不连续度。在本文中,两个相邻超像素i和j之间的关系可通过它们各自法线
与此同时,我们还分别采用了高层语义先验来分别作为超像素之间的新约束,即c2。对于c2而言,属于同一语义类的相邻超像素应以较高的概率从属于同一平面。那么,我们可定义如下的权重函数w(i,j):
在式(13)中,
图6给出了基于“mertoncollegeiii”图像集的一个典型例子。其中,图6(a)的第二幅和第三幅图像给出了区域合并前后的分割图对比,图6(b)给出了区域合并前后的图像语义标注结果对比,图6(c)的第一列和第二列图像则分别给出了场景的初始和最终深度图估计对比。不难看到,通过结合高层语义先验以及深度信息,处于同一平面的相邻超像素区域被更好地被合并在一起,并将其应用在下一次递归的深度估计中,并且值得注意的是其对于图像语义标注的改进也显而易见。从初始的深度图也可以看到,由于一开始的超像素划分存在很小尺寸的平面,因而更容易造成深度估计的不连续性,图中三维建筑模型的右侧就出现了上述非常显著的不连续性。不过,通过超像素合并,从最终的深度图可以看到上述的深度估计不连续性现象得到了显著改观。
近一步来讲,在步骤s4中,生成的原始深度图通常存在一定程度的误差,容易导致某个三维点在不同视角图像中对应于不同的深度值。为此,需要通过深度融合的方式丢弃错误的深度估计并将冗余的深度信息进行移除,从而得到更为精确和紧凑的深度估计。本文选择所有视角图像中位居正中的一个视角为参考视角(如果仅有两个视角则选取任意一侧的视角为参考视角),而将其余视角的深度图分别投影到该参考深度图中以用于分析不同的深度值与三维点之间的位置关系。在深度融合时,本文采用基于稳定性的融合策略。其中,每个深度值的稳定性度量可定义为遮挡参考视角中三维点的深度图个数与违反自由空间约束的深度图个数之间的差值。图7给出了参考视角对应的三维点和其余视角对应的三维点之间所存在的三种不同类型的视觉关联:(a)当视角i观察到的三维点a'在参考视角观察到的三维点a之前,即违反了a'的自由空间约束;(b)两个视角所观察到的为同一个点b=b';(c)参考视角观察到的三维点c被视角i观察到的三维点c'所遮挡。
在深度融合过程中,我们分别判断各个深度值的稳定度大小并对参考相机图像中的像素与其所对应三维地标的远近进行预测,最终融合得到的稳定深度值需要满足稳定度为非负且距离参考相机深度值最近的约束。对于得到的稳定深度图,将对其进行基于双边滤波的深度平滑以及空洞填充等后处理操作,进而实现更为精确的场景重建。
下面对上述方法的实验结果进行分析:
本申请不仅采用了斯坦福大学校园里的多组宽基线图像(“stanfordi,ii,iii和iv”)作为实验图像集,而且也加入了“mertoncollege”,“universitylibrary”,“wadhamcollege”等满足宽基线条件的多视角图像数据集。
由于很难得到场景的groundtruth三维模型,因此我们只通过定性的方式将本文算法与没有结合高层图像语义的经典多视角三维重建算法在如下的八个不同的宽基线图像集中进行比较以测试各自的性能。与此同时,采用了基于ransac优化的sift匹配来评价不同视角图像之间相机的运动姿态变化程度,并通过基于种子扩张的区域增长方法去除与三维场景模型无关的天空区域。
(1)“stanfordi”数据集
第一组数据集“stanfordi”仅由2幅图像组成,可以看到相机的主要运动为围绕光心的小幅度旋转运动,彼此之间通过sift匹配可以得到个38对特征对应点,可见严格意义上并不满足宽基线的条件。图8(a)和(b)分别给出了通过方法和本文方法得到的基于不同角度观测的场景模型。从图8(a)的右上图可以清晰地看到,远处大楼两个不同朝向的平面被推理为两块深度不同的区域。在图8(b)中,结合高层图像语义的本文方法所得到的大楼区域的深度变化则呈现出连续性,较为准确地描述了实际场景。
(2)“stanfordii”数据集
第二组数据集“stanfordii”由3幅图像组成,可以看到相机大体上同样进行了围绕光心的旋转运动,不过其旋转幅度显然大于“stanfordi”数据集,并且存在比较显著的平移运动。因此,通过sift匹配我们仅可以分别得到个8对和0对特征对应点。图9(a)和(b)分别给出了通过方法和本文方法得到的基于不同角度观测的场景模型。通过对比不难看到,本文方法更好地估计了不同视角图像之间的姿态关系,因而得到了更符合实际场景描述的场景重建结果,即不同视角所代表的建筑三维模型部分从俯视图上看基本处于同一水平线上,这从图10(a)和(b)的右上图对比可以看到。此外,本文方法得到的场景模型消除了原先不少深度杂乱表述的区域,但也会存在深度过度平滑的现象,比如建筑中央的圆门内部区域的深度被平滑为与两侧的墙壁相似,而这显然不符合实际情况。
(3)“stanfordiii”数据集
第三组数据集“stanfordiii”由2幅宽基线图像组成,可以看到相机同时进行了较大程度的旋转和平移运动。通过sift匹配同样无法得到特征对应点。图10(a)和(b)分别给出了通过方法和本文方法得到的基于不同角度观测的场景模型。通过对比不难看到,本文方法得到了更为精确的相机姿态估计结果,而这得益于基于高层语言先验的区域合并所带来的深度优化。而且,本文方法得到的三维场景模型更为准确地描述了建筑不同朝向面之间的几何关系。
(4)“stanfordiv”数据集
第四组数据集“stanfordiv”由4幅宽基线图像组成,不难看出相机同样进行了一系列大范围的旋转和平移运动。通过sift匹配我们仅能从前两幅图像中得到13对特征对应点,而在其他图像对中则同样无法得到任何特征对应点。图11(a)和(b)分别给出了通过方法和本文方法得到的基于不同角度观测的场景模型。在图11(a)中,左侧近处圆拱型大门的建筑前方的绿化带和地面处深度估计出现了不连续现象,而后侧远处的建筑和树木的深度估计则出现了大量错误,这一点从第二行的第二幅图像可以清晰看到。相比之下,本文方法则取得了显著的改进效果。在图11(b)中,本文方法得到的三维场景模型则消除了方法所存在的问题,不仅较为准确地估计了多个不同视角图像之间的相机运动姿态变化,而且获得的全局深度图很好地反映了真实的场景。
(5)其他宽基线图像集
此外,我们还通过“mertoncollegeiii”,“universitylibrary”和“wadhamcollege”以上三个经典的宽基线数据集来测试本文方法的性能。在图12中可以看到,针对室外结构化的场景在处于不同宽基线环境下,本文方法依然可以得到较为接近真实场景描述的三维模型。
在上述基于语义先验和渐进式优化宽基线致密三维场景重建方法中,具有以下几个特点:(1)将超像素作为几何图元进行图像表示。这样做的好处在于:首先,相比像素具有更大面积的超像素有助于降低弱纹理环境中区域关联的模糊性;其次,能够较好地反映场景中物体的真实边界以及深度的不连续性;第三,在能量最小化求解时,基于超像素的图节点数目要比基于像素的图节点数目少很多,计算复杂度较低;(2)在单幅图像基础上利用了丰富低层特征信息,而且还结合了高层语义先验来改善场景重建的效果;(3)通过递归的形式实现场景深度的优化。通过模型估计得到的场景深度结合语义先验以指导无监督图像分割,并将更新后的分割图用于下一次的深度估计。
在本申请中,展示了在宽基线条件下如何将多元图像特征与基于三角化的几何特征相结合以构建出精确的三维场景模型。本申请中的方法采用mrf模型对不同视角图像中超像素的三维位置和朝向进行同时推理,并结合高层语义先验对三维重建的过程提供指导。与此同时,还使用了一种递归式框架以实现场景深度的渐进式优化。实验证明,本文方法在不同的宽基线环境下均能够取得比传统方法更为稳定和精确的三维重建效果。
对于本领域的技术人员而言,阅读上述说明后,各种变化和修正无疑将显而易见。因此,所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容,都应认为仍属本发明的意图和范围内。