基于深度相机进行室内完整场景三维重建的方法及系统与流程

文档序号:12787383阅读:609来源:国知局
基于深度相机进行室内完整场景三维重建的方法及系统与流程

本发明涉及计算机视觉技术领域,具体地,涉及一种基于消费级深度相机进行室内完整场景三维重建的方法及系统。



背景技术:

室内场景高精度三维重建是计算机视觉中具有挑战性的研究课题之一,涉及计算机视觉、计算机图形学、模式识别、最优化等多个领域的理论与技术。实现三维重建有多种途径,传统方法是采用激光、雷达等测距传感器或结构光技术来获取场景或物体表面的结构信息进行三维重建,但这些仪器大多价格昂贵并且不易携带,所以应用场合有限。随着计算机视觉技术的发展,研究者们开始研究使用纯视觉的方法进行三维重建,其中涌现出来了大量有益的研究工作。

消费级深度摄像机Microsoft Kinect推出后,人们可以直接利用深度数据比较便捷地进行室内场景三维重建。Newcombe等人提出的KinectFusion算法利用Kinect来获取图像中各点的深度信息,通过迭代近似最近邻点(Iterative Closest Point,ICP)算法将三维点在当前帧相机坐标系下的坐标与在全局模型中的坐标进行对齐来估计当前帧相机的姿态,再通过曲面隐函数(Truncated Signed Distance Function,TSDF)迭代进行体数据融合,得到稠密的三维模型。虽然Kinect获取深度不受光照条件和纹理丰富程度的影响,但其深度数据范围只有0.5-4m,而且网格模型的位置和大小是固定的,所以只适用于局部、静态的室内场景。

基于消费级深度相机进行室内场景三维重建,一般存在以下几个问题:(1)消费级深度相机获取的深度图像分辨率小、噪声大使得物体表面细节难以保持,而且深度值范围有限不能直接用于完整场景三维重建;(2)相机姿态估计产生的累积误差会造成错误、扭曲的三维模型;(3)消费级深度相机一般都是手持式拍摄,相机的运动状态比较随意,获取的数据质量有好有坏,影响重建效果。

为了进行完整的室内场景三维重建,Whelan等人提出了Kintinuous算法,其是对KinectFusion的进一步扩展。该算法使用ShiftingTSDFVolume循环利用显存的方式解决大场景重建时网格模型显存消耗的问题,并通过DBoW寻找匹配的关键帧进行闭环检测,最后对位姿图和模型做优化,从而得到大场景三维模型。Choi等人提出了Elastic Fragment思想,先将RGBD数据流每隔50帧做分段,对每段单独做视觉里程计估计,从两两段间的点云数据中提取几何描述子FPFH寻找匹配进行闭环检测,再引入line processes约束对检测结果进行优化、去除错误的闭环,最后利用优化后的里程计信息进行体数据融合。通过分段处理和闭环检测实现了室内完整场景重建,但是没有考虑保留物体的局部几何细节,而且这种固定分段的方法在进行真实室内场景重建时并不鲁棒。Zeng等人提出了3D Match描述子概念,该算法先将RGBD数据流进行固定分段处理并重建得到局部模型,从每个分段的3D模型上提取关键点作为3D卷积网络(ConvNet)的输入,用该网络学习得到的特征向量作为另一矩阵网络(Metric network)的输入,通过相似度比较输出匹配结果。由于深度网络具有非常明显的特征学习优势,相对其他描述子用3D Match来做几何配准可以提高重建精度。但这种方法需要先进行局部三维重建,利用深度学习网络来做几何配准,再输出全局三维模型,而且网络训练需要大量的数据,整个重建流程效率较低。

在提高三维重建精度方面,Angela等人提出了VSBR算法,其主要思想是利用明暗恢复形状(Shape from Shading,SFS)技术对TSDF数据进行分层优化后再进行融合,以解决TSDF数据融合时过度平滑导致物体表面细节丢失的问题,从而得到较为精细的三维结构模型。但这种方法只对理想光源下的单体重建比较有效,室内场景由于光源变化较大精度提升不明显。

有鉴于此,特提出本发明。



技术实现要素:

为了解决现有技术中的上述问题,即为了解决如何提高室内场景下三维重建精度的技术问题,提供一种基于消费级深度相机进行室内完整场景三维重建的方法及系统。

为了实现上述目的,一方面,提供以下技术方案:

一种基于消费级深度相机进行室内完整场景三维重建的方法,该方法可以包括:

获取深度图像;

对所述深度图像进行自适应双边滤波;

对滤波后的深度图像进行基于视觉内容的分块融合和配准处理;

根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型。

优选地,所述对所述深度图像进行自适应双边滤波具体包括:

根据下式进行自适应双边滤波:

其中,所述u和所述uk分别表示所述深度图像上的任一像素及其领域像素;所述Z(u)和所述Z(uk)分别表示对应所述u和所述uk的深度值;所述表示滤波后对应的深度值;所述W表示在领域上的归一化因子;所述ws和所述wc分别表示在空间域和值域滤波的高斯核函数。

优选地,所述在空间域和值域滤波的高斯核函数根据下式来确定:

其中,所述δs和所述δc分别是空间域和值域高斯核函数的方差;

其中,所述δs和所述δc根据下式来确定:

其中,所述f表示所述深度相机的焦距,所述Ks和所述Kc表示常数。

优选地,所述对滤波后的深度图像进行基于视觉内容的分块融合和配准处理具体包括:基于视觉内容对深度图像序列进行分段,并对每一分段进行分块融合,且所述分段间进行闭环检测,对闭环检测的结果做全局优化。

优选地,所述基于视觉内容对深度图像序列进行分段,并对每一分段进行分块融合,且所述分段间进行闭环检测,对闭环检测的结果做全局优化具体包括:

基于视觉内容检测自动分段方法对深度图像序列进行分段,将相似的深度图像内容分在一个分段中,并对每一分段进行分块融合,确定所述深度图像之间的变换关系,并根据所述变换关系在段与段之间做闭环检测,以实现全局优化。

优选地,所述基于视觉内容检测自动分段方法对深度图像序列进行分段,将相似的深度图像内容分在一个分段中,并对每一分段进行分块融合,确定所述深度图像之间的变换关系,并根据所述变换关系在段与段之间做闭环检测,以实现全局优化,具体包括:

采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息;

根据所述相机位姿信息,将由所述每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与初始帧的深度图像进行相似度比较,并当相似度低于相似度阈值时,初始化相机位姿,进行分段;

提取每一分段点云数据中的PFFH几何描述子,并在每两段之间进行粗配准,以及采用GICP算法进行精配准,得到段与段之间的匹配关系;

利用每一分段的位姿信息以及所述段与段之间的匹配关系,构建图并采用G2O框架进行图优化,得到优化后的相机轨迹信息,从而实现所述全局优化。

优选地,所述根据所述相机位姿信息,将由所述每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与初始帧的深度图像进行相似度比较,并当相似度低于相似度阈值时,初始化相机位姿,进行分段,具体包括:

步骤1:计算所述每帧深度图像与第一帧深度图像的相似度;

步骤2:判断所述相似度是否低于相似度阈值;

步骤3:若是,则对所述深度图像序列进行分段;

步骤4:将下一帧深度图像作为下一分段的起始帧深度图像,并重复执行步骤1和步骤2,直至处理完所有帧深度图像。

优选地,所述步骤1具体包括:

根据投影关系和任一帧深度图像的深度值,并利用下式计算所述深度图像上每个像素所对应的第一空间三维点:

p=π-1(up,Z(up))

其中,所述up是所述深度图像上的任一像素;所述Z(up)和所述p分别表示所述up对应的深度值和所述第一空间三维点;所述π表示所述投影关系;

根据下式将所述第一空间三维点旋转平移变换到世界坐标系下,得到第二空间三维点:

q=Tip

其中,所述Ti表示第i帧深度图对应空间三维点到世界坐标系下的旋转平移矩阵;所述p表示所述第一空间三维点,所述q表示所述第二空间三维点;所述i取正整数;

根据下式将所述第二空间三维点反投影到二维图像平面,得到投影后的深度图像:

其中,所述uq是所述q对应的投影后深度图像上的像素;所述fx、所述fy、所述cx和所述cy表示深度相机的内参;所述xq、yq、zq表示所述q的坐标;所述T表示矩阵的转置;

分别计算所述起始帧深度图像和任一帧投影后的深度图像上的有效像素个数,并将两者比值作为相似度。

优选地,所述根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型具体包括:根据所述处理结果,利用截断符号距离函数网格模型融合各帧的深度图像,并使用体素网格来表示三维空间,从而得到室内完整场景三维模型。

优选地,根据所述处理结果,利用截断符号距离函数网格模型融合各帧的深度图像,并使用体素网格来表示三维空间,从而得到室内完整场景三维模型,具体包括:

基于噪声特点与兴趣区域模型,利用Volumetric method框架进行所述截断符号距离函数数据加权融合;

采用Marching cubes算法进行Mesh模型提取,从而得到所述室内完整场景三维模型。

优选地,所述截断符号距离函数根据下式来确定:

fi(v)=[K-1zi(u)[uT,1]T]z-[vi]z

其中,fi(v)表示截断符号距离函数,也即网格到物体模型表面的距离,正负表示该网格是在表面被遮挡一侧还是在可见一侧,而过零点就是表面上的点;所述K表示所述相机的内参数矩阵;所述u表示像素;所述zi(u)表示所述像素u对应的深度值;所述vi表示体素。

优选地,所述数据加权融合根据下式进行:

其中,所述v表示体素;所述fi(v)和所述wi(v)分别表示所述体素v对应的截断符号距离函数及其权值函数;所述n取正整数;所述F(v)表示融合后所述体素v所对应的截断符号距离函数值;所述W(v)表示融合后体素v所对应的截断符号距离函数值的权重;

其中,所述权值函数可以根据下式来确定:

其中,所述di表示兴趣区域的半径;所述δs是深度数据中的噪声方差;所述w为常数。

为了实现上述目的,另一方面,还提供了一种基于消费级深度相机进行室内完整场景三维重建的系统,该系统包括:

获取模块,用于获取深度图像;

滤波模块,用于对所述深度图像进行自适应双边滤波;

分块融合与配准模块,用于对滤波后的深度图像进行基于视觉内容的分块融合和配准处理;

体数据融合模块,用于根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型。

优选地,所述滤波模块具体用于:

根据下式进行自适应双边滤波:

其中,所述u和所述uk分别表示所述深度图像上的任一像素及其领域像素;所述Z(u)和所述Z(uk)分别表示对应所述u和所述uk的深度值;所述表示滤波后对应的深度值;所述W表示在领域上的归一化因子;所述ws和所述wc分别表示在空间域和值域滤波的高斯核函数。

优选地,所述分块融合与配准模块具体可以用于:基于视觉内容对深度图像序列进行分段,并对每一分段进行分块融合,且所述分段间进行闭环检测,对闭环检测的结果做全局优化。

优选地,所述分块融合与配准模块还具体可以用于:

基于视觉内容检测自动分段方法对深度图像序列进行分段,将相似的深度图像内容分在一个分段中,对每一分段进行分块融合,确定所述深度图像之间的变换关系,并根据所述变换关系在段与段之间做闭环检测,以实现全局优化。

优选地,所述分块融合与配准模块具体包括:

相机位姿信息获取单元,用于采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息;

分段单元,用于根据所述相机位姿信息,将由所述每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与初始帧的深度图像进行相似度比较,并当相似度低于相似度阈值时,初始化相机位姿,进行分段;

配准单元,用于提取每一分段点云数据中的PFFH几何描述子,并在每两段之间进行粗配准,以及采用GICP算法进行精配准,得到段与段之间的匹配关系;

优化单元,用于利用每一分段的位姿信息以及所述段与段之间的匹配关系,构建图并采用G2O框架进行图优化,得到优化后的相机轨迹信息,从而实现所述全局优化。

优选地,所述分段单元具体包括:

计算单元,用于计算所述每帧深度图像与第一帧深度图像的相似度;

判断单元,用于判断所述相似度是否低于相似度阈值;

分段子单元,用于当所述相似度低于相似度阈值时,对所述深度图像序列进行分段;

处理单元,用于将下一帧深度图像作为下一分段的起始帧深度图像,并重复执行计算单元和判断单元,直至处理完所有帧深度图像。

优选地,所述体数据融合模块具体用于:根据所述处理结果,利用截断符号距离函数网格模型融合各帧的深度图像,并使用体素网格来表示三维空间,从而得到室内完整场景三维模型。

优选地,所述体数据融合模块具体包括:

加权融合单元,用于基于噪声特点与兴趣区域,利用Volumetric method框架进行所述截断符号距离函数数据加权融合;

提取单元,用于采用Marching cubes算法进行Mesh模型提取,从而得到所述室内完整场景三维模型。

本发明实施例提供一种基于消费级深度相机进行室内完整场景三维重建的方法及系统。其中,该方法包括获取深度图像;对深度图像进行自适应双边滤波;对滤波后的深度图像进行基于视觉内容的分块融合和配准处理;根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型。本发明实施例通过对深度图像进行基于视觉内容的分块融合和配准,能有效地降低视觉里程计估计中的累积误差并提高配准精度,还采用加权体数据融合算法,这可以有效地保持物体表面的几何细节,由此,解决了如何提高室内场景下三维重建精度的技术问题,从而能够得到完整、准确、精细化的室内场景模型。

附图说明

图1为根据本发明实施例的基于消费级深度相机进行室内完整场景三维重建的方法的流程示意图;

图2a为根据本发明实施例的深度图像对应的彩色图像;

图2b为根据本发明实施例的从深度图像得到的点云示意图;

图2c为根据本发明实施例的对深度图像进行双边滤波得到的点云示意图;

图2d为根据本发明实施例的对深度图像进行自适应双边滤波得到的点云示意图

图3为根据本发明实施例的基于视觉内容分段融合、配准的流程示意图;

图4为根据本发明实施例的加权体数据融合过程示意图;

图5a为运用非加权体数据融合算法的三维重建结果示意图;

图5b为图5a中三维模型的局部细节示意图;

图5c为根据本发明实施例提出的加权体数据融合算法得到的三维重建结果示意图;

图5d为图5c中三维模型的局部细节示意图;

图6为根据本发明实施例的在3D Scene Data数据集上使用本发明实施例提出的方法进行三维重建的效果示意图;

图7为根据本发明实施例的在Augmented ICL-NUIM Dataset数据集上使用本发明实施例提出的方法进行三维重建的效果示意图;

图8为根据本发明实施例的利用Microsoft Kinect for Windows采集的室内场景数据进行三维重建的效果示意图;

图9为根据本发明实施例的基于消费级深度相机进行室内完整场景三维重建的系统的结构示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

本发明实施例提供一种基于消费级深度相机进行室内完整场景三维重建的方法。如图1所示,该方法包括:

S100:获取深度图像。

具体地,本步骤可以包括:利用基于结构光原理的消费级深度相机来获取深度图像。

其中,基于结构光原理的消费级深度相机(Microsoft Kinect for Windows和Xtion,简称深度相机),是通过发射结构光,接收反射信息来获取深度图像的深度数据的。

在实际应用中,可以利用手持式消费级深度相机Microsoft Kinect for Windows采集真实室内场景数据。

深度数据可以根据下式来计算:

其中,f表示消费级深度相机的焦距;B表示基线;D表示视差。

S110:对深度图像进行自适应双边滤波。

本步骤利用基于结构光原理的消费级深度相机的噪声特点对获取的深度图像进行自适应双边滤波。

其中,自适应双边滤波算法是指在深度图像的空间域和值域上都进行滤波。

在实际应用中,可以根据深度相机的噪声特点及其内部参数来设置自适应双边滤波算法的参数,这样能有效地去除噪声并保留边缘信息。

对深度Z关于视差D求偏导,存在以下关系:

深度数据的噪声主要产生于量化过程,从上式可以看出深度噪声的方差与深度值二次方成正比,也就是说深度值越大,噪声也越大。为了有效去除深度图像中的噪声,本发明实施例基于这个噪声特点来定义滤波算法。

具体地,上述自适应双边滤波可以根据下式进行:

其中,u和uk分别表示深度图像上的任一像素及其领域像素;Z(u)和Z(uk)分别表示对应u和uk的深度值;表示滤波后对应的深度值;W表示在领域上的归一化因子;ws和wc分别表示在空间域和值域滤波的高斯核函数。

在上述实施例中,ws和wc可以根据下式来确定:

其中,δs和δc分别是空间域和值域高斯核函数的方差。

δs和δc与深度值大小有关,其取值不是固定的。

具体地,在上述实施例中,δs和δc可以根据下式来确定:

其中,f表示深度相机的焦距,Ks和Kc表示常数,其具体取值与深度相机的参数有关。

图2a-d示例性地示出了不同滤波算法的效果比较示意图。其中,图2a示出了深度图像对应的彩色图像。图2b示出了从深度图像得到的点云。图2c示出了对深度图像进行双边滤波得到的点云。图2d示出了对深度图像进行自适应双边滤波得到的点云。

本发明实施例通过采用自适应双边滤波方法,可以实现深度图的保边、去噪。

S120:对深度图像进行基于视觉内容的分块融合和配准处理。

本步骤基于视觉内容对深度图像序列进行分段,并对每个分段进行分块融合,且分段间进行闭环检测,对闭环检测的结果做全局优化。其中,深度图像序列为深度图像数据流。

优选地,本步骤可以包括:确定深度图像之间的变换关系,基于视觉内容自动分段的方法对深度图像序列进行分段,将相似的深度图像内容分在一个分段中,对每个分段进行分块融合,确定深度图像之间的变换关系,并根据变换关系在段与段之间做闭环检测,并实现全局优化。

进一步地,本步骤可以包括:

S121:采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息。

S122:根据相机位姿信息,将由每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与初始帧的深度图像进行相似度比较,并当相似度低于相似度阈值时,初始化相机位姿,进行分段。

S123:提取每一分段点云数据中的PFFH几何描述子,并在每两段之间进行粗配准,以及采用GICP算法进行精配准,得到段与段之间的匹配关系。

本步骤对段与段之间做闭环检测。

S124:利用每一分段的位姿信息以及段与段之间的匹配关系,构建图并采用G2O框架进行图优化,得到优化后的相机轨迹信息,从而实现全局优化。

本步骤在优化时应用(Simultaneous Localization and Calibration,SLAC)模式改善非刚性畸变,引入line processes约束删除错误的闭环匹配。

上述步骤S122还可以具体包括:

S1221:计算每帧深度图像与第一帧深度图像的相似度。

S1222:判断该相似度是否低于相似度阈值,若是,则执行步骤S1223;否则,执行步骤S1224。

S1223:对深度图像序列进行分段。

本步骤基于视觉内容对深度图像序列进行分段处理。这样既可以有效地解决视觉里程计估计产生的累积误差问题,又可以将相似的内容融合在一起,从而提高配准精度。

S1224:对深度图像序列不进行分段。

S1225:将下一帧深度图像作为下一分段的起始帧深度图像,并重复执行步骤S1221和步骤S1222,直至处理完所有帧深度图像。

在上述实施例中,计算每帧深度图像与第一帧深度图像的相似度的步骤具体可以包括:

S12211:根据投影关系和任一帧深度图像的深度值,并利用下式计算深度图像上每个像素所对应的第一空间三维点:

p=π-1(up,Z(up))

其中,up是深度图像上的任一像素;Z(up)和p分别表示up对应的深度值和第一空间三维点;π表示投影关系,即每帧深度图像对应的点云数据反投影到初始坐标系下的2D-3D投影变换关系。

S12212:根据下式将第一空间三维点旋转平移变换到世界坐标系下,得到第二空间三维点:

q=Tip

其中,Ti表示第i帧深度图对应空间三维点到世界坐标系下的旋转平移矩阵,其可以通过视觉里程计估计得到;i取正整数;p表示第一空间三维点,q表示第二空间三维点,p和q的坐标分别为:

p=(xp,yp,zp),q=(xq,yq,zq)。

S12213:根据下式将第二空间三维点反投影到二维图像平面,得到投影后的深度图像:

其中,uq是q对应的投影后深度图像上的像素;fx、fy、cx和cy表示深度相机的内参;xq、yq、zq表示q的坐标;T表示矩阵的转置。

S12214:分别计算起始帧深度图像和任一帧投影后的深度图像上的有效像素个数,并将两者比值作为相似度。

举例来说,根据下式来计算相似度:

其中,n0和ni分别表示起始帧深度图像和任一帧投影后的深度图像上的有效像素个数;ρ表示相似度。

图3示例性地示出了基于视觉内容分段融合、配准的流程示意图。

本发明实施例采用基于视觉内容自动分段算法,能有效降低视觉里程计估计中的累积误差,提高了配准精度。

S130:根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型。

具体地,本步骤可以包括:根据基于视觉内容的分块融合和配准处理结果,利用截断符号距离函数(TSDF)网格模型融合各帧的深度图像,并使用体素网格来表示三维空间,从而得到室内完整场景三维模型。

本步骤还可以进一步包括:

S131:基于噪声特点与兴趣区域,利用Volumetric method框架进行截断符号距离函数数据加权融合。

S132:采用Marching cubes算法进行Mesh模型提取。

在实际应用中,可以根据视觉里程计的估计结果,利用TSDF网格模型融合各帧的深度图像使用分辨率为m的体素网格来表示三维空间,即每个三维空间被分为m块,每个网格v存储两个值:截断符号距离函数fi(v)及其权重wi(v)。

其中,可以根据下式来确定截断符号距离函数:

fi(v)=[K-1zi(u)[uT,1]T]z-[vi]z

其中,fi(v)表示截断符号距离函数,也即网格到物体模型表面的距离,正负表示该网格是在表面被遮挡一侧还是在可见一侧,而过零点就是表面上的点;K表示相机的内参数矩阵;u表示像素;zi(u)表示像素u对应的深度值;vi表示体素。其中,该相机可以为深度相机或深度摄像机。

其中,可以根据下式进行数据加权融合:

其中,fi(v)和wi(v)分别表示体素v对应的截断符号距离函数(TSDF)及其权值函数;n取正整数;F(v)表示融合后体素v所对应的截断符号距离函数值;W(v)表示融合后体素v所对应的截断符号距离函数值的权重。

在上述实施例中,权值函数可以根据深度数据的噪声特点以及兴趣区域来确定,其值是不固定的。为了保持物体表面的几何细节,将噪声小的区域以及感兴趣区域的权值设置得大,将噪声大的区域或不感兴趣区域的权值设置得小。

具体地,权值函数可以根据下式来确定:

其中,di表示兴趣区域的半径,半径越小表示越感兴趣,权值越大;δs是深度数据中的噪声方差,其取值与自适应双边滤波算法空间域核函数的方差一致;w为常数,优选地,其可以取值为1或0。

图4示例性地示出了加权体数据融合过程示意图。

本发明实施例采用加权体数据融合算法可以有效保持物体表面的几何细节,能够得到完整、准确、精细化的室内场景模型,具有良好的鲁棒性和扩展性。

图5a示例性地示出了运用非加权体数据融合算法的三维重建结果;图5b示例性地示出了图5a中三维模型的局部细节;图5c示例性地示出了利用本发明实施例提出的加权体数据融合算法得到的三维重建结果;图5d示例性地示出了图5c中三维模型的局部细节。

图6示例性地示出了在3D Scene Data数据集上使用本发明实施例提出的方法进行三维重建的效果示意图;图7示例性地示出了在Augmented ICL-NUIM Dataset数据集上使用本发明实施例提出的方法进行三维重建的效果示意图;图8示例性地示出了利用Microsoft Kinect for Windows采集的室内场景数据进行三维重建的效果示意图。

应指出的是,本文虽然以上述顺序来描述本发明实施例,但是,本领域技术人员能够理解,还可以采取不同于此处的描述顺序来实施本发明,这些简单的变化也应包含在本发明的保护范围之内。

基于与方法实施例相同的技术构思,本发明实施例还提供一种基于消费级深度相机进行室内完整场景三维重建的系统,如图9所示,该系统90包括:获取模块92、滤波模块94、分块融合与配准模块96和体数据融合模块98。其中,获取模块92用于获取深度图像。滤波模块94用于对深度图像进行自适应双边滤波。分块融合与配准模块96用于对滤波后的深度图像进行基于视觉内容的分块融合和配准处理。体数据融合模块98用于根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型。

本发明实施例通过采用上述技术方案,能有效地降低视觉里程计估计中的累积误差,并提高配准精度,可以有效保持物体表面的几何细节,能够得到完整、准确、精细化的室内场景模型。

在一些实施例中,滤波模块具体用于:根据下式进行自适应双边滤波:

其中,u和uk分别表示深度图像上的任一像素及其领域像素;Z(u)和Z(uk)分别表示对应u和uk的深度值;表示滤波后对应的深度值;W表示在领域上的归一化因子;ws和wc分别表示在空间域和值域滤波的高斯核函数。

在一些实施例中,分块融合与配准模块具体可以用于:基于视觉内容对深度图像序列进行分段,并对每一分段进行分块融合,且分段间进行闭环检测,对闭环检测的结果做全局优化。

在另一些实施例中,分块融合与配准模块还具体可以用于:确定深度图像之间的变换关系,基于视觉内容检测自动分段方法对深度图像序列进行分段,将相似的深度图像内容分在一个分段中,并对每一分段进行分块融合,确定深度图像之间的变换关系,根据变换关系在段与段之间做闭环检测,并实现全局优化。

在一些优选的实施例中,分块融合与配准模块具体可以包括:相机位姿信息获取单元、分段单元、配准单元和优化单元。其中,相机位姿信息获取单元用于采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息。分段单元用于根据相机位姿信息,将由每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与初始帧的深度图像进行相似度比较,并当相似度低于相似度阈值时,初始化相机位姿,进行分段。配准单元用于提取每一分段点云数据中的PFFH几何描述子,并在每两段之间进行粗配准,以及采用GICP算法进行精配准,得到段与段之间的匹配关系。优化单元用于利用每一分段的位姿信息以及段与段之间的匹配关系,构建图并采用G2O框架进行图优化,得到优化后的相机轨迹信息,从而实现全局优化。

其中,上述分段单元具体可以包括:计算单元、判断单元、分段子单元和处理单元。其中,计算单元用于计算每帧深度图像与第一帧深度图像的相似度。判断单元用于判断相似度是否低于相似度阈值。分段子单元用于当相似度低于相似度阈值时,对深度图像序列进行分段。处理单元用于将下一帧深度图像作为下一分段的起始帧深度图像,并重复执行计算单元和判断单元,直至处理完所有帧深度图像。

在一些实施例中,体数据融合模块具体可以用于根据处理结果,利用截断符号距离函数网格模型融合各帧的深度图像,并使用体素网格来表示三维空间,从而得到室内完整场景三维模型。

在一些实施例中,体数据融合模块具体可以包括加权融合单元和提取单元。其中,加权融合单元用于基于噪声特点与兴趣区域,利用Volumetric method框架进行截断符号距离函数数据加权融合。提取单元用于采用Marching cubes算法进行Mesh模型提取,从而得到室内完整场景三维模型。

下面以一优选实施例来详细说明本发明。

基于消费级深度相机进行室内完整场景三维重建的系统包括采集模块、滤波模块、分块融合与配准模块和体数据融合模块。其中:

采集模块用于利用深度相机对室内场景进行深度图像采集。

滤波模块用于对获取的深度图像做自适应双边滤波处理。

该采集模块为上述获取模块的等同替换。在实际应用中,可以利用手持式消费级深度相机Microsoft Kinect for Windows采集真实室内场景数据。然后,对采集到的深度图像进行自适应双边滤波,根据深度相机的噪声特点及其内部参数来自动设置自适应双边滤波方法中的参数,故,本发明实施例能有效去除噪声并保留边缘信息。

分块融合与配准模块用于基于视觉内容对数据流做自动分段,每个分段进行分块融合,分段间进行闭环检测,对闭环检测的结果做全局优化。

该分块融合与配准模块进行基于视觉内容的自动分块融合、配准。

在一个更优选的实施例中,分块融合与配准模块具体包括:位姿信息获取模块、分段模块、粗配准模块、精配准模块和优化模块。其中,位姿信息获取模块用于采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息。分段模块用于根据相机位姿信息将由每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后的深度图像与初始帧的深度图像进行相似度比较,若相似度低于相似度阈值则初始化相机位姿,并进行新的分段。粗配准模块用于提取每一分段点云数据中的PFFH几何描述子,并在每两段间之间进行粗配准;精配准模块用于采用GICP算法进行精配准,以获取段与段之间的匹配关系。优化模块用于利用每一段的位姿信息以及段与段之间的匹配关系,构建图并采用G2O框架进行图优化。

优选地,上述优化模块还进一步用于应用SLAC(Simultaneous Localization and Calibration)模式以优化非刚性畸变,并利用line processes约束删除错误的闭环匹配。

上述分块融合与配准模块基于视觉内容对RGBD数据流进行分段处理,既可以有效地解决视觉里程计估计产生的累积误差问题,又可以将相似的内容融合在一起,从而可以提高配准精度。

体数据融合模块用于根据优化后的相机轨迹信息进行加权体数据融合,得到场景的三维模型。

该体数据融合模块根据深度相机的噪声特点和感兴趣区域来定义截断符号距离函数的权值函数,来实现物体表面的几何细节的保持。

基于消费级深度相机进行室内完整场景三维重建的系统上的实验表明:基于消费级深度相机的高精度三维重建方法,能够得到完整、准确、精细化的室内场景模型,系统具有良好的鲁棒性和扩展性。

上述基于消费级深度相机进行室内完整场景三维重建的系统实施例可以用于执行基于消费级深度相机进行室内完整场景三维重建的方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,可以互相参考;为描述的方便和简洁,各个实施例之间省略了描述相同的部分。

需要说明的是,上述实施例提供的基于消费级深度相机进行室内完整场景三维重建的系统和方法在进行室内完整场景三维重建时,仅以上述各功能模块、单元或步骤的划分进行举例说明,例如,前述中的获取模块也可以作为采集模块,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块、单元或步骤来完成,即将本发明实施例中的模块、单元或者步骤再分解或者组合,例如,可以将获取模块或采集和滤波模块合并为数据预处理模块。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1