基于深度相机进行室内完整场景三维重建的方法及系统与流程

文档序号:12787383阅读:来源:国知局

技术特征:

1.一种基于消费级深度相机进行室内完整场景三维重建的方法,其特征在于,所述方法包括:

获取深度图像;

对所述深度图像进行自适应双边滤波;

对滤波后的深度图像进行基于视觉内容的分块融合和配准处理;

根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型。

2.根据权利要求1所述的方法,其特征在于,所述对所述深度图像进行自适应双边滤波具体包括:

根据下式进行自适应双边滤波:

其中,所述u和所述uk分别表示所述深度图像上的任一像素及其领域像素;所述Z(u)和所述Z(uk)分别表示对应所述u和所述uk的深度值;所述表示滤波后对应的深度值;所述W表示在领域上的归一化因子;所述ws和所述wc分别表示在空间域和值域滤波的高斯核函数。

3.根据权利要求2所述的方法,其特征在于,所述在空间域和值域滤波的高斯核函数根据下式来确定:

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>w</mi> <mi>s</mi> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>u</mi> <mo>-</mo> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msubsup> <mi>&delta;</mi> <mi>s</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>Z</mi> <mo>(</mo> <mi>u</mi> <mo>)</mo> <mo>-</mo> <mi>Z</mi> <mo>(</mo> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msubsup> <mi>&delta;</mi> <mi>c</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中,所述δs和所述δc分别是空间域和值域高斯核函数的方差;

其中,所述δ和所述δ根据下式来确定:

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&delta;</mi> <mi>s</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>K</mi> <mi>s</mi> </msub> <mi>Z</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> </mrow> <mi>f</mi> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&delta;</mi> <mi>c</mi> </msub> <mo>=</mo> <msub> <mi>K</mi> <mi>c</mi> </msub> <mi>Z</mi> <msup> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中,所述f表示所述深度相机的焦距,所述Ks和所述Kc表示常数。

4.根据权利要求1所述的方法,其特征在于,所述对滤波后的深度图像进行基于视觉内容的分块融合和配准处理具体包括:基于视觉内容对深度图像序列进行分段,并对每一分段进行分块融合,且所述分段间进行闭环检测,对闭环检测的结果做全局优化。

5.根据权利要求4所述的方法,其特征在于,所述基于视觉内容对深度图像序列进行分段,并对每一分段进行分块融合,且所述分段间进行闭环检测,对闭环检测的结果做全局优化具体包括:

基于视觉内容检测自动分段方法对深度图像序列进行分段,将相似的深度图像内容分在一个分段中,并对每一分段进行分块融合,确定所述深度图像之间的变换关系,并根据所述变换关系在段与段之间做闭环检测,以实现全局优化。

6.根据权利要求5所述的方法,其特征在于,所述基于视觉内容检测自动分段方法对深度图像序列进行分段,将相似的深度图像内容分在一个分段中,并对每一分段进行分块融合,确定所述深度图像之间的变换关系,并根据所述变换关系在段与段之间做闭环检测,以实现全局优化,具体包括:

采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息;

根据所述相机位姿信息,将由所述每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与初始帧的深度图像进行相似度比较,并当相似度低于相似度阈值时,初始化相机位姿,进行分段;

提取每一分段点云数据中的PFFH几何描述子,并在每两段之间进行粗配准,以及采用GICP算法进行精配准,得到段与段之间的匹配关系;

利用每一分段的位姿信息以及所述段与段之间的匹配关系,构建图并采用G2O框架进行图优化,得到优化后的相机轨迹信息,从而实现所述全局优化。

7.根据权利要求6所述的方法,其特征在于,所述根据所述相机位姿信息,将由所述每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与初始帧的深度图像进行相似度比较,并当相似度低于相似度阈值时,初始化相机位姿,进行分段,具体包括:

步骤1:计算所述每帧深度图像与第一帧深度图像的相似度;

步骤2:判断所述相似度是否低于相似度阈值;

步骤3:若是,则对所述深度图像序列进行分段;

步骤4:将下一帧深度图像作为下一分段的起始帧深度图像,并重复执行步骤1和步骤2,直至处理完所有帧深度图像。

8.根据权利要求7所述的方法,其特征在于,所述步骤1具体包括:

根据投影关系和任一帧深度图像的深度值,并利用下式计算所述深度图像上每个像素所对应的第一空间三维点:

p=π-1(up,Z(up))

其中,所述up是所述深度图像上的任一像素;所述Z(up)和所述p分别表示所述up对应的深度值和所述第一空间三维点;所述π表示所述投影关系;

根据下式将所述第一空间三维点旋转平移变换到世界坐标系下,得到第二空间三维点:

q=Tip

其中,所述Ti表示第i帧深度图对应空间三维点到世界坐标系下的旋转平移矩阵;所述p表示所述第一空间三维点,所述q表示所述第二空间三维点;所述i取正整数;

根据下式将所述第二空间三维点反投影到二维图像平面,得到投影后的深度图像:

<mrow> <msub> <mi>u</mi> <mi>q</mi> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>f</mi> <mi>x</mi> </msub> <msub> <mi>x</mi> <mi>q</mi> </msub> </mrow> <msub> <mi>z</mi> <mi>q</mi> </msub> </mfrac> <mo>-</mo> <msub> <mi>c</mi> <mi>x</mi> </msub> <mo>,</mo> <mfrac> <mrow> <msub> <mi>f</mi> <mi>y</mi> </msub> <msub> <mi>y</mi> <mi>q</mi> </msub> </mrow> <msub> <mi>z</mi> <mi>q</mi> </msub> </mfrac> <mo>-</mo> <msub> <mi>c</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow>

其中,所述uq是所述q对应的投影后深度图像上的像素;所述fx、所述fy、所述cx和所述cy表示深度相机的内参;所述xq、yq、zq表示所述q的坐标;所述T表示矩阵的转置;

分别计算所述起始帧深度图像和任一帧投影后的深度图像上的有效像素个数,并将两者比值作为相似度。

9.根据权利要求1所述的方法,其特征在于,所述根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型具体包括:根据所述处理结果,利用截断符号距离函数网格模型融合各帧的深度图像,并使用体素网格来表示三维空间,从而得到室内完整场景三维模型。

10.根据权利要求9所述的方法,其特征在于,根据所述处理结果,利用截断符号距离函数网格模型融合各帧的深度图像,并使用体素网格来表示三维空间,从而得到室内完整场景三维模型,具体包括:

基于噪声特点与兴趣区域,利用Volumetric method框架进行所述截断符号距离函数数据加权融合;

采用Marching cubes算法进行Mesh模型提取,从而得到所述室内完整场景三维模型。

11.根据权利要求9或10所述的方法,其特征在于,所述截断符号距离函数根据下式来确定:

fi(v)=[K-1zi(u)[uT,1]T]z-[vi]z

其中,fi(v)表示截断符号距离函数,也即网格到物体模型表面的距离,正负表示该网格是在表面被遮挡一侧还是在可见一侧,而过零点就是表面上的点;所述K表示所述相机的内参数矩阵;所述u表示像素;所述zi(u)表示所述像素u对应的深度值;所述vi表示体素。

12.根据权利要求10所述的方法,其特征在于,所述数据加权融合根据下式进行:

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mi>F</mi> <mo>(</mo> <mi>v</mi> <mo>)</mo> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mtd> </mtr> <mtr> <mtd> <mi>W</mi> <mo>(</mo> <mi>v</mi> <mo>)</mo> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mtd> </mtr> </mtable> </mfenced>

其中,所述v表示体素;所述fi(v)和所述wi(v)分别表示所述体素v对应的截断符号距离函数及其权值函数;所述n取正整数;所述F(v)表示融合后所述体素v所对应的截断符号距离函数值;所述W(v)表示融合后体素v所对应的截断符号距离函数值的权重;

其中,所述权值函数可以根据下式来确定:

<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <msubsup> <mi>d</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> <mrow> <mn>2</mn> <msubsup> <mi>&delta;</mi> <mi>s</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> </msup> <msubsup> <mi>z</mi> <mi>i</mi> <mn>4</mn> </msubsup> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mn>0</mn> <mo>&lt;</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>&lt;</mo> <mn>2.8</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>w</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>&GreaterEqual;</mo> <mn>2.8</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中,所述di表示兴趣区域的半径;所述δs是深度数据中的噪声方差;所述w为常数。

13.一种基于消费级深度相机进行室内完整场景三维重建的系统,其特征在于,所述系统包括:

获取模块,用于获取深度图像;

滤波模块,用于对所述深度图像进行自适应双边滤波;

分块融合与配准模块,用于对滤波后的深度图像进行基于视觉内容的分块融合和配准处理;

体数据融合模块,用于根据处理结果,进行加权体数据融合,从而重建室内完整场景三维模型。

14.根据权利要求13所述的系统,其特征在于,所述滤波模块具体用于:

根据下式进行自适应双边滤波:

其中,所述u和所述uk分别表示所述深度图像上的任一像素及其领域像素;所述Z(u)和所述Z(uk)分别表示对应所述u和所述uk的深度值;所述表示滤波后对应的深度值;所述W表示在领域上的归一化因子;所述ws和所述wc分别表示在空间域和值域滤波的高斯核函数。

15.根据权利要求13所述的系统,其特征在于,所述分块融合与配准模块具体用于:基于视觉内容对深度图像序列进行分段,并对每一分段进行分块融合,且所述分段间进行闭环检测,对闭环检测的结果做全局优化。

16.根据权利要求15所述的系统,其特征在于,所述分块融合与配准模块还具体用于:

基于视觉内容检测自动分段方法对深度图像序列进行分段,将相似的深度图像内容分在一个分段中,对每一分段进行分块融合,确定所述深度图像之间的变换关系,并根据所述变换关系在段与段之间做闭环检测,以实现全局优化。

17.根据权利要求16所述的系统,其特征在于,所述分块融合与配准模块具体包括:

相机位姿信息获取单元,用于采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息;

分段单元,用于根据所述相机位姿信息,将由所述每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与初始帧的深度图像进行相似度比较,并当相似度低于相似度阈值时,初始化相机位姿,进行分段;

配准单元,用于提取每一分段点云数据中的PFFH几何描述子,并在每两段之间进行粗配准,以及采用GICP算法进行精配准,得到段与段之间的匹配关系;

优化单元,用于利用每一分段的位姿信息以及所述段与段之间的匹配关系,构建图并采用G2O框架进行图优化,得到优化后的相机轨迹信息,从而实现所述全局优化。

18.根据权利要求17所述的系统,其特征在于,所述分段单元具体包括:

计算单元,用于计算所述每帧深度图像与第一帧深度图像的相似度;

判断单元,用于判断所述相似度是否低于相似度阈值;

分段子单元,用于当所述相似度低于相似度阈值时,对所述深度图像序列进行分段;

处理单元,用于将下一帧深度图像作为下一分段的起始帧深度图像,并重复执行计算单元和判断单元,直至处理完所有帧深度图像。

19.根据权利要求13所述的系统,其特征在于,所述体数据融合模块具体用于:根据所述处理结果,利用截断符号距离函数网格模型融合各帧的深度图像,并使用体素网格来表示三维空间,从而得到室内完整场景三维模型。

20.根据权利要求19所述的系统,其特征在于,所述体数据融合模块具体包括:

加权融合单元,用于基于噪声特点与兴趣区域,利用Volumetric method框架进行所述截断符号距离函数数据加权融合;

提取单元,用于采用Marching cubes算法进行Mesh模型提取,从而得到所述室内完整场景三维模型。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1