基于神经有符号距离场的实时高效三维重建方法及装置

文档序号:35387269发布日期:2023-09-09 12:59阅读:62来源:国知局
基于神经有符号距离场的实时高效三维重建方法及装置

本发明属于三维重建,尤其涉及一种基于神经有符号距离场(signeddistance fields,sdf)的实时高效三维重建方法及装置。


背景技术:

1、稠密三维重建是计算机视觉和计算机图形学中的一个重要的研究课题,同时也是机器人定位与导航的关键技术,其目的是使用视觉传感器或深度传感器对室内场景进行扫描,获取数据,最终从含有噪声的数据中恢复出一个精确完整的场景三维模型。

2、常见的三维场景重建方法按照输入信息的类型可以划分为以下2种:基于纹理信息的3d重建、基于深度信息的3d重建。

3、基于rgb纹理信息的3d重建通常采用多视图立体视觉的方法,从多个已知相机姿态的图像中建立密集的对应关系,从而产生对应场景的三维点云重建结果。但多视图立体视觉算法的性能在很大程度上取决于光照条件和纹理的丰富性,此外,多视图立体视觉算法仍然可能在具有相似的相机视角区域失败。特别是在几何结构高度相似,且存在大片无纹理区域(墙、地面)的一些室内场景,仅通过rgb信息进行重建的算法往往会得到较差的重建效果。同时,基于rgb纹理信息的稠密3d重建往往需要较长的时间(以小时为单位),无法实现实时稠密三维重建。

4、近年来,随着深度传感器的快速发展,如lidar传感器、rgb-d相机等,场景3d重建取得了深刻的进展,许多基于深度信息的3d重建算法被开发出来。深度传感器可以对场景进行三维感知,提供独立于视觉特征的几何信息,因此能够显著提高3d重建的效果。以已知位姿的rgb-d数据作为输入,并使用特定的方法将不同视角下获得的深度帧进行融合,最终沿着相机的轨迹获得的视图对场景进行重建。深度传感器由于其固有特性,深度测量通常是充满噪声且不完整的。因此直接基于深度传感器的3d重建算法会存在重建结果粗糙、不完整等问题。同时,若要实现实时稠密3d重建,往往对计算机硬件有较高的要求,同时占用较大显存。

5、因此目前已有的稠密三维重建算法无法同时实现重建速度为实时、重建精度较高、重建结果完整、计算平台低成本,因此较难直接应用于机器人定位与导航领域。


技术实现思路

1、本发明的目的在于提供一种实时稠密三维重建技术,其能够实时对场景进行稠密三维重建,且能够保障较高重建精度,对传感器未观测到的区域进行合理地预测与填充,能够平衡重建速度、重建质量、内存效率、计算资源,克服了现有稠密三维重建技术中重建速度慢,重建精度不高,重建不完整等不足。

2、本发明的目的是通过以下技术方案来实现的:

3、根据本发明的第一方面,提供一种基于神经有符号距离场的实时高效三维重建方法,该方法包括以下步骤:

4、s1,利用深度相机获取待重建三维场景的已知位姿的深度图像流,对所述深度图像流进行关键帧筛选,构建关键帧集合;

5、s2,采用显式离散体素网格和浅层隐式多层感知机mlp(multi-layerperceptrons,mlp)网络的混合场景建模方式来建模场景的有符号距离场,包括:

6、按照设定的分辨率将场景划分为离散体素网格结构,体素网格中封装了场景几何分布的特征;将离散体素网格视作一个四维特征张量,利用张量分解技术,将场景对应的四维特征张量分解为多个紧凑的低秩张量分量;

7、对场景中的三维空间点,通过三线性插值获取空间点在设定分辨率下的几何特征张量,经过编码后送入mlp网络进行解码,输出场景三维空间的性质,即每个空间点的有符号距离值sdf;

8、利用体渲染技术渲染得到指定位姿下的渲染深度图、渲染法向量图,利用真实深度图、真实法向量图、近似sdf真值作为监督信号,对模型进行优化;

9、s3,通过提取sdf的零水平集合提取出场景表面,从而实现三维重建结果的可视化。

10、进一步地,利用深度相机对待重建三维场景进行数据录制,获取深度图像流,同时采用slam技术(simultaneous localization and mapping,简称slam)获取各个深度图像的位姿。

11、进一步地,对获取的深度图像流进行关键帧筛选,包括:维护一个关键帧集合,当新输入一帧深度图像,若该帧的相对位姿变化大于预设阈值,则将其作为当前关键帧,加入所维护的关键帧集合,用于在线训练。

12、进一步地,将场景对应的离散体素网格视作一个四维特征张量,其中三个维度分别对应于x、y、z轴,第四个维度为网格中存储的特征通道数,对四维特征张量进行张量分解,包括:选用向量-矩阵分解技术,将四维特征张量φ(x)分别按照x轴、y轴、z轴分解为多组向量v和矩阵m的组合,x为场景中的三维空间点;选用向量b来与其它通道结合。

13、进一步地,所述mlp网络具有4个隐藏层,每层128个神经单元,采用relu函数作为激活函数。

14、进一步地,对送入mlp网络的特征张量进行位置编码,通过位置编码将输入特征映射到高维空间。

15、进一步地,模型的损失函数包括sdf损失函数、自由空间损失函数、深度损失函数和法向量损失函数。

16、进一步地,所述sdf损失函数和自由空间损失函数的计算方法如下:

17、对于从光心穿过像素投射出的射线上的所有采样点,根据深度相机观测到的深度值来近似真实sdf监督,通过计算采样点到表面点的距离来提供针对sdf的边界b:

18、在截断距离范围内施加sdf损失函数采用边界b进行sdf监督;

19、在截断距离外的自由空间,施加自由空间损失函数包括:当sdf预测值为正且小于边界b时,当sdf预测值为正且大于等于边界b时,施加线性约束;当sdf预测值为负时,施加指数监督。

20、进一步地,模型的损失函数还包括eikonal损失函数,用于鼓励模型学习到有效的sdf值。

21、根据本发明的第二方面,提供一种基于神经有符号距离场的实时高效三维重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述基于神经有符号距离场的实时高效三维重建方法。

22、本发明的有益效果是:本发明采用离散四维体素网格和连续多层感知机网络相结合的方法对场景的sdf进行建模,为了满足实时运行速率和节省存储成本,进一步提出模型轻量化方案,对离散体素网格进行张量分解,将四维场景张量分解成多个紧凑的低秩张量分量,从而实现空间复杂度的降维。利用体渲染技术,即可渲染得到指定位姿下的渲染深度图、渲染法向量图,利用真实深度图、真实法向量图、近似sdf真值作为监督信号,对模型进行优化。同时,采用eikonal约束鼓励模型学习到有效的sdf值。本发明兼顾重建速度与重建质量,能够实时进行稠密三维重建,还原空间三维几何结构,同时对未观测到的区域进行合理的预测,可用于机器人定位与导航。



技术特征:

1.一种基于神经有符号距离场的实时高效三维重建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法,其特征在于,利用深度相机对待重建三维场景进行数据录制,获取深度图像流,同时采用slam技术获取各个深度图像的位姿。

3.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法,其特征在于,对获取的深度图像流进行关键帧筛选,包括:维护一个关键帧集合,当新输入一帧深度图像,若该帧的相对位姿变化大于预设阈值,则将其作为当前关键帧,加入所维护的关键帧集合,用于在线训练。

4.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法,其特征在于,将场景对应的离散体素网格视作一个四维特征张量,其中三个维度分别对应于x、y、z轴,第四个维度为网格中存储的特征通道数,对四维特征张量进行张量分解,包括:选用向量-矩阵分解技术,将四维特征张量φ(x)分别按照x轴、y轴、z轴分解为多组向量v和矩阵m的组合,x为场景中的三维空间点;选用向量b来与其它通道结合。

5.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法,其特征在于,所述mlp网络具有4个隐藏层,每层128个神经单元,采用relu函数作为激活函数。

6.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法,其特征在于,对送入mlp网络的特征张量进行位置编码,通过位置编码将输入特征映射到高维空间。

7.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法,其特征在于,模型的损失函数包括sdf损失函数、自由空间损失函数、深度损失函数和法向量损失函数。

8.根据权利要求7所述的基于神经有符号距离场的实时高效三维重建方法,其特征在于,所述sdf损失函数和自由空间损失函数的计算方法如下:

9.根据权利要求7所述的基于神经有符号距离场的实时高效三维重建方法,其特征在于,模型的损失函数还包括eikonal损失函数,用于鼓励模型学习到有效的sdf值。

10.一种基于神经有符号距离场的实时高效三维重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现如权利要求1-9中任一项所述的基于神经有符号距离场的实时高效三维重建方法。


技术总结
本发明公开了一种基于神经有符号距离场的实时高效三维重建方法及装置,本发明采用离散四维体素网格和连续多层感知机网络相结合的方法对场景的SDF进行建模,为了进一步提高计算效率,采用张量分解技术,将四维场景张量分解成多个紧凑的低秩张量分量,使得模型更加轻量化。利用体渲染技术渲染得到指定位姿下的渲染深度图、渲染法向量图,利用真实深度图、真实法向量图、近似SDF真值作为监督信号,对模型进行优化。本发明兼顾重建速度与重建质量,能够实时进行稠密三维重建,还原空间三维几何结构,同时对未观测到的区域进行合理的预测。

技术研发人员:张宇,陈梓怡
受保护的技术使用者:浙江大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1