一种基于稀疏激光观测的图像深度估计方法与流程

文档序号:12471978阅读:380来源:国知局
一种基于稀疏激光观测的图像深度估计方法与流程

本发明涉及场景深度估计领域,尤其涉及一种基于单目图像和稀疏激光的场景稠密深度估计方法。



背景技术:

人类基于丰富的经验和不断地学习,从单目图像也具有估计图像中物体远近的能力,即一定程度上的深度估计能力。近年来,机器学习方法也在模仿人类这一深度估计能力上取得了显著进展,其中尤以数据驱动的深度学习技术表现突出。这一技术避免了手工特征设计过程,基于原始的单目RGB图像学习特征,并输出对于图像对应深度的预测。

Eigen等人首次提出了基于深度学习的单目深度估计,他们构造了一个两阶段的深度估计网络,第一个阶段生成粗略估计并在第二阶段进行精细微调。随后,他们将该工作扩展为同时估计场景深度、深度法向量以及场景语义,并验证了同时估计深度法向量以及语义信息有助于场景深度估计性能提升。Liu等人探讨了结合深度学习与条件随机场的深度估计,对图像进行超像素分割,并对所有超像素构造条件随机场进行优化。Li和Wang分别在其上进行了扩展,通过分层的条件随机场逐层从超像素层面向像素层面优化。

尽管这些方法验证了从单目图像估计深度的可能,实际上单目图像本身是尺度信息缺失的。Eigen等人也提到,基于单目图像的深度估计可能存在一个全局的偏差。



技术实现要素:

本发明的目的在于结合稀疏的单线激光信息估计图像稠密深度,以减小场景深度估计全局偏差,获得可信度更高的场景深度估计。

为实现上述目的,本发明基于深度学习方法,以单目图像和稀疏单线激光为输入,自主学习特征并得到稠密深度估计,训练过程的具体步骤如下:

一种基于稀疏激光观测的深度图像估计方法,其特征在于它包括如下步骤:

步骤一,为将稀疏单线激光信息稠密化,所述稀疏激光包括单线激光和多线激光,其中以稀疏激光中的单线激光构造参考深度图与残差深度图,在三维空间中对单线激光中的每个激光点以垂直地面的方向进行拉伸,得到一个与地面垂直的参考深度面;根据单目相机与单线激光的校准信息,将三维空间中得到的参考深度平面投影到单目相机获取图像的像平面上,得到一个与所述图像对应的参考深度图,将通过深度传感器获取的绝对深度图与参考深度图做差,得到残差深度图;

步骤二,将单目相机获取的单目图像以及按步骤一所述得到的参考深度图作为训练数据,训练卷机神经网络估计对应的残差深度图;

步骤三,将卷机神经网络估计的残差深度图与参考深度图相加,得到估计的绝对深度图,称为绝对深度估计图,并在此基础上进一步构造优化的卷机神经网络,缩小该绝对深度估计图与深度传感器获得的绝对深度图之间的差异;该优化的卷机神经网络与步骤二所述用于估计残差深度的卷机神经网络可以叠加在一起,进行端到端优化,即输入单目图像与参考深度图,输出得到经过优化的绝对深度估计图。

在上述技术方案的基础上,本发明还可以采用一下进一步的技术方案:

将深度神经网络端到端输出得到的绝对深度估计图与稀疏激光深度图通过条件随机场进行融合,从而确认在绝对深度估计图中有单线激光观测的位置其深度值与激光观测的深度值是一致的。

步骤二中,训练卷机神经网络估计对应的残差深度图方式如下:将待拟合的深度残差图上的每个像素点的残差深度的值离散化到数个自然数数值上,以分类形式实现对残差深度的深度估计。

由于采用本发明的技术方案,本发明的有益效果为:本发明能结合部分稀疏的真实深度观测,如单线激光雷达,而获得更为精准的深度估计,本发明能够减小场景深度估计全局偏差,获得可信度更高的场景深度估计。

附图说明

图1a为输入单目图像;

图1b为期望估计的深度图像示例;

图2a为稀疏激光观测;

图2b为参考深度图以;

图2c残差深度图示例;

图3a为深度图像真实;

图3b为优化前深度估计;

图3c为优化后深度估计。

具体实施方式

为了更好的理解本发明的技术方案,以下结合附图作进一步描述。图1展示了深度估计的例子,输入为图1a所示的单目图像,要求估计图1b所示的场景深度。

步骤一,基于单线激光构造参考深度图与残差深度图。图2a展示了在图1中已知的单线激光信息,可见单线激光信息是十分稀疏且有限的。为将稀疏单线激光信息稠密化,在三维空间中对每个激光点以垂直地面的方向进行拉伸,得到一个与地面垂直的参考深度面。根据单目相机与单线激光的校准信息,将三维上得到的参考深度平面对应绘制到图像上,得到一个与图像对应的稠密参考深度图,如图2b所示。将真实深度图与参考深度图做差,得到残差深度图,如图2c所示。

步骤二,基于深度学习,以单目图像和参考深度图为输入,拟合残差深度图。将每个像素的残差深度值离散化到数个整数值上,以分类形式实现深度估计。构造全卷积形式的深度神经网络,实现每个像素上的深度值类别估计。为获得更好的拟合性能和更大的容量,采用He等人提出的50层Deep Residual Network,并以其在ImageNet上训练得到的网络作为初值进行训练。

步骤三,将网络估计的残差深度图与参考深度图相加,得到估计的真实深度图,并在此基础上进一步构造优化网络,缩小该估计的真实深度图与实际真实深度图之间的差异。该优化网络可以与残差估计网络叠加在一起,进行端到端优化。图2展示了深度真值、优化前深度估计与优化后深度估计的比较。

本发明通过在NYUD2数据集上进行实验验证方法的有效性。NYUD2是一个室内RGB-D数据集,本方法在RGB-D数据上模拟生成单线激光数据。本发明的主要优势在与参考深度图与残差深度图的生成与估计。因此,实验比较了相同神经网络结构下,仅采用RGB作为输入预测深度估计真实深度(方案一),采用RGB与参考深度图作为输入估计真实深度(方案二),以及采用RGB与参考深度图估计残差深度图再进一步得到真实深度图(方案三)的结果,并和当前世界领先的基于单目图像的深度估计方法进行比较,具体比较结果如表1所示。

为全方面评估深度估计效果,表1采用6个度量指标。令每个像素点的深度估计值为真实深度值y,T为所有像素点的合集,6个度量指标分别如下:

1.绝对相对误差(rel),

2.平均Log误差(log10),

3.均方平均误差(rms),

4.三个阈值准确率(δi),满足条件的所占

所有像素点的比例。

从表1结果可见,激光稠密化后直接作为输入可以对深度估计的性能进行一定提升,而通过残差估计加上后续优化的方式则可以进一步提升深度估计性能。相比于其余世界领先的单目图像深度估计算法,本方法在各项指标上都有明显优势。

表1 NYUD2数据集深度估计对比。

上述实施例是对本发明的说明,不是对本发明的限定,任何对本发明简单变换后的方案均属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1