一种基于CNN和深度滤波器的图像深度估计方法及系统与流程

文档序号:15589938发布日期:2018-10-02 18:50阅读:233来源:国知局

本发明属于三维视觉领域,尤其涉及一种基于cnn(卷积神经网络)和深度滤波器的图像深度估计方法及系统。



背景技术:

现实中常见的图像大多是彩色图像,彩色图像是将三维场景压缩成二维平面得到的,在成像的过程中丢失了深度信息,而深度信息的丢失使得很多视觉任务都变得困难,例如,由于深度值的缺失,三维场景的重建将难以进行。因此,从彩色图像恢复图像深度值具有重要意义。目前主流的图像深度获取方法分为三类,一种通过专门的硬件设备获取深度值,主要是rgb-d相机,其原理一般为结构光或飞行时间法,目前已经能够小型化量产,广泛运用于机器人和智能手机。其优点是测量精度高,其缺点也很明显,由于其采用红外光,受环境光影响大,因此很难应用于室外环境。而且测量距离也有限,一般在5米以内。

另外两种分别是根据图像线索估计图像深度以及运动恢复结构方法。其中根据图像线索估计图像深度常用的图像线索包括运动信息、线性透视、聚焦、遮挡、纹理等,由于图像线索需要对图像作很强的假设,目前基本上被cnn取代。不同于图像线索,cnn不要求图像满足一定的特性,在图像上提取广义的特征,并将这些特征聚类,根据这些特征估计图像深度,适用性更广。基于cnn的图像深度估计的最大问题是精度不高,特征是在物体边缘区域,区域划分极其不明显。

运动恢复结构方法一直是研究的热点,其原理是根据图像间的联系估计相机的运动,进而根据相机运动建立几何关系计算图像深度,该方法只需要一个普通的单目相机就可以完成高精度的图像深度估计。其缺点在于,由于其计算复杂性,稠密深度重建一般都是线下完成的,耗时很长。而且,运动恢复结构方法有很强的缺陷——绝对尺度的丢失以及纯旋转无法计算的问题。

由此可见,现有图像深度估计技术由于各种各样的原因,仍然存在适用范围窄、精度不高、效率低下等问题。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于cnn和深度滤波器的图像深度估计方法及系统,所述方法主要包含以下步骤:

s1、获取相机对同一拍摄目标进行连续拍摄的多张彩色图像,任选其中一个彩色图像作为参考图像,其余彩色图像作为关联图像,通过cnn得到所述参考图像的每个像素点对应的深度估计值;

s2、根据参考图像的每一个局部特征点、每一个局部特征点对应的深度估计值及每一个局部特征点与关联图像的重投影像素点建立最小光度误差方程获得相机位姿估计;

s3、根据所述相机位姿估计分别确定参考图像的每一个局部特征点在关联图像中对应的极线,根据极线搜索确定最佳匹配,根据最佳匹配建立光束平差法方程获得优化的相机位姿;

s4、根据所述优化后的相机位姿,分别构建深度滤波器对步骤s1中所述的每一个深度估计值进行高斯融合,直至深度值收敛,得到参考图像的每个像素对应的深度值,从而获得参考图像的深度图像。

在本发明的一种基于cnn和深度滤波器的图像深度估计方法中,所述步骤s2包括以下子步骤:

(1)局部特征点以orb特征点表示,对参考图像提取orb特征点;

(2)将参考图像转化为灰度图,以提取的orb特征点、orb特征点对应的深度估计值及orb特征点与关联图像的重投影像素点构建稀疏形式的最小光度误差方程;

(3)采用高斯牛顿法迭代求解所述最小光度误差方程,当所有局部特征点灰度值误差之和最小时得到相机位姿估计。

在本发明的一种基于cnn和深度滤波器的图像深度估计方法中,所述步骤s3包括以下子步骤:

(1)以参考图像的局部特征点为中心,选取大小为nxm的图像块,根据相机位姿估计确定局部特征点在关联图像上对应的极线,其中n和m均为大于1的常数;

(2)在所述极线上根据归一化互相关方法确定所述图像块的最佳匹配,根据最佳匹配建立光束平差法方程;

(3)采用高斯牛顿法迭代求解光束平差法方程获得优化的相机位姿。

优选的,本发明还提供了一种基于cnn和深度滤波器的图像深度估计系统,包括以下子模块:

深度估计值获取模块,用于获取相机对同一拍摄目标进行连续拍摄的多张彩色图像,任选其中一个彩色图像作为参考图像,其余彩色图像作为关联图像,通过cnn得到所述参考图像的每个像素点对应的深度估计值;

位姿估计模块,用于根据参考图像的每一个局部特征点、每一个局部特征点对应的深度估计值及每一个局部特征点与关联图像的重投影像素点建立最小光度误差方程获得相机位姿估计;

位姿优化模块,用于根据所述相机位姿估计分别确定参考图像的每一个局部特征点在关联图像中对应的极线,根据极线搜索确定最佳匹配,根据最佳匹配建立光束平差法方程获得优化的相机位姿;

深度图像获取模块,用于根据所述优化后的相机位姿,分别构建深度滤波器对模块s1中所述的每一个深度估计值进行高斯融合,直至深度值收敛,得到参考图像的每个像素对应的深度值,从而获得参考图像的深度图像。

在本发明的一种基于cnn和深度滤波器的图像深度估计系统中,所述位姿估计模块包括以下子模块:

特征点提取模块,将局部特征点以orb特征点表示,对参考图像提取orb特征点;

最小光度误差方程构建模块,用于将参考图像转化为灰度图,以提取的orb特征点、orb特征点对应的深度估计值及orb特征点与关联图像的重投影像素点构建稀疏形式的最小光度误差方程;

位姿估计求解模块,用于采用高斯牛顿法迭代求解所述最小光度误差方程,当所有局部特征点灰度值误差之和最小时得到相机位姿估计。

在本发明的一种基于cnn和深度滤波器的图像深度估计系统中,所述位姿优化模块包括以下子模块:

极线确定模块,用于以参考图像的局部特征点为中心,选取大小为nxm的图像块,根据相机位姿估计确定局部特征点在关联图像上对应的极线,其中n和m均为大于1的常数;

光束平差法方程建立模块,用于在所述极线上根据归一化互相关方法确定所述图像块的最佳匹配,根据最佳匹配建立光束平差法方程;

位姿优化求解模块,用于采用高斯牛顿法迭代求解光束平差法方程获得优化的相机位姿。

通过本发明所构思的以上技术方案与现有技术相比,能够获取以下有益效果:

1.由于采用非硬件的方法,即非rgb-d相机方法,获取图像深度,克服了rgb-d相机不适用于室外环境的问题,同时极大程度地降低了成本;

2.以cnn估计的深度值作为深度滤波器的初始值,减少了迭代所需次数,一定程度上提高了计算效率。同时克服了单纯采用深度滤波器方法所存在的绝对尺度丢失问题;

3.克服了单纯通过cnn估计图像深度存在的物体边缘模糊的问题,提高了深度图的精度。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1为系统框图;

图2为深度不确定性引入投影点不确定性示意图;

图3为像素误差引入深度不确定性示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步详细说明。

基于cnn和深度滤波器的图像深度估计方法具体流程如图1所示,该方法分为四个部分:获取图像深度估计值、位姿估计、位姿优化和深度图像获取。

1、获取图像深度估计值

获取相机对同一拍摄目标进行连续拍摄的多张彩色图像,任选其中一个彩色图像作为参考图像,其余彩色图像作为关联图像,通过cnn得到所述参考图像的每个像素点对应的深度估计值。

2、位姿估计

在位姿(相机的平移和旋转)估计阶段,设定时刻k采集到的图像为ik,图像中对应的像素点x=(x,y)t。那么我们可以根据像素点和深度值重建空间三维点p=(x,y,z)t,重建函数为π-1

其中fx,fy为相机分别在x轴和y轴上的焦距;ox和oy为相机光心坐标,这些参数可以通过相机标定获得。其中z为图像深度,由cnn估计得到。同时,也可以根据三维空间点的坐标计算其在图像中投影的坐标,投影方程为π:

时刻k的相机位姿可以用刚体运动tk∈se(3)表示,其中se(3)表示李群。关联连续图像间相机的相对运动可以对应地表示为在计算的过程中,考虑到需要对tk,k-1求导,经常将tk,k-1表示成李代数ξ=(ω,ν)t的形式,ω称作角速度,ν称为线速度,李代数与李群之间可以相互转换。

将需要估计深度的图像设为参考图像,将参考图像转化为灰度图,在参考图像中提取orb特征点、orb特征点对应的深度估计值及orb特征点与关联图像的重投影像素点,构建最小光度误差方程计算参考图像与关联图像之间的相对运动,该方程可以表示为:

ri=ik(π(tk,k-1π-1(x,z)))-ik-1(x)(3)

通过最大化后验概率确定相对运动ξ*=argmaxp(ξ|ri),根据贝叶斯法则,假设所有的误差独立同分布,对(3)式取负对数,得到:

ξ*=argmin-log(p(ri|ξ))-log(p(ξ))(4)

定义log(p(ri|ξ))服从高斯分布,式(4)可以简化为标准最小二乘问题:

对于上式的非线性问题,采用高斯牛顿法迭代求解,当像素灰度误差最小时为最优解,即为关联彩色图像间的相对运动。

3、位姿优化

通过上一步的位姿估计,通过位姿计算方程和重投影方程可以将参考图像中提取的orb特征点投影到关联图像中。但是由于cnn估计深度值不精确,特征点的深度值会有一定的误差,如图2所示,由于深度误差的存在,参考图像中特征点p1有可能落在关联图像极线上任一点,因此特征点在关联图像上的投影也会有误差,为了使计算的相机相对运动更加精确,我们采用极线搜索寻找最优匹配并根据最优匹配建立光束平差法方程优化位姿。

以参考图像中提取的orb特征点为中心,在其四周各提取一个像素,形成一个2×2大小的图像块a,然后在关联彩色图像中对应特征点的极线上寻找与a最相似的图像块b,采用去均值的归一化互相关衡量a与b的相似性:

计算结果越接近1说明越相关,即a与b越相似。通过这种方法在关联图像中找到与特征点最相似的点,即最佳匹配。

根据最佳匹配建立光束平差法方程,将位姿估计阶段得到的位姿作为初始值,不断迭代使误差函数不断减少,直至收敛。

该问题同样是最小二乘问题,采用高斯牛顿法迭代求解。

4、深度图像获取

通过深度滤波器来进行深度图像获取,深度滤波器的任务是根据优化的相机相对位姿,优化cnn估计的初始深度图中的每个像素。假设深度值服从高斯分布,分布形式为p(d)=n(μ,σ2),对于新的观测数据,假设观测值依然服从高斯分布我们知道,两个高斯分布的乘积依然是高斯分布。设融合后的深度值的分布为那么根据高斯分布的乘积,有:

对于观测值,这里误差主要考虑几何不确定性。如图3所示,对于参考图像中每个像素p1,我们都可以根据极线搜索在关联图像中找到对应的p2点,从而观测到p1的深度值d,记p1对应的三维点为p。o1o2为相机的平移t,通过位姿优化得到,o2p记为a,同时三角形下面的两个角记为α,β。考虑极线上存在一个像素的误差,p2点移动到p2′,使得β角变成了β′,记a=d-t,那么:

α=arccos<d,t>,β=arccos<a,-t>(9)

对p2扰动一个像素,使得β产生一个变化量δβ,由于相机焦距为f,于是所以β′=β+δβ,γ=π-α-β′,由正弦定理:

进而,确定了由单个像素的不确定引起的深度不确定性:

σobs=||p||-||p′||(11)

那么根据公式(8),可以对参考图像的深度图的每个像素进行滤波,从而达到优化cnn估计的深度图的目的。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出若干改进和变形,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1