一种基于递归卷积神经网络的单目视觉里程计方法与流程

文档序号:16742611发布日期:2019-01-28 13:09阅读:489来源:国知局
一种基于递归卷积神经网络的单目视觉里程计方法与流程

本发明属于图像处理、计算机视觉和深度学习等技术领域,具体涉及一种基于递归卷积神经网络的单目视觉里程计方法。



背景技术:

里程计技术是移动机器人利用传感器实现自身实时定位的关键技术,是实现路径规划、自主导航及完成其它任务的基础要求。一般情况下,里程计信息可以从旋转编码器、惯性测量元件(imu)及gps等传感器获取,但是在轮子打滑以及无gps信号的情况下则不适用。在视觉里程计方面,现存很多优秀的基于几何结构的方法,包括特征点法、直接法和半直接法。基于特征点法的传统视觉里程计方法的处理流程为:特征提取、特征匹配和运动估计和优化,这些传统算法在精度与鲁棒性方面也都取得了不错的效果。然而这些方法都存在一些致命的缺点,如在特征缺失、图像模糊等情况下效果则不是很理想,并且特征点的提取与匹配计算量非常大,难以实现实时定位。而对于直接法而言,若光照变化剧烈则效果将变得非常差。同时,对于单目视觉里程计,还需要一些额外的信息(如相机高度)或先验信息来估计场景的尺度,易造成极大的尺度漂移。

近年来深度学习技术已经成功地应用到很多计算机视觉问题中,比如图像分类、深度估计、物体检测与语义分割等。然而在用于视觉自主导航方面还相当滞后,如视觉里程计(vo)、从运动恢复结构(structurefrommotion)、同时定位与建图(slam)等。据所查阅的国内外资料显示,这方面成果相对较少,基本还处于研究起步阶段。

相比传统视觉里程计算法,基于深度学习的方法替代了繁琐的公式计算,无需人工特征提取和匹配,显得简洁直观,并且在线运算速度快。2015年,konda和memisevic首次提出将深度学习用于估计相机速度和方向的改变。该方法主要分为两个步骤:首先提取图像的深度,然后对速度和方向的改变进行估计。它将多目视觉里程计作为分类问题来处理,精度无法与传统的视觉里程计算法相比。同年,costante等人利用预处理好的光流图作为输入进行运动估计,以便更好的解决模型的通用问题,但是需要提前得到光流图难以实时应用。kendal等人将视觉里程计作为回归问题来处理,提出了利用卷积神经网络来回归位姿的方法,在其基础上li等人于2017年将rgb-d图像输入cnn网络来进行定位估计。benjamin等人提出了一种将相机位姿和图像深度作为监督信息的深度学习算法,该网络将连续图像对作为输入,通过多层编码和解码网络可估计得到图像深度和相机运动。同年,zhou等人提出了一种无监督深度学习算法,利用单目的图像序列实现深度估计和位姿估计。该网络由两个子网络组成:即深度估计网络和位姿估计网络。但是该系统不能恢复绝对的尺度,并且定位精度很差。



技术实现要素:

本发明的目的是提供一种基于深度递归卷积神经网络的单目视觉里程计,利用深度卷积神经网络充分的对图像特征进行学习,同时利用深度递归神经网络学习图像整体的序列特征,结合时间上的连续性大大提高了单目视觉里程计的精度。本发明的目的在于解决传统单目视觉里程计技术中存在的问题,提出一种基于递归卷积神经网络的单目视觉里程计方法。

为达到上述目的,本发明采用以下技术方案予以实现:

一种基于递归卷积神经网络的单目视觉里程计方法,包括以下步骤:

步骤1:将单目彩色图像序列输入网络;

步骤2:深度估计网络估计图像的深度图并提取深度图的深度值;

步骤3:位姿估计网络cnn层提取图像特征生成特征向量;

步骤4:将此特征向量输入rnn层,输出6自由度位姿。

与现有技术相比,本发明具有以下有益效果:

本发明基于深度递归卷积神经网络的单目视觉里程计,不仅可以利用深度卷积神经网络充分的对图像特征进行学习,同时利用深度递归神经网络学习图像整体的序列特征,结合时间上的连续性可大大提高视觉里程计的准确性。本发明的单目视觉里程计拥有卷积神经网络优良的图像特征提取能力,又利用递归神经网络获得图像间的序列信息,将双目图像间的一致性误差和单目图像序列误差作为监督信号进行自监督训练,实现了较精确的定位,并可以恢复场景的绝对尺度信息。相比于传统的几何视觉里程计算法,本发明提出的利用深度学习网络的方法一方面减小了对图像间几何匹配与计算的依赖,另一方面也避免了传统方法中对大量参数的调试,同时实现了自监督学习,具有很好的适应性。

附图说明

图1是本发明的系统总体框架图;

图2是本发明的深度估计网络结构图和位姿估计网络结构图;

图3是本发明的实验效果图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述:

参见图1和图2,本发明的核心思想是利用深度卷积神经网络充分的对图像特征进行学习,同时利用深度递归神经网络学习图像整体的序列特征,结合时间上的连续性大大提高了视觉里程计的精度。本实施例的一种基于递归卷积神经网络的单目视觉里程计方法,其系统框架图如附图1所示,主要包括深度估计网络和位姿估计网络。其中,深度估计网络采用卷积—反卷积的结构,除最后的深度预测层外其它层的激活函数均采用relu函数,每一层都采用了填充操作,网络的前两层分别采用了大小为7×7、5×5的卷积核,其余层的卷积核大小均为3×3以提取更加细致的局部特征;位姿估计网络分别将左目和右目图像序列输入深度卷积神经网络,学习高层次的特征,然后将此cnn特征传递给深度递归神经网络进行动态建模,从而结合两者的优势更好的实现图像定位任务。

本发明测试时执行步骤如下:

step1:将单目彩色图像序列输入网络;

step2:深度估计网络估计图像的深度图并提取深度图的深度值;

step3:位姿估计网络cnn层提取图像特征生成特征向量;

step4:将此特征向量输入rnn层,输出6自由度位姿。

其中,位姿估计网络具体分为以下三个过程:

(1)通过多层卷积操作提取每帧图像的特征信息;

(2)利用递归机制学习图像间的序列信息;

(3)综合图像序列信息和结构信息回归相机的6自由度位姿。

本发明结合双目图像间的几何约束,通过最小化左目和右目图像一致性误差从而可以得到场景的绝对尺度。

误差包括双目图像一致性误差和单目图像序列误差。其中双目图像一致性误差包括视图合成误差、左右视差一致性误差和位姿一致性误差。

视图合成误差计算方法为:

假设pl(ul,vl)、pr(ur,vr)分别是像素p在左右图像中相对应的像素,则它们之间存在关系:ul=ur、vl=vr+dp、dp=bf/dd,其中:b是双目相机的基线,f是相机的焦距,dd是像素的深度值。训练过程中,利用图像对中的一张图像可以合成另一张图像,结合l1范数和ssim可以得出视图合成误差计算公式如下:

式中n′为像素数量的总和,分别为左右目图像,为相对应的合成图像,α为l1范数和ssim之间的比例因子。

左右视差一致性误差计算方法为:

根据深度图dp可以进一步得到左右图像的视差图ddis,定义视差图为ddis=dp×iw,其中iw为图像的宽度。利用左右图像的视差图分别合成右左图像的视差图则可得到视差一致性误差如下所示,其中n为图像对数量总和。

位姿一致性误差为:

通过位姿估计网络,分别输入左右图像序列预测得到相机的位姿则两者之间必存在一定的误差,本文采用l1范数衡量两者之间的误差,即

式中:λp、λo分别为左右图像位置和方向一致性的权重参数。

而单目图像序列误差则包括左目图像序列和右目图像序列视图合成误差,视图合成误差为:

pk+1=ktk,k+1ddk-1pk

式中:k是相机的内参矩阵,tk,k+1是从第k帧转换到第k+1帧的转换矩阵,dd是第k帧像素的深度值。因此可以利用第k帧图像ik和第k+1帧图像ik+1分别合成由以下公式可得左右图像序列的视图合成误差。

总的误差损失函数由以上两大部分误差共同组成,即:

附图2给出了本发明深度估计网络结构和位姿估计网络结构,其中,图2a为深度估计网络结构图,2b为位姿估计网络结构图。附图3给出了本发明的实验效果。可以看出,采用本专利方法获得了满意的视觉里程计效果。

以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1