一种基于深度学习的端到端视觉里程计及方法与流程

文档序号:11157573阅读:1762来源:国知局
一种基于深度学习的端到端视觉里程计及方法与制造工艺

本发明涉及一种基于深度学习的端到端视觉里程计及方法。



背景技术:

视觉里程计是机器人利用视觉传感器估计自身运动的方法,是机器人定位、地图构建、避障以及路径规划等高层任务的基础技术。

传统的视觉里程计主要基于帧间视觉特征的空间几何关系,估计机器人帧间位姿,因此也称为帧间估计。特征分为稀疏特征和稠密特征两类,分别对应于图像局部信息表示和全局信息表示。传统的特征需要人工选取或计算,造成对图像信息表示具有一定人为性和局限性,同时依赖特征匹配的准确性,在应对图像的光照变化、运动模糊、纹理单一等情形具有较大的局限性,影响了其估计精度。



技术实现要素:

本发明为了解决上述问题,提出了一种基于深度学习的端到端视觉里程计及方法,本发明利用端到端的帧间估计深度神经网络技术,实现了从原始图像到帧间估计的直接输出,相对于传统方法,该技术无需手动提取特征或光流图像、无需构建特征描述子、无需帧间特征匹配,更无需进行复杂的几何运算。

为了实现上述目的,本发明采用如下技术方案:

一种基于深度学习的端到端视觉里程计,包括级联的光流网络和帧间估计网络,所述光流网络根据数据集中图像序列中的相邻帧,选取输出光流向量和基准数据之间的光流端点误差为损失函数,进行网络训练后,将生成的光流图像输出,所述帧间估计网络以光流图像作为输入,基于六自由度输出位姿向量与基准数据之间的距离构建损失函数,迭代训练网络,进行帧间估计。

所述光流网络和帧间估计网络均为层次化训练方式。

所述光流网络为卷积神经网络训练器。

所述光流网络以相邻帧连续图像作为输入,选取输出光流向量和基准数据之间的光流端点误差作为损失函数,进行将输入的连续帧图像生成光流图像的网络训练。

所述帧间估计网络以光流图像作为输入,将整个光流图像的训练划分为全局光流图训练和多个子光流图像的局部训练,最后组合两者输出的特征,输出到全连接层,完成基于光流的帧间估计网络。

所述帧间估计网络为利用KITTI数据集训练网络。

所述帧间估计网络为利用合成数据来训练网络。

一种基于深度学习的端到端视觉里程估计方法,根据数据集中图像序列中的相邻帧,选取输出光流向量和基准数据之间的光流端点误差为损失函数,进行网络训练后,生成光流图像,根据光流图像,基于六自由度输出位姿向量与基准数据之间的距离构建损失函数,迭代训练网络,进行帧间估计。

采用不同输入输出数据分别训练光流网络模块和帧间估计网络模块,最后将两者级联,进一步深层次训练,优化参数。

本发明的有益效果为:

(1)本发明相较于传统方法,无需人工选取或计算特征,免去了误差较大的特征匹配过程,更无需复杂的几何运算,具有直观简单的特点;

(2)本发明提出的层次化深度神经网络训练方法,可实现光流网络和帧间估计网络并行训练,提高了训练速度;

(3)本发明中光流网络的应用,提高了光流计算速度,使得算法实时性得到了提升;

(4)本发明采用不同输入输出数据分别训练光流网络模块和帧间估计网络模块,最后将两者级联构成端到端的视觉里程计模块,再进一步深层次训练,优化参数。该层级化训练方法可以大幅降低训练时间,提高训练效率。

附图说明

图1为本发明的系统结构示意图;

图2为本发明的基于卷积神经网络的光流网络示意图;

图3为本发明的帧间估计网络示意图。

具体实施方式:

下面结合附图与实施例对本发明作进一步说明。

一种端到端的帧间估计深度神经网络技术,实现了从原始图像到帧间估计的直接输出,是一个模块化的视觉里程计。相对于传统方法,该技术无需手动提取特征或光流图像、无需构建特征描述子、无需帧间特征匹配,更无需进行复杂的几何运算。

如图1所示,本发明的里程计包含两个子模块:光流网络模块和帧间估计网络模块。两个模块采用层次化训练方式,即采用不同输入输出数据分别训练光流网络模块和帧间估计网络模块,最后将两者级联构成端到端的视觉里程计模块,再进一步深层次训练,优化参数。该层级化训练方法可以大幅降低训练时间,提高训练效率,也是深度神经网络的优势之一。具体步骤如下:

光流网络的构建:光流网络可由卷积神经网络(CNN)构成,并通过真实数据或合成数据进行网络训练,以相邻帧连续图像作为输入,选取输出光流向量和基准数据之间的光流端点误差(endpoint error,EPE)作为损失函数,实现从输入连续帧图像到光流生成的网络训练。

如图2所示,分别将第i帧图像和第i+1帧图像输入CNN网络,输出各自的图像特征表示;组合前后帧图像特征表示,进一步输入到更深层次的CNN网络;通过上卷积网络提高CNN网络的池化操作结果分辨率,输出逐像素的稠密全局光流图。

帧间估计网络的构建:该网络以光流图像作为输入,以六自由度输出位姿向量与基准数据之间的距离构建损失函数,迭代训练网络。图3展示了利用局部光流图像和全局光流图像分别训练网络组合完成基于光流的帧间估计的过程。此过程可选用KITTI数据集或合成数据来训练网络,并通过传统光流算法计算输入光流。

帧间估计模块的建立过程中,首先将全局光流图分割成多个局部光流子图,然后将全局光流图和局部光流子图分别输入CNN网络,得到光流局部特征和全局特征表示。将光流局部特征和全局特征表示进行组合,输入到全连接层,得到六自由度位姿向量表示的帧间估计。

训练过程可分为三个阶段:首先局部光流子图作为输入,帧间估计作为输出,训练网络;其次将全局光流图作为输入,帧间估计作为输出,训练网络;最后,将局部光流子图和全局光流图同时作为输入,帧间估计作为输出,进一步训练网络。

实现端对端的视觉里程计:级联训练好的光流网络和基于光流的帧间估计网络,将数据集中图像序列的相邻帧作为整个网络的输入,以六自由度输出向量和基准数据的距离构造损失函数,迭代训练优化参数,实现快速、精确、鲁棒的端对端的视觉里程计。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1