一种改进的基于陆标-卷积特征的图像方法与流程

文档序号:22501632发布日期:2020-10-13 09:35阅读:196来源:国知局
一种改进的基于陆标-卷积特征的图像方法与流程

本发明涉及移动机器人定位技术领域,具体为一种改进的基于陆标-卷积特征的图像方法。



背景技术:

移动机器人技术是当今世界应用广泛、极具前景的一项前沿性领域。它集成了人工智能、传感器技术、信号处理、自动化控制工程、计算机技术及工业设计等众多学科的理论研究成果,被广泛应于用工业、农业、服务业、医疗、国防等各行各业,能协助或者替代人类的工作,尤其是在人类无法到达或者危险环境下比如宇宙空间及水下探索等场合的应用研究尤为重要。在slam方法被提出之前,定位和建图无法同时进行,定位需要依赖已有的地图。然而,在大多数任务中,移动机器人都是应用在一个未知的环境中,既没有提前准备好的地图,也无法确定当前所处的位置。在1986年的ieeeroboticsandautomationconference大会上,研究人员首次提出概率同时定位与建图simultaneouslocalizationandmapping,slam的概念,即利用重复观测到的地图数据估算当前的位姿信息,再由位姿信息增量式的构建地图,从而实现在未知的环境中同时定位与建图的目的。从此slam技术作为实现移动机器人自主导航的核心环节在机器人研究领域占有着重要的地位。

一个典型的视觉slam系统由视觉里程计、后端优化、闭环检测和地图建图几个模块组成。首先通过安装在机器人上的传感器采集图像等信息,然后根据读取的信息估算相邻图像之间的运动,并恢复局部的场景空间结构,最后根据应用要求搭建相应的地图。如果仅用视觉里程计做定位和建图,由于当前的位置和地图仅和上一个时刻相关,就不可避免的出现误差,所以在视觉slam中采用后端优化的方式,对相邻时刻通过视觉里程计估计到的相机位姿和地图进行局部优化,并根据闭环检测的反馈结果进行一个全局的优化,最终可以得到全局一致的轨迹和地图。其中的闭环检测就是通过检测出机器人是否到达过预先识别场景,来消除机器人的累积误差,一旦系统检测到闭环,就把信息提供给后端。闭环检测是构建具有全局一致性的轨迹和地图的slam中必不可少的环节,一个好的闭环检测能消除运动轨迹的累积漂移,能识别因天气变化、视点变化、遮挡、动态环境等造成的相机跟踪丢失并进行重定位。一些主流的视觉slam如lsd-slam、orb-slam、ldso等,这种方式在极端的外观变化和视点改变,以及环境中存在动态对象干扰的情况下并不够鲁棒。随着深度学习在视觉场景识别中的成功应用,用卷积特征生成图像表示能消除如由天气、季节或者一天中的时间变化造成的外观变化引起的闭环误检测。而依靠陆标区域而不是整个图像特征来描述场景可以显著提高当场景中存在视点变化或部分遮挡时的鲁棒性。

chen等人利用overfeat网络提取卷积特征作为图像全局描述符,但描述符太大,无法实时检测闭环。bai等人提出使用先进的深度学习技术来提取鲁棒的特征用于替换seqslam中原来的特征。在这两种方法中,卷积特征都是提取自通用神经网络而非针对闭环检测的专用网络。为此,gomez-ojeda等人设计了具有针对性的卷积神经网络用于识别场景。chen等人进一步在具有足够大的和变化的数据集中训练这种专有网络,其中的训练数据集被拍摄于数千个不同的场景,拥有大量的外观变化。这些网络架构依赖于监督学习,需要带标签的图像作为训练数据集。merrill等人构建了一种专门用于闭环检测的无监督深度神经网络架构,其关键思想是从网络中提取的卷积特征能比上述所有卷积特征更轻巧,更紧凑。卷积特征仍然无法很好地解决视点不变性,原因与描述整个图像的全局特征相似。研究发现基于陆标的卷积特征生成的图像表示能够显著提高闭环检测在视点变化情况下的鲁棒性。这些方法中都要求特殊的陆标检测器landmarkdetectors来识别在回环检测任务中的感兴趣区域region-of-interest,roi。

卷积神经网络的最后几层卷积层通常嵌入了非常丰富的语义信息,这些信息对应于一些对闭环检测任务有意义的图像区域。本发明提出了一种基于陆标-卷积特征的方法,采用全新的陆标生成机制,即直接根据卷积层的激活值识别图像中的roi,而无需任何陆标检测器。然后利用一种专为闭环检测任务设计的无监督深度神经网络提取陆标的卷积特征。该闭环检测同时具有视点不变性和外观不变性的优点,并且还滤除了环境中显著存在的动态对象,进一步提升了闭环检测的鲁棒性。



技术实现要素:

本发明的目的在于提供一种改进的基于陆标-卷积特征的图像方法,以解决上述背景技术中提出的问题。

闭环检测即视觉场景识别问题,其核心是如何生成图像表示,从而计算图像间的相似性以检测是否出现闭环。闭环检测算法中一直存在着两个巨大的挑战:1.由于天气、遮挡和动态物体造成的外观变化;2.由于相机拍摄位置等造成的视点变化。传统的方法是利用从图像中提取的视觉特征来生成图像表示,然后通过词袋模型加速图像描述符的匹配速度。通常有两类视觉特征:第一类是局部的特征,如sift、surf和orb等,第二类是全局的视觉特征,如gist、hog等。

闭环检测模块采用的是surf特征结合词袋模型的方式。高翔等人在dso的基础上,新加入闭环检测和位姿图优化,使之成为一个完整的基于直接法的视觉slam系统。通过采用orb特征和词袋模型结合的方式检测是否出现闭环,由于加入了闭环检测模块,即使跟踪丢失,算法能很容易进行重定位而有效运行,拥有闭环检测的ldso在定位和地图重建上的性能和精度都明显优于单纯的视觉里程计。

基于局部特征的描述符对于视点变化是鲁棒的,但是不适合处理外观变化。而全局特征描述符在环境变化中表现出良好的性能,但是当环境中存在视点和遮挡时却表现不佳。因此,在照明、遮挡、视点和其他因素的组合变化的情况下,局部或者全局的视觉特征都不能提供令人满意的性能。

随着深度学习在机器人和计算机视觉领域的成功应用,表明了在闭环检测中利用基于卷积特征的方法比利用传统的视觉特征具有更明显的优势,尤其是在具有光照变化的环境中。与局部的视觉特征相比,卷积特征具有更好的环境不变性;与全局的视觉特征相比,卷积特征具有更好的语义识别能力。

基于场景的回环检测过程可以描述为:给定一个查询帧和一组具有n幅图像的数据库图像,闭环检测的目的就是在数据库图像中找到与拍摄于同一场景下的参考帧

本发明提出的基于陆标-卷积特征的闭环检测方法,能直接的生成陆标,并且从一种无监督深度学习网络中提取卷积特征,结合环境中的动态因子对生成图像表示的影响。该方法的组成结构如图1所示,主要由四个部分组成:

a.图像预处理:首先利用目标检测网络识别场景图像帧中的动态因子,然后对这些区域采用图像的滤波处理,滤出场景中的动态对象;

b.陆标生成:将预处理后的图像输入到预先训练的卷积神经网络中,然后直接从卷积神经网络的最后一层卷积层识别出感兴趣区域,对每一幅查询帧和数据库图像分别识别出感兴趣区域生成陆标特征标识;

c.卷积特征提取:利用一个无监督的深度神经网络对从图像中生成的每一个陆标提取卷积特征描述子,得到对应的特征向量;

d.场景检索:最后根据匹配的陆标对计算查询帧和每一幅数据库图像之间的整体相似度,以确定查询帧的最佳匹配参考帧。

1.滤除场景中的动态对象

近年来,使用目标检测网络模型,例如r-cnn系列、yolo等检测和定位场景中的物体能达到非常出色的效果,可以实现令人满意的准确率和精度。基于r-cnn的目标检测方法是先从图像中搜索出一些可能存在对象的候选区,然后对每个候选区域进行识别,大幅提升了对象识别和定位的效率。yolo是用于对象检测的另一框架,它创造性地将候选区和对象识别这两个阶段合二为一,但是实际上yolo并未真正的去掉候选区,而是采用了预定义的候选区,基于yolo的方法已经发展成了yolov1、yolov2、yolov3、yolov4版本,其速度越来越快,准确度越来越高,效果越来越好。

场景中存在的动态对象,如行人,汽车等会对图像的表示产生很大影响,最终导致错误的回环判断。为了构建一个鲁棒且稳定的闭环检测方法,不能忽略动态对象的问题,从场景中检测出动态对象,然后通过技术将动态对象滤除。

目标检测网络可以识别到场景中大多数动态物体的启发,并且考虑到yolo具有比其他目标检测网络更快速的图像处理能力,同时也能满足在闭环检测任务中检测到动态物体的要求,所以在图像预处理阶段,首先利用yolov4作为场景中的动态因子检测的工具。由于其训练在pascalvocdataset上的预训练模型能够正确区分闭环检测任务中出现的大多数动态对象,所以无需重新进行训练,直接使用其提供的预训练模型。

在检测出图像中存在的动态对象的区域之后,在尽可能保留图像细节的情况下,借助图像平均模糊的方法处理这部分区域,从而减弱或者消除了环境中存在的动态对象对最终生成的图像表示的影响。虽然这种滤除场景中的动态因子的想法很简单,但是实验验证了这个方法是有效的。只需要增加一个图像预处理过程,即通过一个快速的对象检测网络和简单的图像滤波处理就能提升闭环检测任务的精度,并且这也是一种新颖的动态滤除方式。

2.识别图像的感兴趣区域生成陆标

a.把每一帧经动态滤除处理后的图像作为卷积神经网络alexnet的输入,直接通过该卷积网络的最后一层卷积层输出图像对应的特征映射;

b.将这些特征映射的所有非零激活值及其周围8个相邻的激活值分别聚为一类,记为,m表示一幅图像中的聚类数目,每个聚类的能量值可计算为:

其中表示第i个聚类的大小,表示中的第j个激活值;

c.在得到m个聚类的能量值之后,取其中t个具有最大能量值的聚类映射回原图像中作为最终生成的陆标集合,记为:

3.提取卷积特征

对于生成的每个陆标,利用构建的无监督卷积自动编码器网络来提取卷积特征描述符;路标作为输入,x表示hog特征的维度,表示重建的特征描述子的维度,在自编码模型中,对三个卷积层使用的是线性整流函数(relu)激活,对全连接层使用sigmoid激活以便网络重建hog特征,当训练结束时,网络即具备学习重建hog特征的能力,对于相同大小的输入提取的hog特征的维度是相同的,可以利用欧几里得距离作为hog描述子的距离度量,在损失层利用损失函数来比较x和其重建的的大小:,网络的参数设置如图2所示。

该网络已经被证明是快速可靠的,无需降低提取到的卷积特征的维数即可实现实时检测闭环,实验表明通过用此网络学习到的hog特征检测回环的能力要明显优于原始的hog特征,并且能够取代基于卷积特征的闭环检测系统中的通用神经网络。由于该网络不需要特定环境的训练,所以可以直接应用预训练模型来提取实验中所用的数据集图像的特征。记图像i生成的任一陆标提取的特征向量为,特征维度为1064。所以对于任意一幅图像,总的特征维度为

4.计算相似性

为了计算之间的相似性得分,交叉匹配从这两幅图像中提取的所有陆标。利用余弦距离度量的一个陆标的一个陆标之间的相似性:

即为uv的余弦距离。其中分别表示对中的陆标u中的陆标v提取的卷积特征向,表示向量的长度。

使用简单的线性搜索来确定所有陆标之间的匹配,并应用交叉检查以仅接受相互匹配的陆标。

对于每一个匹配的陆标对(u,v),根据它们的区域大小确定其权重,权重记为wu,v:

其中分别为(u,v)区域的高和宽,分别表示两个区域的高的差值的绝对值和宽的差值的绝对值。

最终,整体相似性得分为:

对于每一帧查询图像,遍历并计算其与数据库中所有图像的相似性得分,其中得分最高的图像即为的最佳匹配:

z即表示与具有最高的相似性得分的参考帧。

有益效果

与现有技术相比,本发明的有益效果是:

针对在传统的闭环检测中利用传统的视觉特征生成图像表示存在的一些缺陷,提出用陆标-卷积特征来表示图像,并且该算法不同于其他基于陆标的相关算法,不要求任何额外的陆标检测器,而是直接由卷积神经网络的深层卷积层识别显著性区域生成陆标。该算法利用专为闭环检测设计的无监督深度神经网络提取图像特征,而非从通用神经网络中提取,进一步提升了算法的性能。结果表明无论是环境中存在剧烈的视点变化还是极端的外观变化,该算法均具有很高的鲁棒性。

附图说明

图1为本发明基于陆标-卷积特征的闭环检测方法组成结构图;

图2为本发明网络的参数设置。

具体实施方式

1.评价指标

在闭环检测算法中,检测闭环的准确性和鲁棒性是评价算法好坏的标准之一,当机器人在具有极端外观变化和视点变化的未知环境中移动时,一个足够鲁棒的闭环检测方法很大程度上消除累积误差以及在相机跟踪丢失时进行重定位。如何量化闭环检测方法的鲁棒性能呢,在闭环检测中,一般采用准确率(precision)和召回率(recall)这两个具有代表性的指标进行验证。准确率指的是算法检测到的所有闭环中确实是真实闭环的概率;召回率则是指所有真实闭环被算法检测出来的概率。相应的计算公式如下所示:

其中tp表示真阳性(truepositive),即事实上是闭环,算法检测的结果也是闭环的数量;fp表示假阳性(falsepositive),即事实上不是闭环,但算检测为闭环的数量;fn表示假阴性(falsenegative),即事实上是闭环,但算法检测的结果不是闭环的数量。相应的,还有真阴性(truenegative)的相关定义,即事实上不是闭环,算法检测的结果也不是回环的数量,用tn表示。假阳性和假阴性又被称为感知偏差和感知变异,在实际应用中,这两种情况影响了闭环检测的准确性。在理想情况下,一个好的闭环检测算法在面对上述两种情况时也能正确检测到当前是否存在闭环,这就要求在算法实施过程中,tp和tn的值应该尽量高,fp和fn的值尽可能低。

实际上,准确率和召回率是一对矛盾的统计量,当闭环检测的准确率较高时,意味着判断存在闭环的参数设置比较严格,算法检测出的闭环数量将减少,环境中还存在真实的闭环未被检测出,从而导致召回率下降;当闭环检测的召回率较高时,说明判断存在闭环参数设置的比较宽松,算法会检测出更多的闭环,但是这些闭环中存在不是真实闭环的情况,那么准确率会下降。在闭环检测中,通常的做法是先得到各种情形下的召回率和准确率,然后绘制一条准确率-召回率曲线(precision-recallcurve)。在slam中,通常对准确率的要求更为严格,因为如果准确率较低将导致被算法检测为是闭环实际上不是,这将会造成优化算法给出完全错误的结果,从而导致建出的地图失效。而如果召回率较低,意味着将会有部分闭环未被检测到,从而使得构建的地图受到一些累计误差的影响,但这只需要一两次闭环就可以完全消除由此造成的误差。所以,在slam中相比于召回率,更希望得到尽量高的准确率,在本发明中,利用准确率-召回率曲线的曲线下面积(auc),在100%的精确率下的最大召回率以及当有较高的召回率时的准确率作为实验的评估指标。

2.公开数据集介绍

为了验证提出的闭环检测方法是一个对外观变化和视点变化均鲁棒的方法,将利用几个具有挑战的公开数据集进行实验验证。这些数据集包含了现实世界中普遍存在的场景变化,比如视点、天气、光线、季节等各种不同的情形。对这四个数据集的详细描述如下:

(1)gardenspoint数据集

gardenspoint数据集包括三个遍历轨迹。其中的一个轨迹序列被拍摄于夜间;其他的两个轨迹被拍摄于白天,分别沿着人行道的左侧和右侧进行拍摄,表现出在路径左侧和右侧行走时出现的视点变化以及主要由行人等动态物体引起的轻微外观变化。使用白天的两个轨迹序列评估提出的基于无监督深度学习的闭环检测方法对视点变化的鲁棒性;使用白天沿着道路右侧的轨迹序列和夜间拍摄的轨迹序列作为评估由极端的光线变化造成的外观变化鲁棒性的测试数据集。利用白天沿着道路右侧的轨迹和夜间拍摄的轨迹序列评估当环境中同时存在有视点变化和剧烈的光线变化时该闭环检测方法的鲁棒性。

(2)campusloop数据集

campusloop数据集由两个图像序列组成,每个序列包含100帧的图像,并且该数据集中即包含室内环境也包含室外环境。第一个序列是在下雪天拍摄的,地面在室外环境中被雪覆盖,而第二个序列是在晴天拍摄的。利用这两个图像序列验证本发明提出的闭环检测方法在由天气、光照等造成的外观变化以及视点变化的综合变化情况下的鲁棒性。

3.实验结果

为了证明本发明提出的基于无监督深度学习的闭环检测算法的优越性能,首先评估了构建基于无监督深度学习的闭环检测组成方法的效果,同时也将其与经典的基于直接法的视觉slam中常用的闭环检测方法进行对比,第一个对比方法是lsd-slam中使用的闭环检测方法fabmap,另一个对比方法是ldso中使用的基于词袋模型的开源框架dow3。

(1)方法评估

在campusloop数据集上得到的实验结果展示了只用卷积特征生成整个图像的表示、首先滤除场景中的动态对象再生成图像的卷积特征表示、对原始图像生成陆标再提取卷积特征的陆标-卷积特征的图像表示和构建的完整的方法(即先滤除场景中的动态对象,再生成陆标,最后对陆标提取卷积特征)这四种方式的效果。相应的曲线分别命名为deeplc-w,deeplc-d、deeplc-l以及deeplc,并且在余下的几种评估实验中,都用deeplc表示本发明提出的基于无监督深度学习的闭环检测算法的实验效果曲线。

根据deeplc-w与deeplc-l这两条曲线的对比可以看出,后者的auc可以达到0.94,在召回率尽可能高的情况下其准率明显高于整个图像的卷积特征的表示方法,可以得出采用陆标-卷积特征的图像描述方式显著优于仅用卷积特征描述图像的全局方式的结论。根据deeplc-w、deeplc-d的效果,可以分析出如果在图像预处理阶段滤除了场景中的动态因子对提升闭环检测的精确度是有一定帮助的,相比于整个图像的卷积特征表示,虽然auc的值只提升了0.01,在100%的精确率下的最大召回率也几乎没有变化,但是由deeplc的效果可以看出一旦将这几种技巧结合就能很大程度的提升闭环检测能力,不仅auc能达到0.98,在100%的精确率下的最大召回率也能高达70%,所以无论是陆标-卷积的图像表示方式还是在预处理阶段的动态因子滤除处理都是本发明提出的基于无监督深度学习的闭环检测方法中重要且有效的组成部分。

(2)视点变化鲁棒性评估

本发明提出的闭环检测方法和fab-map以及dbow3在gardenspoint数据集中白天的两个轨迹序列上的实验,这两个序列中的图像数据是分别沿着道路的左右两边采集到的。实验结果表明当环境中只存在视点变化时,基于无监督深度学习的闭环检测方法能达到近乎完美的效果,auc的值高达1。fabmap和dbow的效果要逊色于本发明提出的闭环检测方法,虽然这两个方法都是基于局部的视觉特征,理论上对环境中的视点变化是具有鲁棒性的,但是不能忽视在本发明的方法中图像预处理阶段滤除了场景中的目标的作用,以及卷积特征相对于人为设计的特征在识别场景方面优异性能。所以可以得出本发明提出的回环检测方法具有视点不变性的结论。

(3)光照变化鲁棒性评估

本发明提出的闭环检测方法和fab-map以及dbow3在这两个图像序列上的实验结果,当场景中存在强烈的光线变化时,dbow3的方法几乎失效了,不能提供令人信服的准确率和召回率。相比之下,fab-map效果要好的多,当有50%的召回率时准确率超过了70%,而本发明提出的基于无监督深度学习的方法是其中表现的最高的方法,无论是auc的值还是100%的准确率对应的召回率还是较高的召回率对应的准确率,本发明的方法都具有明显的优势,所以当场景中存在强烈的光线变化时,基于无监督深度学习的闭环检测仍然是可靠的。

(4)视点和光照变化鲁棒性评估

上述的两个实验证明了无论是在视点变化还是在由极端的光线变化外观变化中基于无监督深度学习的闭环检测都能得到令人满意的闭环检测能力,现在考虑如果环境中同时存在这两种变化时的闭环检测方法的性能,选择来自gardenspoint数据集中白天沿着道路左侧右侧和晚间沿着道路右侧的轨迹图像,即包含了视点变化也包含了强烈的光线变化,并且白天的场景中还存在行人的干扰。,dbow3在这样的场景下依然是失效的,相比于只有光照变化,fab-map的效果并没有下降太多,仍然具有相同的auc和在100%的准确率下相同的召回率,但是当召回率较高时准确率有所下降。基于无监督深度学习的回环检测仍然是其中最优的方法,比较之下具有最高的auc、召回率和准确率。

(5)综合变化评估

在campusloop数据集上的实验比较了三种对比方法在当场景中存在季节变化、视点变化、室内室外切换、轻微的光线变化以及动态对象综合变化时的效果,该数据集中包含各种变化情况。基于无监督深度学习的方法仍然表现出了非常好的效果,100%的准确率能达到70%的召回率。fab-map和dbow这两种方法表现得差不多,前者略好一些,100%的准确率时能有10%的召回率,并且准确率要高于dbow3,但是在综合变化下都不具有令人满意的闭环检测能力。

需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1