本发明涉及智能驾驶技术领域,尤其涉及一种基于深度学习的无监督端到端的驾驶环境感知方法。
背景技术:
从视频图像中学习三维场景几何结构、场景流以及机器人相对于刚性场景的运动是计算机视觉中的重要研究内容,并且已经在许多不同领域有着广泛应用,包括自动驾驶、机器人导航和视频分析等。然而,当前基于深度学习的环境感知方法都是监督型的学习框架,获取用于训练的真值标签是非常困难的。近年来,在利用卷积神经网络方法进行深度、光流和位姿的无监督学习方面,已经取得了许多进展。这些方法都有各自的优点和局限性。无监督的深度学习方法利用场景的几何结构并将问题分解为多个正交的问题,可以利用更多的时间图像帧或立体图像信息向解决方案中添加更多约束。一方面,当前基于深度学习的光流、深度与位姿估计方法假设整个场景是静态的,因此难以处理运动物体。另一方面,光流法原则上可以处理运动物体,但是在复杂结构区域和遮挡区域中存在困难。
中国专利《利用深度学习对视频序列中单目视图深度估计优化方法》(公开号:cn108765479a)利用深度学习对视频序列中单目视图深度估计优化,但这种基于单目视觉的方法具有尺度不确定性,因此估计的深度尺度未知,不具有实际应用价值。
中国专利《一种基于深度卷积网络的双目深度估计方法》(公开号:cn109598754a)利用双目图像来训练深层卷积神经网络来进行深度估计,但是训练过程中需要真值深度作为标签参与训练,然而在实际环境中获得真值深度是非常困难且昂贵的。
中国专利《一种基于无监督学习的单目视觉定位方法》(公开号:cn109472830a)利用无监督学习的方法进行单目视觉定位,但是单目视觉定位存在尺度不确定性和尺度漂移,定位精度差,且定位的尺度不确定性,在实际环境中没有工程价值。
因此,目前基于深度学习的驾驶环境感知方法中依然存在的问题如下:
1)使用单目图片序列训练的深度估计和位姿估计深度学习模型,受限于单目尺度不确定性及尺度漂移,所估计的深度及位姿尺度未知,不具有实际应用价值;
2)当前基于深度学习的深度估计、位姿估计和光流估计方法需要真值监督训练,但是现实环境中真值数据获取非常困难且需要高昂的代价;
3)实际驾驶环境中动态物体非常常见,当前基于深度学习的环境感知方法并没有考虑动态物体的影响,精度有待进一步提高。
技术实现要素:
本发明的目的是提供一种基于深度学习的无监督端到端的驾驶环境感知方法,采用无监督的端到端框架不需要真值深度、位姿和光流作为标签监督训练,并且能够获得具有绝对尺度的相机位姿和稠密的深度图估计,从而可以以较高的精度分割出动态物体。
本发明的目的是通过以下技术方案实现的:
一种基于深度学习的无监督端到端的驾驶环境感知方法,包括:
利用双目相机进行图像采集,并通过预处理获得训练数据;
利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;
训练完毕后,对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。
由上述本发明提供的技术方案可以看出,训练数据仅需要双目rgb图像,数据获取非常简单;采用统一的框架,能够同时学习光流、深度、位姿和运动分割,模型的训练过程简单直接,需要调整的参数非常少、场景迁移能力强;模型适应性好,能够以无监督端到端的方式学习光流及具有绝对尺度的深度和位姿等环境的几何信息,由于估计的光流、位姿和深度精度较高,可以以较高的精度分割出动态物体。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于深度学习的无监督端到端的驾驶环境感知方法的流程图;
图2为本发明实施例提供的一种基于深度学习的无监督端到端的驾驶环境感知方法的框架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于深度学习的无监督端到端的驾驶环境感知方法,如图1~图2所示,分别为该方法的流程图与框架图。该方法主要包括:
1、利用双目相机进行图像采集,并通过预处理获得训练数据。
本发明实施例中,应用于驾驶环境感知,因而双目相机安装在车辆上,用于采集环境图像。
在输入网络训练之前,为了减少训练时间并降低计算代价和硬件消耗,对双目相机采集到的原始图像进行缩放,并且相应的相机内参也同时进行缩放。
此外,还应用数据增强方法来提高模型泛化性能并减轻过拟合,通过上述方式产生训练数据,每次训练提取两个连续的大小相同的立体图像对输入至网络进行训练。两个连续的大小相同的立体图像对记为l1、r1、l2与r2;其中,l1、r1对应的表示在t1时刻的左、右图像,l2、r2对应的表示t2时刻的左、右图像,其宽、高记为w、h。
本发明实施例中,数据增强方法,包括使用如下一个或多个方式进行数据增强:
使用亮度因子y对输入的单目图像进行随机校正;
按比例因子sx和sy沿x轴和y轴对图像进行缩放,然后将图像随机裁剪为指定尺寸;
将图像随机旋转r度,并使用最近邻方法插值;
随机左右翻转以及随机时间顺序切换(交换t1和t2)。
示例性的,可采用如下设置γ∈[0.7,1.3],sx∈[1.0,1.2],sy∈[1.0,1.2],r∈[-5,5];指定尺寸可以设为:832×256。
2、利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。
本步骤中,所述利用训练数据中两个连续的大小相同的立体图像训练光流估计网络、位姿估计网络、深度估计网络以及运动分割主要分为如下两个阶段:
第一阶段:利用训练数据中连续的大小相同的立体图像对训练光流估计网络,再同时训练位姿估计网络和深度估计网络。
在本阶段中,首先,利用两个连续左图像l1与l2以及设计的光流损失函数
所述光流损失函数
其中,ψ(.)表示遮挡感知重建损失函数,α表示调节系数,o1表示非遮挡区域,m1表示损失掩模,n为归一化系数(也即移动区域的像素数量);
然后,同时训练位姿估计网络和深度估计网络:
利用两个连续左图像l1与l2以及设计的刚性流损失函数
所述立体损失
所述刚性流损失
其中,o1表示非遮挡区域,m1表示损失掩模;
将
第二阶段:利用训练数据中连续的大小相同的立体图像对同时训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。
本阶段,利用两个连续的大小相同的立体图像对l1、r1、l2与r2、光流损失
本阶段训练光流估计网络、位姿估计网络、深度估计网络与第一阶段训练过程相同,输出结果也相同,不再赘述。区别在于,本阶段还结合三个网络的输出同时训练运动分割,由于这部分在测试阶段与训练阶段原理都是相同的,为了避免赘述,将在后文进行介绍。基于这一训练策略,可以避免网络在训练过程中产生的梯度消失问题。
可选地,光流估计网络可以采用pwc-net框架,pwc-net在端到端的可训练深度神经网络中融合了几种经典的光流估计技术,包括图像金字塔,变形和成本量,以实现最先进的结果。位姿估计网络可以采用基于循环卷积神经网络(rcnn)的框架,经cnn提取的特征输入到两层卷积lstm(convlstm)输出6-dof位姿,由平移p=(tx,ty,tz)和旋转角
3、训练完毕后,对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。
1)刚性配准模块。
通过刚性配准模块,使用光流估计网络输出的光流
在刚性配准期间,将2d图像空间中的点转换为3d点云,公式为:
qk(i,j)=dk(i,j)k-1pk(i,j),k=1,2
其中,pk(i,j)是图像lk的(i,j)位置处的像素的齐次坐标,k是相机内参,dk(i,j)是图像lk的(i,j)位置处的绝对尺度深度,qk(i,j)是图像lk的(i,j)位置处像素的对应3d坐标;
利用位姿t12将3d点云q1转换为3d点云
其中,w、h分别表示图像的宽、高;
如果一切都非常准确,则
其中,区域r为
t′12=δt×t12。
2)流一致性和运动分割。
通过优化后的位姿t′12,可以计算由摄像机运动引起的刚性流的公式为:
其中,k是相机内参,p1表示l1中像素的齐次坐标;
如果
因o1为
其中,sg表示停止梯度,
基于上述方式,图2所示模型的总损失为:
上式中,λ为相应损失项的权重系数。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。