一种基于MLP的自监督单目深度估计算法

文档序号:31633160发布日期:2022-09-24 02:34阅读:162来源:国知局
一种基于MLP的自监督单目深度估计算法
一种基于mlp的自监督单目深度估计算法
技术领域
1.本发明提出一种基于mlp的自监督单目深度估计算法,解决卷积只能计算局部像素相关性的问题,同时加入了mlp模块使网络的特征提取能力和特征分析能力大大增强,提高了对于特征图的深度预测的准确性。属于数字图像处理领域。


背景技术:

2.在数字图像处理中,深度图是研究的关键问题之一。在自动驾驶等领域中,预测行人等周边环境距离车辆的远近是至关重要的,因此也突显出了本研究的重要性。
3.最近,基于mlp的网络也被发现可以胜任计算机视觉任务。特别是 mlp-mixer,这是一个基于mlp的网络,它以较少的计算量提供了与变换器相当的性能。受这些工作的启发,本发明提出了利用mlp构建的编解码器,这是一个基于卷积和mlp的网络。我们仍然沿用unet的5层深度编码器-解码器结构,但改变了每个模块的设计。我们在unext中有两个阶段,一个是卷积阶段,另一个是mlp阶段。我们使用卷积块,在网络的初始和最终块中使用较少数量的过滤器。在瓶颈部分,我们使用了新颖的tokenized mlp(tokmlp)块,它能有效地保持较少的计算量,同时还能建立一个良好的模型。由于标记化特征的维度较小,而mlps比卷积或自注意和变换器更不复杂;我们能够大大减少参数的数量和计算的复杂性,同时也能保持良好的性能。更重要的是,与transunet相比,我们将参数数量减少了72倍,计算复杂度降低了68倍,推理速度提高了10倍,使其适用于自监督单目深度估计。


技术实现要素:

4.针对上述问题,本发明的是一种基于mlp的自监督单目深度估计算法,通过使用mlp改进原始u-net网络无法建模全局信息问题,增强网络对于不同像素特征的提取和利用,增强了网络对于边界等区域等的预测精确度,发明基本流程如图1所示。
5.本发明采取如下技术方案:一种基于mlp的自监督单目深度估计算法包括如下步骤:
6.1)构建由卷积和mlp所组成的编码器来提取不同分辨率图像特征,充分利用不同尺度的特征信息;
7.2)构建由卷积层、上采样层和mlp组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;
8.3)构建卷积残差连接和mlp残差连接,降低编解码器之间的语义差距。
9.本发明由于采取以上方法,其具有以下优点:
10.1、通过mlp模块考虑了卷积和自我注意的优点,同时避免了它们的缺点。
11.2、改进原有的编码器和解码器的特征处理方式,使网络具有更强的建模能力。
12.3、在保证速度的同时有效提高检测精度,尤其是对语义边界不明显的图片。
附图说明
13.图1本发明基本流程图;
14.图2改进的u-net结构;
15.图3mlp操作图;
16.图4本发明网络整体改进后实验效果;
具体实施方式
17.下面结合说明书附图通过一个实例对本发明做进一步说明,本实例仅为本发明其中的一种应用实例。
18.步骤1)获取kitti数据集的44234张图像,其中分为训练集39810张和测试集4424张,对所有图像使用相同的处理,将相机的主点设置为图像中心,焦距设置为kitti中所有焦距的平均值。对于立体和混合训练(单目加立体),将两个立体帧之间的转换设置为纯固定长度的水平平移。
19.本发明的编码器解码器网络是在u-net的基础上改进,如图2所示,具体步骤为:
20.步骤1)将输入大小为640
×
192的特征图输入到编码器网络中,通过前两层的纯卷积模块来提取特征图的局部特征信息,充分利用了卷积的平移不变性和权值共享性,深层次的阶段则通过mlp层提取全局性信息,来补充卷积未提取到的特征信息。
21.s11)每个卷积块都有一个卷积层,一个批量归一化层和relu层。编码器中的卷积块使用窗口为2
×
2的最大池化层。
22.s12)在shifted mlp中,我们首先在tokenizing前平移conv要素的通道轴。这有助于mlp只关注conv特征的某些位置,从而诱导区块的局部性。这里的直觉类似于swin transformer,以向原本完全全局的模型添加更多的局部性。由于tokenized mlp块具有2个mlp,我们在一个中跨宽度移动特征,在另一个中跨高度移动特征,类似于轴向注意。我们将特征分成h个不同的分区,并根据指定的轴将它们移动j个位置。这有助于我们创建随机窗口,沿轴引入局部性。
23.步骤2)首先接收来自解码器端的大小为20
×
6,通道数为512的特征图;接收到的特征图首先经过mlp层,再通过卷积层。卷积块由双线性插值层组成,用于对特征图进行上采样。使用转置卷积而不是双线性插值,因为转置卷积基本上是可学习的上采样,有助于获得更多可学习的参数。
24.s21)在tokenized mlp中,首先将特征图转换为tokens。然后将这些tokens 传递给一个移位的mlp(跨宽度),其中mlp的隐藏维度是一个超参数。接下来,这些特征通过一个深度卷积层(dwconv)。在这个块中使用dwconv有两个原因:1)有助于编码mlp特征的位置信息。mlp块中的conv层足以对位置信息进行编码,并且它实际上比标准位置编码技术表现更好。2)dwconv 使用较少数量的参数,因此提高了效率。然后使用一个gelu激活层。然后,通过另一个移位mlp(跨高度)传递特征。在这里使用残差连接将tokens添加到原始特征图中。然后应用层归一化(ln)并将输出特征传递给下一个块。
25.在pytorch上实现我们的模型,并在一台tesla v100s显卡上训练它们。我们使用adam optimizer,β1=0.9,β2=0.999。deepthnet和posenet被训练了20个纪元,每批12个。两种网络的初始学习速率均为1
×
10-3,并在15 个周期后以10的倍数衰减。训练序列由三
幅连续图像组成。我们将ssim权重设为α=0.85,平滑损失权重设为λ=1
×
10-3。
26.通过整合以上所有改进,形成了本文的网络,本发明的实验对比了 monodepth2网络在kitti数据集上的实验效果,通过abs rel,sq rel,mse,rmse
log
,δ《1.25,δ《1.252,δ《1.253评价指标评估本发明提出的改进网络的性能,如图4所示。
27.本发明的保护范围也并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。


技术特征:
1.一种基于mlp的自监督单目深度估计算法,其特征在于,包含如下步骤:1)构建由卷积和mlp所组成的编码器来提取不同分辨率图像特征,充分利用不同尺度的特征信息;2)构建由卷积层、上采样层和mlp组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;3)构建卷积残差连接和mlp残差连接,降低编解码器之间的语义差距。2.如权利要求1所述的一种基于mlp的自监督单目深度估计算法,其特征在于:所述步骤1)构建由卷积和mlp所组成的编码器来提取不同分辨率图像特征,充分利用不同尺度的特征信息,具体步骤为:将输入大小为640
×
192的特征图输入到编码器网络中,在编码器前两层中为全卷积网络,后两层则为纯mlp网络层,两阶段相互补充,提取更加精密的图像特征,最终图像大小变为12
×
40。11)本发明仍然沿用unet的5层深度编码器-解码器结构,但改变了每个模块的设计。网络有两个阶段,一个是卷积阶段,另一个是mlp阶段。使用卷积块,在网络的初始和最终块中使用较少数量的filters。在深层网络,使用了新颖的tokenized mlp(tokmlp)块,它能有效地保持较少的计算量,同时还能建立一个良好的模型。tokenized mlp将卷积特征投射到一个抽象的标记中,然后使用mlp来学习有意义的信息进行分割。我们还在mlp中引入移位操作,以提取对应于不同轴移位的局部信息。由于标记化特征的维度较小,而mlps比卷积、自注意和变换器运算量更小;因此能够大大减少参数的数量和计算的复杂性,同时也能保持良好的性能。3.如权利要求1的一种基于mlp的自监督单目深度估计算法,其特征在于:所述步骤2),具体步骤为:首先接收来自解码器端逐步下采样所得到的最小特征图,此时特征图为mlp所产生的特征信息,将接收到的信息与编码器端的特征构建残差连接,再经过上采样和特征通道移位,进入到卷积阶段,最终特征图被上采样到和原特征图相同大小640
×
192。4.如权利要求1所述的一种基于mlp的自监督单目深度估计算法,其特征在于:所述步骤3)具体步骤为:由于编解码器之间存在语义差距,因此本发明在mlp阶段和卷积阶段都构建了残差连接,具体为,在每一层特征上,都将接受来自于编码器端的特征信息通过通道注意力模块与解码器特征图相连,可以在一定程度上恢复下采样过程中所损失的像素信息,最终再将相连的信息一起上采样,直至和原特征图相同大小。总的来说,本发明是一个具有两个阶段的编码器-解码器架构。1)卷积阶段,和2)标记化mlp阶段。输入图像通过编码器,前3个块是卷积,后2个是标记化mlp块。解码器有2个标记化mlp块,然后是3个卷积块。每个编码器区块将特征分辨率降低2,每个解码器区块将特征分辨率提高2,编码器和解码器之间还包括跳过连接。

技术总结
本发明提出基于MLP的自监督单目深度估计算法,提高了此前基于全卷积网络的特征提取能力和远程像素的相关性,提高了网络对于边界处和遮挡处的深度预测精度,其包括以下步骤:1)构建由卷积和MLP所组成的编码器来提取不同分辨率图像特征,充分利用不同尺度的特征信息;2)构建由卷积层、上采样层和MLP组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;3)构建卷积残差连接和MLP残差连接,降低编解码器之间的语义差距。低编解码器之间的语义差距。


技术研发人员:郑秋梅 于涛 贺晓
受保护的技术使用者:中国石油大学(华东)
技术研发日:2022.06.01
技术公布日:2022/9/23
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1