一种基于全局注意力的自监督单目深度估计算法

文档序号:31633167发布日期:2022-09-24 02:34阅读:来源:国知局

技术特征:
1.一种基于全局注意力的自监督单目深度估计算法,其特征在于,包含如下步骤:1)构建由卷积层和池化层所组成的编码器来提取不同分辨率图像特征,充分利用不同尺度的特征信息;2)构建由卷积层、上采样层组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;3)通过将编码器的不同分辨率信息通过基于全局空间注意力模块,从而构建编解码器之间的联系,以减少语义差距;4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。2.如权利要求1所述的一种基于全局注意力的自监督单目深度估计算法,其特征在于:所述步骤1)构建由卷积层和池化层所组成的编码器来提取输入图像特征,充分利用不同尺度的特征信息,具体步骤为:s11)将输入大小为640
×
192的特征图输入到编码器网络中,通过第一层3
×
3卷积,通道数变为64,图像大小变为320
×
96;通过第二层卷积通道数变为64,图像大小变为160
×
48;通过第三层卷积通道数变为128,图像大小变为80
×
24;通过第三层卷积通道数变为256,图像大小变为40
×
12;通过第四层卷积通道数变为512,图像大小变为20
×
6。s12)如果输入为多张图片,即当采用单目视频序列时,图片数量为三张,分别为第0帧、第1帧和第2帧,当采用立体图像对为输入时,图片数量为两张,分别是左右图像对。此时初始输入通道数由3变为3
×
图片数量,并通过一层卷积核大小为7的卷积层。3.如权利要求1的一种基于全局注意力的自监督单目深度估计算法,其特征在于:所述步骤2),具体步骤为:首先接收来自解码器端的大小为20
×
6,通道数为512的特征图;经过第一层卷积和上采样层通道数变为256,图像大小为40
×
12;经过第二层卷积和上采样层通道数变为128,图片大小为80
×
24;经过第三层卷积层和尚采样层通道数变为64,图片大小变为160
×
48;经过第四层卷积和上采样层通道数变为64,图片大小变为320
×
96;在经过两层卷积层和一层上采样层,输出和原图大小相同的深度图。4.如权利要求1所述的一种基于全局注意力的自监督单目深度估计算法,其特征在于:所述步骤3),具体步骤为:s31)因为考虑到浅层特征有更清晰的边界和边缘信息,而深层特征具有更明确的语义信息,因此采用了基于全局空间注意力的网络架构方式。s32)全局空间注意力模块参考了transformer的思想设计而成,首先将接收到的特征图分别经过三个并联的卷积,其中两个特征图通道数变为原来的1/8,再将其reshape成(b,-1,h*w),再将这两个特征图进行矩阵相乘,从而构建全局性像素相关性,将生成的全局相关性矩阵经过softmax函数,将其转换为注意力特征图,最后再将生成的注意力特征图与生成的第三个特征图进行矩阵乘法,经过上述操作后,特征图中的每个像素都具有了全局相关性,最终再将其与输入的特征图相加,构建残差连接。s33)由于经过上述操作所构建的特征图具有二次复杂性,因此本文采用了漏斗结构重构了特征图的通道信息,从而降低了复杂度。5.如权利要求1所述的一种基于全局注意力的自监督单目深度估计算法,其特征在于:所述步骤4)具体步骤为:s41)通过采用边缘逐像素平滑度损失让边缘处的像素数值呈梯度式的下降,从而降低
了边缘处的误差。s42)采用图像重投影损失,即训练过程中首先将当前帧图像输入深层卷积神经网络,通过网络得到预测的深度图,然后利用网络得到的深度图和输入的上一帧图像重建出当前帧图像,并计算重建当前帧与真实的当前帧之间的损失函数。

技术总结
本发明提出基于全局注意力的自监督单目深度估计算法,解决卷积只能计算局部像素相关性的问题,提高了网络对于边界处和遮挡处的深度预测精度,其包括以下步骤:1)构建由卷积层和池化层所组成的编码器来提取不同分辨率图像特征,充分利用不同尺度的特征信息;2)构建由卷积层、上采样层组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;3)通过将编码器的不同分辨率信息通过基于全局空间注意力模块,从而构建编解码器之间的联系,以减少语义差距;4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。重投影损失结合来优化模型。


技术研发人员:郑秋梅 于涛 贺晓
受保护的技术使用者:中国石油大学(华东)
技术研发日:2022.06.01
技术公布日:2022/9/23
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1