一种基于深度可分卷积神经网络的视觉深度估计方法与流程

文档序号：16515149发布日期：2019-01-05 09:35阅读：169来源：国知局

本发明涉及一种单目视觉深度估计技术，尤其是涉及一种基于深度可分卷积神经网络的视觉深度估计方法。

背景技术：

在如今飞速发展时代的大环境下，伴随着社会的物质生活水平的不断提升。人工智能技术应用于人们的日常生活中的方面越来越多。计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视，作为计算机视觉任务之一的单目视觉深度估计，在汽车辅助驾驶技术中显得越发重要。

汽车是现今人们出行必不可少的交通工具之一，其发展一直备受社会的重视。特别是伴随着人工智能技术的越来越成熟，无人驾驶这一具有代表性的人工智能技术也成为了近几年热门话题之一。而车前图像的单目视觉深度估计能够给汽车行驶带来很大的助力并可以保障其行驶过程中的安全，是无人驾驶技术领域重要的一环。

在深度学习提出之前，单目视觉深度估计一直是使用传统方法来提取手工特征预测深度结果的。由于限制于数据集的大小和手工特征的精度，传统方法在深度预测的领域一直没有取得令人满意的结果。在深度学习被提出后，其在计算机视觉任务中的应用取得了极大的成功。对于单目视觉深度估计而言，深度学习给予了很大的帮助，它使得深度预测可以在庞大的数据集上自主地学习并获得更多的特征信息，这使得单目视觉深度估计的结果精度不断地得到提升，从而实现其在实际需求中的应用与推广。

laina等人基于全卷积残差网络提出了一种深度估计神经网络模型，该模型自原始图像输入到预测深度图输出的整个过程都是单程的，虽然深度估计神经网络的深度足够深并且采集了一些准确度较高的特征信息，但是这些高准确度的特征信息占总体特征信息的份额却是很少的，而且由于该模型的单一性，因此导致该模型提取的特征的多样性也不足，单程且又长的特征采集过程中会出现图像中物体边缘信息的丢失，反而可能导致整体的预测精度的下降。

技术实现要素：

本发明所要解决的技术问题是提供一种基于深度可分卷积神经网络的视觉深度估计方法，其深度估计准确度高。

本发明解决上述技术问题所采用的技术方案为：一种基于深度可分卷积神经网络的视觉深度估计方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取n幅原始的单目图像及每幅原始的单目图像对应的真实深度图像，并构成训练集，将训练集中的第n幅原始的单目图像记为{qⁿ(x,y)}，将训练集中与{qⁿ(x,y)}对应的真实深度图像记为其中，n为正整数，n≥1000，n为正整数，1≤n≤n，1≤x≤r，1≤y≤l，r表示{qⁿ(x,y)}和的宽度，l表示{qⁿ(x,y)}和的高度，r和l均能被2整除，qⁿ(x,y)表示{qⁿ(x,y)}中坐标位置为(x,y)的像素点的像素值，表示中坐标位置为(x,y)的像素点的像素值；

步骤1_2：构建深度可分卷积神经网络：深度可分卷积神经网络包括输入层、隐层和输出层；隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块、4个深度可分卷积网络块、1个concatanate融合层、3个add融合层、3个反卷积层、3个可分离卷积层；深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个add融合层组成，深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块，深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块；

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为r、高度为l；

对于隐层，5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个卷积层的卷积核个数为16，第2个卷积层的卷积核个数为32，第3个卷积层的卷积核个数为64，第4个卷积层的卷积核个数为1024，第5个卷积层的卷积核个数为1，11个批规范化层的参数均采用默认值，9个激活层的激活函数均采用relu，3个最大池化层的池化步长均为2×2，2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128，第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256，2个conv_block网络块各自中的所有批规范化层的参数均采用默认值，2个conv_block网络块各自中的所有激活层的激活函数均采用relu，第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成，第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成，4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128，第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256，第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512，第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成，第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成，第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成，第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成，4个深度可分卷积网络块中的批规范化层的参数均采用默认值，4个深度可分卷积网络块中的激活层的激活函数均采用relu，3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2，第1个反卷积层的卷积核个数为64，第2个反卷积层的卷积核个数为32，第3个反卷积层的卷积核个数为16，3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个可分离卷积层的卷积核个数为64，第2个可分离卷积层的卷积核个数为32，第3个可分离卷积层的卷积核个数为16；

对于隐层，第1个卷积层的输入端接收输入层的输出端输出的原始输入图像，第1个卷积层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为j1，其中，j1中的每幅特征图的宽度为r、高度为l；第1个批规范化层的输入端接收j1中的所有特征图，第1个批规范化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为p1，其中，p1中的每幅特征图的宽度为r、高度为l；第1个激活层的输入端接收p1中的所有特征图，第1个激活层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为h1，其中，h1中的每幅特征图的宽度为r、高度为l；第1个最大池化层的输入端接收h1中的所有特征图，第1个最大池化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为z1，其中，z1中的每幅特征图的宽度为高度为第2个卷积层的输入端接收z1中的所有特征图，第2个卷积层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为j2，其中，j2中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收j2中的所有特征图，第2个批规范化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为p2，其中，p2中的每幅特征图的宽度为高度为第2个激活层的输入端接收p2中的所有特征图，第2个激活层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为h2，其中，h2中的每幅特征图的宽度为高度为第2个最大池化层的输入端接收h2中的所有特征图，第2个最大池化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为z2，其中，z2中的每幅特征图的宽度为高度为第3个卷积层的输入端接收z2中的所有特征图，第3个卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为j3，其中，j3中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收j3中的所有特征图，第3个批规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为p3，其中，p3中的每幅特征图的宽度为高度为第3个激活层的输入端接收p3中的所有特征图，第3个激活层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为h3，其中，h3中的每幅特征图的宽度为高度为第3个最大池化层的输入端接收h3中的所有特征图，第3个最大池化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为z3，其中，z3中的每幅特征图的宽度为高度为第1个conv_block网络块的输入端接收z3中的所有特征图，第1个conv_block网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为b1，其中，b1中的每幅特征图的宽度为高度为第1个深度可分卷积网络块的输入端接收b1中的所有特征图，第1个深度可分卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为s1，其中，s1中的每幅特征图的宽度为高度为第2个深度可分卷积网络块的输入端接收s1中的所有特征图，第2个深度可分卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为s2，其中，s2中的每幅特征图的宽度为高度为第2个conv_block网络块的输入端接收s2中的所有特征图，第2个conv_block网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为b2，其中，b2中的每幅特征图的宽度为高度为第3个深度可分卷积网络块的输入端接收b2中的所有特征图，第3个深度可分卷积网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为s3，其中，s3中的每幅特征图的宽度为高度为第4个深度可分卷积网络块的输入端接收s3中的所有特征图，第4个深度可分卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为s4，其中，s4中的每幅特征图的宽度为高度为concatanate融合层的输入端接收b1中的所有特征图、s1中的所有特征图、s2中的所有特征图、b2中的所有特征图、s3中的所有特征图、s4中的所有特征图，concatanate融合层的输出端输出1408幅特征图，将输出的所有特征图构成的集合记为c1，其中，c1中的每幅特征图的宽度为高度为第4个激活层的输入端接收c1中的所有特征图，第4个激活层的输出端输出1408幅特征图，将输出的所有特征图构成的集合记为h4，其中，h4中的每幅特征图的宽度为高度为第4个卷积层的输入端接收h4中的所有特征图，第4个卷积层的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为j4，其中，j4中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收j4中的所有特征图，第4个批规范化层的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为p4，其中，p4中的每幅特征图的宽度为高度为第5个激活层的输入端接收p4中的所有特征图，第5个激活层的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为h5，其中，h5中的每幅特征图的宽度为高度为第1个反卷积层的输入端接收h5中的所有特征图，第1个反卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为f1，其中，f1中的每幅特征图的宽度为高度为第5个批规范化层的输入端接收f1中的所有特征图，第5个批规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为p5，其中，p5中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收h3中的所有特征图，第1个可分离卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为k1，其中，k1中的每幅特征图的宽度为高度为第9个批规范化层的输入端接收k1中的所有特征图，第9个批规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为p9，其中，p9中的每幅特征图的宽度为高度为第1个add融合层的输入端接收p9中的所有特征图和p5中的所有特征图，第1个add融合层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为a1，其中，a1中的每幅特征图的宽度为高度为第6个激活层的输入端接收a1中的所有特征图，第6个激活层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为h6，其中，h6中的每幅特征图的宽度为高度为第2个反卷积层的输入端接收h6中的所有特征图，第2个反卷积层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为f2，其中，f2中的每幅特征图的宽度为高度为第6个批规范化层的输入端接收f2中的所有特征图，第6个批规范化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为p6，其中，p6中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收h2中的所有特征图，第2个可分离卷积层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为k2，其中，k2中的每幅特征图的宽度为高度为第10个批规范化层的输入端接收k2中的所有特征图，第10个批规范化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为p10，其中，p10中的每幅特征图的宽度为高度为第2个add融合层的输入端接收p10中的所有特征图和p6中的所有特征图，第2个add融合层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为a2，其中，a2中的每幅特征图的宽度为高度为第7个激活层的输入端接收a2中的所有特征图，第7个激活层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为h7，其中，h7中的每幅特征图的宽度为高度为第3个反卷积层的输入端接收h7中的所有特征图，第3个反卷积层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为f3，其中，f3中的每幅特征图的宽度为r、高度为l；第7个批规范化层的输入端接收f3中的所有特征图，第7个批规范化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为p7，其中，p7中的每幅特征图的宽度为r、高度为l；第3个可分离卷积层的输入端接收h1中的所有特征图，第3个可分离卷积层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为k3，其中，k3中的每幅特征图的宽度为r、高度为l；第11个批规范化层的输入端接收k3中的所有特征图，第11个批规范化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为p11，其中，p11中的每幅特征图的宽度为r、高度为l；第3个add融合层的输入端接收p11中的所有特征图和p7中的所有特征图，第3个add融合层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为a3，其中，a3中的每幅特征图的宽度为r、高度为l；第8个激活层的输入端接收a3中的所有特征图，第8个激活层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为h8，其中，h8中的每幅特征图的宽度为r、高度为l；第5个卷积层的输入端接收h8中的所有特征图，第5个卷积层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为j5，其中，j5中的每幅特征图的宽度为r、高度为l；第8个批规范化层的输入端接收j5中的所有特征图，第8个批规范化层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为p8，其中，p8中的每幅特征图的宽度为r、高度为l；第9个激活层的输入端接收p8中的所有特征图，第9个激活层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为h9，其中，h9中的每幅特征图的宽度为r、高度为l；

对于输出层，输出层的输入端接收h9中的特征图，输出层的输出端输出一幅原始输入图像对应的估计深度图像；其中，估计深度图像的宽度为r、高度为l；

步骤1_3：将训练集中的每幅原始的单目图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的单目图像对应的估计深度图像，将{qⁿ(x,y)}对应的估计深度图像记为其中，表示中坐标位置为(x,y)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值，将与之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共v次，得到训练好的深度可分卷积神经网络训练模型，并共得到n×v个损失函数值；然后从n×v个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为w^best和b^best；其中，v＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令{q(x',y')}表示待预测的单目图像；其中，1≤x'≤r'，1≤y'≤l'，r'表示{q(x',y')}的宽度，l'表示{q(x',y')}的高度，q(x',y')表示{q(x',y')}中坐标位置为(x',y')的像素点的像素值；

步骤2_2：将{q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中，并利用w^best和b^best进行预测，得到{q(x',y')}对应的预测深度图像，记为{qdepth(x',y')}；其中，qdepth(x',y')表示{qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。

所述的步骤1_2中，对于第1个深度可分卷积网络块，卷积层的输入端接收b1中的所有特征图，卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为j11，其中，j11中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收j11中的所有特征图，第1个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p11，其中，p11中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收b1中的所有特征图，第1个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为k11，其中，k11中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收k11中的所有特征图，第2个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p12，其中，p12中的每幅特征图的宽度为高度为第1个激活层的输入端接收p12中的所有特征图，第1个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h11，其中，h11中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收h11中的所有特征图，带孔可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为l11，其中，l11中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收l11中的所有特征图，第3个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p13，其中，p13中的每幅特征图的宽度为高度为第2个激活层的输入端接收p13中的所有特征图，第2个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h12，其中，h12中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收h12中的所有特征图，第2个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为k12，其中，k12中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收k12中的所有特征图，第4个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p14，其中，p14中的每幅特征图的宽度为高度为add融合层的输入端接收p11中的所有特征图和p14中的所有特征图，add融合层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为a11，其中，a11中的每幅特征图的宽度为高度为第3个激活层的输入端接收a11中的所有特征图，第3个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h13，将h13作为s1，其中，h13中的每幅特征图的宽度为高度为

对于第2个深度可分卷积网络块，卷积层的输入端接收s1中的所有特征图，卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为j21，其中，j21中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收j21中的所有特征图，第1个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p21，其中，p21中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收s1中的所有特征图，第1个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为k21，其中，k21中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收k21中的所有特征图，第2个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p22，其中，p22中的每幅特征图的宽度为高度为第1个激活层的输入端接收p22中的所有特征图，第1个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h21，其中，h21中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收h21中的所有特征图，带孔可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为l21，其中，l21中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收l21中的所有特征图，第3个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p23，其中，p23中的每幅特征图的宽度为高度为第2个激活层的输入端接收p23中的所有特征图，第2个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h22，其中，h22中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收h22中的所有特征图，第2个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为k22，其中，k22中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收k22中的所有特征图，第4个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p24，其中，p24中的每幅特征图的宽度为高度为add融合层的输入端接收p21中的所有特征图和p24中的所有特征图，add融合层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为a21，其中，a21中的每幅特征图的宽度为高度为第3个激活层的输入端接收a21中的所有特征图，第3个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h23，将h23作为s2，其中，h23中的每幅特征图的宽度为高度为

对于第3个深度可分卷积网络块，卷积层的输入端接收b2中的所有特征图，卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为j31，其中，j31中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收j31中的所有特征图，第1个批规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为p31，其中，p31中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收b2中的所有特征图，第1个可分离卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为k31，其中，k31中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收k31中的所有特征图，第2个批规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为p32，其中，p32中的每幅特征图的宽度为高度为第1个激活层的输入端接收p32中的所有特征图，第1个激活层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为h31，其中，h31中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收h31中的所有特征图，带孔可分离卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为l31，其中，l31中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收l31中的所有特征图，第3个批规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为p33，其中，p33中的每幅特征图的宽度为高度为第2个激活层的输入端接收p33中的所有特征图，第2个激活层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为h32，其中，h32中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收h32中的所有特征图，第2个可分离卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为k32，其中，k32中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收k32中的所有特征图，第4个批规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为p34，其中，p34中的每幅特征图的宽度为高度为add融合层的输入端接收p31中的所有特征图和p34中的所有特征图，add融合层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为a31，其中，a31中的每幅特征图的宽度为高度为第3个激活层的输入端接收a31中的所有特征图，第3个激活层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为h33，将h33作为s3，其中，h33中的每幅特征图的宽度为高度为

对于第4个深度可分卷积网络块，卷积层的输入端接收s3中的所有特征图，卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为j41，其中，j41中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收j41中的所有特征图，第1个批规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为p41，其中，p41中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收s3中的所有特征图，第1个可分离卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为k41，其中，k41中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收k41中的所有特征图，第2个批规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为p42，其中，p42中的每幅特征图的宽度为高度为第1个激活层的输入端接收p42中的所有特征图，第1个激活层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为h41，其中，h41中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收h41中的所有特征图，带孔可分离卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为l41，其中，l41中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收l41中的所有特征图，第3个批规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为p43，其中，p43中的每幅特征图的宽度为高度为第2个激活层的输入端接收p43中的所有特征图，第2个激活层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为h42，其中，h42中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收h42中的所有特征图，第2个可分离卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为k42，其中，k42中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收k42中的所有特征图，第4个批规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为p44，其中，p44中的每幅特征图的宽度为高度为add融合层的输入端接收p41中的所有特征图和p44中的所有特征图，add融合层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为a41，其中，a41中的每幅特征图的宽度为高度为第3个激活层的输入端接收a41中的所有特征图，第3个激活层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为h43，将h43作为s4，其中，h43中的每幅特征图的宽度为高度为

所述的步骤1_4中，采用均方误差函数获得。

与现有技术相比，本发明的优点在于：

1)本发明方法将深度方向上的可分离卷积层(separableconv2d层，即深度可分卷积层)应用到卷积神经网络模型中，这样不仅可以保证本发明方法创建的深度可分卷积神经网络在卷积神经网络原有的性能的基础上减少了卷积神经网络的参数，而且可以获得更加准确的深度特征信息，使得创建的深度可分卷积神经网络可以拥有多样而丰富的特征信息，从而可以提高利用训练得到的深度可分卷积神经网络训练模型进行预测，得到的预测深度图像的准确度。

2)本发明方法参考resnet中的block块的结构，搭建了与resnet中的conv_block网络块相似的结构的深度可分卷积网络块，并与resnet中的conv_block网络块结合在一起作为深度可分卷积神经网络提取特征信息的一部分，这样保证了深度可分卷积神经网络训练模型具有足够的深度来提取到丰富的特征信息，使得深度可分卷积神经网络训练模型变得更加的精确，能够预测得到更加准确的预测深度图像。

3)本发明方法借助于跳层连接即concatenate融合层和add融合层的特性，不仅补全了concatenate融合层之后特征所缺失的原始物体的边缘信息，而且结合深度可分卷积网络块在原始信息的基础上进一步地提供了其深度信息，这更有益于深度可分卷积神经网络训练模型的输出变得精准。

附图说明

图1为本发明方法构建的深度可分卷积神经网络的组成结构示意图；

图2为本发明方法构建的深度可分卷积神经网络中的conv_block网络块的内部结构图；

图3为本发明方法构建的深度可分卷积神经网络中的深度可分卷积网络块的内部结构图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于深度可分卷积神经网络的视觉深度估计方法，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

步骤1_1：选取n幅原始的单目图像及每幅原始的单目图像对应的真实深度图像，并构成训练集，将训练集中的第n幅原始的单目图像记为{qⁿ(x,y)}，将训练集中与{qⁿ(x,y)}对应的真实深度图像记为其中，n为正整数，n≥1000，如取n＝4000，n为正整数，1≤n≤n，1≤x≤r，1≤y≤l，r表示{qⁿ(x,y)}和的宽度，l表示{qⁿ(x,y)}和的高度，r和l均能被2整除，qⁿ(x,y)表示{qⁿ(x,y)}中坐标位置为(x,y)的像素点的像素值，表示中坐标位置为(x,y)的像素点的像素值；在此，原始的单目图像和其对应的真实深度图像直接由kitti官网提供。

步骤1_2：如图1所示，构建深度可分卷积神经网络：深度可分卷积神经网络包括输入层、隐层和输出层；隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块(现有的resnet中的conv_block网络块网络块)、4个深度可分卷积网络块、1个concatanate融合层、3个add融合层、3个反卷积层、3个可分离卷积层；深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个add融合层组成，深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块，深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块。

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为r、高度为l。

对于隐层，5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个卷积层的卷积核个数为16，第2个卷积层的卷积核个数为32，第3个卷积层的卷积核个数为64，第4个卷积层的卷积核个数为1024，第5个卷积层的卷积核个数为1，11个批规范化层的参数均采用默认值，9个激活层的激活函数均采用relu，3个最大池化层的池化步长均为2×2，2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128，第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256，2个conv_block网络块各自中的所有批规范化层的参数均采用默认值，2个conv_block网络块各自中的所有激活层的激活函数均采用relu，第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成，第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成，conv_block网络块的内部结构如图2所示，4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128，第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256，第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512，第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成，第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成，第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成，第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成，4个深度可分卷积网络块中的批规范化层的参数均采用默认值，4个深度可分卷积网络块中的激活层的激活函数均采用relu，深度可分卷积网络块的内部结构如图3所示，3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2，第1个反卷积层的卷积核个数为64，第2个反卷积层的卷积核个数为32，第3个反卷积层的卷积核个数为16，3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个可分离卷积层的卷积核个数为64，第2个可分离卷积层的卷积核个数为32，第3个可分离卷积层的卷积核个数为16。

对于输出层，输出层的输入端接收h9中的特征图，输出层的输出端输出一幅原始输入图像对应的估计深度图像；其中，估计深度图像的宽度为r、高度为l。

在本实施例中，步骤1_2中，对于第1个深度可分卷积网络块，卷积层的输入端接收b1中的所有特征图，卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为j11，其中，j11中的每幅特征图的宽度为高度为第1个批规范化层的输入端接收j11中的所有特征图，第1个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p11，其中，p11中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收b1中的所有特征图，第1个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为k11，其中，k11中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收k11中的所有特征图，第2个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p12，其中，p12中的每幅特征图的宽度为高度为第1个激活层的输入端接收p12中的所有特征图，第1个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h11，其中，h11中的每幅特征图的宽度为高度为带孔可分离卷积层的输入端接收h11中的所有特征图，带孔可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为l11，其中，l11中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收l11中的所有特征图，第3个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p13，其中，p13中的每幅特征图的宽度为高度为第2个激活层的输入端接收p13中的所有特征图，第2个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h12，其中，h12中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收h12中的所有特征图，第2个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为k12，其中，k12中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收k12中的所有特征图，第4个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为p14，其中，p14中的每幅特征图的宽度为高度为add融合层的输入端接收p11中的所有特征图和p14中的所有特征图，add融合层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为a11，其中，a11中的每幅特征图的宽度为高度为第3个激活层的输入端接收a11中的所有特征图，第3个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为h13，将h13作为s1，其中，h13中的每幅特征图的宽度为高度为

步骤1_3：将训练集中的每幅原始的单目图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的单目图像对应的估计深度图像，将{qⁿ(x,y)}对应的估计深度图像记为其中，表示中坐标位置为(x,y)的像素点的像素值。

步骤1_4：计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值，将与之间的损失函数值记为采用均方误差函数获得。

所述的测试阶段过程的具体步骤为：

步骤2_1：令{q(x',y')}表示待预测的单目图像；其中，1≤x'≤r'，1≤y'≤l'，r'表示{q(x',y')}的宽度，l'表示{q(x',y')}的高度，q(x',y')表示{q(x',y')}中坐标位置为(x',y')的像素点的像素值。

为了验证本发明方法的可行性和有效性，对本发明方法进行实验。

在此，本发明方法中构成训练集的单目图像和用于测试的单目图像均由kitti官方网站给出，因此直接使用kitti官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目图像作为待预测的单目图像输入到训练好的深度可分卷积神经网络训练模型中，再载入训练阶段得到的最优权重w^best，获得对应的预测深度图像。

在此，采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标，即：均方根误差(rootmeansquarederror，rms)、对数均方根误差(log_rms)、平均对数误差(averagelog10error，log10)、阈值准确性(thr)：δ1、δ2、δ3。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近，δ1、δ2、δ3的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ1、δ2、δ3的结果如表1所列。从表1所列的数据可知，按本发明方法获得的预测深度图像与真实深度图像之间的差别很小，这说明了本发明方法的预测结果的精度很高，体现了本发明方法的可行性和有效性。

表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周武杰;袁建中;吕思嘉;钱亚冠;向坚;张宇来
技术所有人：浙江科技学院
我是此专利的发明人

上一篇：一种多功能浇冒口自动切割设备的制作方法
上一篇：具有奥氏体基体的TWIP钢板的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。