一种基于密集连接型卷积神经网络的光场深度信息估计方法与流程

文档序号:18001941发布日期:2019-06-25 22:56阅读:557来源:国知局
一种基于密集连接型卷积神经网络的光场深度信息估计方法与流程

本发明涉及一种光场图像的深度信息估计方法,主要是设计了一种基于密集连接型卷积神经网络的模型对光场图像进行深度信息估计。



背景技术:

传统的成像设备与系统只能记录场景的二维平面信息,丢失了场景深度信息,光场成像技术通过相机阵列或微透镜阵列记录不同方向的光线,因此,光场相机通过单次曝光可以记录3维场景的空间、视角等4维光场信息,突破了传统呈现技术的局限,具有“先拍摄,后对焦”的独有特点,可通过后期算法实现视角变换、重聚焦等光场应用技术。

目前,成熟的光场设备为ng等人开发的消费级单镜头光场相机lytro和lytroillum,该设备基于微透镜阵列以集成成像为基础,其模型见附图1。微透镜阵列中每个透镜可以接收到同一场景点的不同光线并在感光板上形成一个“宏像素”,由这些“宏像素”构成的图像称为光场子视图(lightfieldsubview),通过对光场子视图的重排编码可以得到我们最终需要的光场子孔径图像(lightfieldsub-apertureimages),其过程见附图2。

光场子孔径图像表示了不同视角的场景图像,但基于微透镜阵列的光场相机具有基线短的特点,这使得场景在不同视点的差异值(disparity)是连续的,可以通过构建对极线平面图(epipolarplaneimage,epi)来进行深度信息的估计,epi的结构如附图3所示,epi中直线的斜率和深度信息成正比关系。

当前,深度信息的估计方法分为两大类:基于优化的估计算法以及基于深度学习的估计算法。基于优化的算法典型代表为jeon等人根据相移理论提出了一种达到亚像素精度的多视角立体匹配方法,该算法克服了微透镜镜头畸变,且改善了传统匹配算法的准确度,但是基于立体匹配的算法复杂度高,计算代价大。基于epi的估计算法利用了epi中直线斜率和深度的关系,可以有效降低计算代价,并且估计精度更高,其中较为优秀的算法是wanner等人采用了结构化张量来计算epi中的斜率,得到初始视差图,并且使用全变差去噪滤波器来精细化视差图。但该算法对于镜面反射、高光或缺少纹理的表面无法估计精确的深度信息。

基于epi的估计算法近年来与深度学习相结合取得了不错的成绩,luo等人于2017年在cvpr中提出了一种基于epi的卷积神经网络的深度信息提取算法,该算法以水平及垂直epi作为输入,网络模型对epi进行特征分析,并得出场景点的深度信息估计值,其模型见附图4,该模型将输出的估计值作为分类任务输出(量化后的结果),因此模型的估计精度有限,对此,该算法还提出了基于能量函数的后优化处理,对最终生成的深度图作平滑优化。总体上基于深度学习的估计算法在精度以及计算代价上优于非深度学习的方式,但是仍然存在需要多次执行模型前向传播得到整体的深度图以及需要作后处理的缺点。



技术实现要素:

本发明立足于深度学习技术以及基于epi的光场的深度信息估计方式,采用全卷积网络以及highwaynetworks中shortcuts的思想,提出一种可以高精度、高效率、低计算代价完成深度信息估计的算法。

为了实现上述发明的目的,本发明提供以下技术方案:

首先,算法提出多个方向上的epivolume作为网络模型的输入,epivolume包含了所有像素点的信息,补正了传统epi只包含部分像素点信息的缺点。

其次,算法提出基于密集连接型卷积神经网络的网络模型,对epivolume进行像素级的特征学习,输出深度图。

最后,模型的训练需要大量数据,对此,提出了一种针对光场数据的特化的数据增强方案。

根据以上技术方案思想,本发明提供一种基于密集连接型卷积神经网络的光场深度信息估计方法,该方法应用于基于微透镜阵列的光场深度信息估计,其特征在于,该方法包括以下过程:

a)使用基于微透镜阵列的光场相机采集光场图像数据,然后使用随机灰度化,随机旋转,随机裁剪,随机缩放的方式进行数据扩容;

b)将数据扩容后的光场图像数据合成为多个方向上的epi(epipolarplaneimage)volume结构;

c)构建卷积神经网络的网络模型,把多个方向上的epivolume作为网络模型的输入,学习其特征;

d)使用denseblock结构减少网络参数,加快网络训练;

e)以平均绝对误差作为代价函数训练网络模型,直到模型参数收敛,输出差异图。

其中,数据扩容使用的随机灰度化方式,其计算式为:gray=wr*r+wg*g+wb*b,其中wr,wg,wb分别为rgb三通道的权重,权重为随机值,且满足三个条件:wr+wg+wb=1;max{wr,wg,wb}=1;min{wr,wg,wb}=0。

其中,数据扩容方式中使用的随机旋转是根据旋转角度改变合成为epivolume结构前的视角方向,当顺时针旋转角度为时,同时改变水平及垂直方向的视角提取顺序;当顺时针旋转角度为时,改变水平方向的视角提取顺序;当顺时针旋转角度为时,改变垂直方向的视角提取顺序;

其中,epivolume结构,其特征是,epivolume结构是三维结构,其对应的是不同视角的照片按照一定次序进行通道拼接而形成的;

其中,多方向的epivolume,其特征是:将(9×9)的图片阵列以中心视角图像为原点,以水平方向,竖直方向以及斜对角线方向的所有图像拼接形成epivolume;

其中,卷积神经网络的网络模型,其特征是,该模型由多个“conv-relu-conv-bn-relu”基本单元,denseblock单元以及transition单元构成,模型的输入分别为4个方向的epivolume,这4部分输入对应到模型的4个支路中。其中,每条支路中都包含有6个基本单元,基本单元中所有卷积层都是(2×2)大小的卷积核,卷积核数量为90;

其中,卷积神经网络的网络模型,其特征是,该模型中4个支路合成为一个主路,主路包含4个denseblock单元和transition单元,denseblock单元的所有卷积层都是(2×2)大小的卷积核,卷积核数量为36,且采用通道拼接的方式将每一层的输出与同一个denseblock中的其它层相连接,其中,transition单元第一个卷积层的卷积核大小为(1×1),卷积核数量为90,第二个卷积层的卷积核大小为(1×1),卷积核数量为1。

附图说明:

图1为背景中提到的单镜头微透镜阵列光场相机模型;

图2为背景中提到的子孔径图像的提取过程;

图3为背景中提到的epi结构示意图;

图4为背景中提到的luo等人提出的光场深度信息估计算法模型;

图5本发明基于密集连接型卷积神经网络的深度信息估计算法模型;

图6是本发明epivolume结构的形成过程;

图7是本发明针对光场结构的数据增强处理方法

具体实施方式

整个算法的流程图见图5,下面结合具体实施方式对本发明作进一步的详细描述。

具体的算法模型如图5所示,可以看到整体模型以卷积层为基础,不包含有全连接层,实现了全卷积的形式,并且没有后处理,输出为整个差异图,实现了端到端的形式。下面依次从模型参数、输入预处理来对图5模型进行详细描述。

图5中模型前半部分采用多流的形式,4部分的输入分别输入到4流中,但是每一条支路的参数数量一致(不代表参数相同,每条支路的参数在训练过程中是单独更新的),网络的层次结构以“conv-relu-conv-bn-relu”为基本单元,前半部分的多流结构都是包含3个基本单元,其中所有卷积层的卷积核大小为(2×2),卷积核的数量为90;4部分输入经过多流以后将它们进行级联(按通道方向)输入到网络的后半部分,网络后半部分包含4个denseblock基本单元和一个transition输出部分,denseblock基本单元中所有卷积层的卷积核大小为(2×2),卷积核数量为36,输出部分包含的层级为“bn-relu-卷积层”,其中卷积的卷积核大小为(1×1),数量为1(输出的差异图通道数为1)。对于网络中层级结构的设计以及参数的选择理由如下:

①由于epi结构中的场景点在不视角上的移位量相当小,一般是像素级甚至是亚像素级的,因此将卷积核的大小设置为(2×2),卷积时的步长为1,这样可以感知4个像素点内的位移。

②基本单元选择“卷积层-规范层-relu”,卷积层不作其他说明,规范层的功能是将卷积层输出的分布重新规范化,解除不同卷积层之间的强耦合,起到正则化的作用;relu作为激活函数是实现整个网络函数的非线性化,而relu激活函数很接近线性函数,因此选择该激活函数可以使网络函数具有部分线性函数的优良属性。

③特别的,网络中不含有padding(填充),目的是不对输入增加无用信息,影响估计精度;网络中同样不具有pooling(池化),因为pooling会造成信息损失,影响估计精度。

模型输入包含有4个部分:水平、竖直、两条对角线方向的epivolume。首先介绍本发明对epi结构的预处理:与图3的一般epi结构不同,一般的epi是将某一场景点按照视角顺序投影后形成,形成的epi结构只包含有部分场景点信息,而不包含整个场景点信息,而本发明使用epivolume包含整个场景,目的是为了实现端到端的估计,下面介绍本发明epivolume的形成过程。epivolume的形成见图6,具体为以下几个步骤:

①选取以中心视角图像为中心的水平方向所有视角的图片,并且将其灰度化,得到的图像大小为(高,宽,1),如图6中所示。

②将灰度化的图像按照水平从左到右的顺序在图像的通道维度上进行合并,得到的水平epi输入大小为(高,宽,9)(以(9×9)视角分辨率为例)

③对其他方向的图像作类似于步骤1,2的处理,可以得到其他方向的epivolume输入。

对上述步骤的解释:首先对于步骤1,本发明期望网络学习同一场景点在不同视角下的位置关系,因此图像的色彩信息是不必要的冗余信息,所以将图像进行灰度化。其次对于步骤2,由于cnn网络的关键计算为卷积计算,为了让卷积操作可以实现对与不同视角图像的特征提取,本发明将不同视角下的图片按照视角顺序在图片的通道方向上进行合并,。这里着重强调按照视角顺序合并,在图3所示的一般epi结构中可以看到,只有按照视角顺序对图像进行提取重构才可以得到正确的epi结构。经上述步骤构成的epi结构包含了整个场景的信息,可以实现端到端的估计。

传统方法仅使用1个或2个方向上的epi信息,使得估计结果精度有限,为了充分利用数据集中的图像信息,采用4个方向上的epivolume,提高估计结果的准确度。

对于本发明模型的训练数据,本发明采用了hci开源光场数据集,由于该数据集光场图像数量少,本发明提出了针对光场结构特定的数据增强方式。以上提及的数据集不属于本发明的技术范围,在数据方面,本发明的核心思想在于数据增强方式上的处理。

数据增强有许多成熟的方法,但不是所有方式都能直接应用到本发明中,这里只介绍了本发明针对光场结构处理后的数据增强方法。

本发明针对图像的旋转和随机灰度化两种增强方式作处理,因为这两种增强方式改变了光场子孔径图像的视角顺序和位置关系,并且在图像中加入了噪声,用于提高模型鲁棒性。对于旋转增强方式(默认顺时针旋转),其后处理分两种情况,若是旋转180°,其后处理与翻转一致,只完成视角顺序变换;但对于旋转90°或270°,不仅要改变提取epi结构时的视角顺序,提取的epi结构在水平及垂直方向的关系也要互换,以旋转90°为例,提取水平方向的子孔径图像合成的epi结构为实际为垂直epi结构,所以对应的要给到网络的垂直epi输入中,如图7所示。随机灰度化采用公式:gray=wr*r+wg*g+wb*b,其中wr,wg,wb分别为rgb三通道的权重,权重为随机值,且满足三个条件:wr+wg+wb=1;max{wr,wg,wb}=1;min{wr,wg,wb}=0。

对于训练模型选择的代价函数和优化器,本发明选择平均绝对误差代价函数以及rmsprop优化器,这里只作了简单阐述。

本发明的特点在于设计的网络模型是端到端、全卷积的形式,并且使用epivolume作为输入使输入具备整体的场景点信息,这样可以使得模型只经过一次前向传播来得到整体的差异图,其次,本算法根据光场的特点提出了特定的数据增强的处理方式。综上,本发明提出了一种高精度、高效率的光场深度信息估计方法。

以上对本发明提供的卷积神经网络的光场深度信息估计方法作了详细阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1