基于生成对抗卷积神经网络的光场显著性目标检测方法与流程

文档序号:21369177发布日期:2020-07-04 04:45阅读:264来源:国知局
基于生成对抗卷积神经网络的光场显著性目标检测方法与流程

本发明属于计算机视觉领域,具体的说是一种基于生成对抗卷积神经网络的光场显著性目标检测方法。



背景技术:

显著性目标检测是人类视觉系统的一个注意力机制。当我们面对一个场景时,人类自动的对感兴趣区域进行处理而选择性地忽略不感兴趣的区域,这些人们感兴趣的区域就被称为显著性区域。显著性目标检测是从输入的视觉信息中选择观察者最感兴趣的一部分数据进行处理,比如目标识别、目标追踪和图像分割等。目前,显著性检测已经成为计算机视觉领域内研究的热点方向之一。

目前光场显著性目标检测的方法大致可以分为两类:基于统计的方法和基于学习的方法。

基于统计的方法是在光场图像的基础上,利用彩色图像的统计属性或者物理属性来估计显著性目标。此类方法通常进行一些假设,如显著性目标属于前景、颜色鲜艳的区域一般被认为是显著性区域等等,这些方法都是基于一定的假设,计算都比较简单直接。

基于学习的方法通常需要一定量的光场图像作为训练数据,利用这些训练数据来训练显著性目标检测模型,从而进行显著性目标检测。这类方法通常比基于统计的方法具有更高的准确性,所以得到了更广泛的应用。早期的基于机器学习的方法通过手工提取一些低级视觉特征(如边缘)构建浅层学习模型,比基于统计的方法取得了更加出色的性能。近年来,随着计算机计算能力和硬件性能的提升,基于深度学习的方法越来越得到科研人员的青睐。基于深度学习的方法利用卷积神经网络能够提取边缘、几何特征、高层语义特征等,从而进一步提高显著性目标检测的精度。

虽然在计算机视觉领域中,已经出现了一些性能出色的光场显著性目标检测方法,但这些方法依然存在着不足之处:

1、基于统计的方法通常是对显著性目标进行假设,适用范围小,适合简单场景的预测,在处理复杂场景时误差比较大。

2、早期基于学习的方法只能手工提取一些低级视觉特征,构建简单的学习模型。而图像中包含的信息是十分丰富的,应该尽可能学习更高级的特征,并自动地从图像中学习特征分布,提高预测精度。

3、在一些基于深度学习的方法中,颜色、深度、位置等特征信息之间的联系被割裂了,没有充分考虑到它们之间的关联性和互补性。

4、在显著性目标检测方法中,针对基于深度学习的方法来说,网络参数的更新主要来自训练数据,因此通常是需要大量的训练数据,收敛比较慢。而目前关于光场显著性的研究还处于萌芽阶段,数据集的数量有限,无法达到更高的预测精度。



技术实现要素:

本发明是为了解决上述现有技术存在的不足之处,提出一种基于生成对抗卷积神经网络的光场显著性目标检测方法,以期能充分利用深度学习方法和光场重聚焦信息,从而能有效提高复杂场景的显著性目标检测性能。

本发明为达到上述发明目的,采用如下技术方案:

本发明一种基于生成对抗卷积神经网络的光场显著性目标检测方法的特点按如下步骤进行:

步骤1、对光场相机获取的光场数据进行解码,得到重聚焦序列数据集记为l=(l1,l2,…,ld,…,ld),其中,ld代表第d个光场数据的重聚焦序列,并有:其中,表示第d个光场数据的第m个焦点图,cd表示第d个光场数据的中央视角图像,和cd的高度和宽度分别为h和w,m∈[1,m],m表示第d个光场数据的焦点图个数,d∈[1,d],d表示光场数据的数目;

步骤2、对所述第d个光场数据的重聚焦序列ld进行数据增强,得到第d个光场数据增强后的重聚焦序列图像集合l′d;从而获得所述光场数据集合l中d个光场数据增强后的重聚焦序列集合l′=(l′1,l′2,…,l′d,…,l′d);

步骤3、将所述第d个光场数据的真实显著图记为gd,对所述第d个光场数据的真实显著图gd做镜像和旋转处理,得到第d个几何变换后的真实显著图集合g′d;从而得到d个几何变换后的真实显著图集合记为g′=(g′1,g′2,…,g′d,…,g′d);

步骤4、构建由生成器和判别器所组成的生成对抗卷积神经网络;

步骤4.1、构建空间注意力模块sa;

所述空间注意力模块sa包括两个支路,一个支路依次包括:卷积核大小为1×k和k×1的两个卷积层,另一个支路依次包括:卷积核大小为k×1和1×k的两个卷积层;两个支路的输出通过加法器与sigmoid激活函数相连;所述sigmoid激活函数的输出通过乘法器与空间注意力模块sa的输入相连;

步骤4.2、构建上下文特征提取模块cfe和通道注意力模块ca;

步骤4.2.1、所述上下文特征提取模块cfe的输入分别与一个卷积层以及三个扩张卷积率分别为c1,c2和c3的扩张卷积层相连,每个所述扩张卷积层的输出均与一个上采样层相连;三个所述上采样层的输出与所述卷积层的输出经过串联处理后作为所述上下文特征提取模块cfe的输出;

步骤4.2.2、所述cfe模块的输出与所述通道注意力模块ca的输入相连,所述通道注意力模块ca依次包括:第一全连接层、relu激活函数、第二全连接层和sigmoid激活函数;所述sigmoid激活函数的输出通过乘法器与所述通道注意力模块ca的输入相连;

步骤4.3、构建u-net卷积网络结构;

设置所述u-net卷积网络是由编码部分和解码部分组成,并包含:2a+1个卷积模块、a个最大池化层、a个卷积核大小为n′×n′的转置卷积层,任意一个卷积模块是由a1对卷积核大小为n×n的卷积层和leakyrelu激活函数组成;

所述编码部分是以一个卷积模块和一个最大池化层为一组而构成的a组结构;

所述解码部分是以一个卷积核大小为n′×n′的转置卷积层和一个卷积模块而构成的a组结构;

所述编码部分通过一个卷积模块与所述解码部分相连接;

步骤4.4、构建改进后的u-net卷积网络结构;

步骤4.4.1、将所述u-net卷积网络的第1个卷积模块的输出连接所述空间注意力模块sa模块,并将所述空间注意力模块sa模块的输出与所述第a个转置卷积的输出串联,所述第a个转置卷积的输出与第2a+1个卷积模块的输入相连;

步骤4.4.2、定义变量b,并初始化b=2;

步骤4.4.3、将所述u-net卷积网络的第b个卷积模块的输出与所述上下文特征提取模块cfe相连后,再与通道注意力模块ca相连,并所述通道注意力模块ca的输出与第a-b+1个转置卷积的输出串联,所述第a-b+1个转置卷积的输出与第2a+2-b个卷积模块的输入相连,其中b∈[2,a];

步骤4.4.4、将b+1赋值给b后,判断b>a是否成立,若成立,则执行步骤4.4.5;否则,返回步骤4.4.3;

步骤4.4.5、在所述u-net卷积神经网络的第2a+1个卷积模块后依次添加卷积层conv_last和sigmoid激活函数;

步骤4.5、以所述改进后的u-net卷积神经网络分别作为第一生成器g1,第二生成器第三生成器第四生成器gm用于预测输出结果,其中表示向下取整,

步骤4.5.1、以所述第d个光场数据的重聚焦序列ld中第d个中央视角的子孔径图像cd作为第一生成器g1的输入,并经过所述第一生成器g1得到第一输出fake_g1;

步骤4.5.2、以和第一输出fake_g1串联后作为第二生成器的输入,并经过第二生成器得到第二输出

步骤4.5.3、以和第二输出串联后作为第三生成器的输入,并经过第三生成器得到第三输出

步骤4.5.4、以和第三输出串联后作为第四生成器gm的输入,并经过第四生成器gm得到第四输出fake_gm,并作为最终的预测结果;

步骤4.5.5、所述判别器由d1个卷积层依次串联而成,以fake_gm×cd作为判别器的虚假标签,以gd×cd作为所述判别器的真实标签,从而将所述虚假标签或真实标签输入所述判别器中,并经过所述判别器得到相应输入标签的判别结果,用于计算对抗损失和更新所述生成对抗卷积神经网络的参数;

步骤4.6、以增强后的光场重聚焦序列集合l′为所述生成对抗卷积神经网络的输入,以几何变换后的真实显著图集合g′作为标签,由二元交叉熵、对抗损失和l1损失构成损失函数,再利用梯度下降算法对所述生成对抗卷积神经网络进行训练,从而得到更新后的生成对抗卷积神经网络,用于实现对光场数据的显著性目标检测。

与现有技术相比,本发明的有益效果在于:

1、本发明利用深度卷积神经网络在图像处理方面的强大能力,融合了光场数据的重聚焦信息,使用生成对抗网络来捕捉光场图像的有效信息,从而对光场显著性目标进行检测,解决了当前基于统计的显著性目标检测方法无法提取高层语义特征的缺陷,提高了复杂场景下显著性目标检测的精确性和鲁棒性。

2、本发明所使用的重聚焦序列体现了场景的空间几何信息,将重聚焦序列输入到卷积神经网络中,实现了目标检测,解决了当前显著性目标检测方法没有充分考虑颜色、深度、位置之间互补性的缺点,提高了光场显著性目标检测的有效性。

3、本发明所使用的生成对抗网络包括生成器和判别器两个部分,相比传统的深度学习网络,形式不再单一,采用的是对抗训练方式,而且生成对抗网络中参数的更新来自训练样本和判别器,能够更好的学习训练样本的分布,更快的收敛,即使只有少量的光场数据集也能取得很好的显著性目标预测效果,从而使得光场显著性目标检测性能得到较高的提升。

附图说明

图1为本发明中显著性目标检测方法的工作流程图;

图2为本发明方法中获得的重聚焦序列、中央视角图和其对应的真实显著图;

图3为本发明方法中的空间注意力模块sa模块流程图;

图4为本发明方法中的通道注意力模块ca模块流程图;

图5为本发明方法中改进的u-net卷积网络图;

图6为本发明方法中的判别器网络结构图;

图7为本发明方法中光场重聚焦序列集合输入到网络的过程图。

具体实施方式

本实施例中,如图1所示,一种基于生成对抗网络的光场显著目标检测方法是按如下步骤进行:

步骤1、对光场相机获取的光场数据进行解码,得到重聚焦序列数据集记为l=(l1,l2,…,ld,…,ld),其中,ld代表第d个光场数据的重聚焦序列,并有:其中,表示第d个光场数据的第m个焦点图,cd表示第d个光场数据的中央视角图像,和cd的高度和宽度分别为h和w,具体实施中,h=256,w=256,m∈[1,m],m表示第d个光场数据的焦点图个数,d∈[1,d],d表示光场数据的数目,d=640;

本实施例中,使用第二代光场相机获取光场文件,并用lytropowertoolbeta工具对光场文件进行解码,获得光场数据在本发明实验中,共获取640个光场重聚焦序列集,平均分成5份,轮流选择其中1份作为测试集,余下4份作为训练集。步骤1中的m表示第d个光场数据的焦点图个数,具体实施中,m=11,每个场景选取了11张聚焦在不同深度的焦点图,如图2所示,随着焦点图序号的递升,聚焦深度也在逐渐增加,实验显示,更多的焦点图可以提供更多的信息。

步骤2、对第d个光场数据的重聚焦序列ld进行数据增强,得到第d个光场数据增强后的重聚焦序列图像集合l′d;从而获得光场数据集合l中d个光场数据增强后的重聚焦序列集合l′=(l′1,l′2,…,l′d,…,l′d);在本实施例中,对第d个光场数据的重聚焦序列ld进行旋转和镜像处理,实现了数据增强,数据增强可以提高检测模型的泛化能力和预测精度。

步骤3、将第d个光场数据的真实显著图记为gd,对第d个光场数据的真实显著图gd做镜像和旋转处理,得到第d个几何变换后的真实显著图集合g′d;从而得到d个几何变换后的真实显著图集合记为g′=(g′1,g′2,…,g′d,…,g′d);

步骤4、构建由生成器和判别器所组成的生成对抗卷积神经网络;

步骤4.1、构建空间注意力模块sa;

空间注意力模块sa包括两个支路,如图3所示,一个支路依次包括:卷积核大小为1×k和k×1的两个卷积层,另一个支路依次包括:卷积核大小为k×1和1×k的两个卷积层;两个支路的输出通过加法器与sigmoid激活函数相连;sigmoid激活函数的输出通过乘法器与空间注意力模块sa的输入相连;具体实施中,k=9,使用卷积核大小为1×k和k×1的两个卷积层可以增大感受野获得全局信息,且不会增加大量计算参数,有助于提高计算效率。

步骤4.2、构建上下文特征提取模块cfe和通道注意力模块ca;

步骤4.2.1、上下文特征提取模块cfe的输入分别与一个卷积层以及三个扩张卷积率分别为c1,c2和c3的扩张卷积层相连,每个扩张卷积层的输出均与一个上采样层相连;三个上采样层的输出与卷积层的输出经过串联处理后作为上下文特征提取模块cfe的输出;

在实施例中,c1=3,c2=5,c3=7,c1,c2和c3为三个扩张卷积层的扩张卷积率;卷积层以及三个扩张卷积率分别为3,5和7的扩张卷积层输出通道数皆为cfe模块输入特征图通道数的每个扩张卷积层的输出都经过上采样层得到与卷积层输出相同的尺寸,然后将三个上采样层的输出与卷积层的输出经过串联处理后作为上下文特征提取模块cfe的输出,使用这种金字塔形的扩张卷积网络结构,能够以多尺寸捕捉图像的上下文信息,丰富特征信息

步骤4.2.2、cfe模块的输出与通道注意力模块ca的输入相连,通道注意力模块ca依次包括:第一全连接层、relu激活函数、第二全连接层和sigmoid激活函数;sigmoid激活函数的输出通过乘法器与通道注意力模块ca的输入相连,具体流程图如图4所示;

步骤4.3、构建u-net卷积网络结构;

设置u-net卷积网络是由编码部分和解码部分组成,并包含:2a+1个卷积模块、a个最大池化层、a个卷积核大小为n′×n′的转置卷积层,任意一个卷积模块是由a1对卷积核大小为n×n的卷积层和leakyrelu激活函数组成;

编码部分是以一个卷积模块和一个最大池化层为一组而构成的a组结构;

解码部分是以一个卷积核大小为n′×n′的转置卷积层和一个卷积模块而构成的a组结构;

编码部分通过一个卷积模块与解码部分相连接;

在本实施例中,a=4;卷积核大小为n×n的卷积层,n=3,卷积步长为1,经过卷积层后,特征图尺寸不变;卷积核大小为n′×n′的转置卷积层,n′=4,卷积步长为2,经过转置卷积层后,特征图尺寸变为转置卷积层输入尺寸的2倍;

步骤4.4、构建改进后的u-net卷积网络结构;

步骤4.4.1、将u-net卷积网络的第1个卷积模块的输出连接空间注意力模块sa模块,并将空间注意力模块sa模块的输出与第a个转置卷积的输出串联,第a个转置卷积的输出与第2a+1个卷积模块的输入相连;

步骤4.4.2、定义变量b,并初始化b=2;

步骤4.4.3、将u-net卷积网络的第b个卷积模块的输出与上下文特征提取模块cfe相连后,再与通道注意力模块ca相连,并通道注意力模块ca的输出与第a-b+1个转置卷积的输出串联,第a-b+1个转置卷积的输出与第2a+2-b个卷积模块的输入相连,其中b∈[2,a];

步骤4.4.4、将b+1赋值给b后,判断b>a是否成立,若成立,则执行步骤4.4.5;否则,返回步骤4.4.3;

步骤4.4.5、在u-net卷积神经网络的第2a+1个卷积模块后依次添加卷积层conv_last和sigmoid激活函数;

在本实施例中,改进后的u-net卷积神经网络如图5所示,底层网络结构一般提取的是低维特征信息,如边缘特征,直接使用原始u-net卷积神经网络的跳跃连接会对显著性目标的位置预测产生干扰,因此本发明采用了空间注意力的方法,对每一个像素位置赋予不同的权重,以提高预测精度;高层卷积网络提取高层语义特征,小的卷积核感受野较小,提取的信息有限,不能考虑全局特征,因此本发明采用金字塔形的空洞卷积结构来扩大感受野;同时,考虑到每张特征图对显著性目标预测的贡献不一样,本发明采用了通道注意力的方法,给每个通道赋予不同的权重,以提高网络性能。

步骤4.5、以改进后的u-net卷积神经网络分别作为第一生成器g1,第二生成器第三生成器第四生成器gm用于预测输出结果,其中表示向下取整,

步骤4.5.1、以第d个光场数据的重聚焦序列ld中第d个中央视角的子孔径图像cd作为第一生成器g1的输入,并经过第一生成器g1得到第一输出fake_g1;

步骤4.5.2、以和第一输出fake_g1串联后作为第二生成器的输入,并经过第二生成器得到第二输出

步骤4.5.3、以和第二输出串联后作为第三生成器的输入,并经过第三生成器得到第三输出

步骤4.5.4、以和第三输出串联后作为第四生成器gm的输入,并经过第四生成器gm得到第四输出fake_gm并作为最终的预测结果;

步骤4.5.5、判别器由d1个卷积层依次串联而成,以fake_gm×cd作为判别器的虚假标签,以gd×cd作为判别器的真实标签,从而将虚假标签或真实标签输入判别器中,并经过判别器得到对输入标签的判别结果,用来计算对抗损失和更新生成对抗卷积神经网络的参数;

本实施例中,d1=4,表示判别器有4个卷积层依次串联而成,其中卷积核大小都是4,卷积步长依次为2,2,1,1;我们知道显著性目标和其对应场景有着密切的联系,因此我们把fake_g11×cd和gd×cd作为判别器的标签,辅助判别,具体网络结构如图6所示。

步骤4.6、以增强后的光场重聚焦序列集合l′为生成对抗卷积神经网络的输入,以几何变换后的真实显著图集合g′作为标签,由二元交叉熵、对抗损失和l1损失构成损失函数,利用梯度下降算法对所述生成对抗卷积神经网络进行训练,从而得到更新后的生成对抗卷积神经网络,用于实现对光场数据的显著性目标检测。

本发明所使用的光场显著目标检测方法的网络结构如图7所示。生成对抗卷积神经网络在测试时只用到生成器,判别器只在训练集中用到,在测试时不参与。

按照步骤1获得测试集的重聚焦序列图像,将测试集的重聚焦序列图像输入到生成对抗卷积神经网络中,得到测试集的像素类别预测结果。为了更加公平的评价本发明方法中生成对抗卷积神经网络的性能,轮流选择5份数据中的1份作为测试集,余下4份作为训练集,然后取5份测试集的平均评价结果作为最终的性能评价指标。

表1

表1为本发明基于生成对抗网络的光场显著性目标检测方法分别以“f-measure”、“wf-measure”、“mae”和“s-measure”为评估指标,并利用光场数据集,与当前其他光场显著性目标检测方法的比较结果。“f-measure”是精确率和召回率的加权调和平均,其值越接近于1,表明显著目标检测的效果越好;“wf-measure”是“加权查全率/查准率曲线”度量的统计指标,其值越接近1,表明显著目标检测的效果越好;“mae”是平均绝对误差,度量的是预测值与真实值的差异,其值越接近于0,表明显著目标检测的效果越好;“s-measure”是度量预测图和真实图之间面向区域和面向物体的结构相似性,其值越接近于1表明显著目标检测的效果越好。根据表1的定量结果可以看出,本发明的方法获得的“f-measure”、“wf-measure”、“mae”和“s-measure”均高于其他光场显著性目标检测方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1