基于深度学习的弱监督显著性物体检测的方法及系统与流程

文档序号:15164503发布日期:2018-08-14 17:18阅读:218来源:国知局

本发明涉及基于深度学习的计算机视觉领域,特别是涉及一种基于深度学习的弱监督显著性物体检测的方法及系统。



背景技术:

显著性物体检测是指在图像中准确地定位出最吸引人类视觉注意力的区域。近年来由于这种技术能在众多不同的视觉技术中得到运用,激发了大量计算机视觉和认知科学的研究工作。

近几年,卷积神经网络的成功运用为显著性检测技术带来了重大突破,如g.li等人在2015年的研究工作“visualsaliencybasedonmultiscaledeepfeatures”(ieeeconferenceoncomputervisionandpatternrecognition(cvpr),june2015),和n.liu等人在2016年的研究工作“deephierarchicalsaliencynetworkforsalientobjectdetection”(inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,pages678–686,2016)。然而,这些基于深度学习理论的利用卷积神经网络进行建模的方法,保证性能的前提都是需要有足量且质量高的像素级别的标注信息来作为训练样本。但是,对于显著性检测来说,进行像素级别的标注十分吃力,即使是对于经验丰富的标注人员,也需要几分钟时间才能标出一张图。此外,由于显著性的定义比较主观,为了保证训练质量,在完成人工标注阶段的工作之后,还需对标注信息进行进一步删选,去除有争议性的标注,整个标注工作需要耗费很多人工和时间,从而限制了像素级别训练数据的数据总量,这种限制也进一步成为全监督方法提高性能的瓶颈。

另一方面,这一领域也存在海量的非监督的方法,如较早期的y.wei,f.wen,w.zhu,andj.sun的工作“geodesicsaliencyusingbackgroundpriors”(ineuropeanconferenceoncomputervision,pages29–42.springer,2012),和近年m.-m.cheng等人的研究globalcontrastbasedsalientregiondetection.(ieeetransactionsonpatternanalysisandmachineintelligence,37(3):569–582,2015)。这些方法通常基于某种低级别的特征进行预测,如颜色,位置,背景先验信息等,导致了这类方法总是在特定类别的图像上比较适用,但是无法对所有图像进行很好的预测,这些基于低级别特征的方法有共同的缺点,即检测的错误大多源于缺乏空间相关性和图像语义的考虑。



技术实现要素:

为克服上述现有技术存在的不足,本发明之目的在于提供一种基于深度学习的弱监督显著性物体检测方法及系统,有效地结合了有监督和无监督的显著性检测方法,在优化过程中可以自动清除噪声信息,只使用图像级别的标注信息就能达到良好的预测效果,从而避免了冗繁耗时的像素级别的人工标注过程。

为达上述及其它目的,本发明提出一种基于深度学习的弱监督显著性物体检测方法,包括如下步骤:

步骤s1,利用非监督的显著性检测方法通过多任务的全卷积神经网络产生所有训练图像的显著图sanno;

步骤s2,将所述显著图与对应的图像级别的类别标签同时作为初次迭代的有噪声的监督信息,以训练多任务的全卷积神经网络,于训练过程收敛后,生成新的类别激活图scam和显著性物体预测图spredict;

步骤s3,利用条件随机场模型调整所述类别激活图和显著性物体预测图;

步骤s4,利用标签更新策略为下一次迭代更新显著性标注信息;

步骤s5,多次迭代式地进行步骤s2-s4的训练过程,直到符合停止的条件;

步骤s6,在含有未知类别图像的数据集上进行泛化式训练,得到最终模型。

优选地,于步骤s1中,选择含有图像类别信息的数据集训练数据,并选取一个非监督的显著性检测方法,通过所述多任务的全卷积神经网络为所有训练样本生成像素级别的显著图。

优选地,选取任一深度神经网络模型作为全卷积神经网络的预训练模型,将该深度神经网络模型最后的线性分类层替换为一个线性卷积层,去掉该网络中最后两个下采样层,并使用扩张卷积算法在最后两层的卷积层提高扩张率。

优选地,于所述多任务的全卷积神经网络中,将所述全卷积神经网络复制3次,每一个子网络对应一个尺度下的图像输入,3个网络共享权值,3个网络的输出用线性差值的方法缩放到图像的原始大小,进行像素层面的相加处理后输入softmax层产生最终的概率图。

优选地,步骤s2进一步包括:

以步骤s1产生的显著图和对应的人工标注的类别信息分别作为显著性图伪标签和类别标签,训练所述多任务的全卷积神经网络;

于训练过程收敛后,利用训练好的全卷积神经网络生成新的显著性物体预测图,并使用所述多任务的全卷积神经网络结合类别激活映射技术生成类别激活图。

优选地,将所述多任务的全卷积神经网络的3个尺度下的特征图连接起来后,经过一个全局平均池化层,得到进一步处理后的特征,再输入一个全连接层,从而获得类别分布输出。

优选地,于步骤s3中,利用条件随机场模型,处理步骤s1产生的显著图sanno,以调整步骤s2产生的类别激活图scam和显著图spredict,生成更具有空间协同关系和更强保边性的预测图,记为canno,ccam,cpredict。

优选地,于步骤s4中,所述标签更新策略利用类别激活图进行指导和合适的阈值判定生成新的显著图伪标签。

优选地,所述标签更新策略具体如下:

如果mae(canno,cpredict)≤α,则

否则如果mae(canno,ccam)>β且mae(cpredict,ccam)>β,则在下次迭代训练时去掉这个训练样本;

否则如果mae(canno,ccam)≤mae(cpredict,ccam),则

否则supdate=cpredict

其中mae为平均错误率,crf为条件随机场算法,α、β为预设阈值。

为达到上述目的,本发明还提供一种基于深度学习的弱监督显著性物体检测系统,其特征在于:

显著图产生单元,用于利用非监督的显著性检测方法通过多任务的全卷积神经网络产生所有训练图像的显著图sanno;

训练单元,用于将所述显著图与对应的图像级别的类别标签同时作为初次迭代的有噪声的监督信息,以训练多任务的全卷积神经网络,于训练过程收敛后,生成新的类别激活图scam和显著性物体预测图spredict;

调整单元,用于利用条件随机场模型调整所述类别激活图和显著性物体预测图;

更新单元,用于利用标签更新策略为下一次迭代更新显著性标注信息;

迭代训练单元,用于多次迭代式地进行训练单元、调整单元以及更新单元的训练过程,直到符合停止的条件;

第二阶段训练单元,用于于第一阶段训练停止后,在含有未知类别图像的数据集上进行泛化式训练,得到最终模型。

与现有技术相比,本发明一种基于深度学习的弱监督的显著性物体检测方法及系统通过利用非监督的显著性检测方法产生所有训练图像的显著图,与对应的图像级别的类别标签同时作为初次迭代的有噪声的监督信息,用以训练多任务的全卷积神经网络,训练过程收敛后,通过多任务的神经网络生成新的类别激活图和显著性物体预测图,并使用条件随机场模型调整类别激活图和显著图,利用标签更新策略为下一次迭代更新标签信息,通过多次迭代进行上述训练过程,直到符合停止的条件,最后在含有未知类别图像的数据集上进行泛化式训练,得到最终模型,本发明提出的方法在缺乏像素级别标签的情况下,只利用图像级别标签的指导,有效地挖掘和纠正了传统非监督方法产生的显著性物体预测图的歧义,最终的效果超过了所有现有的显著性物体检测领域的非监督方法。

附图说明

图1为本发明一种基于深度学习的弱监督显著性物体检测的方法的步骤流程图;

图2为本发明具体实施例中多任务的全卷积神经网络的结构图;

图3为本发明具体实施例迭代式训练过程的示意图;

图4为本发明一种基于深度学习的弱监督显著性物体检测系统的系统架构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于深度学习的弱监督显著性物体检测方法的步骤流程图。如图1所示,本发明一种基于深度学习的弱监督显著性物体检测方法,包括如下步骤:

步骤s1,利用非监督的显著性检测方法通过多任务的全卷积神经网络产生所有训练图像的显著图。具体地,于步骤s1中,选择含有图像类别信息的数据集作为第一阶段的训练数据,这种数据集通常用于图像检测,并选取一个非监督的显著性检测方法,通过多任务的全卷积神经网络为所有训练样本生成像素级别的显著图,记为sanno。

本发明可选取任一性能较好的深度神经网络模型,如resnet(残差网络),googlenet等作为全卷积神经网络的预训练模型。图2为本发明具体实施例中多任务的全卷积神经网络的结构图。在本发明具体实施例中,采用了101层的resnet(残差网络),并根据需要对网络结构进行修改,但不以此为限。具体地,

首先将该残差网络最后有1000路输出的线性分类层替换为一个线性卷积层,该层输出两个通道的特征图。另外,为了得到分辨率更高的特征图,参考l.-c.chen,等人的研究工作“semanticimagesegmentationwithdeepconvolutionalnetsandfullyconnectedcrfs”(arxivpreprintarxiv:1412.7062,2014),去掉了网络中最后两个下采样层,并使用扩张卷积(dilationalgorithm)算法在最后两层的卷积层提高扩张率(dilationrate)以增加感受野的范围,经过这样的处理,网络最终输出分辨率为原始分辨率的1/8的特征图。

由于显著性物体的尺度跨度较大,为了更精准检测出不同尺度下的物体,本发明将上述101层的残差网络复制了3次,每一个子网络对应一个尺度下的输入,3个网络共享权值,3个网络的输出用线性差值的方法缩放到图像的原始大小,进行像素层面的相加处理后输入softmax层产生最终的概率图,即训练图像的显著图。

步骤s2,将所述显著图与对应的图像级别的类别标签同时作为初次迭代的有噪声的监督信息,以训练多任务的全卷积神经网络,于训练过程收敛后,生成新的类别激活图和显著性物体预测图。

具体地,步骤s2进一步包括:

步骤s201,以步骤s1产生的显著图和对应的人工标注的类别信息分别作为显著性图伪标签和类别标签,训练多任务的全卷积神经网络;

步骤s202,于步骤s201的训练过程收敛后,利用该步骤训练好的全卷积神经网络生成新的显著性物体预测图,记为spredict,并使用该神经网络结合类别激活映射技术生成类别激活图,记为scam。

如图2所示,对于图像的分类任务,参考b.zhou等人的论文“learningdeepfeaturesfordiscriminativelocalization”(inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,pages2921–2929,2016),将3个尺度下的特征图连接起来后,经过一个全局平均池化层,得到进一步处理后的特征,再输入一个全连接层,从而获得类别分布输出。

用fk(x,y)代表连接后的特征在第k个通道的空间位置为(x,y)的激活值,用表示单位k(经过全局池化操作,连接后的特征图的每个通道都变成一个单位的激活值)对应于类别c的权值。定义mc为第c个类别的类别激活图,则它在每个位置的值由以下计算公式得到:

步骤s3,利用条件随机场模型调整该类别激活图和显著性物体预测图。具体地,于步骤s3中,利用条件随机场模型,处理步骤s1产生的显著图sanno,以调整步骤s2产生的类别激活图scam和显著图spredict,生成更具有空间协同关系和更强保边性的预测图,对应地,记为canno,ccam,cpredict。

在本发明具体实施例中,本发明嵌入了一个图模型来对显著图进行微调,具体地,这个图模型基于条件随机场,可以提高预测图片的空间相关性和保边性。

特别地,本发明所提出的模型解决一个二值的像素级别的标注问题,采用了以下的能量公式:

其中l表示对所有像素标定的显著性标签,li=1表示第i个像素是显著的,而li=0表示第i个像素不是显著的。p(li)是像素xi对应标签li的概率,初始化时,设定p(1)=si,p(0)=1-si,s为需要处理的显著图,对应地,si即为该处理的显著图在位置xi的显著性分数,θij(li,lj)是位置间成对的值,由以下公式计算得到:

其中,p为位置向量,i为颜色向量,w为线性组合的权重,σα,σβ,σγ为控制近邻性和相似性的程度的超参数。

其中,当li≠lj时,μ(li,lj)=1,否则为0。θij由两个内核组成而成。第一个内核依赖于像素的位置和在该位置的颜色值,促使临近的具有相近颜色的像素得到相似的显著性分数。第二个内核依赖于像素间的关系,试着除去小型的孤立的区域。

整个图模型的输出是一个概率图,每个位置的值表示该位置的像素是显著像素的概率。优选地,可以通过一定阈值将该概率图转换为二值图,作为训练时的伪标签。

步骤s4,使用标签更新策略为下一次迭代更新显著性标注信息。具体地,使用标签更新策略根据以上步骤生成的sanno,scam,spredict,canno,ccam,cpredict生成下一次迭代的显著性标注信息,记为supdate。

在本发明具体实施例中,所述标签更新策略,用类别激活图进行指导和合适的阈值判定生成新的显著图伪标签,具体的标签更新策略如下:

如果mae(canno,cpredict)≤α

那么

否则如果mae(canno,ccam)>β且mae(cpredict,ccam)>β

那么在下次迭代训练时去掉这个训练样本

否则如果mae(canno,ccam)≤mae(cpredict,ccam)

那么

否则

supdate=cpredict

其中mae为平均错误率,crf为条件随机场算法,α、β为预设阈值。

步骤s5,多次迭代式地进行步骤s2-s4的训练过程,直到符合停止的条件。具体地,交替进行步骤s2、s3、s4,直到满足设定的停止条件时停止第一阶段的训练。

优选地,于步骤s5之后,本发明之基于深度学习的弱监督的显著性物体检测方法还包括如下步骤:

步骤s6,在含有未知类别图像的数据集上进行泛化式训练,得到最终模型。具体地,选取一到两个显著性检测的数据集作为第二阶段的训练数据,与第一阶段不同的是,这一阶段的数据含有未知类别的物体,用这些数据对全卷积神经网络进行微调式的训练,当训练过程收敛后得到最终模型。

图3为本发明具体实施例迭代式训练过程的示意图。在本发明具体实施例中,对整个弱监督显著图的训练分为两个阶段,都基于一个迭代式的训练策略,每次迭代的过程如图3所示。

在第一个阶段,本发明选取了微软的coco数据集进行训练,这是一个大型的广泛用于物体检测的数据集,该数据集中对于每张训练图像,都有一到多个类别标签。首先,选用一个效果良好的非监督显著性检测模型,为所有训练样本生成初始的显著图,作为第一次训练的显著图伪标签,然后将这些伪标签结合对应的图像级别的类别标签作为监督信息,训练多任务的全卷积神经网络,当训练过程收敛后,选取在验证集上表现最好的模型作为本次训练过程最终的模型,并用它为整个训练数据集生成新的显著图和类别激活图。在本发明具体实施例中,利用如下损失函数进行模型的优化:

(1)欧式距离损失函数:

其中,表示第n个样本标签,yn表示第n个样本预测值

(2)sigmoid交叉熵损失函数

其中,n表示样本总数,pn表示第n个样本标签,表示第n个样本预测值。

其次,利用显著性标签更新策略为下一次迭代生成新的训练元组(图像,显著图伪标签,图像类别标签)。迭代式地重复以上训练过程直到满足停止的条件。在每次训练过程后,计算验证集上,该过程的伪标签和全卷积神经网络生成的新的显著图之间的mae(平均错误率),当该平均错误率低于一定阈值(可预设)时表示模型达到了想要的拟合效果,可以结束训练。

第二个训练阶段,为了提高模型的泛化能力,以使得模型对含有未知图像标签的图片也能通用地进行显著性检测,需要在显著性检测的数据集(msra-b,hku-is)上进一步微调,在此阶段,将响应值最高的5张类别激活图的平均值作为指导图。

图4为本发明一种基于深度学习的弱监督显著性物体检测系统的系统架构图。如图4所示,本发明一种基于深度学习的弱监督显著性物体检测系统,包括:

显著图产生单元401,用于利用非监督的显著性检测方法通过多任务的全卷积神经网络产生所有训练图像的显著图。具体地,显著图产生单元401选择含有图像类别信息的数据集作为第一阶段的训练数据,这种数据集通常用于图像检测,并选取一个非监督的显著性检测方法,利用多任务的全卷积神经网络为所有训练样本生成像素级别的显著图,记为sanno。

本发明可选取任一深度神经网络模型,如resnet(残差网络),googlenet等,作为全卷积神经网络的预训练模型。在本发明具体实施例中,如图2所示,选取101层的残差网络作为全卷积神经网络的预训练模型,并根据需要对网络结构进行修改,具体地,

首先将该残差网络最后有1000路输出的线性分类层替换为一个线性卷积层,该层输出两个通道的特征图。另外,为了得到分辨率更高的特征图,参考l.-c.chen,等人的研究工作“semanticimagesegmentationwithdeepconvolutionalnetsandfullyconnectedcrfs”(arxivpreprintarxiv:1412.7062,2014),去掉了网络中最后两个下采样层,并使用扩张卷积(dilationalgorithm)算法在最后两层的卷积层提高扩张率(dilationrate)以增加感受野的范围,经过这样的处理,网络最终输出分辨率为原始分辨率的1/8的特征图。

由于显著性物体的尺度跨度较大,为了更精准检测出不同尺度下的物体,本发明将上述101层的残差网络复制了3次,每一个子网络对应一个尺度下的输入,3个网络共享权值,3个网络的输出用线性差值的方法缩放到图像的原始大小,进行像素层面的相加处理后输入softmax层产生最终的概率图。

训练单元402,用于将所述显著图与对应的图像级别的类别标签同时作为初次迭代的有噪声的监督信息,以训练多任务的全卷积神经网络,于训练过程收敛后,生成新的类别激活图和显著性物体预测图。

具体地,训练单元402具体用于:

以显著图产生单元401产生的显著图和对应的人工标注的类别信息分别作为显著性图伪标签和类别标签,训练多任务的全卷积神经网络;

于训练过程收敛后,利用训练好的全卷积神经网络生成新的显著性物体预测图,记为spredict,同时使用该网络结合类别激活映射技术生成类别激活图,记为scam。

如图2所示,对于图像的分类任务,参考b.zhou等人的论文“learningdeepfeaturesfordiscriminativelocalization”(inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,pages2921–2929,2016),将3个尺度下的特征图连接起来后,经过一个全局平均池化层,得到进一步处理后的特征,再输入一个全连接层,从而获得类别分布输出。

用fk(x,y)代表连接后的特征在第k个通道的空间位置为(x,y)的激活值,用表示单位k(经过全局池化操作,连接后的特征图的每个通道都变成一个单位的激活值)对应于类别c的权值。定义mc为第c个类别的类别激活图,则它在每个位置的值由以下计算公式得到:

调整单元403,用于利用条件随机场模型调整该类别激活图和显著性物体预测图。具体地,调整单元403利用条件随机场模型,处理显著图产生单元401产生的显著图sanno,以调整训练单元402产生的类别激活图scam和显著图spredict,生成更具有空间协同关系和更强保边性的预测图,对应地,记为canno,ccam,cpredict。

更新单元404,用于使用标签更新策略为下一次迭代更新标签信息,具体地,更新单元404使用标签更新策略根据以上步骤生成的sanno,scam,spredict,canno,ccam,cpredict生成下一次迭代的显著图标签,记为supdate。

迭代训练单元405,用于多次迭代式地进行训练单元402、调整单元403以及更新单元404的训练过程,直到符合停止的条件。具体地,交替进行训练单元402、调整单元403以及更新单元404,直到满足设定的停止条件时停止第一阶段的训练。

第二阶段训练单元406,用于于第一阶段训练停止后,在含有未知类别图像的数据集上进行泛化式训练,得到最终模型。具体地,第二阶段训练单元406选取一到两个显著性检测的数据集作为第二阶段的训练数据,与第一阶段不同的是,这一阶段的数据含有未知类别的物体,用这些数据对全卷积神经网络进行微调式的训练,当训练过程收敛后得到最终模型。

综上所述,本发明一种基于深度学习的弱监督的显著性物体检测方法及系统通过利用非监督的显著性检测方法产生所有训练图像的显著图,与对应的图像级别的类别标签同时作为初次迭代的有噪声的监督信息,用以训练多任务的全卷积神经网络,训练过程收敛后,通过多任务的神经网络生成新的类别激活图和显著性物体预测图,并使用条件随机场模型调整类别激活图和显著图,利用标签更新策略为下一次迭代更新标签信息,通过多次迭代进行上述训练过程,直到符合停止的条件,最后在含有未知类别图像的数据集上进行泛化式训练,得到最终模型,本发明提出的方法在缺乏像素级别标签的情况下,只利用图像级别标签的指导,有效地挖掘和纠正了传统非监督方法产生的显著性物体预测图的歧义,最终的效果超过了所有现有的显著性物体检测领域的非监督方法。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1