一种基于循环指导的弱监督联合目标检测和语义分割方法与流程

文档序号:19572051发布日期:2019-12-31 19:02阅读:221来源:国知局
一种基于循环指导的弱监督联合目标检测和语义分割方法与流程

本发明属于计算机视觉技术领域,尤其是涉及一种基于循环指导的弱监督联合目标检测和语义分割方法。



背景技术:

目标检测和语义分割是机器视觉的基本问题,在视频监控、无人驾驶等场景都有广泛应用,比如遥感领域,输入遥感图像后可以自动检测建筑物或人物在遥感图像中的位置,从而确定所在地点;也可以应用在医疗领域,根据医学x光图像或显微图像分析各种病变;在军事领域,目标检测可以用于定位敌方的位置。机器学习在目标检测和语义分割等任务中取得了巨大成功,特别是基于分类和回归等强监督学习任务。预测模型是从包含大量训练样本的训练数据集中学习,每个训练样本对应一个事件或对象。训练样本由两部分组成:一个描述事件/对象的特征向量(或示例),以及一个表示真值输出的标签。在分类任务中,标签表示训练样本所属的类别;在回归任务中,标签是一个与样本对应的实数值。

随着深度学习的兴起,近年来涌现了大量优秀的目标检测和语义分割模型。随着数据驱动方式在图像识别上的不断发展,人们对于扩大目标检测和语义分割系统规模的兴趣越来越大。然而,目前的目标检测和语义分割皆存在两个缺点:首先,大多数成功的技术都需要含有真值标签的大规模训练数据集。然而,在许多场景下,由于数据标注过程的成本极高,很难获得强监督信息。因此,训练一个高准确率的检测和分割模型需要大量的以包围框和像素形式精细标注的图片数据作为模型监督条件,需要花费大量的人力物力。其次,与分类任务不同,用类别、包围框和像素完整标注对象实例的方法几乎是不可扩展的。因此,人们加大对无监督和弱监督的目标检测和语义分割方法的探索力度,但现在,完全无监督、无标注的方法在目标检测和语义分割任务中的性能表现很差,而常规弱监督方法则无法很好泛化到复杂场景的图像处理中。

弱监督问题是指为实现某个计算机视觉任务,采用了比该任务更弱的一种人工标注作为监督信息。一般来讲,弱监督的标注比原始的标注更容易获取。例如,对于目标检测任务,图像层面(image-level)的标签相比物体的包围框(boundingbox)是一种弱监督的标注;对于语义分割任务,图像层面(image-level)的标签和物体的包围框(boundingbox)相比像素层面(pixel-level)的标签则是一种弱监督的标注。

对于目标检测和语义分割,相关研究工作一直是计算机视觉的研究热点。当前弱监督目标检测和语义分割仍存在着挑战,总体来说,挑战性主要体现在以下两个方面:鲁棒性和计算复杂性。

目标检测和语义分割的鲁棒性主要由类内表观差异和类间表观差异影响,大的类内表观差异和小的类间表观差异通常会导致目标检测方法的鲁棒性降低。类内表观差异是指同类不同个体间的变化,例如,马的不同个体在颜色、纹理、形状、姿态等方面存在差异。由于光照、背景、姿态、视点的变化和遮挡的影响,即使同一匹马在不同的图像中看起来也会非常不同,使得构建具备泛化能力的表观模型极为困难。

目标检测和语义分割的计算复杂性主要源自待检测目标类别的数量、类别表观描述子的维度、大量有标签数据的获取。真实世界中物体类别数量成百上千并且表观描述子是高维度的,大量充足的有标签数据的获取极为耗时耗力,因此目标检测和语义分割的计算机复杂性较高,设计高效的目标检测和语义分割算法至关重要。当前部分工作提出了新的特征匹配方法和定位策略。另一类计算复杂性研究方向关注如何减少目标检测和语义分割时的搜索空间,这类方法统称为选择性搜索策略(selectivesearch)或对象性估计(objectessestimation)。它们的核心思想是一张图像中并不是每个子区域都包含有类别无关的对象,仅有少量候选窗口是目标检测和语义分割时有意义的候选区域。



技术实现要素:

本发明的目的在于提供一种基于循环指导的弱监督联合目标检测和语义分割方法。

本发明包括以下步骤:

(一)模型训练过程:

1)初始化卷积神经网络;

2)神经网络前向传播获得图像的特征图;

3)目标检测分支前向传播并获得目标定位图;

4)语义分割分支前向传播并获得分割掩膜;

5)通过目标定位图获得伪真实语义分割标注,作为监督信息训练语义分割;

6)通过分割掩码获得图像候选区域的权值,作为定位的先验来修正候选区域;

7)基于伪真实语义分割标注来计算语义分割分支的损失;

8)结合候选区域的权值来计算目标检测分支的损失;

9)使用随机梯度下降算法更新参数;

10)重复步骤2)~9)直到收敛;

11)输入图像到神经网络中,获得目标检测和语义分割结果;

在步骤5)和步骤6)中,本发明提出使用循环指导的机制来互相帮助两个分支的学习。使用弱监督目标检测的目标定位图获得伪真实语义分割标注,作为监督信息训练语义分割,同时把弱监督语义分割预测的分割掩码获得图像候选区域的权值,作为定位的先验来修正候选区域。

在步骤7)中,所述语义分割分支的损失函数为:

在步骤8)中,所述目标检测分支的损失函数为:

(二)模型推理过程:

12)初始化卷积神经网络;

13)神经网络前向传播获得图像的特征图;

14)目标检测分支前向传播并获得目标检测结果;

15)语义分割分支前向传播并获得语义分割掩膜;

16)通过目标检测结果和语义分割掩膜获得示例分割掩膜。

本发明从弱监督角度出发,利用只有图像层面(image-level)的弱标注的图片(只知道图片是否包含目标物体),学习目标检测和语义分割。本发明是一种新颖的基于循环指导的弱监督联合目标检测和语义分割方法。目前的弱监督目标检测和弱监督语义分割算法的通常是分开的,并且性能差强人意。本发明提出使用多任务学习的机制联合弱监督目标检测和语义分割,并提出循环指导的学习机制来互相帮助两个任务的学习。本发明使用深度卷积神经网络同时训练三个模块:骨干神经网络、目标检测分支和语义分割分支。骨干神经网络用来提取整张图像的特征。目标检测分支对每个候选区域进行分类预测。语义分割分支对每一个位置进行分类,形成分割掩膜。

本发明提出使用多任务学习联合训练的弱监督目标检测和语义分割方法,利用目标检测和语义分割互补的信息来增强各自的任务。弱监督目标检测的目标定位图可以为弱监督语义分割提供伪真实语义分割标注,而弱监督语义分割的预测掩膜可以为弱监督检测的候选区域评估权值。本发明在已有的弱监督模型上,引入循环指导学习的策略,同时学习弱监督目标检测和弱监督语义分割两种模型。本发明改进了弱监督目标检测器和弱监督语义分割的模型,比原来的模型更加准确。大量的实验结果表明,本发明的方法取得了优异的弱监督目标检测和弱监督语义分割的性能。

附图说明

图1为本发明的循环指导学习方法。

图2为弱监督目标检测的物体定位图。

图3为本发明的结构框架。

图4为弱监督目标检测和弱监督语义分割的互补信息。

具体实施方式

本发明提出了一种基于循环指导的弱监督联合目标检测和语义分割方法,以下实施例将结合附图对本发明进行详细的说明:

首先定义本发明主要使用的符号。这里用i∈rh×w×3表示rgb格式的输入图像,t∈{0,1}c表示对应的图像层面的标签,{p1…pr}表示图像的候选区域(proposals),r表示候选区域的数目,c表示全部的类别数目,h和w分别表示输入图像的高和宽。

如图1所示,本发明使用循环指导的策略来同时训练弱监督目标检测和弱监督语义分割模型。首先,目标检测器预测物体的类别和位置;然后目标检测的结果可转换成目标定位图;把目标定位图作为伪真实语义分割标注来训练语义分割器;接着语义分割器预测图像的分割掩膜;最后通过分割掩膜计算候选区域的权值来修正目标检测器的训练。如图2所示,第一列表示输入的图像,第二列表示基于cam(b.zhou,a.khosla,a.lapedriza,a.oliva,anda.torralba,“learningdeepfeaturesfordiscriminativelocalization,”incvpr,2016.)的分割图,第三列表示本发明的物体定位图,第四列表示修正的物体定位图。首先,可以看到物体定位图可以比基于cam的分割图提供更高质量的伪真实语义分割标注。其次,可以看到弱监督语义分割经常无法预测一致性的物体轮廓。这也是很多语义分割方法需要借助crf(p.krahenbuhlandv.koltun,“efficientinferenceinfullyconnectedcrfswithgaussianedgepotentials,”inneurips,2011.)来修正分割掩膜。最后,可以看到虽然弱监督目标检测通常可以预测正确的物体轮廓,但是弱监督目标检测往往无法区分物体数量,而且预测的结果往往只是物体的一部分。实验发现,弱监督目标检测和弱监督语义分割的失败模式是互补的。一方面,弱监督语义分割的预测分割掩膜可以帮助弱监督目标检测逃离局部最小值。另外一方面,弱监督目标检测的目标定位图可以提供高质量的伪真实语义分割标注。

如图3所示,本发明使用vggnet(simonyan,karen,andandrewzisserman.″verydeepconvolutionalnetworksforlarge-scaleimagerecognition,″arxiv.2014.)等网络作为的基本模型后端结构。通常情况下模型后端的深度越深,模型的表达能力也越强。本发明的模型有两个分支。第一个分支是弱监督目标检测分支,第二个分支是弱监督语义分割分支。

弱监督目标检测分支。弱监督目标检测分支使用wsddn(h.bilenanda.vedaldi,“weaklysuperviseddeepdetectionnetworks,”incvpr,2016.)模型作为基本的模型。首先输入一张图像,获得图像的特征图,然后通过spp层(k.he,x.zhang,s.ren,andj.sun,“spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition,”ineccv,2014.)获得r个候选区域{p1…pr}的特征。然后候选区域的特征分别通过两个支流:分类支流和检测支流。这两个支流分别使用全连接层输出两个得分矩阵两个得分矩阵分别用sofimax层σ(·)在类别和候选区域维度上进行归一化。

归一化后的得分矩阵进行点积:

xs=σ(xc)·σ(xd)(3)

为了获得图像层面的预测,使用一个累加池化:

最后获得交叉熵损失:

其中,tk表示第k个类别的真实标注。

弱监督语义分割分支。弱监督语义分割分支是基于deeplab-aspp(l.-c.chen,g.papandreou,i.kokkinos,k.murphy,anda.l.yuille,“deeplab:semanticimagesegmentationwithdeepconvolutionalnets,atrousconvolution,andfullyconnectedcrfs,”tpami.2017.)模型。本发明使用弱监督目标检测产生的目标定位图作为弱监督语义分割分支的监督信息。大多数弱监督语义分割使用全卷积网络、softmax归一化层和多项式交叉熵损失函数。本发明使用sigmoid归一化层和二值交叉熵损失函数:

其中,m和s分别弱监督目标检测的物体定位图和弱监督语义分割预测的分割掩码。分别表示分割掩膜的高和宽,通常是h和w的

循环指导学习。理论上,弱监督目标检测和弱监督语义分割的错误模式是互补的。一方面来说,弱监督目标检测通常被公式化为多示例分类。它能显性地提高背景图像来惩罚falsepositive,因此,弱监督目标检测有比较低的falsepositiverate。然而,为了防止自增强陷入局部最小值,弱监督目标检测通常只惩罚高置信度的falsenegative。因此,弱监督目标检测通常在非显著局域有不明确的特征图。另外一方面,弱监督语义分割的损失是像素层面的。对falsepositive缺乏显性地惩罚,导致了带噪声的背景预测。然而在弱监督目标检测不明确区域的细粒度预测可以用来帮助目标定位。因此本发明提出循环指导学习的策略来用互补信息来帮助各自的任务。

目标检测对语义分割的指导。使用弱监督目标检测的物体定位图来帮助训练弱监督语义分割。使用弱监督目标检测内建的前景和背景线索。它的特定是无需额外的参数。特别地,分类得分的梯度反向传播到网络的第一层,就得到粗略的物体定位图,如图4的第二行所示。在粗略的物体定位图上,首先对其进行归一化到(0,1)之间。然后把值高于0.1的位置设为前景区域,把值低于0.005的位置设为背景区域。最后,剩余的区域被设为不确定区域。最后获得的修正物体定位图作为伪真实语义分割标注,如图4第三行所示。

语义分割对目标检测的指导。把弱监督语义分割预测的分割掩码作为定位的先验来修正候选区域。通过分割掩码图sk可以粗略估计物体的位置和形状。然后计算每个候选区域的密度:

其中,表示sk中第i行、第j列元素,γ=0.1,maxmk表示mk中的最大值。同样计算获得候选区域的上下文区域的密度计算每个候选区域的响应值:

最后得到加权后的候选区域得分

xr=σ(xc)·σ(xd)·wr(9)

其中,xr表示候选区域修正后的得分矩阵。可以计算修正后的图像层面的预测得分:

最后,得到修正后的交叉熵损失函数:

在推理过程中,先用目标检测分支计算候选区域的检测结果,然后使用非极大值抑制过滤检测结果。同时,语义分割分支输出整张图的语义分割掩膜。最后,提取包围框的掩膜就可以得到示例分割的结果。

本发明是一种新颖的一种基于循环指导的弱监督联合目标检测和语义分割方法。众所周知,目前的弱监督目标检测和弱监督语义分割算法的通常是分开的,并且性能差强人意。本发明提出使用多任务学习的机制联合弱监督目标检测和语义分割,并提出循环指导的学习机制来互相帮助两个任务的学习。本发明使用深度卷积神经网络同时训练三个模块:骨干神经网络、目标检测分支和语义分割分支。骨干神经网络用来提取整张图像的特征。目标检测分支对每个候选区域进行分类预测。语义分割分支对每一个位置进行分类,形成分割掩膜。

本发明利用目标检测和语义分割互补的信息来增强各自的任务。弱监督目标检测的目标定位图可以为弱监督语义分割提供伪真实语义分割标注,而弱监督语义分割的预测掩膜可以为弱监督检测的候选区域评估权值。综上,本发明在已有的弱监督模型上,引入循环指导学习的策略,同时学习弱监督目标检测和弱监督语义分割两种模型。最终的效果是:本发明的改进了弱监督目标检测器和弱监督语义分割的模型,比原来的模型更加准确。大量的实验结果表明,本发明的方法取得了优异的弱监督目标检测和弱监督语义分割的性能。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1