一种带有双向连接和遮挡处理的全景分割方法与流程

文档序号:21007220发布日期:2020-06-05 23:14阅读:290来源:国知局
一种带有双向连接和遮挡处理的全景分割方法与流程
本发明属于计算机视觉领域,特别地涉及一种带有双向连接和遮挡处理的全景分割方法。
背景技术
:全景分割任务是语义分割任务和实例分割任务的集合,其不仅要求在像素级别预测语义类,还要求对前景类别区分实例。这一任务是场景理解的重要基础性任务,在自动驾驶等领域有广阔的应用价值。目前的主流技术路线分为自顶向下和自底向上两种方式。自顶向下的方法先找到实例的包围框,再确认框内逐像素是否属于该实例。自底向上的方式先预测逐像素的实例归属,再据此生成包围框。就经验结果来看,自顶向下的技术路线的性能往往比自底向上更优。然而,自顶向下的方案存在两大问题。第一,在这一方案中,对语义分割和实例分割两个任务存在两个子网络,但是这两个子网络间缺乏信息传播的途径。因而,这两个任务间的互补性没有被很好地利用。第二,对于检测到的实例,可能存在相互遮挡的情况。过去的方法依赖于目标的类别得分来处理遮挡关系,但由于类别得分与数据分布等其他因素的相关性,这一做法显然不是最优的。如何解决这两个问题,成为了自顶向下的全景分割方法的关键。技术实现要素:为了解决这两个问题,本发明提出了一种带有双向连接和遮挡处理的全景分割方法。该方法基于深度学习网络,通过在语义分割和实例分割间建立双向连接,使得这两个任务间特征可以相互加强。另外,我们提出了一个遮挡处理算法来专门处理实例间的遮挡问题。通过这两点,本发明的方法得以获得了优异全景分割性能。本发明的技术方案包含以下步骤:一种带有双向连接和遮挡处理的全景分割方法,其包括以下步骤:s1.获取用于训练全景分割的数据集,并定义算法目标;s2.使用全卷积网络对数据集中的图像进行特征提取后得到其特征图;s3.使用语义特征提取网络对特征图提取语义特征;s4.使用实例特征提取网络对特征图提取实例特征;s5.建立实例分割到语义分割的连接,将语义特征与实例特征聚合进行语义分割;s6.建立语义分割到实例分割的连接,将实例特征与语义特征聚合进行实例分割;s7.使用遮挡处理算法,融合语义分割和实例分割的结果,输出全景分割结果。在上述方案基础上,各步骤还可以进一步采用如下的优选方式实现。作为优选,步骤s1所述的算法目标为:对用于全景分割的数据集中的每一张图片i,对于i中出现的背景像素,识别其所属的语义类别;对于i中出现的前景像素,识别其所属的语义类别和所属实例。作为优选,步骤s2中使用一个全卷积神经网络φ对图像中的每一个像素提取特征,得到该图像的特征图f=φ(i)。作为优选,步骤s3中使用一个全卷积神经网络ψ对特征图提取语义特征,即输入s2中提取的特征图f,提取其语义特征s=ψ(f)=ψ(φ(i))。作为优选,步骤s4中所述的提取实例特征具体包含以下子步骤:s41.使用一个区域提取网络来检测图像中的实例集合o,得到o={o1,...,ok},其中oi表示检测到的第i个实例,i∈[1,k],k为检测到的实例总数量;s42.对检测到的每个实例oi,计算其包围框bi;s43.使用实例特征提取网络ζ提取实例特征,即输入s2中提取的特征图f和实例oi的包围框bi,提取其实例特征作为优选,步骤s5中所述的建立实例分割到语义分割的连接具体步骤如下:s51.使用可微分操作roiinlay恢复s4中提取的实例特征的空间信息fi:fi=roiinlay(i1,...,ik,b1,...,bk);其中可微分操作roiinlay的具体操作如下:对于一个左上角坐标为(a,b)且大小为h×w的实例,假设其经过裁剪和变形后得到m×m的特征图,该特征图上每一个点(u,v)都采样自原特征图的一个位置(x,y):即m×m特征图上点(u,v)处的值对应原特征图上点(x,y)的值v(x,y),因此对位于目标区域内的任意一个点(xp,yp),找到包围它的四个采样点,记为集合c,通过双线性插值得到(xp,yp)点处的值其中gw和gh是在采样点的相对坐标系下的插值函数:式中:参数参数对于在目标区域内但超出采样点边界的值,其采样点会被拉至目标边界处;s52.将fi与步骤s3中提取的语义特征s聚合后得到的特征用于预测语义分割结果;其中特征聚合的具体操作如下:首先将fi与s在通道维度上拼接后形成一个新特征,然后将其经过1层3×3卷积处理以消除roiinlay造成的变形;随后将这个特征经过多尺度的池化操作后分别得到8×8,4×4,2×2,1×1大小的对场景的描述;最后将这些描述进行拉平并拼接,将拼接后的特征与原始特征在每个像素点上拼接,并经过一个1×1的卷积处理后得到聚合后的特征。作为优选,步骤s6所述的建立语义分割到实例分割的连接具体操作如下:首先使用roialign操作从语义特征s中得到实例oi对应的语义特征soi=roialign(s,bi);然后将soi经过一个3×3卷积处理后与实例特征ii相加得到聚合后的特征用于预测实例的分割结果,分割结果包括实例的位置、类别和分割图。作为优选,步骤s7具体步骤如下:首先通过遮挡处理算法,判断相互遮挡的实例间的覆盖关系,随后将实例分割结果与语义分割结果融合得到全景分割的结果;其中对于目标实例oi和oj,假设其重叠区域为p,将区域的表观定义为区域内像素rgb值的平均,通过对比p区域的表观和两个目标表观的相似度判断p区域的归属,即oi和oj的遮挡关系。本发明可以充分利用语义分割和实例分割之间的互补性,在这两个任务间建立联系,是的这两个任务互有受益,最终使得全景分割的性能得到提升。同时,本发明利用了底层特征表观信息所提出的遮挡处理算法,有效地处理了遮挡问题,使得模型性能得到了进一步提升。附图说明图1为本发明的流程示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。如图1所示,一种带有双向连接和遮挡处理的全景分割方法,该方法的步骤如下:s1.获取用于训练全景分割的数据集,并定义算法目标。本步骤中,算法目标为:对用于全景分割的数据集中的每一张图片i,对于i中出现的背景像素,识别其所属的语义类别;对于i中出现的前景像素,识别其所属的语义类别和所属实例。s2.使用全卷积网络对数据集中的图像进行特征提取后得到其特征图。本步骤中,使用一个全卷积神经网络φ对图像中的每一个像素提取特征,得到该图像的特征图f=φ(i)。s3.使用语义特征提取网络分支对特征图提取语义特征。本步骤中,使用一个全卷积神经网络ψ对特征图提取语义特征,即输入s2中提取的特征图f,提取其语义特征s=ψ(f)=ψ(φ(i))。s4.使用实例特征提取网络分支对特征图提取实例特征。本步骤中,提取实例特征具体包含以下子步骤:s41.使用一个区域提取网络(rpn)来检测图像中的实例集合o,得到o={o1,...,ok},其中oi表示检测到的第i个实例,i∈[1,k],k为检测到的实例总数量;s42.对检测到的每个实例oi,计算其包围框bi;s43.使用实例特征提取网络ζ提取实例特征,即输入s2中提取的特征图f和实例oi的包围框bi,提取其实例特征ii=ζ(f,bi)=ζ(φ(i),bi)。s5.通过第一特征聚合模块,建立实例分割到语义分割的连接,将语义特征与实例特征聚合进行语义分割。本步骤中,建立实例分割到语义分割的连接具体步骤如下:s51.使用可微分操作roiinlay恢复s4中提取的实例特征的空间信息fi:fi=roiinlay(i1,...,ik,b1,...,bk);其中可微分操作roiinlay的具体操作如下:对于一个左上角坐标为(a,b)且大小为h×w的实例(实例的左上角坐标是指实例对应的目标物体的包围框的左上角坐标),假设其经过裁剪和变形后得到m×m的特征图,该特征图上每一个点(u,v)都采样自原特征图的一个位置(x,y):即m×m特征图上点(u,v)处的值对应原特征图上点(x,y)的值v(x,y),因此对位于目标区域内的任意一个点(xp,yp),找到包围它的四个采样点,记为集合c,通过双线性插值得到(xp,yp)点处的值其中gw和gh是在采样点的相对坐标系下的插值函数:式中:参数参数对于在目标区域内但超出采样点边界的值,其采样点会被拉至目标边界处;s52.将fi与步骤s3中提取的语义特征s聚合后得到的特征用于预测语义分割结果。其中特征聚合在第一特征聚合模块中进行,具体操作如下:首先将fi与s在通道维度上拼接(concatenate)后形成一个新特征,然后将其经过1层3×3卷积处理以消除roiinlay造成的变形;随后将这个特征经过多尺度的池化操作(avgpooling)后分别得到8×8,4×4,2×2,1×1大小的对场景的描述;最后将这些描述进行拉平(flatten)并拼接,将拼接后的特征与原始特征在每个像素点上拼接,并经过一个1×1的卷积处理后得到聚合后的特征。根据聚合后得到的特征,将其经过1×1的卷积即可得到预测分隔结果。s6.通过第二特征聚合模块,建立语义分割到实例分割的连接,将实例特征与语义特征聚合进行实例分割。建立语义分割到实例分割的连接具体操作如下:首先使用roialign操作从语义特征s中得到实例oi对应的语义特征soi=roialign(s,bi);然后在第二特征聚合模块中,将soi经过一个3×3卷积处理后与实例特征ii相加得到聚合后的特征用于预测实例的分割结果,分割结果包括实例的位置、类别和分割图。根据聚合后得到的特征,将其经过1×1的卷积即可得到实例的预测分割结果。s7.使用遮挡处理算法,判断相互遮挡的实例间的覆盖关系,融合语义分割和实例分割的结果,输出全景分割结果。本步骤中,输出全景分割结果的具体步骤如下:首先通过遮挡处理算法,判断相互遮挡的实例间的覆盖关系,随后将实例分割结果与语义分割结果融合得到全景分割的结果;其中对于目标实例oi和oj,假设其重叠区域为p,将区域的表观定义为区域内像素rgb值的平均,通过对比p区域的表观和两个目标表观的相似度判断p区域的归属,即oi和oj的遮挡关系。本发明的全景分割算法首先使用了一个常见的全卷积神经网络,语义分割分支、实例分割提取特征。然后借助原创的roiinlay操作,在语义分割任务和实例分割任务间建立了特征层次的双向连接,充分利用了这两个任务之间的互补关系。对于可能存在的实例间遮挡问题,本发明设计了一个简单、有效的遮挡处理算法。这一算法利用了底层的表观信息,无需训练,即可以推断实例间的遮挡关系。通过这两点,本方法达到了优异的全景分割性能。实施例下面基于上述方法进行仿真实验,本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅展示实验结果。本实施例使用resnet-50与fpn(featurepyramidnetwork)作为基础网络(backbone)来提取特征。语义特征提取网络由三层可变形卷积(deformableconvolution)堆叠而成。实例特征提取网络由三层常规卷积堆叠而成。本发明的模型在coco数据集的训练集上进行了训练,并在其对应的验证集上进行了性能测试。与不使用双向连接和不使用遮挡推理的模型相比,其性能如表1所示。表1不同模型的性能对比双向连接遮挡处理pq(%)××41.3√×41.8√√43.0注:表中×代表使用,√代表不使用。由此可见,通过以上技术方案,本发明实施例基于深度学习技术发展了一种全景分割方法。本发明可以充分利用语义分割和实例分割之间的互补性,在这两个任务间建立联系,是的这两个任务互有受益,最终使得全景分割的性能得到提升。同时,本发明利用了底层特征表观信息所提出的遮挡处理算法,有效地处理了遮挡问题,使得模型性能得到了进一步提升。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1