一种基于FasterR‑CNN的显著性目标检测方法与流程

文档序号:13663156阅读:1910来源:国知局
一种基于Faster R‑CNN的显著性目标检测方法与流程

本发明属于计算机视觉中图像的显著性检测领域,具体是指深度学习针对特定类的显著性检测方法。



背景技术:

近年来,计算机、互联网以及多媒体技术快速发展,人们在工作和生活中每天会接触大量的图像、视频的信息。由于图像和视频包含了丰富且直观的内容,是人们接受信息的有效渠道,是信息的重要来源之一,例如,在线视频、视频聊天、机械零件检测、网络直播、智能监控等。数字图像与视频都在指数增长,仅仅利用人工对图像或视频进行处理、分析往往具有很大的局限性。计算机视觉作为一门集智能信息处理及数字化分析的交叉学科,模拟人类视觉系统对图像进行感知处理,获取与人工处理相同或相近的结果,使得计算机可以像人一样分析和理解图像所表达的真实内容。研究表明,人们关注的信息往往集中在具有视觉显著性的目标上。当需要处理的图像数量较为庞大时,可通过仅处理输入图像中的显著性目标,使得在不改变处理方法的情况下提高处理效率。

视觉系统能够识别的底层特征包括用颜色、边缘、纹理等。基于这些特征进行局部对比度或全局对比度计算得到各区域之间相异性,确定图像中显著部分。itti等人在视觉注意模型ku的基础上,提出了经典的显著性计算模型,成为现有算法比较的一个标准模型。该算法根据人眼视觉特性,针对多尺度图像,通过底层特征的中心-周围对比度得到相应的显著图,并通过显著图融合获取最终显著图。harel等人提出基于图论的显著性检测算法gvbs,将生物视觉原理与数学计算结合,在itti模型的显著图生成过程之中引入马尔可夫链,用纯数学的计算求其平衡分布而得到显著图。cheng等人采用高斯混合模型将颜色特征相似的像素聚为图像区域,综合考虑各区域的颜色对比度和空间分布,以概率模型生成显著图。yang等人通过将图像划分为多尺度图层,针对每个图层计算其颜色特征与空间特征的对比度,融合多个图层生成的显著图获取最终显著图。该方法能够保证显著性目标的一致性与完整性,但当显著性目标较小时,会将显著性目标当作背景融入到背景区域。使用不同底层特征的显著性检测方法往往只针对某一类特定图像效果显著,无法适用于复杂场景下多目标图像。基于视觉刺激的底层特征缺乏对显著目标本质的理解,不能更深层次的表示显著性目标的特征。对于图像中存在的噪声物体,如与底层特征相似但不属于同一类目标,往往会被错误的检测为显著目标。近几年来,基于深度学习的自动学习获取深度特征(或高层特征)的方法已经开始在图像显著性检测中得到应用。li等人通过深度卷积神经网络来学习得到获取图像超像素区域的局部和全局深度特征来进行显著性检测mdf,检测效果相比于一般方法有明显著的提升,但运行速度较慢。李等人通过提取超像素块区域和边缘特征,送入卷积神经网络学习得到显著置信图。采用条件随机场求能量最小化的区域进行显著性检测。对单显著目标检测效果较好,但由于特征选择问题不适用于多目标图像。pan等人采用一种梯度下降的方法对原始图像进行像素级处理,再进行超像素级的深度特征提取和显著值计算,提升算法速度,但梯度下降方法对稀疏矩阵效果较差,导致整体检测效果不准确。hu等人通过结合卷积神经网络和区域验证的先验知识获取局部和全局特征。算法检测效果较好,但高度复杂的模型影响了算法运行效率。



技术实现要素:

本发明是一种基于fasterr-cnn的显著性目标检测方法,旨在解决现有显著性检测模型中采用底层特征无法提取出图像的深层语义特征,导致显著性检测的效果不太理想的问题。

本发明提供了一种基于深度特征的显著性检测方法,包括下述步骤:

步骤1:多尺度超像素分割。采用slic超像素分割算法将输入图像在三个尺度上进行分割,slic超像素分割算法是根据颜色、纹理和亮度等底层特征,将相邻相似的像素点聚成大小不同图像区域,可以有效地降低显著性计算的复杂度。它是基于颜色和距离相似性度量的一种梯度下降算法,分割数量可以控制,能够得到形状较为规则的大小相对均匀的分割结果。分割尺度的多少和每个尺度下超像素数量的多少,都会影响检测效果和运行速度。太多的分割个数会增加计算复杂度,而且可能出现过分割现象。而超像素个数太少,则会影响显著性检测效果的准确性。不同的分割尺度会影响后续检测的效果以及运行速度,因此发明根据经验限制每个超像素中像素的个数从每个超像素单位包含100个像素,到500个像素之间,每个尺度按100个像素递增。

步骤2:获取似物图。通过对fasterr-cnn神经网络进行特定类目标检测训练,将图像中的特定类目标检测出来,再利用其特性将可能目标提取出来。并且将得到的目标似物性分数提取出来。然后,开始生成似物图。fasterr-cnn的检测率很高,但在极端情况下会检测不到特定类目标,若fasterr-cnn检测不到目标时则将整幅图像作为目标进行处理。

目标似物性分数告诉了我们这个窗口含有目标的可能性,利用可能目标来获得像素级的似物性分数,将该分数记为目标显著的可能性,像素级的似物性分数的定义如公式(1),其中si为有没有包含像素p的目标可能分数,gi为高斯窗,x,y是像素p的坐标。

然后像素级的似物性分数在超像素区域的总和是目标在超像素区域的似物性分数,定义如公式(2),pi是一个属于超像素区域r的像素。为了获得超像素区域我们使用slic,在超像素分割时我们选取了多个分割尺度来进行检测。之后我们设置一个适合的阈值来获得似物图,阈值的设定为似物图的像素数量大于似物图像素数量的1.5倍除以该图的总像素量。

objectness(r)=∑i∈rpixobj(pi)(2)

步骤3:计算前景连通。阈值似物图只是粗糙的获取前景超像素的一部分利用srivatsa和babu提出的“前景连通”(foregroundconnectivity),该方法利用根据超像素连通性的显著性值来赋值给预估的前景。利用超像素作为结点来建立图,邻近的超像素节点间都有边,边的权重定义为两节点的平均lab颜色的欧几里得距离。定义超像素r的前景连通如公式(3)。这里d(r,rk)表示r到rk之间的最短距离,δ(.)如果被似物图估计为前景则赋值为1,n为超像素的总数。

被预估为前景的超像素相似点越多越能保证分子的值越低和分母的值越高,这样子就会使得fg的值更低,这暗示着有更高的连通性,所以取fg的倒数作为前景权重。

步骤4:显著性最优化。直接使用现存的最优化框架来结合我们的前景权重和背景权重,最小化的成本函数如公式(4)所示,ti表示最小化成本后赋值给pi的最终值,表示与超像素pi有关前景权重,表示与超像素pi有关的背景权重,越高则pi趋向于1,越高则pi趋向于0,wij是平滑系数。

步骤5:多层元胞自动机融合。由以上步骤获得的多尺度显著图中,因为划分尺度的不同得到显著图也不完全一致。同时由于显著性计算是以超像素为单位的,显著目标的显著值也是分块的、不连续的,所以多尺度显著图采用一般的方法融合之后仍然存在不一致,为了使最终的显著图尽可能保持一致,使用多层元胞自动机进行一致性融合优化。

附图说明

图1是于深度特征的显著性检测方法流程图;

图2是cnn结构示意图;

图3是于卷积神经网络的深度特征提取架构图;

图4是积层c1输出特征图;

图5是fastr-cnn框架图;

图6是不同算法在特定类数据集上的pr曲线图与mae柱状图;

图7是不同算法在hku-is数据集上的pr曲线图与mae柱状图;

图8是不同算法在msra-1000数据集上的pr曲线图与mae柱状图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。

本发明首先对图像进行多尺度分割,然后利用fasterr-cnn框出可能的显著性目标,建立似物图,之后通过前景连通将前景比重分配到超像素中,再利用显著性最优化技术结合前景与背景的比重来获得圆滑和光滑的显著图,最后利用多层元胞自动机进行融合获得最终的显著图。具体包括以下步骤:

步骤1:多尺度超像素分割。采用slic超像素分割算法将输入图像在三个尺度上进行分割,slic超像素分割算法是根据颜色、纹理和亮度等底层特征,将相邻相似的像素点聚成大小不同图像区域,可以有效地降低显著性计算的复杂度。它是基于颜色和距离相似性度量的一种梯度下降算法,分割数量可以控制,能够得到形状较为规则的大小相对均匀的分割结果。分割尺度的多少和每个尺度下超像素数量的多少,都会影响检测效果和运行速度。太多的分割个数会增加计算复杂度,而且可能出现过分割现象。而超像素个数太少,则会影响显著性检测效果的准确性。不同的分割尺度会影响后续检测的效果以及运行速度,因此发明根据经验限制每个超像素中像素的个数从每个超像素单位包含100个像素,到500个像素之间,每个尺度按100个像素递增。输入图像image,都会使用灰度图来降低复杂度,也可以使用rgb彩色图像,如果使用rgb彩色图像,此时输入图像有三张,分别为rgb分量。输入图像一般需要归一化。通过卷积层(c)-下采样层(s)进行处理,将上一层的输出与本层权重w做卷积得到各个卷积层,然后下采样得到各个下采样层,它们的输出称为特征图。将图像光栅化(x)。将上一层输出的特征图中的每个像素依次取出,排成一个向量。采用多层感知器(n&o)最后处理,特征训练分类器一般使用softmax,如果是二分类,可以使用逻辑回归方法。

步骤2:获取似物图。fasterr-cnn(更快的基于区域的卷积神经网络)是基于fastr-cnn(快速的基于区域的卷积神经网络)的改进,而fastr-cnn则是r-cnn(基于区域的卷积神经网络)与sppnet(空间金字塔池化网络)的融合。这四种都是图像处理中基于卷积神经网络的目标检测方法,他们之间的发展顺序依次是r-cnn、sppnet、fastr-cnn、fasterr-cnn。r-cnn的核心思想是使用候选区域框提取来代替传统的滑动窗口检测,进而对每个候选区域利用cnn来提取特征,之后接上独立训练的分类器来预测该区域包含感兴趣目标的置信度,这就转变成一个图像分类的方法。该方法解决了cnn的定位问题,但是因为需要对每个区域候选框进行处理,所以存在着大量的重复计算。r-cnn的框架图如图5所示。

sppnet的核心思想是利用空间金字塔池化(spatialpyramidpooling,简称spp)层来去除网络固定大小的限制,空间金字塔池化层池化特征并且产生固定大小的输出。因为在cnn中全连接层是有固定输入图像大小的限定,而卷积部分则不需要固定的图像大小,所以空间金字塔池化层是放在最后一个卷积层后面,在第一个全连接层的前面。该方法策略比r-cnn目标检测的速度提高了接近100倍。

fastr-cnn借鉴sppnet的思想,提出了一个感兴趣层区域(regionofinterest,简称roi),可以看作是一个单层的sppnet的网络层,roi可以把不同大小的输入映射到固定尺度的特征向量,再利用softmax特征训练分类器进行类型识别和窗口回归算法进行定位。fastr-cnn结合sppnet与r-cnn的优点大大减少了目标检测过程需要的时间。

通过对fasterr-cnn神经网络进行特定类目标检测训练,将图像中的特定类目标检测出来,再利用其特性将可能目标提取出来。并且将得到的目标似物性分数提取出来。然后,开始生成似物图。fasterr-cnn的检测率很高,但在极端情况下会检测不到特定类目标,若fasterr-cnn检测不到目标时则将整幅图像作为目标进行处理。

目标似物性分数告诉了我们这个窗口含有目标的可能性,利用可能目标来获得像素级的似物性分数,该分数用来告诉我们这个像素是目标一部分的可能性,像素级的似物性分数的定义如公式(1),其中si为有没有包含像素p的目标可能分数,gi为高斯窗,x,y是像素p的坐标。

然后像素级的似物性分数在超像素区域的总和是目标在超像素区域的似物性分数,定义如公式(2),pi是一个属于超像素区域r的像素。为了获得超像素区域我们使用slic,在超像素分割时我们选取了多个分割尺度来进行检测。之后我们设置一个适合的阈值来获得似物图,阈值的设定为似物图的像素数量大于似物图像素数量的1.5倍除以该图的总像素量。

objectness(r)=∑i∈rpixobj(pi)(2)

步骤3:计算前景连通。阈值似物图只是粗糙的获取前景超像素的一部分利用srivatsa和babu提出的“前景连通”(foregroundconnectivity),该方法利用根据超像素连通性的显著性值来赋值给预估的前景。利用超像素作为结点来建立图,邻近的超像素节点间都有边,边的权重定义为两节点的平均lab颜色的欧几里得距离。定义超像素r的前景连通如公式(3)。这里d(r,rk)表示r到rk之间的最短距离,δ(.)如果被似物图估计为前景则赋值为1,n为超像素的总数。

被预估为前景的超像素相似点越多越能保证分子的值越低和分母的值越高,这样子就会使得fg的值更低,这暗示着有更高的连通性,所以取fg的倒数作为前景权重。

步骤4:显著性最优化。直接使用现存的最优化框架来结合我们的前景权重和背景权重,最小化的成本函数如公式(4)所示,ti表示最小化成本后赋值给pi的最终值,表示与超像素pi有关前景权重,表示与超像素pi有关的背景权重,越高则pi趋向于1,越高则pi趋向于0,wij是平滑系数。

步骤5:多层元胞自动机融合。目前常用的显著图或者特征融合方法当中有线性融合、基于像素点的点乘融合、条件随机场融合、基于元胞自动机融合等方法。qin等人提出的多层元胞自动机(multi-layercellularautomata,简称mca)融合方法相对较好。该方法将不同的算法得到的显著图当作一层元胞自动机,并结合不同算法的优势,通过一种更新机制不断更新显著值,最终得到融合的显著图。

在多层元胞自动机中,显著图的每个像素点就是一个元胞,在n层自动机中,任意一显著图中的元胞都有n-1个邻居,分别在于其他显著图上的相同位置。用像素i的显著值表示其作为前景f的概率p(i∈f)=si,那么作为背景b的概率用p(i∈b)=1-si表示。通过提取每一幅图的适应性阈值,第m幅显著图的二值化阈值用γm表示,并对其进行二值化处理。如果像素i的显著值si≥γm,则将其标记为前景,并用ηi=+1表示,相反,ηi=-1,表示像素i为背景。

如果像素i被标记为前景,那么它在其他显著图上相同位置的邻居j被标记为前景的概率为前景的概率为λ=p(ηj=+1|i∈f)。那么,用μ=p(ηj=-1|i∈b)表示像素i被标记为背景时,其邻居j成为背景的概率。假定λ和μ是一对相等的常量,那么后验概率p(i∈f|ηj=+1)可用公式(5)表示:

p(i∈f|ηj=+1)∝p(i∈f)p(ηj=+1|i∈f)=si·λ(5)

将先验概率比定义为λ(i∈f),计算公式则是(6):

则后验概率比λ(i∈f|ηj=+1)如公式(7)表示:

为了方便计算,对上式作l=ln(λ)变换,如公式(8)所示:

为了便于表示元胞自动机的更新机制,将先验概率比和后验概率比如公式(9)所示:

其中表示像素i在t时刻的显著值,同步更新机制f:sm-1→s定义如公式(3.10)所示:

其中,表示t时刻,第m幅显著图上所有元胞自动机的显著值。矩阵1是有n个元素的矩阵[1,...,1]t。如果一个像素其邻居被判定为前景,则相应的增加自身的显著值,即应有则有λ>0.5.根据经验设置则n2次更新后,可以通过公式(11)得到最终显著图

由于在显著性目标检测开始的时候对图像进行了多尺度分割,分割尺度的选择是在保证性能和效果的前提下选择的,最后选择了五个尺度,从每个超像素单位包含100个像素,到500个像素之间,每个尺度按100个像素递增。最后根据显著性最优化得到五个尺度的显著图,使用多层元胞自动机进行了一致性融合。由以上步骤获得的多尺度显著图中,因为划分尺度的不同得到显著图也不完全一致。同时由于显著性计算是以超像素为单位的,显著目标的显著值也是分块的、不连续的,所以多尺度显著图采用一般的方法融合之后仍然存在不一致,为了使最终的显著图尽可能保持一致,使用多层元胞自动机进行一致性融合优化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1