基于信息流融合的RGB-T图像显著性检测系统及检测方法

文档序号:29048235发布日期:2022-02-25 22:52阅读:816来源:国知局
基于信息流融合的RGB-T图像显著性检测系统及检测方法
基于信息流融合的rgb-t图像显著性检测系统及检测方法
技术领域
1.本发明涉及图像检测技术领域,具体设计一种基于信息流融合的rgb-t图像显著性检测系统及检测方法。


背景技术:

2.随着信息技术的高速发展,图像数据已经成为了主要的信息来源之一。随着日益增长的数据处理需求必然要求提高信息处理的效率。一般在图像处理任务中所要处理的内容就是原始图像数据的一小部分,所以如何找到图像信息的显著区域就显得尤为重要。这样可以大大减少计算的复杂度,也减少了计算能力的浪费。
3.虽然基于rgb图像的显著性检测已经有了很大的进步,但是这种图像显著性检测技术会因为场景混乱、光线不足、光线过强、以及多显著物和显著物尺寸变化较大等场景,使rgb图像的数据信息和空间信息受到干扰甚至是信息缺失,此时单模态的rgb图像显著性检测方法的性能就会显著下降。


技术实现要素:

4.发明目的:本发明提供了一种基于信息流融合的rgb-t图像显著性检测系统及检测方法,其目的是解决现有技术检测效果差的问题,本发明能够更好的实现两个模态的特征融合和跨模态融合,从而进一步提高图像的检测效果。
5.本发明所采取的技术方案如下:
6.基于信息流融合的rgb-t图像显著性检测系统,包括:transformer特征提取模块、rgbt信息的筛选模块、information inter flow模块、informatin inner flow模块、informatin flow模块、计算预测值与损失模块;
7.transformer特征提取模块用于对输入的rgb图像和t图像分别提取各自的四级特征利用segtransformer的思想,依赖transformer作为新的编码结构,对网络特征进行编码,得到了由浅到深的多组特征;
8.rgbt信息筛选模块用于从通道空间两个方向上对,上述transformer特征提取模块提取到的高层特征进行冗余信息的筛选,使得有效的信息被进一步保留;
9.information inter flow模块用于将上一层的全局特征,以及本层的rgb图像和t图像对应的特征的不同特征节点映射到统一特征空间内进行information flow;
10.informatin inner flow模块用于对上述transformer特征提取模块提取到的多级rgb图像特征和t图像特征自身,分别进行information inner flow;informatin flow模块用于对上述information inter flow模块和information inner flow模块所得结果进行融合,得到跨模态的全局特征;同时利用globle函数将得到跨模态全局特征进一步投影到下一层的特征空间,并降低通道数,使其与下一层的双模特征具有相同的通道数,以便于下一阶段的融合;
11.计算预测值与损失模块用于对上述informatin flow模块得到的跨模态的全局特征进行预测值的解码,并利用cross entropy loss、iou loss对全局特征进行辅助监督训练,并得到损失值。
12.进一步的,rgbt信息的筛选模块包括了filter_c、filter_s和aspp,其中filter_c的输入是transformer特征提取模块提取到的最高层rgb与t图像的特征,将最高层特征经过filter_c处理后,将得到的结果传输到filter_s中进行处理,于是便得到了去除掉冗余信息之后的最高层的rgb与t图像特征,最后利用aspp对得到的新的rgb与t图像特征进行跨模态融合,便得到了筛除完冗余信息的最高层全局特征g0。
13.一种基于信息流融合的rgb-t图像显著性检测系统的检测方法,
14.步骤1:通过transformer特征提取模块对输入的rgb图像和t图像分别提取其多级特征;
15.步骤2:通过rgbt信息的筛选模块将两个模态的最高级特征进行冗余信息的筛除,并将最高层的双模态信息进行融合,从而得到筛除完冗余信息的最高层全局特征g0;
16.步骤3:通过rgbt信息的筛选模块将筛除完冗余信息的最高级特征进行跨模态信息融合,从而得到跨模态信息融合后的最高层全局特征globleh∈r
512
×
11
×
11

17.步骤4:通过information flow模块对步骤3中的最高层全局特征globleh∈r
512
×
11
×
11
,利用globle函数将其进一步投影到与下一层相同的特征空间,并且降低通道数,使其与下一层的特征空间的通道数量相等,得到全局特征
18.步骤5:对本层的双模特征和上一层的全局特征通过informatin inter flow模块、informatin inner flow模块和information flow模块进行information inter flow和information inner flow以及information flow得到本层的全局特征gi,然后利用globle函数对得到的全局特征进行映射处理,使其通道数与下层特征一致,并使其作为下一阶段的输入,并继续与更下一层的双模特征进行融合,直到最后一层;
19.步骤6:通过计算预测值与损失模块将得到多级全局特征gi进行计算预测值的解码,并对得到的多层全局特征进行辅助监督训练。
20.进一步的,所述步骤2的具体方法为:
21.步骤2.1:在通道方向上对特征进行双模态冗余信息的筛选;得到rgbt信息的筛选模块的第一步是的输出
22.步骤2.2:在空间方向上进行双模态冗余信息的筛选;便得到rgbt信息的筛选模块的第二步的输出
23.进一步的,
[0024][0025][0026]
其中和分别代表,将最高层rgb图像特征和t图像特征,经过通道方向筛除冗余信息得到的结果,和分别代表rgb与t图像信息各个通道的权值,
和表示在筛除冗余信息之前的rbg和t图像的特征信息,其与对应权重的运算关系是点积,和是rgg与t图像特征信息在空间方向上的权重,与是将和分别经过空间方向上筛除冗余信息得到的最终结果。
[0027]
进一步的,所述步骤3的具体方法为:
[0028]
利用了channel attention的融合结构,进一步将筛选后的特征进行融合;此外还利用了aspp这一模块,得到rgbt信息的筛选模块的最终输出globleh∈r
512
×
11
×
11
,这里的globleh∈r
512
×
11
×
11
是一个尺寸为11*11且具有512个通道的全局特征。
[0029]
进一步的,所述步骤5的具体方法为:首先对informatin inter flow模块、informatin inner flow模块的结果进行融合,得到这里将globleh当做g0完成与高层特征的information flow输出之后将每一层输出的经过globle函数:得到的全局特征gi全局特征gi会继续被当做下一阶段的输入,与继续融合,直至融合到最后一层。
[0030]
进一步的,步骤6中采用了lossb对显著性图的边界进行监督,最终loss如下:
[0031]
loss=loss
main
+μloss
lux
+λlossb,
[0032]
式中,loss
main
=ce(gt,conv
score

352
(g)))+kiou(gt,conv
score

352
(g)))
[0033][0034]
这里μ,λ分别取值为1,0.5;
[0035]
lossb表示boundary loss即边界的损失,ce,iou分别表示cross entropy loss和iou loss,gt表示图像的groundtruth,k表示两者之间的权重系数,这里将k设置为1。
[0036]
与现有技术相比,本发明具有如下优势:
[0037]
1、本发明采用了双模态图形即rgb图像和t图像进行显著性检测,充分利用了两种模态图像的优势,从而能够在大突出物(bso)、小突出物(sso)、恶劣天气(bw)、相似外观(sa)、中心偏置(cb)、跨图像边界(cib)、多突出物(mso)、低光照(li)、焦距(of)、热交叉(tc)和图像杂波(ic)这些复杂情况下进行显著性检测,并取得良好的检测效果。
[0038]
2、本发明采用了rgbt的高层特征筛选机制,能够对高层特征进行冗余信息的筛选使得有效的信息被进一步保留,以提升全局信息的表征能力以及网络的性能效果。
[0039]
3、本发明采用了基于信息流的思想,将不同特征的特征节点映射到统一特征空间内进行information flow。摒弃了过去往往利用相加,cat以及nonlocal的形式进行跨模态跨尺寸的信息融合的方法,此融合方式是local to local,即对于特征之间对应位置的局部特征进行融合,这样的融合方式往往是次优。本发明所提出的这种融合方式,不仅极大的简化了网络结构也可以保证多尺度多模态信息之间的互补性被充分利用。
附图说明
[0040]
图1为本发明基于信息流融合的rgb-t图像显著性检测系统的结构示意图;
[0041]
图2为本发明的rgbt的高层特征筛选示意图;
[0042]
图3为本发明对各个模态各个尺度特征之间的信息和各个模态各个尺度特征内部的信息进行信息流融合的示意图;
[0043]
图4为在vt821测试集定量比较实验的准确率pr曲线图;
[0044]
图5为在vt1000测试集定量比较实验的准确率pr曲线图;
[0045]
图6为在vt5000测试集定量比较实验的准确率pr曲线图;
[0046]
图7为在vt821测试集定量比较实验的f-measurepr曲线图;
[0047]
图8为在vt1000测试集定量比较实验的f-measurepr曲线图;
[0048]
图9为在vt5000测试集定量比较实验的f-measurepr曲线图;
[0049]
图10为本发明视觉比较实验的对比图;
具体实施方式
[0050]
为了便于理解本技术,下面将参照相关附图对本技术进行更加全面的描述。附图所展示的是本技术较为优质的实施方式,但是本技术的实现方式不仅仅局限于附图中所展示的实施方式。提供这些实施方式的目的是,帮助理解本技术的公开内容。
[0051]
本发明提出了基于不同模态图像的显著性目标检测。本专利提出的图像显著性检测技系统,利用的就是rgb图像和热红外图像的双模态图像的显著性检测方法。热红外摄像机对突出物的成像始终是均匀的,即使是rgb图像背景杂乱、光线暗淡的复杂环境下,热红外图像中的目标也是突出的,所以可以很好的克服复杂环境下rgb图像的信息被干扰和信息缺失问题。此外热红外图像相对于rgb图像来说,分辨率偏低,图像中物体的轮廓信息不够清楚,而rbg图像就可以很好的弥补这一点。因此rbg图像与热红外图像具有优势互补的特点,基于rgb-t的双模态图像显著性检测方法就能够更为准确的检测显著性目标。
[0052]
对于双模态图像的特征提取,本专利采用了transformer架构。transformer架构在2017年为nlp(自然语言处理)领域带来了极大的惊喜,并在诞生的短短四年时间里,transformer就跻身于自然语言处理领域的主流模型。随着时间的推移,如今transformer开始向其他领域进军。由于深度学习的快速发展,transformer在计算机视觉和音频处理等领域被广泛应用,并取得了良好的效果。但是由于transformer过于强的表征能力,导致rgb-t融合的网络中可能会造成信息的冗余,以至于不能达到很好的结果。因此在高级特征的融合过程中,需要对rgb特征以及热红外图像特征进行筛选,故提出了rgbt信息的筛选模块。
[0053]
对于跨尺度跨模态信息融合问题,以往的处理方式是分步进行的,但是这种方式会复杂化网络结构,为此提出了信息流思想对模态间尺度间的信息进行统一融合。这种方式不仅极大的简化了网络结构也可以保证多尺度多模态信息之间的互补性被充分利用。
[0054]
图1是本发明的基于信息流融合的rgb-t图像显著性检测系统的结构示意图,所述基于信息流融合的rgb-t图像显著性检测系统,包括transformer特征提取模块、rgbt信息的筛选模块、information inter flow模块、informatin inner flow模块、informatin flow模块、计算预测值与损失模块。
[0055]
所述transformer特征提取模块用于对输入的rgb图像和热红外图像分别提取各自的多级特征信息,并对网络特征进行编码。
[0056]
具体实施时,在transformer特征提取模块中使用了segtransformer的思想,依赖transformer作为新的编码结构,对输入的rgb图像和t图像(热红外图像)分别提取其各自的额多级特征,对网络特征进行编码。从而得到rgb图像和t图像的由低到高的4级分辨率不同的特征,将从rgb图像和t图像所提取的由低到高的4级特征分别记为:其中表示对于尺寸为88*88,通道数为64的rgb特征。
[0057]
参考图1,rgbt信息的筛选模块用于处理由transformer的特征提取器提取得到了由浅到深的多组特征,其越高层的特征有越强的表征能力,这也意味着,高层的特征具有较强的鲁棒性。那么在融合特征的过程中很容易会出现信息的冗余,这样会极大地影响网络的性能效果。所以所述rgbt信息的筛选模块用于从通道空间两个方向上对transformer特征提取模块中的高层特征进行冗余信息的筛选,使得有效的信息被进一步保留,以提升全局信息的表征能力。其进一步包括了filter_c(rgb图像与t图像高级特征的原型向量)、filter_s(rgb图像与t图像高质量特征表示)、aspp(模块多尺度特征融合)。
[0058]
参考图2,是对上述rgbt信息的筛选模块的过程的进一步描述。rgbt信息的筛选模块包括了filter_c、filter_s和aspp,其中filter_c的输入是transformer特征提取模块提取到的最高层rgb与t图像的特征,将最高层特征经过filter_c处理后,将得到的结果传输到filter_s中进行处理,于是便得到了去除掉冗余信息之后的最高层的rgb与t图像特征,最后利用aspp对得到的新的rgb与t图像特征进行跨模态融合,便得到了筛除完冗余信息的最高层全局特征g0。具体为由图中所示,首先对rgb图像,t图像特征的原型进行提取得到prototype_rgb和prototype_t。随后对prototype_rgb和prototype_t分别用筛选函数f1,f2进行处理,再进行空间维度上的拼接操作。得到的结果再由softmax函数处理得到权重,再将权重拆分为令其分别为的权重并对进行通道方向的加权运算,得到接下来利用ρ1,ρ2提取函数,从中提取通道数量为1的特征随后对其进行空间维度上的拼接,之后利用softmax函数处理,再经过空间上的拆分,可以得到关于特征的空间attentionmap将其与特征相乘便得到了融合互补信息的最后将得的结果先在空间维度上进行拼接,然后利用了aspp(模块多尺度特征融合模块)丰富了多尺度融合信息。
[0059]
继续参考图1,所述information inter flow模块用于融合各个特征之间的信息,即在统一的特征空间内,充分融合上一层的全局特征g
i-1
以及这一层rgb图像以及t图像对应的特征,这种融合的程度不仅局限于特征之间对应位置的局部特征,从而达到更好的融合效果。其进一步包括了(融合了各个模态之间的特征的特征空间)。
[0060]
参考图1,所述information inner flow模块用于对每个特征自身进行information inner flow,这样可以更加有利于利用每个特征内部的局部以及全局信息。
其进一步包括了融合了各个特征内部全局信息以及局部信息的特征空间由于仅仅利用卷积等方法只能融合特征内部的局部信息,所以利用information inner flow的方法进行内部信息的融合,这样可以更加有利于利用每个特征内部的局部以及全局信息。
[0061]
参考图1,所述information flow模块用于对上述information inter flow模块和information inner flow模块所得结果进行融合。其进一步包括即相应层的全局特征。
[0062]
参考图3,是对上述information inter flow模块、information inner flow模块以及information flow模块过程的进一步描述。由图3中所示,此过程的输入为上一层的全局特征g
i-1
以及这一层rgb图像以及t图像对应的特征对于图中的information inter flow模块和information inner flow模块是并行发生的,两者在执行计算的过承中没有参数和数据的共享,彼此是独立的。对于information inter flow模块,首先将三个特征进行空间上的拼接从而得到一个矩形特征(沿weight方向进行拼接),随后对整体特征进行投影,投影时所用的映射函数即为图中的κ,n,将得到的结果利用τ函数对特征进行展平并将得到的结果进行矩阵乘法运算,于是便得到信息空间随后对得到的信息空间进行处理,即先对信息空间进行操作,之后再与做和,然后利用σ(relu函数)进行处理,再进行操作便得到随后将得到的利用conv
reshape
操作,将其映射回特征空间之中得到
[0063]
对于information innner flow模块,其处理过程与上述information inter flow模块很接近,但是对于三个特征进行空间上的拼接的方向是不一致的,此模块的拼接方向是沿着通道方向进行拼接。同样利用和映射投影,再利用τ函数进行展平操作,然后将得到的结果进行矩阵乘法运算,便得到了同一的特征空间随后是利用information flow的方法对各个尺度各个模态的内部特征更新,即先对信息空间进行操作,之后再与做和,然后利用σ(relu函数)进行处理,再进行操作便得到随后将得到的利用conv操作,将其映射回特征空间之中得到
[0064]
对于information flow模块,其处理过程是将上述两个模块所得到的和利用deconvi函数将二者进行融合,便得到了本层的跨模态的全局特征最后利用globlei函数,对本层的跨模态全局特征进行处理得到gi,得到的gi会继续被当做下一阶段的输入,与继续融合,直至融合到最后一层。
[0065]
继续参考图1,本发明实施例提供的计算预测值与损失模块利用得到的进行预测值的解码,对进行辅助监督训练。由于
的尺寸较小,所以仅仅对进行监督训练。其进一步包括,mlp处理使每一个特征达到相同的通道数,reshape操作。
[0066]
基于上述基于信息流融合的rgb-t图像显著性检测系统,本发明实施例还提供了一种基于信息流融合的rgb-t图像显著性检测方法,所述基于信息流融合的rgb-t图像显著性检测方法包括:
[0067]
步骤1:对输入的rgb图像和t图像分别提取其多级特征。
[0068]
假定其网络的输入为{i
rgb
,i
t
},其中i
rgb
为rgb图像,i
t
为热红外图像,那么,{f
rgb
,f
t
}=s{i
rgb
,i
t
},这里s代表segtransformer的编码器部分。这里输入图像的尺寸为352*352,通过segtransformer之后,得到transformer特征提取模块的输出:对于i
rgb
和i
t
输出的特征分别为的特征分别为其中表示对于尺寸为88*88,通道数为64的rgb特征。
[0069]
步骤2:将两个模态的最高级特征进行冗余信息的筛除,并将最高层的双模态信息进行融合,从而得到最高层的全局特征。
[0070]
步骤2.1:在通道方向上对特征进行双模态冗余信息的筛选。
[0071]
首先对rgb图像和t图像高层特征的原型进行提取:
[0072]
其中adp
max
表示1*1的adaptive maxpooling(自适应池化层),分别表示rgb图像与t图像最高级特征的原型向量。之后对512进行筛选,也就是对的权重在通道方向上进行计算:上式中将分别进行筛选函数f1,f2的处理,之后在空间维度上对特征进行拼接,得到权重向量通道数为512*2,随后在rgb-t特征维度上对权重向量进行softmax计算分别对通道方向的权重进行进一步的优化,得到的weightc∈r
512
×2。随后将得到的权重矩阵进行拆分并对进行优化,具体的:其中π为拆分函数分别将weightc在空间方向拆分,拆分为随后将分别当做的权重向量并对其进行通道方向的加权运算:其中
·
表示点积。于是得到了rgbt信息的筛选模块的第一步是的输出
[0073]
步骤2.2:在空间方向上进行双模态冗余信息的筛选。
[0074]
首先需要求出对每一个位置提取一个高质量的特征表示,以保证后续对空间特征的加权处理:这里的ρ1,ρ2表示提取函数,即对中的512个通道进行特征的提取,将512个通道的特征压缩为尺寸不变通道
数量为1的特征。经过提取的特征(其中1为通道数量,11
×
11为特征尺寸)在每个位置上都具有对该位置特征足够的表征能力,之后对rgb-t特征这11
×
11个位置分别进行权重的计算:这一步是将π2,cat和softmax全部作用在了通道方向,以保证得到关于特征的空间attention map最后将得到的权重与特征相乘(feature map),得到了融合了互补信息的并且加入了残差链接,具体地:于是便得到了rgbt信息的筛选模块的第二步的输出
[0075]
步骤3:将筛除完冗余信息的最高级特征进行跨模态信息融合,从而得到最高层的全局特征。
[0076]
将步骤2.1和步骤2.2的输出结进行融合。具体过程如下:利用了channel attention的融合结构,进一步将筛选后的特征进行融合。此外还利用了aspp(模块多尺度特征融合)这一模块,具体地:于是得到rgbt信息的筛选模块的最终输出globleh∈r
512
×
11
×
11
,这里的globleh∈r
512
×
11
×
11
是一个尺寸为11*11且具有512个通道的全局特征。
[0077]
步骤4:对步骤3中的结果即最高层全局特征globleh∈r
512
×
11
×
11
,利用globle函数将其进一步投影到与下一层相同的特征空间,并且降低通道数,使其与下一层的特征空间的通道数量相等,得到
[0078]
步骤5:对本层的双模特征和上一层的全局特征,进行information inter flow和information inner flow以及information flow得到本层的全局特征。然后利用globle函数对得到的全局特征进行映射处理,使其通道数与下层特征一致,并使其作为下一阶段的输入,并继续与更下一层的双模特征进行融合,直到最后一层。首先对上述informatin inter flow模块、informatin inner flow模块的结果进行融合,具体地:行融合,具体地:其中i表示从解码出来的特征的层数,在设计的网络中共有四层特征,从深到浅分别进行渐进的跨尺度跨模态的融合工作。这里的deconvi表示步长为2的2d反卷积(convtranspose2d),作用是将高层特征的尺寸变大,通道数量减少,最后得到以进行后续的information flow。这里将globleh当做g0完成与高层特征的information flow输出之后将每一层输出的之后将每一层输出的经过globle函数:其中globle函数是将得到的gi进一步投影到与相同的特征空间,并且降低通道数,使其与下一层的的通道数量相等,为了简化利用普通的2d卷积函数代替globle函数以得到最终富含多尺度多模态信息的
全局特征gi。得到的gi会继续被当做下一阶段的输入,与继续融合,直至融合到最后一层。通过information flow可以输出每一层中的可以得到其中表示输出特征的尺寸为11*11通道数量为512。
[0079]
步骤6:将得到多级全局特征进行计算预测值的解码、并对得到的多层全局特征进行辅助监督训练。
[0080]
由于最高层的全局特征尺寸较小,所以仅仅对前三层的全局特征进行监督训练。其中ψ
352
表示将特征尺寸通过双线性差值的方式扩展图像尺寸到352*352,并且通过2d卷积conv
score
输出辅助预测值{y
22
,y
44
,y
88
}∈r1×
352
×
352
,这里利用了cross entropy loss(交叉熵损失函数)、iou loss(回归损失函数)对其进行监督,即:
[0081]
其中ce,iou分别表示cross entropy loss和iou loss,gt表示图像的groundtruth(标注的正确数据),k表示两者之间的权重系数,这里将k设置为1。此外对进行了统一的解码,具体的:
[0082]
其中将分别经过τ以及mlpj的处理,这里的τ与之前相同为了将特征展平,之后对每一个展平后的特征向量进行mlpj处理,使每一个特征达到相同的通道数c
output
。之后用ψ
reshape
对每一个输出的特征进行reshape和线性插值处理,使得每一个尺度的特征都具有相同的尺寸和通道数量即这里的88*88即是输入特征的最大尺寸,设置c
output
=256。最后将得到的特征在通道方向上拼接在一起,并通过mlp
*
进行通道的压缩。需要注意的是,为了保证mlp可以在二维特征上进行,这里的mlp
*
操作包括了τ,mlp和reshape,得到g
decoder
∈r
256
×
88
×
88
。通过将进行融合后解码,和之前一样对得到的g
decoder
进行监督:loss
main
=ce(gt,conv
score

352
(g)))+kiou(gt,conv
score

352
(g)))这里采用了lossb对显著性图的边界进行监督,为了便于优化,仅对最终融合了各个尺度之后的输出进行边界监督,最终loss如下:
[0083]
loss=loss
main
+μloss
lux
+λlossb,这里μ,λ分别取值为1,0.5。
[0084]
为了验证本发明系统及方法的显著性检测性能,将本发明提出的显著性检测方法比较了10种最先进的sod方法与iffnet,包括一种传统的rgb-t方法:mgfl,9种深度学习方法,其中4种rgb-d方法:dcf,dpanet,hainet和jl-dcf,5种rgb-t方法:adfnet,cgfnet,csrnet,midd和ecffnet。为了公平起见,所有方法都使用默认参数设置,同时使用相同的训练集和测试集。
[0085]
本次实验采取的数据集是三个最常用的公共rgb-t sod数据集,这三个数据集包括vt821、vt1000和vt5000。vt821包含821组标签图像,其中添加了一些噪声,增加了挑战
性;vt1000包括1000组标记图像,该数据集的rgb和t图像对齐良好;vt5000包含5000组已标记的图像,这些图像分为2500组测试数据集和2500组训练数据集。这些数据集有更复杂的场景和更多种类的对象。这三种公开的rgb-t sod数据集包含了许多挑战,包括大突出物(bso)、小突出物(sso)、恶劣天气(bw)、相似外观(sa)、中心偏置(cb)、跨图像边界(cib)、多突出物(mso)、低光照(li)、焦距(of)、热交叉(tc)和图像杂波(ic)。
[0086]
本发明提供的网络的实施细节如下:它基于pytorch,使用rtx3080ti gpu进行训练。采用随机梯度下降(sgd)优化器对网络进行75个周期的训练,初始学习率为0.005。动量衰减和重量衰减分别设置为0.9和0.0005,批次大小设置为2。为了提高学习结果的准确性,在第21个周期和第47个周期时,学习率分别降低0.1。使用vt5000选择的2500组训练图片进行训练,使用vt5000、vt1000和vt821中的其他图片作为测试集进行测试。在训练阶段,将输入图像的大小调整为256*256,然后使用水平翻转等操作进行数据扩充。
[0087]
本次实验的性能评价指标如下:主要有五种指标:e-measure、s-measure、f-measure、mae和pr曲线。mae值越低,其他指标值越高,目标检测性能越显著。具体来说,e-measure是指增强对齐方法同时考虑了局部像素值和图像水平平均值;s-measure是指将区域感知到的结构相似度与对象感知到的结构相似度相结合进行空间结构相似度评价;f-measure是综合考虑精度和召回率的指标,mae是逐像素测量的预测结果与真实值之间的平均绝对差值;pr曲线显示了不同阈值条件下sod的精确度和召回结果。
[0088]
首先进行定量比较实验:经过测试,与上述10种方法相比,本发明所提出的方法测试结果几乎是最好的。在噪声较大、难度较大的vt821测试集上,本发明的测试结果与次优解相比,s-measure、w_f和mae结果提高了2.6%,2.0%和0.9%,其他指标也有所提高。在vt1000测试集上,本发明的s-measure和w_f比次优解高了1.5%、1.2%,其他指标也有所提高。在具有更复杂场景的vt5000测试集上,本发明结果比次优解的s-measure和w_f分别提高2.2%和2.5%同时,其他指标也有所改善。同时,如图4-9所示,pr曲线涵盖了本次实验所比较的所有方法,这表明了本发明所提出的方法的优越性。
[0089]
随后进行了视觉比较实验:本发明的方法和其他方法的可视化结果如图10所示。可以看出,与其他方法相比,本发明的方法更具鲁棒性,当面对小对象、背景与显著对象颜色相似的对象、多个显著对象、内部空洞、具有复杂轮廓的对象和其他对象时,可视化结果更接近gt(标注的标准图)图。在第一行和第二行中,本发明的方法可以检测到小目标,特别是在第二行中,只有本发明的方法检测到笔,而其他方法则受到背景的干扰。在第三行和第四行中,可以减少背景的干扰。门框的颜色与椅子的颜色相似。本发明的方法几乎完全检测到椅子,而大多数其他方法接收门框的干扰。虽然csrnet没有受到门框的干扰,但它错过了椅子的一条腿;在第五行和第六行,本发明的方法也可以很好地检测多个显著目标;在第七行和第八行,本发明的方法也可以非常清晰地检测出物体的内部轮廓,但是其他方法检测物体内部轮廓的效果并不好;在第九行和第十行中,面对复杂的轮廓,本发明的方法比其他方法具有更清晰的轮廓。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1