一种基于域自适应机制的复杂背景下目标检测方法

文档序号:31721343发布日期:2022-10-04 23:22阅读:73来源:国知局
一种基于域自适应机制的复杂背景下目标检测方法

1.本发明涉及一种基于域自适应机制的复杂背景下的目标检测方法,适用于计算机视觉中复杂背景下的目标检测技术领域。


背景技术:

2.复杂背景下目标检测是计算机视觉领域中一项具有挑战性的任务,其目的是在图片背景较为复杂的情况下,对感兴趣的前景目标进行检测,输出前景目标的分割图作为检测结果。复杂背景下目标检测具有非常高的研究意义和实际应用价值,在医疗、农业、海洋、军事等领域有着广泛的应用。得益于深度学习技术的发展,基于深度神经网络的目标检测方法在最近几年取得了巨大的成功,一大批高效的检测算法被提出。但是在复杂背景下,图片通常具有色彩杂乱、光照条件多变和前景目标带有伪装色等特性,导致图片中感兴趣的前景目标易与背景融为一体,为检测工作带来了极大的困难。
3.通用的目标检测算直接应用于复杂背景下的目标检测任务时,其性能通常会出现大幅衰减,检测准确率大大降低。因此需要从复杂背景的特性和检测方法的物理意义出发,对复杂背景目标检测模算法进行专门的设计。目前现有的复杂背景下的目标检测算法大多从增强图像特征、多尺度特征融合和引入注意力机制等方面来进行优化,虽然已经取得了不错的检测性能,但是由于复杂背景下目标检测任务公开的数据集规模较小,受训练数据规模的限制,这些算法的检测性能往往不能得到充分的发挥,泛化能力也受到极大的影响。然而在实际应用时,在一些专业领域对采集到的数据进行大规模标注成本极大,最终用于训练的数据规模往往更小。因此,训练数据规模的问题不仅限制了复杂背景目标检测算法的性能,还影响了这些算法的实际应用价值。


技术实现要素:

4.针对复杂背景目标检测任务训练数据规模较小,导致目标检测算法的性能受到限制的问题,本发明提出了一种基于域自适应机制的复杂背景下的目标检测方法。该方法构建了foregroundnet-da模型,在网络模型的训练过程中引入大规模的通用目标检测数据集辅助训练,利用域自适应机制将网络模型在大规模通用目标检测数据集上学习到的知识迁移到复杂背景目标检测任务中。本发明能在复杂背景目标检测数据集规模有限的情况下,提高模型的检测性能。训练好的foregroundnet-da网络模型的检测性能优于其他复杂背景下目标检测算法领域,在降低平均绝对误差(mean absolute error,mae)指标的同时,提高了检测结果的增强-对齐指标(enhanced-alignment measure,em)、结构指标(structure measure,sm)和加权的f指标(weighted f measure,wfm),说明本发明有在训练集规模有限的情况下提高模型的目标检测精度。
5.为了实现上述目的,本发明提供如下技术方案:
6.一种基于域自适应机制的复杂背景下的目标检测方法,其特征在于,包括如下步骤:
7.步骤s1:根据公开的通用目标检测数据集和复杂背景下的目标检测数据集,构建源域训练集、目标域训练集和测试集;
8.步骤s2:构建基于域自适应机制的foregroundnet-da网络模型;
9.步骤s3:在所构建的源域训练集和目标域训练集上对所构建的foregroundnet-da模型进行域自适应阶段的监督预训练;
10.步骤s4:加载域自适应训练阶段得到的部分模型参数权重并对其进行固化,在所构建的目标域训练集上对foregroundnet-da模型进行精调阶段的训练,得到收敛到最优性能的foregroundnet-da模型;
11.步骤s5:在所构建的测试集上评估收敛的foregroundnet-da模型的检测性能。
12.进一步地,所述步骤s1具体包括:
13.步骤s101:获取公开的通用目标检测数据集和复杂背景目标检测数据集,通用的目标检测数据集为coco 2017数据集,复杂背景目标检测数据集包含数据集cod10k、camo和chameleon;
14.步骤s102:所构建的源域训练集包含118287对图像标签对,所构建的目标域训练集包含4040对图像标签对,所构建的验证集包含101对图像标签对,所构建的测试集包含2352对图像标签对。
15.进一步地,所述步骤s2中构建的网络模型foregroundnet模型主要包含:特征提取模块、前景背景提议模块、特征生成模块、基于卷积注意力的特征融合解码模块和域分类模块。
16.进一步地,所述步骤s3具体包括:
17.步骤s301:从源域训练集和目标域训练集中随机抽取训练图片进行预处理,首先利用插值算法将输入图像和对应的真实标签的大小调整为h
×
w,随后进行图像数据增强处理,最后将图像进行归一化处理后输入foregroundnet-da网络模型进行域自适应阶段的监督预训练;
18.步骤s302:foregroundnet-da模型通过特征提取模块提取出多尺度抽象特征,将图片特征输入前景背景提议模块和域分类模块,输出n层前景背景提议结果和n层域分类结果,分别用和来表示,其中,前景背景提议结果中分别包含前景目标提议结果和背景目标提议结果,即
19.步骤s303:基于提议结果和域分类结果,计算模型在域自适应阶段的损失函数l
da
,其计算方法如式(1)所示。
[0020][0021]
其中,表示第k层前景背景提议结果对应的损失,表示第k层域分类结果对应的损失函数。它们的计算表达式分别如式(2)和式(3)所示。
[0022][0023]
[0024]
上式中,gtd表示输入数据的域分类真实标签,和分别表示第k层前景目标提议结果和背景目标提议结果对应的经过结构信息加权的交叉熵损失,和分别表示第k层前景目标提议结果和背景目标提议结果对应的经过结构信息加权的交并比损失。以前景目标检测结果为例,交叉熵损失和交并比损失的计算方法分别如式(4)和式(5)所示。
[0025][0026][0027]
其中,h表示图像高度,w表示图像宽度,gt
fg
(x,y)和分别表示前景目标真实标签和第k前景目标提议结果中位置坐标为(x,y)的值,γ是和结构权重相关的参数,w(x,y)表示坐标为(x,y)的位置对应的结构权重,其计算方法如式(6)所示。
[0028][0029]
其中,a
xy
表示坐标为(x,y)的像素周围像素的集合;
[0030]
步骤s304:基于域自适应阶段模型的损失函数l
da
,采用随机梯度下降算法对foregroundnet-da模型的网络参数进行优化更新。
[0031]
进一步地,所述步骤s4具体包括:
[0032]
步骤s401:加载foregroundnet-da模型中经过域自适应阶段的监督预训练后的特征提取模块和前景背景提议模块的网络参数,并将特征提取相关的网络参数权重进行固化,使其在精调阶段的训练过程中不进行网络参数的迭代;
[0033]
步骤s402:仅从目标域训练集中随机抽取训练数据进行预处理,利用插值算法将输入图像和对应的真实标签的大小调整为h
×
w,随后进行图像数据增强处理,最后将图像进行归一化处理后输入foregroundnet-da网络模型精调阶段的监督训练;
[0034]
步骤s403:foregroundnet-da模型通过特征提取模块提取出多尺度抽象特征,图片特征依次通过前景背景提议模块、特征生层模块和基于卷积注意力的特征融合解码模块,输出n层前景背景提议结果和m层前景目标检测结果,分别用和来表示,其中前景背景提议结果中包含前景目标检测结果和背景目标检测结果
[0035]
步骤s404:基于n层提议结果和m层前景目标检测结果,计算模型在精调阶段的损失函数l
ft
,其计算方法如下式:
[0036][0037]
步骤s405:基于精调阶段的损失函数l
ft
,采用随机梯度下降算法对foregroundnet-da模型的网络参数进行迭代更新。
[0038]
步骤s406:模型在精调阶段的训练过程逐渐收敛到最优性能,随后将模型的网络参数固化,输入待检测图片进行前向计算,在输出的n+m层检测结果中,选取尺度最大的前景目标检测结果作为模型的最终检测结果predm。
[0039]
进一步地,所述步骤s5具体包括:
[0040]
步骤s501:逐一读取测试集中的待检测图片,利用插值法将其大小调整为h
×
w,随后将图片进行归一化,输入收敛到最优性能的foregroundnet-da模型中进行前向计算,输出对应的检测结果predm;
[0041]
步骤s502:根据模型的前景目标检测结果predm和前景目标真实标签gt
fg
,计算出模型在测试集上的客观评价指标,包含:sm指标,em指标、wfm指标和mae指标。
[0042]
最后,可以通过收敛的foregroundnet-da网络模型进行复杂背景下的目标检测,输入待检测图像进行前向计算,输出预测的前景目标分割图作为检测结果。
[0043]
本发明的有益效果是:本发明构建的foregroundnet-da模型能通过域自适应机制将模型在大规模通用目标检测数据集上学习到的知识迁移到复杂背景目标检测数据集上,从而提高模型在测试集上的检测性能。相比于当前所有的复杂背景下的目标检测模型,本发明所提出基于域自适应机制的foregroundnet-da网络模型能够在数据集规模有限的情况下,实现更加精确的检测结果,提高模型的实际应用价值,具体体现在:模型在测试集上的检测指标整体优于当前领域所有的先进模型,在测试集上的各项检测性能评价指标均有显著提升。
附图说明
[0044]
图1为实施例1中基于域自适应机制的复杂背景下的目标检测方法的流程图。
[0045]
图2为实施例1中foregroundnet-da网络模型结构图。
[0046]
图3为实施例1中域分类器的内部结构图。
[0047]
图4为实施例1中foregroundnet-da模型在域自适应阶段训练的流程图。
[0048]
图5为实施例1中foregroundnet-da模型在精调阶段训练的流程图。
[0049]
图6为实施例1中本发明方法与几种当前最先进方法的检测性能在评估指标上的对比。
[0050]
图7为实施例1中本发明方法与几种当前最先进方法的检测性能在视觉效果上的对比。
具体实施方式
[0051]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052]
实施例1
[0053]
参见图1-图7,本实施提供一种基于域自适应机制的复杂背景下目标检测方法。
[0054]
具体的说,参见图1,本方法具体包括:
[0055]
步骤s1:根据公开的通用目标检测数据集coco2017数据集和复杂背景下的目标检测数据集,包括:cod10k数据集,camo数据集和chameleon数据集,构建源域训练集、目标域训练集和测试集;
[0056]
更具体的说,所构建的源域训练集包含coco2017数据集中的118287对图片标签对;所构建的目标域训练集包含cod10k中的3040对图片标签对和camo数据集中的1000对图像标签对,共4040条数据;所构建的测试集中包含cod10k中的2026对图片标签对、camo数据集中的250条图片标签对和chameleon数据集中的76对图片标签对,共2352条数据。
[0057]
步骤s2:构建基于域自适应机制的foregroundnet-da网络模型;
[0058]
更具体的说,所构建的foregroundnet-da模型的整体结构如图2所示,该网络模型主要由特征提取器、前景背景提议模块、特征生成模块、基于卷积注意力的特征融合解码模块和域分类模块组成。其中,特征提取器采用res2net-50模型,特征提取器基于输入图片提取出4层不同尺度的特征输入到前景背景提议模块。前景背景提议模块主要包含感受野增强模块和提议模块,负责基于4层特征进行前景背景目标的预测,输出提议结果特征生成模块根据提议结果生成前景特征、背景特征和边缘特征,输入到基于卷积注意力的特征融合解码模块进行特征融合解码,并将每层解码特征经过卷积操作进行前景目标的检测,共输出5层前景目标检测结果域分类模块负责基于前景背景提议模块输出的感受野增强特征判断图片属于源域还是目标域,输出4层域分类结果
[0059]
更具体地说,域分类模块由梯度翻转层和域分类器组成,在域自适应阶段的训练过程中辅助实现域自适应机制。梯度翻转层在数据前向计算时,输入数据和输出数据保持一致,但在梯度的反向传播时,域分类模块的梯度发生反转,输出的梯度符号与输入相反。而域分类器则负责基于输入特征对图像所述域进行判断,其结构如图3所示,输入特征首先经过多层卷积,随后将特征进行展平,经过全连接层输出域分类结果。
[0060]
步骤s3:在所构建的源域训练集和目标域训练集上对foregroundnet-da模型进行域自适应阶段的监督训练;
[0061]
更具体的说,foregroundnet-da模型在域自适应阶段的训练流程如图4所示,包括:
[0062]
步骤s301:从源域训练集和目标域训练集中随机抽取训练图片进行预处理,首先利用插值算法将输入图像和对应的真实标签的大小调整为384
×
384,随后进行随机调整图像属性、随机放射变换和随机擦除图像等图像数据增强处理,最后将数据增强后的图像进行归一化处理,输入foregroundnet-da网络模型进行域自适应阶段的监督训练;
[0063]
步骤s302:foregroundnet-da模型通过特征提取模块提取出多尺度抽象特征,将图片特征输入前景背景提议模块和域分类模块,分别基于输入特征进行前景目标和背景目标的提议和域类别的预测,输出4层前景背景提议结果和域分类结果,分别用和来表示。其中,前景背景提议结果中分别包含前景
目标提议结果和背景目标提议结果,即
[0064]
步骤s303:基于提议结果和域分类结果,计算模型在域自适应阶段的损失函数l
da
,其计算方法如式(8)所示。
[0065][0066]
其中,表示第k层前景背景提议结果对应的损失,表示第k层域分类结果对应的损失函数。它们的计算表达式分别如式(9)和式(10)所示。
[0067][0068][0069]
上式中,gtd表示输入数据的域分类真实标签,和分别表示第k层前景目标提议结果和背景目标提议结果对应的经过结构信息加权的交叉熵损失,和分别表示第k层前景目标提议结果和背景目标提议结果对应的经过结构信息加权的交并比损失。以前景目标检测结果为例,交叉熵损失和交并比损失的计算方法如式(11)和式(12)所示。
[0070][0071][0072]
其中,h表示图像高度,w表示图像宽度,gt
fg
(x,y)和分别表示前景目标真实标签和第k前景目标提议结果中位置坐标为(x,y)的值,γ是和结构权重相关的参数,w(x,y)表示坐标为(x,y)的位置对应的结构权重,其表达式如下:
[0073][0074]
其中,a
xy
表示坐标为(x,y)的像素周围像素的集合;
[0075]
步骤s304:基于域自适应阶段模型的损失函数l
da
,采用随机梯度下降优化算法对foregroundnet-da模型的网络参数进行迭代更新。
[0076]
步骤s4:加载域自适应训练阶段得到的部分模型参数权重并对其进行固化,在所构建的目标域训练集上对foregroundnet-da模型进行精调阶段的训练,得到收敛到最优性能的foregroundnet-da模型;
[0077]
更具体的说,foregroundnet-da模型的训练流程如图5所示,包括:
[0078]
步骤s401:加载foregroundnet-da模型经过域自适应阶段的监督训练后的特征提取模块和前景背景提议模块的网络参数,并将特征提取相关的网络参数进行固化,使其在精调阶段的训练过程中不进行网络参数的迭代;
[0079]
步骤s402:仅从目标域训练集中随机抽取训练数据进行预处理,利用插值算法将输入图像和对应的真实标签的大小调整为384
×
384,随后进行图像数据增强处理,最后将图像进行归一化处理后输入foregroundnet-da网络模型精调阶段的监督训练;
[0080]
步骤s403:foregroundnet-da模型通过特征提取模块提取出多尺度抽象特征,将图片特征输入前景背景提议模块进行前景目标和背景目标的提议,输出4层前景背景提议结果,用来表示,特征生成模块根据第k层的前景目标提议结果和背景目标提议结果计算出边缘易混淆区域,并生成前景特征、背景特征和边缘特征,基于卷积注意力的特征融合解码模块对这些特征进行融合解码,并输出5层前景目标检测结果,用来表示;
[0081]
步骤s404:基于4层提议结果和5层前景目标检测结果,计算模型在精调阶段的损失函数l
ft
,其计算方法如下式:
[0082][0083]
步骤s405:基于精调阶段的损失函数l
ft
,采用随机梯度下降的方法对foregroundnet-da模型的网络参数进行迭代更新。
[0084]
步骤s406:模型在逐渐收敛到最优性能后,将模型的网络参数固化,输入待检测图片进行前向计算,在输出的9层检测结果中,选取尺度最大的前景目标检测结果作为模型的最终检测结果predm。
[0085]
步骤s5:在所构建的测试集进行检测,评估收敛的foregroundnet-da模型的检测性能。
[0086]
更具体的说,在测试模型的检测性能时,需将测试集中每一张待检测图片进行预处理,将大小调整为384
×
384,再进行归一化后输入收敛的foregroundnet-da模型进行前向计算,输出检测结果predm。将检测结果通过插值算法重新调整为原图大小,与真实标签进行对比,计算出该图片对应的sm指标、em指标、wfm指标和mae指标。将同一数据集中所有图片的指标取平均,作为foregroundnet-da模型在该数据集上检测性能的评估指标。
[0087]
需要说明的是,平均绝对误差mae指标越小,结构指标sm、增强-对齐指标em和加权的f指标wfm越大,表示输出的检测结果越精确。此外,衡量目标检测效果的指标不止上述4种评价指标,只要能够表现出所预测的前景目标分割图与真实标签的相似程度或者区分程度即可。
[0088]
图6展示了本发明所提出方法与复杂背景目标检测领域先进模型在测试集上的检测性能评估指标的对比,从图6所展示的数值结果来看,本发明方法在cod10k数据集和chameleon数据集上所有的评估指标超过了目前所有的先进模型。在camo数据集上,本发明方法在em指标、wfm指标和mae指标上均达到最优值,em指标仅次于sinet-v2模型。因此,本发明方法在测试集上的整体检测性能超过此前本领域所有的先进模型,达到了最优的检测
性能。
[0089]
图7为本发明所提出方法与复杂背景目标检测领域先进模型在图像效果上的检测性能对比,从图7的第1行和第4行图片对比可知,本发明方法能够有效克服复杂背景的干扰,将前景目标准确而完整地检测出来。通过对比图7的第2行和第3行图片对比可知,本发明方法能够在前景目标颜色和纹理与背景相近的情况下,将前景目标所在的区域精确地与背景区分开。通过对比图7的第5行和第6行图片可知,本发明方法相比其他方法,能在精确地区分遮挡物和前景目标,在有遮挡的情况下将目标的边缘进行精确检测。通过对比图7的第7行图片可知,办发明方法能对前景目标进行精细的检测,完整保留前景目标所在区域的细节。通过对比图7的第8行图片可知,本发明方法能够对小目标进行精确的检测。综上,本发明方法在复杂背景带来的各种干扰下对前景目标进行精确检测,在数据集规模有限的情况下显著提高了检测性能。
[0090]
本发明未详述之处,均为本领域技术人员的公知技术。
[0091]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1