一种基于改进RPN和特征聚合的小样本目标检测方法

文档序号:37278621发布日期:2024-03-12 21:15阅读:16来源:国知局
一种基于改进RPN和特征聚合的小样本目标检测方法

本发明属于图像目标检测领域,涉及小样本条件下的图像识别检测方法。


背景技术:

1、近年来,随着深度卷积网络的不断发展,目标检测技术取得了巨大的进展,涌现了一系列性能优异的检测器。然而,传统的目标检测方法需要大量的注释图像和耗费大量的时间、劳动成本。在低数据量情况下,由于数据的多样性,少量的数据往往很难获取好的性能。如何利用有限的标记样本使模型学到有用的知识成为一项新的具有挑战性任务,小样本目标检测(few-shot object detection,fsod)逐渐成为研究的热点。早期的尝试将小样本分类方法思想引入fsod,并相应调整适应。例如,采用元学习范式,首先在基类上对元检测器进行训练,学习基类的先验知识,然后在新类上进行更新来预测。kang等人(kang b,liu z,wang x,et al.few-shot object detection via feature reweighting[c]//proceedings of the 2019ieee/cvf international conference on computervision.piscataway:ieee,2019:8420-8429)首次将元学习应用到检测中,提出在yolov2中加入元特征学习器与权重模块来解决小样本检测问题;与此对应的另一种是基于微调的fsod方法,通常包括两个步骤:(1)在丰富的基类上对模型进行预训练;(2)然后对模型进行微调以适应新类。wang等人(wang x,huang t,gonzalez j,et al,frustratingly simplefew-shot object detection[c]//proceedings of the 2020international conferenceon machine learning.new york:pmlr,2020:9919-9928)提出在冻结特征提取器的同时,只对检测器的分类和回归分支进行微调,简单的方法取得了具有竞争性的效果。yan等人(yan x,chen z,xu a,et al.meta r-cnn:towards general solver for instance-levellow-shot learning[c]//proceedings of the 2019ieee/cvf internationalconference on computer vision.piscataway:ieee,2019:9577-9586)提出将每个支持示例视为特征空间中的单个点,并将所有特征平均为类原型。尽管取得了一定的进展,但现有的方法在新类上的效果远不如基类上的效果。以前的方法将支持和查询数据作为单个任务,仅考虑同类之间的支持与查询特征之间的聚合,未建立异类之间的关联,忽略了更多的特征信息;此外,之前的方法未对区域候选网络(region proposal network,rpn)进行改进,原始的rpn主要是区分前景和背景,利用基于基类数据训练得到的rpn去生成新类的候选框,但对于有限的新类,新类图像的引入产生与目标物不同的复杂背景,rpn可能会错误的分类及图片的含有较大的背景区域,导致一些高iou值候选框被遗漏。

2、而目前大多数小样本目标检测方法都以faster r-cnn为基础框架,其中的regionproposal network(rpn)通常是通过在基类数据上进行训练以生成新类的候选框。这种方法在处理小样本目标检测时往往缺乏足够的鲁棒性和泛化能力。由于新类数据相对于基类而言较为稀缺,不同目标类别之间的特征差异可能加重模糊性。此外,引入新类图像可能导致与目标物不同的复杂背景,使得rpn可能会误将背景区域误分类为前景,从而遗漏高iou值的候选框。


技术实现思路

1、本发明的目的是,为了解决现在技术存在的上述问题,提出了一种基于改进rpn和特征聚合的小样本目标检测方法(few-shot object detection based on improved rpnand feature aggregation,ifa-fsod),该方法主要由特征提取器、改进的rpn、roi align以及引入的特征聚合模块(feature aggregation)组成。首先,在rpn中加入了一个非线性分类器,通过计算骨干网络提取的特征与新类特征之间的相似度建立相似矩阵,获得高iou的候选区域,提高目标检测的性能;同时,roi align中引入特征聚合模块,通过注意力机制增强特征聚合,聚合来自不同规模roi生成的特征,缓解因尺度差异引起的信息缺失问题;最后,在softmax进行归一化,平衡每个特征信息,得到最终的目标检测结果。

2、为达到上述目的,本发明采用以下技术方案,具体流程如图1所示。

3、本发明所述的一种基于改进rpn和特征聚合的小样本目标检测,具体包括下述步骤:

4、s1、定义任务。在小样本目标检测(fsod)中,将类别集合c分为两部分:带有大量标注数据的基类cbase和每个类别只有k个标注数据的新类cnovel,即c=cbase∪cnovel。其中cbase来自基类数据集dbase,cnovel来新类数据集dnovel,两个类别集合没有交集,即对于基类,我们有大量标注目标图像d={(i,y),i∈i,y∈y},其中i是训练图像,y是图像i对应的真实标签。具体而言,图像i中包含n个边界框,每个边界框由类标签ci和边界框位置boxi组成。对于新类,采用k-shot方法标记样本(例如:k=1,3,5,10),新类c∈cnovel的支持图像定义为代表训练图像,boxi是类标签为c的对象的边界位置。算法的最终目标是通过在不同阶段优化检测器,利用基类数据集和新类数据集对查询集和样本进行检测,其中查询集属于基类和新类的子集。

5、s2、特征提取。给定查询图像使用restnet101提取特征,fq=f(iq)∈rh×w×c,h,w,c分别代表提取特征的维度的高度、宽度和通道数。我们选择restnet-101中的res4块之后的输出作为图像的特征。对于支持图像,裁剪出图像中对应的对象区域,将裁剪后的图像进行调整为相同大小,输入到共享特征骨干网络中提取支持图像的特征将查询图像特征fq以及c∈c的支持图像特征作为输入,生成特定的类的查询特征我们仍然采用了两阶段检测的结构,类似于faster r-cnn,模型ifa-fsod的损失函数如下式所示,总损失由损失和损失组成。如图2所示。

6、

7、其中λ是一个超参数,用于平衡rpn部分和r-cnn部分的损失。

8、s3、改进rpn模块,筛选出高iou的候选框。rpn可以同时初步预测目标的目标检测框和分数,端到端的训练生成高质量的region proposals,同时使rpn与检测网络共用同一个卷积特征。其本质是基于滑窗的无类别物体检测器,输入任意尺度的图像,可输出一系列的矩形候选区域。rpn的结构图如图3所示,原始的rpn方法通常使用一种基于base类数据训练得到的rpn去生成novel类候选框的方式。然而,由于novel类的引入,导致目标物体在base类中会被视为背景区域,这会导致在候选框生成过程中错过一些新类的高iou候选框。为了解决这个问题,本发明对原始的rpn进行改进:对于每个novel类,将其k-shot支持图像的卷积神经网络(convolutional neural networks,cnn)特征值取平均值,得到该类的类别中心:

9、

10、将从图像中提取的特征与训练过程中novel类的类别中心进行比较,通过对比它们的相似度来更准确地匹配候选区域与真实区域,从而筛选出高iou的候选框。如图3所示。

11、进一步地,所述的改进的rpn模块,其实现步骤为:

12、(1)设计一个由3个cnn网络和1个relu网络组成的非线性分类器,采用n-way k-shot模式,通过平均池化层得到与锚点相同大小的特征,具体公式(1)如下:

13、

14、其中fpool∈rc全局类的表示,h,w分别表示特征图的高和宽。

15、(2)利用非线性分类器建立新类中心和锚点特征的相似矩阵,计算它们之间的相似度,增加一个具有相加和相乘的网络来加强特征之间的融合。公式如(2)所示:

16、

17、其中和由一个cnn层和relu层组成,可以显示出两个输入特征之间距离,显示出特征之间的相关性,二者的结合达到更强效果。

18、(3)最后将fq输入到二分类层和回归层预测提案。通过改进的prn,可以提高对新类的提案定位的准确,获取高iou的候选区域。

19、s4、构建基于注意力机制的特征聚合模块,聚合来自不同层级的特征信息。通过rpn获得一系列初步的候选区域(region of interest,roi),对于每个roi,roi align将其分为固定大小的网格单元。利用双线性插值从特征图上的每个网格单元提取相应的特征值,以获取与原始roi大小匹配的特征表示。最理想的情况下是将roi区域分割成7×7网格。对于大规模的训练样本,插值操作的引入使得roi align在特征图上对每个roi进行更精准的特征裁剪,很大程度解决了边界像素信息损失的问题。然而,在只有少量训练数据的小样本检测场景中,由于目标区域包含的特征点极少,使用原始的插值操作会导致固定的单元大小无法准确还原目标区域内的特征,存在严重的信息丢失问题。此外,由于小样本的性质放大了尺度变化,传统模型可能失去对新类别的泛化能力,难以充分适应不同尺度的目标。对此,我们提出了基于注意力机制的特征聚合模块,用于聚合来自不同层级的特征信息,获得更全面的信息和特征表示,我们设计了三种不同的并行池化操作,分别使用4×4、7×7、10×10的网格。小网格有助于获取整体信息,有利于捕捉更多的高层级的特征信息。而大网格主要关注底层级特征,用于获取详细的上下文信息。每个生成的特征都包含不同级别的语义信息,通过引入注意力机制,有效地聚合不同规模roi池化生成的特征,提高模型对不同级别特征的适应能力。如图5所示,注意力模块由两个分支组成,一个分支是平均池化层,另一个分支是一个全连接层和一个sigmoid激活函数,最后通过相乘操作将三个特征聚合。

20、进一步地,所述的基于注意力机制的特征聚合,其实现步骤为:

21、(1)划分网格。将图像数据和由rpn得到感兴趣的候选区域通过处理输入到我们设计的三种不同分辨率的特征网格中。假设x1、x2、x3分别表示4×4,7×7,10×10三种不同分辨率的特征网络。

22、(2)对特征图做并行池化处理。对于x1、x2、x3分别进行平均池化处理。如公式(3)、(4)、(5)所示:

23、p1=avgpool(x1)                                 (3)

24、p2=avgpool(x2)                                 (4)

25、p3=avgpool(x3)                                 (6)

26、其中p1、p2、p3分别是三个不同分辨率的特征网格通过平均池层得到的结果,avgpool表示平均池化操作。

27、(3)全连接层利用权重矩阵对平均池化后的向量进行线性变化,然后通过激活函数进行平衡权重,保证权重的有效性。如公式(6)、(7)、(8)所示:

28、s1=σ(w1x1+b1)                                 (6)

29、s2=σ(w2x2+b2)                                 (7)

30、s3=σ(w3x3+b3)                                 (8)

31、其中s1、s2、s3分别为x1、x2、x3通过全连接层和sigmoid得到的结果,σ表示sigmoid函数,w1、w2、w3和b1、b2、b3分别代表全连接层的权重和偏置。

32、(4)为了更好聚合来自三个不同分辨率网格学习到的特征,对特征加权求和作为最后的聚合特征。最终得到的特征f如公式(9)所示:

33、

34、s5、利用softmax函数对聚合后的特征作最终分类,并获取最终的目标检测框位置。

35、本发明提出一种基于改进rpn和特征聚合的小样本目标检测方法,通过设计一个具有基于度量的非线性分类器的rpn,提高对新类候选框的召回率,从而筛选出高iou候选框;在roi align中引入基于注意力机制的特征聚合模块,聚合来自不同层级的特征信息,获得更全面、重要的信息和特征表示,解决特征信息缺失的问题;最后,在softmax进行归一化,平衡每个特征信息,得到最终的目标检测结果。相较于一些主流的小样本目标检测算法,本发明能够精准地筛选出候选框,解决高iou值候选框遗漏和特征信息捕捉不全的问题。

36、本发明相比现有技术,具有以下贡献:

37、(1)使用faster r-cnn为主干,提出了基于改进rpn和特征聚合的小样本目标检测网络,在小样本目标检测下能取得高效的性能提升。

38、(2)对原始的rpn进行了改进,引入非线性分类器,通过计算骨干网络提取出来的特征和新类特征之间的相似性,提高对新类候选框的召回率,筛选出高iou候选框,从而提高目标检测的检测性能。

39、(3)利用注意力机制增强特征聚合,聚合来自不同层级的特征信息,获得更全面的信息和特征表示,解决信息丢失问题,提升模型对新类的泛化能力和检测性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1