引入早期检测器的Transformer目标检测方法与装置

文档序号:33560212发布日期:2023-03-22 13:57阅读:36来源:国知局
引入早期检测器的Transformer目标检测方法与装置
引入早期检测器的transformer目标检测方法与装置
技术领域
1.本发明属于深度学习与计算机视觉技术领域,更具体地,涉及一种引入早期检测器的transformer目标检测方法与装置。


背景技术:

2.目标检测是计算机视觉的基本任务之一,它需要对图片上的目标进行定位和识别类别。而为了达到这一目标,常常需要复杂的设计,如锚框和后处理等等。检测transformer的出现则解决了这一问题,通过引入目标标识符来表示物体,以及在样本分配中引入二分图匹配丢掉了锚框和后处理等人工设计。检测transformer十分简洁优雅,也有着不错的性能。然而它的速度、精度以及参数量和业界领先的基于卷积神经网络的传统检测模型相比,仍有着不小的差距。


技术实现要素:

3.本发明针对传统检测transformer方法缺乏良好的初始化和特征的问题,提出了一种基于检测transformer框架的目标检测方案,以使检测transformer的速度、精度以及参数量和业界领先的基于卷积神经网络的传统检测模型接近。
4.本发明基于早期检测器的检测transformer框架,可以为检测transformer解码器提供语义丰富,空间对齐的深度特征图和与输入关联的目标标识符。该框架进一步整合业界优越的视觉transformer作为主干网络,在各个模型尺度上表现出领先的水准。
5.为实现上述目的,按照本发明的一个方面,提供了一种引入早期检测器的transformer目标检测方法,包括如下步骤:
6.步骤一:将图像输入到视觉transformer,提取出语义丰富的特征图;
7.步骤二:在该特征图上使用早期检测器,输出粗略的估计目标;
8.步骤三:取出置信度前n个估计目标,将该目标的检测框的四个坐标作为检测transformer中解码器的参考点,并将预测出这些选定的估计目标的特征图上的特征点选定作为检测transformer中解码器的目标标识符;所述n为预设值;
9.步骤四:检测transformer的解码器利用步骤三提供的参考点和目标标识符,利用交叉注意力机制与步骤一提取出的特征图进行交互,从而不断精炼目标标识符和参考点的坐标,最终输出准确的目标检测框和目标类别。
10.本发明的一个实施例中,所述transformer检测框架包括早期检测器和检测transformer,其中早期检测器由视觉transformer和一个检测头组成;检测transformer则是堆叠两层轻量的解码器。
11.本发明的一个实施例中,所述方法还包括:采用局部二分图匹配来稳定样本分配,以及注意力图到特征图的辅助损失,来进一步优化特征图的表示以优化早期检测器。
12.本发明的一个实施例中,在损失矩阵中添加常量的损失,针对预测样本和实际目标的损失矩阵去分配正负样本,从而使得实际目标只会分配正样本到自己中心区域附近的
预测样本中去。
13.本发明的一个实施例中,在损失矩阵中添加常量的损失,具体为:
14.根据早期检测器的输出预估目标作为预测样本,将其与实际目标的距离损失和类别损失组合得到损失矩阵;
15.根据实际目标的中心区域范围,对范围之外的区域预测的样本添加很大的常量损失到损失矩阵,所述常量损失大于预设阈值;
16.对上一步得到的损失矩阵进行二分图匹配来求解得到实际目标对应的正样本。
17.本发明的一个实施例中,使用检测transformer中解码器的交叉注意力图里的丰富的实例视觉信号去监督视觉transformer提取出来的特征。
18.本发明的一个实施例中,使用检测transformer中解码器的交叉注意力图里的丰富的实例视觉信号去监督视觉transformer提取出来的特征,具体包括:
19.针对每层检测transformer解码器,聚合所有的目标标识符与特征图的交叉注意力图;
20.将每层获得交叉注意力图叠加起来,获得最终的交叉注意力图;
21.在早期检测器中添加线性层来预测上一步得到的交叉注意力图,在预测的掩码和二值化的交叉注意力图之间,通过损失函数计算损失来辅助模型的训练。
22.本发明的一个实施例中,所述损失函数为二元交叉熵bce损失函数。
23.本发明的一个实施例中,所述n取值为300。
24.按照本发明的另一方面,还提供了一种引入早期检测器的transformer目标检测装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成上述的引入早期检测器的transformer目标检测方法。
25.总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:本发明针对传统检测transformer方法缺乏良好的初始化和特征的问题,提出了一种基于检测transformer框架的目标检测方案,本发明基于早期检测器的检测transformer框架,可以为检测transformer解码器提供语义丰富,空间对齐的深度特征图和与输入关联的目标标识符。该框架进一步整合业界优越的视觉transformer作为主干网络,在各个模型尺度上表现出领先的水准。
附图说明
26.图1是本发明提供的一种引入早期检测器的transformer目标检测方法的流程示意图;
27.图2是本发明提供的一种基于全transformer检测框架的结构示意图;
28.图3是本发明提供的检测器与其他检测器的效果对比示意图。
具体实施方式
29.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要
彼此之间未构成冲突就可以相互组合。
30.如图1所示,本发明提供了一种引入早期检测器的transformer目标检测方法,包括:
31.步骤一:将图像输入到视觉transformer,提取出语义丰富的特征图;
32.步骤二:在该特征图上使用早期检测器,输出粗略的估计目标;
33.步骤三:取出置信度前n个估计目标,将该目标的检测框的四个坐标作为检测transformer中解码器的参考点,并将预测出这些选定的估计目标的特征图上的特征点选定作为检测transformer中解码器的目标标识符;所述n为预设值;
34.步骤四:检测transformer的解码器利用步骤三提供的参考点和目标标识符,利用交叉注意力机制与步骤一提取出的特征图进行交互,从而不断精炼目标标识符和参考点的坐标,最终输出准确的目标检测框和目标类别。
35.进一步的,在上述的框架里,本发明提出局部二分图匹配来稳定样本分配和注意力图到特征图的辅助损失来进一步优化特征图的表示,优化早期检测器。
36.在训练中,针对预测样本和实际目标的损失矩阵去分配正负样本,传统方法直接采用二分图匹配,导致实际目标会将对应的正样本分配到实际离自己很远的预测样本,从而损害模型的优化。针对该问题本发明在损失矩阵中添加常量的损失,从而使得实际目标只会分配正样本到自己中心区域附近的预测样本中去。具体的步骤如下:
37.步骤一:根据早期检测器的输出预估目标作为预测样本,将其与实际目标的距离损失和类别损失组合得到损失矩阵;
38.步骤二:根据实际目标的中心区域范围,对范围之外的区域预测的样本添加很大的常量损失到损失矩阵,所述常量损失大于预设阈值;
39.步骤三:对上一步得到的损失矩阵进行二分图匹配来求解得到实际目标对应的正样本。
40.在训练中,视觉transformer的主干网络输出的特征没有考虑到检测transformer中解码器的目标标识符通过交叉注意力机制关注到的特征区域,从而使得视觉transformer输出的特征相应与检测transformer真正关注的特征相应存在不对齐的现象。针对该问题,本发明提出注意力图到特征图的辅助损失。通过使用检测transformer中解码器的交叉注意力图里的丰富的实例视觉信号去监督视觉transformer提取出来的特征。具体的步骤如下:
41.步骤一:针对每层检测transformer解码器,聚合所有的目标标识符与特征图的交叉注意力图;
42.步骤二:将每层获得交叉注意力图叠加起来,获得最终的交叉注意力图
43.步骤三:在早期检测器中添加线性层来预测步骤二得到的交叉注意力图。在预测的掩码和二值化的交叉注意力图之间,通过损失函数计算损失来辅助模型的训练;例如采用二元交叉熵(bce,binary cross entropy)损失函数。
44.如图2所示,是本发明提出的基于全transformer的检测框架,本发明的检测框架主要有两部分组成:早期检测器和检测transformer。其中早期检测器由视觉transformer和一个很小的检测头组成;检测transformer则是堆叠两层轻量的解码器。同时为了进一步提高框架的性能,本发明还在早期检测器的训练中引入了局部二分图匹配进行正负样本分
配和注意力图到特征图辅助损失去进一步精炼早期检测器输出的特征图。其中h,w表示特征图的大小,c表示类别数目,k表示实际目标的个数,n表示本发明引入的目标标识符的个数,在本框架里默认n=300。
45.本发明的基于全transformer的检测框架在速度,精度,参数量上均优于之前的方法达到了业界领先水平。在数据集coco的验证集上,小模型可以以12m的参数量,27.2fps的速度达到43.4map的精度;大模型则是以94m的参数量,10fps的速度达到了50.2map的精度。在各个模型尺度上均保持了相对于之前检测模型的优势。本发明的检测器在速度精度的权衡以及精度和参数量的权衡中达到最优水平。可以以更小的模型,更快的速度,更高的精度运行在设备上。
46.以下结合一具体实施例来说明本发明引入早期检测器的transformer目标检测方法,包括:
47.步骤一:将800x1300的图像输入到视觉transformer swin transformer中去,提取出语义丰富的特征图hxwxc。
[0048][0049]
步骤二:在hxwxc的特征图上利用线性层组成的早期检测器滑动窗口式地输出密集的检测结果,作为目标的粗略估计。
[0050][0051][0052]
步骤三:取出置信度前300的估计目标,将该目标的检测框的四个坐标作为检测transformer中解码器的参考点,并将预测出这些选定的估计目标的特征图上的特征点选定作为检测transformer中解码器的目标标识符。
[0053]
topn_=topn(obj_cls),
[0054][0055][0056]
步骤四:检测transformer的解码器利用步骤三提供的参考点和目标标识符,利用交叉注意力机制与步骤一提取出的特征图进行交互,从而不断精炼目标标识符和参考点的坐标,最终输出准确的目标检测框和目标类别。
[0057][0057][0057][0058]
进一步地,本发明还提供了一种引入早期检测器的transformer目标检测装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成上述的引入早期检测器的transformer目标检测方法。
[0059]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含
在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1