图像目标检测方法与装置

文档序号:32165823发布日期:2022-11-12 04:30阅读:56来源:国知局
图像目标检测方法与装置

1.本发明属于深度学习和计算机视觉技术领域,更具体地,涉及一种图像目标检测方法与装置。


背景技术:

2.目标检测是计算机视觉领域最基础且最重要的任务之一,其通常利用深度神经网络对视觉数据进行特征提取和建模,并预测目标物体的对应位置和类别。当前的深度学习方法试图解决作为分类问题或回归问题或综合两者的目标检测任务。
3.视觉图像具有较高的复杂性和多样性,目标检测通常需要捕捉到多种尺度的物体信息。为了更好的建模各个尺度的目标特征,一种特征金字塔网络(fpn,feature pyramid networks)被广泛运用于目标检测的框架中。fpn将骨干网络(backbone networks)提取到的位于各个分辨率的特征作为输入,并进行融合。低分辨率的特征具有更强的语义但是缺乏细节,而高分辨率的特征细节充分但是语义较弱。fpn将低分辨率特征进行插值,并叠加到高分辨率特征以进行融合。这种做法从多个层级来丰富语义信息,并使得视觉表征对多尺度的物体更加敏感。
4.transformer网络最早被提出并用于自然语言处理(nlp,natural language processing)的各个场景和任务,并取得了极大的成功。近年来,transformer也开始被广泛用于图像分类、语义分割、目标检测等各个视觉任务中,并取得了非常强劲的性能,一定程度上超越了以往在视觉任务上运用更多的卷积神经网络(cnn,convolutional neural networks)。其中,自注意力(self-attention)机制是transformer网络的核心组件,其通过度量特征与特征之间的响应并根据响应值重组特征,从而自动化建立特征间的关系。现有基于传统fpn技术的检测方法通常直接通过对特征进行插值并相加来实现跨尺度特征的融合,其对具有复杂尺度物体的建模能力仍然有限。


技术实现要素:

5.针对现有技术的以上缺陷或改进需求,本发明提供一种图像目标检测方法与装置,通过引入具有跨尺度注意力机制的fpn,来建模对尺度更鲁棒且表达能力更强的物体特征,提升最终目标检测的性能。
6.为实现上述目的,按照本发明的一个方面,提供了一种图像目标检测方法,包括如下步骤:
7.步骤一:使用transformer网络作为骨干网络从图像提取多分辨率特征图;
8.步骤二:将步骤一中的多分辨率特征图输入到跨尺度注意力的特征金字塔网络中;
9.步骤三:在特征金字塔网络中,从步骤二中输入的小分辨率特征开始,利用跨尺度注意力模块,逐步往大分辨率进行特征的融合及重组,特征从小分辨率到大分辨率被累积融合;
10.步骤四:通过步骤三融合后的特征将被进一步送入后续处理及预测模块,进行检测框的回归和类别的预测,基于目标数据集训练上述跨尺度注意力的特征金字塔网络直至收敛;
11.步骤五:利用训练得到的跨尺度注意力的特征金字塔网络对待检测图片进行检测框的回归和类别的预测。
12.本发明的一个实施例中,所述步骤三中跨尺度注意力模块通过以下步骤实现:
13.(3.1)第n个层次的特征和第(n+1)个层次的特征先被转换为1维的词元序列,即和其中hn,wn分别为特征fn在高度和宽度两个维度的空间尺寸,c为特征的通道维度大小;h
n+1
,w
n+1
分别为特征f
n+1
在高度和宽度两个维度的空间尺寸;
14.(3.2)将(3.1)中得到的两个特征序列映射到查询query,键key和值value三个空间,得到三个空间的特征矩阵q,k,v;
15.(3.3)对(3.2)中得到的q,k,v三个矩阵进行注意力机制的运算。
16.本发明的一个实施例中,query矩阵通过对第n个层次的特征fn进行线性映射得到,即:
17.q=fn×
w,
18.其中w为线性映射的矩阵参数,为映射后的query矩阵。
19.本发明的一个实施例中,key矩阵和value矩阵均通过直接级联fn和f
n+1
两组特征得到,即
20.k=v=[fn,f
n+1
],
[0021]
其中[
·
]表示级联操作,k,表示得到的key矩阵和value矩阵。
[0022]
本发明的一个实施例中,所述步骤(3.3)将query矩阵和key矩阵相乘得到注意力响应图,响应图被进一步作用于value矩阵以得到新的token序列。
[0023]
本发明的一个实施例中,在所述步骤(3.3)中,第n个层次的token序列fn最终将以残差连接的形式被再次加到新token序列上,整个过程被表示为f
attn
=softmax(qk
t
)v+fn,其中,f
attn
为得到的输出特征矩阵,k
t
为key矩阵k的转置,softmax为归一化指数函数。
[0024]
本发明的一个实施例中,跨尺度注意力模块在局部的各个特征窗口内进行运算。
[0025]
本发明的一个实施例中,窗口尺寸根据具体需求制定。
[0026]
本发明的一个实施例中,在所述步骤一中transformer网络为swin-transformer。
[0027]
按照本发明的另一方面,还提供了一种图像目标检测装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成上述的图像目标检测方法。
[0028]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
[0029]
本发明针对目前检测方法对复杂尺度物体建模能力有限的问题,提供了一种基于跨尺度自注意力特征金字塔的新型目标检测方法,其能够以较小的计算代价显著提升多尺
度物体的建模能力,并提升最终目标检测的性能。
附图说明
[0030]
图1是本发明实施例中图像目标检测方法的流程示意图;
[0031]
图2是本发明实施例中基于跨尺度注意力机制的特征金字塔网络的结构示意图。
具体实施方式
[0032]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0033]
本发明涉及深度学习和计算机视觉领域,尤其涉及基于跨尺度(cross-scale)特征关系建模、视觉特征注意力机制(attention mechanism)和特征金字塔网络(fpn,feature pyramid networks)的通用目标检测算法。
[0034]
本发明的目的是通过以下技术方案来实现的:跨分辨率的特征通过自注意力机制进行建模并重组,图1为本发明实施例中一种基于transformer骨干网络和跨尺度注意力特征金字塔网络的目标检测方法框图,如图1所示,本发明提供了一种图像目标检测方法,包括以下步骤:
[0035]
步骤一:使用transformer网络(比如swin-transformer)作为骨干网络从图像提取多分辨率特征图。
[0036]
步骤二:将步骤一中的多分辨率特征图输入到跨尺度注意力的特征金字塔网络中。
[0037]
步骤三:在特征金字塔网络中,从步骤二中输入的小分辨率特征开始,利用提出的跨尺度注意力模块,逐步往大分辨率进行特征的融合及重组。特征从小分辨率到大分辨率被累积融合。
[0038]
步骤四:通过步骤三融合后的特征将被进一步送入后续处理及预测模块,进行检测框的回归和类别的预测。基于目标数据集训练上述网络模块直至收敛。
[0039]
进一步地,如图2所示,所述的步骤三中跨尺度注意力模块(scale-attention block)将通过以下步骤实现:
[0040]
(3.1)第n个层次的特征和第(n+1)个层次的特征先被转换为1维的tokens(词元)序列,即和其中hn,wn分别为特征fn在高度和宽度两个维度的空间尺寸,c为特征的通道维度大小;h
n+1
,w
n+1
分别为特征f
n+1
在高度和宽度两个维度的空间尺寸。
[0041]
(3.2)将(3.1)中得到的两个特征序列映射到query(查询),key(键)和value(值)三个空间。具体地,三个空间的特征矩阵由如下方式得到:query矩阵通过对第n个层次的特征fn进行线性映射(linear projection)得到,即
[0042]
q=fn×
w,
[0043]
其中w为线性映射的矩阵参数,为映射后的query矩阵;key矩阵和
value矩阵均通过直接级联fn和f
n+1
两组特征得到,即
[0044]
k=v=[fn,f
n+1
],
[0045]
其中[
·
]表示级联操作,k,表示得到的key矩阵和value矩阵。
[0046]
(3.3)对(3.2)中得到的q,k,v三个矩阵进行注意力机制的运算。具体地,将query矩阵和key矩阵相乘得到注意力响应图(attention map),响应图被进一步作用于value矩阵以得到新的token序列。特别地,第n个层次的token序列fn最终将以残差连接的形式被再次加到新token序列上。
[0047]
整个过程可被表示为
[0048]fattn
=softmax(qk
t
)v+fn,
[0049]
其中,f
attn
为得到的输出特征矩阵,k
t
为key矩阵k的转置,softmax为归一化指数函数计算如下:
[0050]
其中j=1,

,k
[0051]
特别地,为了节省计算代价,以上描述的跨尺度注意力模块通常在局部的各个特征窗口内进行运算,窗口尺寸可根据具体需求制定。
[0052]
进一步地,本发明还提供了一种图像目标检测装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成上述的图像目标检测方法。
[0053]
在相关电力巡检通道环境图像数据上进行测试,结果如下表1所示:
[0054]
表1测试结果对比
[0055][0056][0057]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1