基于金字塔池化Transformer主干网络的目标跟踪方法与系统

文档序号:35372929发布日期:2023-09-08 08:53阅读:29来源:国知局
基于金字塔池化Transformer主干网络的目标跟踪方法与系统

本发明涉及计算机视觉与图像处理,特别涉及一种基于金字塔池化transformer主干的目标跟踪方法与系统。


背景技术:

1、在计算机视觉领域中,目标跟踪一直都是一个重要研究课题。目标跟踪通过在连续的视频图像序列中估计跟踪目标的位置、形状或所占区域,确定目标的运动速度、方向及轨迹等运动信息,实现对运动目标行为的分析和理解,以便完成更高级的任务。

2、目标跟踪无论在军事国防还是民用安全方面都具有重要的研究意义和广阔的应用前景,主要包括自动驾驶、视频监控、人机交互、医学诊断、机器人应用等领域。经过几十年的发展,目标跟踪技术已取得了较好的跟踪效果和实时性。

3、近年来,卷积神经网络根据强大的特征建模能力,在目标跟踪领域得到广泛运用,如vgg、resnet网络。但是,卷积神经网络致力于探究特征之间的局部关系,无法对全局依赖性进行有效建模。来自自然语言处理的transformer架构,利用强大的注意力机制可以对序列数据进行全局建模,从而被广泛应用的目标跟踪领域中。transformer可以对序列图像块进行全局依赖性建模,但伴随而来的是超高的计算复杂度和空间利用率,这个缺点使得transformer框架不能满足实时性的要求。基于此,有必要研究出一种既可以全局建模又高效实行的目标跟踪算法。


技术实现思路

1、本发明提供了一种基于金字塔池化transformer主干网络的目标跟踪方法,其中,所述方法包括如下步骤:

2、步骤1、在孪生网络框架下,基于金字塔池化transformer模型构建基于金字塔池化transformer特征提取主干网络,基于金字塔池化transformer特征提取主干网络包括有两个提取支路;基于标准transformer的编码器和解码器构成模型预测器,模型预测器和基于金字塔池化transformer的特征提取主干网络构成目标跟踪模型;

3、步骤2、获取跟踪数据集,从跟踪数据集中采样获取训练模板和测试模板,测试模板中包含视频序列中要跟踪的下一帧图像,训练模板中包含视频序列中标有真实值的第一帧以及最近跟踪的帧;

4、采用上一阶段输出作为下一阶段输入的方式,以训练模板和测试模板作为初始输入,利用两个提取支路分别多次提取测试模板以及训练模板的特征,以获得对应的全局上下文信息,将两个提取支路的最终输出分别进行信息编码,以添加目标位置和尺度信息;

5、步骤3、将两个信息编码后的最终输出进行拼接操作,再利用编码器模块进行充分融合,将融合后的特征采用解码器模块预测出一个目标模型,将融合后的特征进行分离,得到便于后续目标分类和边界框回归的加强后的测试模板特征;

6、步骤4、计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小;

7、步骤5、以跟踪数据集作为训练数据重复步骤3至步骤4对目标跟踪模型进行端到端的离线训练;

8、步骤6、利用训练好的目标跟踪模型对视频序列进行目标跟踪。

9、本发明依据金字塔池化transformer模型充分提取输入图像块的全局依赖关系以及上下文信息,并且缩减输入特征的序列长度,从而有效减低多头自注意力机制的计算复杂度,最终实现更加高效且准确的目标跟踪。

10、本发明还提供一种基于金字塔池化transformer主干网络的目标跟踪系统,所述系统包括:

11、网络构建模块,用于在孪生网络框架下,基于金字塔池化transformer模型构建基于金字塔池化transformer特征提取主干网络,基于金字塔池化transformer特征提取主干网络包括有两个提取支路;基于标准transformer的编码器和解码器构成模型预测器,模型预测器和基于金字塔池化transformer的特征提取主干网络构成目标跟踪模型;

12、特征提取模块,用于获取跟踪数据集,并从跟踪数据集中采样获取训练模板和测试模板,测试模板中包含视频序列中要跟踪的下一帧图像,训练模板中包含视频序列中标有真实值的第一帧以及最近跟踪的帧;

13、采用上一阶段输出作为下一阶段输入的方式,以训练模板和测试模板作为初始输入,利用两个提取支路分别多次提取测试模板以及训练模板的特征,以获得对应的全局上下文信息,将两个提取支路的最终输出分别进行信息编码,以添加目标位置和尺度信息;

14、其中,金字塔池化可以充分探索上下文信息且可以减低特征的序列长度,经过金字塔池化后的特征进行自注意力计算,从而加强特征之间的全局依赖性。最后对测试模板和训练模板特征添加目标的位置和尺度信息,从而实现尺度自适应;

15、模型预测模块,用于将两个信息编码后的最终输出进行拼接操作,再利用编码器模块进行充分融合,将融合后的特征采用解码器模块预测出一个目标模型,将融合后的特征进行分离,得到便于后续目标分类和边界框回归的加强后的测试模板特征;

16、定位回归模块,用于计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小;

17、离线训练模块,用于以跟踪数据集作为训练数据重复目标跟踪模型进行端到端的离线训练;

18、其中,利用大规模目标跟踪数据集对所述整个目标跟踪网络进行端到端的离线训练,得出一个可以适用于各种跟踪挑战的网络模型,进而加强跟踪网络的泛化及实用能力;

19、目标跟踪模块,用于利用训练好的目标跟踪模型对视频序列进行目标跟踪。

20、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。



技术特征:

1.一种基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,在所述步骤2中,利用两个提取支路分别多次提取测试模板以及训练模板的特征方法具体包括如下步骤:

3.根据权利要求2所述的基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,每个阶段的特征提取过程存在如下关系式:

4.根据权利要求3所述的基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,表示正则化的特征映射存在如下关系式:

5.根据权利要求2所述的基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,所述金字塔池化的运算方法具体包括如下步骤:

6.根据权利要求2所述的基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,所述自注意力的计算方法具体如下:采用线性投影方式,利用所述一维序列特征生成,利用所述池化后的序列特征生成和,,,的生成表达式为:

7.根据权利要求2所述的基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,在利用前馈神经网络进行前馈计算时,采用倒置瓶颈块进行前馈计算,前馈计算存在如下关系式:

8.根据权利要求1所述的基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,在步骤2中,将金字塔池化后的测试模板和训练模板特征进行信息编码的方法具体包括如下步骤:

9.根据权利要求1所述的基于金字塔池化transformer主干网络的目标跟踪方法,其特征在于,在所述步骤4中,计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小的方法具体包括如下步骤:

10.一种基于金字塔池化transformer主干网络的目标跟踪系统,其特征在于,所述系统包括:


技术总结
本发明提出一种基于金字塔池化Transformer主干网络的目标跟踪方法与系统,该方法包括:在孪生网络框架下,构建基于金字塔池化Transformer特征提取主干网络,基于标准Transformer的编码器和解码器模型,构建得到目标模型预测器;模型预测器和该特征提取主干网络构成目标跟踪模型,通过特征提取主干网络对训练模板以及测试模板进行特征提取;通过模型预测器,利用提取出的训练模板特征以及测试模板特征进行目标模型预测;通过目标模型对跟踪对象进行分类和边界框回归从而实现目标跟踪。本发明可有效减低多头自注意力机制的计算复杂度,最终实现更加高效且准确的目标跟踪。

技术研发人员:王军,杨帅,王员云
受保护的技术使用者:南昌工程学院
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1