基于级联注意力的单流单阶段网络目标跟踪方法与系统

文档序号：37241805发布日期：2024-03-06 17:10阅读：14来源：国知局

本发明涉及计算机视觉与图像处理，特别涉及一种基于级联注意力的单流单阶段网络目标跟踪方法与系统。

背景技术：

1、在计算机视觉与图像处理领域中，视觉跟踪是计算机视觉中的一项基础研究任务，其重点是仅使用其初始外观作为参考，精确定位每个视频帧中的任意目标。它应用于各个领域，包括视觉定位、自动驾驶系统和智能城市技术。然而，由于现实世界场景中存在许多具有挑战性的因素，如部分遮挡、物体离开视野、背景杂乱、视点变化和比例变化，设计一个稳健的跟踪器仍然是一个重大挑战。

2、目前，跟踪模型通常采用双流双阶段的模型架构。在这种方法中，分别提取来自模板和搜索区域的特征。然而，这种方法有一定的缺点，主要归因于传统注意力机制的高计算复杂度。此外，在提取具有全局上下文的特征时，往往会忽略局部特征信息。最近，单流架构已经成为一种可行的替代方案。这些架构带来了更快的处理和增强的特征融合能力，在跟踪性能方面取得了显著成功。其有效性背后的原因在于模型架构能够在早期阶段在模板和搜索区域之间建立不受阻碍的信息流，特别是从原始图像对。这有助于提取目标特定特征，并防止判别信息的丢失。

3、transformer首次提出了一种用于自然语言处理的基于自注意机制的编码器-解码器模块。它通过计算三元组的注意力权重来探索序列中的长程依赖关系。基于出色的特征融合能力，transformer结构已成功应用于视觉跟踪，并取得了令人鼓舞的效果。在基于transformer的跟踪器中，全局上下文信息得到了充分的探索，然而，局部信息没有得到充分利用，为了改进注意力机制，提出了一个新的注意力模块，称为级联注意力。其核心思想是增强输入注意力头部的特征的多样性。

技术实现思路

1、鉴于上述状况，本发明的主要目的是为了提出一种基于级联注意力的单流单阶段网络目标跟踪方法与系统，以解决上述技术问题。

2、本发明提出了一种基于级联注意力的单流单阶段网络目标跟踪方法，所述方法包括如下步骤：

3、步骤1、在单流单阶段框架下，基于transformer网络模型以及特征增强模块，构建得到主干特征提取与融合模块，主干特征提取与融合模块、头部角点模块、和分数头部预测模块构成单流单阶段整体模型；

4、步骤2、获取模板图像以及搜索图片，模板图像包括包含有若干所需跟踪目标的初始模板和若干包含目标状态的在线模板；

5、步骤3、将模板图像以及搜索图片输入至单流单阶段整体模型中，通过主干特征提取与融合模块提取模板图像以及搜索图片对应的局部特征信息；

6、将局部特征信息输入特征增强模块中，利用级联注意力对局部语义信息进行聚合以实现特征增强，得到模板图像和搜索图片的全局上下文信息；

7、对模板图像和搜索图片的全局上下文信息进行交叉注意力计算以实现通信，获得结果特征图；

8、步骤4、将结果特征图分割为模板图像和搜索图片，并作为下一阶段的输入，采用迭代的方式重复步骤3若干次，得到最终的结果特征图；

9、步骤5、将最终的结果特征图输入头部角点模块中预测每个目标位置的置信度得分，并根据置信度得分确定跟踪目标所在位置以实现目标跟踪；

10、并将结果特征图输入分数头部预测模块中，以预测每个目标状态的置信度得分，根据目标状态的置信度得分来确定是否将所预测的目标状态作为下一阶段在线跟踪过程中的在线模板；

11、步骤6、利用大规模数据集为基础重复步骤2至步骤4，对单流单阶段整体模型进行预训练以优化模型参数；

12、步骤7、利用训练好的单流单阶段整体模型对视频序列进行目标在线跟踪。

13、本发明还提出一种基于级联注意力的单流单阶段网络目标跟踪系统，其中，所述系统应用如上所述的基于级联注意力的单流单阶段网络目标跟踪方法，所述系统包括：

14、构建模块，用于：

15、在单流单阶段框架下，基于transformer网络模型以及特征增强模块，构建得到主干特征提取与融合模块，主干特征提取与融合模块、头部角点模块、和分数头部预测模块构成单流单阶段整体模型；

16、学习模块，用于：

17、获取模板图像以及搜索图片，模板图像包括包含有若干所需跟踪目标的初始模板和若干包含目标状态的在线模板；

18、将模板图像以及搜索图片输入至单流单阶段整体模型中，通过主干特征提取与融合模块提取模板图像以及搜索图片对应的局部特征信息；

19、将局部特征信息输入特征增强模块中，利用级联注意力对局部语义信息进行聚合以实现特征增强，得到模板图像和搜索图片的全局上下文信息；

20、对模板图像和搜索图片的全局上下文信息进行交叉注意力计算以实现通信，获得结果特征图；

21、提取模块，用于：

22、将结果特征图分割为模板图像和搜索图片，并作为下一阶段的输入，采用迭代的方式重复特征提取若干次，得到最终的结果特征图；

23、计算模块，用于：

24、将最终的结果特征图输入头部角点模块中预测每个目标位置的置信度得分，并根据置信度得分确定跟踪目标所在位置以实现目标跟踪；

25、并将结果特征图输入分数头部预测模块中，以预测每个目标状态的置信度得分，根据目标状态的置信度得分来确定是否将所预测的目标状态作为下一阶段在线跟踪过程中的在线模板；

26、预训练模块，用于：

27、利用大规模数据集为基础对单流单阶段整体模型进行预训练以优化模型参数；

28、跟踪模块，用于：

29、利用训练好的单流单阶段整体模型对视频序列进行目标在线跟踪。

30、相较于现有技术，本发明的有益效果如下：

31、1、本发明利用级联注意力为每个头提供不同的输入分割，然后将输出特征级联到这些头上。这种方法不仅减少了多头注意力的计算冗余，而且通过增加网络深度来增强模型的容量。

32、2、本发明引入了在线模板更新的分数头模块，在线根据搜索图片的预测得分来修正在线模板图片，可以在复杂场景中应对对象外观的变化，使其能够更好地处理跟踪过程中的严重遮挡、尺度变化和背景复杂等困难，有效捕捉时间信息和处理对象外观变化，进而提高目标跟踪的性能。

33、本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

技术特征：

1.一种基于级联注意力的单流单阶段网络目标跟踪方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于级联注意力的单流单阶段网络目标跟踪方法，其特征在于，在所述步骤3中，将模板图像以及搜索图片输入至单流单阶段整体模型中，通过主干特征提取与融合模块提取模板图像以及搜索图片对应的局部特征信息的方法具体包括如下步骤：

3.根据权利要求2所述的基于级联注意力的单流单阶段网络目标跟踪方法，其特征在于，在所述步骤3中，利用级联注意力对局部语义信息进行聚合以实现特征增强，得到模板图像和搜索图片的全局上下文信息的方法具体包括如下步骤：

4.根据权利要求3所述的基于级联注意力的单流单阶段网络目标跟踪方法，其特征在于，在所述步骤3中，对模板图像和搜索图片的全局上下文信息进行交叉注意力计算以实现通信，获得结果特征图的方法具体包括如下步骤：

5.根据权利要求4所述的基于级联注意力的单流单阶段网络目标跟踪方法，其特征在于，将二维图像输入到自注意力增强函数中进行特征提取，得到每个图像对应的增强令牌的方法具体包括如下步骤：

6.根据权利要求5所述的基于级联注意力的单流单阶段网络目标跟踪方法，其特征在于，在所述步骤5中，将结果特征图输入分数头部预测模块中，以预测每个目标状态的置信度得分，根据目标状态的置信度得分来确定是否将所预测的目标状态作为下一阶段在线跟踪过程中的在线模板的方法具体包括如下步骤：

7.一种基于级联注意力的单流单阶段网络目标跟踪系统，其特征在于，所述系统应用如权利要求1至6任意一项所述的基于级联注意力的单流单阶段网络目标跟踪方法，所述系统包括：

技术总结
本发明提出一种基于级联注意力的单流单阶段网络目标跟踪方法与系统，该方法包括，首先构成单流单阶段整体模型，将模板图像以及搜索图片输入至单流单阶段整体模型中，进行特征提取获取局部特征信息，并利用级联注意力对局部语义信息进行聚合以实现特征增强，再进行交叉注意力计算以实现通信，获得结果特征图，将结果特征图采用迭代的方式重复提取若干次，得到最终的结果特征图以预测目所在位置和目标状态，并根据目标所在位置实现目标跟踪，同时根据目标状态确定是否将所预测的目标状态作为下一阶段在线跟踪过程中的在线模板。本发明再减少多头注意力的计算冗余的同时可以在复杂场景中应对对象外观的变化，进而提高目标跟踪的性能。

技术研发人员：王员云,司英振
受保护的技术使用者：南昌工程学院
技术研发日：
技术公布日：2024/3/5

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王员云,司英振
技术所有人：南昌工程学院
我是此专利的发明人

上一篇：基于位移矢量相似度的导波模态分类方法及系统
上一篇：一种气弹簧端部支架高效自动组装设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。