本公开涉及计算机视觉、人工智能、图像处理,尤其涉及一种基于场景提示的单目标跟踪方法。
背景技术:
1、视觉单目标跟踪是计算机视觉领域中的基础研究课题。其目标是通过给定首帧的目标框,在后续帧中自动定位目标。单目标跟踪在自动驾驶、智能监控、人机交互中有着广泛的应用。
2、单目标跟踪方法通过首帧裁剪的模板与当前帧根据上一帧的结果裁剪的搜索区域来定位目标。单目标跟踪方法可以分为双流与单流跟踪器。大部分的现有方法采用双流的跟踪策略,它们独立地提取模板与搜索区域特征,导致所提取的特征无法进行交互从而感知目标,限制了模型的性能。最近,单流的方法被提出来用于联合提取模板与搜索区域特征,通常这些方法基于注意力机制实现了模板与搜索区域的交互,从而可以增强目标的特征。然而,注意力机制无差别地建立像素间的关系,导致一些复杂背景可能被错误地增强,从而影响跟踪器的精度。
技术实现思路
1、基于上述问题,本公开提供了一种基于场景提示的单目标跟踪方法,以缓解现有技术中的上述技术问题。
2、(一)技术方案
3、本公开提供一种基于场景提示的单目标跟踪方法,对视频图像中的目标进行动态跟踪,包括:确定包含目标的目标模板图像和搜索区域图像并分块;将分块后的目标模板图像和搜索区域图像通过线性映射得到对应的目标模板图像特征和搜索区域图像特征;将目标模板图像特征和搜索区域图像特征输入场景提示的视觉transformer中,并在动态获取的场景提示符的作用下进行特征交互与增强;利用经过编码器增强后的搜索区域特征回归目标框,并估计目标框的质量;以及跟踪器将目标框质量好的跟踪帧的特征保存在内存中,当到达给定的提示符更新间隔时,场景提示生成器利用内存中保存的特征生成新的场景提示符。
4、根据本公开实施例,通过场景提示生成器在跟踪过程中动态地从视频时空上下文中获取场景提示符。所述场景提示符包括目标提示符和背景提示符。
5、根据本公开实施例,通过目标估计头利用经过场景提示的视觉transformer增强后的搜索区域特征回归目标框,并利用交并比回归头估计目标框的质量。
6、所述场景提示的视觉transformer包括12层场景提示编码器。
7、根据本公开实施例,每层场景提示编码器包括:场景提示调制器、注意力机制、多层感知机。
8、根据本公开实施例,所述场景提示调制器利用动态获取的场景提示符指导编码器中像素间交互的注意力机制,利用场景知识来抑制复杂背景。
9、根据本公开实施例,场景提示生成器根据目标框将目标区域特征划分为目标特征和背景特征,并引入多个目标原型和背景原型分别与目标特征和背景特征通过互注意力机制进行交互。
10、根据本公开实施例,通过多样性损失来指导提示符学习,通过增加提示符之间的余弦距离来保证多样性。
11、根据本公开实施例,目标框回归头包括一个三分支的全卷积网络,分别输出分类分数图、偏移图、以及归一化的尺寸图,分类分数图的标签由高斯核生成,通过加权聚焦损失函数约束分类分数图的学习,通过泛化交并比损失与平均绝对误差损失约束目标框的学习;交并比回归头用来估计预测框与真实框之间的交并比,通过均方损失函数约束交并比分数的学习。
12、(二)有益效果
13、从上述技术方案可以看出,本公开基于场景提示的单目标跟踪方法至少具有以下有益效果其中之一或其中一部分:
14、(1)可以在跟踪过程中根据时空上下文动态获取跟踪场景的提示符,并提出使用多样性损失来指导模型学习多样、全面的场景知识;
15、(2)通过场景提示调制器将场景提示符嵌入注意力机制中从而指导场景感知的特征学习,增强特征的判别力,有效提升在复杂背景场景下的目标跟踪精度。
1.一种基于场景提示的单目标跟踪方法,对视频图像中的目标进行动态跟踪,包括:
2.根据权利要求1所述的基于场景提示的单目标跟踪方法,通过场景提示生成器在跟踪过程中动态地从视频时空上下文中获取场景提示符。
3.根据权利要求2所述的基于场景提示的单目标跟踪方法,所述场景提示符包括目标提示符和背景提示符。
4.根据权利要求1所述的基于场景提示的单目标跟踪方法,通过目标估计头利用经过场景提示的视觉transformer增强后的搜索区域特征回归目标框,并利用交并比回归头估计目标框的质量。
5.根据权利要求1所述的基于场景提示的单目标跟踪方法,所述场景提示的视觉transformer包括12层场景提示编码器。
6.根据权利要求5所述的基于场景提示的单目标跟踪方法,每层场景提示编码器包括:场景提示调制器、注意力机制、多层感知机。
7.根据权利要求6述的基于场景提示的单目标跟踪方法,所述场景提示调制器利用动态获取的场景提示符指导编码器中像素间交互的注意力机制,利用场景知识来抑制复杂背景。
8.根据权利要求1所述的基于场景提示的单目标跟踪方法,场景提示生成器根据目标框将目标区域特征划分为目标特征和背景特征,并引入多个目标原型和背景原型分别与目标特征和背景特征通过互注意力机制进行交互。
9.根据权利要求8所述的基于场景提示的单目标跟踪方法,通过多样性损失来指导提示符学习,通过增加提示符之间的余弦距离来保证多样性。
10.根据权利要求4所述的基于场景提示的单目标跟踪方法,目标框回归头包括一个三分支的全卷积网络,分别输出分类分数图、偏移图、以及归一化的尺寸图,分类分数图的标签由高斯核生成,通过加权聚焦损失函数约束分类分数图的学习,通过泛化交并比损失与平均绝对误差损失约束目标框的学习;交并比回归头用来估计预测框与真实框之间的交并比,通过均方损失函数约束交并比分数的学习。