本发明属于深度学习、多模态目标跟踪、提示学习领域,涉及动态图卷积网络、k近邻聚类算法、单目标跟踪算法ostrack,具体涉及一种基于3d提示信息的彩色和深度图像单目标跟踪算法。
背景技术:
1、彩色图像的单目标跟踪任务作为计算机视觉领域的基础组成部分,在虚拟现实、增强现实和自动驾驶等多个领域中都有应用。近些年来,在该领域的发展主要得益于transformer结构以及多个大规模数据集的提出。基于transformer结构的单目标跟踪算法,如mixformer、neighbortrack、ostrack等,已经超越了基于卷积结构的算法。这些算法取得的成就不仅得益于transformer结构,同时也得益于多个大规模rgb跟踪数据集,如lasot、got-10k和tracknet。
2、虽然利用彩色图像的单目标跟踪算法取得了显著的成果,但是这些算法在面临一些挑战性场景,如极端光照变化、背景杂乱和运动模糊等,仍然会出现性能不够的问题。而多模态信息,如深度图,可以帮助算法更好地定位和跟踪目标。然而最近的彩色和深度图像跟踪算法,如dal、det和vipt等,往往将深度视为一种额外的视觉特征,这导致了整体依然依赖于外观线索和特征。仅依赖于外观信息,难以在复杂场景中进行精确跟踪。相比之下,3d几何信息提供了对物体形状和空间布局更全面的信息,为目标的具体位置提供了更准确的估计。
3、此外,考虑到彩色和深度图像跟踪数据集的规模远小于彩色图像数据集,直接在小规模数据集上进行训练,往往会破坏原有模型的泛化性。近年来,提示学习在下游任务的迁移上取得了显著成果,如adaptformer、vpt和convpass等。该方法为各种下游任务提供了一种有效的方式,使其能够更好地利用预训练模型,同时只需增加少量的可训练参数即可实现这一目标。
技术实现思路
1、本发明旨在提供一种基于3d提示信息的彩色和深度图像单目标跟踪算法,提升算法的在各场景中的泛化能力,同时提升算法在极端条件下的性能。
2、本发明所述的方法可部署在自动驾驶场景中的诸多设备上,为视觉定位导航提供目标信息。
3、本发明的技术方案:
4、一种基于3d提示信息的彩色和深度图像单目标跟踪算法,步骤如下:
5、步骤1:借助彩色图像传感器和深度图像传感器,分别获取彩色图像和深度图像;
6、步骤2:给定目标初始帧与当前帧的边界框;初始帧的边界框作为模板,并依据当前帧t时刻的边界框,确定下一帧t+1时刻的搜索区;
7、步骤3:根据模板和搜索区的边界框,获取对应区域的彩色图像以及点云信息;
8、(3.1)首先根据边界框的信息,将模板和搜索区的彩色图像和深度图像切割出来,这个过程包括切割、缩放和填充操作,并根据这些操作获取对应的矫正矩阵;
9、(3.2)根据相机内参以及矫正矩阵,将模板和搜索区对应的深度图像投影至相机坐标系,获取对应的点云;
10、步骤4:输入连续视频流,经过transformer主干网络、3d提示信息网络以及跟踪头的计算后,获得t+1时刻的目标边界框;
11、transformer主干网络的输入是搜索区和模板的彩色图像,输出是经过16倍下采样后搜索区和模板对应的特征图;transformer主干网络的主要由l个transformer模块组成,每个transformer模块包含3个不同的线性层用于计算query、key和value,一个自注意力层以及一个多层感知器;若transformer主干网络中涉及到下采样的操作,下采样的倍率为m,则使用一个卷积核大小为m×m,步长为m的卷积层,来进行下采样的操作;
12、3d提示信息网络主要用于提取3d提示信息特征,并将该3d提示信息特征与transformer主干网络中对应特征相结合,从而增强transformer主干网络对于3d特征信息的理解能力;3d提示信息网络包含l个几何感知模块,每个几何感知模块有两个输入,一个是来自于transformer主干网络的2d特征,另一个是3d提示信息特征,该3d提示信息特征是来自于上一个几何感知模块的输出;该几何感知模块输出有且仅有一个3d提示信息特征;
13、3d提示信息网络中的下采样包括两类:对特征图的下采样与对点云的下采样;其中,对特征图的下采样直接采用与transformer主干网络相同的下采样方式;对点云的下采样,则是先对深度图中的有效点进行步长为m,窗口大小为m×m的最小池化,将下采样后的深度图重新投影到3d空间中;
14、几何感知模块的主要计算流程如下:
15、(4.1)几何感知模块的输入为来自于transformer主干网络中第l-1个transformer模块的输出以及来自于3d提示信息网络中第l-1个几何感知模块的输出它们分别经过一个线性层,得到通道数量为8的特征和
16、(4.2)对于包含2d信息的特征经过一个平滑操作获得2d提示特征
17、
18、其中,⊙代表逐元素相乘,α为可学习的参数,初始值为10.0,用于特征平滑;
19、(4.3)然后需要对含3d信息的特征进行信息提取;
20、(4.3.1)首先对这部分特征对应的点云p根据3d坐标信息进行knn聚类,其聚类结果为pknn;
21、(4.3.2)对于任意一点pi∈p,它与其k近邻内的点之间的关系为:
22、
23、其中,fi3d为点i在中的特征;之后将和fknn一起送入一个轻量化的动态图卷积神经网络中,得到3d空间下的特征
24、(4.3.3)之后,对进行空间注意力加权:
25、
26、其中,σ为sigmoid操作,linear为一个输出通道数量为1的线性层;
27、(4.4)几何感知模块的最终输出由对和进行逐元素相加得到;
28、
29、对于第l个transformer模块的输入,则是由和进行逐元素相加得到;
30、跟踪头的输入为搜索区经过transformer主干网络以及3d提示信息网络计算后的特征,输出为目标的边界框信息(如中心点坐标以及大小)以及目标的置信度;
31、步骤5:重复步骤2~步骤4直至视频结束。
32、本发明的有益效果:
33、(1)本发明采用3d提示信息的方式,赋予2d预训练模型对于3d环境的感知能力,提高了跟踪算法对于目标位置的计算精度,降低了干扰物对在跟踪过程中的影响。此外,降低了网络对于训练数据量的需求,同时提升了跟踪算法的精度。
34、(2)本发明提升了多模态单目标跟踪算法的鲁棒性与泛化性。有效提高了算法在面临挑战性场景时的性能,同时在面临多种不同的场景时,能够更为有效地区分目标与干扰物。
1.一种基于3d提示信息的彩色和深度图像单目标跟踪算法,其特征在于,步骤如下: