基于三流特征聚合孪生网络的可见光-热红外目标跟踪方法

文档序号:37351772发布日期:2024-03-18 18:32阅读:19来源:国知局
基于三流特征聚合孪生网络的可见光-热红外目标跟踪方法

本发明涉及图像检测,尤其涉及一种基于三流特征聚合孪生网络的可见光-热红外目标跟踪方法。


背景技术:

1、目标跟踪任务是指在视频首帧中框选一个待跟踪的任意种类目标,在后续每一帧中,跟踪器需要定位该目标的位置和大小。目标跟踪在智能驾驶、无人机、视频监控等方面具有广泛的应用。然而,仅依靠可见光成像的目标跟踪方法在恶劣天气、极端光照、杂乱背景、运动模糊等挑战性场景下性能不佳。因此,研究者们试图引入除可见光外的其他模态的数据辅助跟踪任务,这被称为多模态目标跟踪。其中,最常见的多模态目标跟踪为可见光-热红外跟踪。它通过引入热红外图像来辅助模型进行判断,对于人、动物和汽车等能够自发热的目标,热红外模态往往能提供高度区别于背景的目标信息。因此可见光-热红外目标跟踪具有更高的鲁棒性和准确性。

2、目前,大多数可见光-热红外跟踪器都是在可见光跟踪器的框架下构建的,可以大致分为基于mdnet模型的可见光-热红外跟踪方法和基于孪生网络的可见光-热红外跟踪方法。mdnet模型采用了两种重要策略:离线学习和在线跟踪。离线学习策略使共享骨干网络离线训练以提取通用特征。在线跟踪策略使模型能够训练特定域,以便在跟踪时对候选框进行分类。通常,基于mdnet模型的可见光-热红外跟踪器设计有一些适合多模态特征融合的模块,并且通过应用在线跟踪和离线学习策略,它们表现出了出色的性能。lu等人引入了分层发散损失和动态融合模块,并对一些网络结构进行了调整。lu等人利用vgg-m作为特征提取器,并设计了一个对偶互条件辅助模块,利用一种模态的信息来指导另一模态的特征提取。

3、孪生网络是目标跟踪中的一种重要范式。基于孪生网络的可见光-热红外跟踪方法,包括siamft模型和siamcda模型,由于孪生网络范式的高速特性,这些模型能够实现较快的跟踪速度。siamft模型是将孪生网络范式应用于可见光-热红外跟踪的早期模型,它是基于siamfc模型进行改进,通过模态权重计算方法融合了多模态特征。siamcda模型是siamrpn++模型的一个改进模型,提出了一个互补感知多模态特征融合模块来提高融合特征的可分辨性,并提出了一种干扰感知区域建议选择模块来提高模型的鲁棒性。

4、尽管当前现有技术中提出了很多性能良好的可见光-热红外跟踪方法。然而,由于热红外模态的引入带来了复杂的特征提取和融合,这些问题会导致模型的效率下降,从而阻碍可见光-热红外跟踪方法的实际应用。已经提出的可见光-热红外跟踪方法很难同时在精度和效率上实现高性能。例如,基于mdnet模型的可见光-热红外跟踪方法在跟踪期间会生成的大量候选框,并且需要为每个候选框计算正分数,这显著降低了跟踪速度。基于孪生网络的可见光-热红外跟踪方法,由于多模态特征融合的挑战性,阻碍了它们实现高精度的目标跟踪。

5、基于此,急需设计一种基于三流特征聚合孪生网络的可见光-热红外目标跟踪方法,从而实现高精度和快速的目标跟踪。


技术实现思路

1、(一)要解决的技术问题

2、基于上述问题,本发明提供了基于三流特征聚合孪生网络的可见光-热红外目标跟踪方法,经过实验可知,其可以实现高精度和快速的目标跟踪。

3、(二)技术方案

4、基于上述的技术问题,本发明提供了一种基于三流特征聚合孪生网络的可见光-热红外目标跟踪方法,基于三流特征聚合孪生网络包括骨干网络、相关运算和预测头,原始图像通过骨干网络提取和融合得到搜索特征和模板特征,然后对搜索特征和模板特征进行逐像素相关以生成相似度图,将相似度图输入到预测头中以产生跟踪结果,所述骨干网络包含两个并行的特征提取流和一个特征融合流,两个特征提取流是并行的swin-transformer,特征融合流由四个联合-互补特征聚合模块串联组成;

5、将分别表示为第i阶段输出的可见光特征提取流、热红外特征提取流和特征融合流,其中i∈{1,2,3,4},第i阶段的网络表示为

6、

7、

8、

9、其中,和分别表示与三个流对应的第i阶段的网络模块;和表示三个流的初始输入,

10、联合-互补特征聚合模块中,第i阶段特征融合流描述如下:

11、

12、其中,ψm(·)、ψs(·)分别表示模态特征融合过程和阶段特征融合过程;通道和空间注意力权重为

13、

14、其中表示逐元素加法,m∈{com,rgb,tir},d∈{c,s};

15、模态特征融合过程表示为:

16、

17、其中表示逐元素乘法,

18、阶段特征融合过程表示为:

19、

20、

21、其中ap(·)、bn(·)、conv(·)分别表示平均池化、批量归一化、卷积层操作,和分别表示当前阶段融合特征和上一阶段融合特征对应的通道维度权重。

22、进一步的,和代表swin transformer的第i阶段网络模块,其由分块合并和swin transformer块组成;分块合并实现了下采样,并在第一阶段被块划分和线性映射操作取代;swin transformer块在窗口多头自注意力模块中应用本地窗口自注意,在移动窗口多头自注意力模块中应用移位窗口自注意。

23、进一步的,其中,irgb和itir分别表示可见光图像和热红外图像,||表示沿着通道维度的连接。

24、进一步的,连接后的多模态特征被馈送到卷积模块中以获得中间共享特征fc,描述为:

25、

26、其中,gap(·)、convdw(·)、δ(·)分别表示全局平均池层、深度可分离卷积层和relu激活函数;随后,基于共享特征fc,分别生成三个通道注意力权重

27、

28、其中σ表示sigmoid激活函数,convm表示对应的1×1卷积层;在空间维度上,三个空间注意力权重则表示为以下公式:

29、

30、vsm=σ(convm(fs)),m∈{rgb,tir,com}

31、此外,在阶段特征融合过程中,同样利用深度可分离共享注意力生成不同阶段对应的通道维度的权重wccur和即:

32、

33、

34、进一步的,所述相关运算中采用了逐像素的相关方式,获得搜索特征和模板特征后,将其分别表示为和对于逐像素相关操作,首先将模板特征z分解为h0×w0个1×1的卷积核然后对于骨干网络输出的搜索特征x分别与每个卷积核进行卷积运算,并将每个计算结果沿通道维度叠加,得到相关图这个过程表示为:

35、

36、其中,*表示卷积运算。

37、进一步的,所述预测头为中心点预测头,将相关图m输入到预测头中的三个fcn分支中,以获得分类得分图、偏移图和尺寸图,预测目标的中心由分类得分图上最大值的坐标确定,并使用相应的偏移图和尺寸图获得边界框。

38、进一步的,损失函数由三部分组成:lcls、lgiou和l1;lcls是分类损失,它根据预测分类得分图pxy和真实值生成的高斯图计算focal损失;对于每一帧,目标框的中心坐标表示为(px,py);高斯映射由以下公式生成:

39、

40、其中σ是对象大小自适应标准偏差;

41、分类损失表示为:

42、

43、lgiou和l1是分别通过计算预测边界框和真实边界框的广义iou损失和平均绝对误差损失而获得的回归损失;总损失函数表示为:

44、l=lcls+λ1lgiou+λ2l1

45、其中λ1和λ2是正则化损失参数。

46、进一步的,采用adamw优化器对网络进行优化,初始学习率设置为0.0001,每40个轮次学习率下降到0.2倍,网络总共训练120个轮次,批大小设置为8。

47、本发明也公开了一种基于三流特征聚合孪生网络的可见光-热红外目标跟踪系统,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行所述的基于三流特征聚合孪生网络的可见光-热红外目标跟踪方法。

48、(三)有益效果

49、本发明的上述技术方案具有如下优点:

50、(1)本发明提出了一种基于三流特征聚合孪生网络的可见光-热红外目标跟踪方法,该方法利用三流结构的骨干网络实现了高性能和高效率的可见光-热红外跟踪。三流骨干网络可以有效地聚合多模态特征,其中两个特征提取流分别采用预训练的swintransformer来提取可见光特征和热红外特征。第三个特征融合流桥接两个特征提取流,并在每个阶段实现特征融合,这提供了在所有尺度上更充分的多模态特征聚合,提高了目标检测的精度。

51、(2)本发明设计了一个专门适配三流特征聚合的联合-互补特征聚合模块。它是特征融合流的基本组成块,其利用联合-互补注意力来引导多模态特征的聚合。可见光-热红外跟踪任务必须充分利用两种模态的信息,同时区分特定模态中潜在的无效信息。通过整合来自两种模态的特征,联合注意力能够集中在目标的空间位置信息和关键语义信息上,互补注意力用于区分每种模态的有益信息和无效信息,并且有益信息被强化,而无效信息被抑制。

52、(3)此外,本发明提出了一种轻量级的注意力结构,称为深度可分离共享注意力。由于联合-互补注意力在本模型中被广泛使用,注意力权重的计算将极大地影响跟踪的效率。为了进一步提高跟踪速度,本发明提出了深度可分离共享注意力结构,它通过共享第一个卷积层特征和使用深度可分离卷积来降低注意力模块的计算复杂度,从而加快模型的跟踪速度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1