一种基于双流注意力机制的多模态监控视频目标跟踪方法

文档序号:33964017发布日期:2023-04-26 17:42阅读:129来源:国知局
一种基于双流注意力机制的多模态监控视频目标跟踪方法

本发明属于目标跟踪,具体地说是涉及一种基于双流注意力机制的多模态监控视频目标跟踪方法。


背景技术:

1、目标跟踪指的是在已知第一帧的目标的情况下,跟踪后续帧目标的位置。目标跟踪与传统的目标检测不同,不需要识别目标的种类,只需要识别目标在每一帧之中的位置。以往的目标跟踪多集中在可见光的监控视频数据中,但是在实际中,监控视频得到的可见光图像往往是清晰度不高的。此外,可见光视频由于其成像原因是光的反射,因此对光照十分敏感,光照过强的时候会产生曝光的问题,而光照过弱的时候则会看不清目标。因此,引入了红外图像对其做特征互补。红外图像的成像原理是利用不同物体的温度,因此对光照不敏感;但同时,红外图像本无法反映目标的细节,比如颜色、花纹等等。传统的多模态目标跟踪往往采用卷积神经网络对目标进行特征提取,他们使用分类网络单独处理学习每帧样本,而没有关注到正负样本之间的联系。这种方法的目标位置是通过目标分类的置信度得分得到的,可能使得目标的分类得分最高的地方并不是目标的位置。此外,不同深度的特征关注的特点也不相同。


技术实现思路

1、基于以上问题,本发明针对监控视频数据的目标跟踪,引入了可见光和红外图像的多模态融合互补,通过双流注意力机制来关注全局特征,并对不同尺度的特征进行融合,力求在保留局部细节的前提下,对目标和背景的联系进行关注,得到判别性更强的特征。

2、本发明以监控视频多模态数据的目标跟踪为背景,针对现有的多模态目标跟踪中对全局特征建模能力弱的缺点,提出了一种基于双流注意力机制的目标跟踪方法。该方法首先采用了双流注意力网络对目标的特征进行提取和融合,应用注意力机制对正负样本的关系进行建模,关注全局特征联系。此外,为了增强特征表达,对不同尺度的特征进行交互。最后利用回归分类子网络对目标的位置进行预测。这样既保证了局部细节,也关注了全局特征,得到了判别能力更强的特征,使回归分类子网络的预测结果更加精确。

3、本发明的技术方案是:

4、一种基于双流注意力机制的多模态监控视频目标跟踪方法,其特征在于,包括以下步骤:

5、s1、从监控视频数据中筛选出匹配的可见光-红外视频对,将视频对按照同一帧率保存为图像对获得输入样本;选取出图像对中代表第一帧的图像作为匹配图像,在匹配图像中将需要跟踪的目标用矩形框进行框选,后续帧的图像作为搜索图像;将输入样本记作i=1,2,……nj,nj表示第j类样本的数量,表示可见光数据,表示红外数据;样本标签记作i=1,2,……nj,表示可见光数据标签,表示红外数据标签;在实际训练过程中,为了尽可能多的利用更多的数据,因此匹配分支随机选取视频序列mtrain中的某一帧,记作(zv,zt),搜索分支选择在匹配分支图像之后的某个图像对,记作(xv,xt);

6、s2、构建神经网络,包括双流特征提取网络、多模态融合网络和跟踪网络;

7、所述双流特征提取网络包括两个结构相同分支,分别为匹配分支和搜索分支,匹配分支和搜索分支均分别对可见光图像和红外图像进行特征提取,具体为采用三个级联的transformer block进行特征提取;

8、所述多模态融合网络用于对双流特征提取网络提取的特性进行融合,具体为:定义双流特征提取网络中匹配分支的三个transformer block输出分别为(x1v,x1t),(x2v,x2t),(x3v,x3t),定义搜索分支的三个transformer block输出分别为(z1v,z1t),(z2v,z2t),(z3v,z3t);多模态融合网络分别获取每一个transformer block的输出并进行融合得到:

9、x1=cat(xv1、xt1)

10、x2=cat(xv2、xt2)

11、x3=cat(xv3、xt3)

12、z1=cat(zv1、zt1)

13、z2=cat(zv2、zt2)

14、z3=cat(zv3、zt3)

15、其中,cat表示对图像进行通道融合;

16、再进行相关性计算得到相似度矩阵si:

17、si=corr(zi,xi),i=1,2,3

18、其中,corr表示相似度计算,即将尺寸较小的匹配图像zi作为卷积核对xi进行卷积操作的过程;

19、对相似度矩阵进行拼接,得到包含多尺度信息的相似度矩阵s:

20、s=cat(si)

21、s=downsample(s)

22、其中,downsample表示降采样,将s投影到适合跟踪的维度空间,

23、所述跟踪网络包括三个分支,分别为:

24、分类损失分支,预测目标的中心位置:

25、

26、其中,yt表示第t个样本的锚框真实标签,yt=1表示该锚框表示前景;mt表示该锚框是前景的概率;

27、回归损失分支,预测目标框四条边到中心点的距离:

28、

29、

30、其中,bbox表示预测框的大小,用四条边框和中心的距离表示,(i,j)表示s上的点;

31、中心损失分支,抑制中心点漂移:

32、

33、其中,dt表示的是第j个中心位置的得分,σ表示sigmoid激活函数。ct和预测位置与中心位置的距离成正比。

34、跟踪网络的总损失为:

35、l=lcls+η1lreg+η2lcen

36、其中,η1和η2是设定的超参数;

37、s3、采用s1的输入样本对s2构建的神经网络进行训练,具体为:将mtrain划分为匹配图像对和搜索图像对作为神经网络的输入(xv,xt)和(zv,zt),其中(zv,zt)为匹配分支的输入,是从视频序列mtrain中随机选取的某一帧;(xv,xt)为搜索分支的输入,选取方式为,在选择了匹配分支图像之后,从匹配分支图像之后的图像对中选取,记作(xv,xt);设置学习率为0.0005,通过损失函数反向传播来修正网络的权重,直至网络基本收敛,得到训练好的神经网络;

38、s4、利用训练好的神经网络进行目标跟踪,具体为:手动选取需要跟踪的目标,生成第一帧图像的标签,将含有标签的图像序列输入训练好的神经网络,得到目标中心的位置和目标的大小。

39、本发明的有益效果是,本发明针对多模态监控视频数据在跟踪的时候无法有效对判别性特征进行建模,提出了采用双流注意力的方法,对全局特征进行关注,从而对前景和背景特征都充分提取并进行融合。在特征提取阶段,采用swin transformer来对全局特征进行建模。对每个模态来说,不同深度的特征包含不同的信息,因此对每个模态的不同深度的特征进行了融合,并在匹配图像和搜索图像之间进行了交互,充分提取目标的不同特征。同时在跟踪阶段,为了让预测的目标框不会发生漂移,从而失去目标,设计了中心损失函数,提高目标跟踪的准确率。



技术特征:

1.一种基于双流注意力机制的多模态监控视频目标跟踪方法,其特征在于,包括以下步骤:


技术总结
本发明属于目标跟踪技术领域,具体地说是涉及一种基于双流注意力机制的多模态监控视频目标跟踪方法。本发明以监控视频多模态数据的目标跟踪为背景,针对现有的多模态目标跟踪中对全局特征建模能力弱的缺点,提出了一种基于双流注意力机制的目标跟踪方法。该方法首先采用了双流注意力网络对目标的特征进行提取和融合,应用注意力机制对正负样本的关系进行建模,关注全局特征联系。此外,为了增强特征表达,对不同尺度的特征进行交互。最后利用回归分类子网络对目标的位置进行预测。这样既保证了局部细节,也关注了全局特征,得到了判别能力更强的特征,使回归分类子网络的预测结果更加精确。

技术研发人员:廖阔,陈思情,潘启迪,卜志纯,张萍
受保护的技术使用者:电子科技大学
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1