基于特征增强融合的RGBT实时目标跟踪方法和装置

文档序号:37153489发布日期:2024-02-26 17:11阅读:17来源:国知局
基于特征增强融合的RGBT实时目标跟踪方法和装置

本技术涉及目标跟踪,特别是涉及一种基于特征增强融合的rgbt实时目标跟踪方法和装置。


背景技术:

1、视觉目标跟踪一直是计算机视觉领域的热点和难点问题,其定义是给定目标在视频第一帧的标记结果(通常是一个紧密包围目标的矩形框),估计出目标在整段视频中的状态信息(位置、大小等)。目标可以是任意指定的图像区域或者感兴趣的对象。视觉目标跟踪有着广泛的应用需求,如视频监控、无人驾驶、精确制导等。

2、目前,基于可见光单模态的视觉目标跟踪方法已经在大部分场景中取得了很好的性能,但是在某些极端复杂环境下,仍会跟丢目标,如恶劣天气、光照变化、目标遮挡等。而热红外图像与可见光图像具有很好的互补特性,结合热红外与可见光双模态信息可以有效克服单一可见光图像跟踪能力的不足,提高目标跟踪的鲁棒性。

3、在可见光和热红外双模态(rgbt)视觉目标跟踪方法中,可见光和热红外双模态互补信息的有效融合、模板和搜索区域的有效特征交互是提升目标跟踪性能的关键。transformer由于其出色的全局信息建模能力,在很多计算机视觉任务上(如图像分类、目标检测等)都显著提升了性能。目前,基于transformer的rgbt视觉目标跟踪方法的研究尚处于起步探索阶段,成果较少,有待进一步深化。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于特征增强融合的rgbt实时目标跟踪方法和装置。

2、一种基于特征增强融合的rgbt实时目标跟踪方法,方法包括:

3、获取从第一帧rgbt图像和当前帧rgbt图像中剪裁的热红外和可见光图像对,并分别作为模板分支图像对和搜索分支图像对。

4、将模板分支图像对和搜索分支图像对同时输入到训练好的基于特征增强融合的rgbt实时目标跟踪模型中,得到目标跟踪结果;其中,rgbt实时目标跟踪模型包括结构相同的模板分支和搜索分支、特征交互融合模块以及预测头;模板分支和搜索分支分别用于提取模板分支图像对和搜索分支图像对的红外和可见光深度特征,采用通道注意力机制对深度特征在通道维进行特征增强,然后采用基于aia模块的自注意力机制在空间维度进行特征增强,得到模板分支特征和搜索分支特征;特征交互融合模块用于将模板分支特征和搜索分支特征采用基于transformer互注意力机制进行特征交互融合;预测头用于根据交互融合后的特征进行目标定位,得到目标跟踪结果。

5、在其中一个实施例中,获取从第一帧图像和当前帧图像中剪裁的热红外和可见光图像对,并分别作为模板分支输入和搜索分支输入,包括:

6、获取第一帧图像和当前帧图像。

7、在第一帧图像和当前帧图像中以标注的目标位置为中心,分别剪裁预设倍数目标框大小的区域并统一缩放到预设大小,其中超出图像的区域用像素平均值填充,得到第一帧图像和当前帧图像中剪裁的热红外和可见光图像对。

8、将第一帧图像和当前帧图像中剪裁的热红外和可见光图像对分别作为模板分支输入和搜索分支输入;其中,采集模板分支输入和搜索分支输入的图像帧间隔不超过200。

9、在其中一个实施例中,将模板分支图像对和搜索分支图像对同时输入到训练好的基于特征增强融合的rgbt实时目标跟踪模型中,得到目标跟踪结果,包括:

10、将模板分支图像对输入到模板分支中,得到模板分支特征。

11、将搜索分支图像对输入到搜索分支中,得到搜索分支特征。

12、将模板分支特征和搜索分支特征输入到特征交互融合模块中,得到交互融合特征。

13、将交互融合特征输入到预测头中,得到目标跟踪结果。

14、在其中一个实施例中,模板分支包括:特征提取网络、cafm模块以及全局特征增强模块;cafm模块包括全局池化层、两个全连接层、一个sigmoid函数层。

15、将模板分支图像对输入到模板分支中,得到模板分支特征,包括:

16、将模板分支图像对输入到特征提取网络中,得到红外和可见光的深度特征。

17、将红外和可见光的深度特征在通道维度进行堆叠,得到初始特征。

18、将初始特征输入到cafm模块中在空间上进行全局池化,将池化后的结果依次经过两个全连接层和一个sigmoid函数层后得到通道权重,然后将通道权重与初始特征加权后,得到在通道维度进行特征增强的特征。

19、将特征输入到全局特征增强模块中,得到模板分支特征。

20、在其中一个实施例中,全局特征增强模块包括:3层堆叠的编码器,编码器由基于aia模块的多头自注意力模块,残差连接和标准化层,前向反馈网络以及残差连接和标准化层组成;在编码器中:

21、将添加了空间位置编码的输入特征映射到值、键值、查询三个特征空间,利用键值和查询进行运算得到注意力图。

22、基于aia模块对注意力图进行调整,利用调整后的注意力图对值进行加权,利用残差结构加在原始的输入特征上,然后经过由两层全连接层组成的残差结构,得到输出特征。

23、在其中一个实施例中,特征提取网络为基于resnet50的特征提取网络。

24、在其中一个实施例中,特征交互融合模块是基于transformer互注意力机制的特征交互融合模块,包括1层解码器,解码器由多头互注意力模块,残差连接和标准化层,前向反馈网络以及残差连接和标准化层组成。

25、将模板分支特征和搜索分支特征输入到特征交互融合模块中,得到交互融合特征,包括:

26、将添加了空间位置编码的搜索分支特征映射到查询特征空间,将添加了空间位置编码的模板分支特征映射到键值、值特征空间。

27、利用键值、查询进行运算得到注意力图对值进行加权,利用残差结构加在原始的输入特征q上,然后经过由前向反馈网络组成的残差结构,得到交互融合特征。

28、在其中一个实施例中,预测头为由5个卷积层-标准化层-relu层组成的全卷积网络。

29、将交互融合特征输入到预测头中,得到目标跟踪结果,包括:

30、将交互融合特征输入到预测头中采用全卷积网络进行处理,输出目标框左上角和右下角的两个概率图;并根据目标框左上角和右下角的两个概率图分布的期望值,得到预测目标框的左上角和右下角坐标。

31、在其中一个实施例中,rgbt实时目标跟踪模型训练过程中采用的函数为:

32、

33、其中,bi,分别为目标真值框和预测框,λiou,λl1为权重系数,为l1损失,为detr检测算法中的iou损失函数。

34、一种基于特征增强融合的rgbt实时目标跟踪装置,装置包括:

35、热红外和可见光图像对获取模块,用于获取从第一帧rgbt图像和当前帧rgbt图像中剪裁的热红外和可见光图像对,并分别作为模板分支图像对和搜索分支图像对。

36、rgbt实时目标跟踪模块,用于将模板分支图像对和搜索分支图像对同时输入到训练好的基于特征增强融合的rgbt实时目标跟踪模型中,得到目标跟踪结果;其中,rgbt实时目标跟踪模型包括结构相同的模板分支和搜索分支、特征交互融合模块以及预测头;模板分支和搜索分支分别用于提取模板分支图像对和搜索分支图像对的红外和可见光的深度特征,采用通道注意力机制对深度特征在通道维进行特征增强,然后采用基于aia模块的自注意力机制在空间维度进行特征增强,得到模板分支特征和搜索分支特征;特征交互融合模块用于将模板分支特征和搜索分支特征采用基于transformer互注意力机制进行特征交互融合;预测头用于根据交互融合后的特征进行目标定位,得到目标跟踪结果。

37、上述基于特征增强融合的rgbt实时目标跟踪方法和装置,所述方法包括:获取从第一帧rgbt图像和当前帧rgbt图像中剪裁的热红外和可见光图像对,并分别作为模板分支图像对和搜索分支图像对;分别提取模板分支图像对和搜索分支图像对的可见光和热红外深度特征,基于通道注意力模块实现可见光和热红外图像通道维的特征增强,采用基于aia模块的自注意力机制实现可见光和热红外图像空间维的全局特征增强,基于transformer互注意力机制实现模板与搜索分支的特征交互融合实现目标定位,在保证算法实时性的同时提升了跟踪精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1