一种基于多模态单流记忆网络的单目标跟踪方法

文档序号:34734122发布日期:2023-07-12 17:54阅读:28来源:国知局
一种基于多模态单流记忆网络的单目标跟踪方法

本发明涉及人工智能中单目标跟踪的,尤其涉及一种基于多模态单流记忆网络的单目标跟踪方法。


背景技术:

1、目标跟踪是计算机视觉中的一项基本任务,在智能监控、无人机等领域有着广泛的应用。给定一个感兴趣的对象,目标跟踪的目的是在后续帧中准确定位它。随着深度学习的普及,目标跟踪已经取得了重大进展。然而,在面对复杂的目标和背景变化时,跟踪器的性能往往令人失望。

2、在目标跟踪中,目标建模是最基本也是最重要的部分之一。目标模型越完善,跟踪目标越准确。目前流行的大多数基于孪生的跟踪框架都依赖于第一帧中给出的信息来构建目标模型,但它是不稳定的,随着目标的外观不断变化,原来的目标模型将不再适用于新的目标状态。

3、为了解决这一问题,许多研究者使用记忆网络,使用跟踪过程中收集的样本来细化目标模型。然而,这些跟踪器仅根据视觉信息对目标的外观进行建模,当外观发生剧烈变化时,很容易漂移。那么,是否存在一种新的方法来构建具有丰富语义信息的目标模型,而不仅仅是具有外观信息的目标模型。

4、人类生活的世界是混乱而复杂的。人类通过组合和吸收不同模式(视觉、听觉、嗅觉、触觉等)的信息来理解和感知世界。仅仅依靠视觉信息是理解物体的不完全方法。如果一台计算机想要像人一样学习和思考,它必须能够处理多种模式的信息。近年来,多模态学习越来越多地应用于计算机视觉任务中。最常用的方法是将语言信息引入目标检测和语义分割,并取得了出色的效果。语言是一种高级表示,它可以弥补视觉表示中语义信息的不足,并提供了较强的对同类目标和相似外观进行分离的先验性。

5、申请号为202210152336.4的发明专利公开了一种基于混合注意力机制的端到端单目标跟踪方法,构建一个跟踪框架mixformer用于目标跟踪,跟踪框架mixformer为一个端到端训练的transformer跟踪网络,包括一个主干网络和一个跟踪头,基于混合注意力模块mam的特征提取器来同时进行特征提取与目标信息融合,首先将目标帧和测试帧的拼接向量分割开来并且分别reshape成一个2d向量,然后过一个多头注意力函数,将产生的两个2d向量拼接并且过一个线性层即可得到融合了模板信息的测试帧特征;通过两个简单的回归头和分类头,得到跟踪目标框并进一步通过在线跟踪结果补充更新跟踪标签,得到了一个简洁清晰的跟踪框架,能有效地提升跟踪准确性。但是,mixformer是完全基于视觉信息进行跟踪的。由于视觉信息的多变性,mixformer在面对目标视觉形态发生较大变化时会造成跟踪失败。而且其使用了多个模板特征,明显地增加了计算量,影响了模型的跟踪速度。


技术实现思路

1、针对现有根据视觉信息进行目标跟踪的方法容易随着外观变化跟踪精度降低的技术问题,本发明提出一种基于多模态单流记忆网络的单目标跟踪方法,将多模态学习引入到跟踪任务当中,利用文本信息中稳定的语义信息来弥补视觉信息中外观特征的不稳定性,有效地提高了跟踪的鲁棒性。

2、为了达到上述目的,本发明的技术方案是这样实现的:一种基于多模态单流记忆网络的单目标跟踪方法,其步骤如下:

3、步骤一:使用矩形框从需要跟踪的视频的第一帧图片中选取需要跟踪的目标,然后根据矩形框裁剪出目标区域作为目标样本存入记忆器中;

4、步骤二:获取描述目标的文本,将文本输入语言模型获得语言特征tl;

5、步骤三:根据上一帧中目标的位置信息截取当前帧中的搜索区域图像,对搜索区域图像进行特征提取得到搜索区域特征ts;

6、步骤四:在记忆器中使用均匀采样选择至少2个目标样本,对目标样本进行特征提取得到记忆特征tm;

7、步骤五:将记忆特征tm、搜索区域特征ts和语言特征tl在第一个维度上进行串联得到特征序列tslm,将特征序列输入多模态单流注意力网络进行特征提取,获得多模态综合特征;

8、步骤六:将多模态综合特征中搜索区域特征拆分出来输入预测头,获得目标包围框;

9、步骤七:将多模态综合特征中拆分出处理后的搜索区域特征和语言特征输入基于语言的评估模块对当前搜索区域中目标的状态进行预测,如果预测得分高于预设阈值,则得到的目标包围框从当前搜索区域图片中裁剪出目标区域作为目标样本存入记忆器;

10、步骤八:获取下一帧视频并返回步骤三,直至整个跟踪任务结束。

11、优选地,所述语言模型是训练好的roberta语言模型,将描述目标的文本进行切割、编码并提取特征;所述语言特征包含目标的外观信息以及目标与场景之间的空间关系;

12、所述搜索区域特征中包含着目标信息和除目标外的背景信息;

13、所述记忆特征中包含了目标各种视觉形态的信息,同时包含少量的背景信息。

14、优选地,所述对搜索区域图像或目标样本进行特征提取的实现方法为:

15、将搜索区域图像或目标样本分割为高和宽为w×h、通道数为3的图像块;使用reshape操作将每个图像块展平成特征嵌入的深度d=1×3wh的图像序列,使用线性层对图像序列进行特征提取得到搜索区域特征ts或记忆特征tm;

16、所述线性层是一层全连接的神经网络,对图像序列中不同通道的信息进行融合。

17、优选地,所述多模态注意力网络中,包含了12个串联的多模态注意力层,每个多模态注意力层中包含自注意力模块、记忆特征筛选模块和多层感知机,自注意力模块用于建立搜索区域特征、记忆特征和语言特征之间的相似关系,使目标样本、搜索区域和语言特征中的目标信息相互流通;记忆特征筛选模块用于消除记忆特征中包含的背景信息或噪声信息;多层感知机用于聚合不同通道之间的特征,挖掘其中的语义信息。

18、优选地,所述多模态注意力层的计算方法为:

19、(1)将特征序列经过层归一化和线性映射操作分别得到特征其中,ns代表搜索区域特征的长度,nl代表语言特征的长度,nm代表记忆特征的长度,d代表特征嵌入的深度,linear()代表一个全连接层网络,用于提取更深层的特征;ln()代表层归一化函数,将输入转化为均值为0、方差为1的数据;

20、(2)将得到的特征q、k和v输入自注意力模块的注意力公式,将注意力公式的输出与输入相加再进行层归一化操作得到特征其中,softmax()是激活函数,t表示矩阵的转置;

21、(3)使用记忆特征筛选模块的记忆特征选择策略利用语言特征对综合特征tatt中的记忆特征进行筛选,得到筛选记忆特征后的特征tmst;

22、(4)将特征tmst输入多层感知机,得到多层感知机输出的特征,然后将多层感知机输出的特征与输入的特征tmst相加并且进行层归一化得到多层感知机的输出特征其中,mlp()代表多层感知机的操作;

23、(5)将特征tatt和多层感知机的输出特征tmlp相加后,得到多模态综合特征其中,n′m表示进行记忆特征筛选之后记忆特征的长度。

24、优选地,所述记忆特征选择策略为:语言特征tl与记忆特征tmt进行矩阵乘法运算,然后除以最后使用softmax函数进行归一化得到相似矩阵alm为:

25、

26、相似矩阵alm中的每一个元素取决于语言特征tl中的第j个元素和记忆特征tm中的第k个元素之间的相似度,1≤j≤nl,1≤k≤nm;

27、根据相似矩阵alm对特征tatt中的记忆特征tm进行筛选,每次筛选只保留90%相似度最高的记忆特征,得到筛选记忆特征后的特征tmst输入下一层的多模态注意力层。

28、优选地,所述获得目标包围框的方法为:

29、1)将多模态综合特征tfinal中前ns个属于搜索区域特征的序列提取出来记为搜索区域特征t′s;

30、2)将搜索区域特征先经过reshape操作得到特征图大小的特征其中,w和h为特征图的宽和高,reshape()表示将搜索区域特征t′s变换成指定维数的操作函数;

31、3)将特征t″s输入预测头的中心分支得到置信度图p∈[0,1]w×h,然后找出置信度图p中的峰值点(xc,yc);

32、4)将特征t″s输入预测头的偏移分支得到偏移特征图o∈(0,1)2×w×h;

33、5)将特征t″s输入预测头的尺寸分支得到归一化之后的包围框大小特征图s∈[0,1]2×w×h;

34、6)结合中心分支、偏移分支和尺寸分支三个分支的输出得到最终的目标包围框的位置和大小:

35、(x,y,w,h)=(xc+o(0,xc,yc),yc+o(1,xc,yc),s(0,xc,yc),s(1,xc,yc));

36、其中,x,y,w,h分别代表预测得到的目标包围框的中心坐标位置以及宽、高;o(0,xc,yc)表示从偏移特征图o中选出第0个通道、第xc行、第yc列的值,o(1,xc,yc)表示从偏移特征图o中选出第1个通道、第xc行、第yc列的值,s(0,xc,yc)表示从包围框大小特征图s中选出第0个通道、第xc行、第yc列的值,s(1,xc,yc)表示从包围框大小特征图s中选出第1个通道、第xc行、第yc列的值。

37、优选地,所述中心分支、偏移分支和尺寸分支由5个堆叠的conv-bn-relu层组成,conv代表卷积函数,bn代表批归一化函数,relu代表激活函数;所述中心分支对融合多个目标状态和语言描述信息的搜索区域特征进行解码,从而预测出目标的大致位置;偏移分支预测出目标真实的中心位置距离中心分支给出的坐标点之间的偏移,对中心分支给出的坐标进行纠正,从而结合中心分支预测出准确的目标中心坐标;尺寸分支预测目标的高和宽,结合给出的目标中心坐标,准确地绘制出的目标包围框。

38、优选地,所述基于语言的评估模块对当前搜索区域中目标的状态进行预测的方法为:

39、s1、根据目标包围框从搜索区域中裁剪出目标区域,将目标区域划分成4×4的网格区域,对于每个网格区域选择16个规则采样点,利用双线性插值计算得到16个规则采样点的像素值大小,然后分别对每个网格区域进行全局最大池化操作得到最终的特征图并对齐进行reshape操作得到搜索区域的目标特征

40、s2、将基于语言的评估模块中离线训练过程中学习到分数token与搜索区域中的目标特征t″′s进行交叉注意操作,得到融合了目标信息的分数tokent′score;

41、s3、将融合了目标信息的分数tokent′score与多模态综合特征tfinal中第ns+1个到ns+nl个序列的语言特征t′l进行交叉注意操作,得到搜索区域特征中目标信息与语言特征中目标信息相似度的特征t″score;

42、s4、将特征t″score输入多层感知机进行解码,得到最终的预测得分其中,mlp()为多层感知机的操作;多层感知机将特征t″score中高维的搜索区域中目标信息与语言特征中的目标信息之间的相似性映射到低维空间中,表现为一个0-1之间的小数;

43、s5、预测得分t″′score大于预设阈值时,把目标区域按照生成的目标包围框进行裁剪,得到目标样本。

44、优选地,所述目标特征中的信息分数tokent′score的计算方法:

45、

46、其中,表示矩阵乘法;

47、特征t″score的计算方法:

48、

49、在每一次进行特征提取时都使用均匀采样在记忆器中选择5帧图像提取记忆特征;

50、所述多层感知机由三层堆叠的linear-bn组成,linear代表线性映射,bn代表批归一化,前两层linear-bn后面还添加了relu激活函数。

51、相对于现有的单纯基于视觉的跟踪方法,本发明的有益效果:基于自注意力机制提出了基于多模态的目标表征方法,同时利用视觉信息和文本信息进行目标建模,可以获得更加完善的目标模型,从而提高目标模型对于目标变化的适应能力。此外,本发明基于交叉注意力机制提出了一种基于语言的评估模块,可以利用语言信息的稳定性提供更加可靠的结果评估方法,从而给目标建模提供更加优质的视觉信息。本发明结合了多模态学习和单流网络结构的优势,利用文本信息的稳定性来弥补视觉信息的脆弱性,从而提升了目标跟踪的精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1