一种基于多路选择注意力机制的目标跟踪方法及装置与流程

文档序号:36489009发布日期:2023-12-26 12:06阅读:35来源:国知局
一种基于多路选择注意力机制的目标跟踪方法及装置与流程

本发明属于目标跟踪领域,更具体地,涉及一种基于多路选择注意力机制的目标跟踪方法及装置。


背景技术:

1、近年来,随着经济的高速发展和科技的不断进步,人工智能技术得到了各行各业的极大关注,以往需要大量人力资源进行监管的场景现在可以逐步由机器代替。经研究表明,人类获取的信息有超过七成是通过视觉获得的,因此,对于人工智能行业的发展来说计算机视觉技术是极为重要的。具体来说,计算机视觉就是指用电子成像设备代替人眼实现对目标的分类、识别等任务。近年来,随着计算机高性能计算资源的普及,深度学习技术被尝试应用到计算机视觉领域。

2、当前,多目标跟踪技术由于其应用范围广、技术难点多的特点,逐渐受到学术界和工业界的关注。现阶段,多目标跟踪技术在智能监控、自动驾驶、交通管制等领域,已有着初步的应用。但由于在跟踪过程中,往往伴随着目标间的频繁遮挡、场景中存在复杂背景干扰、目标运动过程中存在尺度及姿态变化等诸多不利因素,因此难以得到稳定的跟踪效果。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多路选择注意力机制的目标跟踪方法,其目的在于通过修改网络结构与损失函数的方式,优化网络的训练效果,进而增强模型的跟踪准确性与稳定性,由此解决跟踪场景中目标间存在频繁遮挡导致轨迹碎片化,场景中存在复杂背景干扰导致目标定位不准确,目标存在尺度及姿态动态变化等难点问题的技术问题。

2、为实现上述目的,按照本发明的一个方面,提供了一种基于多路选择注意力机制的目标跟踪方法,所述基于多路选择注意力机制的目标跟踪方法包括:

3、从数据集中获取相邻的两帧输入图像,采用跟踪网络分别对每帧输入图像进行特征提取和特征融合,得到每帧输入图像所对应的聚合向量,对两个所述聚合向量进行拼接得到拼接向量;

4、将所述拼接向量分别输入至跟踪网络的类别分类网络分支、身份验证网络分支和边界框对回归网络分支;

5、通过所述类别分类网络分支对所述拼接向量进行类别预测,得到分类损失lcls,通过身份验证网络分支对所述拼接向量进行身份预测,得到身份验证损失lid,通过边界框对回归网络分支对所述拼接向量进行边界框预测,得到回归损失lreg;

6、根据所述分类损失lcls、所述身份验证损失lid和回归损失lreg得到总损失ltotal,对跟踪网络进行多轮迭代训练,直至总损失ltotal收敛,得到训练后的跟踪网络;

7、根据训练后的跟踪网络对实时画面中的目标进行跟踪。

8、进一步地,按照公式一计算总损失ltotal;

9、

10、其中,ω1和ω2为用于平衡分类与回归任务的可学习的参数。

11、进一步地,所述从数据集中获取相邻的两帧输入图像,采用跟踪网络分别对每帧输入图像进行特征提取和特征融合,得到每帧输入图像所对应的聚合向量,对两个所述聚合向量进行拼接得到拼接向量包括:

12、从数据集中获取相邻的两帧输入图像,采用跟踪网络分别对每帧输入图像进行特征提取,以获取高层特征和底层特征;

13、通过上采样的方式将所述高层特征与所述底层特征进行自上而下的聚合,将高层特征传递到底层特征中,完成目标的语音信息的融合;

14、在自上而下的聚合路径的上增加一条自底向上的聚合路径,将底层特征传递到高层特征中,完成目标的位置信息的融合,以得到每帧输入图像所对应的聚合向量;

15、其中,所述高层特征包括目标的语义信息,所述底层特征包括目标的位置信息和纹理信息。

16、进一步地,在所述类别分类网络分支、身份验证网络分支和边界框对回归网络分支中均包括至少一个卷积层;

17、在每个分支的卷积层之后添加有多路选择注意力机制;所述多路选择注意力机制包括空间注意力模块、运动激励模块和时空注意力模块。

18、进一步地,所述通过所述类别分类网络分支对所述拼接向量进行类别预测,得到分类损失lcls包括:

19、通过所述类别分类网络分支中的至少一个卷积层对所述拼接向量进行卷积处理,得到输入向量;

20、通过空间注意力模块对输入向量进行处理,得到通道激励;

21、通过运动激励模块对输入向量进行处理,得到运动激励;

22、通过时空注意力模块对输入向量进行处理,得到时空激励;

23、将所述通道激励乘以权重α,将所述运动激励乘以权重β,将所述时空激励乘以权重λ,对乘以权重后的激励进行加权求和,得到预测输出向量,其中,α、β、λ为网络的参数,伴随网络的训练过程自适应动态调整;

24、根据所述预测输出向量和实际输出向量得到分类损失lcls。

25、进一步地,所述通过身份验证网络分支对所述拼接向量进行身份预测,得到身份验证损失lid包括:

26、通过所述类别分类网络分支中的至少一个卷积层对所述拼接向量进行卷积处理,得到输入向量;

27、通过空间注意力模块对输入向量进行处理,得到通道激励;

28、通过运动激励模块对输入向量进行处理,得到运动激励;

29、通过时空注意力模块对输入向量进行处理,得到时空激励;

30、将所述通道激励乘以权重α,将所述运动激励乘以权重β,将所述时空激励乘以权重λ,对乘以权重后的激励进行加权求和,得到预测输出向量,其中,α、β、λ为网络的参数,伴随网络的训练过程自适应动态调整;

31、根据所述预测输出向量和实际输出向量得到身份验证损失lid。

32、进一步地,所述通过边界框对回归网络分支对所述拼接向量进行边界框预测,得到回归损失lreg包括:

33、将所述拼接向量、所述类别分类网络分支所输出的预测输出向量和所述身份验证网络分支所输出的预测输出向量进行向量相乘,得到输入向量;

34、通过空间注意力模块对输入向量进行处理,得到通道激励;

35、通过运动激励模块对输入向量进行处理,得到运动激励;

36、通过时空注意力模块对输入向量进行处理,得到时空激励;

37、将所述通道激励乘以权重α,将所述运动激励乘以权重β,将所述时空激励乘以权重λ,对乘以权重后的激励进行加权求和,得到预测输出向量,其中,α、β、λ为网络的参数,伴随网络的训练过程自适应动态调整;

38、根据所述预测输出向量和实际输出向量得到回归损失lreg。

39、进一步地,所述通过空间注意力模块对输入向量进行处理,得到通道激励包括:

40、通过空间注意力模块对输入向量的每一个通道的特征图进行全局平均池化,得到所有像素的平均值,通过卷积核为k×k的一维卷积将平均值进行卷积,得到通道激励;

41、所述通过运动激励模块对输入向量进行处理,得到运动激励包括:

42、通过运动激励模块对输入向量经卷积核为m的二维卷积进行通道降维,将经过通道降维后的输入向量分为第一路向量和第二路向量;将所述第一路向量经卷积核为n的二维卷积操作后与第二路向量做差值,得到差值向量;对差值向量进行补0操作,得到中间向量,将中间向量经平均池化后,再次经卷积核为m的二维卷积恢复原始通道数,并产生运动激励;

43、所述通过时空注意力模块对输入向量进行处理,得到时空激励包括:

44、将输入至时空注意力模块的输入向量切分成两路,其中一路对通道维度进行平均池化,并利用卷积核为p的三维卷积进行卷积操作;将经过卷积的向量与另一路向量做乘法操作,并产生时空激励。

45、进一步地,所述数据集包括公用数据集和自采数据集,其中,公用数据集包括mot17或mot20;所述自采数据集的采集地点包括拥挤的车站、室内商场和繁华的商业街中的一个或多个,采集的数据中包含相机固定与相机运动两种模式;所述自采数据集的样本标注格式与mot17数据集格式相同,包含目标的位置信息、类别信息和身份信息。

46、按照本发明的另一方面,提供了一种基于多路选择注意力机制的目标跟踪装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成第一方面所述的基于多路选择注意力机制的目标跟踪方法。

47、总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:在本发明中,采用动态加权的损失函数,用以促进网络的均衡训练,优化网络的训练效果,提升跟踪模型的表达能力。

48、进一步地,空间注意力模块产生的通道激励可使得网络专注于目标特征的学习,抑制图像中出现的复杂背景干扰;运动激励模块可产生目标在相邻视频帧之间的运动激励,辅助网络更好的学习行人目标在帧间出现的姿态变化;时空注意力模块可产生时空激励,时空激励可帮助网络在时间序列上掌握目标的完整运动轨迹,进而解决因目标间频繁遮挡而导致的轨迹碎片化与身份切换等问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1