基于知识蒸馏和无监督训练方式的跨模态知识迁移方法

文档序号：36727323发布日期：2024-01-16 12:35阅读：15来源：国知局

本发明属于目标跟踪，具体涉及一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法。

背景技术：

1、近年来，cnn特征取代了早期手工设计的特征，用于红外跟踪的特征表示。然而，红外数据标注不足，不能进行大量、充分的有监督训练，严重限制了目标跟踪任务的性能。近期，无监督学习的迅速发展，为红外模态的训练提供了新的思路。对比学习的应用目前已经将无监督学习的性能显著提高，甚至可以与有监督学习相媲美。

2、但是，现有的无监督学习方式主要任务仍然是单一模态内部多个模型之间的知识蒸馏，目的在于以更小的模型实现更优越的性能。知识蒸馏的主要想法是学生模型模仿教师模型，从而取得相近甚至优于教师模型的性能。红外模态数据能有效应对天气变化、光照变化等挑战，但是因为缺乏颜色、纹理信息，更难应对遮挡、背景复杂等挑战。考虑到可见光模态与红外模态下目标跟踪模型性能的巨大差距，将两个模态的模型分别作为教师和学生，进行模态间的知识迁移，是一种有效提升红外模态下目标跟踪模型性能的方法。

技术实现思路

1、为了克服现有技术的不足，本发明提供了一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，采用知识蒸馏和无监督的训练方式对可见光模态和红外模态之间的相似信息进行最大化的提取，从而提升红外模态下目标跟踪的性能。提出的无监督的训练方式能够利用两个模态之间的共同信息，将可见光模态下有监督训练好的模型所具有的跟踪能力，通过知识蒸馏的方法，迁移到红外模态下来，提升该模态下模型的跟踪能力。本发明采用无监督训练方式，解决了某些模态下数据标注不足，从而严重限制模型性能的问题，并具有易拓展性。

2、本发明解决其技术问题所采用的技术方案包括如下步骤：

3、步骤1：从训练数据集中，随机提取一个序列的第i帧的可见光图像和红外图像；

4、步骤2：根据可见光图像和红外图像的相似信息，设定一个伪标签；

5、步骤3：利用在可见光模态下通过有监督方式训练好的特征提取网络，分别对可见光和红外图像提取cnn特征，得到可见光特征和红外特征；

6、步骤4：利用在可见光模态下通过有监督方式训练好的分类网络对可见光特征和红外特征分别进行处理，即，根据红外特征生成一个滤波器，然后与可见光特征做卷积，得到响应图；

7、步骤5：利用在可见光模态下通过有监督方式训练好的回归网络对可见光特征和红外特征进行处理，即，根据红外特征生成一个特征向量，作为通道权重，然后与可见光特征的特征表示做通道上的加权，再通过一个尺度预测器得到置信度分数；

8、步骤6：根据响应图，取得分最高的点作为目标中心点；再根据置信度分数，计算最佳的目标包围框的尺寸；

9、步骤7：根据分类网络和回归网络的损失函数，计算总损失，再对处理红外图像的特征提取网络、分类网络和回归网络进行反向传播；

10、步骤8：将训练好的适用于红外图像的特征提取网络、分类网络和回归网络组合成红外跟踪网络，根据总的损失函数对红外跟踪网络执行反向更新操作从而对网络参数进行调整，即能用于红外模态下目标跟踪任务。

11、优选地，所述两个图像的相似信息包括场景一致性和目标一致性。

12、优选地，所述步骤2中伪标签的设定，有如下3种方法：

13、方法1：裁剪图像中心1/5大小的区域作为伪标签，一张图像仅有一个伪标签，大小固定；

14、方法2：随机裁剪图像多处特定大小的区域作为伪标签，并在图像某一维度上控制这些区域不重叠，一张图像有多个伪标签，大小固定；

15、方法3：采用目标检测器的检测结果作为伪标签，一张图像有多个伪标签，大小不固定。

16、优选地，所述伪标签的公式表达有如下两种方式：

17、

18、

19、其中，(cleft,ctop)是伪标签的左上角坐标，(cf,cf)是伪标签的中心坐标，w和h是伪标签的宽和高。

20、优选地，所述分类网络的具体为：

21、

22、其中，xv和xt分别代表可见光特征和红外特征，φ代表分类网络中用于处理红外图像特征的分支，作用是生成一个红外模态下的滤波器，代表卷积操作，rmap代表得到的响应图。

23、优选地，所述回归网络具体为：

24、

25、其中，xv和xt分别代表可见光特征和红外特征，θ代表回归网络中用于处理红外图像特征的分支，作用是生成一个特征向量，作为通道上的权重，代表回归网络中用于处理可见光图像特征的分支，作用是生成一个特征表示，·代表通道上的加权操作，ψ代表利用加权后的特征进行尺度预测的操作，score代表得到的置信度分数。

26、优选地，所述的分类损失函数、回归损失函数和总的损失函数，分别写作：

27、

28、其中，rmapi代表第i帧可见光和红外图像经处理后得到的响应图，代表第i帧图像设定的伪标签；n代表一次训练处理的帧数，μ是一个正则化参数；

29、

30、其中，scorei代表第i帧可见光和红外图像经处理后得到的置信度分数，代表第i帧图像设定的伪标签的变形，v是一个正则化参数；

31、l(φ,θ)＝lclf(φ)+λlreg(θ)

32、其中，λ是正则化参数，用来平衡两个网络之间的权重。

33、优选地，所述目标检测器为yolo v5网络。

34、本发明的有益效果如下：

35、1.本发明提出的方法具有通用性，任何基于孪生网络架构的目标跟踪模型都可以采用该方法进行多个模型之间或是多个模态之间的知识迁移。

36、2.本发明提出的方法与一般的知识蒸馏方法不同，采用的是无监督的训练方式，解决了某些模态下数据标注不足，从而严重限制模型性能的问题，并具有易拓展性，任何成对采集的多模态数据都可利用本方法进行训练，无需额外标注。

37、3.本发明提出的方法能够有效与实际任务相结合，将蒸馏过程融入精心设计的、与任务相关的损失函数，使得知识蒸馏过程更有针对性、更加高效。

技术特征：

1.一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，其特征在于，所述两个图像的相似信息包括场景一致性和目标一致性。

3.根据权利要求1所述的一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，其特征在于，所述步骤2中伪标签的设定，有如下3种方法：

4.根据权利要求3所述的一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，其特征在于，所述伪标签的公式表达有如下两种方式：

5.根据权利要求4所述的一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，其特征在于，所述分类网络的具体为：

6.根据权利要求5所述的一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，其特征在于，所述回归网络具体为：

7.根据权利要求6所述的一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，其特征在于，所述的分类损失函数、回归损失函数和总的损失函数，分别写作：

8.根据权利要求3所述的一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，其特征在于，所述目标检测器为yolo v5网络。

技术总结
本发明公开了一种基于知识蒸馏和无监督训练方式的跨模态知识迁移方法，采用知识蒸馏和无监督的训练方式对可见光模态和红外模态之间的相似信息进行最大化的提取，从而提升红外模态下目标跟踪的性能。提出的无监督的训练方式能够利用两个模态之间的共同信息，将可见光模态下有监督训练好的模型所具有的跟踪能力，通过知识蒸馏的方法，迁移到红外模态下来，提升该模态下模型的跟踪能力。本发明采用无监督训练方式，解决了某些模态下数据标注不足，从而严重限制模型性能的问题，并具有易拓展性。

技术研发人员：查宇飞,李航飞,孙静娴
受保护的技术使用者：西北工业大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：查宇飞,李航飞,孙静娴
技术所有人：西北工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。