基于多阶段辅助学习的可见光-红外行人重识别方法

文档序号:37117195发布日期:2024-02-22 21:17阅读:25来源:国知局
基于多阶段辅助学习的可见光-红外行人重识别方法

本发明涉及计算机视觉,特别是涉及基于多阶段辅助学习的可见光-红外行人重识别方法。


背景技术:

1、行人重识别技术是一种应用于视频监控、智能安全等领域的技术,旨在不同的摄像头和时间下检索相同的行人。然而,在夜间,大多数可见光行人重识别技术无法很好地工作。为了解决这个问题,红外相机捕捉的图像在实际场景中被考虑,从而产生了可见光-红外行人重识别的技术。可见光-红外行人重识别的技术主要存在三个主要的挑战:巨大的模态差距、对光照条件的敏感性以及基于模态的服装变化可能发生。

2、随着深度学习的发展,可见光-红外行人重识别技术方法层出不穷,可见光-红外行人重识别技术的主要目标是提取具有判别性的模态共享特征表示。针对可见光和红外两种模态之间的异质性差异,目前可见光-红外行人重识别技术主要有两种方法,分别是通过特定网络设计或数据增强减少模态差异和生成中间模态或跨模态图像辅助学习。

3、在可见光-红外行人重识别技术中,不同的光谱图像之间具有不同的物理特征和成像质量差异,可见光图像和红外图像在物理成像原理上存在差异,深度学习算法是目前主流的解决方案。目前,主流工作通过在特定层共享权重的网络模型来提取具有判别性的模态共享特征。然而,在imagenet数据集上预先训练的网络权重通常对浅层特征(如颜色、纹理等)有较强的依赖性,这可能导致在特征提取过程中丢失一些关键的模态特定信息。近年来,为了有效提取具有判别性的模态共享特征已经做了很多工作,一些采用细粒度的技术方案帮助提升检索性能,但在细粒度特征对齐等方面还存在一定的技术难度。还有一些技术通过设计三模态或四模态网络来生成跨模态桥梁或使用生成对抗网络生成对应模态图像辅助进行训练,增加中间模态网络分支有助于提取共享特征,但这可能会引入额外的噪声并大量增加网络成本。此外,一些技术通过模态对齐来减小模态之间的差异,但由于姿态、采样等多个方面的限制,对齐效果可能会受到影响。


技术实现思路

1、为了解决上述现有技术中的不足,本发明的目的是提供一种基于多阶段辅助学习的可见光-红外行人重识别方法,采用一种新的多阶段辅助学习策略,而不增加网络流数,可以有效节约网络训练成本并提高检索性能。

2、本发明解决其技术问题所采用的技术方案为:

3、提供了一种基于多阶段辅助学习的可见光-红外行人重识别方法,训练过程分为两个阶段:

4、将两种模态的图像分别进行灰度直方图均衡化,作为第一阶段的训练样本;

5、在第二阶段中,使用原始的可见光图像和红外模态图像进行训练;

6、在整个训练过程中,使用异质特征补偿学习模块生成两个富含跨模态信息的辅助特征分支,与多阶段策略结合,补偿提取过程中可能丢失的一些关键性特定信息。

7、进一步的,训练过程包括以下过程:

8、在网络深层使用骨干网络共享权重残差层对图像进行识别,提取模态共享特征;

9、使用模态相似度增强模块增加模态间的相似度,不直接使用相似度得分,而是先获得被抑制的不相似位置的特征表示,然后利用这些被抑制的嵌入来进一步增强跨模态相似位置的特征,能够少跨模态干扰信息并促进模态特征一致性;

10、使用异质特征补偿学习模块对可见光和红外图像的特征进行跨模态补偿,通过生成富含跨模态信息的特征分支进行辅助学习。

11、进一步的,灰度直方图均衡化过程中,分别对原始可见光图像xvis和红外图像xvis应用非线性映射,将图像进行灰度直方图均衡化变换,分别得到灰度值均匀分布的中间模态图像利用替换原有的模态作为输入。

12、进一步的,可见光图像xvis获得中间模态图像的具体计算过程为:

13、首先,对xvis进行灰度转换得到

14、

15、然后,计算像素值对应的累计分布函数t(·)的值:

16、

17、最后,直方图均衡化的公式被定义为:

18、

19、其中,xr、xg和xb分别表示xvis的三个通道,n表示当前图像的像素总数,m表示图像的像素值,na表示像素值为a的像素数量,t(·)表示累积分布函数,tmin表示所有像素值的最小累积分布函数的值,l表示像素值的范围。

20、进一步的,模态相似度增强模块减少跨模态干扰信息并增加模态间的相似度的方法为:

21、定义经过骨干网络第三个残差层后得到的特征图为{tvis,tir}∈rc×h×w,首先,使用三个1×1卷积层ψq,ψk,ψv,将输入特征向量tvis和tir转化为三个紧凑嵌入ψq(tvis,ψk(tir),ψv(tvis),然后,通过矩阵乘法和随后的softmax来计算通道方向的相似性矩阵。

22、进一步的,通过以下计算过程得到tvis的不相似位置被抑制的特征表示tvis′:

23、

24、

25、其中,fsoftmax函数用于将嵌入映射到表示得分概率分布的有效的数空间,用于得到负相似度被增强的嵌入,ψw(·)是将嵌入的通道数扩展为原通道数的线性嵌入,通过tvis与负相似度被增强的嵌入相减,能够得到tvis的不相似位置被抑制的特征表示tir′;

26、再通过以下公式得到一致性的跨模态特征表示输出和

27、

28、

29、

30、

31、其中,是三个1×1卷积层,用于将输入特征转换为紧凑嵌入,表示相似度得分。

32、进一步的,所述异质特征补偿学习模块对可见光和红外图像的特征进行跨模态补偿的方法为:

33、将经过骨干网络第四个残差层后得到的特征图定义为{fvis,fir}∈rc×h×w,将其作为异质特征补偿学习模块的输入,分别定义两个模态对应的补偿信息为subvis=fvis-fir和subir=fir-fvis,其中subvis和subir分别表示两个输入模态的一些特定补偿信息,然后,通过以下公式对可见光和红外图像的特征进行跨模态补偿,分别得到补偿特征图fvis′和fir′:

34、fvis′=fvis+λh*subir

35、fir′=fir+λh*subvis

36、其中,λh表示补偿信息的权衡权重,设置为0.9;

37、将fvis′作为主输入,fir′作为补偿输入,通过下面的公式得到

38、

39、是fvis′上所有位置特征与fir′在位置i上的跨模态特征之间的相关性特征加权得到的归一化汇总,和分别表示fir′和fvis′在位置i和j的特征,θ(·)、和g(·)都是线性嵌入,exp(·)计算和两个位置上的特征之间的相关性的标量。

40、进一步的,定义y=[y1 y2 … yn],y整合了从fvis′到fir′中每个位置的非局部信息,然后通过f=ω(y)扩展通道数,计算通道增强的输出z,定义如下计算:

41、z=f+f·sigmoid(σ(max(f))+σ(avg(f)))

42、其中,max(·)和avg(·)分别表示自适应最大池化和自适应平均池化,σ(·)指两个全连接层和relu激活函数,由z和fvis′对应位置求和得到可见光特征的辅助分支红外特征的辅助分支和的计算过程相同。

43、进一步的,还结合交叉熵损失和三元组损失来联合优化网络,交叉熵损失被公式化为:

44、

45、其中,fi和yi分别表示第i个样本的分类特征及其对应标签,i是训练身份数量,p(·)表示fi属于yi的概率;

46、三元组损失被定义为:

47、

48、其中,n是输入样本数量,m是一个边界参数,设置为0.3,d(·)用于计算欧氏距离,和分别表示锚点、正样本和负样本特征;

49、第一阶段损失函数能被定义为:

50、l1=lid+ltri

51、进一步的,第二阶段中,还包括使用距离中心对齐损失来优化网络,具体方法为:

52、将经过gem池化和批归一化后的网络的主干和分支特征定义为{fvis,fir,fbvis,fbir},通过以下方式计算主干和分支的跨模态类别中心:

53、

54、

55、其中,k表示每个身份在单一模态下的样本数量,和分别是主干和分支在身份的跨模态类别中心,定义ldca公式为:

56、

57、其中,p是在每个小批次中单个模态的行人标识数量,‖·‖2用来计算欧氏距离,和分别表示主干和分支在第身份的正样本特征,和分别表示主干和分支在第身份的负样本特征,m∈{vis,ir};

58、第二阶段损失函数能被定义为:

59、l2=lid+ltri+λ1ldca

60、其中,参数λ1是用于平衡ldca的超参数,设置为0.5。

61、与现有技术相比,本发明的有益效果在于:

62、1、本发明示例的基于多阶段辅助学习的可见光-红外行人重识别方法,对可见光和红外图像的特征进行跨模态补偿,通过生成富含跨模态信息的特征分支进行辅助学习,并充分利用具有判别性的模态特定信息,以提取更丰富的特征表示,通过多阶段辅助学习策略使模型逐步提取更多判别性模态共享特征,并有效减轻由模态差异带来的负面影响;

63、2、本发明示例的基于多阶段辅助学习的可见光-红外行人重识别方法,提出相似度增强模块,通过行人图像的像素概率分布提供监督信息,以指示训练过程中每个像素的重要性,促进跨模态特征表示的一致性;

64、3、本发明示例的基于多阶段辅助学习的可见光-红外行人重识别方法,设计了距离中心对齐损失,用于降低模态内和模态间的类内差异,增强不同类别之间的可分性,可以有效解决由于姿态、视角和光照等因素的影响导致的同一个行人标识存在的巨大类内差异,从而提高检索性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1