基于高阶结构建模的跨模态行人重识别方法及系统

文档序号:36388319发布日期:2023-12-15 03:43阅读:38来源:国知局
基于高阶结构建模的跨模态行人重识别方法及系统

本发明涉及本发明属于计算机视觉,具体涉及一种基于高阶结构建模的跨模态行人重识别方法及系统。


背景技术:

1、在过去的几年中,行人重识别(reid)由于其在监控和安全应用中的重要性而引起了越来越多的关注。人们提出了大量基于可见光(vis)相机的单模态行人再识别方法。然而,这些方法在弱光条件下可能会失败。与vis相机不同,红外(ir)相机受照明变化的影响较小。最近,可见光和红外相机的可见光-红外行人重识别(vi-reid)其可以匹配跨模态行人图像,从而减轻单模态行人重识别的局限性,也受到了广泛的关注。

2、vi-reid的一个主要挑战是vis和ir图像之间的巨大模态差异。为了减少模态差异,现有的vi-reid方法可以分为图像和特征级方法。图像级方法(dai等人(dai,p.;ji,r.;wang,h.;wu,q.;and huang,y.2018.cross-modality person re-identification withgenerative adversarial training.in proceedings of the international jointconference on artificial intelligence,1–7.);wang等人(wang,z.;wang,z.;zheng,y.;chuang,y.;and satoh,s.2019.learning to reduce dual-level discrepancy forinfrared-visible person re-identification.in proceedings of the ieee/cvfconference on computer vision and pattern recognition,618–626.);wei等人(wei,z.;yang,x.;wang,n.;and gao,x.2022.rbdf:reciprocal bidirectional framework forvisible infrared person reidentification.ieee transactions on cybernetics,52(10):10988–10998.))通常通过生成中间模态图像或新模态图像来减少模态差异。wei等人(wei,z.;yang,x.;wang,n.;and gao,x.2022.rbdf:reciprocal bidirectionalframework for visible infrared person reidentification.ieee transactions oncybernetics,52(10):10988–10998.)提出了一种双向图像转换子网络,用于从vis和ir模态生成中间模态图像。然而,基于gan的方法很容易出现颜色不一致或图像细节丢失的问题。因此,生成的图像对于后续检索可能不可靠。特征级方法将不同模态的特征映射到公共特征空间中,以减少模态差异。一些方法(如ye,m.;shen,j.;lin,g.;xiang,t.;shao,l.;and hoi,s.c.2021b.deep learning for person re-identification:a survey andoutlook.ieee transactions on pattern analysis and machine intelligence,44(6):2872–2893.;chen,c.;ye,m.;qi,m.;wu,j.;jiang,j.;and lin,c.-w.2022a.structure-aware positional transformer for visible-infrared person re-identification.ieee transactions on im-age processing,31:2352–2364.;yang,b.;chen,j.;and ye,m.2023.top-k visual tokens transformer:selecting tokens forvisible-infrared person re-identification.in proceedings ofthe ieeeinternational conference on acoustics,speech and signal processing,1–5.;zhang,y.;andwang,h.2023.diverse embedding expan-sion network and low-lightcross-modality benchmark for visible-infrared person re-identification.inproceedings of the ieee/cvf conference on computer vision and patternrecognition,2153–2162.)利用cnn或vit作为骨干网络来提取特征。另一些方法(如chen,c.;ye,m.;qi,m.;wu,j.;jiang,j.;and lin,c.-w.2022a.structure-aware positionaltransformer for visible-infrared person re-identification.ieee transactionson im-age processing,31:2352–2364.;wan,l.;sun,z.;jing,q.;chen,y.;lu,l.;andli,z.2023.d2da:geometry-guided dual-alignment learning for rgb-infraredperson re-identification.pattern recognition,135:109150.)采用现成的关键点提取器来生成行人图像的关键点标签并学习与模态无关的特征。但关键点提取器可能会引入噪声标签,从而恶化最终行人特征的可辨别性。许多vi-reid方法(如huang,n.;liu,j.;luo,y.;zhang,q.;andhan,j.2023.exploring modality-shared appearance features andmodality-invariant relation features for cross-modalityperson re-identification.pattern recognition,135:109145.huang,n.;liu,k.;liu,y.;zhang,q.;and han,j.2022.cross-modality person re-identification via multi-tasklearn-ing.pattern recognition,128:108653.)采用基于对比的损失,直接最小化vis和ir特征之间的距离,以获得公共特征空间。然而,由于模态之间存在较大的模态差异,学习合理的公共特征空间并不是一项简单的任务。


技术实现思路

1、本发明的目的在于提供一种基于高阶结构建模的跨模态行人重识别方法及系统,该方法及系统有利于获得更加稳定、鲁棒、准确的跨模态行人重识别结果。

2、为了实现上述目的,本发明采用的技术方案是:一种基于高阶结构建模的跨模态行人重识别方法,包括以下步骤:

3、1)从数据集中成对抽取多个行人的可见光(vis)图片和红外(ir)图片,形成vis-ir图片对训练数据集;

4、2)构建基于高阶结构建模的跨模态行人重识别网络模型,所述跨模态行人重识别网络模型主要包括骨干网络、短长范围特征提取模块、高阶结构学习模块和共享空间学习模块,所述骨干网络用于提取图像的基本特征,所述短长范围特征提取模块用于从图像中提取不同范围尺度的特征,所述高阶结构学习模块用于学习图像中的高阶结构信息,以更好地表示行人的特征,所述共享空间学习模块用于减少行人在不同模态下的差异;通过vis-ir图片对训练数据集对跨模态行人重识别网络模型进行训练,得到可泛化的模型参数;

5、3)将训练好的跨模态行人重识别网络模型用于跨模态检索,实现不同模态之间的行人重识别。

6、进一步地,步骤1)中,所述数据集为sysu-mm01/regdb/llcm跨模态行人重识别数据集,采用成对抽取的方式从sysu-mm01/regdb/llcm跨模态行人重识别数据集中抽取p个行人的k张vis图片和k张ir图片,形成vis-ir图片对训练数据集。

7、进一步地,步骤2)中,所述跨模态行人重识别网络模型的实现方法为:

8、a)对成对输入的vis图片和ir图片,通过骨干网络提取行人vis基本特征和行人ir基本特征,然后将提取到的行人vis基本特征和行人ir基本特征输入到短长范围特征提取模块中,提取行人vis短长范围特征和行人ir短长范围特征;

9、b)通过高阶结构学习模块来获取行人vis短长范围特征和行人ir短长范围特征中包含的高阶结构信息,得到行人vis短长范围增强特征和行人ir短长范围增强特征,以刻画行人的不同局部特征之间的高阶关系,且不受模型坍塌影响,从而增强特征表示;

10、c)将得到的行人vis短长范围增强特征和行人ir短长范围增强特征输入共享空间学习模块,通过生成中间特征来学习有判别性且合理的共享特征空间,以减少模态差异的负面影响;

11、d)引入模态-范围行人中心对比损失来提升特征表示并减少相同行人vis、ir和中间特征之间的差异,并且联合分类损失和三元组损失以最小化损失值为目标,通过vis-ir图片对进行跨模态行人重识别网络模型的迭代训练,进而得到训练好的跨模态行人重识别网络模型。

12、进一步地,步骤a)中,所述骨干网络包括两个第一阶段特征提取模块,以及一个第二到四阶段特征提取模块和一个第五阶段特征提取模块,所述短长范围特征提取模块包括短范围特征提取模块和长范围特征提取模块,所述短范围特征提取模块和长范围特征提取模块分别由卷积网络和transformer网络构成;将成对的vis和ir图片分别输入第一阶段特征提取模块,然后同时输入第二到四阶段特征提取模块,得到行人vis基本特征bvis和行人ir基本特征bir;然后将得到的行人vis基本特征bvis和行人ir基本特征bir分别输入短范围特征提取模块和长范围特征提取模块,得到行人vis、ir短范围特征和行人vis、ir长范围特征特征大小均为其中h,w和c分别表示特征的高、宽和通道大小,从而得到特征集合其用作高阶结构学习模块的输入;经过高阶结构学习模块得到结构增强特征集合并且将得到的特征集合输入到共享空间学习模块得到中间特征集合在获得结构增强特征集合和中间特征集合后,再通过第五阶段特征提取模块进行特征的深层次语义关联。

13、进一步地,步骤b)中,为了避免超图模型在构建行人高阶关系时出现超边表示趋同的问题,引入特征白化操作使特征映射到球形空间,减少特征之间的耦合,以更好地建立特征节点之间的高阶关系,白化后的特征节点f'n如下所示:

14、

15、其中,为集合q中特征的每一个特征节点;μf表示特征f的均值;σ表示由科列斯基分解得到的下三角矩阵;γn和βn表示仿射变换参数;

16、使用互相关学习关联矩阵来获取节点之间的联系,如下所示:

17、y=ε(ψ(f')λ(f')ψ(f')tω(f'))

18、其中,n表示节点的数量,其等于hw;m表示超边个数;c表示通道数;ψ(·)表示线性转换层;λ(·)和ω(·)分别表示对角线运算学习距离度量方法和节点对相应超边的贡献函数;ε(·)表示阶跃函数;

19、然后通过超图卷积得到高阶结构增强的行人特征其表示为:

20、r=(i-d1/2yvb-1ytd-1/2)f'θ+f

21、其中,表示单位矩阵;表示权重矩阵;和表示节点度矩阵和超边度矩阵;θ为可学习参数;对应于行人vis、ir短范围特征和行人vis、ir长范围特征得到行人vis、ir短范围增强特征和行人vis、ir长范围增强特征从而得到结构增强特征集合

22、进一步地,步骤c)中,通过图注意力对齐来自不同模态和范围的特征,并生成中间特征,通过学习中间特征来减少vis和ir模态之间的差异;

23、中间特征的生成方法为:通过内积和softmax函数建立和节点之间的关系,如下所示:

24、

25、其中,p为相似度矩阵;θq和θk为线性转换层;softmax(·)为softmax函数;

26、采用图注意力将和之间相似节点进行对齐得到其表示为:

27、

28、其中,gat(·)是图注意力操作;θv是线性转换层;λ是减少相似度低节点的超参数;1是单位列向量,relu(·)和mean(·)分别是relu和取平均操作;

29、基于上述过程,将与对齐生成中间特征其表示为:

30、

31、同理,分别对齐生成中间特征从而得到中间特征集合然后通过第五阶段特征提取模块对特征集合和进行特征的深层次语义关联;接着,通过对和分别进行全局和局部池化得到行人的一维结构增强特征集合和一维中间特征集合

32、进一步地,步骤d)中,通过每个人在一种模态和特定范围内的特征的加权平均值来获得对行人外观变化具有鲁棒性的身份中心;对于在vis模态和长范围特征中标签为i的行人中心特征,通过以下方式获得:

33、

34、其中,k是每个行人的vis特征数量;

35、从而,对于得到vis和ir中心特征集合其中p是训练集中的行人数量;对于得到中间特征中心特征集合

36、范围内损失是为了减少同一个人的同范围vis和ir特征之间的距离,同时扩大同范围vis和ir特征之间的不同人的特征距离,表示为:

37、

38、其中,

39、

40、其中,sm表示输入特征a和的余弦相似度矩阵;表示l1距离度量函数;

41、中间特征损失是为了减少中间特征的差异,表示为:

42、

43、模态间损失是为了减少vis、ir和中间特征之间类内距离并扩大类间距离,表示为:

44、

45、其中、和分别表示行人对应的vis、ir、中间模态中心特征;

46、综上,模态-范围行人中心对比损失定义如下:

47、

48、因此,联合分类损失三元组损失和模态-范围行人中心对比损失的损失表示为:

49、

50、其中,表示分类损失,表示三元组损失,表示模态-范围行人中心对比损失。

51、本发明还提供了一种高阶结构建模下中间模态学习的跨模态行人重识别系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。

52、与现有技术相比,本发明具有以下有益效果:提供了一种基于高阶结构建模的跨模态行人重识别方法及系统,该方法及系统有效利用了高阶关系建模和中间特征学习,可以获得泛化和鲁棒的行人特征,不仅能够有效解决在跨模态行人重识别中行人姿态变化、物体遮挡等问题,也能够缓解vis和ir模态差异的负面影响。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1