一种基于多粒度金字塔交叉网络的行人重识别方法

文档序号:34386763发布日期:2023-06-08 06:36阅读:28来源:国知局
一种基于多粒度金字塔交叉网络的行人重识别方法

本发明涉及计算机视觉,尤其是涉及一种基于多粒度金字塔交叉网络的行人重识别方法。


背景技术:

1、行人重识别(person-identification,re-id)在现代智能监控技术中起着至关重要的作用,如行人检索和行为分析。然而,re-id面临着遮挡、低分辨率、视角/姿态/领域/服装/光照变化等挑战。因此,它引起了众多研究人员的关注。

2、为了学习行人图像的判别性特征,人们已经做出了很多的尝试来设计对上述挑战具有鲁棒性的有效结构。一些研究(x.qian,y.fu,y.-g.jiang,t.xiang,and x.xue.multi-scale deep learning architectures for person re-identification.in proc.ieeeint.conf.comput.vis.(iccv),pages 5399–5408,2017;z.zhang,c.lan,w.zeng,x.jin,and z.chen.relation-aware global attention for person re-identification.inproc.ieee/cvf conf.comput.vis.pattern recognit.(cvpr),pages 3186–3195,2020.)提出将卷积神经网络(convolutional neural network,cnn)在其他计算机视觉任务中的成功架构用于提取行人图像的鲁棒特征,对于基于卷积神经网络的方法,尽管它们在一些特定的情况下取得了很好的效果,但由于cnn的感受野有限,它们的鲁棒性不够。此外,cnn的下采样操作(例如池化)会降低特征图的空间分辨率,同时丢失具有细节的细粒度特征,不利于相似外观行人的识别。更重要的是,在其他视觉领域表现良好的架构并不能很好地适应行人重识别中的一些特定挑战。因此,提出一种针对行人重识别的具体设计势在必行。

3、近年来,transformer因其能够对长依赖进行建模而被纳入到各种计算机视觉任务中,包括图像分类、目标检测和识别等。与基于cnn的算法相比,re-id中基于transformer的方法也产生了相当的匹配结果。然而,纯transformer无法保证平移和尺度不变性,而这在re-id任务中经常出现。为了利用transformer的长程依赖关系建模能力,同时保持cnn的平移和尺度不变性,zhang等人(g.zhang,p.zhang,j.qi,and h.lu.hat:hierarchicalaggregation transformers for person re-identification.in proceedings of the29th acm in-ternational conference on multimedia,pages 516–525,2021.)提出了由用于全局特征学习的cnn和用于局部特征学习的transformer组成的架构,其在公开的大规模re-id数据集上取得了很好的效果。然而,纯transformer的输入是行人图像的单粒度全特征图,这限制了transformer提取丰富局部信息的能力。以往的研究(y.sun,l.zheng,y.yang,q.tian,and s.wang.beyond part models:person retrieval with refinedpart pooling(and a strong convolutional baseline).inproc.eur.conf.comput.vis.(eccv),pages 480–496,2018;m.ye,j.shen,g.lin,t.xiang,l.shao,and s.c.hoi.deep learning for person re-identification:a sur-vey andoutlook.ieee trans.pattern anal.mach.intell.,44(6):2872–2893,2021.)表明,水平划分有利于网络从行人图像中提取丰富的局部信息。此外,网络还应挖掘全局特征图中各种局部结构所隐含的判别性语义信息。

4、尽管将深度学习引入到行人重识别算法应用中,并已经取得了突破性的成果,但是距离现实场景中的应用还有很长的一段路需要前进。为了解决由于遮挡、光线、姿态等问题造成不同行人的外观比相同行人的外观更为相似的问题,亟需设计一个通用的鲁棒的网络结构适用于行人重识别的具有较强鲁棒能力的方法。


技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多粒度金字塔交叉网络的行人重识别方法,针对行人图像存在光照、遮挡、姿态等环境因素影响,引入多粒度方法,利用transformer强大的远程依赖建模能力,提供了一个具有辨别性的多粒度金字塔交叉网络,本方法能够在行人图像遇到遮挡等问题时保持良好的通用性和鲁棒性。

2、本发明的目的可以通过以下技术方案来实现:

3、本发明提供了一种基于多粒度金字塔交叉网络的行人重识别方法,包括如下步骤:

4、获取图像信息,将预处理后的所述图像信息输入预训练好的多粒度金字塔交叉网络中,获取输出特征,基于所述输出特征,从预设的图库中获取与目标行人匹配的图像,实现行人重识别,

5、其中,所述的多粒度金字塔交叉网络包括多级级联的层次聚合单元,每个所述的层次聚合单元均包括:

6、多粒度卷积层,用于获取不同粒度下的显著行人特征;

7、金字塔交叉transformer学习层,用于基于输入特征,由粗粒度到细粒度地捕获具有判别性的局部特征作为本级层次聚合单元的输出,除第一级外的输入特征根据本级的多粒度卷积层的输出以及前级的输出获取。

8、作为优选的技术方案,每个所述的层次聚合单元还包括设置在所述多粒度卷积层和所述金字塔交叉transformer学习层之间的尺度变换层,用于针对所述多粒度卷积层的输出应用全局最大池化,以抑制背景信息。

9、作为优选的技术方案,所述的多粒度金字塔交叉网络还包括分别与各个层次聚合单元连接的主干网络,基于所述主干网络的输出以及最后一级层次聚合单元的输出获取所述输出特征。

10、作为优选的技术方案,所述的主干网络为resnet50网络。

11、作为优选的技术方案,所述的金字塔交叉transformer学习层对特征的处理过程包括如下步骤:

12、针对所述输入特征进行嵌入处理,获取输入特征图;

13、将输入特征图拆分为多个局部特征向量,获取对应的局部注意力特征并进行合并,获取整体特征图;

14、针对所述整体特征图进行通道mlp处理,获取所述具有判别性的局部特征。

15、作为优选的技术方案,所述的局部注意力特征采用下式获取:

16、

17、其中,yij为所述局部注意力特征,σ(·)为softmax激活函数,qij为具有区分度的特征,为输入特征图拆分后的局部特征向量,ki、vi为输入特征图经过线性变换后的向量,为ki的转置,d为嵌入维数,i表示金字塔层级,j=1,2,…,m表示局部特征的索引。

18、作为优选的技术方案,所述的通道mlp处理采用下式实现:

19、z=ζ(norm(y)w1)×w2+y

20、其中,z为具有判别性的显著性特征,ζ(·)为gelu激活函数,norm(·)表示层归一化,y表示所述的整体特征图,w1∈rd×τd和w2∈rτd×d是可学习的参数,τ为扩张比。

21、作为优选的技术方案,所述的预训练好的多粒度金字塔交叉网络的获取过程包括如下步骤:

22、获取训练样本集,基于所述训练样本集对所述多粒度金字塔交叉网络进行训练,当损失函数的函数值达到预设收敛条件后,获得所述预训练好的多粒度金字塔交叉网络;

23、其中,所述损失函数基于验证损失、分类损失和辅助损失获取。

24、作为优选的技术方案,所述的辅助损失采用下式计算:

25、

26、其中,为辅助损失,为验证损失,为分类损失,s为阶段的总数。

27、作为优选的技术方案,每个所述的层次聚合单元中,所述多粒度卷积层与所述金字塔交叉transformer学习层顺次连接。

28、与现有技术相比,本发明具有以下优点:

29、(1)有效提高通用性和鲁棒性:本方法针对现有方法忽略全局特征图中各种局部结构隐含的判别性语义信息的问题,提供了一种包括多级的层次聚合单元的多粒度金字塔交叉网络,每个层次聚合单元包括多粒度卷积层和金字塔交叉transformer(multi-granularity cross transformer network,mctn)学习层,由于多个层次聚合单元构成了多级级联的结构,模型可以更好地利用不同层次之间的内容,进一步挖掘行人图像中的潜在语义信息,在多摄像头的复杂场景中,本方法能够快速定位查找特定行人的所有结果,从而提高了通用性和鲁棒性。

30、(2)模型训练效果好:在训练阶段,为了便于学习网络强大的特征表示,在层次聚合模块的不同阶段加入由验证损失和分类损失组成的辅助损失,利用验证损失、分类损失和辅助损失来监督多粒度交叉transformer网络的学习,提高模型训练效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1