一种基于两分支交互的行人搜索方法

文档序号:37597883发布日期:2024-04-18 12:37阅读:12来源:国知局
一种基于两分支交互的行人搜索方法

本发明涉及计算机视觉领域中的行人搜索,主要用于智能安防等领域的行人搜索方法。


背景技术:

1、在当今社会中,人们对安全的重视程度与日俱增,相关机构对机场和商场等公共区域的安全尤为关注。为公众提供安全需要花费大量的人力成本和金钱成本。在人工视频监控系统中,由于网络摄像机每天都在连续录制视频,产生了大量需要分析的视频。监控操作员需要同时对任何特定事件或异常进行分析,这是一项具有挑战性并且令人厌倦的工作。智能视频监控系统旨在自动监控和分析来自摄像机网络的视频,以帮助监控操作员处理和理解摄像机网络获取的视频,这使其成为计算机视觉领域中热门和具挑战性的研究领域之一。

2、为了实现这一目标,行人搜索技术在这方面发挥着关键作用。如今,将行人搜索技术应用于智能安防系统正在成为解决各种安全问题的有效工具,如法医调查,预防犯罪,保护禁区等。行人搜索是一项具有挑战性的计算机视觉任务,旨在从一组图库图像中检测和识别被查询行人,或者从不同摄像机视图获取的视频帧中检索感兴趣的行人图像。如图1所示为对实际拍摄场景图像进行行人搜索的结果示例。

3、行人搜索一般被视为行人检测和行人重识别的联合任务[1,2,3,4]。当前的行人搜索方法主要可以分为两步法[5,6,7]和单步法[8,9,10]。两步法分别使用两个独立的网络进行行人检测和行人重识别。与两步法相比,单步法采用单个网络同时进行检测和重识别。如图2所示为单步行人搜索方法的网络框架,主要由主干网络、连接网络和预测网络组成,其中预测网络包括行人检测预测网络和行人重识别预测网络,分别输出检测结果和重识别结果。由于其简单高效的设计,单步法已成为行人搜索的主流方法。

4、在单步行人搜索方法中,基于候选框的方法取得了较好的性能。但是,大多数基于候选框的单步行人搜索方法通常将提取的roi(感兴趣区域)特征经过几个固定的全连接层以提取行人重识别特征。这种简单的重识别预测网络结构忽略了利用丰富的实例信息来提高行人搜索的精度。

5、参考文献

6、[1]gaikwad b,karmakar a.real-time distributed video analyticsforprivacy-aware person search[j].computer vision and image understanding,2023:103749.

7、[2]liu z,mu x,lu y,et al.learning transformer-based attentionregionwith multiple scales for occluded person re-identification[j].computervision and image understanding,2023,229:103652.

8、[3]li x,li q,liang f,et al.multi-granularity pseudo-labelcollaboration for unsupervised person re-identification[j].computervisionand image understanding,2023,227:103616.

9、[4]cao j,pang y,**e j,et al.from handcrafted to deep featuresforpedestrian detection:a survey[j].ieee transactions on pattern analysisandmachine intelligence,2021,44(9):4913-4934.

10、[5]chen d,zhang s,ouyang w,et al.person search via a mask-guidedtwo-stream cnn model[c].proceedings of the european conference on computervision(eccv).2018:734-750.

11、[6]lan x,zhu x,gong s.person search by multi-scale matching[c].

12、proceedings of the european conference on computer vision(eccv).2018:536-552.

13、[7]han c,ye j,zhong y,et al.re-id driven localization refinementforperson search[c].proceedings of the ieee/cvf international conferenceoncomputer vision.2019:9814-9823.

14、[8]xiao t,li s,wang b,et al.joint detection and identificationfeaturelearning for person search.proceedings of the ieee conference oncomputervision and pattern recognition.2017:3415-3424.

15、[9]chen d,zhang s,yang j,et al.norm-aware embedding forefficientperson search[c].proceedings of the ieee/cvf conference on computervisionand pattern recognition.2020:12615-12624.

16、[10]yan y,li j,qin j,et al.anchor-free person search[c].proceedingsofthe ieee/cvf conference on computer vision and pattern recognition.2021:7690-7699.


技术实现思路

1、本发明针对现有技术存在的不足,提出了一种基于两分支交互的行人搜索方法,将传统的重识别特征提取方法作为重识别预测网络的一个分支,将设计的动态重识别模块作为另一分支与其并联,以充分利用实例信息,提取更具可辨别性的重识别特征,以提高行人搜索的性能。

2、本发明是通过以下技术方案来实现的,本发明具体为:

3、一种基于两分支交互的行人搜索方法,采用单步行人搜索的网络框架,构建基于深度卷积神经网络的行人搜索网络,包括主干网络、连接网络和预测网络三部分,其中预测网络分为检测预测网络和重识别预测网络,包含下列步骤:

4、步骤1:准备行人图像数据集;

5、步骤2:将数据集划分为训练集和测试集;

6、步骤3:设置训练总共进行的周期数、训练学习率等参数;

7、步骤4:训练行人搜索网络,分为以下子步骤:

8、子步骤1:初始化主干网络的权重;

9、子步骤2:将训练集图像输入行人搜索网络,经过主干网络输出特征图;

10、子步骤3:将特征图输入到连接网络中输出候选框,对候选框进行roi特征提取,输出roi特征;

11、子步骤4:将roi特征输入预测网络,经过检测预测网络生成行人检测特征以及检测结果;将roi特征和行人检测特征输入重识别预测网络;

12、重识别预测网络包括静态重识别模块和动态重识别模块两个并联分支;其中,

13、静态重识别模块由两个全连接层串联构成,将roi特征输入静态重识别模块生成静态重识别特征;

14、动态重识别模块包括串联的动态卷积层和全连接层;将行人检测特征输入全连接层生成动态卷积计算所需的参数矩阵,再将参数矩阵均分为两部分,一部分部分作为第一个子参数矩阵,另一部分转置后作为第二个子参数矩阵;随后在动态卷积层中进行动态卷积计算,其过程为:将roi特征依次与上述两个子参数矩阵进行卷积计算,输出中间特征;将中间特征输入动态卷积层串联的全连接层,输出动态重识别特征;

15、将静态重识别特征和动态重识别特征输入交叉注意力模块计算两个重识别特征之间的注意力权重,输出最终的行人重识别特征以及重识别结果;

16、子步骤5:设定模型训练的损失函数,该损失函数包括行人检测的损失函数和行人重识别的损失函数;通过深度卷积神经网络中的反向传播算法,更新网络的权重参数;

17、子步骤6:完成模型训练。

18、进一步的,主干网络采用resnet50。

19、进一步的,采用imagenet预训练模型的参数初始化主干网络的权重。

20、进一步的,采用faster r-cnn作为检测预测网络。

21、进一步的,行人重识别损失函数采用oim损失。

22、本发明的有益效果是:本发明在传统基于候选框的行人搜索方法的基础上提出了一个动态重识别模块,通过其中的动态卷积层充分提取了丰富的实例信息,增加了处理行人图像的动态机制,并且保留了原本的静态重识别模块,提高了提取的重识别特征的多样性。此外,利用交叉注意力模块将两分支生成的两个重识别特征进行互补,能够生成更具可判别性的行人重识别特征,进而有效提高了行人搜索方法的性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1