本发明属于行人重识别,具体涉及一种基于聚类优化的无监督跨模态行人重识别方法。
背景技术:
1、视频监控是安防领域中很重要的一个组成部分。通过监控摄像头,对目标区域进行视频监控,可以有效保障该区域的安全。巨量的监控摄像头,带来了海量的监控视频数据,给数据的处理带来了挑战。传统依靠人工来完成对监控摄像头所拍摄视频进行分析的方法,非常消耗时间和人力。智能视频监控利用计算机视觉、模式识别和机器学习等领域的相关技术,采用人工智能算法自动地对视频内容进行分析。
2、行人重识别(reid)是智能视频监控中很重要的一项技术,其目标是识别出摄像头网络中的同一行人。给定需要查询的行人图像,算法需要在所有摄像头所拍摄的画面中自动找出与查询图像属于同一人的所有画面。早期行人重识别方法通过深度学习模型以及大规模数据集在可见光单模态下取得了优异的性能。
3、为了应对24小时的监控环境尤其是夜间环境,不少监控摄像头同时设置有可见光模式与红外模式。跨模态行人重识别目的在于解决可见光模态与红外模态间的行人图像匹配问题。现有的大量跨模态行人重识别方法通常依赖于人工标注的跨模态数据集,这通常是耗费人力与时间的,尤其对于红外数据集的标注。于是通过无监督的方法训练跨模态reid模型显得尤为重要,具体地,即不依靠人工标注的标签而通过模型自身聚类产生的伪标签来训练跨模态reid模型,其重点在于如何克服模态差异得到属于统一行人类别的跨模态聚类。
4、现有的跨模态行人重识别方法可以分为两类。一类是通过可见光标注数据集对模型进行预训练,然后迁移到跨模态数据集上。典型的方法有h2h,该方法在可见光源域上进行预训练后,通过模态内的同质训练以及跨模态的异质标签匹配得到跨模态共享标签,类似的方法还有专利文献cn114495004a,其使用了具有标签的源数据集进行预训练。第二类是不依赖标注数据集进行预训练的方法,如adca,通过模态内的无监督聚类获得单模态的伪标签以及聚类中心,再通过跨模态匹配的手段将不同模态的样本聚类中心拉拢。现有的方法存在如下的缺点:
5、第一类方法严重依赖于具有标注的源域数据集预训练,严格意义上来说并不是完全的无监督跨模态行人重识别方法,并不适用于现实的场景。
6、第二类方法很依赖于无监督聚类获得的跨模态伪标签的准确性,现有的方法无法保证跨模态标签的准确性。具体来说有三点不足:1)没有考虑到可见光与红外图像巨大的模态差异,导致无法实现不同模态相同身份行人获得相同的伪标签,例如专利文献cn116229510a,即使提取单通道图像也无法消除模态差异从而导致跨模态的聚类失败;2)现有方法也没有考虑到相机风格差异带来的模态内聚类错误,例如sysu-mm01数据集中可见光相机多于红外相机数所造成的聚类数不平衡,从而导致跨模态匹配失败;3)没有考虑到聚类噪声的问题,及在聚类中出现少数不同类别的图像,错误的聚类和伪标签往往对模型训练起到负面的作用,同时跨模态的标签匹配也可能出现噪声。
技术实现思路
1、鉴于上述,本发明的目的是提供一种基于聚类优化的无监督跨模态行人重识别方法,以提升识别精度。
2、为实现上述发明目的,实施例提供的一种基于聚类优化的无监督跨模态行人重识别方法,包括以下步骤:
3、步骤1,获取多目标对象在可见光模态和红外光模态下的可见光原始图像集和红外原始图像集并分别进行通道增强,得到可见光增强图像集和红外增强图像集;
4、步骤2,基于双路深度学习模型分别提取各图像集的特征,并对各特征分别聚类得到各聚类中心及对应的伪标签;
5、步骤3,基于各聚类中心及对应的伪标签进行模态内的噪声消除;
6、步骤4,噪声消除后实现跨模态的聚类中心之间的匹配;
7、步骤5,对各模态的各图像集对应的各聚类中心分别通过相机标签划分到不同的相机中心;
8、步骤6,结合聚类中心之间的匹配结果和相机中心构建模态内的相机中心对比损失和跨模态的相机中心对比损失,并依据对比损失更新相机中心和双路深度学习模型的参数;
9、步骤7,基于参数更新后的双路深度学习模型进行行人重识别。
10、优选地,步骤1中,对于可见光原始图像,随机选中r、g、b三通道的其中一个通道图像作为通道增强图像,得到可见光增强图像集;对于红外原始图像,采用随机光照变化处理红外原始图像作为通道增强图像,得到红外增强图像集。
11、优选地,步骤2中,双路深度学习模型包含可见光层与红外层,其参数更新将独立计算,其中可见光层用于对可见光模态下的可见光原始图像集和可见光增强图像集进行特征提取得到可见光特征和可见光增强特征,红外层用于对红外光模态下红外原始图像集和红外增强图像集进行特征提取得到红外特征和红外增强特征;
12、对可见光特征和红外特征分别聚类得到各聚类中心及对应的伪标签,用公式表示为:
13、
14、其中,nk表示被聚类算法分配到第k类伪标签yk的样本数目,表示第c类图像集中属于伪标签yk的特向向量集,表示中的第n个图像样本的特征向量,表示对第c类图像集进行聚类得到的属于伪标签yk的聚类中心,伪标签的种类数对应聚类中心的个数,此时,c取值为v、i,分别表示可见光原始图像集和红外原始图像集。
15、优选地,步骤3中,基于各聚类中心及对应的伪标签进行模态内的噪声消除,包括:
16、在每个模态内,将每个聚类中心作为一个分类器,通过该分类器对对模态内的每个图像样本计算似然伪标签,如果似然伪标签与原始聚类的伪标签不同,则图像样本对视为噪声样本,从模态内删除,似然伪标签通过以下公式计算:
17、
18、
19、其中,yc表示第c类图像集对应的伪标签集,表示伪标签集yc中的第j个伪标签,y表示目标标签,表示对第c类图像集进行聚类得到的属于伪标签yj的聚类中心,表示对第c类图像集进行聚类得到的属于第z个伪标签yz的聚类中心,z的取值为1-k,k为伪标签总数量,表示求得的似然伪标签。
20、优选地,步骤4中,噪声消除后实现跨模态的聚类中心之间的匹配,包括:
21、针对原始图像集,对于每个对应伪标签的可见光聚类中心其所对应的所有可见光原始图像样本通过红外聚类中心构成的分类器计算红外似然伪标签计算公式如下:
22、
23、
24、其中,yi表示红外原始图像集对应的伪标签集,表示伪标签集yi中的第j个伪标签,y表示目标标签,表示对红外原始图像集进行聚类得到的属于伪标签yj的聚类中心,表示对红外原始图像集进行聚类得到的属于第z个伪标签yz的聚类中心,z的取值为1-l,l为伪标签总数量,
25、对应的所有可见光原始图像样本计算的红外似然伪标签组成集合其中,样本所属最多的红外似然伪标签所对应的红外聚类中心作为匹配的准红外聚类中心,具体计算方式如下:
26、
27、
28、对于匹配的准红外聚类中心其所对应的所有红外原始图像样本通过可见光聚类中心构成的分类器计算可见光似然伪标签对应的所有红外原始图像样本计算的可见光似然伪标签组成集合其中,样本所属最多的可见光似然伪标签所对应的可见光聚类中心作为匹配的准可见光聚类中心,当准可见光聚类中心与可见光聚类中心相等时,则针对原始图像集,认为为匹配的可见光聚类中心与红外聚类中心。
29、优选地,步骤5中,对各模态的各图像集对应的各聚类中心分别通过相机标签划分到不同的相机中心,用公式表示为:
30、
31、其中,表示属于伪标签且相机标签为s的第c类图像集的特征向量集合,表示属于的第n个图像样本的特征向量,nks表示被聚类算法分配到相机标签s的样本数目,表示对第c类图像集进行聚类得到的属于伪标签yk且属于相机标签s的相机中心,此时c的取值为v、i。
32、优选地,步骤6中,模态内的相机中心对比损失为具体通过以下公式计算得到:
33、
34、
35、
36、
37、其中,qv和qi表示训练阶段可见光原始图像和红外原始图像输入至双路深度学习模型得到的可见光特征和红外特征,qva和qia表示对应的可见光增强图像和红外增强图像输入至双路深度学习模型得到的可见光增强特征和红外增强特征,和分别表示与qv和qi具有相同聚类中心的所有可见光和红外相机中心集合,pj表示与qv或qi不具有相同聚类中心且最近的同模态nneg个相机中心,和分别表示和中相机中心的数量,τ表可学习的超参数,表示属于的第s个可见光相机中心,表示属于的第t个红外相机中心;
38、跨模态的相机中心对比损失为具体通过以下公式计算得到:
39、
40、
41、
42、
43、其中,表示期望。
44、优选地,步骤6中,依据对比损失更新相机中心和双路深度学习模型的参数,包括:
45、基于对比损失和构建总损失利用总损失更新双路深度学习模型的参数,
46、
47、其中,λcross是用以平衡模态内与跨模态权重的超参数;
48、在更新过程中,还使用每个批次的图像样本向量更新各相机中心,具体用公式表示为:
49、
50、
51、
52、
53、其中,δ表示迭代次数,β表示更新权重,下一轮训练时利用更新的各相机中心,箭头←表示更新,表示可见光相机中心,表示可将光增强相机中心,表示红外相机中心,表示红外增强相机中心。
54、优选地,步骤7中,基于参数更新后的双路深度学习模型进行行人重识别,包括:
55、将待识别目标对象的可见光原始图像或红外原始图像作为探针图像样本,该探针图像样本与库图像样本输入至参数更新后的双路深度学习模型,识别得到对应的可见光特征和红外特征,选择可见光特征或红外特征分别与库样本图像的特征计算相似度,并依据相似度对所有库样本图像进行排序,筛选排序最高的库样本图像的身份标签作为探针图像样本的识别身份标签。
56、与现有技术相比,本发明具有的有益效果至少包括:
57、1)通过可见光模态和红外光模态这双模态通道数据增强的手段缓解了可见光图像以及红外图像巨大的模态差异,使得跨模态的聚类匹配精度提升;
58、2)通过模态内的去噪声以及跨模态的匹配与去噪消除了无监督聚类可能带来的噪声影响,得到了可靠的跨模态聚类中心的匹配对;
59、3)通过相机中心的划分消除了不同相机风格对聚类的负面影响,进一步优化聚类;
60、4)在不依靠有标注的源域数据集进行预训练的条件下,针对无标签的跨模态行人重识别数据集设计了训练以及测试的方法。平均均值精度(map)相比于过去的方法获得了超过10%以上的提升。