一种基于语义信息的无监督行人重识别方法

文档序号:37118850发布日期:2024-02-22 21:20阅读:24来源:国知局
一种基于语义信息的无监督行人重识别方法

本发明属于计算机与模式识别领域,尤其针对安防领域系统,具体涉及一种基于语义信息的无监督行人重识别方法。


背景技术:

1、行人身份重识别(person re-identification)是将同一个人从不同角度和相机拍摄的图像或视频关联起来的过程。问题的关键是找到代表一个人的特征。许多最近的模型使用深度学习模型来提取特征并取得良好的性能。由于其强大的特征学习能力和拟合能力,基于卷积神经网络(cnn)提出了很多最先进的方法,甚至在一些任务上超越了人类的能力。行人重识别技术可以和行人检测、行人跟踪等技术相结合,应用于视频监控、智能安防等领域。

2、行人重识别可以应用到视频监控、案件刑侦、行为理解等多个方面,如果计算机的力量得到明智和及时的使用,犯罪和其他非法行为就可以得到预防,犯罪者也可以很容易地被追踪。尽管这种模型的开发仍在进行中,但它们的改进令人难以置信,应用范围广泛。

3、但是目前这类技术仍存在很大的不足。像有监督和半监督的这类学习方法,虽然模型效果很好,但需要大量的标注数据,而标注数据的成本代价很高。因此无监督学习的方法虽然在性能上可能比不上有监督学习方法,但是性价比很高,也有很强的泛化能力。

4、无监督行人重新识别任务的目标是从未标记数据中学习用于行人检索的区分性特征表示。最近的技术通过使用伪标签来完成这一任务,但是这些标签本身就有噪声,并且会降低准确性。为了克服这一问题,目前已经有相关研究者提出了几种伪标签细化方法。比如在《part-based pseudo label refinement for unsupervised person re-identification》中,作者利用图像局部特征这种细粒度信息来优化生成伪标签的精度,但他们忽略了语义描述对行人区分的作用。


技术实现思路

1、本发明主要考虑无监督行人重识别的伪标签聚类效果。如何更好地提高聚类效果,从而提高模型对行人的分类精度是值得探讨的问题。

2、本发明为了解决上述问题,提供一种基于语义信息的无监督行人重识别方法。提出了基于语义信息的伪标签生成技术,这是一种新的无监督重新识别框架,它以自学方式使用关于行人外貌特征描述的语义信息有效地处理标签噪声。

3、本发明的关键思想是,关于行人外貌特征描述的语义信息不仅可以为更好的表示学习提供有用的线索,还可以对标签噪声提供鲁棒性。与由于姿势和视点的显著变化而具有较大变化的全局形状信息相比,语义信息可以捕获一些局部特征信息,这为重新识别人提供了更重要的线索。

4、我们首先参考了一个上文提到的《part-based pseudo label refinementforunsupervised person re-identification》所用的re-id框架,即基于局部特征进行行人伪标签细化的re-id网络框架(pplr)。与大多数现有的仅利用全局特征的无监督方法不同的是,同时使用到了全局和局部特征来表示图像。在此之上,我们增加了语义信息来减少噪声的影响,首先对全局特征集用聚类算法进行聚类操作,并对聚类得到的各个簇进行标记作为图片伪标签,我们将图像xi的伪标签表示为yi∈rk。其中nd表示数据集样本数量,表示第i张图片的全局特征,rk指的是k簇硬赋值的单热点编码。

5、一种基于语义信息的无监督行人重识别方法,包括如下步骤:

6、步骤1、构建基于语义信息的无监督行人重识别模型;

7、所述的基于语义信息的无监督行人重识别模型,包括图像编码器分支和文本编码器分支。

8、步骤2、确定基于语义信息的无监督行人重识别模型的损失函数;

9、步骤3、选择网络模型的数据集,定义数据集的batch size、最大迭代次数和学习率,设置聚类算法的初始聚类半径,获取模型的初始参数。

10、步骤4、对构建的无监督行人重识别模型进行迭代训练,得到最终的无监督行人重识别模型的参数;

11、步骤5、将待识别的数据输入训练好的无监督行人重识别模型,得到最终的行人重识别结果。

12、进一步的,所述的图像编码器分支包括图像编码器,采用基于局部特征进行行人伪标签细化的re-id网络框架(pplr),其中行人伪标签通过聚类算法对获得的图像特征进行聚类而得到,所述的聚类算法采用dbscan(density-based spatial clustering ofapplications with noise)聚类算法;所述的文本编码器分支包括文本编码器和分类头,其中文本编码器用于对输入的文本数据进行处理得到文本特征,分类头根据文本编码器获得的文本特征输出文本分类预测向量;

13、进一步的,步骤2具体方法如下;

14、设置总体损失函数为:

15、l=ltext+lgce+lpce+lcam (1)

16、其中,ltext为语义特征与全局特征间的均方损失;lgce为全局图像特征及文本特征的分类预测向量与伪标签间的交叉熵损失,lpce为局部图像特征分类预测向量与伪标签间的交叉熵损失,lcam为摄像机间对比损失。

17、其中ltext可用下式表示:

18、

19、式中和分别为第i个样本的全局图像特征和语义特征;nd表示数据集的样本数量。

20、lgce可用下式表示:

21、

22、式中为第i个样本图像所得到的全局伪标签,被图像和文本所共享;是全局图像特征的预测向量,是文本特征的预测向量,和是由全连通层和softmax函数组成的特征分类器,表示第i个样本的全局图像特征,表示第i个样本的文本特征,rk指的是k簇硬赋值的单热点编码,共有k个聚类。

23、lpce可用下式表示为:

24、

25、其中,表示第i个样本特征图的第n个局部特征pn的预测向量,是局部特征空间pn的分类器,为第i个样本的局部特征对应的局部伪标签,表示第i个样本的第n个局部特征。

26、lcam可用下式表示为:

27、

28、式中pi和qi分别是的正、难负相机感知代理的索引集,pi索引集共享相同的全局伪标签,所有相机中的k最近负代理被视为难负相机感知代理;表示所对应的正相机感知代理中的第j个相机感知代理,相机感知代理c即为具有相同相机标签且属于同一聚类集群的特征的质心;nd表示总样本数量,λcam是控制相机间对比度损失重要性的权重参数,τ是温度参数。摄像机间对比损失将位于同一集群内但位于不同摄影机中的代理集合在一起,从而减少了由不相交摄影机视图引起的类内差异。

29、进一步的,步骤3具体方法如下:

30、选择market1501-attribute作为训练和测试的数据集,定义数据集的batch size为32、最大迭代次数为50和学习率为0.00035,设置聚类算法的初始聚类半径为0.5;对图像编码器中的参数进行初始化,加载文本编码器的预训练参数,获取模型的初始参数;

31、进一步的,步骤4具体方法如下:

32、步骤4-1、每次迭代的开始,通过图像编码器和文本编码器提取图像和文本的特征,将特征向量通过dbsacan算法形成聚类,根据聚类结果对数据集进行分类和标记,并过滤掉噪声数据形成新的数据集用于下次迭代训练。

33、步骤4-2、图像特征和文本特征经过图像编码器分支和文本编码器分支的分类头后得到分类预测向量,将预测向量与伪标签进行比较计算,得到lgce、lpce、lcam以及精确度precision并输出;对图像特征与文本特征计算均方损失得到ltext,然后反向传播更新基于语义信息的无监督行人重识别模型的网络权重。

34、步骤4-3、判断迭代次数是否为5的整数,若是,则计算当前平均精确率的均值map值并输出当前map值和历史最优map值。判断网络是否达到设定的迭代次数,如未达到,迭代次数加1,返回步骤4继续进行计算;如达到最大迭代次数,则终止循环,输出最终计算的结果,即历史最优map值及对应的迭代次数。将历史最优map值对应的那次迭代得到的网络权重作为最终的无监督行人重识别模型的参数,并保存到本地文件中。

35、进一步的,步骤5具体方法如下:

36、根据最终的无监督行人重识别模型的参数得到最终训练好的无监督行人重识别模型,将待识别的数据输入训练好的无监督行人重识别模型,得到图像编码器分支输出的分类结果作为最终的行人重识别结果。

37、本发明方法有益结果如下:

38、本发明设计了一个基于语义特征信息的行人特征伪标签聚类指导技术,以利用可靠的互补关系。基于特征一致性,我们通过行人语义特征的预测来细化全局特征的伪标签,这共同减轻了全局特征聚类中的噪声。由于特征一致性得分提供了可靠的补充信息,我们的方法有效地减少了噪声标签的影响,并在丰富的本地上下文中学习辨别表示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1