本发明属于计算机视觉、深度学习、人工智能技术领域,具体涉及一种基于异构部件深度神经网络的行人再识别方法。
背景技术
行人再识别是指在监控摄像机网络构成的搜索库中寻找与目标行人具有相同身份的行人图像。随着监控设备成本的逐渐降低,监控视频的应用也越来越广泛。越来越多的机构购置大量摄像头进行长时间监控。如交通管理局在各个交通枢纽设置监控摄像头监察交通违规问题,社区物业在小区的各个关键出入口架设摄像头以保证小区人员财产安全,大型超市在商场内布置大量摄像头监控盗窃事件。大量的监控摄像头形成了一个巨大的监控网络,监看人员必须长时间留意监控视频中事件场景的变化,尤其是查找某个特定行人是否出现在监控系统中,这给监看人员带来了巨大的挑战。行人再识别作为一项应用计算机快速匹配行人的技术,能够很大程度地代替人工操作,因此被广泛研究。但是由于监控视频中的行人再识别问题面临图片分辨率低下、遮挡、光照变化、错位等挑战,离实际应用还有较大的距离。因此,如何有效地解决这些因素所带来的影响,是解决行人再识别问题的关键。
目前,深度神经网络在行人再识别领域占据主导地位,对于提高行人再识别的准确率至关重要。许多深度神经网络用于提取行人图像基于部分的特征,varior等人提出了一种新的长短记忆网络(lstm),用于对行人图像的部分进行有序处理,同时利用上下文信息增强基于部分特征的判别能力;yao等人提出了局部损失网络(pl-net)通过同时最小化部分的损失和全局分类损失来学习不同部分的判别性表示;yi等人将每个行人图像分割成三个重叠部分,同时训练三个网络以学习基于部分的特征。然而,这些方法没有考虑行人图像部分之间的对齐。部分之间的对齐对学习判别性特征起着重要的作用。zheng等人提出了姿态不变嵌入(pie)的算法考虑行人图像部分之间的对齐,这种方法将行人与标准姿态对齐,减少姿态估计误差;zhao等人通过从不同身体区域获取语义特征使得图像部分之间对齐。然而,这些基于姿态估计的方法需要额外的监督学习。
技术实现要素:
本发明的目的是要解决行人图像部分之间的对齐对行人再识别结果影响较大的问题,为此,本发明提供基于异构部件深度神经网络的行人再识别方法。
为了实现所述目的,本发明提出一种基于异构部件深度神经网络的行人再识别方法,所述方法包括以下步骤:
步骤s1,构建基于异构部件的深度神经网络;
步骤s2,利用所述基于异构部件的深度神经网络,为每一幅行人图像提取卷积激活图并形成一个张量;
步骤s3,利用水平平均池化对每个张量进行平均分割得到k个部分,并且对每个部分的元素在水平方向求平均得到k个基于部分的特征向量,即可将每幅行人图像表示为k个基于部分的特征向量;
步骤s4,对于某一批次行人图像中的两幅图像,利用对准距离对其k个基于部分的特征向量进行对齐,并结合批次硬三元组损失和对准距离学习所述基于部分的特征向量的对齐,进而得到该批次硬三元组损失;
步骤s5,对于某一批次行人图像中的每一幅,为行人图像的每一部分应用交叉熵损失学习基于部分特征向量的判别性,得到该批次k个交叉熵损失;
步骤s6,利用所述步骤s4得到的硬三元组损失和所述步骤s5得到的k个交叉熵损失的和更新所述深度神经网络的网络参数,得到训练完成的深度神经网络;
步骤s7,利用训练得到的深度神经网络提取待查询图像的k个基于部分的特征向量,并将其串联成一个特征向量作为每一幅待查询图像最终的特征表示向量;
步骤s8,通过计算待查询图像和图像库中图像的特征表示向量之间的距离得到所述待查询图像的匹配结果。
可选地,所述步骤s1包括以下步骤:
步骤s11,选择预训练网络模型并进行初始化;
步骤s12,对预训练网络模型进行修改得到基于异构部件深度神经网络。
可选地,所述步骤s12包括以下步骤:
步骤s121,去掉预训练网络模型全局平均池化层之后的层;
步骤s122,将预训练网络模型最后的全局平均池化层替换为水平平均池化层,用于获得k个基于部分的特征向量,并增加一个卷积层用于对基于部分的特征向量降维;
步骤s123,利用批次硬三元组损失函数构建所述预训练网络模型的第一个分支;
步骤s124,利用k个全连接层和k个交叉熵损失函数构建所述预训练网络模型的第二个分支;
步骤s125,对批次硬三元组损失函数和k个交叉熵损失函数求和得到最终的损失,进而得到基于异构部件的深度神经网络。
可选地,所述步骤s2包括以下步骤:
步骤s21,将每一幅行人图像的大小调整到预设大小;
步骤s22,随机选择n幅行人图像作为一个批次输入到基于异构部件的深度神经网络中;
步骤s23,利用所述深度神经网络最后的卷积层为每一幅输入的行人图像提取卷积激活图并形成一个张量。
可选地,所述步骤s3包括以下步骤:
步骤s31,利用水平平均池化对每个张量进行平均分割得到k个部分并且对每个部分的元素在水平方向求平均得到k个维数为c的基于部分的特征向量;
步骤s32,利用卷积核对所述基于部分的特征向量降维,得到维数为c的特征向量。
可选地,所述步骤s4包括以下步骤:
步骤s41,计算两幅行人图像之间的距离dij;
步骤s42,规定搜索范围t,在第二幅行人图像中,为第一幅行人图像的每个部分搜索与其距离最短的部分用于两幅图像部分之间的对齐,对齐部分之间的距离称为局部最短距离;
步骤s43,对两幅行人图像部分之间所有的局部最短距离求和得到两幅图像的对准距离;
步骤s44,利用对准距离挖掘一系列的三元组样本;
步骤s45,利用批次硬三元组损失和三元组样本学习基于部分的特征向量的对齐,得到该批次硬三元组损失。
可选地,所述步骤s44包括以下步骤:
步骤s441,在一个批次的行人图像中,利用对准距离为每一幅行人图像找到与之具有相同的行人类别但对准距离最大的一幅图像作为最不相似正样本;
步骤s442,在一个批次的行人图像中,利用对准距离为每一幅行人图像找到与之具有不相同的行人类别但对准距离最小的一幅图像作为最相似负样本;
步骤s443,将每一幅行人图像的与之最不相似正样本和最相似负样本组成一个三元组样本。
可选地,所述步骤s5包括以下步骤:
步骤s51,为行人图像的每个部分赋予与其原始图片相同的真实标签;
步骤s52,将所述行人图像的k个基于部分的特征向量输入到所述深度神经网络的k个全连接层,输出k个m维的向量表示所述行人图像的各个部分的预测概率;
步骤s53,将k个m维的向量和对应的真实标签输入到各自的交叉熵损失函数中得到k个交叉熵损失,进一步学习得到基于部分特征向量的判别性。
可选地,所述步骤s6中,采用小批量随机梯度下降法训练网络,计算网络损失值的导数,通过反向传播对所述深度神经网络的参数进行更新,得到训练完成的网络。
可选地,所述距离为欧式距离。
本发明的有益效果为:本发明利用对准距离学习行人图像部分的对齐,并利用不同的损失学习更具有判别性的基于部分的特征,从而提高行人再识别匹配的正确率。
需要说明的是,本发明得到了国家自然科学基金项目no.61501327、no.61711530240,天津市自然科学基金重点项目no.17jczdjc30600,天津师范大学“青年科研拔尖人才培育计划”no.135202rc1703,模式识别国家重点实验室开放课题基金no.201700001、no.201800002,中国国家留学基金no.201708120040、no.201708120039和天津高等学校创新团队基金项目的资助。
附图说明
图1是根据本发明一实施例的基于异构部件深度神经网络的行人再识别方法的流程图。
图2是根据本发明一实施例构建的异构部件深度神经网络的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1是根据本发明一实施例基于异构部件深度神经网络的行人再识别方法的流程图,下面以图1为例来说明本发明的一些具体实现流程。本发明的方法是一种基于异构部件深度神经网络的行人再识别方法的方法,其具体步骤包括:
步骤s1,构建基于异构部件的深度神经网络,图2显示了根据本发明一实施例构建的基于异构部件的深度神经网络的结构框图;
进一步地,所述步骤s1包括以下步骤:
步骤s11,选择预训练网络模型并进行初始化;
在本发明一实施例中,所述预训练网络模型可以从以下网络模型中选择:caffenet、vgg19、resnet-50,比如选择resnet-50。
步骤s12,对预训练网络模型进行修改得到基于异构部件深度神经网络。
其中,所述步骤s12包括以下步骤:
步骤s121,去掉预训练网络模型最后的全局平均池化层之后的层;
步骤s122,将预训练网络模型最后的全局平均池化层替换为水平平均池化层,用于获得k个基于部分的特征向量,并增加一个1×1的卷积层用于对基于部分的特征向量降维;
步骤s123,利用批次硬三元组损失函数构建所述预训练网络模型的第一个分支;
步骤s124,利用增加的k个全连接层和k个交叉熵损失函数构建所述预训练网络模型的第二个分支;
步骤s125,对批次硬三元组损失函数和k个交叉熵损失函数求和得到最终的损失,进而得到基于异构部件的深度神经网络。
步骤s2,利用所述基于异构部件的深度神经网络,为每一幅行人图像提取卷积激活图并形成一个张量;
进一步地,所述步骤s2包括以下步骤:
步骤s21,将每一幅行人图像的大小调整到预设大小,比如384×128;
步骤s22,随机选择n幅行人图像作为一个批次输入到基于异构部件的深度神经网络中;
在本发明一实施例中,所述一个批次包含s个行人类别,每个行人类别包括r幅图像,即:n=s×r。
在本发明一实施例中,所述一个批次中行人的类别数量s=16,每个行人类别包含的图像数量r=4,一个批次行人图像的数量n=64。
步骤s23,利用所述深度神经网络最后的卷积层为每一幅输入的行人图像提取卷积激活图并形成一个大小为c×x×y的三维的张量,c为卷积激活图的数量,x×y为卷积激活图的大小。
在本发明一实施例中,所述深度神经网络为resnet-50时,卷积激活图的数量为2048,卷积激活图的大小为24×8。
步骤s3,利用水平平均池化对每个张量进行平均分割得到k个部分,并且对每个部分的元素在水平方向求平均得到k个基于部分的特征向量,因此,可将每幅行人图像表示为k个基于部分的特征向量;
进一步地,所述步骤s3包括以下步骤:
步骤s31,利用水平平均池化对每个张量进行平均分割得到k个部分并且对每个部分的元素在水平方向求平均得到k个维数为c的基于部分的特征向量;
步骤s32,利用1×1的卷积核对所述基于部分的特征向量降维,得到维数为c的特征向量。
在本发明一实施例中,所述特征向量降维后得到的维数c为256。
步骤s4,在训练过程中,对于某一批次行人图像中的两幅图像,利用对准距离对其k个基于部分的特征向量进行对齐,并结合批次硬三元组损失和对准距离学习所述基于部分的特征向量的对齐,进而得到该批次硬三元组损失;
进一步地,所述步骤s4包括以下步骤:
步骤s41,计算两幅行人图像之间的距离dij;
其中,任意两幅行人图像可分别用k个基于部分的特征向量表示为u={u1,u2,...,uk}和v={v1,v2,...,vk},则dij可表示为:
dij=||ui-vj||2
其中,ui∈r256×1和vj∈r256×1分别表示第u幅图像的第i个基于部分的特征向量和第v幅图像的第j个基于部分的特征向量。
步骤s42,规定一个搜索范围t,在第二幅行人图像中,为第一幅行人图像的每个部分搜索与其距离最短的部分用于两幅图像部分之间的对齐,对齐部分之间的距离称为局部最短距离;
其中,与第一幅行人图像第i个部分对齐的局部最短距离可表示为:
在本发明一实施例中,所述搜索范围t是第二幅行人图像中从上到下与第一幅行人图像的第i个部分最邻近的t个部分,t根据划分部分的数量k的不同可以取不同的值。
步骤s43,对两幅行人图像部分之间所有的局部最短距离求和得到两幅图像的对准距离,在一个批次里面计算任意两幅行人图像的对准距离,得到n×n个对准距离;
其中,两幅行人图像u和v的对准距离可表示为:
在本发明一实施例中,所述对准距离可以看作行人图像之间的相似度,对准距离越小,相似度越大。
步骤s44,利用对准距离挖掘一系列的三元组样本;
其中,所述步骤s44包括以下步骤:
步骤s441,在一个批次的行人图像中,利用对准距离为每一幅行人图像找到与之具有相同的行人类别但对准距离最大的一幅图像作为最不相似正样本;
步骤s442,在一个批次的行人图像中,利用对准距离为每一幅行人图像找到与之具有不相同的行人类别但对准距离最小的一幅图像作为最相似负样本;
步骤s443,将每一幅行人图像的与之最不相似正样本和最相似负样本组成一个三元组样本。
步骤s45,利用批次硬三元组损失和三元组样本学习基于部分的特征向量的对齐,得到该批次硬三元组损失。
其中,所述批次硬三元组损失可以表示为:
其中,
步骤s5,对于某一批次行人图像中的每一幅,为行人图像的每一部分应用交叉熵损失学习基于部分特征向量的判别性,得到该批次k个交叉熵损失;
进一步地,所述步骤s5包括以下步骤:
步骤s51,为行人图像的每个部分赋予与其原始图片相同的真实标签;
步骤s52,将所述行人图像的k个基于部分的特征向量输入到所述深度神经网络的k个全连接层,输出k个m维的向量表示所述行人图像的各个部分的预测概率;
在本发明一实施例中,所述m表示行人图像的类别数量。
步骤s53,将k个m维的向量和对应的真实标签输入到各自的交叉熵损失函数中得到k个交叉熵损失,进一步学习得到基于部分特征向量的判别性,其中,第i个交叉熵损失表示为:
其中,
其中,
步骤s6,在训练过程中,利用所述步骤s4得到的硬三元组损失和所述步骤s5得到的k个交叉熵损失的和更新所述深度神经网络的网络参数,得到训练完成的深度神经网络;
其中,所述硬三元组损失和k个交叉熵损失的和作为所述深度神经网络的总损失,可表示为:
loss=lt+li
在本发明一实施例中,采用小批量随机梯度下降法训练网络,计算所述网络损失值loss的导数,通过反向传播对所述网络的参数进行更新,得到训练完成的网络。训练的迭代次数为150次,学习速率初始化为0.1,后面的74次迭代中学习速率取为0.01。
步骤s7,利用训练得到的深度神经网络提取待查询图像的k个基于部分的特征向量,并将其串联成一个特征向量作为每一幅待查询图像最终的特征表示向量;
步骤s8,通过计算待查询图像和图像库中图像的特征表示向量之间的距离得到所述待查询图像的匹配结果。
在本发明一实施例中,所述距离可为欧式距离,在该实施例中,所述待查询图像与图像索库中图像的特征表示向量之间的欧氏距离越小,就说明待查询图像与图像库中图像之间的相似度越高,进而得到所述待查询图像的匹配结果。
以网上公开的行人再识别数据库作为测试对象,比如在market-1501数据库上,行人图像的类别数量m=1501,当k=8,t=3时,行人再识别匹配的正确率为rank-1=94.0%,平均精度map=81.2%。由此可见本发明方法的有效性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。