一种基于距离选择的强判别特征学习的行人重识别方法与流程

文档序号:19788017发布日期:2020-01-24 13:51阅读:148来源:国知局
一种基于距离选择的强判别特征学习的行人重识别方法与流程

本发明属于计算机视觉领域,是图像处理领域中的一项重要应用,尤其是涉及一种基于距离选择的强判别特征学习的行人重识别方法。

技术背景

随着互联网软硬件技术的不断进步,人脸识别、目标追踪以及行人再识别等行人智能认知技术日益发展并逐渐商用起来。在帮助刑侦破案以及特定场景下的识人、寻人问题上带来了巨大的便利。行人重识别技术是继人脸识别之后的一个重要研究方向,在人脸识别失效的场景下,可以根据人的整体形态、衣着、体态、发型颜色等信息来判断行人的类别信息。行人重识别(personre-identification,简称reid)也称为行人再识别,是图像检索(imageretrieval)的子方向,旨在跨摄像头下检索出与查询图最相似的前k张图,该技术可以与行人检测、行人跟踪等技术结合起来应用于智能视频监控、智能安保、智能交通等领域。然而,在学术界,由于行人重识别数据集很难获取,所以一般在通用数据集上做工作,这对算法性能提高了要求。此外,由于摄像头拍摄角度、行人姿态变化、运动姿态变化以及光照、遮挡等等的影响,导致现有的行人再识别技术很难进一步提高检索精度。目前,如何设计一种最优的网络特征提取方式以及找到一种高效快速的度量学习方法是行人重识别亟待解决的问题。

自深度学习以来,目前主流的行人重识别的研究更加注重如何设计网络来提取鲁棒的特征以及如何寻找最优的度量方法来解决类内差异大、类间差异小的问题。然而,常用数据集多是在校园里采集的行人图像,同一摄像头捕获的行人背景的相似性以及不同时间拍摄的光照差异等都会对特征提取以及相似性度量带来一定的困难。此外,行人检测技术得到的数据也存在误差,检测的图像带有背景冗余信息会对图像的特征提取带来一些的不可避免的困扰,所以如何设计网络结构提取行人的显著性特征,即如何提取底层细节特征(线条颜色、服装logo、行人轮廓等)以及高层抽象特征(复杂性区域)成为主要问题。由于样本数据采集的随机性,在提取局部区域做度量损失会出现空间语义不一致的问题,解决局部区域的不对齐问题对特征层面的度量损失起关键作用,能够达到利用局部显著特征进一步拉近同类id的图片、分离不同id的行人图像的效果,有力的推动重识别任务的发展。

我们提出的一种基于距离选择的强判别特征学习的行人重识别方法在现有的精度中达到了差不多的效果。值得注意的是,我们的网络不需要额外的语义辅助信息,不需要利用姿态估计模型去定位人体的局部区域,并提出一种局部对齐匹配的思想,进一步根据对齐的局部特征提高网络的判别能力。



技术实现要素:

本发明提出了一种基于距离选择的强判别特征学习的行人重识别方法。该方法以深度卷积神经网络resnet50作为backbone,使用在imagenet上预训练的权重作为整个网络的初始化。在训练阶段指导全局与局部特征结合分别做softmax损失以及三元组损失,并引入中心损失进一步控制类间类内距离。我们设计了三个模块,分别是全局网络g-net(globalnetwork)、局部网络l-net(localnetwork)以及局部区域的选择对齐模块ca(choosealignedmodule)。联合三个模块的训练,能够融合全局与局部特征,并能够在局部区域选择对齐后的特征,更具有判别力。

在g-net中,我们引入人脸识别领域的中心损失cl(centerloss)并结合三元组损失。解决相对与绝对距离的问题,在使用三元组损失拉近正样本对,推开负样本对的同时,能够利用每类的中心特征更好地让每类id的图片尽可能的在同一球面达到聚集的效果。在l-net中,我们采用论文pcb(part-basedconvolutionalbaseline)的思想,不同的是我们损失函数的设计,我们采用全局三元组损失gtl(globaltripletloss)、ca模块的局部三元组损失ltl(localtripletloss)以及分块特征的全局分类损失gil(globalidentificationloss)和局部分类损失lil(localidentificationloss),这里均用softmax损失。在ca模块中,我们对分块的局部特征计算最近相似距离,并记录矩阵m,采用一种基于距离选择思想去匹配对齐的局部三元组,进一步提取局部判别特征,并提高网络的泛化能力。

其技术解决方案是:

一种基于距离选择的强判别特征学习的行人重识别方法,所述方法包括:

步骤1),首先选取图像,并缩放裁剪形成训练图片,在transform中我们采用随机水平翻转或者随机擦除等图像处理手段。对于每一个训练batch,随机挑选p个id的行人,每个行人随机挑选k张不同的图片,即一个batch含有p*k张图片。之后对于batch中的每一张图片,挑选出一个最难的正样本和一个最难的负样本组成一个三元组s,则最终三元组集合记为s={s1,s2,s3…sb}。

步骤2),设计基于预训练的残差网络架构,在不同层的维度上提取全局特征以及局部特征,在g-net与l-net的前三层网络完全共享,即conv1:outputsize(112x112),7x7x64,stride=2;conv2_x:outputsize(56x56),conv3_x:outputsize(28x28),每层输出的特征图长宽都会比上一层缩小一半,比如从224到112,112到56,56到28等,在第五层池化层之前和resnet50架构基本一致。

步骤3),将网络进行样本对的训练。在g-net中,在pool5层利用全局平均池化输出的特征图是(7,7,2048),该特征用于计算三元组损失,同时结合中心损失,达到同类的聚合在同一球面的效果。随后,紧接一个归一化层bn,将特征归一化至同一球面,能够平衡三元组损失与分类损失训练不一致的问题,同时利用1x1卷积进行降维处理,将2048维特征降到256维,最后接softmax层做分类损失。

步骤4),在l-net中,在conv4层的最后一个下采样处,不同于g-net,步长由s=2设置成s=1,即不降低特征图的大小,相当于把特征尺寸做得大一点,信息更多一点,更利于网络学到更细节的特征。同时在pool5层中的特征图中进行切分成n块,最后对每块降维成256做n个局部分类损失lil,同时对融合n块局部特征的全局特征在未降维之前做全局分类损失gil,降维之后做全局三元组损失gtl,该分支对比与g-net分支结构相同,但是分类损失与三元组损失在全连接层的位置互换,我们对这两部分进行相同的对比实验,并在g-net中去掉中心损失,实验证明g-net中在测试阶段归一化后用softmax损失比l-net模块的全局分支效果要好。

步骤5),在l-net中的ca模块中,通过pool5层之后的特征图被全局平均池化分块后,我们对n块特征归一化至[0,1],便于选取距离模型矩阵m,得到每个batch中一对三元组中每张图片的n块局部特征,考虑检测算法捕获的行人图像存在的不对齐问题,我们通过计算局部特征之间的归一化距离来抽象选取最相似的局部做局部三元组损失ltl,来保证正负样例在局部区域的最佳匹配。

步骤6),训练过程中,上述多损失同时优化行人重识别网络(l-net+g-net),得到训练完的模型,更加确立相似性损失、分类损失的权重因子。

步骤7),测试阶段中,对比n+2个256维特征与选取g-net中2048维度的特征做检索各自的效果,旨在给定一张查询图,能够高准确的检索出最相似的前k张相同id的图像。

所述步骤1)在该网络对选取的p*k张图像做resize处理,并使用随机擦除的手段防止过拟合,并使用插值的方法实现图片的缩放,从而保持图片不发生形变失真。

所述步骤2)中利用imagenet上预训练的网络模型,模型结构利用残差网络resnet50,由于imagenet上训练的分类数目为1000,修改网络模型的最后两层,调整成适合行人重识别所用数据集的训练类别数。并根据g-net与l-net选择修改pool5层的stride的大小。

所述步骤3)与4)中确定损失函数的权重因子,融合多种损失优化网络,同时注意维度特征的变化,从2048维做成256维,降维之后更快更有效,这个主要因为方便特征计算。在测试的时把l-net中的这(n+2)个256维的特征串连一个256*(n+2)的特征,取n=6,则在对比实验中用这个2048维度的特征代表图片特征做检索。

所述步骤5)在l-net中的ca模块中,为解决局部区域空间语义不一致的问题,采用一种基于距离选择的强判别特征学习方法,分别计算一个batch中三元组分块的n块局部特征,并记录di与dj之间的距离构成矩阵m,其中i,j代表每张图像的局部区域,即i,j∈(1,2,…n),选出矩阵m中最相似的一个局部三元组,即距离最近表示对齐区域程度越高。

所述步骤6)中使用adam优化算法,并联合n+2个分类损失、全局与局部三元组损失以及g-net中的中心三元组损失cl共同训练网络。

所述步骤7)中的测试阶段,分别对比各个阶段的损失函数结合效果,并在实验中找到一种最优的损失权重来平衡各类损失所占比重,在选择用于测试阶段特征时,考虑在步骤4)中l-net结合后的2048维特征与g-net中2048维度的特征之间选择最优效果的作为检索特征。

所述整个方法中网络在训练以及测试过程中都是端到端实现的。经过大规模的数据训练以后,能够达到较高的检索。

本发明在联合全局特征与局部特征的网络中结合多种度量学习方法优化网络参数,并在局部区域选取对齐问题上提出一种基于距离选择的强判别特征学习方法,在基本不增加训练成本的情况下大大提升检索的精度,使用价值高,可扩展性强。

附图说明

附图1是本发明所构建的基于距离选择的强判别特征学习的行人重识别网络模型示意图。

附图2是本发明所构建的g-net模块模型示意图。

附图3是本发明所构建的l-net模块模型示意图。

附图4是本发明所构建的ca模块模型示意图。

具体实施方式

一种基于距离选择的强判别特征学习的行人重识别方法,包括以下步骤:

1)在基于距离选择的强判别特征学习的行人重识别方法的具体实例中,将所有图片用线性插值的方法缩放至256*128像素大小,并利用随机水平翻转以及随机擦除等数据增强手段,防止一定的过拟合。此外,在样本选取中,设置p=16,k=4,即随机挑选16个id的行人,每个行人随机挑选4张不同的图片,即一个batch含有64张图片。

2)在基于距离选择的强判别特征学习的行人重识别方法的具体实例中,特征提取使用的在imagenet上预训练的resnet50网络,在g-net与l-net中前三层完全共享卷积层,在第四层卷积后设置不同的下采样,从而控制特征图大小的尺寸。在网络的最后修改训练类别数目。利用归一化以及1*1卷积降维操作,在特征提取之后倒数第二层全连接层输出的维度为2048,最后一层全连接层输出维度为256,根据不同维度的特征,验证度量损失与分类损失在维度空间的一致性,在g-net与l-net的全局分支中对比归一化前用三元组损失以及归一化后的特征用分类损失的效果。

3)在基于距离选择的强判别特征学习的行人重识别方法的具体实例中,设计了一种能够提取到高层抽象语义信息以及细节局部特征的网络结构,并设计多任务损失函数联合优化网络。在g-net中,归一化层之前的全连接层特征作为测试阶段检索特征。在2048维的特征做三元组损失,公式如下:

每个训练批次数量为batch=p*k,其中正样本集合为m,xp∈m,负样本集合为n,xn∈n,阈值α需要人为调节到合适的值来控制类内类间距离。但是,考虑该三元组在拉近正样本对,分离负样本的时候没有考虑对与对之间的绝对距离。例如,比如α=0.1,正对间的距离dp=0.1,负对距离dn=0.5则l=0.3。另一对间的dp=1.1,dn=1.5,同样有l=0.3,所以对于三元组集合中对与对之间的距离关系无法保证正样本的距离一定小于负样本的距离,即dp<dn。针对此,同时引入中心损失,公式如下:

代表第i类的中心特征,fi为g-net中20148维全连接层提取的全局特征,通过该中心损失与三元组损失的结合,能够大大加大类间紧凑、类内分离的效果。同时,对归一化后的256维特征fi′做softmax分类损失,即lid,公式如下:

训练类别数目为c,wh代表第h类的权重参数,h∈(1,2,..c)。本方法中的所有分类损失都是lsoftmax。综上,在g-net中总损失函数如下:

lgnet=lt+εlc+lid

ε为超参,控制整个损失中各个损失所占比重,需要人工设置根据合适值,考虑中心损失能够使同类更紧凑,可能会出现一些异类距离也极为靠近的情况,在实验中调整设置ε=0.0001。

在l-net中,首先对于n个局部区域做分类损失,即lil;同时,在全局区域做整张图片的分类损失以及全局三元组损失,即gil与gtl;同时,在n个局部区域中,我们采用一种基于距离选择的方法做三元组损失,对每个batch的三元组每张图分成n块局部区域后,计算归一化后的特征距离,归一化特征公式如下:

根据分块特征匹配n*n,形成矩阵m如下,从矩阵中选择每块局部区域最相似的特征,即di,j越小表示i与j区域越相似,则视为对齐的局部区域,然后通过对齐后的局部特征选取做局部三元组损失,即ltl:

l-net中总损失函数如下:

llnet=lgtl+βlltl+lgil+llil

β为超参,同ε一样,需要人工设置合适值。最后训练网络的整体损失l则为:

l=lgnet+llnet

4)在基于距离选择的强判别特征学习的行人重识别方法的具体实例中,训练完成以后,将要检索的数据集所有图片特征通过该网络提取出来,在测试过程中,将查询行人图特征提取出来与所有底库图片特征做欧氏距离。在检索特征选取方面,我们分别考虑g-net与l-net中的全局特征用作测试阶段的检索,最后选择g-net中倒数第二层全连接层的2048维特征用作每张行人图像的检索特征。

本发明中使用了全局特征与局部特征结合的特征,并在局部特征对齐问题上采取了计算归一化后的一种距离选取对齐局部相似区域,能够选取更具有判别力的局部特征。此外,结合多类损失联合训练网络,尤其是提出基于距离选择后的局部三元组做损失。并在g-net网络中引入中心损失,更能够将多类损失统一的归到同一球面上,并定性的度量不同类别之间的距离。相比现有算法,没有引入额外的模型,精度在强特征的融合下有所提升。

上述方式中未述及的技术内容,采取或借鉴已有技术即可实现。需要说明的是,在本说明书的教导下,本领域技术人员还可以作出这样或那样的容易变化方式,诸如等同方式,或明显变形方式。上述的变化方式均应在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1