一种行人重识别方法、装置、设备及介质与流程

文档序号:33031273发布日期:2023-01-20 20:53阅读:20来源:国知局
一种行人重识别方法、装置、设备及介质与流程

1.本发明涉及行人重识别技术领域,特别涉及一种行人重识别方法、装置、设备及介质。


背景技术:

2.行人重识别(person re-identification,reid)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人技术。广泛被认为是一个图像检索的子问题,即给定一个监控行人图像,检索跨设备下的该行人图像。
3.现有的有监督行人重识别技术,与常规的有监督图像识别模型提取特征并特征比对方法相似,即训练一个强特征提取模型,用该特征提取模型对原始行人图像进行特征提取,变换而得到抽象的行人描述,然后通过学习一个距离度量函数对行人的特征进行相似性判别,从而得到初步的排序列表,最后再根据相关排序优化原始排序列表,最后得到最终的行人识别结果;具体的,现有方法使用常规的cnn(convolutional neural network,卷积神经网络)图像分类模型,如resnet(residual network,残差网络)系列模型作为模型框架主干,在bottleneck(瓶颈层)中引入通道注意力的操作后为不同通道赋予不同的权重,从而学习通道之间的相关性;为了使网络关注局部特征,存在将全局特征划分为h(高)*w(宽)块局部块,每个局部块经过一个通道注意力的处理,然后将得到的权值经过均值和扩展处理得到一组h*w的二维矩阵,最终与全局特征进行相乘得到新特征;其中,bottleneck为神经网络中一种基础结构单元,使用1*1神经网络进行降维处理,常见出现在resnet中。
4.但是,现有技术方案中将全局特征划分为w*h块局部特征经过通道注意力模块处理,而通道注意力模块本身常规是由全连接层组成,因此相对普通的卷积层更消耗性能,因此如果使用较多的通道注意力模块,整体模型性能会是一个较大的问题;其次,所有局部区域都经过通道注意力的处理,局部区域依然没有针对性,人体以外的显著性目标依然可能会重点学习,从而可能无法较好的关注人体的重点区域;此外,将每个局部权值根据通道经过均值处理,可能会削弱通道注意力机制学习不同通道相关性的特点,以至降低行人重识别的准确性;另外,仅依靠行人id(identity document)信息进行行人检索,可能无法有效辨识不同行人特征达到重识别的目的,也会降低行人重识别的准确性。
5.综上所述,如何提高行人重识别的准确性是当前亟待解决的问题。


技术实现要素:

6.有鉴于此,本发明的目的在于提供一种行人重识别方法、装置、设备及介质,能够提高行人重识别的准确性。其具体方案如下:
7.第一方面,本技术公开了一种行人重识别方法,包括:
8.获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图;
9.获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权
权重系数,并基于相应的所述加权权重系数对所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像进行加权以得到加权后待识别全局特征图和加权后原始全局特征图;
10.通过行人属性分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人属性特征,并利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征,然后基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征;
11.基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别。
12.可选的,所述获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,包括:
13.基于全局池化层对所述待识别全局特征图和所述原始全局特征图进行特征压缩,并基于全连接层和激活层对压缩后图像进行特征激发以获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数。
14.可选的,所述基于相应的所述加权权重系数对所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像进行加权以得到加权后待识别全局特征图和加权后原始全局特征图,包括:
15.对所述待识别全局特征图和所述原始全局特征图进行横向三等分,以得到所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像、躯体区域图像和下半身区域图像;
16.将所述待识别全局特征图和所述原始全局特征图分别对应的所述权重系数和所述头肩区域图像进行点乘,以得到所述待识别行人图像和所述原始行人图像分别对应的加权后头肩区域图像;
17.将所述加权后头肩区域图像与相应的所述躯体区域图像和所述下半身区域图像进行拼接,以得到加权后待识别全局特征图和加权后原始全局特征图。
18.可选的,所述获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图之前,还包括:
19.利用预先获取的目标区域中由不同方位的摄像头拍摄的若干参考行人图片构建训练集,并利用所述训练集对基于残差网络搭建的行人重识别网络进行训练得到所述行人重识别模型。
20.可选的,所述利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征之前,还包括:
21.利用所述行人重识别网络新增的多维全局辅助分支获取所述训练集对应的不同维度的参考全局特征,并利用所述行人重识别网络的原始主干全局分支获取所述训练集对应的目标维度的目标全局特征;
22.基于所述参考全局特征和目标全局特征,并利用loss反传播训练所述原始主干全
局分支得到目标主干全局分支,以便利用所述目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的所述行人全局特征。
23.可选的,所述基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征,包括:
24.通过特征融合降维卷积层分别将所述加权后待识别全局特征图和所述加权后原始全局特征图对应的所述行人全局特征和所述行人属性特征进行拼接,并对拼接后特征进行降维卷积操作以获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征。
25.可选的,所述基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别,包括:
26.计算所述待识别图像对应的所述行人识别特征与所有所述原始图像对应的所述行人识别特征之间的目标距离;
27.提取满足预设条件的所述目标距离对应的所述原始图像作为与所述待识别行人图像对应的目标行人图像,以实现行人重识别。
28.第二方面,本技术公开了一种行人重识别装置,包括:
29.全局特征图获取模块,用于获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图;
30.加权后全局特征图获取模块,用于获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,并基于相应的所述加权权重系数对所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像进行加权以得到加权后待识别全局特征图和加权后原始全局特征图;
31.行人识别特征获取模块,用于获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人属性特征,并利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征,然后基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征;
32.行人重识别模块,用于基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别。
33.第三方面,本技术公开了一种电子设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现前述公开的行人重识别方法。
34.第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的行人重识别方法。
35.可见,本技术获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图;获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,并基于相应的所述加权权重系数对所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像进行加权以得到加权后待识别全局特征图和加权后原始全局特征图;通过行人属性分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图
分别对应的行人属性特征,并利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征,然后基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征;基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别。由上可知,本技术对人体区别较大的头肩区域图像进行加权,提升对不同人体的区分度,提高重识别的准确性;本技术利用预先基于多维全局辅助分支训练得到的目标主干全局分支提取行人全局特征,使得行人全局特征更加准确有效,有利于提高对不同人体的区分度;本技术在行人全局特征的基础上增加行人属性特征,有利于进一步提升对不同人体的区分度,提高模型的重识别效果和准确性。
附图说明
36.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
37.图1为本技术提供的一种行人重识别方法流程图;
38.图2为本技术提供的一种模型训练过程输出头结构示意图;
39.图3为本技术提供的一种模型使用过程输出头结构示意图;
40.图4为本技术提供的一种具体的行人重识别方法流程图;
41.图5为本技术提供的一种常规的resnet残差单元结构示意图;
42.图6为本技术提供的一种key area加权残差单元结构示意图;
43.图7为本技术提供的一种行人重识别装置结构示意图;
44.图8为本技术提供的一种电子设备结构图。
具体实施方式
45.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.当前,现有技术方案中将全局特征划分为w*h块局部特征经过通道注意力模块处理,而通道注意力模块本身常规是由全连接层组成,因此相对普通的卷积层更消耗性能,因此如果使用较多的通道注意力模块,整体模型性能会是一个较大的问题;其次,所有局部区域都经过通道注意力的处理,局部区域依然没有针对性,人体以外的显著性目标依然可能会重点学习,从而可能无法较好的关注人体的重点区域;此外,将每个局部权值根据通道经过均值处理,可能会削弱通道注意力机制学习不同通道相关性的特点,以至降低行人重识别的准确性。
47.为了克服上述问题,本技术提供了一种行人重识别方案,能够提高行人重识别的准确性。
48.参见图1所示,本技术实施例公开了一种行人重识别方法,该方法包括:
49.步骤s11:获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图。
50.本技术实施例中,所述获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图之前,还包括:利用预先获取的目标区域中由不同方位的摄像头拍摄的若干参考行人图片构建训练集,并利用所述训练集对基于残差网络搭建的行人重识别网络进行训练得到所述行人重识别模型。需要指出的是,首先使用通过在各点位不同角度不同摄像头采集的行人图片作为行人素材数据集,其中,一个行人对应一个id,同一id会包含有各角度各方向的图片,即会含有不同身姿的同一行人图片。可以使用常规的身姿分类模型针对这些行人训练集图片,做一个大概的身姿分类,以便较为清晰的知晓训练素材中人体不同身姿数据的数量分布情况,对数量严重不足的身姿做数据增强,以增加数量严重不足的身姿的数量以得到最终的训练集,该方法可以适当缓解训练样本不均衡的问题,使各个身姿的训练数据量差距不会过大。需要指出的是,所述数据增强包括但不限于光照增广,随机擦除、随机crop(裁剪)。需要指出的是,id用阿拉伯数字表示,从0开始。
51.本技术实施例中,所述待识别行人图像可以为query待检索目标图像;所述若干原始行人图像可以为gallery底库图像。
52.步骤s12:获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,并基于相应的所述加权权重系数对所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像进行加权以得到加权后待识别全局特征图和加权后原始全局特征图。
53.本技术实施例中,所述获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,包括:基于全局池化层对所述待识别全局特征图和所述原始全局特征图进行特征压缩,并基于全连接层和激活层对压缩后图像进行特征激发以获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数。
54.本技术实施例中,基于相应的所述加权权重系数对所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像进行加权以得到加权后待识别全局特征图和加权后原始全局特征图。可以理解的是,对头肩区域这一关键区域进行加权能够增强不同行人之间的区别度,由此可提高行人重识别的准确性。
55.步骤s13:通过行人属性分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人属性特征,并利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征,然后基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征。
56.本技术实施例中,利用行人重识别模型中具有所述调节后主干网络的所述主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的所述行人全局特征,并通过新增的行人属性分类分支中获取行人属性特征;需要指出的是,主干全局分支为512维全局特征输出。
57.需要指出的是,本技术利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征之前,还包括:利用所述行人重识别网络新增的多维全局辅助分支获取所述训练集对应的不同维度的参考全局特征,并利用所述行人重识别网络的主干全局分支获取所述训练集对应的目标维度的目标全局特征;基于所述参考全局特征和目标全局特征,并利用loss反传播对所述全局分支和所述主干全局分支共同对应的主干网络进行调节得到调节后主干网络,以便利用具有所述调节后主干网络的所述主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的所述行人全局特征。
58.需要指出的是,本技术首先使用多维全局辅助分支辅助主干全局分支进行训练,具体做法是在最后一个feature map输出之后新增不同维度的全局输出分支,例如,主干全局分支输出特征为512维,可以新增一条结构一样维度为384的全局分支;其目的是同一行人可以得到不同维度的信息表征,而不同的信息表征使其对行人关注的侧重点往往也会有所差异,训练过程中多维度输出分支(包括主干全局分支和多维全局辅助分支)通过loss反传播共同对主干网络进行调节,从而提升网络对行人的表征能力;需要注意的有两方面,一方面是,多维全局辅助分支的维度要小于主干全局分支,以此保证全局主干分支占主导地位;另一方面,模型正式使用过程中去掉多维全局辅助分支,只使用主干全局分支提取特征即可。
59.本技术实施例中,所述基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征,包括:通过特征融合降维卷积层分别将所述加权后待识别全局特征图和所述加权后原始全局特征图对应的所述行人全局特征和所述行人属性特征进行拼接,并对拼接后特征进行降维卷积操作以获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征。具体的,在之前对行人重识别网络进行训练得到行人重识别模型的过程中,首先,固定主干权重及行人id信息输出分支权重,以现有主干网络权重训练行人属性分支;其中,固定主干权重及行人id信息输出分支权重,是指固定神经网络中每一层的参数;其次,当行人属性分支收敛后,新增特征融合降维卷积层,将行人主干id信息特征与行人属性特征进行拼接,然后经过1*1降维卷积作为输出进行训练,训练过程依然采用固定与放开的两阶段训练策略,最终以降维卷积输出特征作为网络最终的行人检索特征(也即行人识别特征),以提高行人检索效果。
60.需要指出的是,固定阶段指表示训练过程中,把主干网络的参数和行人id信息分支网络的参数都固定不变,只变更行人属性分支网络的参数的条件下进行行人属性特征的训练学习;放开阶段指表示基于上面固定阶段训练得到的模型作为预训练模型,加载完之后,将刚才固定的网络参数全都打开,在训练阶段所有参数均可以变动的条件下进行训练学习。
61.需要指出的是,综上所述,在训练得到行人重识别模型的过程中,本技术基于行人重识别任务对网络结构的输出head(头)部分引入两种改进以提升网络的泛化性和行人检索效果,也即在输出head部分多维度全局辅助分支和行人属性特征融合,一方面,使网络主干结合不同维度的关注点进行联合学习;另一方面,可以融合行人属性的特征进行联合检索,从而提高模型的泛化能力和检索效果,具体的,网络输出head头结构如图2所示,图中包
括两个多维全局辅助分支和一个主干全局分支,两个多维全局分支分别为128维和384维。需要指出的是,所述通过行人属性分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人属性特征,并利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征的步骤,不经过多维全局分支,所述多维全局分支只在训练过程中使用,图3为本技术中进行重识别过程使用的行人属性分支和目标主干全局分支,行人属性分支为64维,目标主干全局分支为512维。
62.需要指出的是,对行人重识别网络进行训练的过程一般可以理解为三部分,第一部分为数据输入部分,其中包括读取数据,数据增强等;第二部分为神经网络,也即整个网络结构属于一个部分;第三部分为损失函数,也即对神经网络输出的结果进行处理,其中,具体的处理过程如下所示:损失函数是在模型训练过程中,将网络预测值和标签的真实值进行差异性计算,再将差异的结果反传给网络,从而使网络参数进行调整,让预测的结果越来越准确。需要指出的是,本技术使用常规的损失函数arcsoftmax loss与损失函数triplet loss两种损失函数进行组合。并且以bnneck的方式将损失函数triplet loss应用于特征的对比损失,将损失函数arcsoftmax loss经过bn(批量归一化,batch normalization)层后应用于预测分类损失。其中,在损失函数arcsoftmax loss由于有margin的存在,以及训练后期也会采用损失函数hard triplet loss,这些都会扩大不同id行人的特征,提高模型特征辨识度。
63.步骤s14:基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别。
64.本技术实施例中,所述基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别,包括:计算所述待识别图像对应的所述行人识别特征与所有所述原始图像对应的所述行人识别特征之间的目标距离;提取满足预设条件的所述目标距离对应的所述原始图像作为与所述待识别行人图像对应的目标行人图像,以实现行人重识别。具体的,将每一个query待检索目标图像的特征与gallery底库图像中所有特征进行距离计算,得到距离结果并依照距离数值从打到小进行排序;提取每一个query待检索目标图像对应特征排序前n的底库图像作为检索结果;其中n的数值根据实际情况确定,在此不做具体限定。
65.可见,本技术获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图;获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,并基于相应的所述加权权重系数对所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像进行加权以得到加权后待识别全局特征图和加权后原始全局特征图;通过行人属性分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人属性特征,并利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征,然后基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征;基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别。
由上可知,本技术对人体区别较大的头肩区域图像进行加权,提升对不同人体的区分度,提高重识别的准确性;本技术利用预先基于多维全局辅助分支训练得到的目标主干全局分支提取行人全局特征,使得行人全局特征更加准确有效,有利于提高对不同人体的区分度;本技术在行人全局特征的基础上增加行人属性特征,有利于进一步提升对不同人体的区分度,提高模型的重识别效果和准确性。
66.参见图4所示,本技术实施例公开了一种具体的行人重识别方法,该方法包括:
67.步骤s21:获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图。
68.本实施例中,关于上述步骤s21的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
69.步骤s22:获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,并对所述待识别全局特征图和所述原始全局特征图进行横向三等分,以得到所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像、躯体区域图像和下半身区域图像。
70.本技术实施例中,所述获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,包括:基于全局池化层对所述待识别全局特征图和所述原始全局特征图进行特征压缩,并基于全连接层和激活层对压缩后图像进行特征激发以获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数。
71.需要指出的是,在resnet网络结构的最后两个尺度layer(层)中的每一个残差单元中引入key area(关键区域)加权机制,具体操作如图5所示,是在residual支路的末端引入key area加权机制。具体的,在残差单元residual支路中经最后一个卷积层及bn层之后会输出一组全局的feature map(特征图像),其大小为b*c*h*w;引入两个分支,其中,左边支路将feature map分别经过全局池化层进行特征压缩,再经过两层全连接层和sigmod层进行特征激发,得到一组关于全局特征在不同通道上相关性的一组加权权重系数,其大小为b*c*1*1,该权重系数的大小可以一定程度反映不同通道对该全局行人特征表达的强弱;其中,所述b为batch(一批)数量,也即神经网络每次迭代,一次性送多少张图片到神经网络中;所述c为通道数量,也即某一个层神经网络的个数,例如,一张图片输入,经过某一层神经网络,这一层有512个通道,那么这一张图片输出就有512个特征图,那么batch张,就是batch*c特征图的输出;所述h为高;所述w为宽。
72.本技术实施例中,对所述待识别全局特征图和所述原始全局特征图进行横向三等分,以得到所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像、躯体区域图像和下半身区域图像,具体为:如图5所示,在右边支路上将上述全局的feature map经过slice(分解或水平切分)层进行特征的切分,结合网络输入的宽高比及训练集人体数据的分析,对输入进行横向三等分,得到三组局部feature map,分别为人体头肩区域、躯体区域、下半身区域,大小均为b*c*h/3*w。
73.需要指出的是,如图5所示为本技术提出的key area加权残差单元,如图6所示为常规resnet网络残差单元;需要指出的是,在key area加权残差单元中做出上述左边支路和右边支路的修改的前提下,在residual支路卷积层中引入dropblock(一种正则化方法)
层对特征图进行小概率的区域失活,可以提高模型的泛化性。
74.步骤s23:将所述待识别全局特征图和所述原始全局特征图分别对应的所述权重系数和所述头肩区域图像进行点乘,以得到所述待识别行人图像和所述原始行人图像分别对应的加权后头肩区域图像。
75.本技术实施例中,将全局特征得到的通道权重系数b*c*1*1与头肩区域b*c*h/3*w通过scale层进行点乘,得到加权之后的人体头肩区域,其大小为b*c*h/3*w,其目的在于对某些通道提取行人全局特征较好的情况下,继续强化行人头肩区域。
76.需要指出的是,现有的有监督行人重识别模型中,在使用通道注意力机制方面,其中绝大数采用常规的利用全局特征进行注意力机制的处理,不能很好的关注局部重点区域的学习;并且,对于行人重识别任务中,往往会引入注意力模块使cnn模型更关注于人体重要区域的学习,但常规的注意力模块可能也会导致人体以外遮挡物的重点学习,并没有达到精确提取人体重要特征的目的;其次是将全局特征都进行分区域并经过通道注意力处理,对性能会造成巨大的负担并削弱了通道注意力对局部区域的强化学习,而本技术通过在残差单元中使用全局特征的通道权重,再将其结合到有针对性的人体头肩区域进行加权操作可以有效使模型关注到人体头肩区域的学习,增强模型对不同行人的辨识度。
77.步骤s24:将所述加权后头肩区域图像与相应的所述躯体区域图像和所述下半身区域图像进行拼接,以得到加权后待识别全局特征图和加权后原始全局特征图。
78.本技术实施例中,将加权后的头肩区域与未做处理(未加权)的人体躯体区域、下半身区域通过concat(合并)层进行拼接,得到人体头肩区域加权后的行人全局特征图作为输出,其大小为b*c*h*w。
79.步骤s25:通过行人属性分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人属性特征,并利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征,然后基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征。
80.本实施例中,关于上述步骤s25的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
81.步骤s26:基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别。
82.本实施例中,关于上述步骤s26的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
83.可见,本技术以全局特征得到权重系数,将其结合到人体头肩区域进行关注学习(也即,对人体区别较大的头肩区域图像进行加权),最后与人体其他区域进行拼接作为输出,从而提高模型对不同行人特征的辨识度,提升对不同人体的区分度,提高重识别的准确性;本技术在行人全局特征的基础上增加行人属性特征,有利于进一步提升对不同人体的区分度,提高模型的重识别效果和准确性;另外,增加多维全局辅助分支,有利于使网络主干结合不同维度的关注点进行联合学习,有利于提高模型的泛化能够和检索效果。
84.本技术中,设计了一种基于行人重识别的key area加权和特征融合网络。该设计的网络是基于resnet网络结构进行裁剪,在输出卷积头部使用多维度全局分支辅助主干全
局分支,并且引入行人属性分支与主干全局分支进行特征融合进行训练,这种网络结构的改进能够有效提升模型的泛化性和检索效果。最关键的是本技术中针对行人重识别任务,在网络的残差单元中根据全局特征生成通道权重,并根据行人重识别任务训练集的特点对图像进行切片,最后将通道权重结合到人体头肩以上的区域进行关注学习,进一步提高模型对不同id的区分度。
85.参见图7所示,本技术实施例公开了一种行人重识别装置,包括:
86.全局特征图获取模块11,用于获取待识别行人图像和若干原始行人图像,并利用行人重识别模型获取所述待识别行人图像对应的待识别全局特征图和所述原始行人图像对应的原始全局特征图;
87.加权后全局特征图获取模块12,用于获取所述待识别全局特征图和所述原始全局特征图分别对应的不同通道的加权权重系数,并基于相应的所述加权权重系数对所述待识别全局特征图和所述原始全局特征图分别对应的头肩区域图像进行加权以得到加权后待识别全局特征图和加权后原始全局特征图;
88.行人识别特征获取模块13,用于获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人属性特征,并利用所述行人重识别模型中预先基于多维全局辅助分支训练得到的目标主干全局分支获取所述加权后待识别全局特征图和所述加权后原始全局特征图分别对应的行人全局特征,然后基于所述行人全局特征和所述行人属性特征获取所述待识别行人图像和所述原始行人图像分别对应的行人识别特征;
89.行人重识别模块14,用于基于所述行人识别特征从所述原始行人图像中提取与所述待识别行人图像对应的目标行人图像,以实现行人重识别。
90.其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
91.可见,本技术对人体区别较大的头肩区域图像进行加权,提升对不同人体的区分度,提高重识别的准确性;本技术利用预先基于多维全局辅助分支训练得到的目标主干全局分支提取行人全局特征,使得行人全局特征更加准确有效,有利于提高对不同人体的区分度;本技术在行人全局特征的基础上增加行人属性特征,有利于进一步提升对不同人体的区分度,提高模型的重识别效果和准确性。
92.进一步的,本技术实施例还提供了一种电子设备,图8是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
93.图8为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、输入输出接口24、通信接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任意实施例公开的行人重识别方法的相关步骤。
94.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口25能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口24,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
95.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者
光盘等,存储器22作为可以包括作为运行内存的随机存取存储器和用于外部内存的存储用途的非易失性存储器,其上的存储资源包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
96.其中,操作系统221用于管理与控制源主机上电子设备20上的各硬件设备以及计算机程序222,操作系统221可以是windows、unix、linux等。计算机程222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的行人重识别方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
97.本实施例中,所述输入输出接口24具体可以包括但不限于usb接口、硬盘读取接口、串行接口、语音输入接口、指纹输入接口等。
98.进一步的,本技术实施例还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的行人重识别方法。
99.关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
100.这里所说的计算机可读存储介质包括随机存取存储器(random access memory,ram)、内存、只读存储器(read-only memory,rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中,所述计算机程序被处理器执行时实现前述行人重识别方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
101.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的行人重识别方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
102.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
103.结合本文中所公开的实施例描述算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
104.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
105.以上对本发明所提供的一种行人重识别方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1