行人重识别方法、装置及电子设备与流程

文档序号:31801457发布日期:2022-10-14 18:56阅读:64来源:国知局
行人重识别方法、装置及电子设备与流程

1.本发明涉及图像识别技术领域,尤其涉及一种行人重识别方法、装置及电子设备。


背景技术:

2.红外与可见光的行人重识别是夜间安防的重要任务之一。传统的行人重识别只能解决光线充足下的识别任务,而犯罪分子通常爱好在夜间行动,这时候完全依靠可见光摄像机显然是不能解决图像匹配问题的。
3.对此,现有技术提出一种使用生成对抗网络(generative adversarial networks),通过训练生成器和判别器来学习模态之间的关联,实现跨模态检索,但这种方式所产生的中间模态的通道信息只包含一种模态,难以在跨模态下进行较好的图像检索。


技术实现要素:

4.本发明的目的在于提供一种行人重识别方法,能够提升跨模态图像检索的准确性。
5.为实现上述目的,本发明提供一种行人重识别方法,包括如下步骤:获取训练样本集,所述训练样本集包括多个第一训练图像及分别与所述多个第一训练图像对应的多个第二训练图像,所述第一训练图像的模态为可见光图像和红外图像中一个,所述第二训练图像的模态为可见光图像和红外图像中另一个;通过预设的卷积神经网络模型融合第一训练图像及及其对应的第二训练图像,得到真实融合图像;用所述真实融合图像及第一训练图像训练预设的生成对抗网络模型,使得所述生成对抗网络模型根据第一训练图像生成的伪融合图像达到预设标准;利用所述真实融合图像、伪融合图像及第二训练图像组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;获取待检测的图像集,所述待检测的图像集包括多个第一图像及多个第二图像,所述第一图像的模态为可见光图像和红外图像中一个,所述第二图像的模态为可见光图像和红外图像中另一个;将所述第一图像输入训练后的生成对抗网络模型,得到该第一图像对应的伪融合图像;将所述伪融合图像和所述第二图像输入训练后的行人重识别网络进行行人匹配,得到行人重识别结果。
6.具体地,通过预设的卷积神经网络模型融合各个第一训练图像及第二训练图像,得到真实融合图像具体包括:通过第一卷积层和第二卷积层分别提取所述第一训练图像及第二训练图像的图像特征;通过预设的元素级融合规则融合所述第一训练图像及第二训练图像的图像特征,
得到真实融合图像特征;通过第三卷积层和第四卷积层从真实融合图像特征重建图像,得到真实融合图像。
7.可选地,所述预设的元素级融合算法为:;其中,表示第i张第一训练图像或第二训练图像通过第二卷积层提取的第j个特征图,是真实融合图像特征的第j个通道,fuse是元素融合规则,i,j和n均为正整数。
8.可选地,用所述真实融合图像及第一训练图像训练预设的生成对抗网络模型具体包括:将第一训练图像转换包括可见光图像和红外图像两张模态信息的伪融合图像;将伪融合图像和真实融合图像转换到同一特征空间中,以减少伪融合图像和真实融合图像之间的特征差异;接收由伪融合图像或真实融合图像生成的图像-特征对,当图像-特征对中的图像为真实融合图像且特征为真实融合图像的特征,且该图像和特征对应的id相同时,判别结果为真,否则判别结果为假;当判别结果的准确率达标时,完成所述生成对抗网络模型的训练。
9.具体地,所述行人重识别网络通过计算所述伪融合图像和所述第二图像的特征向量的余弦相似性来匹配所述伪融合图像和所述第二图像。
10.可选地,在所述将第一训练图像转换包括可见光图像和红外图像两张模态信息的伪融合图像的步骤中:采用预设的循环一致性损失使得所述第一训练图像和伪融合图像保持相同的结构内容信息;采用预设的身份损失使得所述第一训练图像和伪融合图像保持相同的id。
11.可选地,在将伪融合图像和真实融合图像转换到同一特征空间的步骤中:采用一基于卷积神经网络的特征生成器通过最小化分类损失和三元组损失来编码伪融合图像与真实融合图像至同一特征空间中。
12.本发明还提供一种行人重识别装置,包括:第一获取单元,用于获取训练样本集,所述训练样本集包括多个第一训练图像及分别与所述多个第一训练图像对应的多个第二训练图像,所述第一训练图像的模态为可见光图像和红外图像中一个,所述第二训练图像的模态为可见光图像和红外图像中另一个;融合单元,用于通过预设的卷积神经网络模型融合第一训练图像及及其对应的第二训练图像,得到真实融合图像;第一训练单元,用于用所述真实融合图像及第一训练图像训练预设的生成对抗网络模型,使得所述生成对抗网络模型根据第一训练图像生成的伪融合图像达到预设标准;第二训练单元,利用所述伪融合图像及第二训练图像组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;第二获取单元,用于获取待检测的图像集,所述待检测的图像集包括多个第一图
像及多个第二图像,所述第一图像的模态为可见光图像和红外图像中一个,所述第二图像的模态为可见光图像和红外图像中另一个;生成单元,用于将所述第一图像输入训练后的生成对抗网络模型,得到该第一图像对应的伪融合图像;识别单元,用于将所述伪融合图像和所述第二图像输入训练后的行人重识别网络进行行人匹配,得到行人重识别结果。
13.本发明还提供一种电子设备,包括:存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
14.本发明的有益效果:本发明提供一种行人重识别方法,所述方法依照同一相机下红外与可见光图像中行人内容信息不变,将两种模态图像进行图像融合,训练生成对抗网络模型生成难以辨别的伪融合图像,并用伪融合图像取代原有的可见光图像或红外图像作为输入,伪融合图像中含有原有的可见光图像或红外图像的信息,在提取特征进行相似度排序时可降低误检率,能够降低两种输入模态之间的差异,在跨模态行人重识别过程中具有更高的准确性。
附图说明
15.为了能更进一步了解本发明的特征以及技术内容,请参阅以下有关本发明的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本发明加以限制。
16.附图中,图1为本发明的行人重识别方法的流程图;图2为本发明的行人重识别方法进行模型训练时的流程图;图3为本发明的行人重识别方法进行行人识别时的流程图;图4为本发明的行人重识别方法中的生成对抗网络模型的示意图;图5为本发明的行人重识别方法的一实施例中的第一训练图像的示意图;图6为本发明的行人重识别方法的一实施例中的第二训练图像的示意图;图7为本发明的行人重识别方法的一实施例中的真实融合图像的示意图;图8为本发明的行人重识别方法的一实施例中的真实融合图像的示意图;图9为本发明的行人重识别装置的示意图;图10为本发明的电子设备的示意图。
具体实施方式
17.为更进一步阐述本发明所采取的技术手段及其效果,以下结合本发明的优选实施例及其附图进行详细描述。
18.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.在本技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示
的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
20.在本技术中,“示例性”一词用来表示“用作例子、例证或说明”。本技术中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本技术,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本技术。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本技术的描述变得晦涩。因此,本技术并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
21.请参阅图1至图10,本发明提供一种行人重识别方法,包括如下步骤:步骤s1、获取训练样本集,所述训练样本集包括多个第一训练图像及分别与所述多个第一训练图像对应的多个第二训练图像,所述第一训练图像的模态为可见光图像和红外图像中一个,所述第二训练图像的模态为可见光图像和红外图像中另一个。
22.在本发明的一些实施例中,每一第一训练图像及其对应的一第二训练图像为来自的同一摄像头在同一时刻拍摄的两种不同的模态的图像,即一可见光图像和一红外图像,通常来说该可见光图像及红外图像中的行人具体相同的姿态及视角,如图5及图6所示。
23.步骤s2、通过预设的卷积神经网络模型融合第一训练图像及及其对应的第二训练图像,得到真实融合图像。
24.在本发明的一些实施例中,第一训练图像为红外图像,第二训练图像为可见光图像。
25.具体地,所述步骤s2具体包括:通过第一卷积层和第二卷积层分别提取所述第一训练图像及第二训练图像的图像特征;通过预设的元素级融合规则融合所述第一训练图像及第二训练图像的图像特征,得到真实融合图像特征;通过第三卷积层和第四卷积层从真实融合图像特征重建图像,得到真实融合图像。
26.需要说明的是,所述步骤s2中通过第一卷积层和第二卷积层来提取输入图像(第一训练图像或第二训练图像)的广泛浅层特征,值得注意的是,由于从随机初始化的卷积核中训练回归模型(图像到图像)通常很困难,而且不稳定,因此本发明采用的方法是将经过良好训练的分类模型的参数转移到回归模型中,即采用在imagenet上预训练的高级resnet101的第一卷积层作为本发明的第一卷积层conv1(包含64个大小为7x7的卷积核),该第一卷积层conv1可以用来提取有效的图像特征,一般用于分类任务,直接将其输入特征融合模块不适合图像融合任务,因此本发明还添加第二卷积层conv2来调整第一卷积层conv1的卷积特征,以适应特征融合。
27.具体地,所述预设的元素级融合算法为:;其中,表示第i张第一训练图像或第二训练图像通过第二卷积层提取的第j个特征图,是真实融合图像特征的第j个通道,fuse是元素融合规则,i,j和n均为正整数。
28.在实际应用中,有三种常用的元素级融合规则,即元素级最大值、元素级求和和元素级平均值,应根据图像数据集的特点选择适用的融合规则。例如,尖锐特征(最大值)表示监控场景中的显著对象,因此在变换域图像融合算法中经常使用元素最大融合规则来融合多聚焦图像、红外和视觉图像以及医学图像,对应到本发明中所述的元素融合规则优选为元素最大融合规则。
29.进一步地,由于只采用第一卷积层和第二卷积层进行特征提取,所以提取的卷积特征的抽象级别不高,因此,在图像重建时,选择了还采用了两个卷积层,即第三卷积层和第四卷积层从真实融合图像特征重建真实融合图像,如图7所示。
30.步骤s3、用所述真实融合图像及第一训练图像训练预设的生成对抗网络模型,使得所述生成对抗网络模型根据第一训练图像生成的伪融合图像达到预设标准。
31.用所述真实融合图像及第一训练图像训练预设的生成对抗网络模型具体包括:将第一训练图像转换包括可见光图像和红外图像两张模态信息的伪融合图像;将伪融合图像和真实融合图像转换到同一特征空间中,以减少伪融合图像和真实融合图像之间的特征差异;接收由伪融合图像或真实融合图像生成的图像-特征对,当图像-特征对中的图像为真实融合图像且特征为真实融合图像的特征,且该图像和特征对应的id相同时,判别结果为真,否则判别结果为假;当判别结果的准确率达标时,完成所述生成对抗网络模型的训练。
32.进一步地,在所述将第一训练图像转换包括可见光图像和红外图像两张模态信息的伪融合图像的步骤中:采用预设的循环一致性损失使得所述第一训练图像和伪融合图像保持相同的结构内容信息;采用预设的身份损失使得所述第一训练图像和伪融合图像保持相同的id。
33.进一步地,在将伪融合图像和真实融合图像转换到同一特征空间的步骤中:采用一基于卷积神经网络的特征生成器通过最小化分类损失和三元组损失来编码伪融合图像与真实融合图像至同一特征空间中。
34.对应上述步骤,本发明设置的所述生成对抗网络模型包括:像素对齐模块101,用于将第一训练图像转换包括可见光图像和红外图像两张模态信息的伪融合图像;特征对齐模块102,用于将伪融合图像和真实融合图像转换到同一特征空间中,以减少伪融合图像和真实融合图像之间的特征差异;联合判别模块103,用于接收由伪融合图像或真实融合图像生成的图像-特征对,当图像-特征对中的图像为真实融合图像且特征为真实融合图像的特征,且该图像和特征
对应的id相同时,判别结果为真,否则判别结果为假。
35.需要说明的是,像素对齐模块101为了减少两种模态之间的差异,将真实的第二训练图像转换为包含第一训练图像和第二训练图像的两种模态信息的伪融合图像,为了使所述第一训练图像和伪融合图像保持相同的结构内容信息,采用循环一致性损失,具体为: ;其中,g
p’是用gan模型训练从真实融合图像到第二训练图像的映射,g
p
是用gan模型训练从第二训练图像到真实融合图像的映射。
36.进一步地,为了使伪融合图像x’mix
与相应的第二训练图像应保持相同id,设定像素对齐模块101需要满足x’mix
对应id的身份损失,所述id损失包括三重约束监督条件:;;;其中,其中p(
·
)是预测结果为输入图像对应的真实id的可能性,xa和x
p
是对应同一id的正样本对, xa和xn是对应不同id的负样本对, 是x1和x2在嵌入空间中的余弦距离,m是边缘参数一般设置为1,至此,像素对齐模块101的总损失为:;其中,和是对应项的权重。
37.进一步地,所述特征对齐模块102包括一基于卷积神经网络的特征生成器,所述特征生成器通过最小化分类损失和三元组损失来编码伪融合图像与真实融合图像至同一特征空间中。
38.详细来说,像素对齐模块101减少了模态之间的差异,要提高跨模态下行人重识别的准确性,还需考虑由不同姿态、视角、光照等导致的巨大的模态内的差异,而特征对齐模块102主要用于解决这个问题,其中特征生成器通过最小化分类损失和三元组损失来编码伪融合图像与真实融合图像至同一特征空间中。使用卷积神经网络作为特征生成器来学习特征图m ,通过平均池化至特征向量v。
39.进一步地,所述特征生成器的输入为伪融合图像和真实融合图像,通过分类器的分类损失和嵌入器的三元组损失进行调优,分类损失和三元组损失如下:
;其中代表并集,p(
·
)是预测结果为输入图像对应的真实id的可能性,伪融合图像对应的id与第二训练图像相同。
40.此外,为了减少分布分歧导致的跨模态差异,额外在特征空间采用生成对抗损失。
41.至此,特征对齐模块102的总损失为:。
42.具体地,所述联合判别模块103包括联合判别器,所述联合判别器的输入是图像-特征对(x,m),输出是几率(1代表真(real),0代表假(fake)),只有有真实融合图像和真实融合特征有相同的id时才分类真,其余情况都是假,联合判别模块目标函数定义下:;;;其中代表并集,p(
·
)是预测结果为输入图像对应的真实id的可能性,伪融合图像对应的id与第二训练图像相同,其中中的图像x和特征m是属于相同id的真实值, 中的图像x和特征m是属于相同id的且至少其中之一不是真实值, 中的图像x和特征m是属于不同id的真实值。
43.为了使伪融合图像和真实融合图像尽可能相似,使联合判别模块混淆,损失函数定义如下:;;其中,中的图像x和特征m是属于相同id,图像x是伪融合图像,m是真实融合特征,中的图像x和特征m是属于相同id,图像x是伪融合图像,m是伪融合特征,中的图像x和特征m是属于相同id,图像x是真实融合图像,m是伪融合特征。
44.最终,当联合判别模块103对于真实融合图像和伪融合图像的判别结果的准确率达标时,也即联合判别模块103难以准确辨别出伪融合图像的真实性时,可以得到训练后的生成对抗网络模型,该生成对抗网络模型能够根据第二训练图像生成接近真实融合图像的伪融合图像。
45.步骤s4、利用所述真实融合图像、伪融合图像及第二训练图像组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;
其中,真实融合图像和伪融合图像中含有原有的可见光图像或红外图像的信息,是一种介于可见光图像和红外图像之间的中间模态,利用此中间模态进行行人重识别,能够降低两种输入模态之间的差异,在跨模态行人重识别过程中具有更高的准确性。
46.步骤s5、获取待检测的图像集,所述待检测的图像集包括多个第一图像及多个第二图像,所述第一图像的模态为可见光图像和红外图像中一个,所述第二图像的模态为可见光图像和红外图像中另一个;步骤s6、将所述第一图像输入训练后的生成对抗网络模型,得到该第一图像对应的伪融合图像;步骤s7、将所述伪融合图像和所述第二图像输入训练后的行人重识别网络进行行人匹配,得到行人重识别结果。
47.具体地,所述行人重识别网络通过计算所述伪融合图像和所述第二图像的特征向量的余弦相似性来匹配所述伪融合图像和所述第二图像。
48.请参阅图9,本发明还提供一种行人重识别装置,包括:本发明还提供一种行人重识别装置,包括:第一获取单元10,用于获取训练样本集,所述训练样本集包括多个第一训练图像及分别与所述多个第一训练图像对应的多个第二训练图像,所述第一训练图像的模态为可见光图像和红外图像中一个,所述第二训练图像的模态为可见光图像和红外图像中另一个;融合单元20,用于通过预设的卷积神经网络模型融合第一训练图像及及其对应的第二训练图像,得到真实融合图像;第一训练单元30,用于用所述真实融合图像及第一训练图像训练预设的生成对抗网络模型,使得所述生成对抗网络模型根据第一训练图像生成的伪融合图像达到预设标准;第二训练单元40,利用所述伪融合图像及第二训练图像组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;第二获取单元50,用于获取待检测的图像集,所述待检测的图像集包括多个第一图像及多个第二图像,所述第一图像的模态为可见光图像和红外图像中一个,所述第二图像的模态为可见光图像和红外图像中另一个;生成单元60,用于将所述第一图像输入训练后的生成对抗网络模型,得到该第一图像对应的伪融合图像;识别单元70,用于将所述伪融合图像和所述第二图像输入训练后的行人重识别网络进行行人匹配,得到行人重识别结果。
49.请参阅图10,本发明还提供一种电子设备,包括:存储器200和处理器100,所述存储器200存储有计算机程序,所述计算机程序被所述处理器100执行时,使得所述处理器100执行上述方法的步骤。
50.综上所述,本发明提供一种行人重识别方法。所述方法依照同一相机下红外与可见光图像中行人内容信息不变,将两种模态图像进行图像融合,训练生成对抗网络模型生成难以辨别的伪融合图像,并用伪融合图像取代原有的可见光图像或红外图像作为输入,伪融合图像中含有原有的可见光图像或红外图像的信息,在提取特征进行相似度排序时可
降低误检率,能够降低两种输入模态之间的差异,在跨模态行人重识别过程中具有更高的准确性。
51.以上所述,对于本领域的普通技术人员来说,可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1