一种基于对称卷积神经网络的跨模态行人重识别方法与流程

文档序号:24130637发布日期:2021-03-02 17:40阅读:131来源:国知局
一种基于对称卷积神经网络的跨模态行人重识别方法与流程

[0001]
本发明属于计算机视觉技术领域,具体涉及一种基于对称卷积神经网络的跨模态行人重识别方法。


背景技术:

[0002]
跨模态行人重识别是计算机视觉领域的一个重要课题。跨模态行人重识别在目标追踪,视频监控,公共安防中起到至关重要的作用,受到越来越多的学者关注。
[0003]
对于传统的单模态行人重识别任务,其数据只包含可见光图像,其难点主要在于摄像机视角变化、遮挡、行人的姿态变化、光照变化和背景复杂等。跨模态行人重识别数据不仅包含可见光图像,也包含红外光图像,需要在这两种模态下进行图像检索。在夜间,由于关照很弱,可见光摄像机很难捕获到足够的行人外观信息,这时行人的外观信息主要由红外光摄像机或深度像机来获取。由于两种相机的成像机制不同,形成了两种模态,使得两种图像之间存在巨大的模态差异。可见光图像与红外光图像有很大的差异,参见图1所示,可以看出可见光图像比红外光图像蕴含更多的颜色信息。除了存在模态内差异问题,模态间差异也成为了跨模态行人重识别所需要解决的另一个巨大难题。
[0004]
可见光模态和红外光模态之间的模态间差异可细分为特征差异和外观差异。为了减小特征差异带来的影响,一些方法通过利用统一的嵌入空间对齐跨模态特征,减小特征差异,但这样忽略了两个模态之间巨大的外观差异。其他一些方法使用生成对抗网络(generative adversarial networks,gan)来实现可见光图像与红外光图像之间的图像转换,以此方式来减少外观差异的影响。虽然由gan生成的虚拟图像与原始图像相似,但是并不能保证生成与身份相关的细节信息,而且生成的信息并不能保证完全可靠。


技术实现要素:

[0005]
本发明针对模态间和模态内差异问题,提出了一种基于对称卷积神经网络的跨模态行人重识别方法,以期能减少模态间和模态内差异,从而提高重识别效果和精度。
[0006]
本发明为达到上述发明目的,采用如下技术方案:
[0007]
本发明一种基于对称卷积神经网络的跨模态行人重识别方法的特点是按如下步骤进行:
[0008]
步骤1、采集n个行人的可见光图像集v,其中第i个行人的j张可见光图像记为v
i
,且v
i
={v
i1
,v
i2
,...,v
ij
},v
ij
表示第i个行人的第j张可见光图片,并为第i个行人赋予第i身份信息y
i
;i=1,2,

,n;
[0009]
用红外光相机或者深度相机采集n个行人的红外光图像集t,其中第i个行人的m张红外光图像记为t
i
,且t
i
={t
i1
,t
i2
,...,t
im
},t
im
表示第i个行人的第m个红外光图像;
[0010]
由其他已知身份信息的行人的可见光图片和红外光图像来构建检索库;
[0011]
步骤2、构建由生成器和鉴别器组成的对称卷积神经网络;
[0012]
所述生成器由两列独立的resnet50网络构成,其中resnet50网络由d个残差子模
块构成,在第d-1个残差子模块之后添加一列全连接层s1,在第d个残差子模块之后添加一列全连接层s2;
[0013]
所述鉴别器由可见光图像分类器和红外光图像分类器组成;
[0014]
初始化所述resnet50网络的网络权重;
[0015]
采用随机初始化方式来初始化所述全连接层与鉴别器的参数;
[0016]
步骤3、将所述n个行人的可见光图像集v和红外光图像集t分别输入到两列独立的resnet50网络中,并在第d-1个残差子模块后输出第d-1组可见光特征信息v
d-1
,以及第d-1组红外光特征信息t
d-1
,再分别输入所述第d个残差子模块后,输出第d组可见光特征信息v
d
以及第d组红外光特征信息t
d

[0017]
步骤4、构建第d-1个样本特征空间x
d-1

[0018]
从第d-1个残差子模块输出的所有特征信息中,选取p个行人的可见光特征信息和红外光特征信息,每个行人的可见光特征信息v
i,d-1
和红外光特征信息t
i,d-1
各选取k个特征信息,构建第d-1个样本特征空间x
d-1

[0019]
将所述第d-1个样本特征空间x
d-1
一起输入到后续的全连接层s1中,并输出第d-1组可见光特征向量v

d-1
和红外光特征向量t

d-1

[0020]
步骤5、构建第d个样本特征空间x
d

[0021]
从第d个残差子模块输出的所有特征信息中,选取p个行人的可见光特征信息和红外光特征信息,每个行人的可见光特征信息v
i,d
和红外光特征信息t
i,d
各选取k个特征信息,构建第d个样本特征空间x
d

[0022]
再将所述第d个样本特征空间x
d
一起输入到后续的全连接层s2中,并输出第d组可见光特征向量v

d
和红外光特征向量t

d

[0023]
步骤6、将所述第d-1组可见光特征向量v

d-1
输入所述可见光图像分类器中,输出可见光的初始概率分布gv,将第d-1组红外光特征向量t

d-1
输入到所述红外光图像分类器中,并输出红外光的初始概率分布gt;
[0024]
利用式(1)构建身份损失函数l
id

[0025][0026]
步骤7、从所述第d-1个样本特征空间x
d-1
中选择第a个行人的第k个特征信息记为锚点样本特征向量,则与锚点样本特征向量具有相同身份信息的第a个行人的第z个特征信息记为第z个正样本特征向量,与具有不同身份信息的第f个行人的第c个特征信息记为第c个负样本特征向量,则利用式(2)建立混合三元损失函数l
tri1
(x
d-1
):
[0027][0028]
式(2)中,代表锚点样本特征向量与第z个正样本特征向量
的欧式距离,代表锚点样本特征向量与第f个行人的第c个负样本特征向量的欧式距离,ρ1为混合三元损失函数l
tri1
(x
d-1
)预定义的最小间隔;
[0029]
步骤8、从所述第d个样本特征空间x
d
中选择第r个行人的第s个特征信息记为锚点样本特征向量,则与锚点样本特征向量具有相同身份信息的第r个行人的第b个特征信息记为第b个正样本特征向量,与具有不同身份信息的第h个行人的第q个特征信息记为第q个负样本特征向量,则利用式(3)建立混合三元损失函数l
tri2
(x
d
):
[0030][0031]
式(3)中,代表锚点样本特征向量与第b个正样本特征向量的欧式距离,代表锚点样本特征向量与第h个行人的第q个负样本特征向量的欧式距离,ρ2为混合三元损失函数l
tri2
(x
d
)预定义的最小间隔;
[0032]
步骤9、利用式(4)建立混合三元损失函数l
tri

[0033]
l
tri
=l
tri1
+l
tri2
ꢀꢀ
(4)
[0034]
利用式(5)建立全局损失函数l
all

[0035]
l
all
=l
id
+βl
tri
ꢀꢀ
(5)
[0036]
式(5)中,β表示混三元损失函数l
tri
的系数;
[0037]
通过随机梯度下降法对式(5)进行优化求解,并进行梯度反向传播,训练所述对称卷积神经网的各个参数,得到初步训练后的对称卷积神经网络模型;
[0038]
步骤10、将所述第d-1组可见光特征向量v

d-1
输入所述初步训练后的对称卷积神经网络模型中可见光图像分类器中,输出可见光的概率分布gv

,将第d-1组红外光特征向量t

d-1
输入到所述初步训练后的对称卷积神经网络模型中红外光图像分类器中,并输出红外光的概率分布gt

;将所述第d-1组可见光特征向量v

d-1
输入到所述初步训练后的对称卷积神经网络模型中红外光分类器中得到伪可见光概率分布gv


[0039]
利用式(6)构建所述伪可见光特征向量gv

与可见光概率分布gv

之间的散度损失函数l
kl

[0040]
l
kl
=kl(gv

,gv

)
ꢀꢀ
(6)
[0041]
式(6)中,kl(
·
,
·
)表示两者概率分布的差异值;
[0042]
利用式(7)建立鉴别器损失函数l
dis

[0043]
l
dis
=l
id-αl
kl
ꢀꢀ
(7)
[0044]
式(7)中,α代表l
kl
的系数;
[0045]
步骤11、利用式(8)建立生成器损失函数l
gen

[0046]
l
gen
=αl
kl
+βl
tri
ꢀꢀ
(8)
[0047]
步骤12、通过梯度下降法依次对式(5)、式(7)、式(8)进行优化求解:
[0048]
首先对式(5)进行优化求解,训练网络所有参数;
[0049]
其次对式(7)进行优化求解,在梯度反向传播过程中,仅对鉴别器的梯度进行反向传播,将生成器的梯度置零,从而冻结生成器参数,训练鉴别器参数;
[0050]
最后对式(8)进行优化求解,在梯度反向传播过程中,仅对生成器的梯度进行反向传播,将鉴别器的梯度置零,从而冻结鉴别器参数,训练生成器参数;
[0051]
依次训练后使得l
all
,l
dis
,l
gen
在对抗学习中收敛到最优,当l
dis
达到最优时,鉴别器达到最优,当l
gen
达到最优时,生成器达到最优,从而获得最终的对称卷积神经网络跨模态行人重识别模型;
[0052]
步骤13、利用最终的对称卷积神经网络模型对跨模态行人重识别进行查询匹配;
[0053]
将待查询的行人图像输入最终的对称卷积神经网络模型中提取特征,然后与检索库中行人的特征进行相似度比对,并按照相似度的高低排序,从排序列表中找到对应的行人身份信息,从而得到识别结果。
[0054]
与已有技术相比,本发明的有益效果体现在:
[0055]
1、针对模态间差异,本发明将基于概率分布的模态混淆思想与对抗学习相结合,构建了对称卷积神经网络,对称卷积神经网络由生成器和鉴别器构成,网络通过最小化鉴别器中分类器的输出概率分布差异,以此来产生模态不变特征,从而达到模态混淆的目的,以实现在遮挡、行人的姿态变化、光照变化和模态变化的情况下仍然有较高的检测精度。
[0056]
2、为了解决模态间差异和模态内差异这两大难题,本发明将三元损失与对抗学习结合,提出了一种混合三元损失来减小模态间的差异和模态内的差异。当通过对抗学习达到模态混淆时,在不区分模态的情况下选择正样本和负样本,来进行特征对齐,减小模态差异,以实现在模态差异较大情况下,仍有很高的检测精度,使本发明适应性更强。
[0057]
3、根据隐藏层卷积特征具有描述结构和空间信息的能力,本发明采用d-1层隐藏层卷积特征(即来自resnet50网络残差子模块的特征)作为后面全连接层s1的输入,以及后面鉴别器的输入,使网络能够学习到更多的空间结构信息,减小颜色差异的影响,缩小两种模态间差异,从而提高本发明的检测精度,使本发明在目标追踪,视频监控,公共安防等领域的应用性更强。
[0058]
4、本发明在对称卷积神经网络的不同深度对齐特征,使网络能够学习到更多的深层次信息,提高了网络的鲁棒性,能极大地缓解现有行人重识别方法在跨模态下检测不精确的问题,使本发明在外观差异等问题存在的情况下能够实现精准检测。
附图说明
[0059]
图1为现有技术中跨模态行人的两种模态示意图;
[0060]
图2为本发明提出的网络结构;
[0061]
图3为本发明涉及的模态间损失和模态内损失示意图;
[0062]
图4为本发明中α变量在regdb数据集上的结果图;
[0063]
图5为本发明中α变量在sysu-mm01数据集上的结果图;
[0064]
图6为本发明中β变量在regdb数据集上的结果图;
[0065]
图7为本发明中β变量在sysu-mm01数据集上的结果图。
具体实施方式
[0066]
本实施例中,一种基于对称卷积神经网络的跨模态行人重识别方法,主要是利用对称卷积神经网络和对抗学习来减小模态间和模态间差异和模态内差异;并在不同的网络深度上优化网络,利用浅层特征具有更多的空间结构信息来减小外观差异。参见图1所示,为两种不同模态下的图像示意图,详细步骤如下:
[0067]
步骤1、采集n个行人的可见光图像集v,其中第i个行人的j张可见光图像记为v
i
,且v
i
={v
i1
,v
i2
,...,v
ij
},v
ij
表示第i个行人的第j张可见光图片,并为第i个行人赋予第i身份信息y
i
;i=1,2,

,n;
[0068]
用红外光相机或者深度相机采集n个行人的红外光图像集t,其中第i个行人的m张红外光图像记为t
i
,且t
i
={t
i1
,t
i2
,...,t
im
},t
im
表示第i个行人的第m个红外光图像;
[0069]
由其他已知身份信息的行人的可见光图片和红外光图像来构建检索库;
[0070]
本实施例利用regdb数据集和sysu-mm01数据集。sysu-mm01是由四个可见光像机和两个红外光像机收集的大规模跨模态行人重识别数据集。该数据集有室内和室外两种不同的场景,其训练集包含395个行人身份数据信息,其中共有11909张红外光行人图像和22258张可见光行人图像。
[0071]
regdb数据集共包含412个行人身份信息,这些数据是由双摄像头系统捕获的。每个行人id共包含10张可见光图像和10张红外光图像。本发明采用公认的数据集处理方法,将数据集中所有随机分为两个部分,随机选择一部分数据用于训练。
[0072]
步骤2、构建由生成器和鉴别器组成的对称卷积神经网络;
[0073]
生成器由两列独立的resnet50网络构成,其中resnet50网络由d个残差子模块构成,在第d-1个残差子模块之后添加一列全连接层s1,在第d个残差子模块之后添加一列全连接层s2;s1,s2用于提取模态共享信息;本发明采用的resnet50网络由4个残差子模块构成,其中d=4,d-1=3;全连接层s1,s2神经元个数均设为1024;
[0074]
鉴别器由可见光图像分类器和红外光图像分类器组成,参见图2所示;
[0075]
初始化resnet50网络的网络权重;
[0076]
采用随机初始化方式来初始化全连接层与鉴别器的参数;
[0077]
步骤3、将n个行人的可见光图像集v和红外光图像集t分别输入到两列独立的resnet50网络中,用于提取行人的特征信息,并在第d-1个残差子模块后输出第d-1组可见光特征信息v
d-1
,以及第d-1组红外光特征信息t
d-1
,再分别输入第d个残差子模块后输出第d组可见光特征信息v
d
以及第d组红外光特征信息t
d

[0078]
步骤4、构建第d-1个样本特征空间x
d-1

[0079]
从第d-1个残差子模块输出的所有特征信息中,选取p个行人的可见光特征信息和红外光特征信息,每个行人的可见光特征信息v
i,d-1
和红外光特征信息t
i,d-1
各选取k个特征信息,构建第d-1个样本特征空间x
d-1
;本发明中p=16,k=4;
[0080]
将第d-1个样本特征空间x
d-1
一起输入到后续的全连接层s1中,用于提取模态共享信息,并输出第d-1组可见光特征向量v

d-1
和红外光特征向量t

d-1

[0081]
步骤5、构建第d个样本特征空间x
d

[0082]
从第d个残差子模块输出的所有特征信息中,选取p个行人的可见光特征信息和红外光特征信息,每个行人的可见光特征信息v
i,d
和红外光特征信息t
i,d
各选取k个特征信息,
构建第d个样本特征空间x
d
;p=16,k=4;
[0083]
再将第d个样本特征空间x
d
一起输入到后续的全连接层s2中,用于提取模态共享信息,并输出第d组可见光特征向量v

d
和红外光特征向量t

d

[0084]
步骤6、将第d-1组可见光特征向量v

d-1
输入可见光图像分类器中,输出可见光的初始概率分布gv,将第d-1组红外光特征向量t

d-1
输入到红外光图像分类器中,并输出红外光的初始概率分布gt;
[0085]
利用式(1)构建身份损失函数l
id

[0086][0087]
步骤7、从第d-1个样本特征空间x
d-1
中选择第a个行人的第k个特征信息记为锚点样本特征向量,则与锚点样本特征向量具有相同身份信息的第a个行人的第z个特征信息记为第z个正样本特征向量,与具有不同身份信息的第f个行人的第c个特征信息记为第c个负样本特征向量,则利用式(2)建立混合三元损失函数l
tri1
(x
d-1
):
[0088][0089]
式(2)中,代表锚点样本特征向量与第z个正样本特征向量的欧式距离,代表锚点样本特征向量与第f个行人的第c个负样本特征向量的欧式距离,ρ1为混合三元损失函数l
tri1
(x
d-1
)预定义的最小间隔;设置为ρ1=0.5。可通过优化式(2)来拉近锚点样本特征向量与正样本特征向量的距离同时,使锚点样本特征向量与负样本特征向量的距离变大。参见图3所示;
[0090]
步骤8、从第d个样本特征空间x
d
中选择第r个行人的第s个特征信息记为锚点样本特征向量,则与锚点样本特征向量具有相同身份信息的第r个行人的第b个特征信息记为第b个正样本特征向量,与具有不同身份信息的第h个行人的第q个特征信息记为第q个负样本特征向量,则利用式(3)建立混合三元损失函数l
tri2
(x
d
):
[0091][0092]
式(3)中,代表锚点样本特征向量与第b个正样本特征向量的欧式距离,代表锚点样本特征向量与第h个行人的第q个负样本特征向量的欧式距离,ρ2为混合三元损失函数l
tri2
(x
d
)预定义的最小间隔;设置为ρ2=0.5。
[0093]
步骤9、利用式(4)建立混合三元损失函数l
tri

[0094]
l
tri
=l
tri1
+l
tri2
ꢀꢀ
(4)
[0095]
利用式(5)建立全局损失函数l
all

[0096]
l
all
=l
id
+βl
tri
ꢀꢀ
(5)
[0097]
式(5)中,β表示混合三元损失函数l
tri
的系数。系数β设置为β=1.4。
[0098]
通过随机梯度下降法对式(5)进行优化求解,并进行梯度反向传播,训练对称卷积神经网的各个参数,得到初步训练后的对称卷积神经网络模型;
[0099]
步骤10、将第d-1组可见光特征向量v

d-1
输入初步训练后的对称卷积神经网络模型中可见光图像分类器中,输出可见光的概率分布gv

,将第d-1组红外光特征向量t

d-1
输入到初步训练后的对称卷积神经网络模型中红外光图像分类器中,并输出红外光的概率分布gt

;将第d-1组可见光特征向量v

d-1
输入到初步训练后的对称卷积神经网络模型中红外光分类器中得到伪可见光概率分布gv


[0100]
利用式(6)构建伪可见光特征向量gv

与可见光概率分布gv

之间的散度损失函数l
kl

[0101]
l
kl
=kl(gv

,gv

)
ꢀꢀ
(6)
[0102]
式(6)中,表示与概率分布的差异值;
[0103]
利用式(7)建立鉴别器损失函数l
dis

[0104]
l
dis
=l
id-αl
kl
ꢀꢀ
(7)
[0105]
式(7)中,α代表l
kl
的系数。系数α设置为α=1。
[0106]
步骤11、利用式(8)建立生成器损失函数l
gen

[0107]
l
gen
=αl
kl
+βl
tri
ꢀꢀ
(8)
[0108]
本发明对α,β的设置作了验证性实验,图4为本发明中系数α在regdb数据集上的效果;图5为系数α在sysu-mm01数据集上的效果;证明了当α=1时,本发明的性能更好;
[0109]
图6为本发明中系数β在regdb数据集上的效果;图7为系数β在sysu-mm01数据集上的效果;当α=1,β=1.4时,本发明性能最优,实验证明在α和β较宽泛的取值范围内也能取得良好的结果,这反映了本发明的优越性。
[0110]
步骤12、通过梯度下降法依次对式(5)、式(7)、式(8)进行优化求解。本发明使用自适应梯度优化器(adam)对网络模型进行优化。
[0111]
首先对式(5)进行优化求解,训练网络所有参数;
[0112]
其次对式(7)进行优化求解,在梯度反向传播过程中,仅对鉴别器的梯度进行反向传播,将生成器的梯度置零,从而冻结生成器参数,训练鉴别器参数;
[0113]
最后对式(8)进行优化求解,在梯度反向传播过程中,仅对生成器的梯度进行反向传播,将鉴别器的梯度置零,从而冻结鉴别器参数,训练生成器参数;
[0114]
依次训练后使得l
all
,l
dis
,l
gen
在对抗学习中收敛到最优,当l
dis
达到最优时,鉴别器达到最优,当l
gen
达到最优时,生成器达到最优,从而获得最终的对称卷积神经网络跨模态行人重识别模型;
[0115]
步骤13、利用最终的对称卷积神经网络模型对跨模态行人重识别进行查询匹配;
[0116]
将待查询的行人图像输入最终的对称卷积神经网络模型中提取特征,然后与检索库中行人的特征进行相似度比对,并按照相似度的高低排序,从排序列表中找到对应的行
人身份信息,从而得到识别结果。
[0117]
实施例:
[0118]
为证明本发明的有效性,本文与其他方法做了一些对比试验,如表1所示,与现行的其他方法相比,本发明的效果明显更好,证明了本发明的有效性。本文还对本发明网络的各个模块做了消融实验,实验结果如表2所示,证明了本发明各个模块的有效性。
[0119]
表1为本发明与其他方法的有效性对比图
[0120][0121]
表2为本发明相关消融实验图
[0122][0123]
经过实验证明本发明能极大地缓解现有行人重识别方法在跨模态下检测不精确的问题,在模态差异较大的情况下仍然有较高的检测精度。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1