一种基于卷积神经网络目标中心模型的行人重识别方法与流程

文档序号:14249948阅读:217来源:国知局
一种基于卷积神经网络目标中心模型的行人重识别方法与流程

本发明涉及一种行人重识别方法,尤其是一种基于卷积神经网络目标中心模型的行人重识别方法。



背景技术:

行人重识别是指给定一个待查询的目标行人图像,需要在另外一个监控中查找出该行人的相关图像。由于监控摄像头的低分辨率和不确定的视角导致了技术相对成熟的人脸识别技术无法应用于行人重识别中。另外,同一行人在不同的摄像头下存在姿态、视角和光照的差异。即使在同一规格的摄像机下,人的外观也可能随光照、姿态、遮挡等因素而产生变化。所有这些问题使得行人重识别的研究工作变得具有挑战性。



技术实现要素:

为了解决现有技术所存在的问题,本发明提出了一种基于卷积神经网络目标中心模型的行人重识别方法,本方法有效降低图像背景、噪声等无关变量对相似性判别的影响,从而提高行人重识别准确率。

本发明采用如下技术方案来实现:一种基于卷积神经网络目标中心模型的行人重识别方法,包括以下步骤:

s1、从不同摄像头的视频流中获取行人图像,所述行人图像包括目标行人图像和参考行人图像;

s2、利用反向传播算法训练卷积神经网络;

s3、利用训练好的卷积神经网络分割行人图像的前景区域和背景区域,从而得到目标中心;

s4、提取行人图像特征;

s5、建立相似性度量函数,判别不同摄像头的行人图像是否属于同一个人。

优选地,所述步骤s2的训练过程为:首先,随机初始化卷积神经网络的卷积核和偏置;将目标行人图像和参考行人图像分成m×n块,把每一块区域输入所述卷积神经网络,进行前向传播,输出结果;通过输出结果与实际值之间的误差建立代价函数,并利用反向传播算法求代价函数关于卷积核和偏置的梯度;利用梯度下降法更新卷积核和偏置的值;通过迭代上述过程,求取使代价函数最小化时所对应的卷积核和偏置。

优选地,所述步骤s3的分割过程为:首先归一化目标行人图像和参考行人图像,然后将目标行人图像和参考行人图像分块,得到行人图像的块区域,对块区域进行加零值填充,填充后的块区域每个像素点作为一个神经元;把每一块区域输入所述卷积神经网络,进行前向传播从而获得该块区域的类别;将目标行人图像中类别为前景区域的块区域连接起来,得到目标行人图像的前景区域;将目标行人图像中类别为背景区域的块区域连接起来,得到目标行人图像的背景区域;将参考行人图像中类别为前景区域的块区域连接起来,得到参考行人图像的前景区域;将参考行人图像中类别为背景区域的块区域连接起来,得到参考行人图像的背景区域。

优选地,所述卷积神经网络包括:输入层、多个卷积层、多个池化层、全连接层及输出层;其中:

所述输入层指行人图像的块区域;对所述的块区域进行加零值填充,使得卷积层的特征映射图大小和输入特征图像大小一致;填充后的块区域每个像素点作为一个神经元;

所述卷积层由多个特征映射图组成,每个特征映射图由多个独立的神经元组成;所述卷积层的运算包括:利用多个卷积核在块区域的局部区域滑动,计算块区域的局部区域和卷积核对应位置神经元的乘积,把相乘的结果相加得到卷积特征图;卷积特征图加上偏置,通过激活函数输出,得到卷积层的特征映射图;

所述池化层由多个特征映射图组成,每个特征映射图由多个独立的神经元组成;池化运算包括:利用滤波器在卷积层的特征映射图滑动,寻找每个区域的最大值作为池化层的特征映射图神经元的值;

所述全连接层利用一维向量连接上一层输出的特征映射图;所述一维向量的每个元素代表一个神经元,该一维向量每个神经元都与上一层输出的特征映射图的每个神经元连接;

所述输出层将最后一层池化层的特征映射图进行向量化,利用sigmoid函数对全连接层的一维向量进行分类,分别对应前景区域和背景区域;将行人图像中类别为前景区域的块区域连接起来,得到行人图像的前景区域;将行人图像中类别为背景区域的块区域连接起来,得到行人图像的背景区域。

优选地,所述步骤s4的过程为:

s41、将目标行人图像的背景区域进行白色填充,收集进行填充后的目标行人图像,得到目标行人图像集合a;

s42、将参考行人图像的背景区域进行白色填充,收集进行填充后的参考行人图像,得到参考行人图像集合b;

s43、利用颜色特征描述子和纹理特征描述子分别对集合a、b中的每张行人图像进行处理;统计处理后的特征向量,得到对应的特征直方图;

s44、通过融合多种特征,并进行降维处理得到行人图像的一维特征向量。

优选地,步骤s5所述相似性度量函数,指充分利用已标记的先验信息来学习距离模型,使得相似图像之间的距离小于不相似图像之间的距离。

优选地,步骤s5采用马氏距离度量方法,计算目标行人图像集合和参考行人图像集合中任意两个行人图像之间的距离:式中,xi为目标行人图像集合第i个行人图像的一维特征向量,yj为参考行人图像集合第j个行人图像的一维特征向量,m为半正定矩阵;分别建立正、负样本对集合,正、负样本对集合的一半用于训练参数m,另一半用于测试行人重识别的准确率。

与现有技术相比,本发明具有如下优点和有益效果:

本发明采用训练好的卷积神经网络分割前景区域和背景区域,从而得到目标中心,即行人区域;再通过提取行人区域特征并建立相似性度量函数,判别两个不同摄像头的行人图像是否属于同一个人。本方法有效降低图像背景、噪声等无关变量对相似性判别的影响,从而提高行人重识别准确率。

附图说明

图1为本发明实施例中利用训练好的卷积神经网络分割前景区域和背景区域的流程图;

图2为本发明实施例中提取行人图像特征的流程图;

图3为本发明实施例中s2池化层的6个特征映射图的不同组合与c3卷积层的16个特征映射图的对应关系图;

图4为本发明实施例中s4池化层的16个特征映射图的不同组合与c5卷积层的64个特征映射图的对应关系图。

具体实施方式

下面结合附图和实施例,对本发明做进一步详细的描述,但本发明的实施方式不限于此。

实施例

本实施例中,基于卷积神经网络目标中心模型的行人重识别方法,包括以下步骤:

s1、从不同摄像头的视频流中获取行人图像;

所述行人图像包括目标行人图像和参考行人图像。摄像头设有两组,第一组摄像头的视频流中获取的行人图像为目标行人图像,第二组摄像头的视频流中获取的行人图像为参考行人图像。

利用hog特征描述子对第一组摄像头的视频流进行行人检测,得到对应的目标行人图像;收集目标行人图像,得到目标行人图像集合:p={p1,p2,p3,…,pi},pi代表目标行人图像集合的第i张行人图像。

利用hog特征描述子对第二组摄像头的视频流进行行人检测,得到对应的参考行人图像;收集参考行人图像,得到参考行人图像集合:g={g1,g2,g3,…,gj},gj代表参考行人图像集合的第j张行人图像。

s2、利用反向传播算法训练卷积神经网络;

首先,随机初始化卷积神经网络的卷积核和偏置;将目标行人图像和参考行人图像分成m×n块(如6×6块),把每一块区域输入所述卷积神经网络,进行前向传播,输出结果;通过输出结果与实际值之间的误差建立代价函数,并利用反向传播算法求代价函数关于卷积核和偏置的梯度;利用梯度下降法更新卷积核和偏置的值;通过迭代上述过程,求取使代价函数最小化时所对应的卷积核和偏置。至此,卷积神经网络的训练结束。

s3、利用训练好的卷积神经网络分割行人图像的前景区域和背景区域,从而得到目标中心(行人区域);

本步骤首先归一化目标行人图像和参考行人图像,然后将目标行人图像和参考行人图像分块,得到行人图像的块区域,对块区域进行加零值填充,填充后的块区域每个像素点作为一个神经元;把每一块区域输入所述卷积神经网络,进行前向传播从而获得该块区域的类别;将目标行人图像中类别为前景区域的块区域连接起来,得到目标行人图像的前景区域;将目标行人图像中类别为背景区域的块区域连接起来,得到目标行人图像的背景区域;将参考行人图像中类别为前景区域的块区域连接起来,得到参考行人图像的前景区域;将参考行人图像中类别为背景区域的块区域连接起来,得到参考行人图像的背景区域。在前向传播过程中,对行人图像的特征图进行卷积运算得到多个卷积层,对卷积层进行池化运算得到对应的池化层。卷积神经网络包括:输入层、多个卷积层、多个池化层、全连接层及输出层。其中:

所述输入层指行人图像的块区域;对所述的块区域进行加零值填充,使得卷积层的特征映射图大小和输入特征图像大小一致;填充后的块区域每个像素点作为一个神经元。

所述卷积层由多个特征映射图组成,每个特征映射图由多个独立的神经元组成;卷积层运算包括:利用多个卷积核在块区域的局部区域滑动,计算块区域的局部区域和卷积核对应位置神经元的乘积,把相乘的结果相加得到卷积特征图;卷积特征图加上偏置,通过激活函数relu(rectifiedlinearunits)输出,得到卷积层的特征映射图;通过卷积运算,使得原始行人图像特征增强,并且降低噪声。所述激活函数指f(x)=max(0,x)。

所述池化层由多个特征映射图组成,每个特征映射图由多个独立的神经元组成;池化运算包括:利用滤波器在卷积层的特征映射图滑动,寻找每个区域的最大值作为池化层的特征映射图神经元的值。通过池化运算,一方面减少训练参数的数量,简化网络计算复杂度,另一方面进行特征压缩,提取主要特征。

所述全连接层利用一维向量连接上一层输出的特征映射图;所述一维向量的每个元素代表一个神经元,该一维向量每个神经元都与上一层输出的特征映射图的每个神经元连接。

所述输出层将最后一层池化层的特征映射图进行向量化,利用sigmoid函数对全连接层的一维向量进行分类,分别对应前景区域和背景区域;将行人图像中类别为前景区域的块区域连接起来,得到行人图像的前景区域;将行人图像中类别为背景区域的块区域连接起来,得到行人图像的背景区域。

图1为本实施例利用训练好的卷积神经网络分割前景区域和背景区域的流程图,包括以下步骤:

(1)将行人图像归一化为144×96像素,然后把行人图像平均分成6×6块,一共得到36个块区域,每个块区域大小为24×16像素,每个像素作为一个神经元。

(2)对第一个块区域进行加零值填充,把填充后的块区域与6个不同的卷积核进行卷积运算,得到卷积特征图;所述卷积核的大小均为3×3像素;卷积特征图加上偏置,通过激活函数relu(rectifiedlinearunits)输出,得到c1卷积层的6个特征映射图,每个特征映射图由24×16个独立的神经元组成。

(3)利用大小为2×2的滤波器分别在c1卷积层的6个特征映射图滑动,寻找每个区域的最大值作为s2池化层的特征映射图神经元的值,最后得到s2池化层的6个特征映射图,每个特征映射图由12×8个独立的神经元组成。

(4)对s2池化层的6个特征映射图进行加零值填充,把填充后的6个特征映射图与16个不同的卷积核进行卷积运算,得到卷积特征图;所述卷积核的大小均为3×3像素;卷积特征图加上偏置,通过激活函数relu(rectifiedlinearunits)输出,得到c3卷积层的16个特征映射图,每个特征映射图由12×8个独立的神经元组成。其中,c3卷积层的每个特征映射图是与s2池化层的6个特征映射图中的几个特征映射图连接;连接关系如图3所示,c3卷积层的第1个特征映射图是与s2池化层的第1、2、3个特征映射图连接;c3卷积层的第2个特征映射图是与s2池化层的第2、3、4个特征映射图连接,以此类推。

(5)利用大小为2×2的滤波器分别在c3卷积层的16个特征映射图滑动,寻找每个区域的最大值作为s4池化层的特征映射图神经元的值,最后得到s4池化层的16个特征映射图,每个特征映射图由6×4个独立的神经元组成。

(6)对s4池化层的16个特征映射图进行加零值填充,把填充后的16个特征映射图与64个不同的卷积核进行卷积运算,得到卷积特征图;所述卷积核的大小均为3×3像素;卷积特征图加上偏置,通过激活函数relu(rectifiedlinearunits)输出,得到c5卷积层的64个特征映射图,每个特征映射图由6×4个独立的神经元组成。其中,c5卷积层的每个特征映射图是与s4池化层的16个特征映射图中的几个特征映射图连接;连接关系如图4所示,c5卷积层的第1个特征映射图是与s4池化层的第1、2、3、4、5、6、7、8个特征映射图连接;c5卷积层的第2个特征映射图是与s4池化层的第2、3、4、5、6、7、8、9个特征映射图连接,以此类推。

(7)利用大小为2×2的滤波器分别在c5卷积层的64个特征映射图滑动,寻找每个区域的最大值作为s6池化层的特征映射图神经元的值,最后得到s6池化层的64个特征映射图,每个特征映射图由3×2个独立的神经元组成。

(8)f7全连接层有81个神经元,每个神经元都与s6池化层的64个特征映射图的所有神经元连接。

(9)f7全连接层的81个神经元分别作为自变量输入,通过sigmoid函数,得到对应的因变量;若因变量的值大于0.5,定义该类别为1:前景区域;若因变量的值小于0.5,定义该类别为0:背景区域。

(10)把所述行人图像所有类别为前景区域的块区域连接起来,得到行人图像的前景区域;把所述行人图像所有类别为背景区域的块区域连接起来,得到行人图像的背景区域。

s4、提取行人图像特征;

图2为本实施例中提取行人图像特征、马氏距离学习并利用学习的度量函数计算任意两幅图像距离的流程图,包括以下步骤:

(1)将目标行人图像的背景区域进行白色填充,收集进行填充后的目标行人图像,得到目标行人图像集合:a={a1,a2,a3,…,ai},ai代表目标行人图像集合的第i张行人图像。

(2)将参考行人图像的背景区域进行白色填充,收集进行填充后的参考行人图像,得到参考行人图像集合:b={b1,b2,b3,…,bj},bj代表目标行人图像集合的第j张行人图像。

(3)利用颜色特征描述子和纹理特征描述子分别对集合a、b中的每张行人图像进行处理;统计处理后的特征向量,得到对应的特征直方图。其中,特征描述子包括:颜色特征描述子和纹理特征描述子等。颜色特征描述子包括:hsv、lab、ycbcr等;纹理特征描述子包括:gabor、lbp、hog等。

(4)通过融合多种特征,并进行降维处理得到行人图像的一维特征向量。

s5、建立相似性度量函数,判别不同摄像头的行人图像是否属于同一个人。

所述相似性度量函数,指充分利用已标记的先验信息来学习距离模型,使得相似图像之间的距离小于不相似图像之间的距离。对于所述距离模型的学习,马氏距离是一个很好的函数表达式,它在许多机器学习问题中是具有较好的泛化能力的一个函数。

本实施例采用马氏距离度量方法,计算目标行人图像集合和参考行人图像集合中任意两个行人图像之间的距离:式中,xi为目标行人图像集合第i个行人图像的一维特征向量,yj为参考行人图像集合第j个行人图像的一维特征向量,m为半正定矩阵;分别建立正、负样本对集合,正、负样本对集合的一半用于训练参数m,另一半用于测试行人重识别的准确率。求用于测试的目标行人图像集合和参考行人图像集合中任意两个元素之间的距离,并把所求得的距离按照由低到高的顺序进行排序,排序越靠前的样本对,相似度越高,为同一个行人的可能性越大。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1