一种最大粒度结构描述符的行人再辨识方法与流程

文档序号:12178060阅读:361来源:国知局
一种最大粒度结构描述符的行人再辨识方法与流程

本发明涉及一种行人再辨识中结构特征提取和度量学习技术,尤其是涉及一种最大粒度结构描述符的行人再辨识方法。



背景技术:

行人再辨识是指在一个多摄像机组成的监控网络中,针对不同摄像机下的行人进行识别并匹配的问题。它对鉴别行人身份、分析行人行为等方面的研究提供了关键性的帮助,并且发展成为了智能监控领域中的重要组成部分。

行人再辨识的方法主要分为两类:1)基于特征表示的行人再辨识方法;2)基于度量学习的方法。其中多数方法主要集中于寻找一种鲁棒性强的特征来描述行人,例如:颜色直方图,共生矩阵,特征主轴,最大稳定极值区域,概率直方图,协方差描述符,图形匹配,显著性匹配,深度学习模型等等。这些特征的优点在于计算时简单,时间开销低,然而却没有明显区分不同类的行人图片,使得行人再辨识仍存在识别率低、稳定性差等问题。

在选取特征表示之后,如何度量不同行人图片的距离也是行人再辨识领域的关键问题。现有的距离度量主要分为非学习方法和学习方法两类。对于简单的非学习方法,由于提取出来的特征信息具有冗余性,使得最后的识别效果并不理想,然而基于学习的距离度量方法通常学习不同摄像机下相同行人与不同行人鉴别信息,最大化不同行人图片的距离同时最小化相同行人图片的距离,因此往往可以有着较为理想的辨识结果。这种方法主要包括:RankSVM,相对距离比较(RDC),基于核方法的度量学习,马氏距离学习,深度度量学习、度量集成、交叉二次判别分析、非线性局部度量学习、自适应度量学习方法等等。这些基于学习的距离度量往往将行人再辨识分为了两步:特征表示和距离度量。

专利CN104992142A提出了一种基于深度学习和属性学习相结合的行人识别方法,能够从更高语义层描述行人特征,然而,训练模型过于复杂,并且受限于行人属性的选择。进一步,由于光照变化、姿态、视角、遮挡、图像分辨率等各方面因素的影响,这使得在监控视频智能分析中行人再辨识性能依然不佳。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种特征维数低、度量效果鲁棒性好的最大粒度结构描述符的行人再辨识方法。

本发明的目的可以通过以下技术方案来实现:

一种最大粒度结构描述符的行人再辨识方法,包括以下步骤:

S1,获取图像集中彩色的行人图像,使用Gabor滤波器处理行人图像,获得多个尺度图像;

S2,获取各尺度图像的颜色差分直方图CDH,利用交叠的滑动子窗口提取CDH的局部最大交叉编码描述符,即LMCC描述符;

S3,针对步骤S1获得的不同尺度下行人图像,使用滑动窗口提取局部块(即滑动窗口范围内图像)中的2个SILTP(Scale Invariant Local Ternary Pattern)直方图,以颜色直方图作为滑动窗口对应块下的局部特征,针对同一水平方向的各个局部块特征,同一维度上,提取最大值作为局部最大出现描述符,即LOMO描述符;优选的,使用大小为10×10的滑动窗口、步长为5的交叠策略提取局部块中的2个SILTP直方图,以8×8×8标准量化的颜色直方图作为滑动窗口对应块下的局部特征;

S4,使用LDA算法进行度量学习,获得特征空间的最优子空间,用于计算图像之间的相似性;

S5,输入待辨识的行人图像,计算待辨识的行人图像与图像集中行人图像的相似性,得到辨识结果。

2.根据权利要求1所述的一种最大粒度结构描述符的行人再辨识方法,其特征在于,所述的步骤S1包括以下步骤:

S11,将行人图像的RGB颜色空间变换成HSV颜色空间;

S12,分别在三个通道上,使用Gabor滤波器对HSV颜色空间进行μ种尺度的变换,每个通道得到μ个尺度图像;

S13,分别在三个通道上,对μ个尺度图像两两分组,每组包括2个邻域尺度图像,利用max-pooling算法,获得每组图像中的最大算子的尺度图像,每个通道得到μ/2个尺度图像。

所述的步骤S12中,同一尺度上的变换具有多个核函数方向,该尺度变换的结果取各核函数方向上的平均值。

所述的步骤S2包括以下步骤:

S21,获取尺度图像的CDH;

S22,提取CDH的描述符并将其视为在子窗口下发生的概率,然后选择在同一水平位置上的所有子窗口的颜色差分直方图的最大值作为提取出来的特征描述符,从而获取行人图像的局部特征。

所述的步骤S4包括以下步骤:

S41,利用主成分分析法分别对LMCC描述符和LOMO描述符降维;

S42,将LMCC描述符与LOMO描述符进行多尺度融合;

S43,利用线性判别分析LDA计算投影方向,得到紧凑的特征子空间,即特征空间的最优子空间,从而最大化类间差异性和最小化类内相似性。

与现有技术相比,本发明具有以下优点:

(1)受人类显著视觉注意启发,利用局部颜色差分直方图(关注局部块内量化颜色相同或者纹理方向相同)和Max Pooling算子(关注局部块内最大出现直方图特征点),提出了一种最大粒度结构的特征描述符(MGSD),此特征对于光照、旋转、平动等因素变化有着较好的鲁棒性,能够提取图像的本质特征,具有良好的行人辨识性能,并且对光照、视角、遮挡等变化具有不敏感性。

(2)采用交叠的滑动窗口分析水平位置上的局部特征并利用最大化算子的优点来提取突出特征,这种方法对视角变化有较好的稳定性和鲁棒性。

(3)MGSD描述符结合了LMCC描述符与LOMO描述符的优点,弥补了信息的缺失,同时利用主成分分析算法降低了信息的冗余度。

(4)利用LDA算法计算投影方向,最优化类内相似性和类间差异性,进而取得了更加优越的辨识效果。

附图说明

图1为本实施例方法的流程图;

图2为本实施例中利用Gabor滤波器对图片3个通道上16个尺度与8个方向进行预处理的过程;

图3为本实施例中利用均值处理Gabor滤波后的图像;

图4为本实施例中利用最大算子对多尺度图片预处理的过程;

图5为本实施例中LMCC描述符寻找显著特征像素的过程;

图6(a)、6(b)分别为本实施例算法和其他算法在VIPeR行人再辨识公开数据集上的CMC、SD/R曲线性能比较,p=316;

图7(a)、7(b)分别为本实施例算法和其他算法在CHUK-01行人再辨识公开数据集上的CMC、SD/R曲线性能比较,p=485;

图8(a1)、8(a2)、8(a3)、8(b1)、8(b2)、8(b3)分别为本实施例算法和其他算法在WARD行人再辨识公开数据集不同视角组合(1-2,1-3,2-3)上的CMC、SD/R曲线性能比较,p=50;

图9为本发明方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

实施例

步骤一:利用Gabor滤波器和最大算子预处理图片,具体描述如下:Gabor滤波器可以反映局部地区的特征并且考虑到了图像不同粒度的多尺度与多方向。使用Gabor滤波器可以从多粒度上获取更多的边缘信息融合到的特征表示中,进一步说,图片预处理过程从行人图片的三个通道(HSV)来获取更多的颜色信息。因此通过以下来定义Gabor滤波器:

其中x和y是位置坐标,σ是对指定为2π的高斯函数的标准偏差,μ表示16个不同尺度,θ则表示8个不同方向。

然后利用Gabor滤波器计算图像的I(x,y)并获取Gμ,θ(x,y)(如图2),具体如下:

Gμ,θ(x,y)=I(x,y)*ψμ,θ(x,y) (2)

在本发明中,提取特征Gμ(x,y)来代替Gμ,θ(x,y),方法如下:

其中Gμ(x,y)是Gμ,θ(x,y)在所有方向上的平均值,并且由16个不同的尺度得到了3*16张图片(如图3)。然后将16张图片分为8组,每组包括2个邻域尺度图像,并且利用MAX pooling的优点来获取每一组中受到生物学启发的特征,定义如下:

Bi=max(G(2i-1),G(2i)),i∈[1,...,8] (4)

Bi,i∈[1,...,8]是通过MAX pooling得到的BIF((Biologically Inspired Features,受生物学启发的特征)图,其提升了对小尺度变化的适应性。图4展示了对于一个行人的三个通道提取的一对生物学启发的图像特征。

步骤二:局部最大交叉编码,具体描述如下:对于颜色差分直方图(CDH),将其粒度化并将HSV颜色空间统一编码成4×4×4=64-bins,然后获取彩色图像Ci(x,y),其表示为w∈0,1...,W-1,其中W被定义为64。在纹理方向空间上,将其统一粒度化为36-bin,并获取纹理方向图像θi(x,y),其表示为v∈0,1...,V-1,其中V被定义为36。如图5所示,这个CDH描述符考虑了中心像素点和它的d=n×n-1个邻近邻居,然后提取与中心像素点相同颜色值的边界像素点的颜色差分直方图,或者是与中心像素点方向相同的边界点的颜色差分直方图。其具体定义如下:

然后利用滑动的子窗口来提取行人图片的局部特征。对于图片的每个子窗口,提取CDH描述符并将其视为在子窗口下发生的概率,然后选择在同一水平位置上的所有子窗口的CDH直方图的最大值作为提取出来的特征,将这个方法定义为局部最大交叉编码(LMCC)直方图。

因此,对于利用Gabor滤波器和最大算子预处理的多粒度行人图片,可以提取得到特征向量LMCCh

其中m是行数,是从颜色图像Ci(x,y)和纹理方向图像θi(x,y)提取得到的特征向量。

步骤三:度量学习,具体描述如下:在本发明中,提出了一个低纬度的判别子空间W=(w1,w2,...,wr)∈Rd×r,其可以使不同类图片的距离最大化并使同类图片的距离最小化。考虑到训练集X=(x1,x2,...,xn)∈Rd×n在d维空间上包含了n个样本,在r维子空间上的距离函数可以被定义为:

其中xi,xj∈X,Σ'I=WTΣIW,Σ'E=WTΣEW。

为了提升识别率,在本发明中将LMCC描述符与LOMO描述符融合成了多尺度信息,同时考虑到LMCC描述符与LOMO描述符的维数十分大,利用主成分分析(PCA)算法来降低这2个描述符的维数。为了计算投影方向w,在本发明中利用广义特征值分解来解决这个问题,由经典LDA(线性判别分析)算法的启发,可以定义目标优化函数:

因为ΣI是对称且正定的,则存在一个如下的分解:

ΣI=UUT (11)

其可以由特征分解来得到。更进一步说,U是正交的但不是标准正交。通过定义一个新的变量W=UTV,同时将(U-1)T简单表示为U-T,式(10)等价于:

可以通过来计算事实上,式(12)等价于U-1AU-T的特征值问题,并且由于U-1AU-T是一个实对称矩阵,则有以下分解:

其中D=diag(d1,d2,...,dk)的对角线是特征值,则由特征向量组成,最后将XQDA度量算法同上述度量算法进行线性组合,计算最后的相似度量距离,用于对相似结果进行排序,得到对待识别行人图像的判定结果。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1