一种基于距离中心化与投影向量学习的行人重识别方法与流程

文档序号:15258100发布日期:2018-08-24 20:59阅读:519来源:国知局

本发明涉及计算机视觉中的行人重识别技术领域,尤其是一种基于距离中心化与投影向量学习的行人重识别方法。



背景技术:

目前,越来越多的摄像系统被广泛地布置到公共场所,进行24小时不间断的监控,产生了大量的视频数据,使得主要依靠人工监控和人工鉴别的传统视频监控系统不仅耗费大量的人力,而且效力非常低下。因此,对视频数据进行自动化处理和分析对提高视频监控的效率有极大的帮助。视频监控中,当一个行人被位于公共场所的某个摄像机所捕捉到,即该行人的一帧或多帧图像被获取后,利用现有摄像机网络去发现该目标行人下一次出现的场所的过程称为行人重识别。行人重识别研究近几年获得了较大的进展。以往研究工作主要是利用投影矩阵的方式,将特征投影到共同子空间,以获得更好的判别性。一些方法对于行人数据的光照条件变化、拍摄角度的不同等一些问题具有很好的鲁棒性。

近些年,基于度量学习的行人重识别问题主要以学习出“好的”度量为主要目的。其主要思想是利用机器学习的方法,学习出距离测度和分类器,使得类内距离尽量小,类间距离尽量大。该方法对特征选择的要求较低,但具有训练时间长、投影矩阵维数大、容易过拟合等一些问题。



技术实现要素:

为解决上述行人重识别算法的一些问题,本发明提出基于样本距离中心化的相似性度量算法。首先,常用的基于距离学习的算法在构建训练集时,存在反例样本数目远多于正例数目的情况。每个样本在构建反例时需要与所有不同样本的特征向量求特征距离,而在此过程中会产生大量冗余的反例特征距离,大大的增加了训练的时间复杂度,而lmnn算法中利用构建三元组的方法会丢失一些重要的训练特征距离。因此在求样本的反例特征距离时,对同一样本的不同特征向量进行中心化。另外,对于同一个样本具有较多的类内样本时,本发明采用局部距离中心化的方法,以保留一些重要信息。

其次,常用的基于投影矩阵学习的方法中投影矩阵维数较高,带来了较大的运算和存储复杂度。本发明对投影矩阵进行特征值分解,将其分解成低秩的投影矩阵。因此在训练时,与其他常用的学习整个投影矩阵不同的是,利用本发明所提出的迭代优化策略,对样本特征的距离向量进行更新,获得新的样本分布,每次只需要利用更新后的训练集学习一组新的投影向量,在满足目标精度时停止更新。

最后,针对机器学习中常用的基于梯度下降的优化方法收敛速度慢,运算量大等问题,本发明在学习投影向量时采用共轭梯度法的方式,该方法只需要计算一次初始梯度,而且对于二次函数,具有二次终止性,可以很快的收敛到目标精度。

本发明的有益效果如下

本发明提出的距离中心化方法可以很好的缓解类别不平衡带来的过拟合问题。而基于特征值分解的马氏距离学习具有较好的降维效果,可以有效地降低运算和存储复杂度,并且特征值迭代更新策略能够近似地保证矩阵特征值分解后的向量之间保持正交的特性,使得所训练得到的投影向量更具有判别性,能够很好的提高识别率。另外本发明中优化所采用的共轭梯度法能够进一步地提高训练速度。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明的行人重识别方法的系统流程图;

图2为本发明采用的行人特征提取示意图;

图3为本发明采用的样本距离中心化示意图;

图4(a)为在viper数据集上实验的结果;

图4(b)为在ilids数据集上实验的结果。

图4(c)为在3dpes数据集上实验的结果

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。

下面将结合附图1-4并结合实施例,来详细说明本发明。

图1给出了本发明的操作流程图:步骤1、行人训练集和测试集的划分;步骤2、提取行人图像的特征,包括颜色特征与纹理特征;步骤3、计算中心化的特征距离;步骤4、构建基于迭代投影向量学习的行人重识别模型;步骤5、利用共轭梯度法迭代求解模型;步骤6、计算测试集中的不同行人特征距离进行行人重识别,有效解决了由于类别不平衡而带来的过拟合情况,从而提高了行人重识别的识别精度;本发明专利可以很好的提高训练速度并对噪声具有很好的抑制作用。因此本发明对行人的姿态、光照变化以及遮挡均具有很好的鲁棒性。

一种基于距离中心化与投影向量学习的行人重识别方法,具体操作方法包括以下几个部分:

步骤1、行人训练集和测试集的划分:

为验证本发明效果,利用三个常用数据集来进行实验比较,分别为viper数据集,ilids数据集和3dpes数据集。其中viper数据集由632个行人组成一共1024张行人图像,每个行人都有两张不同的图像,这两张图像是从不同摄像机不同角度拍摄得到的,同一个人在不同摄像机下的图像姿势有较大的变化。ilids数据集是在机场入境大厅拍摄得到,一共有119个行人组成的476个行人图像,平均每个行人有4张行人图像,由于行人较多,因此行人图像中不免有些遮挡以及角度等问题。3dpes数据集由8个不同的监控摄像机在不同时间拍摄得到的,由204个行人共1012张行人图像组成,由于该数据集有时间跨度,因此每个行人数据集光照变化大。本文分别将viper数据集、i-lids数据集和3dpes数据集中的200个行人、59个行人和134个行人作为训练集,余下的用作测试。

步骤2、提取行人图像的特征,包括颜色特征与纹理特征:

本发明对行人图像分别提取rgb、ycbcr、hsv、lab、yiq、gabor六种特征,图2给出了提取一张行人图像的特征描述的示例。其中前五种特征为颜色空间特征,提取的是直方图特征,即统计特征,rgb、ycbcr分别提取全部三组颜色特征,而hsv特征只提取色调(h)、饱和度(s)特征,lab特征和yiq去除像素的亮度特征(即l分量与y分量),这些待提取的特征全部分为16维直方图统计特征。而gabor特征是一种纹理特征,根据不同波长、方向、相位偏移、空间纵横比、带宽等分别取16组不同的gabor滤波器,而每个滤波器同样再提取16维直方图统计特征。对于每一张行人图像,将其在水平方向平均分为6个水平条带。因此每个水平条带中有28个特征通道,每个通道又被表示为16维直方图向量,因此每幅图像在特征空间中被表示为2688维特征向量。

步骤3、计算中心化的特征距离:

考虑到在建立正反例时,由于每一个样本与其他样本之间的正例特征距离(即为同一个行人不同数据集的特征距离,如图3中的实线所示)远少于反例特征距离(即为不同行人的不同特征距离,如图3中的粗虚线所示),这就带来了类别不平衡的问题,于是在度量学习时会出现反例样本训练过拟合或者正例样本欠拟合的情况,可能造成学习出来的度量矩阵并不能提高识别率。因此,对样本的特征向量进行适当的调整,尽量的缓解类别严重不平衡的情况显得非常重要。本发明主要利用类别不平衡问题常用的三个解决方法之一,欠采样的方式,将距离中心化,在求反例样本之间的特征距离时,将每一组正例样本的特征值平均化(如图3中黑点所示),用特征中心值距离来代替原先的反例特征距离,这样可以减少较多的较为相近的反例特征距离(如图3中点虚线所示),同时也有利于缓解过拟合的风险。即原本训练特征集为距离中心化后的特征训练集为其中xi,xj为同一行人的不同图像的特征向量,而为不同行人图像的平均特征向量,即ni、nk是目标样本集i、k中同一个行人图像的数目。

但防止损失太多的反例特征距离,当同一目标群体里含有较多的样本时,本发明针对其提出了局部距离中心化的思想,即将每一个目标群体中的较多样本分为若干个集合,对每个集合依次利用以上的距离中心化的方法。而求正例样本特征距离仍利用原先的策略来求解,这样在一定程度上能够缓解类别不平衡的问题,而且不会损失太多样本。

步骤4、构建基于迭代投影向量学习的行人重识别模型:

本发明将行人重识别问题转化为以下的度量学习问题,假设利用特征向量来代表每个行人数据。将第i个行人特征向量记为xi∈rn,其中n为特征维数。因此可以构造训练集为其中yi为第i个行人的标签,m为所有训练集中所包含的行人数据集数目。对于任意两个样本数据集(xa,xb)之间的距离记作dis(xa,xb),假设样本(xi,xj)代表同一个行人的数据集(类内样本),样本(xi,xk)代表不同行人的数据集(类间样本),则根据类内距离小于类间距离的原则,有dis(xi,xj)<dis(xi,xk)。记其中代表第t个样本与其他样本之间的类内距离,代表第t个样本与其他样本之间的类间距离。为了同时满足以上两个条件,可以利用极小化以下公式来达到:

公式1中的函数无界,因此在迭代时无法保证收敛,不利于之后的优化工作,所以,将其转化为常用的sigmoid函数,使其具有连续性:

将公式2中的所有t进行连乘并取对数,然后再取负数,将上式转化为求和问题,即可使所有差值向量满足以上约束:

在这里,极小化公式1即等价于极大化公式2,而极大化公式2又等价于极小化公式3。而由于马氏距离中的马氏矩阵具有很好的投影性质和可学习性,因此这里的距离函数取马氏距离:

dis(xi,xj)=(xi-xj)tm(xi-xj)(4)

度量学习就是对矩阵m进行学习,由于m是半正定对称矩阵,在这里,将m进行特征值分解,将其对角化,总能找到一组正交基p,使得m=ppt,其正交基数目可以小于原矩阵m的秩,这样可以通过学习获得一个降维矩阵p∈rn*d,该降维矩阵的每一列即可以作为每一组更新后特征空间的投影向量,其中d为降维后的正交基数目。于是,

另外,在对小样本进行训练时,仍然会有过拟合的情况发生,因此为了进一步缓解过拟合的风险,同时使学习到的投影矩阵具有一定的稀疏性,本发明引入正则化项r||p||2,其中r是正则化因子,则目标函数则为:

步骤5、利用共轭梯度法迭代求解模型:

本发明采用基于prp公式的共轭梯度法。首先需要给定初始搜索点和共轭梯度法的优化误差εg,通过计算得到目标函数的梯度,再根据prp公式计算共轭方向,然后再利用一维精确搜索来确定搜索步长,如此优化直到收敛。优化到第k步时的目标函数为:

则此时的目标函数的梯度gl为:

而第k步迭代后的投影向量为:

其中步长αk是通过一维精确搜索求得。qk为第k步投影向量的搜索方向:

qk=-gk+βk-1qk-1(10)

时,停止迭代,即已经达到目标精度,此时的作为第l步迭代得到的投影向量pl。

这里设第l步迭代的投影向量为:

其中表示第l次更新后的训练集中的正例数目,亦如此,这里的s为第l步迭代更新后的新的训练集。

本发明通过迭代更新得到新的特征距离集合(即s),这样可以得到一组新的特征分布,通过新的特征分布来学习得到一组近似正交的投影向量pi。这样,在满足一定精度要求的前提下可以大大减少运算复杂度,用少量的列向量pi来构造具有很好判别性的度量矩阵m,而且通过这种方式可以减少数据冗余度,即降噪的效果。

假设在l次迭代后,已经通过学习得到了一组投影向量p1,p2,...,pl,利用下面的迭代策略来更新其中s∈{pos,neg},t∈1,...,|s|。

假设初始p0=0,则当l>0时使用公式13来更新特征距离集合,而当l=0时,即为直接利用初始构造的特征距离集合(即)来学习投影向量p1。根据公式9、公式12可知,pl在的生成子空间中,即其中s∈{pos,neg},其中i∈1,...,|s|而由公式13可知,并且有因此,pl与pj,j=1,...,l-1近似正交。由于每次迭代得到的投影向量对应一个投影空间,而这些投影空间的关系并不是完全孤立的,因此本发明在公式13中加入数值较小的扰动项u,使得每一次更新迭代后的投影向量近似正交,保留每个投影空间的一些联系,使得投影更具有实际意义。

步骤6、计算测试集中的不同行人特征距离进行行人重识别:

在学习到投影矩阵后,利用该投影矩阵对测试集中的行人特征进行投影,然后计算测试集中待检测集与检测集行人投影后的特征距离。其中与待检测集中行人特征距离最近的检测集中行人则判断为同一行人。

本发明在matlab7.11.0平台下,实验环境为cpuintelcore(tm)i5-4460t1.90ghz,内存8gb的计算机上进行识别率效果检验。在本发明中,正则化因子r取1、扰动因子u取10-3能够获得较好的结果。另外,采用累计匹配特性曲线(cumulativematchcharacteristic,cmc)来评判本发明性能。累计匹配特性曲线的横坐标是排名(rank),纵坐标是匹配率(matchingrate),排名为r时的匹配率表示排序后前r个行人中匹配正确的概率。

本发明将样本距离中心化后的识别效果与样本距离未中心化的识别效果进行了对比,两种不同策略在三个数据集上的cmc曲线如图4所示,可以看出,由于样本距离中心化后能够很好的缓和过拟合的风险,将样本距离中心化后的行人重识别的效果在不同数据集上都明显要优于未中心化后的识别效果。可以看出,利用样本距离中心化后在排名较靠前的匹配率明显高于样本距离未中心化的算法。

以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1