面向行人再识别的基于多投影变换的特征度量学习方法与流程

文档序号:16933598发布日期:2019-02-22 20:29阅读:149来源:国知局
面向行人再识别的基于多投影变换的特征度量学习方法与流程
本发明涉及特征度量学习
技术领域
,更具体的说是涉及一种面向行人再识别的基于多投影变换的特征度量学习方法。
背景技术
:在多摄像机监控系统中,行人是监控视频中重点关注的对象。分布式多摄像头监控系统的一个基本任务是对出现在不同时间、不同地点和不同摄像机下的行人进行身份关联,即行人再识别(personre-identification)。行人再识别技术可以分为两大类:一是基于生物特征的行人再识别,如虹膜,指纹,人脸,步态等。二是基于外貌特征的行人再识别,如行人衣服的颜色,纹理等。虹膜与指纹这些“接触性”的特征无法在室外监控场景中获取,因此,相对应用的较少。人脸是比较可靠的特征,但是由于室外视频监控的摄像机的分辨率较低,导致行人的脸部数据难以精确的获取。并且随着行人与摄像机之间位置关系的改变,摄像机的视角发生了变化,摄像机可能观察不到行人的脸部。即便人脸在摄像机中可见,其受光照,表情等的影响会发生较大的变化。所有的这些因素使得捕捉可靠的面部数据和随后的人脸识别都变得非常的困难。步态在行人的识别中有很好的效果。但是,1)提取可靠的步态特征需要精确的提取行人的轮廓和足够长的视频数据。有时,给定行人的视频可能不是足够的长,以提取所需要的步态信息。2)室外监控视频中行人可能被其他行人或物体遮挡,使得行人的某些部分不可见。3)在不同摄像机中捕捉到的同一行人,其姿势可能不同,且在视频持续的时间较长时,视频中的行人往往倾向于改变其走路的姿势。因此,利用步态特征进行人的再识别在理论上可行,但在人工不可控的室外监控的环境中实施是一项艰巨的任务。在室外监控视频中,行人的外貌如衣服的颜色,纹理等信息相对容易获取,因此基于外貌的行人再识别(appearance-basedre-identification)技术得到国内外学者的广泛研究。行人再识别的过程基本包括两个步骤。首先,构建一个可靠的和鉴别性的描述符来描述图像。第二,采用合适的特征度量计算目标图像和候选集中图像特征之间的相似性。简单的特征度量方法并不能很好的反映出两个行人图像间的本质差异,很多关于学习最优度量的方法被提出。该类方法研究的重点是学习适当的度量以最大限度的提高匹配的精度,而不论选择何种特征表达行人。行人再识别的性能与特征度量学习的准确率是紧密相连的,因此特征度量学习是行人再识别中的一个关键的和具有挑战性的问题。在实际应用中,由于摄像头的参数设置存在差异,从而造成多个摄像头下行人图像的特征向量空间分布不一致。现有特征度量学习模型或对多个摄像头下行人图像的特征向量采用相同的投影变换,或将一个摄像头下的行人图像的特征向量投影到另一个摄像头下行人图像的特征空间中,导致其描述能力有限,无法满足多个摄像头下行人图像的特征向量空间分布不一致性的情况。此外,在现有评估协议中摄像头的数目是固定不变的,但是这在监视应用中是不切实际的。当有新摄像头加入到不重叠的摄像头网络中时,如果不更新每个摄像头的投影矩阵,特征度量学习方法的性能会显著下降。因此,如何提供一种可以克服多个摄像头下行人图像特征向量差异且具有一定泛化能力的特征度量学习方法在行人再识别领域具有重要意义。技术实现要素:有鉴于此,本发明提供了一种面向行人再识别的基于多投影变换的特征度量学习方法,用以解决行人再识别领域中多个摄像头下行人图像特征向量的差异和摄像头网络动态变化的问题,以提高行人再识别的准确率。为了实现上述目的,本发明采用如下技术方案:一种面向行人再识别的基于多投影变换的特征度量学习方法,包括以下步骤:s1:分别提取不同摄像头采集到的行人图像的特征,得到不同摄像头对应的特征向量;s2:利用标定数据学习不同摄像头的投影矩阵;s3:利用所述投影矩阵将不同摄像头对应的特征向量转换到公共特征空间;当没有新的摄像头添加到非重叠的摄像头网络中时,则执行步骤s7;当有新的摄像头添加到非重叠的摄像头网络中时,则执行步骤s4;s4:找到与新的摄像头的最相似的摄像头类;s5:将新的摄像头下行人图像的特征向量转换到最相似的摄像头类的特征空间内;s6:将转换后的特征向量再转换到公共特征空间;s7:计算处于公共特征空间内各个特征向量的之间的距离;s8:根据计算得到的特征向量间的距离来进行排序,得到排序列表。优选的,在步骤s4中,对摄像头网络已有的摄像头的特征向量聚类,利用类间方差来寻找与新的摄像头最相似的摄像头类。寻找与新的摄像头最相似的摄像头类,而不是与新的摄像头最相似的摄像头,这样做可以提高算法的效率,能够快速减少类间方差的计算量。优选的,在步骤s5中,将新摄像头下行人图像的特征向量通过投影变换lnk转换到最相似的摄像头类的的特征空间,其中,lnk通过新的摄像头和最相似的摄像头类的标定数据学习得到。优选的,在步骤s7中,利用欧式距离来计算处于公共特征空间的特征向量之间的距离。经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种面向行人再识别的基于多投影变换的特征度量学习方法,对行人图像进行有效的相似性度量,从而提高了行人再识别的准确率。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1附图为本发明提供的多投影特征度量学习示意图;图2附图为本发明提供的自适应多投影特征度量学习示意图。其中,形状代表摄像头,颜色代表样本,相同的颜色表示同一行人的不同样本。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例公开了一种面向行人再识别的基于多投影变换的特征度量学习方法,包括如下步骤:s1:分别提取不同摄像头采集到的行人图像的特征,得到不同摄像头对应的特征向量;s2:利用标定数据学习不同摄像头的投影矩阵;s3:利用所述投影矩阵将不同摄像头对应的特征向量转换到公共特征空间;当没有新的摄像头添加到非重叠的摄像头网络中时,则执行步骤s7;当有新的摄像头添加到非重叠的摄像头网络中时,则执行步骤s4;s4:当新的摄像头添加到非重叠的摄像头网络时,找到与新的摄像头的最相似的摄像头类;s5:将新的摄像头下行人图像的特征向量转换到最相似的摄像头类的特征空间内;s6:将转换后的特征向量再转换到公共特征空间;s7:计算处于公共特征空间内各个特征向量的之间的距离;s8:根据计算得到的特征向量间的距离来进行排序,得到排序列表。本发明所提供的特征度量学习方法能对行人图像进行有效的相似性度量,从而提高了行人再识别的准确率。下面结合各个步骤的具体实现方法来进一步说明本发明提供的技术方案。1、提取图像的特征。摄像头l下行人图像i的特征向量表示为其中,下标表示摄像头,上标表示索引,摄像头k下行人图像j的特征向量表示为2、利用标定数据学习不同摄像头的投影矩阵。不同摄像头下行人图像的特征向量和之间的距离定义为:其中,ll为摄像头l下行人图像的特征投影矩阵,lk为摄像头k下行人图像的特征投影矩阵。在将不同摄像头下行人图像的特征向量通过不同的投影矩阵转换到同一特征空间中时,距离满足如下的约束:如果和属于同一行人,行人的标签否则属于同一行人图像的特征向量间的距离尽可能接近,即小于给定的阈值μ-τ(μ>τ>0);属于不同行人图像的特征向量间的距离尽可能远离,即大于给定的阈值μ+τ。为了学习到最优的投影变换矩阵,定义如下的目标函数:摄像头网络包含k个摄像机,摄像头l下行人图像i的特征向量表示为摄像头k下行人图像j的特征向量表示为(下标表示摄像头,上标表示索引)。摄像头l下行人图像特征向量的投影矩阵为ll,摄像头k下行人图像特征向量的投影矩阵为lk。μ和τ为阈值参数。其中,r(x)为误差函数,为平衡因子,用来平衡类别不平衡问题(class-imbalance)。为摄像头l与k下正样本的数量,为摄像头l与k下负样本的数量。目标函数(2)没有封闭形式的解,因为有k个矩阵需要同时优化。因此,采用迭代的方法,通过使用交替优化方法(alternatingoptimizationmethod)得到局部最优解。先初始化l1,…,ll-1,ll+1,…,lk,公式(2)可重新写为:为了得到ll,采用基于梯度(gradient-based)的优化方法。目标函数(5)的梯度函数计算如下:其中,hinge函数r(x)并不处处可导,从而导致该项的梯度不能直接求得。针对该问题,用logistic函数近似表示hinge函数。即误差函数r(x)和r(x)的导函数r′(x)为:r′(x)=(i+exp(-βx)-1(9)其中:β为误差函数的参数;公式(6)可以写成矩阵的形式:其中:blk为对角矩阵,其主对角线上的元素为alk的行和。通过上述求得的导函数,矩阵ll可以通过梯度下降法迭代得到:公式中η>0是迭代步长。当迭代次数达到最大迭代次数,或者满足下面的公式时算法迭代结束。|jt+1-jt|<ε(12)公式中ε设为一个很小的正数,一般情况下这个小正数为10-9。训练结束后,我们得到不同摄像头的投影矩阵l1,l2,…,lk。3、将多个摄像头下行人图像的特征向量通过学习到的不同的投影矩阵转换到同一特征空间中。采用欧式距离来度量处于同一特征空间的特征向量的距离。不同摄像头下行人图像的特征向量和之间的距离为:4、当一个新的摄像头添加到非重叠的摄像头网络时,找到与新摄像头的特征空间最相似的摄像头类。给定一个包含k个摄像机节点的摄像头网络。使用上面描述的方法,可以学到k个投影矩阵,l1,l2,…,lk。然后n(n<k)个新摄像头被添加到摄像头网络中。属于一个摄像头的特征向量被视为一个类,然后对摄像头网络已有的摄像头的特征向量聚类。对于每一个新摄像头n,使用类间方差来寻找与其特征空间最相似的摄像头类,并将该摄像头类下所有的特征向量合成一个摄像头k的特征向量。然后将新摄像头n下行人图像的特征向量通过投影变换lnk转换到与其最相似的摄像头类k的特征空间。最后,将转换后的特征向量通过投影变换lk投影到公共的特征空间。在摄像头k的特征空间中,不同摄像头下行人图像的特征向量和之间的距离可以定义为:为了学习到最优的投影变换矩阵,定义如下的目标函数:为了得到lnk,采用基于梯度(gradient-based)的优化方法.目标函数(15)的梯度函数计算如下:其中,公式(16)可以写成矩阵的形式:其中:bnk为对角矩阵,其主对角线上的元素为ank的行和。通过上述求得的导函数,矩阵ll可以通过梯度下降法迭代得到:公式中η>0是迭代步长。当迭代次数达到最大迭代次数,或者满足下面的公式时算法迭代结束。公式中ε设为一个很小的正数。需要说明的是,这里的ε和前面的ε均表示预设的阈值,但是在具体实验过程中取值可能有所不同。训练结束后,得到投影矩阵lnk。5、将新摄像头下行人图像的特征向量转换到与其最相似的摄像头类的特征空间。将转换后的特征向量投影到公共的特征空间,并采用欧式距离来度量处于同一特征空间的特征向量的距离。假设与新摄像头的特征空间最相似的摄像头类,包含m个摄像头。新摄像头n的特征空间的中心与其中一个摄像头m的特征空间的中心之间的距离为dmn。摄像头m的投影矩阵为lm。投影变换lk通过如下公式得到:lk=σ(m∈m)(1/dmn)×lm。与新摄像头的特征空间最相似的摄像头类中,不同子摄像头的特征空间与新摄像头的特征空间的相似性不同,且新摄像头的加入,对最相似的摄像头类的特征空间的分布有一定的影响。为了更加准确和全面的表达新摄像头的投影矩阵,新摄像头的投影矩阵通过对m个摄像头的投影矩阵加权得到。在共同的特征空间,不同摄像头下行人图像的特征向量和之间最终的距离为:6、根据图像特征向量间的距离进行排序,得到最终的排序列表。在viper数据库上,本发明所提供的特征度量学习方法相对于xqda算法在rank-1的识别率上提高了4.72%,具体请参见如下实验数据表格。viper数据库上的性能(%)对比方法r=1r=5r=10r=20kbicov31.1158.3370.7182.44xqda40.0068.1380.5191.08mlapg40.7369.9482.3492.37nullreid42.2871.4682.9492.06mpml44.7272.8284.2793.58本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1