多源目标的空间直方图表示与跟踪方法与流程

文档序号:13482649阅读:190来源:国知局

本发明涉及计算机视觉跟踪技术领域,具体涉及一种多源目标的空间直方图表示与跟踪方法。



背景技术:

目标跟踪是完成视觉监控、人机交互、车辆导航等诸多视频场景分析和理解任务的前提和基础。目前,实现目标跟踪的途径主要有两种:单源跟踪和多源跟踪。所谓单源跟踪是指对来源于一个视频源的目标对象进行跟踪,其主流方法有核密度估计、模式分类、稀疏表示和子空间分析等。多源跟踪是指对来源于两个或两个以上视频源中的同一目标对象进行跟踪。由于多源跟踪是通过多种图像传感器对同一运动目标进行不同方位和不同特性的描述和记录,并对它们的数据进行联合来完成跟踪的,因而其时空覆盖范围要比单源跟踪方法更广、生存能力能要更强、可信度要更高。

论文“fusiontrackingincolorandinfraredimagesusingjointsparserepresentation(使用联合稀疏表示融合跟踪可见光与红外目标)”(发表于《sciencechina:informationscience(中国科学:信息科学)》)提出采用联合稀疏特征表示的方法对红外和可见光目标进行特征级融合跟踪。论文“anewtrackingapproachforvisibleandinfraredsequencesbasedontracking-before-fusion(一种新的基于先跟踪后融合策略的可见光与红外目标跟踪方法)”(发表于《internationaljournalofdynamics&control(国际动力与控制学学报)》)提出了先单独采用粒子滤波跟踪可见光目标,模板匹配法跟踪红外目标,然后将两者的跟踪结果进行联合决策的先跟踪后融合策略。论文“acompressivetrackingbasedontime-spacekalmanfusionmode(基于时空卡尔曼融合模型的压缩跟踪方法)”(发表于《sciencechina:informationscience(中国科学:信息科学)》)提出了基于卡尔曼滤波和压缩感知的红外与可见光目标时空融合跟踪算法。不难看出,当前的多源跟踪方法大多是在粒子滤波框架下实现的,其时间复杂度普遍较高,且都只限于跟踪红外与可见光的两种视频源。论文“thermo-visualfeaturefusionforobjecttrackingusingmultiplespatiogram(针对基于空间直方图的目标跟踪中的红外-可见光特征融合)”(发表于《machinevisionandapplications(机器视觉与应用)》)虽然提出了基于多个空间直方图连乘的决策级融合跟踪方法,但其连乘方式会出现因为其中任何一个跟踪器失效而使全局失效的问题。因此,有必要发明一种能跟踪多个视频源的快速而统一的方法。



技术实现要素:

本发明所要解决的是现有多源跟踪方法存在时间久和易于失效的问题,提供一种多源目标的空间直方图表示与跟踪方法。

为解决上述问题,本发明是通过以下技术方案实现的:

多源目标的空间直方图表示与跟踪方法,包括步骤如下:

步骤1、读入n个视频源,通过手工在第一个视频源的第1帧中框选出候选目标,并得到该候选目标的初始中心位置z0;初始化权重系数其中0<αk<1;

步骤2、计算每个视频源的参考空间直方图

步骤3、读入下一帧,并计算每个视频源基于初始中心位置z0的候选空间直方图

步骤4、计算每个视频源的候选空间直方图和参考空间直方图之间的相似度

步骤5、将所有视频源的相似度与对应的权重系数进行加权融合,得到所有视频源基于初始中心位置z0的联合相似度ρ(z0);

步骤6、将联合相似度ρ(z0)作为目标函数,并对目标函数进行泰勒展开,得到其线性逼近式,并求该线性逼近式的导数,令导数等于零,从而推导出联合位移迭代公式,并根据该联合位移迭代公式得到候选目标新的中心位置z1;

其中,为位置加权系数,为位置偏移向量,z0为初始中心位置,为第i个像素的二维坐标向量,g(●)=-f′(·),f(●)为核函数,k∈{1,2,…,n},n为视频源个数,i∈{1,2,…,n},n为像素点个数,u∈{1,2,…,m},m为特征区个数;

步骤7、计算所有视频源基于新的中心位置z1的联合相似度ρ(z1);

步骤8、将基于新的中心位置z1的联合相似度ρ(z1)与基于初始中心位置z0的联合相似度ρ(z0)进行比较;若ρ(z1)<ρ(z0),则将新的中心位置z1更新为(z0+z1)/2,并返回步骤7,直到ρ(z1)≥ρ(z0);否则,转至步骤9;

步骤9、判断||z1-z0||<ε或到达最大迭代次数;若是,停止迭代,完成多源目标跟踪;否则,将初始中心位置z0更新为新的中心位置z1,并计算所有视频源基于初始中心位置z0的联合相似度ρ(z0)后,返回步骤6;其中ε是事先给定的误差阈值;

步骤10、将初始中心位置z0更新为新的中心位置z1,并返回步骤3。

进一步地,步骤1中,初始化权值α1=α2=…=αn=1/n。

进一步地,在步骤9之后且步骤10之前,还进一步包括根据权重系数更新公式对每个视频源的权重系数进行更新的步骤,其中权重系数更新公式为:

其中,ρk(z1)为第k个视频源的相似度。

进一步地,步骤6中,位置加权系数和位置偏移向量分别为:

其中,分别为候选空间直方图的第u个特征区像素点的概率密度函数以及这些像素点空间分布的均值和协方差矩阵,分别为参考空间直方图第u个特征区像素点的概率密度函数以及这些像素点空间分布的均值和协方差矩阵,αk为权重系数,为第i个像素的二维坐标向量,δ(●)为是德塔函数,为将特征映射直方图区间的函数,k∈{1,2,…,n},n为视频源个数,i∈{1,2,…,n},n为像素点个数,u∈{1,2,…,m},m为特征区个数。

与现有技术相比,本发明提出一种基于多个二阶空间直方图联合表示的多源视频目标多核融合跟踪方法,其以二阶空间直方图为目标表示模型,对多个视频源目标进行表示,并将它们的相似度进行加权融合来构建目标函数;然后,依据核跟踪推理机制导出多源目标的联动位移公式;最后,使用均值漂移程序实现多源目标的自动快速搜索。本发明适应于任意多个视频源的跟踪,并具有快速而统一的特点。

具体实施方式

二阶矩空间直方图(简称:二阶直方图)是附加了像素点空间分布均值和方差信息的直方图,因此能较好地保持目标的空间结构信息。记为第k个视频源中z点处候选目标的二阶直方图。分别为第u个特征区像素点的概率密度函数以及这些像素点空间分布的均值和协方差矩阵,它们的计算公式为:

其中,n是目标图像的像素点个数,是第个像素的二维坐标向量。δiu是德塔函数,如果第i个像素落在第u个区间,则δiu=1,否则为零。m为特征区个数,h代表目标图像的大小,c为归一化常数。核函数f(x)的计算公式为:

设目标模板的二阶直方图为其相应的计算方法同公式(1)到(3),则目标图像与目标模板之间的相似度为:

式(5)中,可理解为计算第k视频源的目标图像与其目标模板在特征空间中的相似度,而则用于计算两者在空间分布上的相似度,其计算公式为

其中,

对多源目标跟踪来说,判断一个给定的目标候选状态是否应该被接受,应由所有视频源的相似度来共同决定。因此,通过将所有视频源的相似度相加可得联合相似度如下:

式中,0<αk<1为权重系数,用于调节不同视频源的相似度在目标函数所占的比重,且有∑kαk=1。

设目标在前一帧中的位置为z0。将式(5)代入式(7)中,并在处对ρ(z)进行泰勒展开,得到其线性逼近形式如下

其中t是一个与z无关的余项。求(9)式中ρ(z)关于z的导数有

式中,

则可得到从当前位置z0到新位置z1的关系式

式中g(x)=-f′(x)。上式表明目标的位置是由所有视频源共同决定。

如前所述,权重系数αk被用于调节中第k个视频源的相似度在目标函数中所占的比重,很显然,它们的值应该是动态变化的。一般地,相邻帧间目标相似度不会发生较大变化,基于这一事实,本发明通过前一帧的相似度值来决定当前帧的权重系数。假设前一帧中多个视频源的最佳目标与其目标模型间的相似度分别为ρ1(z),…,ρn(z),则当前帧中第k个视频源的

基于以上数学推导结论,并结合均值漂移实现流程,可得到本发明所设计的多源目标的空间直方图表示与跟踪方法,具体步骤如下:

步骤1:读入n个视频源,通过手工在第一个视频源的第1帧中框选出跟踪目标,并得到其中心位置z0。初始化权值α1=α2=…=αn=1/n;

步骤2:根据公式(1)~(3)计算参考空间直方图

步骤3:读入下一帧,根据公式(1)~(3)计算候选空间直方图并利用(5)~(7)式计算联合相似度ρ(z0);

步骤4:根据公式(10)计算

步骤5:根据公式(11)找到新的目标候选位置z1,并计算和ρ(z1);

步骤6:当ρ(z1)<ρ(z0)时,并计算和ρ(z1),直到条件为假;

步骤7:如果||z1-z0||<ε或到达最大迭代次数,则停止迭代;否则并转向第4步,其中||z1-z0||表示z1与z0的欧氏距离,ε是事先给定的误差阈值;

步骤8:使用ρ1(z1),…,ρn(z1),并根据公式(12)更新权值αk;

步骤9:令转向第3步。

本发明基于空间直方图的多源目标融合跟踪通用方法,属于计算机视觉跟踪领域。首先,为每个视频源的候选目标建立空间直方图模型;然后,分别采用bhattacharyya系数和mahalanobis距离计算每个视频源的候选目标模型与其参考目标模型之间的特征相似度和空间相似度,并将特征相似度和空间相似度相乘得到每个视频的相似度;之后,将每个视频源的联合相似度进行加权融合,形成目标函数;接着,对目标函数进行泰勒展开,得到其线性逼近式,并求该逼近式的导数,令导数等于零,从而推导出联合位移迭代公式;最后,依据联合位移公式,应用均值漂移程序实现多源目标的跟踪。本发明的跟踪器对目标遮挡、交汇以及环境的光照变化有较强的适应能力。

下面通过一个具体实例对本发明进行进一步详细说明:

本实施例以常见的红外与可见光视频对作为测试对象,因此本发明技术方案中的参数n=2。本实施例测试了3组红外与可见光视频对,将它们分别命名为:视频1、视频2和视频3,其中,视频1中的红外与可见光图像分别有270帧,其特点是目标行人是在夜间行走;视频2中有78帧,其特点是目标行人与其他行人发生了交汇;视频3中有165帧,其特点是目标行人在行走过程中被外物遮挡了。对这些视频源的具体跟踪步骤如下(以视频1为例):

步骤1:同时将视频1中的第1帧红外图像和可见光图像读入内存,并在红外图像中手工框选出被跟踪的目标行人,得到其中心位置z0=(207,210)。初始化权值α1=α2=0.5;

步骤2:根据公式(1)~(3)分别计算红外和可见光目标的参考空间直方图

步骤3:读入下一帧,并根据公式(1)~(3)分别计算红外和可见光目标的候选空间直方图并利用(5)~(7)式计算相似度ρ(z0);

步骤4:根据公式(10)计算

步骤5:根据公式(11)找到新的目标候选位置z1,并计算和ρ(z1);

步骤6:当ρ(z1)<ρ(z0)时,执行并重新计算和ρ(z1),直到条件为假;

步骤7:如果||z1-z0||<0.0001或到达最大迭代次数20,则停止迭代;否则执行并转向第4步;

步骤8:使用ρ1(z1)和ρ2(z1),并根据公式(12)更新权值α1和α2;

步骤9:令转向第3步。

此外,为了进一步定量评估本发明方法的性能,本实施例用了两个性能指标,它们分别是中心定位误差重叠率∈=area(rg∩rt)/area(rg∪rt)和成功率。其中,成功率是指跟踪结果的重叠率大于0.5的帧数与总帧数的百分比,(xg,yg,rg)是由手工标出的真实目标的中心和区域,(xt,yt,rt)是由跟踪器给出的目标的中心和区域。

经计算,本实施例中的视频1的平均中心定位误差为4.28,平均重叠率是0.81,成功率是100%。视频2的平均中心定位误差为1.48,平均重叠率是0.84,成功率是100%。视频3的平均中心定位误差为19.1,平均重叠率是0.65,成功率是78%。从本实施例中可以看出,本发明的跟踪器性能稳定,表现良好。

需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1