一种基于自适应初始搜索点预测的目标跟踪算法的制作方法

文档序号:6572820阅读:189来源:国知局
专利名称:一种基于自适应初始搜索点预测的目标跟踪算法的制作方法
技术领域
本发明属于计算机视觉与模式分析领域,具体涉及一种有效抑制模板漂移的目标跟踪算法。

背景技术
目标跟踪在人机交互、自动监视、视频检索、交通监测以及车辆导航中有着广泛的应用。目标跟踪的任务是确定目标在视频流各帧中的几何状态,包括位置、尺寸以及取向等。由于被跟踪的目标通常具有不规则的运动,再加上复杂背景的干扰,目标跟踪算法面临着诸多挑战,是计算机视觉领域的研究热点之一。
目标跟踪算法分为两大类,一类是跟踪点目标的(point tracking)[1,2],另一类则是跟踪面目标的(kemel tracking)[3~6]。当目标相对于整个视场非常小时,例如雷达图像,可以采用点目标跟踪算法。对于通常摄像头所拍摄的图像,则更多地采用面目标跟踪算法。面目标跟踪算法又可以分为对目标模板进行匹配(template matching)[3,4]以及仅对目标轮廓进行跟踪(contour tracking)[5,6]。由于模板匹配跟踪算法同时整合了目标的整体外观信息与几何信息,因此应用相当广泛。
模板匹配跟踪算法通常使用一个矩形或者椭圆形的模板来表征目标。目标的运动通常由模板的坐标变换(平移、缩放、旋转等)来描述。不同的坐标变换参数给出不同的图像区域,其中给出与模板匹配程度最高的图像区域的坐标变换参数反映了当前目标的几何信息[7]。
模板匹配跟踪算法的性能在很大程度上取决于是否能够有效地搜索到最优的坐标变换参数。在这里,要解决的有两个问题。首先是如何尽量减少复杂背景造成的局部极值点对搜索过程的干扰,其次是在确保搜索质量的前提下如何尽可能降低计算量。许多研究者已经在这方面做了大量的工作。为了降低计算量,许多快速搜索算法被提了出来,例如三步搜索(Three-Step Search,TSS)[8]、二维Log搜索(2D-Log Search,2DLS)[9]、基于块的梯度下降搜索(Block-Based Gradient Descent Search,BBGDS)[10],以及Lucas-Kanade算法等等[11]。对于局部极值点的干扰,一般是通过搜索多条路径取最优结果来试图获得全局极值点[11],但是这样做的代价是增加了计算量。
很明显,初始搜索点离开全局极值点越近,则搜索算法被局部极值点干扰的概率就越小,同时算法收敛所需的迭代次数也会越少。因此,如果我们能够有效地预测最优的初始搜索点,则以上提到的所有算法的性能都可以得到很大程度的提高。两种比较容易想到的方法是直接将目标在前一帧的坐标变换参数作为当前帧的初始搜索点,或者用简单的匀速运动模型来得到初始搜索点。然而,这些方法都不能很好地预测目标在下一帧中的几何状态。
在目标跟踪领域,卡尔曼滤波器被广泛应用[12~14]。然而,大多数卡尔曼滤波器仅被用来平滑目标运动轨迹,而非用来通过预测初始搜索点提高跟踪性能。另外,很少有文献针对模板匹配跟踪算法提出在线估计卡尔曼滤波器的模型噪声功率的方法。
参考文献Rasmussen C.,Hager G.Probabilistic data association methods for tracking complexvisual objects[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2001,23(6)560-576.Hue C.,Cadre J.L.,Prez P..Sequential Monte Carlo methods for multiple target trackingand data fusion[J].IEEE Trans.on Signal Processing,2002,50(2)309-325.Matthews I.,Ishikawa T.,Baker S..The template update problem[J].IEEE Trans.onPattern Analysis and Machine Intelligence,2004,26(6)810-815.Nguyen H.T.,Smeulders A.W.M..Fast occluded object tracking by a robust appearancefilter[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2004,26(8)1099-1104.Yilmaz A.,Li X.,Shan M..Contour based object tracking with occlusion handling invideo acquired using mobile cameras[J].IEEE Trans.on Pattern Analysis and MachineIntelligence,2004,26(11)1531-1536.Chen Y.,Rui Y.,Huang T..Jpdaf based HMM for real-time contour tracking[C].Proc.IEEE Comp.Society.Conf.on Computer Vision and Pattern Recognition,2001,1543-550.Jia Z.,Balasuriya A.,Challa S..Target tracking with Bayesian fusion based templatematching[C].Proc.IEEE Int.Conf.on Image Processing,2005,2II-826-829.Wang Y.,Ostermann J.,Zhang Y.Q..Video Processing and Communications[M].PrenticeHall,2002.159-161.Jain J.,Jain A..Displacement measurement and its application in interframe imagecoding[J].IEEE Trans.on Communications,1981,331799-1808.Liu L.K.,Feig E..A block-based gradient descent search algorithm for block motionestimation in video coding[J].IEEE Trans.on Circuits and Systems for Video Technology,1996,6419-422.Baker S.,Matthews I..Lucas-Kanade 20years ona unifying framework[J].Int.J.onComputer Vision,2004,53(3)221-255.Papanikolopoulos N.,Khosla P.,Kanade T..Visual tracking of a moving target by acamera mounted on a robota combination of control and vision[J].IEEE Trans.onRobotics and Automation,1993,914-35.Blake A.,Curwen R.,Zisserman A..A framework for spatio-temporal control in thetracking of visual contour[J].Int.J.on Computer Vision,1993,11(2)127-145.Isard M.,Blake A..CONDENSATION-conditional density propagation for visualtracking[J].Int.J.on Computer Vision,1998,29(1)5-28.Sezgin M.,Birecik S.,Demir D.,et al.A comparison of visual target tracking method innoisy environments[C].Proc.IEEE Int.Conf.IECON,1995,21360-1365.Comaniciu D.,Meer P..Mean shiftA robust approach toward feature space analysis[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2002,24(5)603-619.Black M.,Jepson A..EigentrackingRobust matching and tracking of articulated objectsusing a view-based representation[J].Int.J.on Computer Vision,1998,26(1)63-84.Brown R.G.,Hwang P.Y.C..Introduction to Random Signals and Applied KalmanFiltering[M].John Wiley,1992.Nguyen H.T.,Worring M.,Boomgaard R.van den.Occlusion robust adaptive templatetracking.Proc[C].IEEE Int.Conf.on Computer Vision,2001,1678-683.

发明内容
本发明的目的在于提出一种基于自适应初始搜索点预测的目标跟踪算法,以准确预测坐标变换参数,减少被复杂背景干扰的风险,并降低计算量。
本发明的关键在于采用卡尔曼滤波器对坐标变换参数变化率进行滤波,仔细分析该滤波器模型噪声的来源,并基于此提出一种在线有效估计模型噪声功率的方法。
本发明方法包括利用卡尔曼滤波器对坐标变换参数的变化率进行跟踪,并将坐标变换参数在下一帧的预测值作为初始搜索点。
采用一种在线有效估计上述卡尔曼滤波器观测噪声功率的方法,以使得算法能够实时针对不同的目标运动以及搜索精度自适应地调整。
卡尔曼滤波器观测噪声功率通过坐标变换系数的量化误差求得。
下面对本发明作进一步说明。
1、模板匹配目标跟踪算法 在基于模板匹配的目标跟踪中,目标由代表其外观的子图像表示,这个子图像称为模板。初始模板通常是目标在第一帧中的外观。在本发明中,模板用T(x)表示,其中x=[x,y]T是像素坐标。在每一帧中,T通过坐标变换φ(x;a)映射到图像帧中,其中a是变换参数向量,它反映了目标在当前帧中的几何信息。该信息的最优估计通过寻找与模板最匹配的当前帧的图像区域得到,即 在上式中,am(n)是搜索算法得到的第n帧变换参数向量的最优估计值;In(x)是第n帧图像位于坐标x处的像素值;sim{I,T}是任意一个可以反映图像I与T之间相似度的函数,例如归一化线性相关系数[15]、平方误差和的倒数[15]、直方图匹配度[16],或者是主分量匹配度[17]等等。(1)式的实现有一系列快速搜索算法[8~11]。
在(1)式的搜索过程中,背景干扰物等造成的局部极值点会严重影响结果的准确性。为了在最大程度上减少局部极值点的影响并同时降低计算量,初始搜索点必须尽量靠近坐标变换参数的真实值。因此,需要在每一帧都对初始搜索点进行有效的预测。
2、初始搜索点预测模型 为了在坐标变换参数空间中预测下一帧的初始搜索点,我们必须估计每一个坐标变换参数在下一帧的取值。在没有外力作用的情况下,目标的坐标变换参数的变化率(以下简称参数变化率)保持不变。外力的影响是使得参数变化率在各帧之间产生变动,且这个影响的大小与方向是随机的、不可预测的,因而可以被认为是参数变化率的噪声。基于上述分析,我们可以用卡尔曼滤波器来跟踪参数变化率。这样做更有利于预测变换参数的取值,而不仅仅是对它们进行平滑。由于不同的坐标变换参数独立地描述了不同形式的目标运动,因而可以分别对它们进行预测。所以,以下仅对一个坐标变换参数进行讨论,其它参数的预测过程与之完全相同。
对于某一坐标变换参数a,设其在第n帧的变化率为v(n)=a(n)-a(n-1),v的状态方程为 v(n)=v(n-1)+u(n-1) (2) 其中,u(n-1)是状态转移噪声,反映了从第n-1帧到第n帧参数变化率由于随机外力造成的扰动,我们认为它是零均值白噪声,具有功率谱密度σu2(n)。
参数变化率v的观测方程为 vm(n)=v(n)+w(n) (3) 其中,vm(n)是参数变化率的观测值,由(1)式搜索结果的增量得到;w(n)是观测噪声,其来源于(1)式的量化误差,这在下面会详细讨论。同样,观测噪声也是零均值白噪声,具有功率谱密度σw2(n)。在不致混淆的情况下,为了简明起见,以下把功率谱密度简称为功率。
根据卡尔曼滤波理论[18],(4)~(7)式依次构成了预测第n+1帧的参数变化率v的一个完整的迭代 在这里,α(n)是第n帧的新息,σP2和σE2分别是预测误差与估计误差的功率,它们在卡尔曼迭代时自动得到。
通过(7)式得到第n+1帧的参数变化率v的预测值后,坐标变换参数a在第n+1帧的预测值(n+1)为 由于(n+1)通常总是与真实值相当接近,因此坐标变换参数a在第n+1帧的初始搜索点就取为(n+1)。
3、滤波器模型噪声功率的估计 尽管前述讨论似乎已经解决了我们的问题,但是滤波器中的两个模型噪声(状态转移噪声和观测噪声)的功率仍然未知。模型噪声功率的正确估计对于得到最优的卡尔曼系数至关重要,因而直接决定了算法的性能。在标准的卡尔曼滤波问题中,状态转移噪声功率与观测噪声功率都被认为是先验已知的。但是,为了使得算法能够根据不同的情况自适应地调整,这两个模型噪声功率需要在线估计。
我们先讨论如何估计观测噪声功率σw2。在理想情况下,由(1)式得到的变换参数向量am反映了目标的真实几何状态,但是,由于(1)式的最终搜索结果必须取自离散向量空间,其中的量化误差导致了变换参数向量的搜索结果am与真实值a之间不可避免地存在误差,从而造成了参数变化率v的观测噪声。其功率可以表示如下 由于不同帧的参数搜索过程可以看作是独立同分布的,因此(9)式可简化为 其中σa2是参数a的观测误差功率。(10)式中的期望可以展开如下 其中,p(a|am)是观测到am后a的后验概率分布。为了简化起见,我们省略了时间变量n。接下来我们讨论如何求得这个后验概率分布。
由图1可见,am只能取离散值,且a的似然概率是 上式中,P(am|a)是观测到am后a的似然概率;Δ是(1)式搜索am时的最终步长。根据贝叶斯法则,a的后验概率分布是 将(12)式代入(13)式可得 尽管要得到p(a)的确切值并不容易,但是由于Δ较小,我们可以合理地认为p(a)在(14)式的积分区间中是近似不变的。基于此近似,(14)式可以简化为 将(15)式代入(11)式并考虑到(10)式,可以求得σw2 上式表明,搜索坐标变换参数的精度越高,则观测误差噪声的功率就越小,与预期符合。
状态转移噪声功率σu2的估计不能通过类似的方法得到,因为外力对目标运动的影响可以是完全任意的。然而,我们仍然可以通过估计新息的功率间接得到状态转移噪声的功率。可以证明[19],新息功率、估计误差功率以及两个模型噪声功率满足以下关系 其中,σa2(n)是新息α(n)的功率。新息功率可以通过下式来近似 其中,N是参与平均的帧数。由(16)~(18)式,我们就得到了σu2的估计值。
在上式中,估计误差功率σE2在卡尔曼迭代过程中由(6)式得到。
至此,我们已经导出了估计两个模型噪声功率的表达式(16)与(19)式。在我们提出的方法里,没有人为指定这两个噪声功率的取值,而是让它们根据不同的搜索精度与目标所受外力影响情况自适应地变化。
最后,我们讨论一下初始化的问题。由于在跟踪开始时,我们完全不知道目标的运动信息,因此我们将

与σE2都设为零,即 根据上述内容,本发明的基于自适应初始搜索点预测的目标跟踪算法的具体操作步骤如下 1.在首帧中选定目标区域。
2.模板T如下初始化通过初始坐标变换φ(x;as)采样初始ROI,即T(x)=In[φ(x;as)],其中as为目标的初始坐标变换参数。
3.坐标变换参数变化率的预测值

初始化为0,估计误差功率σE2初始化为0。
4.将下一帧在坐标变换参数空间中的(1)式初始搜索点取为目标的初始坐标变换参数as。
5.读入下一帧。
6.将模板通过坐标变换φ(x;a)映射到当前帧。通过寻找与预测模板最匹配的当前帧的图像区域得到反映目标在当前帧中的几何信息的坐标变换参数向量,即运行(1)式。
7.通过计算由于变换参数向量在(1)式中的量化误差导致的坐标变换参数各分量变化率的观测值与真实值之间的误差平方的数学期望来得到观测噪声功率σw2。具体来说,通过(16)式得到σw2。
8.通过(19)式计算坐标变换参数各分量变化率的状态转移噪声功率σu2。
9.通过(4)式计算坐标变换参数各分量变化率的预测误差功率σP2。
10.通过(5)式计算坐标变换参数各分量变化率的最优卡尔曼系数G。
11.通过(6)式计算当前帧的坐标变换参数各分量变化率的估计误差功率σE2。
12.通过(7)式计算坐标变换参数各分量变化率在下一帧的预测值
13.通过(8)式计算坐标变换参数各分量在下一帧的预测值,并将下一帧在坐标变换参数空间中的(1)式初始搜索点取为。
14.如果视频流未处理完,则转到第5步,否则结束。



图1搜索最优变换参数向量时的量化过程。
图2目标水平位置的真实值与预测值。
图3目标垂直位置的真实值与预测值曲线。
图4目标尺度的真实值与预测值曲线。
图5未进行自适应初始搜索点预测的跟踪算法由于背景的强烈干扰而丢失了目标。
图6自适应初始搜索点预测使得跟踪算法即使在强烈背景干扰下仍然具有很高的跟踪稳定性。
图7自适应初始搜索点预测对于计算量的影响。(a)目标运动程度较小;(b)目标运动较剧烈。
图8不同初始搜索点预测方法的性能比较。

具体实施例方式 首先,我们观察本发明提出的算法对于预测坐标变换参数的有效性。在我们的实验中,我们用平方误差和的倒数[15]作为(1)式中的相似度函数,用梯度下降法[10]作为(1)式中的搜索算法,在Pentium-42.8GHz PC上以30fps的帧率实时跟踪。我们对大量实景视频流进行了实验。这些视频流包含了用手持摄像机拍摄的各种运动物体。由于拍摄过程中手的抖动,目标的位置与尺度都经历了较大且不规则的变化。因为在所有视频流上关于预测精度的实验结果都十分相近,所以我们只在这里显示一个典型的结果,如图2~4所示。在这些图中,分别显示了目标的水平位移、垂直位移以及尺度的真实值与本发明算法的预测值。由图可见,尽管这些参数的变化特性各不相同且很不规则,本发明的算法很好地预测了它们在各帧中的取值。与直接将前一帧的参数值作为后一帧的初始搜索点相比,本发明的算法使得初始搜索点在坐标变换参数空间中离开真实点的Euclidean距离从2.7398减少为0.9632。
初始搜索点与真实点之间距离的大幅减少使得跟踪稳定性提高很多。在许多视频流中,复杂的背景以及拍摄时较大幅度的手的抖动,使得不采用本发明方法的跟踪算法很容易被局部极值点捕获而导致目标丢失。而采用了自适应初始搜索点预测后,这些视频流都能够很顺利地跟上。典型的两个例子如图5与图6所示(当前模板显示在每幅图的右下角)。在第一个例子中,由于光线较暗,导致车辆比较模糊,与背景中的一些路面部分较为相似。另外,摄像机的横向抖动也较剧烈,这使得目标的运动变得极不规则。在图5第一行中我们可以看到,不进行自适应初始搜索点预测的跟踪算法被白色路面部分形成的局部极值点干扰,丢失了目标。在第二个例子中,被跟踪的目标是一只狗,由于其形状和颜色与地面杂物非常相近,因而在全局极值点周围形成了大量局部极值点,如果不进行自适应初始搜索点预测,则很容易丢失目标,如图5第二行所示。在图6的两行中,同样的跟踪算法由于采用了自适应初始搜索点预测,在整个跟踪过程中始终很好地锁定了目标。这里还有一点值得注意,第一个例子跟踪的是刚性目标,而第二个例子跟踪的是柔性目标。由于本发明算法在推导时并没有作任何关于目标刚性程度的假设,因此无论目标是刚性的还是柔性的,本发明算法均有效。
自适应初始搜索点预测不仅提高了跟踪稳定性,还显著降低了计算量。这是由于初始搜索点离真实点近了许多,因而(1)式的参数搜索能够更快地收敛。图7显示了在采用自适应初始搜索点预测前后计算量的大小。其中左图是目标运动程度较小的情况,右图是目标运动程度较剧烈的情况。两图的纵坐标是到当前帧为止搜索算法进行的模板匹配的总次数。由两图可见,本发明算法使得模板匹配总次数随帧数增加的曲线变得较为平缓,且近似线性增加。这是由于无论目标的运动状况如何变化,本发明的方法总是能够将搜索距离控制在一个相对固定且较小的范围内。在图7中,对于目标运动程度较剧烈的情况,到第45帧时采用自适应初始搜索点预测前后模板匹配总次数分别为2145次与713次,本发明算法节省的计算量达66.8%;即使对于目标运动程度较小的情况,到第200帧时采用自适应初始搜索点预测前后模板匹配总次数分别为4300次与3133次,本发明算法也节省了27.1%的计算量。
为了从另一个角度检验本发明算法的性能,并与其它初始搜索点预测方法作一个比较,我们对于同一个视频流,改变(1)式中的坐标变换参数的搜索精度,观察搜索计算量的变化情况。实验结果示于图8中。其中横坐标是在坐标变换参数空间中的搜索步长,纵坐标是平均每一帧的模板匹配次数。在同样的搜索步长下,平均每一帧的模板匹配次数越少,表明初始搜索点的预测越有效。三条曲线分别是以下三种初始搜索点预测方法的实验结果。方法1第n+1帧的初始搜索点取为a(n)+[a(n)-a(n-1)];方法2在对参数变化率的卡尔曼滤波过程中取预先固定的模型噪声功率,使得卡尔曼系数恒为0.5;方法3采用本发明提出的自适应初始搜索点预测方法。
由图8可见,当搜索步长较小时(即搜索精度较高时),方法1的计算量与方法3较接近,而方法2的计算量则远大于方法3,这是因为此时观测噪声较小,可以取较大的卡尔曼系数,而方法1实质上等效于取卡尔曼系数恒等于1,方法2的卡尔曼系数则过于保守,以至于初始搜索点预测总是出现较大的滞后。
当搜索步长较大时(即搜索精度较低时),方法1的计算量明显大于方法3,而方法2的计算量则稍大于方法3,这是由于在这种情况下观测噪声较大,方法1过高的卡尔曼系数使得初始搜索点预测频繁产生较大的过冲,方法2的卡尔曼取值则比方法1恰当,但仍不是最优。
当搜索步长进一步增加时,方法1与方法2都被背景物体干扰而丢失了目标(如图8中的黑圈所示,其纵坐标取值无意义),而方法3仍然很好地跟住了目标。这在实时跟踪中很有意义,有时为了要确保跟踪的实时性需要降低搜索精度,但这样做的代价是跟踪稳定性的损失。然而,如果采用本发明提出的自适应初始搜索点预测方法,则可以尽可能减少稳定性的损失。综上,无论搜索步长如何变化,方法3总能够通过改变模型噪声功率动态地调节其滤波强度,保证了初始搜索点预测在各种状况下的最优化。
权利要求
1.一种基于自适应初始搜索点预测的目标跟踪算法,其特征在于利用卡尔曼滤波器对坐标变换参数的变化率进行跟踪,并将坐标变换参数在下一帧的预测值作为初始搜索点。
2.根据权利要求1所述的基于自适应初始搜索点预测的目标跟踪算法,其特征在于采用一种在线有效估计上述卡尔曼滤波器观测噪声功率的方法,以使得算法能够实时针对不同的目标运动以及搜索精度自适应地调整。
3.根据权利要求1或2所述的基于自适应初始搜索点预测的目标跟踪算法,其特征在于卡尔曼滤波器观测噪声功率通过坐标变换系数的量化误差求得。
全文摘要
本发明属于计算机视觉和模式识别技术领域,具体为一种基于自适应初始搜索点预测的目标跟踪算法。该算法通过对坐标变换参数的变化率进行卡尔曼滤波来更好地预测初始搜索点;更重要的是,该算法有效地在线估计卡尔曼滤波器中的模型噪声功率,而非先验地对它们的取值做出假设,因而能够在没有任何人工干预的情况下动态地根据不同的目标运动状况和搜索精度进行实时调整。大量实景视频流上的实验结果均证实了该算法显著提高了跟踪稳定性,并且大幅降低了计算量。
文档编号G06T7/20GK101127121SQ200710045940
公开日2008年2月20日 申请日期2007年9月13日 优先权日2007年9月13日
发明者潘吉彦, 波 胡, 张建秋 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1