多通道核相关滤波的实时跟踪方法与流程

文档序号:17555861发布日期:2019-04-30 18:36阅读:261来源:国知局
多通道核相关滤波的实时跟踪方法与流程

本发明属于图像处理和计算机视觉领域,具体涉及一种多通道核相关滤波的实时跟踪方法。



背景技术:

在计算机视觉中,目标跟踪是一个相当广泛的研究领域,在自动监测、视频索引、交通监控以及人机交互等领域中都有着非常广泛的应用。虽然近十年研究人员已经提出了许多算法,但如何构建一个稳定且高效的跟踪系统,来处理目标的外观变化,快速运动,尺度变化和遮挡等问题,仍然是一项具有挑战性的任务。

现有的高精度跟踪器大多是通过构建复杂的外观模型和抽取大量的候选粒子,并通过遍历的方式计算每个候选粒子与前一帧跟踪结果的相似度或者置信值。因而在跟踪时会产生庞大的计算量。因此,这类高精度跟踪器都是以牺牲速度为代价实现精确跟踪,大多不能适应实时场景应用。相关滤波方法绕过构建复杂的外观模型和抽取大量学习样本,仅将前一帧的跟踪结果作为学习样本就可实现跟踪。这类方法在保证跟踪精度的前提下,有着很快的跟踪速度,完全满足实时场景的需求。

一般地,跟踪算法可以分为生成跟踪和判别跟踪两类。传统的生成跟踪方法通过建立复杂的外观模型来描述目标,并在候选粒子与字典模板之间寻找具有最小重构误差的最佳粒子,从而得到跟踪结果。判别跟踪方法则是把目标跟踪问题看成是一个二元分类问题,即通过对训练数据学习得到一个分类器,从局部图像区域中将目标和背景分离。Bolme等人首次将相关滤波的方法应用到目标跟踪中,并提出了MOSSE算法(D.BOLME,J.BEVERIDGE,B.DRAPER,et al.Visual object tracking using adaptive correlation filters[C].In CVPR 2010:2010Computer Vision and Pattern Recognition.San Francisco:IEEE,2010:2544-2550)。该算法利用当前帧中的目标信息为学习样本,在频域中构建一个线性滤波模板,用来检测下一帧中与前一帧目标相关性(相似度)最高的区域。该算法跟踪速度可达到669帧/秒(FPS)。本发明则通过核函数将学习样本映射到高维空间,从而构建更为吻合实际的非线性滤波模板用以检测目标。KCF方法( F HENRIQUES,RUI CASEIRO,PEDRO MARTINS.High-Speed tracking with kernelized correlation filters[J].Pattern Analysis and Machine Intelligence,2014,37(3):583-596.)提出了一种新的抽样方式——稠密抽样,用这种方式进行抽样可以获取大量的训练样本,可以学习得到更加鲁棒和精确分类器,并且利用循环矩阵的特性,采用傅立叶变换和核技巧降低了训练所需要的时间。然而本发明,在保证跟踪精度的情况下,仅通过将已知的跟踪结果作为学习样本,对下一帧中的搜索区域进行检测,寻找与学习样本相关度(相似性)最高的目标位置,完全绕过抽取样本的过程。浙江生辉照明有限公司提出的专利申请“一种基于核化相关滤波高速自动多目标跟踪方法”(专利申请号:201410418797.7,公开号:104200237 A)。公开了一种基于相关滤波的多目标跟踪方法。该方法就是在KCF的基础上进行的,通过稠密抽样来获取大量样本来学习得到识别率较高的分类器,并利用循环矩阵的特性来缩短训练时间,来实现高效的训练过程。然而,本发明绕过抽样过程,直接利用当前帧的目标信息进行训练,同样有很高的速度,而且保证了跟踪精度。



技术实现要素:

本发明要解决的技术问题是通过核函数融合多通道特征,并将线性相关滤波扩展为非线性相关滤波,提出一种多通道核相关滤波的实时跟踪方法,确保跟踪器在复杂的现实场景中,如遮挡,光照变化,外观变化等情况下,仍然可以准确快速地跟踪目标。

为解决上述技术问题,本发明采用的技术方案为:多通道核相关滤波的实时跟踪方法,该方法包括:训练阶段:通过岭回归方法对上一帧目标信息进行处理,获得滤波模板;检测阶段:用获得的滤波模板对当前帧的图像进行检测,输出滤波响应;更新阶段:对滤波模板和目标外观进行实时更新;

所述的训练阶段的具体步骤如下:

步骤一:在t时刻的图像It中,在目标位置处提取目标区域Pt;

步骤二:提取目标区域Pt的HOG特征并变换到频域,获取原目标区域特征其中M和N表示原目标区域Pt的大小,L表示特征通道的个数,表示在频域时原目标区域的每个通道特征,表示在时域的原目标区域的每个通道特征,R表示实数域,C表示复数域;

步骤三:通过函数将原目标区域特征Xt映射到高维空间中将原目标函数的频域形式f(X)=H*e Xt(时域形式),转变为其中符号e表示对应元素的点乘,H*表示滤波模板,Xt表示目标区域特征;将滤波模板H*表示为则目标函数改写为其中Wt表示t时刻高维空间中的滤波模板,f(X)表示滤波模板对原目标区域的频域响应,X表示原目标区域频域特征;通过核相关函数计算核相关;

步骤四:利用岭回归最小化其中第二项为惩罚项,用来抑制模型的过拟合,G为回归目标g的FFT变换,可解得t时刻高维空间中的滤波模板为

进一步地,所述训练阶段的步骤二中,提取原目标区域的HOG特征并FFT变换到频域,需要对图像特征进行加窗处理,公式如下:

x′mn=(xmn-0.5)sin(πm/M)sin(πn/N)

式中x′mn表示加窗后图像中每个像素;xmn表示加窗处理前图像中每个像素;(m,n)∈{0,…,M-1}×{0,…,N-1}表示每个像素的位置;

经过加窗后可获取原目标区域特征

进一步地,所述训练阶段的步骤四中,选择了标准偏差的高斯函数作为回归目标,即:

其中(m′,n′)表示目标位置,(m,n)∈{0,…,M-1}×{0,…,N-1}表示每个像素的位置;

通过代价函数,可解得t时刻高维空间中的滤波模板为

进一步地,所述的检测阶段的具体步骤如下:

步骤一:在t+1时刻图像It+1中,对应前一帧的目标位置处提取检测区域Pt+1;

步骤二:提取检测区域Pt+1的HOG特征并变换到频域,获取新目标区域特征其中表示在频域时新目标区域的每个通道特征;表示在时域时新目标区域的每个通道特征;

步骤三:采用训练阶段步骤三的方法,利用线性核函数,计算检测区域的新目标区域特征Zt+1和更新后的目标区域特征Xt+1的核互相关c表示第几个通道;

步骤四:用更新后的滤波模板Wt+1对核互相关K(Xt+1,Zt+1)进行检测,并输出滤波响应f(Z)=Wt+1e K(Xt+1,Zt+1);

步骤五:对滤波响应进行逆快速傅里叶变换,有y=F-1(f(Z))=F-1(Wt+1e K(Xt+1,Zt+1)),并将输出中的峰值位置作为目标位置,其中(m,n)为相关输出y中的元素索引。

进一步地,所述的更新阶段的具体步骤如下:

步骤一:对目标区域特征和滤波模板进行更新,更新方法:

Xt+1=(1-γ)Xt+1+γXt

Wt+1=(1-γ)Wt+1+γWt

其中,γ表示学习参数;Xt+1表示更新后的目标区域特征;Wt+1表示更新后的滤波模板;

步骤二:输入视频,重复上述训练→检测→更新→训练来实现跟踪,直到视频结束。

本发明的有益效果:本发明的方法利用核函数融合多通道特征,克服了多通道特征的选择局限,如颜色特征(RGB),颜色统计特征(CN),梯度方向直方图(HOG)等。并通过核函数将岭回归的线性优化问题转换为高维空间的非线性优化问题,从而构建一个鲁棒性更好的滤波模板,以适应目标在跟踪过程中的各种场景变化,提高跟踪器的性能。同时,绕过抽取大量样本和构建复杂外观模型的过程,使跟踪器的速度被大幅度提升,能够满足现实世界的跟踪需求。

附图说明

图1为本发明的基本流程框图;

图2为本发明的具体实施流程图;

图3为本发明对3个测试视频的跟踪结果图。

图4为在重叠阈值条件下对50个测试视频的时间鲁棒性评估。

图5为在重叠阈值条件下对50个测试视频的空间鲁棒性评估。

图6为在重叠阈值条件下对50个测试视频的一次性评估。

图7为在位置误差阈值条件下对50个测试视频的一次性评估。

图8为在位置误差阈值条件下对50个测试视频时间鲁棒性评估。

图9为在位置误差阈值条件下对50个测试视频空间鲁棒性评估。

具体实施方式

为了使本发明的目的,技术路线和有益效果更加清楚,下面将结合附图和具体实施方式,进一步阐述本发明。

由于连续两帧之间目标的外观变化很小(相似度高),通过岭回归对上一帧目标信息的学习,得到一个滤波模板,用得到的滤波模板对当前帧的图像进行检测,对应的滤波响应中峰值位置就是当前帧的目标位置。本发明的方法主要分为训练阶段,检测阶段和更新阶段三个部分,训练阶段:通过岭回归方法对上一帧目标信息进行处理,获得滤波模板;检测阶段:用获得的滤波模板对当前帧的图像进行检测,输出滤波响应;更新阶段:对滤波模板和目标外观进行实时更新。

训练阶段的具体步骤如下:

步骤一:在t时刻的图像It中,在目标位置处提取目标区域Pt;

步骤二:由于HOG在目标检测中有着卓越的性能,本发明选择提取目标区域Pt的HOG特征并变换到频域,获取原目标区域特征由于FFT是周期性的,而目标图像并非是周期性的图像,所以图像边缘的差异将导致FFT中引入噪声,为了消除图像边缘的影响,需要对图像特征进行加窗处理,公式如下:

x′mn=(xmn-0.5)sin(πm/M)sin(πn/N)

式中x′mn表示加窗后图像中每个像素,xmn表示加窗处理前图像中每个像素;(m,n)∈{0,…,M-1}×{0,…,N-1}表示每个像素的位置;

其中M和N表示原目标区域Pt的大小,L表示特征通道的个数,表示在频域时原目标区域的每个通道特征,表示在时域的原目标区域的每个通道特征,R表示实数域,C表示复数域;

经过加窗后可获取原目标区域特征

步骤三:通过函数将原目标区域特征Xt映射到高维空间中将原目标函数的频域形式f(X)=H*e Xt(时域形式),转变为其中符号e表示对应元素的点乘,H*表示滤波模板,Xt表示目标区域特征;将滤波模板H*表示为则目标函数改写为其中Wt表示t时刻高维空间中的滤波模板,f(X)表示滤波模板对原目标区域的频域响应,X表示原目标区域频域特征;通过核相关函数计算核相关;可以选择高斯核,线性核,多项式核等进行计算核相关。

步骤四:岭回归是一种有偏的最小二乘估计,通过放弃最小二乘的无偏性,来获得对病态数据的耐受能力,防止滤波模板与学习样本过度拟合,提高模板的泛化性能。利用岭回归最小化其中第二项为惩罚项,用来抑制模型的过拟合,G为回归目标g的FFT变换,为了突出当前帧中目标位置的显著性,本发明选择了标准偏差的高斯函数作为回归目标,即:

其中(m′,n′)表示目标位置,(m,n)∈{0,…,M-1}×{0,…,N-1}表示每个像素的位置。

通过上述代价函数,可解得t时刻高维空间中的滤波模板为

检测阶段的具体步骤如下:

步骤一:在t+1时刻图像It+1中,对应前一帧的目标位置处提取检测区域Pt+1;

步骤二:提取检测区域Pt+1的HOG特征并变换到频域,获取新目标区域特征其中表示在频域时新目标区域的每个通道特征;表示在时域时新目标区域的每个通道特征;

步骤三:采用训练阶段步骤三的方法,利用线性核函数,计算检测区域的新目标区域特征Zt+1和更新后的目标区域特征Xt+1的核互相关c表示第几个通道。

步骤四:用更新后的滤波模板Wt+1对核互相关K(Xt+1,Zt+1)进行检测,并输出滤波响应f(Z)=Wt+1e K(Xt+1,Zt+1);

步骤五:对滤波响应进行逆快速傅里叶变换,有y=F-1(f(Z))=F-1(Wt+1e K(Xt+1,Zt+1)),并将输出中的峰值位置作为目标位置,其中(m,n)为相关输出y中的元素索引。

更新阶段的具体步骤如下:

步骤一:在跟踪过程中,目标常常会因为尺度变化,旋转,光照变化和遮挡而改变目标外观。为了快速适应目标的外观变化,滤波模板和目标区域特征进行实时更新。对目标区域特征和滤波模板进行更新,更新方法为:

Xt+1=(1-γ)Xt+1+γXt

Wt+1=(1-γ)Wt+1+γWt

其中,γ表示学习参数;Xt+1表示更新后的目标区域特征;Wt+1表示更新后的滤波模板;

步骤二:输入视频,重复上述训练→检测→更新→训练来实现跟踪,直到视频结束。

本发明通过三种评估标准来衡量跟踪器的性能,分别为一次性评估(One-pass Evaluation,OPE),时间鲁棒性评估(Temporal Robustness Evaluation,TRE)和空间鲁棒性评估(Spatial Robustness Evaluation SRE)。OPE采用的是传统的评估方式,跟踪器在初始帧的真实位置进行跟踪,并计算平均精度(Precision)和成功率(Success rate)。而TRE和SRE则不同,TRE设置跟踪器由不同的初始帧开始,进行多次跟踪,实验中设置跟踪次数为20。SRE在初始帧的目标框上进行抽样,通过对中心位置的4个方向平移(上,下,左,右),角点的4个方向平移(左上,左下,右上,右下)和目标框的4个尺度比率变化(0.8,0.9,1.1,1.2)。

通过上述三种方式,对50个不同属性的视频序列进行测试,并与其它跟踪器,如Struck,SCM,TLD和VTD等9种跟踪器,在不同的挑战因素下,如光照变化,快速运动,遮挡等情况下进行对比。图4从精度(Precision)和成功率(Success rate)两个方面给出了本发明与其他9种跟踪器的性能对比图。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1