本发明属于视觉目标跟踪技术领域,尤其是一种基于时空连续相关滤波的视频目标跟踪方法。
背景技术:
目标跟踪是计算机视觉领域中非常重要的一个研究课题,并被广泛应用于军事和人们日常生活中的各个领域,如制导系统、人机交互、智能交通、视觉导航、图像压缩、视频监控以及视频分析等等。因此对目标跟踪算法的研究,具有重要的军事、商业价值。
目标跟踪是指对视频中的目标进行定位,获得目标的位置和大小等信息,为对目标做进一步的分析与理解提供帮助,如目标识别、目标分类以及基于视频内容的分析等等。随着更多高级视觉任务需求的不断增长,目标跟踪算法的研究成为计算机视觉领域的一个研究热点。同时因为计算机计算能力的大幅度提高、廉价高性能摄像头的广泛应用,也使得复杂但更精确和稳健的跟踪算法得以实现。
经过几十年的发展,目标跟踪在计算机视觉领域取得了十足的进步。bolme等人首先将相关滤波应用于视觉跟踪领域(d.s.bolme,j.r.beveridge,b.a.draper,andy.m.lui,“visualobjecttrackingusingadaptivecorrelationfilters,”incvpr.ieee,2010,pp.2544–2550.)。基于此研究,很多人将其方法进行扩展,提出了核相关滤波器、多特征融合、尺度估计的方面的改进,主要包括四个方面:(1)利用时空上下文信息进行目标跟踪(k.zhang,l.zhang,m.h.yang,andd.zhang,“fasttrackingviaspatio-temporalcontextlearning,”arxivpreprintarxiv:1311.1939,2013.);(2)将目标进行分块(t.liu,g.wang,andq.yang,“realtimepart-basedvisualtrackingviaadaptivecorrelationfilters,”incvpr,2015,pp.4902–4912.),以很好地解决部分遮挡的问题;(3)预计关键点的算法,muster跟踪器(z.hong,z.chen,c.wang,andx.mei,“multi-storetracker(muster):acognitivepsychologyinspiredapproachtoobjecttracking,”incvpr,2015,pp.749–758.)存储了一些历史模版用以跟踪目标;(4)训练多个分类器以适应不同的跟踪环境(c.ma,x.yang,c.zhang,andm.h.yang,“long-termcorrelationtracking,”incvpr,2015,pp.5388–5396.)。
同时,基于深度学习的跟踪器也已经被证实具有很优异的性能,因此也引起了学者的关注,将深度学习与判别相关滤波器相结合,代表性的算法有hcf(c.ma,j.b.huang,x.yang,andm.h.yang,“hierarchicalconvolutionalfeaturesforvisualtracking,”iniccv,2015,pp.3074–3082.)、deepsrdcf(m.danelljan,g.hager,f.s.khan,andm.felsberg,“convolutionalfeaturesforcorrelationfilterbasedvisualtracking,”iniccvw,2015,pp.58–66.)等。
虽然目标跟踪算法经过了几十年的发展,但是要实现长期稳健实时的跟踪算法还是受到很多的限制。目标跟踪技术还是存在很多的挑战,如形变、遮挡、光照变化、旋转等,难以达到稳定的跟踪效果。
技术实现要素:
本发明的目地在于克服现有技术的不足,提出一种设计合理、精度高且稳定性强的基于时空连续相关滤波的视频目标跟踪方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于时空连续相关滤波的视频目标跟踪方法,包括以下步骤:
步骤1、构造并计算损失函数;
步骤2、对输入帧进行深度卷积特征提取,利用深度卷积网络的第3~5层特征信息估计当前帧中目标的位置;
步骤3、根据每层估计的目标位置的准确度分配不同权重,将三层目标位置加权求和得到当前帧目标的最终位置;
步骤4、根据之前所有帧的估计结果更新模板;当新的一帧到来,返回步骤2。
所述步骤4后还包括如下步骤:采用集成操作,实现多尺度的训练样本采集。
所述步骤1的具体实现方法为:
构造如下损失函数:
其中e=y-w·x
其中,
根据迭代阈值收缩算法对损失函数进行计算得到:
所述步骤2对输入帧进行深度卷积特征提取所利用的深度网络结构是vgg-net-19网络。
所述步骤3的具体步骤包括:
步骤3.1、将时空连续相关滤波器作用到相对应的每一层深度卷积特征,在每一层卷积特征上估计出当前帧的目标位置;
步骤3.2、根据预测的每一层目标结果计算相应的峰值旁瓣比和稳定系数,由此得出每一层位置信息的权重;
步骤3.3、将三层预测结果加权求和得到当前帧目标的最终位置。
所述步骤3.1的实现方法为:利用第t-1帧的时空连续相关滤波器
其中,
所述步骤3.2的实现方法为:根据每一层预测的目标位置信息计算相应的权重:
按如下公式计算峰值旁瓣比:
其中,
按如下公式计算第t-1帧和第t帧的第l层相关滤波器之间的稳定系数:
其中,
所述步骤3.3的实现方法为:根据步骤3.1得到的每一层预测的目标结果以及步骤3.2计算得到的权重,对三层特征的响应图进行加权求和即可得到当前帧目标的最终位置:
所述步骤4更新模板的方法为:根据步骤1的损失函数计算出的相关滤波器系数的对偶表示
其中,ηt表示当前第t帧更新模版的学习率;
学习率根据每一帧的误差进行自适应调整,从而实现了学习率的连续更新,使其以连续值加以呈现:
ηt∝1-sigmoid(||et||1)
其中,函数
所述集成操作是指结合现有技术并使用一个自适应的高斯窗代替余弦窗,实现多尺度的训练样本采集:
0≤i≤m,0≤j≤n
其中,2d高斯窗的尺寸为m×n,m和n分别是目标特征图的维度,
本发明的优点和积极效果是:
1、本发明基于判别相关滤波器(discriminativecorrelationfilter)融合多层深度卷积特征的技术,其通过对所使用的每一层卷积特征,即空间信息,学习相对应的特定的相关滤波器,在每一层卷积特征上估计出目标位置后再根据准确度分配不同的权重,以估计目标的最终位置;同时,更新模版的时候结合之前所有帧的跟踪结果,即时间信息,并利用每一帧的跟踪误差自适应地调整学习率,从而实现了学习率的连续更新,使其以连续值加以呈现,能够获得满意的视觉目标跟踪效果。
2、本发明设计合理,其结合了判别相关滤波器、深度学习技术,其利用多层特征进行目标位置估计,并根据之前所有帧的位置信息连续更新学习率,增加了整体算法的跟踪精度,提高了跟踪速率和跟踪结果的稳定性,获得了很好的目标跟踪效果。
附图说明
图1是本发明提出的目标跟踪算法的流程图(步骤2);
图2是本发明提出的目标跟踪算法的流程图(步骤3)
图3是本发明与其他不同算法在otb-50数据集上获得的跟踪结果auc曲线对比图;
图4是本发明与其他不同算法在otb-100数据集上获得的跟踪结果auc曲线对比图;
图5是本发明与其他不同算法的跟踪结果对比图。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
一种基于时空连续相关滤波的视频目标跟踪方法,包括以下步骤:
步骤1、构造并计算损失函数:
其中e=y-w·x
根据迭代阈值收缩算法对损失函数进行计算可得:
步骤2、当新的一帧到来,通过vgg-net-19深度网络网络提取出第3、4、5层的深度特征进行目标位置的预测,如图1所示。根据每一层估计的目标位置的准确度分配不同权重,将三层目标位置加权求和得到当前帧目标的最终位置。具体方法包括以下步骤:
(1)利用第t-1帧的时空连续相关滤波器
其中,
(2)根据每一层预测的目标位置信息计算相应的权重:
其中涉及两个性能指标:峰值旁瓣比和稳定系数;
基于相关滤波的分类器,跟踪响应图的峰值旁瓣比是一个有效且常用的测量指标:
其中,
另外,本发明还设计了另外一个测量指标,叫稳定系数;这里,计算了第t-1帧和第t帧的第l层相关滤波器之间的稳定系数:
(3)根据上述步骤得到的每一层预测的目标结果以及相应的权重,对三层特征的响应图进行加权求和即可得到当前帧目标的最终位置:
步骤3、得到当前第t帧的目标位置之后,需要更新模版,也就是对相关滤波器进行更新,如图2所示。此时需要根据步骤1的损失函数计算出的相关滤波器系数的对偶表示
其中,ηt表示当前第t帧更新模版的学习率。本方法利用之前所有视频帧(时间信息,即
ηt∝1-sigmoid(||et||1)
其中,函数
步骤4、根据当前帧的预测结果更新完模版,再来新的一帧,返回步骤2。如此对整个视频帧序列完成目标跟踪。
步骤5、采用集成操作,实现多尺度的训练样本采集。
集成操作是指结合现有技术并使用一个自适应的高斯窗代替余弦窗,实现多尺度的训练样本采集:
0≤i≤m,0≤j≤n
其中,2d高斯窗的尺寸为m×n,m和n分别是目标特征图的维度,
下面按照本发明的方法进行实验,说明本发明的实验效果。
测试环境:matlabr2015b;本次实验使用matconvnet工具包进行深度卷积特征的提取。
测试序列:所选序列和其对应标准跟踪位置图(ground-truth)来自两个常用数据集:otb-50(y.wu,j.lim,andm.-h.yang.onlineobjecttracking:abenchmark.inproceedingsofieeeconferenceoncomputervisionandpatternrecognition,2013),otb-100(y.wu,j.lim,andm.h.yang,“objecttrackingbench-mark,”pami,vol.37,no.9,pp.1834–1848,2015.)。
测试指标:使用了两种评价指标:中心位置误差(centerlocationerror,cle)和重叠面积比率(pascalvocoverlapratio,vor),分别对应于准确率曲线(theprecisionplot)和成功率曲线(thesuccessplot)。测试曲线如图3和图4所示,曲线与坐标轴下面围成的面积越大,说明跟踪效果越好。其中cle是中心位置误差,表示跟踪到的目标位置和真实的标注位置的中心位置像素距离。cle忽略了目标大小的影响,作为补充考虑vor准则,vor定义为跟踪的目标区域和真实区域的交集和并集的比值。通常,以cle=20判断跟踪到的目标位置是否准确,即若跟踪结果的中心位置和目标的真实位置的距离小于20个像素,则认为对目标的位置估计准确;以vor>0.5作为判断是否跟踪成功的依据。针对具体数据结果见下表:
通过上表以及图3、图4、图5可以看出,采用本发明进行目标跟踪相对于其他方法具有一定的优越性。在图3和图4中,算法越靠上说明其鲁棒性越好,该图可以直观的看出每一个算法的综合能力。本发明相对于较有名的deepsrdcf、hcf等算法在这些测试序列上都取得更好效果。图5中,所测试的序列包含了快速运动、部分遮挡、背景杂乱、尺度变化等序列。由于本发明的连续学习率更新策略,在发生部分遮挡的girl2和lemming序列中取得了很好的跟踪效果,比如,girl2序列,其他跟踪器在目标被遮挡后都发生跟丢的现象,而本方法却能很好地在目标重新出现时进行再次定位。得益于集成操作,本发明能够很好地处理序列中目标尺度变换的问题,如carscale和singer1序列。由于深度卷积特征对物体高效的表示能力,本方法也很好的解决了背景杂乱的问题,如human6和bike1序列。在目标发生旋转的情况下也能准确跟踪目标,如kitesurf和sking序列。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。