基于时空连续相关滤波的视频目标跟踪方法与流程

文档序号：11217342阅读：1159来源：国知局

本发明属于视觉目标跟踪技术领域，尤其是一种基于时空连续相关滤波的视频目标跟踪方法。

背景技术：

目标跟踪是计算机视觉领域中非常重要的一个研究课题，并被广泛应用于军事和人们日常生活中的各个领域，如制导系统、人机交互、智能交通、视觉导航、图像压缩、视频监控以及视频分析等等。因此对目标跟踪算法的研究，具有重要的军事、商业价值。

目标跟踪是指对视频中的目标进行定位，获得目标的位置和大小等信息，为对目标做进一步的分析与理解提供帮助，如目标识别、目标分类以及基于视频内容的分析等等。随着更多高级视觉任务需求的不断增长，目标跟踪算法的研究成为计算机视觉领域的一个研究热点。同时因为计算机计算能力的大幅度提高、廉价高性能摄像头的广泛应用，也使得复杂但更精确和稳健的跟踪算法得以实现。

经过几十年的发展，目标跟踪在计算机视觉领域取得了十足的进步。bolme等人首先将相关滤波应用于视觉跟踪领域(d.s.bolme,j.r.beveridge,b.a.draper,andy.m.lui,“visualobjecttrackingusingadaptivecorrelationfilters,”incvpr.ieee,2010,pp.2544–2550.)。基于此研究，很多人将其方法进行扩展，提出了核相关滤波器、多特征融合、尺度估计的方面的改进，主要包括四个方面：(1)利用时空上下文信息进行目标跟踪(k.zhang,l.zhang,m.h.yang,andd.zhang,“fasttrackingviaspatio-temporalcontextlearning,”arxivpreprintarxiv:1311.1939,2013.)；(2)将目标进行分块(t.liu,g.wang,andq.yang,“realtimepart-basedvisualtrackingviaadaptivecorrelationfilters,”incvpr,2015,pp.4902–4912.)，以很好地解决部分遮挡的问题；(3)预计关键点的算法，muster跟踪器(z.hong,z.chen,c.wang,andx.mei,“multi-storetracker(muster):acognitivepsychologyinspiredapproachtoobjecttracking,”incvpr,2015,pp.749–758.)存储了一些历史模版用以跟踪目标；(4)训练多个分类器以适应不同的跟踪环境(c.ma,x.yang,c.zhang,andm.h.yang,“long-termcorrelationtracking,”incvpr,2015,pp.5388–5396.)。

同时，基于深度学习的跟踪器也已经被证实具有很优异的性能，因此也引起了学者的关注，将深度学习与判别相关滤波器相结合，代表性的算法有hcf(c.ma,j.b.huang,x.yang,andm.h.yang,“hierarchicalconvolutionalfeaturesforvisualtracking,”iniccv,2015,pp.3074–3082.)、deepsrdcf(m.danelljan,g.hager,f.s.khan,andm.felsberg,“convolutionalfeaturesforcorrelationfilterbasedvisualtracking,”iniccvw,2015,pp.58–66.)等。

虽然目标跟踪算法经过了几十年的发展，但是要实现长期稳健实时的跟踪算法还是受到很多的限制。目标跟踪技术还是存在很多的挑战，如形变、遮挡、光照变化、旋转等，难以达到稳定的跟踪效果。

技术实现要素：

本发明的目地在于克服现有技术的不足，提出一种设计合理、精度高且稳定性强的基于时空连续相关滤波的视频目标跟踪方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于时空连续相关滤波的视频目标跟踪方法，包括以下步骤：

步骤1、构造并计算损失函数；

步骤2、对输入帧进行深度卷积特征提取，利用深度卷积网络的第3～5层特征信息估计当前帧中目标的位置；

步骤3、根据每层估计的目标位置的准确度分配不同权重，将三层目标位置加权求和得到当前帧目标的最终位置；

步骤4、根据之前所有帧的估计结果更新模板；当新的一帧到来，返回步骤2。

所述步骤4后还包括如下步骤：采用集成操作，实现多尺度的训练样本采集。

所述步骤1的具体实现方法为：

构造如下损失函数：

其中e＝y-w·x

其中，表示每一层的特征图，m、n、d分别表示特征图的长度、宽度和通道数，表示高斯标签，w表示每一层的相关滤波器的系数，e表示根据每一层特征图估计出来的目标位置与真实位置之间的误差；

根据迭代阈值收缩算法对损失函数进行计算得到：

表示相关滤波器系数w的对偶表示，w＝x^ta。k^xx表示核矩阵k的第一行，函数σ(ε，x)＝sign(x)max(0，|x|-ε)。

所述步骤2对输入帧进行深度卷积特征提取所利用的深度网络结构是vgg-net-19网络。

所述步骤3的具体步骤包括：

步骤3.1、将时空连续相关滤波器作用到相对应的每一层深度卷积特征，在每一层卷积特征上估计出当前帧的目标位置；

步骤3.2、根据预测的每一层目标结果计算相应的峰值旁瓣比和稳定系数，由此得出每一层位置信息的权重；

步骤3.3、将三层预测结果加权求和得到当前帧目标的最终位置。

所述步骤3.1的实现方法为：利用第t-1帧的时空连续相关滤波器作用到相对应的当前第t帧每一层的深度卷积特征，在每一层卷积特征上估计出当前第t帧的目标位置：

其中，表示傅立叶逆变换，k^xz＝k(x，z)表示核运算，表示第t帧第l层的特征图，⊙表示对应位相乘的操作，字母上的小帽子^表示傅立叶变换；

所述步骤3.2的实现方法为：根据每一层预测的目标位置信息计算相应的权重：

按如下公式计算峰值旁瓣比：

其中，和分别是第t帧第l层响应图的均值和标准差；

按如下公式计算第t-1帧和第t帧的第l层相关滤波器之间的稳定系数：

其中，和分别是第t-1帧和第t帧的第l层的响应图，stab值越小说明相关滤波器越稳定；

所述步骤3.3的实现方法为：根据步骤3.1得到的每一层预测的目标结果以及步骤3.2计算得到的权重，对三层特征的响应图进行加权求和即可得到当前帧目标的最终位置：

所述步骤4更新模板的方法为：根据步骤1的损失函数计算出的相关滤波器系数的对偶表示则第t帧的相关滤波器表示为：

其中，ηt表示当前第t帧更新模版的学习率；

学习率根据每一帧的误差进行自适应调整，从而实现了学习率的连续更新，使其以连续值加以呈现：

ηt∝1-sigmoid(||et||1)

其中，函数使得误差归一化到[0，1]之间。

所述集成操作是指结合现有技术并使用一个自适应的高斯窗代替余弦窗，实现多尺度的训练样本采集：

0≤i≤m，0≤j≤n

其中，2d高斯窗的尺寸为m×n，m和n分别是目标特征图的维度，和是特征图和目标当前尺度的比值。

本发明的优点和积极效果是：

1、本发明基于判别相关滤波器(discriminativecorrelationfilter)融合多层深度卷积特征的技术，其通过对所使用的每一层卷积特征，即空间信息，学习相对应的特定的相关滤波器，在每一层卷积特征上估计出目标位置后再根据准确度分配不同的权重，以估计目标的最终位置；同时，更新模版的时候结合之前所有帧的跟踪结果，即时间信息，并利用每一帧的跟踪误差自适应地调整学习率，从而实现了学习率的连续更新，使其以连续值加以呈现，能够获得满意的视觉目标跟踪效果。

2、本发明设计合理，其结合了判别相关滤波器、深度学习技术，其利用多层特征进行目标位置估计，并根据之前所有帧的位置信息连续更新学习率，增加了整体算法的跟踪精度，提高了跟踪速率和跟踪结果的稳定性，获得了很好的目标跟踪效果。

附图说明

图1是本发明提出的目标跟踪算法的流程图(步骤2)；

图2是本发明提出的目标跟踪算法的流程图(步骤3)

图3是本发明与其他不同算法在otb-50数据集上获得的跟踪结果auc曲线对比图；

图4是本发明与其他不同算法在otb-100数据集上获得的跟踪结果auc曲线对比图；

图5是本发明与其他不同算法的跟踪结果对比图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种基于时空连续相关滤波的视频目标跟踪方法，包括以下步骤：

步骤1、构造并计算损失函数：

其中e＝y-w·x

表示每一层的特征图，m、n、d分别表示特征图的长度、宽度和通道数，表示高斯标签，w表示每一层的相关滤波器的系数，e表示根据每一层特征图估计出来的目标位置与真实位置之间的误差。由于损失使得误差具有稀疏解，损失使得误差尽可能小，处理物体形变非常有效，所以，这里损失使用的是损失，对于物体形状的突变或者缓慢变化都十分有效。

根据迭代阈值收缩算法对损失函数进行计算可得：

表示相关滤波器系数w的对偶表示，w＝x^ta。k^xx表示核矩阵k的第一行，函数σ(ε，x)＝sign(x)max(0，|x|-ε)。

步骤2、当新的一帧到来，通过vgg-net-19深度网络网络提取出第3、4、5层的深度特征进行目标位置的预测，如图1所示。根据每一层估计的目标位置的准确度分配不同权重，将三层目标位置加权求和得到当前帧目标的最终位置。具体方法包括以下步骤：

(1)利用第t-1帧的时空连续相关滤波器作用到相对应的当前第t帧每一层的深度卷积特征，在每一层卷积特征上估计出当前第t帧的目标位置：

其中，表示傅立叶逆变换，k^xz＝k(x，z)表示核运算，表示第t帧第l层的特征图，⊙表示对应位相乘的操作，字母上的小帽子^表示傅立叶变换；

(2)根据每一层预测的目标位置信息计算相应的权重：

其中涉及两个性能指标：峰值旁瓣比和稳定系数；

基于相关滤波的分类器，跟踪响应图的峰值旁瓣比是一个有效且常用的测量指标：

其中，和分别是第t帧第l层响应图的均值和标准差，psr值越大，说明得到的响应图越准确；

另外，本发明还设计了另外一个测量指标，叫稳定系数；这里，计算了第t-1帧和第t帧的第l层相关滤波器之间的稳定系数：

和分别是第t-1帧和第t帧的第l层的响应图，stab值越小说明相关滤波器越稳定；

(3)根据上述步骤得到的每一层预测的目标结果以及相应的权重，对三层特征的响应图进行加权求和即可得到当前帧目标的最终位置：

步骤3、得到当前第t帧的目标位置之后，需要更新模版，也就是对相关滤波器进行更新，如图2所示。此时需要根据步骤1的损失函数计算出的相关滤波器系数的对偶表示则第t帧的相关滤波器表示为：

其中，ηt表示当前第t帧更新模版的学习率。本方法利用之前所有视频帧(时间信息，即)进行模板的更新，不同于以往的固定学习率或者二值学习率，本方法的学习率根据每一帧的误差进行自适应调整，从而实现了学习率的连续更新，使其以连续值加以呈现：

ηt∝1-sigmoid(||et||1)

其中，函数使得误差归一化到[0，1]之间。e越大，说明估计的结果越不准确，则此时的相关滤波器性能不好，要避免对其进行过多的更新，即学习率ηt要小。

步骤4、根据当前帧的预测结果更新完模版，再来新的一帧，返回步骤2。如此对整个视频帧序列完成目标跟踪。

步骤5、采用集成操作，实现多尺度的训练样本采集。

集成操作是指结合现有技术并使用一个自适应的高斯窗代替余弦窗，实现多尺度的训练样本采集：

0≤i≤m，0≤j≤n

其中，2d高斯窗的尺寸为m×n，m和n分别是目标特征图的维度，和是特征图和目标当前尺度的比值。

下面按照本发明的方法进行实验，说明本发明的实验效果。

测试环境：matlabr2015b；本次实验使用matconvnet工具包进行深度卷积特征的提取。

测试序列：所选序列和其对应标准跟踪位置图(ground-truth)来自两个常用数据集：otb-50(y.wu,j.lim,andm.-h.yang.onlineobjecttracking:abenchmark.inproceedingsofieeeconferenceoncomputervisionandpatternrecognition,2013)，otb-100(y.wu,j.lim,andm.h.yang,“objecttrackingbench-mark,”pami,vol.37,no.9,pp.1834–1848,2015.)。

测试指标：使用了两种评价指标：中心位置误差(centerlocationerror，cle)和重叠面积比率(pascalvocoverlapratio，vor)，分别对应于准确率曲线(theprecisionplot)和成功率曲线(thesuccessplot)。测试曲线如图3和图4所示，曲线与坐标轴下面围成的面积越大，说明跟踪效果越好。其中cle是中心位置误差，表示跟踪到的目标位置和真实的标注位置的中心位置像素距离。cle忽略了目标大小的影响，作为补充考虑vor准则，vor定义为跟踪的目标区域和真实区域的交集和并集的比值。通常，以cle＝20判断跟踪到的目标位置是否准确，即若跟踪结果的中心位置和目标的真实位置的距离小于20个像素，则认为对目标的位置估计准确；以vor>0.5作为判断是否跟踪成功的依据。针对具体数据结果见下表：

通过上表以及图3、图4、图5可以看出，采用本发明进行目标跟踪相对于其他方法具有一定的优越性。在图3和图4中，算法越靠上说明其鲁棒性越好，该图可以直观的看出每一个算法的综合能力。本发明相对于较有名的deepsrdcf、hcf等算法在这些测试序列上都取得更好效果。图5中，所测试的序列包含了快速运动、部分遮挡、背景杂乱、尺度变化等序列。由于本发明的连续学习率更新策略，在发生部分遮挡的girl2和lemming序列中取得了很好的跟踪效果，比如，girl2序列，其他跟踪器在目标被遮挡后都发生跟丢的现象，而本方法却能很好地在目标重新出现时进行再次定位。得益于集成操作，本发明能够很好地处理序列中目标尺度变换的问题，如carscale和singer1序列。由于深度卷积特征对物体高效的表示能力，本方法也很好的解决了背景杂乱的问题，如human6和bike1序列。在目标发生旋转的情况下也能准确跟踪目标，如kitesurf和sking序列。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：娄涵;周芸;王东飞;姜竹青;门爱东
技术所有人：国家新闻出版广电总局广播科学研究院;北京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。