一种基于分块判别的自适应时空正则化目标跟踪算法

文档序号:26907969发布日期:2021-10-09 14:17阅读:158来源:国知局
一种基于分块判别的自适应时空正则化目标跟踪算法

1.本发明属于图像处理技术领域,具体涉及一种基于分块判别的自适应时空正则化目标跟踪算法。


背景技术:

2.目标跟踪是计算机视觉领域的一个具有挑战性的问题之一,在人机交互,智慧城市以及战场态势感知等诸多热点领域有着广泛的应用。近年来,随着高性能图像处理器等硬件设备的快速发展,目标跟踪领域取得了阶段性的进展,但由于目标存在着背景相似干扰、光照变化、形变、快速运动、旋转、遮挡尺度变化以及图像序列低分辨率等问题的影响,建立一个鲁棒、有效、适用广泛的视觉跟踪系统仍是一个十分艰难的任务。
3.2010年,bolme等人首次将信号处理领域的相关滤波方法引入到视觉目标跟踪领域,提出了mosse跟踪算法,利用傅里叶变换使计算速度在频域内得到大幅提升,运行速度超过了600帧/秒,使跟踪领域内的学者看到了相关滤波跟踪器的巨大潜力。此后,更多在此基础上的改进不断被提出,例如,henriques等人基于循环矩阵理论提出csk算法,利用中心图像块循环移位近似窗口移位,解决了mosse算法中相关滤波器样本不足的问题,并在mosse模型的基础上增加了正则项以避免过拟合;接着,henriques等人又对csk算法进行了扩展,提出了kcf算法,该算法将31个通道的方向梯度直方图(hog)特征和核方法加入到相关滤波器,不仅提升了模型的判别能力,还保持了较快的跟踪速度;2014年,li等人提出了samf跟踪算法,该方法可使用7个尺度图像块上进行检测,自适应的对尺度进行调节;同一年,danelljan等人提出了判别尺度空间(dsst)跟踪算法,该算法创新之处在于将位置估计与尺度估计分开,通过相关滤波运算独立的求解目标位置,而后在求得的位置利用尺度金字塔获取最佳的目标尺度;之后,martin等人提出了用于视觉跟踪的连续卷积算子(c

cot)算法,与kcf相比,c

cot使用vgg

net深度神经网络提取目标特征,通过插值将不同分辨率的特征图扩展到同一周期,但这使得原本具有速度优势的相关滤波算法速度大幅降低,不再具备实时性。此后又有诸多学者在以上算法的基础上对相关滤波跟踪器存在的抗遮挡能力差、鲁棒性差等问题做出了不同的改进,但边界效应、滤波器退化以及实时性差等问题仍然影响着相关滤波算法的性能。
4.基于空间正则化的跟踪算法srdcf最早由danelljian等人提出,srdcf算法提高了滤波器的搜索范围,同时在这个区域内设置一个固定的滤波器惩罚权重,从而使滤波器训练过程中主要集中在中心区域并抑制对于训练阶段而言有效性较低的样本,达到缓解边界效应的目的。但空间正则权重没有与目标建立联系,在形变、旋转和遮挡等跟踪场景下,算法可能无法获取可靠的滤波器惩罚系数。此外,srdcf算法在相邻两帧滤波器之间没有建立联系,无法有效地解决了滤波器退化的问题,在遮挡和出视野等问题下会造成滤波器受到背景的污染,可能会出现跟踪漂移等问题。


技术实现要素:

5.针对现有技术存在的不足之处,本发明提出了一种基于分块判别的自适应时空正则化目标跟踪算法,该算法解决的技术问题包括:srdcf算法在遮挡和出视野干扰下滤波器被污染的问题,滤波器在光照变化、低分辨度、复杂背景下稳定性降低的问题,srdcf算法在快速运动下的跟踪失败难题。
6.为了实现上述问题的有效解决,本发明采用如下技术方案:
7.一种基于分块判别的自适应时空正则化目标跟踪算法,它包括:
8.s1、视频或图像序列输入后,获取第一帧中被跟踪目标的信息,初始化跟踪目标框;
9.s2、获取首帧输入图像的深度估计结果,将得到的结果进行增强和归一化处理,建立自适应空间正则项初始化权重;
10.s3、将跟踪目标框划分为四个子区域,每个区域内分别设置一个子滤波器,当出现遮挡或出视野等强干扰时,在对应子区域上施加一个空间惩罚系数,每个子区域内的惩罚权重都可根据目标当前状态进行自适应调整;
11.s4、训练分类器;基于分块判别自适应时空正则化的相关滤波目标跟踪的最终分类器训练公式为:
[0012][0013]
式中,x
k
是第k个通道上当前帧提取的目标特征,y是目标在滤波器下理想的高斯响应,μ是时间正则项参数,k是特征提取阶段的总通道数,f是当前帧训练得到的滤波器,f
t
‑1表示上一帧中的滤波器模板,λ1、λ2是正则化参数,φ为基于深度感知的初始参考权重,φ
r
为分块感知参考权重,argmin运算是求取目标函数取最小值时的变量值;转到步骤s5;
[0014]
s5、输入第t+1帧图像,使用方向交替乘子法计算目标函数的全局最优解即跟踪目标框的位置信息,输出跟踪结果,重复上述步骤3至步骤6直到跟踪结束。
[0015]
本技术方案进一步的优化,所述步骤s2中深度估计模块采用编码器加解码器架构。
[0016]
本技术方案进一步的优化,所述步骤s3中空间正则项在跟踪目标框的四个子区域内自适应调整惩罚权重。
[0017]
本技术方案进一步的优化,所述步骤s3中四个子区域内的子滤波器独立计算响应峰值旁瓣比,通过设定阈值θ判断来自八个方向的强干扰,
[0018]
本技术方案进一步的优化,所述步骤s4中通过深度估计的结果s”与srdcf算法中空间正则权重w对应元素点乘得到与目标建立密切联系的基于深度感知的初始参考权重。
[0019]
本技术方案更进一步的优化,所述步骤s4中时间正则项模块基于在线被动攻击算法。
[0020]
区别于现有技术,上述技术方案具有如下优点:
[0021]
a)引入基于分块判别的自适应空间正则项,当检测到目标被遮挡或者已出视野等情况时,空间惩罚系数通过精细的划分使得滤波器保留更多的正确样本,对遮挡区域作出精准的惩罚,有效避免了滤波器被污染。
[0022]
b)深度估计算法的引入使得跟踪器对于低分辨度图像序列有更好的适应性和准
确度,可有效的区分跟踪框中的前景和背景,提升分类器的性能。
[0023]
c)滤波器设置的正方形区域作为搜索区域,其中w和h分别代表跟踪框的宽和高,远大于传统相关滤波器,因此跟踪器具备一定的目标丢失后重新捕获的能力,也可更好的跟踪快速运动目标。
附图说明
[0024]
图1是融合深度估计的初始惩罚权重网络结构图;
[0025]
图2是遮挡和出视野可以限定的八个方向示意图;
[0026]
图3是目标在分块区域内发生遮挡后峰值响应发生变化示意图;
[0027]
图4是pbasf跟踪器在otb

2013数据集几种挑战属性上与其他跟踪器的跟踪性能对比图;
[0028]
图5是pbasf算法与基准算法srdcf跟踪效果定性对比图;
[0029]
图6是pbasf与基准算法srdcf的逐帧中心位置误差对比图。
具体实施方式
[0030]
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
[0031]
本发明提出一种基于分块判别的自适应时空正则化目标跟踪算法,它包括:
[0032]
s1、视频或图像序列输入后,获取第一帧中被跟踪目标的信息,初始化跟踪目标框;
[0033]
s2、获取首帧输入图像的深度估计结果,将得到的结果进行增强和归一化处理,建立自适应空间正则项初始化权重;
[0034]
s3、将跟踪目标框划分为四个子区域,每个区域内分别设置一个子滤波器,当出现遮挡或出视野等强干扰时,在对应子区域上施加一个空间惩罚系数,每个子区域内的惩罚权重都可根据目标当前状态进行自适应调整;
[0035]
s4、训练分类器;基于分块判别自适应时空正则化的相关滤波目标跟踪的最终分类器训练公式为:
[0036][0037]
其中,第一项是训练数据x=[x1,x2,...,x
k
]和滤波器f=[f1,f2,...,f
k
]进行相关计算后与理想高斯响应y进行最小化的岭回归项,第二项是空间正则项,包含了基于深度感知的初始参考权重;第三项试图使自适应空间权重φ更加接近于分块感知参考权重φ
r
,第四项是时间正则项;转到步骤s5;
[0038]
s5、输入第t+1帧图像,使用方向交替乘子法计算目标函数的全局最优解即跟踪目标框的位置信息,输出跟踪结果,重复上述步骤3至步骤6直到跟踪结束。
[0039]
参阅图1所示,为融合深度估计的初始惩罚权重网络结构图。目标在首帧中的位置由数据集或人为给定,在获取视频序列及目标在首帧中的位置信息后,对给定的目标区域进行深度估计,整个深度估计网络采用编码器

解码器的架构,输入的目标区域图像通过
mobilnet模型提取为7*7*1024的特征,接着,深度估计网络中使用5*5的卷积来进行降维,解码器部分通过五次插值上采样得到224*224*31的特征,为了对场景深度更准确的表征,其中三次上采样在得到结果后与编码器的部分进行了特征融合,最终得到深度估计结果,而后,将结果按照式(2)进行归一化:
[0040][0041]
其中,s表示深度估计网络输出的结果在二维平面内的集合,(x,y)表示其中某一像素点处的位置,min(s)和max(s)分别代表深度估计网络输出结果的最小值及最大值,得到归一化的深度估计结果s'后,对其进行处理和裁剪,得到与基准算法srdcf中的空间正则权重w大小相等的深度感知结果s”,其中目标前景部分s”取值接近于0,目标背景区域s”取值接近于1。最后,通过式(3)即可建立与目标密切联系的深度感知化初始参考权重φ:
[0042]
φ=w

s
″ꢀꢀꢀꢀ
(3)
[0043]
本发明在滤波器的深度感知初始惩罚权重基础上,为了让跟踪器更好的应对遮挡、出视野等干扰因素挑战,使空间正则项自适应的调整滤波器惩罚权重,引入了输入图像分块判别的模式来对滤波器惩罚矩阵自适应的进行调整。参阅图2所示,遮挡和出视野可以限定的八个方向示意图。目标跟踪任务中遮挡和出视野等不利因素的出现可限定为图中所示的八个方向。
[0044]
如图3所示,为目标在分块区域内发生遮挡后峰值响应发生变化示意图。将跟踪框区域φ
r
划分为φ1、φ2、φ3、φ4,每个区域中单独设置子滤波器,其宽和高分别为φ
r
宽和高的3/8,位置靠近与中心区域,子滤波器的位置与大小比例相对于整体跟踪目标框固定不变。当目标发生遮挡时,子滤波器内的峰值响应将发生显著变化。引入峰值旁瓣比(psr)来判断不同子滤波器的响应健壮程度,对每个子滤波器的峰值旁瓣比设定阈值θ,当满足阈值设定后即对φ
r
中对应区域施加一个滤波器系数惩罚,降低滤波器对该区域的学习,有效避免滤波器引入错误信息。峰值旁瓣比被定义为:
[0045][0046]
其中,y
max
代表相关滤波器中最大的峰值响应,μ
sl
和σ
sl
分别代表了相关滤波器中除去响应最大处峰值外的其他旁瓣的均值与方差。当峰值旁瓣比数值越大时,代表当前所跟踪的目标越可靠;相反,较小的峰值旁瓣比数值表明当前的目标可能正在经历被遮挡等强烈干扰的影响。
[0047]
本发明在经典srdcf算法的基础上引入时间正则机制,建立相邻两帧之间滤波器的联系,引入在线被动攻击算法,当目标未受到强干扰时增强对当前样本的学习,使跟踪器更加的积极主动;当目标受到污染时,跟踪器减少对当前目标的学习,更多的保留先前样本,从而有效的解决滤波器退化的问题。
[0048]
本发明基于分块判别自适应时空正则化的相关滤波目标跟踪的最终分类器训练公式为:
[0049][0050]
式中,x
k
是第k个通道上当前帧提取的目标特征,y是目标在滤波器下理想的高斯
响应,μ是时间正则项参数,k是特征提取阶段的总通道数,f是当前帧训练得到的滤波器,f
t
‑1表示上一帧中的滤波器模板,λ1、λ2是正则化参数,argmin运算是求取目标函数取最小值时的变量值,x=[x1,x2,...,x
k
]和滤波器f=[f1,f2,...,f
k
]进行相关计算后与理想高斯响应y进行最小化的岭回归项,第二项是空间正则项,包含了基于深度感知的初始参考权重φ;第三项是试图使自适应空间权重φ更加接近于分块感知参考权重φ
r
,当目标发生遮挡时,对遮挡部分增大滤波器惩罚权重,使得模型对有效信息进行学习,并避免滤波器受到污染;第四项是基于时空上下文(stc)算法和在线被动攻击(pa)算法的时间正则项。
[0051]
本发明中训练函数为凸函数,使用方向交替乘子法(admm)迭代来获取函数的全局最优解,计算速度相较于原始基准算法srdcf大幅度提高。引入辅助变量g=f来构造限制等式,然后将式(1)写为增广拉格朗日形式,如式(5)中所示:
[0052][0053]
式中,γ和η分别代表了步进参数及拉格朗日乘子,φ是包含深度感知的初始空间正则权重,此处令可将式(5)重写为如下式(6)所示:
[0054][0055]
式(6)可以通过使用方向交替乘子法进行求解,通过迭代求解每个子问题的闭式解,最终可得到训练函数的全局最优解,所需求解的子问题如下式(7)所示:
[0056][0057]
本发明中不同子区域对应的空间惩罚权重根据目标状态自适应的调整,可以做到精确的识别部分遮挡和出视野,从而使滤波器尽可能的学习到正确信息,避免被污染或产生跟踪漂移。
[0058]
实验结果与分析
[0059]
为了对算法进行评估,将本发明中的pbasf算法在otb

2013和otb

2015数据集中进行测试,并与srdcf算法进行比较。数据集中每个视频序列都包含有多个不同属性的挑战因素,例如:光照变化、遮挡、尺度缩放、形变、复杂背景、低分辨率、运动模糊、旋转、出视野等共11种困难跟踪场景,可以满足对跟踪器的测试需求。
[0060]
实验环境与参数
[0061]
本发明中实验采用的操作系统为windows10,pbasf跟踪器在基于intel i7

7700cpu,主频3.6ghz,8gb内存的pc上机运行。本发明的算法在matlab2017a软件上实现。在定位上,使用hog、cn以及gray特征对目标进行表征。在尺度估计上,单独训练一个包含五个尺度并仅使用hog特征的尺度滤波器,基于响应图的得分最大值确定最佳的尺度。
[0062]
性能评估
[0063]
参阅图4所示,为pbasf跟踪器在otb

2013数据集上与其他跟踪器的性能对比图。纵坐标为不同跟踪器在某属性上的距离精度,即中心位置误差在20个像素点以内的帧数占总测试帧数的百分比;横坐标展示了参与对比的跟踪器,测试在数据集中所有包含出视野、遮挡、低分辨度或尺度变化对应属性的序列上进行。中心位置误差是指跟踪器求得的目标中心位置与实际目标中心位置的欧氏距离,其值越小说明跟踪器的性能越好。所述的pbasf跟踪器在这些属性的对比中都取得了最佳的效果。在目标出视野这一属性中pbasf跟踪器相较于第二名的跟踪器bacf提升7.1%,在抗遮挡性能上,相较于基准算法srdcf提升了6%,这主要是得益于基于分块判别的自适应空间正则项的引入。
[0064]
本发明展示了pbasf跟踪器与其他8种先进跟踪器在otb

2013数据集上不同挑战属性下的成功率对比,表1中列出的数据为测试序列中重叠率超过50%的帧数占总测试帧数的百分比,成功率是指跟踪器求得的跟踪目标框与实际目标位置框两者相交的面积与两者相并的面积之比,通常该比值超过50%时即认定为跟踪成功。数据如表1中所示,各项属性中最佳跟踪器的结果已经被加粗显示。
[0065]
表1 pbasf跟踪器在otb

2013数据集中与其他跟踪器在不同挑战属性上的成功率精度(%)及总体距离精度(%)对比
[0066][0067]
本发明中所提出的pbasf算法在otb2015数据集中在距离精度上达到了88.4%,比目前先进的基于手工特征的dcf跟踪器eco

hc高出2.3%,相比于基准算法srdcf精度提高了7.9%,相比基准算法的改进版本srdcfdecon精度提升了4.5%;在成功率精度上达到了82%,比基于手工特征的先进dcf跟踪器eco

hc提高2.8%,相比于基准算法srdcf成功率精度提高了7.3%,相比基准算法的改进版本srdcfdecon成功率精度提升了2.9%。
[0068]
本发明取消了srdcf算法原有的高斯

赛德尔求解方式,改用admm算法进行迭代求解,子滤波器仅计算峰值旁瓣比,不会额外增加其他计算量,算法速度相较于基准算法srdcf提升了4倍以上,达到了22.8fps。算法在otb

2013数据集上与其他算法的平均运行速
度对比如表2所示:
[0069]
表2 跟踪器平均速度对比
[0070][0071]
综合以上的实验结果可以看出,在srdcf算法的基础上添加深度感知的基于分块自适应的空间正则项和时间感知项后,所提出的pbasf算法在跟踪精度和成功率上都有大幅提高,对不同的挑战属性都有着较好的适应能力,且运行速度基本满足实时性的要求。
[0072]
定性比较
[0073]
参阅图5所示,为pbasf算法与基准算法srdcf跟踪效果定性对比图。pbasf算法与原始srdcf算法在测试视频序列bolt、ironman、soccer、lemming中的定性对比结果。实线框为改进算法跟踪结果,虚线框代表原始srdcf跟踪结果。在视频序列bolt中,srdcf算法在目标搜索范围内存在着一定的局限性,无法有效应对快速运动的挑战,在第10帧之后迅速丢失目标并无法找回;在ironman视频序列中,光照变化十分强烈,且目标不断旋转,srdcf算法对于目标特征的表征能力仍有局限性,在人物头部旋转后无法跟踪目标;在soccer序列中,改进算法由于深度估计网络的引入使得应对背景相似干扰更加鲁棒;lemming视频序列中目标的尺度发生变化且多次被遮挡,原始srdcf跟踪器由于遮挡的干扰而导致跟踪漂移,pbasf由于分块判别空间正则项的引入避免了跟踪器被污染,也使得尺度估计更加出色。
[0074]
参阅图6所示,为pbasf与基准算法srdcf的逐帧中心位置误差对比图。pbasf跟踪器和srdcf跟踪器在bolt、girl2测试序列上的逐帧中心位置误差对比结果,在bolt测试序列上pbasf算法可以持续准确稳定的对目标进行跟踪;在girl2序列的逐帧中心位置误差结果可以反映出pbasf算法在目标出现于附近时拥有重新捕捉目标的能力,这得益于更大的搜索范围和分块判别空间正则化有效的避免了滤波器受到污染。由图5和图6中定性对比图结果可知,本发明提出的算法显著提高了基准算法的跟踪准确度和稳定性。
[0075]
本发明提出的pbasf算法,在srdcf算法的基础上进行了多项高效的改进,基于分块跟踪的自适应空间正则化权重使得对出视野和遮挡情况下滤波器被污染的情况得到了有效的抑制,基于深度感知的前景背景区分技术以及多种互补特征对目标进行的建模,改善了目标对光照变化、低分辨度、复杂背景等干扰的影响;而后,通过时间正则项的引入,对目标形变和快速运动产生更好的稳定性;最后,本发明的算法经过公式推导可以使用admm算法求得封闭解,大幅提升了跟踪速度;通过训练独立的尺度滤波器,使得算法对于尺度变化表现更好。
[0076]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
或“包含
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
[0077]
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1