本发明涉及视觉目标跟踪技术领域,特别是涉及一种基于尺度自适应和遮挡检测的视觉目标跟踪方法。
背景技术:
视觉目标跟踪是计算机视觉中一项具有挑战性的任务,它被广泛应用于视频监控、人机交互、医学成像和机器人学。视觉目标跟踪在视频的第一帧给出目标的位置和边界框,然后估计之后每一帧的目标位置和边界大小。由于目标在视频中容易发生外观变化,诸如尺度变化、遮挡、光照变化、旋转等,因此现阶段还没有任何一种目标跟踪方法可以适应于所有的跟踪场景。
目前在视觉目标跟踪研究中,使用的特征主要是手工设计特征,如梯度直方图(histogramoforientationgradients,hog)特征、颜色名称(colornames,cn)特征等,和单层或少层卷积特征,它们对样本没有足够强的表示能力。同时,大多数的视觉目标跟踪方法都采用固定大小的边界框来跟踪目标,不能解决尺度变化的问题。此外,在处理目标遮挡的问题上,现存的视觉目标跟踪方法缺乏一种能够有效检测遮挡的机制来判断目标遮挡的发生,进而避免跟踪模板的污染和算法计算复杂度的提高,实现对遮挡的处理和目标位置的重新确定。
技术实现要素:
本发明所要解决的技术问题是提供一种基于尺度自适应和遮挡检测的视觉目标跟踪方法,能够解决目标尺度变化和遮挡的问题,进而提高视觉目标跟踪的精确度和鲁棒性。
本发明解决其技术问题所采用的技术方案是:提供一种基于尺度自适应和遮挡检测的视觉目标跟踪方法,包括以下步骤:
(1)根据上一帧确定的目标位置和尺寸,在当前帧裁剪出图像块,并提取不同层的卷积特征作为样本特征图;
(2)在每一层样本特征图上采用核相关滤波方法得到响应图,然后将不同层的响应图线性叠加得到响应总图,其最大值所对应的位置即为当前帧的目标位置;
(3)在目标位置处采集不同尺寸的样本,并调整至相同尺寸,经过尺度滤波器得到尺度响应,其最大值对应的尺度即为当前帧的最佳尺度;
(4)计算响应总图的峰值旁瓣比,判断目标是否发生遮挡;
(5)当目标不发生遮挡时,不更新目标位置,当目标发生遮挡时,利用时空上下文模型重新确定目标位置;
(6)更新模型,为下一帧目标位置和尺寸的确定做准备。
所述步骤(1)中的提取不同层的卷积特征具体为:将裁剪的图像块输入预训练的vggnet-19卷积神经网络,分别提取conv1-2,conv2-2,conv3-4,conv4-4和conv5-4层的卷积特征作为样本的特征图,每一层的特征图的尺寸相同。
所述步骤(2)具体为:利用上一帧第l层的样本特征图x构建非线性岭回归模型,学习核相关滤波器w;在当前帧到来时,同样提取第l层的样本特征图z,进而求得该层的响应图fl;采用将fl线性叠加的方法得到响应总图f,其最大值的位置即为当前帧的目标位置;所述线性叠加的方法为:
所述步骤(3)具体为:首先在上一帧的目标位置处采集n个样本,n为奇数,每个样本的尺寸为rrp×rrq,其中,p×q表示上一帧的目标尺寸,rr表示集合r中第r个元素,
所述步骤(4)具体为:计算响应总图f的峰值旁瓣比,
所述步骤(5)中时空上下文模型为:
所述步骤(6)中更新模型包括更新核相关滤波、尺度和时空上下文模型。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明使用了比手工设计特征和单层或少层卷积特征有更强表示能力的多层卷积特征来表示样本,融入了尺度自适应机制,提出了新的目标遮挡检测和解决的方案。本发明和传统方法相比能够解决目标尺度变化和遮挡的问题,进而提高视觉目标跟踪的精确度和鲁棒性。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于尺度自适应和遮挡检测的视觉目标跟踪方法,如图1所示,包括以下步骤:根据上一帧确定的目标位置和尺寸,在当前帧裁剪出图像块,并提取不同层的卷积特征作为样本特征图;在每一层特征图上采用核相关滤波方法得到响应图,然后将不同层的响应图线性叠加得到响应总图,其最大值所对应的位置即为当前帧的目标位置;在目标位置处采集不同尺寸的样本,并调整至相同尺寸,经过尺度滤波器得到尺度响应,其最大值对应的尺度即为当前帧的最佳尺度;计算响应总图的峰值旁瓣比,判断目标是否发生遮挡;当目标不发生遮挡时,不更新目标位置,当目标发生遮挡时,利用时空上下文模型重新确定目标位置;更新模型,为下一帧目标位置和尺寸的确定做准备。具体如下:
步骤1、根据上一帧确定的目标位置和尺寸,在当前帧裁剪出图像块,将图像块做预处理操作:首先将图像块尺寸调整为225×225像素大小,然后求出所有像素点的像素均值,再用每个像素点的像素值减去像素均值得到归一化的图像块。将预处理后的图像块输入已去除全连接层和分类层的预训练的vggnet-19卷积神经网络,分别提取conv1-2,conv2-2,conv3-4,conv4-4和conv5-4层的卷积特征作为样本的特征图,每一层特征图的尺寸均为mnd。
步骤2、在每一层特征图上采用核相关滤波方法得到响应图,然后将不同层的响应图线性叠加得到响应总图,其最大值所对应的位置即为当前帧的目标位置。具体步骤如下:
步骤2.1、在当前帧目标位置处采集训练样本,训练核相关滤波器。x为训练样本第l层的特征图,w为对应层的核相关滤波器,其它各层类似。我们通过最小化带有l2约束的平方误差来求解核相关滤波器w:
其中,||·||表示l2范数;·表示内积;
其中,
步骤2.2、当下一帧到来时,在上一帧目标位置处采集测试样本(z为测试样本第l层的特征图),通过前一帧训练的该层的核相关滤波器,求得该层的响应图
其它层响应图的求解方法类似。
步骤2.3、将不同层的响应图fl线性叠加得到响应总图
步骤3、在目标位置处采集不同尺寸的样本,并调整至相同尺寸,经过尺度滤波器得到尺度响应,其最大值对应的尺度即为当前帧的最佳尺度。具体步骤如下:
步骤3.1、首先在当前帧的目标位置处采集n(n为奇数)个样本,每个样本的尺寸为rrp×rrq,其中,p×q表示上一帧的目标尺寸,rr表示集合r中第r个元素,
步骤3.2、用尺度特征图训练尺度滤波器。通过最小化下面的损失函数来求解尺度滤波器:
其中,*表示循环相关操作;wsi是尺度滤波器的第i通道,其维度与xsi相同;ys是尺度高斯标签,
步骤3.3、当下一帧到来时,在上一帧的目标位置处同样采集n个不同尺寸的样本,得到待检测的尺度特征图zs,经过上一帧训练得到的尺度滤波器,得到尺度响应:
进而得到当前帧的最佳尺度
步骤4、计算响应总图的峰值旁瓣比,判断目标是否发生遮挡。具体步骤如下:计算响应总图f的峰值旁瓣比,
步骤5、当目标不发生遮挡时,不更新目标位置,当目标发生遮挡时,利用时空上下文模型重新确定目标位置。具体步骤如下:
步骤5.1、在贝叶斯框架下建立目标可能出现位置的置信图m(t)=p(t|o),其中,
其中,p(t|s(c),o)是条件概率,p(s(c)|o)是上下文先验概率。
步骤5.2、依次建立条件概率模型、上下文先验概率模型和置信图模型。首先建立条件概率模型,它指明了目标位置t和上下文c之间的空间上下文模型,即
p(t|s(c),o)=hsc(t-c)(8)
其中,hsc为空间上下文模型。然后建立上下文先验概率模型,它指明了局部上下文的外观,即
p(s(c)|o)=i(c)wσ(c-t*)(9)
在这里权重函数
其中,b是正则化参数,γ是尺度参数,δ是形状参数。
步骤5.3、求解空间上下文模型,并得到时空上下文模型,进而得到目标位置。将公式(8)、(9)和(10)带入公式(7),有
其中,
进而求得空间上下文模型为
在第t-1帧,我们求得空间上下文模型为
因此,在第t帧的最佳目标位置可以表示为
步骤6、更新核相关滤波、尺度和时空上下文模型,为下一帧目标位置和尺寸的确定做准备。具体步骤如下:更新核相关滤波模型:xt+1=(1-β)xt+βxt+1,αt+1=(1-β)αt+βαt+1,β是学习率;更新尺度模型:
步骤7、在视觉目标跟踪领域的标准测试集otb-50上对提出的跟踪方法进行测试,做出定量和定性分析,并与其它跟踪方法进行比较。
不难发现,本发明使用了比手工设计特征和单层或少层卷积特征有更强表示能力的多层卷积特征来表示样本,融入了尺度自适应机制,提出了新的目标遮挡检测和解决的方案。本发明和传统方法相比能够解决目标尺度变化和遮挡的问题,并在视觉目标跟踪的精确度和鲁棒性上都得到了提高。