一种基于平行特征金字塔神经网络的目标跟踪方法与流程

文档序号:17624356发布日期:2019-05-10 23:29阅读:261来源:国知局
一种基于平行特征金字塔神经网络的目标跟踪方法与流程

本发明属于计算机视觉技术领域,具体为一种基于平行特征金字塔神经网络(pfpnet,parallelfeaturepyramidnetwork)的目标跟踪方法。



背景技术:

运动目标跟踪技术一直是计算机视觉领域的研究重点,其主要内容为在指定的视频序列中估计出运动目标在每帧中的位置。随着硬件性能的不断提升,这项技术在无人控制、智能安防、交通监管等领域中有着越来越多的应用。目标跟踪的核心技术在于紧跟随时间不断产生位置以及形态变化的目标。近几年来,基于机器学习的目标跟踪技术飞速的发展,已经能够实现简单场景下的目标实时跟踪,但目标外观随时间的变化,背景的复杂多变,多目标咬合等因素依旧会对跟踪效果有所影响。

目标跟踪技术的主体思路目前可被分为判别式和产生式两种。判别式目标跟踪算法将对目标的跟踪问题转换成对于跟踪目标和背景的分类问题,即通过一个二值分类器将被跟踪的目标和背景进行区分。判别式的目标跟踪结合了背景信息和被跟踪的目标信息,具有较强的鲁棒性高效性和精确性,但在判断前需要对大量的样本进行特征提取,所以很难满足实时性的要求。产生式的目标跟踪算法通过目标的表观特征来生成模型,随后再通过搜索候选目标来最小化重构误差,产生式的目标跟踪算法将跟踪重点放在了对目标本身的刻画上而忽略了背景信息,所以产生式的目标跟踪算法在目标为非刚性物体时,目标与场景中出现遮挡的情况下会出现漂移,从而影响跟踪的效果。在过去几年,以稀疏编码为代表的生成式的目标跟踪算法占据主要地位,但近年来,随着深度学习技术的兴起,以相关滤波和深度学习为代表的判别式目标跟踪算法正逐步成为主流。

相关滤波原本用于信号处理领域,其主要思想为根据找寻的滤波模板对下一帧的图像作卷积操作,通过判断得到的响应图的响应值来判断目标在下一帧的位置以及区域。根据这一思想,近几年来,有了很多的基于相关滤波的目标跟踪成果。最初的mosse算法首次将相关滤波引入目标跟踪,但由随机采样带来的正负样本数目不足使得检测效果不好。之后提出的csk算法通过循环位移结构增大了正负样本数目,解决了样本不足的难题,提高了跟踪的效率,但csk算法采用的是原始图像的灰度特征,容易受到复杂图像背景、目标背景颜色相似的影响。kcf算法采用了hog特征,体现了图像的边缘梯度信息,得到了比较好的效果。同时期还提出了增加颜色属性的cn相关滤波跟踪算法,cn算法采用自适应降维,将11维的颜色特征降低到2维,保证高效跟踪的同时提升了跟踪算法的性能。但cn算法和kcf算法为固定大小的卷积模板,从而使得算法缺乏尺度自适应功能。随后,基于多特征融合的samf算法被提出,samf算法将上述所涉及到的灰度特征、颜色属性、hog特征等进行了融合,得到了鲁棒性更高的结果,但samf算法由边界效应所带来的错误的超出图像边界的正负样本影响了分类性能。ds-kcf将图像深度信息特征与颜色特征融合,提出了基于深度尺度核相关滤波的实时目标跟踪算法。

深度卷积神经网络具有强大的特征提取功能,所以一经提出,就迅速在目标跟踪领域获得运用。deepsrdcf将vgg卷积神经网络所代表的卷积特征引入目标跟踪算法,提高了精度,随后又提出了c-cot算法,在deepsrdcf的单层神经网络的基础上实现了多层的神经网络的结合,更加充分的运用了深度特征,获得了优于deepsrdcf的效果。

鲁棒性良好的特征应当具有以下特点:首先应当具备很好的展现物体结构的细节信息特征,接着要有多层神经网络带来的高语义信息特征,最后还需要有丰富的上下文信息特征对目标遮挡、小目标等情况来进行良好的定位与分类。虽然引入了深度卷积神经网络可以提取出很好的特征,但目前提取的跟踪特征不够鲁棒。所以,需要设计一种具有更加优良鲁棒性特征的目标跟踪算法,能够充分的融合物体的细节信息特征,高级语义特征以及上下文信息特征,达到提升跟踪精度的目的。



技术实现要素:

针对现有技术中存在的问题和不足,本发明的目的旨在提供基于平行特征金字塔神经网络的目标跟踪方法。

为实现发明目的,本发明采用的技术方案如下:

一种基于平行特征金字塔神经网络(pfpnet,parallelfeaturepyramidnetwork)的目标跟踪方法,包括以下步骤:

步骤一:对于当前帧的图像,读取目标在当前帧的图像中的位置坐标(xt,yt)和区域(wt,ht),将目标区域(wt,ht)进行λ倍放大,得到放大后的目标区域(wp,t,hp,t),即(wp,t,hp,t)=λ(wt,ht),然后根据(xt,yt)和(wp,t,hp,t)对图像采样,得到样本集m;其中,xt为目标中心位置的横坐标,yt为目标中心位置的纵坐标,wt为目标区域的宽,ht为目标区域的高,wp,t为目标区域放大后的宽,hp,t为放大后目标区域的高;

步骤二:将样本集m输入到平行特征金字塔神经网络进行特征融合,得到网络中第q层的融合特征图,记为qm,qm有n维,表示qm中第n维的融合特征图;

步骤三:将进行快速傅里叶变换、对角化操作求取相关滤波器的参数;

步骤四:对步骤一得到的扩大后目标区域(wp,t,hp,t)进行多尺度缩放操作,得到多重候选区域(wp,t+1,hp,t+1),即(wp,t+1,hp,t+1)=α(wp,t,hp,t),α为缩放尺度,α的取值为{0.985,0.99,0.995,1,1.005,1.01,1.015};在多重候选区域(wp,t+1,hp,t+1)的基础上对下一帧的图像进行采样,得到7种不同缩放尺度下生成的样本集n={n1n2n3n4n5n6n7},其中,n1代表以0.985的缩放尺度得到的候选区域下进行采样得到的样本集,n2代表以0.99的缩放尺度下得到的候选区域下采样得到的样本集,n3、n4、n5、n6、n7依次类推;

步骤五:将样本集n={n1n2n3n4n5n6n7}输入到平行特征金字塔神经网络中进行特征融合,得到新的融合特征图,记为qn,qn=(qn1qn2qn3qn4qn5qn6qn7);其中,qn1代表样本集n1输入到平行特征金字塔神经网络进行特征融合得到的第q层的融合特征图,且qn1有n维,表示qn1中第n维的融合特征图;qn2代表样本集n2输入到平行特征金字塔神经网络进行特征融合得到的第q层的融合特征图,且qn2有n维,表示qn2中第n维的融合特征图;qn3、qn4、qn5、qn6、qn7依次类推;

步骤六:根据步骤三中得到的相关滤波器的参数对下一帧得到的融合特征图qn=(qn1qn2qn3qn4qn5qn6qn7)进行响应图的计算,得到其响应图,根据响应图的响应峰值确定目标在下一帧图像中的位置坐标(xt+1,yt+1)和区域(wt+1,ht+1);其中,xt+1为目标中心位置的横坐标,yt+1为目标中心位置的纵坐标,wt+1为目标区域的宽,ht+1为目标区域的高;

步骤七:重复上述步骤一到步骤六的操作,不断对下一帧图像进行处理,直到最后一帧,完成目标在所有图像帧中的位置坐标和区域确定,实现对目标的跟踪操作。

根据上述的基于平行特征金字塔神经网络的目标跟踪方法,优选地,步骤三中相关滤波器的参数的计算方法如下:

(1)对融合特征图进行快速傅里叶变换,将其从时域变换到频域,得到变换后的频域特征图,记为其中,代表n维频域特征图中的第k维;

(2)对进行向量化和对角化,得到对角矩阵将对角矩阵中的元素再重新组合得到新的对角矩阵记为dt;

(3)得到对角矩阵之后,按式(i)、式(ii)求取用于计算相关滤波器的参数的at和然后再按式(iii)、式(iv)计算相关滤波器的参数

其中,代表对角矩阵dt的转置矩阵,

at代表相关滤波器的参数的分母,

代表相关滤波器的参数的分子,

为高斯标签经过快速傅里叶变换和实数化后得到的标签,

w为空间正则化系数构造成的正则化矩阵,

wt代表正则化矩阵对应的转置矩阵,

bh为标准正交基组成的将相关滤波器的参数实数化的酉矩阵。

根据上述的基于平行特征金字塔神经网络的目标跟踪方法,优选地,步骤三和步骤五中所述的将样本集输入到平行特征金字塔神经网络进行特征融合的具体过程如下:

(a)、首先将样本集输入到空间金字塔池化(spp)模块,采用金字塔池化生成不同尺度但语义抽象等级相同的特征图,记为fh,其中,代表fh中第n-1维的特征图;

(b)、采用bottleneck模块对fh进行降维,生成低维特征图,记为fl,其中,代表fl中第n-1维的特征图;

(c)、将fh和fl通过msca模块实现不同深度上下文信息特征的融合,msca中的n取3,首先对特征图进行下采样,对特征图进行上采样,使得尺度相同,随后再将相同尺度的进行特征通道串联方式的结合,再经过1×1和3×3的卷积层进行卷积得到p1特征图;同理,的结合可以得到p2特征图,的结合可以得到p0特征图;p0、p1、p2构成了不同尺度的融合了细节特征、语义信息特征、上下文信息特征的平行特征图金字塔;

(d)、最后对p1、p2特征图进行上采样,使得p1、p2放大到和p0特征图尺度相同,最终再经过特征通道串联并列结合的方式得到q层的融合特征图。

根据上述的基于平行特征金字塔神经网络的目标跟踪方法,优选地,步骤六中所述响应图的计算过程如下:

将融合特征图qn=(qn1qn2qn3qn4qn5qn6qn7)进行快速傅里叶变换,使其从时域变换到频域,得到变换后的频域特征图然后分别将按照式(v)进行计算,得到变换后的响应图jn1、jn2、jn3...、jn7,找出响应图的响应峰值,响应峰值所在位置对应的坐标就是下一帧图像中目标的位置坐标(xt+1,yt+1);根据对应的目标位置点可以读出相应的扩大后的目标样本集区域,即为下一帧图像中扩大后的目标区域(wp,t+1,hp,t+1),将扩大后的目标区域(wp,t+1,hp,t+1)按1/λ的比率缩小,即得到下一帧图像中的目标区域(wt+1,ht+1);

其中,f-1为反傅里叶变换,

jnk为第k个候选样本对应的响应图,

代表矩阵点乘,

代表第k个候选样本对应的频域特征图。

与现有技术相比,本发明取得的有益效果为:

现有的目标跟踪方法大多采用传统的vgg神经网络提取特征,但是传统的vgg神经网络只在高层进行特征提取,忽略了低层的细节特征和目标与背景的上下文特征,这就造成了依靠传统vgg网络做目标跟踪时常常出现丢失跟踪目标,小目标跟踪不佳的情况。本发明使用平行特征金字塔(pfp)神经网络进行融合特征提取,平行特征金字塔(pfp)神经网络可以很好的对高层语义特征、低层细节特征、目标与背景的上下文特征进行提取并融合,能够得到更加鲁棒的特征,从而提升对小目标的跟踪精度,同时也大大避免了丢失跟踪目标的情况。

附图说明

图1为本发明目标跟踪方法的流程图;

图2为本发明中平行特征金字塔神经网络进行特征融合的过程图;

图3为本发明中msca模块处理过程的示意图。

具体实施方式

以下通过具体的实施例对本发明作进一步详细说明,但并不限制本发明的范围。

一种基于平行特征金字塔神经网络的目标跟踪方法(参见图1),包括以下步骤:

步骤一:对于当前帧的图像,读取目标在当前帧的图像中的位置坐标(xt,yt)和区域(wt,ht),将目标区域(wt,ht)进行λ倍放大,得到放大后的目标区域(wp,t,hp,t),即(wp,t,hp,t)=λ(wt,ht),然后根据(xt,yt)和(wp,t,hp,t)对图像采样,得到样本集m;其中,xt为目标中心位置的横坐标,yt为目标中心位置的纵坐标,wt为目标区域的宽,ht为目标区域的高,wp,t为目标区域放大后的宽,hp,t为放大后目标区域的高;

步骤二:将样本集m输入到平行特征金字塔神经网络进行特征融合,得到网络中第q层的融合特征图,记为qm,qm有n维,表示qm中第n维的融合特征图;

步骤三:将进行快速傅里叶变换、对角化操作求取相关滤波器的参数,其具体过程如下:

(1)对融合特征图进行快速傅里叶变换,将其从时域变换到频域,得到变换后的频域特征图,记为其中,代表n维频域特征图中的第k维;

(2)对进行向量化和对角化,得到对角矩阵将对角矩阵中的元素再重新组合得到新的对角矩阵记为dt;

(3)得到对角矩阵之后,按式(i)、式(ii)求取用于计算相关滤波器的参数的at和然后再按式(iii)、式(iv)计算相关滤波器的参数

其中,代表对角矩阵dt的转置矩阵,

at代表相关滤波器的参数的分母,

代表相关滤波器的参数的分子,

为高斯标签经过快速傅里叶变换和实数化后得到的标签,

w为空间正则化系数构造成的正则化矩阵,

wt代表正则化矩阵对应的转置矩阵,

bh为标准正交基组成的将相关滤波器的参数实数化的酉矩阵;

步骤四:对步骤一得到的扩大后目标区域(wp,t,hp,t)进行多尺度缩放操作,得到多重候选区域(wp,t+1,hp,t+1),即(wp,t+1,hp,t+1)=α(wp,t,hp,t),α为缩放尺度,α的取值为{0.985,0.99,0.995,1,1.005,1.01,1.015};在多重候选区域(wp,t+1,hp,t+1)的基础上对下一帧的图像进行采样,得到7种不同缩放尺度下生成的样本集n={n1n2n3n4n5n6n7},其中,n1代表以0.985的缩放尺度得到的候选区域下进行采样得到的样本集,n2代表以0.99的缩放尺度下得到的候选区域下采样得到的样本集,n3、n4、n5、n6、n7依次类推;

步骤五:将样本集n={n1n2n3n4n5n6n7}输入到平行特征金字塔神经网络中进行特征融合,得到新的融合特征图,记为qn,qn=(qn1qn2qn3qn4qn5qn6qn7);其中,qn1代表样本集n1输入到平行特征金字塔神经网络进行特征融合得到的第q层的融合特征图,且qn1有n维,表示qn1中第n维的融合特征图;qn2代表样本集n2输入到平行特征金字塔神经网络进行特征融合得到的第q层的融合特征图,且qn2有n维,表示qn2中第n维的融合特征图;qn3、qn4、qn5、qn6、qn7依次类推;

步骤六:根据步骤三中得到的相关滤波器的参数对下一帧得到的融合特征图qn=(qn1qn2qn3qn4qn5qn6qn7)进行响应图的计算,得到其响应图,根据响应图的响应峰值确定目标在下一帧图像中的位置坐标(xt+1,yt+1)和区域(wt+1,ht+1);其中,xt+1为目标中心位置的横坐标,yt+1为目标中心位置的纵坐标,wt+1为目标区域的宽,ht+1为目标区域的高;其中,所述响应图的计算过程如下:

将融合特征图qn=(qn1qn2qn3qn4qn5qn6qn7)进行快速傅里叶变换,使其从时域变换到频域,得到变换后的频域特征图然后分别将按照式(v)进行计算,得到变换后的响应图jn1、jn2、jn3...、jn7,找出响应图的响应峰值,响应峰值所在位置对应的坐标就是下一帧图像中目标的位置坐标(xt+1,yt+1);根据对应的目标位置点可以读出相应的扩大后的目标样本集区域,即为下一帧图像中扩大后的目标区域(wp,t+1,hp,t+1),将扩大后的目标区域(wp,t+1,hp,t+1)按1/λ的比率缩小,即得到下一帧图像中的目标区域(wt+1,ht+1);

其中,f-1为反傅里叶变换,

jnk为第k个候选样本对应的响应图,

代表矩阵点乘,

代表第k个候选样本对应的频域特征图;

步骤七:重复上述步骤一到步骤六的操作,不断对下一帧图像进行处理,直到最后一帧,完成目标在所有图像帧中的位置坐标和区域确定,实现对目标的跟踪操作。

其中,步骤三和步骤五中所述的将样本集输入到平行特征金字塔神经网络进行特征融合的具体过程如下(参见图2):

(a)、首先将样本集输入到空间金字塔池化(spp)模块,采用金字塔池化生成不同尺度但语义抽象等级相同的特征图,记为fh,其中,代表fh中第n-1维的特征图;

(b)、采用bottleneck模块对fh进行降维,生成低维特征图,记为fl,其中,代表fl中第n-1维的特征图;

(c)、将fh和fl通过msca模块实现不同深度上下文信息特征的融合(参见图3),msca中的n取3,首先对特征图进行下采样,对特征图进行上采样,使得尺度相同,随后再将相同尺度的进行特征通道串联方式的结合,再经过1×1和3×3的卷积层进行卷积得到p1特征图;同理,的结合可以得到p2特征图,的结合可以得到p0特征图;p0、p1、p2构成了不同尺度的融合了细节特征、语义信息特征、上下文信息特征的平行特征图金字塔;

(d)、最后对p1、p2特征图进行上采样,使得p1、p2放大到和p0特征图尺度相同,最终再经过特征通道串联并列结合的方式得到q层的融合特征图。

以上所述仅为本发明的较佳实施例而已,但不仅限于上述实例,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1