一种基于深度残差网络特征的视觉目标跟踪方法与流程

文档序号:17744717发布日期:2019-05-24 20:33阅读:236来源:国知局
一种基于深度残差网络特征的视觉目标跟踪方法与流程

本发明属于目标跟踪技术领域,具体涉及一种基于深度残差网络特征的视觉目标跟踪方法。



背景技术:

人工智能的应用非常广泛,涵盖很多技术领域,主要包括计算机视觉、自然语言处理、认知与推理、机器人学、博弈与伦理、机器学习等。视觉是人脑最主要的信息来源,也是进入人工智能这个殿堂的大门。人的大脑皮层活动,大约70%是在处理视觉相关信息。计算机视觉是以图像(视频)为输入,研究图像信息组织、物体和场景识别等内容,进而对事件给予解释,从而实现对环境的表达和理解。

目标跟踪作为计算机视觉领域的基础问题之一,一直是计算机视觉领域研究的热点。目标跟踪是指对图像序列中运动目标进行检测、提取和识别,获得运动目标的运动参数,如位置、速度、加速度和运动轨迹等,从而对运动目标的行为进行理解,以完成更高一级的任务。根据观测模型不同,目标跟踪算法可分为生成式(generative)模型算法和判别式(discriminative)模型算法两类。生成式模型算法通过模板匹配,选取最相似的候选区域作为跟踪结果,该方法着眼于对目标本身的刻画,忽略背景信息,在目标自身变化剧烈或者被遮挡时容易产生漂移。判别式模型算法通过训练一个分类器来区分目标与背景,选择置信度最高的候选样本作为预测结果,由于跟踪算法精度和速度的限制,仍然制约着跟踪算法在实际场景中的应用。



技术实现要素:

本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于深度残差网络特征的视觉目标跟踪方法,通过深度残差网络的特征层提取目标特征,自适应地对权重参数进行选择,从而对提取的目标特征进行加权,算法精确度和成功率较高,易于在实际场景中推广应用,实现目标的鲁棒跟踪。

为解决上述技术问题,本发明采用的技术方案是:一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于,该方法包括以下步骤:

步骤一、选取深度残差网络的特征层并计算每个特征层对应的权重:在经过标注的公开数据集中,利用深度残差网络resnet-n中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络cnn1,卷积神经网络cnn1由输入层i1、卷积层c1、池化层p1、卷积层c2、池化层p2、卷积层c3、池化层p3、全连接层f和输出层o1构成,待跟踪图像序列经过卷积神经网络cnn1后,输出值即为特征层l1、特征层l2和特征层l3;

利用经过标注的公开数据集、特征层l1、特征层l2和特征层l3构造第二训练样本,训练全连接网络fc1,全连接网络fc1由输入层i′1、全连接层f1、全连接层f2、全连接层f3和输出层o′1构成,待跟踪图像序列、特征层l1、特征层l2和特征层l3经过全连接网络fc1后,输出值即为特征层l1对应的权重γ1、特征层l2对应的权重γ2和特征层l3对应的权重γ3;

步骤二、第一帧实际输入图像的特征提取:利用人工框选目标的方式对第一帧实际输入图像的目标进行框选,将实际拍摄且经过框选后的第一帧实际输入图像利用深度残差网络resnet-n进行特征提取,提取出深度残差网络resnet-n中特征层l1输出的特征x11、深度残差网络resnet-n中特征层l2输出的特征x12和深度残差网络resnet-n中特征层l3输出的特征x13;

步骤三、构建第一帧实际输入图像的特征的响应和初始位置滤波器:通过高斯函数构建特征x11的响应值y11,通过高斯函数构建特征x12的响应值y12,通过高斯函数构建特征x13的响应值y13;

根据公式构建初始位置滤波器其中,i为特征的对应编号且i=1,2,3,为y1i的傅里叶变换,z1i为第二帧实际输入图像对应特征x1i的估计特征且z1i=x1i,||·||表示2-范数,f-1为傅里叶逆变换,为x1i的共轭,的傅里叶变换,为z1i的傅里叶变换,⊙为点乘运算,σ和λ为常数;

步骤四、第一帧实际输入图像的尺度采样及fhog特征提取:依据经过框选后的第一帧实际输入图像的目标中心位置,对第一帧实际输入图像的框选目标图像进行尺度采样,得到第一帧实际输入图像的m种不同尺度的目标样本,并将第一帧实际输入图像的m种不同尺度的目标样本的大小变换为大小统一的目标样本,对每个大小统一的目标样本进行31维fhog特征提取,并把每个大小统一的目标样本的所有fhog特征串联成一个特征向量,该特征向量的长度为lf,其中,m为不小于3的奇数;

步骤五、构建初始尺度滤波器:根据公式构建初始尺度滤波器其中,l为特征向量的维度编号且l=1,2,...,lf,g1为通过高斯函数构建的第一帧实际输入图像的响应值的傅里叶变换,为g1的共轭,为第一帧实际输入图像的目标样本的第l维特征的傅里叶变换,λ'为常数;

步骤六、第二帧实际输入图像的特征提取:将实际拍摄的第二帧实际输入图像利用深度残差网络resnet-n进行特征提取,提取出深度残差网络resnet-n中特征层l1输出的特征x21、深度残差网络resnet-n中特征层l2输出的特征x22和深度残差网络resnet-n中特征层l3输出的特征x23;

步骤七、位置滤波:利用初始位置滤波器对深度残差网络resnet-n中特征层l1输出的特征x21、深度残差网络resnet-n中特征层l2输出的特征x22和深度残差网络resnet-n中特征层l3输出的特征x23进行位置滤波,获取特征x2i的位置滤波响应图,特征x2i的位置滤波响应图的大小为s×t,s为位置滤波响应图的行向像素数,t为位置滤波响应图的列向像素数;

步骤八、位置滤波响应图的加权及目标定位:根据公式对三个特征的位置滤波响应图进行加权得到加权后的位置滤波响应图并计算目标的中心位置cuv,获取以目标的中心位置cuv为中心的目标图像,实现目标定位,其中,c为像素点的响应值,为第i个特征的位置滤波响应图中第p行第q列像素点的响应值,p=1,2,...,s,q=1,2,...,t;

步骤九、目标图像的尺度采样及fhog特征提取:依据目标的中心位置cuv,对目标图像进行尺度采样,得到目标图像的m种不同尺度的目标样本,并将目标图像的m种不同尺度的目标样本的大小变换为大小统一的目标图像样本,对每个大小统一的目标图像样本进行31维fhog特征提取,并把每个大小统一的目标图像样本的所有fhog特征串联成一个目标特征向量,该目标特征向量的长度为lf;

步骤十、目标特征向量的尺度滤波及尺度估计:利用初始尺度滤波器分别对m个目标特征向量进行尺度滤波,响应值最大的点即对应当前实际输入图像中目标的精确尺度,实现当前实际输入图像的尺度估计;

步骤十一、初始位置滤波器和初始尺度滤波器的更新:对步骤七中的初始位置滤波器进行更新,并将更新后的位置滤波器带入步骤七,同时对步骤十中的初始尺度滤波器进行更新,并将更新后的尺度滤波器带入步骤十;

步骤十二、输入下一帧实际输入图像,将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。

上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤十一中将(1-η)x1i+ηx2i的值赋予x2i后,得到更新的x2i,将更新后的x2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器,其中,η为位置滤波器的学习率,y2i为通过高斯函数构建特征x2i的响应值,为y2i的傅里叶变换,z2i为第三帧实际输入图像对应特征x2i的估计特征且z2i=x2i,

上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤十一中令其中,的分子部分,b1为的分母中除去常数λ'的部分;

根据公式构建初始尺度滤波器的更新参考尺度滤波器的分子部分g2为通过高斯函数构建的第二帧实际输入图像的目标样本的傅里叶变换,为g2的共轭,为第二帧实际输入图像的目标样本的第l维特征的傅里叶变换;

根据公式构建初始尺度滤波器的更新参考尺度滤波器的分母中除去常数λ'的部分b20;

根据公式获取初始尺度滤波器的更新参考尺度滤波器

根据公式得到更新后的尺度滤波器其中,η'为尺度滤波器的学习率。

上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤一中卷积层c1、卷积层c2和卷积层c3均采用5×5的卷积核,池化层p1和池化层p2均采用4×4的池化窗口,池化层p3采用2×2的池化窗口;全连接层f1中的节点个数为1024,全连接层f2中的节点个数为256,全连接层f3中的节点个数为64。

上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤一中跟踪重叠率用overlap表示且其中,s1为跟踪计算得到的目标框面积,s2为手工标定的准确目标框面积。

上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:所述位置滤波器的学习率η的取值范围为0<η<0.2。

上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:所述尺度滤波器的学习率η'的取值范围为0<η'<0.2。

本发明与现有技术相比具有以下优点:

1、本发明利用深度残差网络resnet-n中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络cnn1,待跟踪图像序列经过卷积神经网络cnn1后,输出值即为特征层l1、特征层l2和特征层l3,特征层l1、特征层l2和特征层l3不在每组卷积层的分界处,适应性更强,提高跟踪效果,便于推广使用。

2、本发明利用经过标注的公开数据集、特征层l1、特征层l2和特征层l3构造第二训练样本,训练全连接网络fc1,全连接网络fc1由输入层i′1、全连接层f1、全连接层f2、全连接层f3和输出层o′1构成,待跟踪图像序列、特征层l1、特征层l2和特征层l3经过全连接网络fc1后,输出值即为特征层l1对应的权重γ1、特征层l2对应的权重γ2和特征层l3对应的权重γ3,能够针对不同视频,自适应地选取不同的特征层和对应的权重,可靠稳定,使用效果好。

3、本发明方法步骤简单,通过首帧实际输入图像构建初始位置滤波器和初始尺度滤波器,采用多尺度采样技术,在跟踪过程中,能够适应目标尺度变化,实现对目标尺度的精确估计,便于推广使用。

综上所述,本发明通过深度残差网络的特征层提取目标特征,自适应地对权重参数进行选择,从而对提取的目标特征进行加权,算法精确度和成功率较高,易于在实际场景中推广应用,实现目标的鲁棒跟踪,便于推广使用。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明方法的流程框图。

具体实施方式

如图1所示,本发明的一种基于深度残差网络特征的视觉目标跟踪方法,包括以下步骤:

步骤一、选取深度残差网络的特征层并计算每个特征层对应的权重:在经过标注的公开数据集中,利用深度残差网络resnet-n中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络cnn1,卷积神经网络cnn1由输入层i1、卷积层c1、池化层p1、卷积层c2、池化层p2、卷积层c3、池化层p3、全连接层f和输出层o1构成,待跟踪图像序列经过卷积神经网络cnn1后,输出值即为特征层l1、特征层l2和特征层l3;

利用经过标注的公开数据集、特征层l1、特征层l2和特征层l3构造第二训练样本,训练全连接网络fc1,全连接网络fc1由输入层i′1、全连接层f1、全连接层f2、全连接层f3和输出层o′1构成,待跟踪图像序列、特征层l1、特征层l2和特征层l3经过全连接网络fc1后,输出值即为特征层l1对应的权重γ1、特征层l2对应的权重γ2和特征层l3对应的权重γ3;

需要说明的是,不同视频具有的属性可能不同,包括sv(尺度变化)、iv(光照变化)、occ(目标遮挡)、def(目标形变)、mb(运动模糊)、fm(快速运动)、ipr(平面内旋转)、opr(平面外旋转)、ov(目标超出视野)、bc(背景杂波)和lr(低分辨率)等。因此,针对不同视频应该在resnet网络中选取不同的层进行特征提取,而且响应值融合时也应该选取不同的权重,这样才能保证每个视频的跟踪效果均为最好,利用深度残差网络resnet-n中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络cnn1,待跟踪图像序列经过卷积神经网络cnn1后,输出值即为特征层l1、特征层l2和特征层l3,特征层l1、特征层l2和特征层l3不在每组卷积层的分界处,适应性更强,提高跟踪效果,利用经过标注的公开数据集、特征层l1、特征层l2和特征层l3构造第二训练样本,训练全连接网络fc1,全连接网络fc1由输入层i′1、全连接层f1、全连接层f2、全连接层f3和输出层o′1构成,待跟踪图像序列、特征层l1、特征层l2和特征层l3经过全连接网络fc1后,输出值即为特征层l1对应的权重γ1、特征层l2对应的权重γ2和特征层l3对应的权重γ3,能够针对不同视频,自适应地选取不同的特征层和对应的权重,可靠稳定;公开数据集采用经过标注的公开数据集otb2015或vot2017。

本实施例中,步骤一中卷积层c1、卷积层c2和卷积层c3均采用5×5的卷积核,池化层p1和池化层p2均采用4×4的池化窗口,池化层p3采用2×2的池化窗口;全连接层f1中的节点个数为1024,全连接层f2中的节点个数为256,全连接层f3中的节点个数为64。

本实施例中,步骤一中跟踪重叠率用overlap表示且其中,s1为跟踪计算得到的目标框面积,s2为手工标定的准确目标框面积。

步骤二、第一帧实际输入图像的特征提取:利用人工框选目标的方式对第一帧实际输入图像的目标进行框选,将实际拍摄且经过框选后的第一帧实际输入图像利用深度残差网络resnet-n进行特征提取,提取出深度残差网络resnet-n中特征层l1输出的特征x11、深度残差网络resnet-n中特征层l2输出的特征x12和深度残差网络resnet-n中特征层l3输出的特征x13;

步骤三、构建第一帧实际输入图像的特征的响应和初始位置滤波器:通过高斯函数构建特征x11的响应值y11,通过高斯函数构建特征x12的响应值y12,通过高斯函数构建特征x13的响应值y13;

根据公式构建初始位置滤波器其中,i为特征的对应编号且i=1,2,3,为y1i的傅里叶变换,z1i为第二帧实际输入图像对应特征x1i的估计特征且z1i=x1i,||·||表示2-范数,f-1为傅里叶逆变换,为x1i的共轭,的傅里叶变换,为z1i的傅里叶变换,⊙为点乘运算,σ和λ为常数;

需要说明的是,位置滤波器采用核相关滤波器,可以判别被跟踪区域是目标还是背景,核函数的本质就是通过映射关系将特征从低维空间映射到高维空间,从而将低维空间中的线性不可分变为高维空间中的线性可分。核相关滤波器还引入循环矩阵实现了密集采样,同时利用矩阵循环矩阵在傅立叶空间可对角化等性质简化计算,显著提高跟踪速度。

步骤四、第一帧实际输入图像的尺度采样及fhog特征提取:依据经过框选后的第一帧实际输入图像的目标中心位置,对第一帧实际输入图像的框选目标图像进行尺度采样,得到第一帧实际输入图像的m种不同尺度的目标样本,并将第一帧实际输入图像的m种不同尺度的目标样本的大小变换为大小统一的目标样本,对每个大小统一的目标样本进行31维fhog特征提取,并把每个大小统一的目标样本的所有fhog特征串联成一个特征向量,该特征向量的长度为lf,其中,m为不小于3的奇数;

步骤五、构建初始尺度滤波器:根据公式构建初始尺度滤波器其中,l为特征向量的维度编号且l=1,2,...,lf,g1为通过高斯函数构建的第一帧实际输入图像的响应值的傅里叶变换,为g1的共轭,为第一帧实际输入图像的目标样本的第l维特征的傅里叶变换,λ'为常数;

需要说明的是,通过首帧实际输入图像构建初始位置滤波器和初始尺度滤波器,采用多尺度采样技术,在跟踪过程中,能够适应目标尺度变化,实现对目标尺度的精确估计。

步骤六、第二帧实际输入图像的特征提取:将实际拍摄的第二帧实际输入图像利用深度残差网络resnet-n进行特征提取,提取出深度残差网络resnet-n中特征层l1输出的特征x21、深度残差网络resnet-n中特征层l2输出的特征x22和深度残差网络resnet-n中特征层l3输出的特征x23;

步骤七、位置滤波:利用初始位置滤波器对深度残差网络resnet-n中特征层l1输出的特征x21、深度残差网络resnet-n中特征层l2输出的特征x22和深度残差网络resnet-n中特征层l3输出的特征x23进行位置滤波,获取特征x2i的位置滤波响应图,特征x2i的位置滤波响应图的大小为s×t,s为位置滤波响应图的行向像素数,t为位置滤波响应图的列向像素数;

步骤八、位置滤波响应图的加权及目标定位:根据公式对三个特征的位置滤波响应图进行加权得到加权后的位置滤波响应图并计算目标的中心位置cuv,获取以目标的中心位置cuv为中心的目标图像,实现目标定位,其中,c为像素点的响应值,为第i个特征的位置滤波响应图中第p行第q列像素点的响应值,p=1,2,...,s,q=1,2,...,t;

步骤九、目标图像的尺度采样及fhog特征提取:依据目标的中心位置cuv,对目标图像进行尺度采样,得到目标图像的m种不同尺度的目标样本,并将目标图像的m种不同尺度的目标样本的大小变换为大小统一的目标图像样本,对每个大小统一的目标图像样本进行31维fhog特征提取,并把每个大小统一的目标图像样本的所有fhog特征串联成一个目标特征向量,该目标特征向量的长度为lf;

步骤十、目标特征向量的尺度滤波及尺度估计:利用初始尺度滤波器分别对m个目标特征向量进行尺度滤波,响应值最大的点即对应当前实际输入图像中目标的精确尺度,实现当前实际输入图像的尺度估计;

步骤十一、初始位置滤波器和初始尺度滤波器的更新:对步骤七中的初始位置滤波器进行更新,并将更新后的位置滤波器带入步骤七,同时对步骤十中的初始尺度滤波器进行更新,并将更新后的尺度滤波器带入步骤十;

本实施例中,步骤十一中将(1-η)x1i+ηx2i的值赋予x2i后,得到更新的x2i,将更新后的x2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器,其中,η为位置滤波器的学习率,y2i为通过高斯函数构建特征x2i的响应值,为y2i的傅里叶变换,z2i为第三帧实际输入图像对应特征x2i的估计特征且z2i=x2i,

本实施例中,所述位置滤波器的学习率η的取值范围为0<η<0.2。

本实施例中,步骤十一中令其中,的分子部分,b1为的分母中除去常数λ'的部分;

根据公式构建初始尺度滤波器的更新参考尺度滤波器的分子部分g2为通过高斯函数构建的第二帧实际输入图像的目标样本的傅里叶变换,为g2的共轭,为第二帧实际输入图像的目标样本的第l维特征的傅里叶变换;

根据公式构建初始尺度滤波器的更新参考尺度滤波器的分母中除去常数λ'的部分b20;

根据公式获取初始尺度滤波器的更新参考尺度滤波器

根据公式得到更新后的尺度滤波器其中,η'为尺度滤波器的学习率。

本实施例中,所述尺度滤波器的学习率η'的取值范围为0<η'<0.2。

步骤十二、输入下一帧实际输入图像,将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。

本发明使用时,通过深度残差网络的特征层提取目标特征,自适应地对权重参数进行选择,从而对提取的目标特征进行加权,算法精确度和成功率较高,易于在实际场景中推广应用,实现目标的鲁棒跟踪。

以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1