一种基于卷积神经网络的视觉跟踪方法与流程

文档序号:11775843阅读:2632来源:国知局
一种基于卷积神经网络的视觉跟踪方法与流程

本发明属于运动目标视觉跟踪技术领域,涉及一种基于卷积神经网络的视觉跟踪方法。



背景技术:

随着社会的发展,视频监控起着越来越重要的作用,比如在军事领域、航空航天、人机交互、交通安全等方面,为了在交通领域更好的完成监控任务,采用计算机视觉的方法成为解决该问题的一个重要途径,而在跟踪过程中背景纷繁复杂,目会发生标被遮挡、形变以及光照变化等情况,使用通常的跟踪方法,特征描述能力难以满足跟踪过程中多种多样的复杂变化,从而导致跟踪器丢失目标。

因此人们迫切希望找到一种新的方法来解决在目标跟踪过程中的种种困难,随着深度学习的发展,卷积神经网络成了视觉领域一个无法替代的部分,利用卷积神经网络可以获取图像的结构性特征,这些特征相比之前的纹理、颜色等特征能更好的描述对象。比如中国专利申请号为201610579388.4“一种融合卷积神经网络的跟踪方法及系统”的专利申请中,通过预定的训练集对卷积神经网络进行预训练得到初步模型cnn1,接收用户输入的带有跟踪目标的视频流,通过微调技术对cnn1进行微调,得到cnn2,将最终模型cnn2替换tld算法中的分类器,从而自动对监控视频流中的跟踪目标进行识别及跟踪。还有中国专利申请号为201610371378.1“基于深度卷积神经网络特征融合的目标跟踪方法及系统”的专利申请中,通过卷积神经网络获取多种特征,通过滤波器方法计算每种特征的滤波器权重,根据权重获取目标当前的跟踪目标位置,计算每种特征当前帧的预测精度损失,对每种特征,建立在时间t内的稳定模型,通过稳定模型计算每个特征在当前帧的稳定性,根据每种特征的稳定性及累计的预测精度损失,更新每种特征的权重,重复以上步骤完成跟踪。由此可见卷积神经网络已经在视觉跟踪领域发挥着很重要的作用。

本发明提出了一种基于卷积神经网络的视觉跟踪方法,与传统的卷积神经网络进行视觉跟踪不同的是,本发明采用从卷积神经网络每个卷积层后提取特征图,进行m2dpca降维后,提取多层面的特征,多特征融合后输入到线性分类器中,再在粒子滤波的框架下进行跟踪,由于是提取多层面的特征,对特征的描述会更加准确,因此在很大程度上克服了跟踪过程中目标被遮挡和光照变化等难题,提高了特征的准确度,从而提高了跟踪精度。



技术实现要素:

本发明的目的在于克服了现有技术中的不足,提供一种基于卷积神经网络的视觉跟踪方法,克服了跟踪过程中目标被遮挡和光照变化等难题,提高了特征的准确度,从而提高了跟踪精度。

为了解决上述存在的技术问题,本发明是通过以下技术方案实现的:

一种基于卷积神经网络的视觉跟踪方法,该方法具体内容包括如下步骤:

步骤一,离线训练:利用cifar-10数据集对卷积神经网络进行离线训练,获得能够表达深度特征的能力;

步骤二,多特征融合:提取每层卷积层后的特征图,获得多种特征,进行多层特征融合;

步骤三,跟踪:在步骤一和步骤二的基础上使用粒子滤波方法完成跟踪。

进一步的,在步骤一中,所述利用cifar-10数据集对卷积神经网络进行离线训练就是将cifar-10数据集输入卷积神经网络中,使用前向传递和误差反向传导的方法来训练网络获得深度特征,并对网络进行微调,其具体内容包括以下步骤:

(1)将输入数据集图片输入一个6层卷积神经网络中;

(2)在6层卷积神经网络中,其中前5层为卷积层,最后一层为全连接层,每层都得到若干个特征图;卷积核的大小设定为5*5;

(3)采用最大池化方法;

(4)前四层的激活函数选择relu函数,第五层后的激活函数选择sigmoid函数。

进一步的,在步骤二中,所述提取每层卷积层后的特征图,获得多种特征,进行多层特征融合,其内容包括以下两个步骤:

(1)由于提取的特征图维数较高,要对特征图进行降维处理,采用m2dpca降维;

(2)对降维后的数据进行多特征融合。

所述采用m2dpca降维就是在最大限度保留特征的同时进行降维处理;其具体步骤如下:

(1)将每一个卷积层后的每一幅特征图划分成m×n个子图像;

(2)直接计算子图像的图像协方差矩阵;

(3)从方差最大化的角度找出最优投影方向集{x1,x2,…,xd};

(4)根据公式wk=(a-ai)xkk=1,2…d求出投影向量wk,即为得到的压缩向量,其中a为样本,ai为样本均值;

(5)将各个模块压缩的子图像向量拼接在一起完成压缩过程。

进一步的,所述对降维后的数据进行多特征融合,就是将卷积神经网络的各卷积层获得的深度特征进行多层特征融合;将每个卷积层后的特征图进行降维处理后根据公式(1)得到一个大的多维特征向量输入到svm分类器中,进行目标与背景的分类;

其中m(i)为降维后的特征向量。

由于采用上述技术方案,本发明提供的一种基于卷积神经网络的视觉跟踪方法,与现有技术相比具有这样的有益效果:

卷积神经网络是通过层层递进的方法进行前向传播,本发明提取各卷积层后的多层级特征图进行m2dpca降维后再进行特征融合,与中国专利申请号为201610371378.1的发明相比,本发明只提取卷积层后的特征图并且进行降维处理,从而在减少特征图的数量的同时降低维度,降低计算量,与中国专利申请号为201610579388.4的发明相比,本发明提取多层级的特征,包括低层的颜色、纹理等特征,还包括高层级的结构特征,应对目标跟踪中目标发生平移、旋转、和尺度变化时,或者在光照、遮挡和复杂背景干扰时比单一层的特征描述效果要好,从而提高跟踪的精度。

本发明克服了跟踪过程中目标被遮挡和光照变化等难题,特征描述能够满足跟踪过程中多种多样的复杂变化,不会导致跟踪器丢失目标,提高了特征的准确度,从而提高了跟踪精度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于卷积神经网络的视觉跟踪方法的流程示意图;

图2是卷积神经网络多特征融合的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

本发明所提出的一种基于卷积神经网络的视觉跟踪方法,其流程图如图1所示,现介绍每一步具体实现的方法:

步骤一,离线训练:利用cifar-10数据集对卷积神经网络进行离线训练,获得可以表达深度特征的能力。

步骤二,多特征融合:提取每层卷积层后的特征图,获得多种特征,进行多层特征融合。

步骤三,跟踪:在步骤一和步骤二的基础上使用粒子滤波方法完成跟踪。

一、离线训练

将cifar-10数据集输入卷积神经网络中,使用前向传递和误差反向传导的方法来训练网络获得深度特征,并对网络进行微调,具体内容包括以下部分:

(1)将输入数据集图片输入一个6层卷积神经网络中;

(2)其中前5层为卷积层,最后一层为全连接层,每层都得到若干个特征图;卷积核的大小设定为5*5;

(3)采用最大池化方法;

(4)前四层的激活函数选择relu函数,第五层后的激活函数选择sigmoid函数。

二、在线视觉跟踪

1获取训练样本

首先从要跟踪视频图像序列第一帧开始获取整个数据集,在首帧跟踪区域附近选取若干的负样本同时构成样本集输入到卷积神经网络。

2在线跟踪

判断是否为第一帧图像,如果为第一帧图像,则将整个序列集输入卷积神经网络中进行微调训练,提取每个卷积层后的特征图,其结构图如图2所示,进行多特征融合,并分为以下两个步骤进行:

(1)由于提取的特征图维数较高,要对特征图进行降维处理,采用m2dpca降维;m2dpca是融合moudlepca和2dpca的一种新方法,对于维数较大的样本,将每一个卷积层后的每一幅特征图划分成m×n个子图像;直接计算子图像的图像协方差矩阵;从方差最大化的角度找出最优投影方向集{x1,x2,…,xd};根据公式wk=(a-ai)xkk=1,2…d求出投影向量wk,即为得到的压缩向量,其中a为样本,ai为样本均值;将各个模块压缩的子图像向量拼接在一起完成压缩过程。

(2)对降维后的数据进行多特征融合。

特征图进行降维处理后根据线性融合公式

其中m(i)为降维后的特征向量

得到一个大的多维特征向量输入到svm分类器中,进行目标与背景的分类。在粒子滤波的框架下在目标周围播撒粒子,判断置信度最大的是否小于阈值α,如果是则说明发生了较大的偏差需要重新输入卷积神经网络进行处理,如果否,则重新获取一帧图片进行判断;如果判断输入的不是序列的第一帧,直接输入svm分类器中进行分类学习,在粒子滤波的框架下判断跟踪目标的位置。

本发明的主要创新之处当目标发生平移、旋转、和尺度变化时或者光照、遮挡和复杂背景干扰时,克服了单一特征对视觉跟踪的影响,采用提取各卷积层后的特征进行多特征的融合,能很好的适应目标的变化,使跟踪的准确性增强。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1