一种基于孪生网络进行特征融合的目标跟踪方法与流程

文档序号：16000693发布日期：2018-11-20 19:25阅读：1749来源：国知局

本专利涉及机器学习、图像处理领域，更具体的说，涉及目标跟踪、卷积神经网络、特征融合领域。

背景技术：

复杂背景下的目标跟踪技术是计算机视觉领域的核心研究课题之一，其涉及特征提取、目标识别、机器学习等多方面技术。先验知识不足是目标跟踪技术面临的最大挑战。在进行目标跟踪任务时，仅提供目标在视频第一帧中的位置信息，同时在目标跟踪过程中，会遇到目标被遮挡、光照变化、目标形变、旋转、运动模糊等一系列问题，这都极大增加了目标跟踪的难度。

从1955年目标跟踪概念被提出至今，目标跟踪方法层出不穷，但是很多方法在复杂背景下的目标跟踪效果仍然不够理想。传统方法一般是利用手工设计的特征进行目标建模从而完成目标跟踪的任务，不同特征从不同角度对目标进行描述，同时不同特征又各有其优缺点，例如颜色特征对目标形变具有较高的鲁棒性，而对颜色、光照变化较为敏感；Hog特征对颜色、光照变化不敏感，却对目标形变较为敏感。近年来，随着硬件计算性能的提升，深度学习方法得到广泛应用，一些研究者开始尝试结合深度神经网络设计目标跟踪算法，如 Bertinetto等人基于全卷积网络提出的端到端的方法SiameseFC以及Held等人基于深度回归网络提出的GOTURN跟踪器等。这些方法利用CNN特征对目标进行建模，但该特征受训练样本约束较大，若训练样本不够充分，将会影响对目标的建模效果，最终导致跟踪过程中目标丢失。

为了将目标跟踪应用于复杂场景中，我们需要设计出一种鲁棒性更好准确率更高的目标跟踪方法。

技术实现要素：

为了提升目标跟踪方法的鲁棒性，本发明提供一种基于孪生网络进行特征融合的目标跟踪方法，基于深度学习的特征融合策略，该方法通过对训练样本进行特征提取，并训练相关权重系数将不同的特征建模得到的表观模型进行融合，使得多个特征结合更为紧密，最终达到提升跟踪效果的目的。

本发明解决其技术问题所采用的技术方案是：

一种基于孪生网络进行特征融合的目标跟踪方法，包括孪生网络模型的训练过程和模型在目标跟踪场景中的应用；

所述孪生网络模型的训练过程如下：

步骤1.1：模型训练数据集的选取：根据目标跟踪的应用需求，我们选取包含目标的完整视频序列作为训练集；

步骤1.2：训练数据集的预处理：因为在目标跟踪过程中，输入模型的是一张只包含目标的图像块和一张包含目标以及目标周围背景的图像块，所以在模型训练前，需要对训练集进行预处理，生成符合网络输入要求的训练集；

步骤1.3：模型的训练：输入步骤1.2预处理的训练集进行训练，步骤如下：，

步骤1.3.1：为了提升训练模型的鲁棒性，采用随机读取的方式，每次读取多对图像块输入网络进行训练；

步骤1.3.2：利用孪生网络结构对一组图像块(x′,z′)分别提取CNN和HOG 特征，将这些特征记为x′HOG,x′CNN,z′HOG,z′CNN；

步骤1.3.3：利用步骤1.3.2所提取到的特征x＇HOG和x′CNN，生成两个用于匹配的特征模板，分别记为TempCNN和TempHOG，利用公式(1)求解模板，

F(T)＝‖Tx-y‖²+λ‖T‖² (1)

式中T表示模板Temp，y表示期望响应，表示相关滤波操作，为了防止过拟合，在式中加入了正则项λ‖T‖²。

求解得到

步骤1.3.4：根据TempCNN和TempHOG以及z′HOG和z′CNN，分别生成两个特征响应图，记为RespCNN和RespHOG，利用如下公式求得特征响应图，

RespCNN＝TempCNNz′CNN (2)

RespHOG＝TempHOGz′HOG (3)

步骤1.3.5：利用网络训练的相关权重融合响应图，将融合后的响应图记为 Respmerge，融合操作用式(4)表示，

Respmerge＝M(RespCNN,RespHOG) (4)

式中M为融合函数，其中的融合权重均由网络训练得到；

步骤1.3.6：在网络的最后设置逻辑斯谛回归层，优化最终的训练结果，根据坐标点的数据是否位于ground truth区域设置空间上的标签，1表示位于区域内， -1表示不在区域内；

训练模型使得损失函数取得最小值，记损失函数为l,

argmin∑il(M(RespCNN,RespHOG),Li) (6)

步骤1.4：模型获取：设置迭代次数,在模型迭代结束之后，取出最终迭代生成的模型作为目标跟踪时使用的跟踪模型；

模型在目标跟踪场景中的应用过程如下：

步骤2.1：数据输入：在目标跟踪过程中，模型的使用采用的是前向反馈的模式；跟踪开始，需要指定第一帧中跟踪目标的位置信息，在后续跟踪过程中，则以上一帧中通过算法评估出的目标区域为中心，取4倍的大小作为当前帧的目标搜索区域，进行跟踪；

步骤2.2：模板更新：每输入一组图像对进行跟踪，都会生成新的模板，采取将历史模板和新模板结合的方法，模板融合的方法如公式(7)和(8)所示，

TempCNN,new＝(1-ηc)TempCNN,old+ηcTempCNN,curr (7)

TempHOG,new＝(1-ηh)TempHOG,old+ηhTempHoG,curr (8)

式中ηc和ηh分别表示CNN和HOG特征模板的学习率，TempCNN,old和 TempHOG,old表示旧的模板，TempCNN,curr和TempHOG,curr表示以当前帧作为输入生成的新模板，将新的模板代入式(2)和(3)中，得到式(9)和(10)：

RespCNN＝TempCNN,newZ′CNN (9)

RespHoG＝TempHOG,newz′HOG (10)

步骤2.3：目标位置评估：根据响应图的值来确定目标的中心点的位置信息；

步骤2.4：利用算法得到的评估位置，按照第一部分中步骤2.2所述的图像对提取方法，提取后续的图像对，将提取到的图像对作为模型的输入，输入到模型中，重复上述的步骤2.1-2.4的过程，直到图像序列中所有图像都处理完为止。

本发明的技术构思为：所述的基于孪生网络进行特征融合的目标跟踪方法的意思是，利用孪生网络这一深度神经网络架构分别提取HOG和CNN特征并训练相关权重对特征进行融合，利用这一融合的结果来提升目标跟踪效果，使得跟踪方法的鲁棒性更好。因为现在很多的跟踪方法都是基于手工设计的特征实现的，忽视了深度学习这一强力的工具。深度学习可以利用大量的数据进行训练，从而得到较优的权重去描述目标，同时基于深度神经网络结构的特征融合方法通过大量数据的训练，得出的权重自适应性强，将这些权重用于特征融合，使得特征融合的结果更为优秀。本专利所提出的方法具有跟踪准确度高鲁棒性好，在GPU 模式下跟踪速度快的特点。

本发明的有益效果主要表现在：利用深度学习结构进行特征的融合，由于权重是通关大量数据学习出来的，模型的跟踪效果更佳。同时，从理论上来说，该网络架构可以进行拓展，可以融合更多的特征，使得各种特征可以更好的结合，从而构建更全面的表观模型。

附图说明

图1为本发明的网络的整体流程图。

图2为本发明的实施例的训练集样例。

图3为本发明中在遮挡，形变以及背景聚类的情况下的跟踪效果。

图4为本发明中在运动模糊，目标出平面并旋转以及部分序列离开视野的跟踪效果。

图5为本发明中在光照变化以及尺度变化的情况下的跟踪效果。

图6为本发明中在快速移动以及低分辨的情况下的跟踪效果。

图7为本发明中在目标在图像中旋转的情况下的跟踪效果。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图7，一种基于特征融合的孪生网络的目标跟踪方法，包括孪生网络模型的训练过程和模型在目标跟踪场景中的应用；

所述孪生网络模型的训练过程如下：

步骤1.1：选取训练集合，训练集必须满足以下条件：1.每帧图像必须包含跟踪目标。2.一组训练图像由具有相关性的前后两帧图像组成。我们的训练集包含了3862组图像序列。

步骤1.2：训练集图片的预处理，训练集处理包含图像分割以及标签数据的生成，具体操作如下：

步骤1.2.1：首先以前后两帧图像为一组，组成一组作为网络输入的训练图像对。假设一组图像序列有323张图片，那么这样的一组图像序列就可以生成 322组图像对。

步骤1.2.2：其次，在生成图像对之后，从图像对中提取目标所在的区域。我们将一组图像对的两帧图像记为(x,z)，其中x表示前一帧图像，z表示需要进行目标搜索的图像，从x中提取目标区域，目标区域的中心点在图像中的坐标记为(xrow,xcol)，目标区域的长和宽分别记为xwidth和xheight。在z中，同样以 (xrow,xcol)为中心提取长宽为两倍的区域，得到的图像对记为(x′,z^′)。

步骤1.2.3：将提取到的图像对(x′,z′)归一化到255×255的大小，保存图像对用于后续的网络输入。一组图像对的组成参照图2所示。

步骤1.3：读取步骤1.2中处理好的训练数据，进行模型的训练，整个模型的结构参照图1，过程如下：

步骤1.3.1：为提升训练模型的鲁棒性，训练数据采取随机读取的方式，每次读取8对图像进行训练，从而避免一次输入数据过少导致模型陷入局部最优的情况出现。

步骤1.3.2：因为网络的输入为两帧图像，我们采用孪生网络的结构，孪生网络结构是由两个相似的并行网络组成但在特征提取层所用的参数是相同的。参照图1的结构我们对Tracking imagex′和Test imagez′进行特征提取，对于这两块图像块提取HOG和CNN特征，分别记为x′HOG,x′CNN,z′HOG,z′CNN。我们设计的网络只包含两层卷积层就可以取得不错的跟踪效果，这两层卷积层的卷积核大小分别是11×11×3×96和5×5×48×32。

步骤1.3.3：参考图1的结构，在提取特征之后，我们利用x′HOG和x′CNN，生成两个用于匹配的特征模板，记为TempCNN和TempHOG。通关相关滤波的方法获得模板，求解模板的过程相当于独立求解两个岭回归问题，需要求解的公式如式 (1):

F(T)＝‖Tx-y‖²+λ‖T‖² (1)

其中T表示模板Temp，y表示期望响应，表示相关滤波操作，为了防止过拟合，我们在式中加入了正则项λ‖T‖²。

求解得到由于在时域上对T的求解十分耗时，所以对T进行离散傅里叶变换，可以得到公式中符号上的横向表示离散傅里叶变换，右上角的*表示的是共轭复数，符号表示的是点乘操作。

步骤1.3.4：参照图1我们利用TempCNN和TempHOG以及z′HOG和z′CNN，分别生成两个特征响应图，记为RespCNN和RespHOG，特征响应图也可以称为分值图，这两个响应图可以根据公式(2)和(3)获得，

RespCNN＝TempCNNz′CNN (2)

RespHoG＝TempHOGz′HOG (3)

步骤1.3.5：参照图1所示，在获得RespCNN和RespHOG之后，我们需要将两个响应图进行融合得到更好的响应图，记为Respmerge。融合的响应图可以结合两种特征的优点，削弱两种特征的不足。融合过程如式(4)

Respmerge＝M(RespCNN,RespHOG) (4)

其中M为融合函数，其中的融合权重均由网络训练得到。

步骤1.3.6：在网络的最后设置逻辑斯谛回归层，用于优化最终的网络结果，根据坐标点的数据是否位于ground truth区域设置空间上的标签，1表示位于区域内，-1表示不在区域内。

训练模型使得损失函数取得最小值，记损失函数为l,

arg min∑il(M(RespCNN,RespHOG),Li) (6)

步骤1.4：设置迭代次数,在模型迭代结束之后，取出最终迭代生成的模型作为目标跟踪时使用的跟踪模型。

模型在目标跟踪场景中的应用过程如下：

步骤2.1：在目标跟踪过程中，模型的使用采用的是前向反馈的模式。跟踪开始，需要指定第一帧中跟踪目标的位置信息，在后续跟踪过程中，则以上一帧中通过算法评估出的目标区域为中心，取4倍的大小作为当前帧的目标搜索区域，进行跟踪。

步骤2.2：每输入一组图像对进行跟踪，都会生成新的模板，仅使用新模板用于跟踪得到的结果不佳，往往会出现模型漂移的问题。为了解决上述问题，可以采取将历史模板和新模板结合的方法，模板融合的方法如公式(7)和(8)所示，

TempCNN,new＝(1-ηc)TempcNN,old+ηcTempCNN,curr (7)

TempHOG,new＝(1-ηh)TempHoG,old+ηhTempHOG,curr (8)

式中ηc和ηh分别表示CNN和HOG特征模板的学习率，我们将两个学习率ηc和ηh的值均设置为0.005，TempCNN,old和TempHOG,old表示旧的模板， TempCNN,curr和TempHOG,curr表示以当前帧作为输入生成的模板，将新的模板代入式(2)和(3)中，得到式(9)和(10)：

RespCNN＝TempCNN,newz′CNN (9)

RespHOG＝TempHOG,newz′HOG (10)

步骤2.3：目标中心点的位置与响应图的幅值有关，根据响应图的最大值的位置可以确定目标中心点在搜索区域中的位置。响应图的最大值位置的坐标信息就是目标的偏移距离。

步骤2.4：利用算法得到的评估位置，按照第一部分中步骤2所述的图像对提取方法，提取后续的图像对，将提取到的图像对作为模型的输入，输入到模型中，重复上述的步骤2.1-2.4的过程，直到图像序列中所有图像都处理完为止。

我们方法的结果参照图3到图7，图中绿色框表示目标所在的真实区域，红色框表示的是利用我们的方法评估出的目标区域。图3所包含的情形是光照变化、遮挡、形变、在图像区域外旋转、背景聚类，图4包含的情形是光照变化、尺度变化、遮挡、运动模糊、快速运动、在图像区域外旋转、目标离开视野、背景聚类，图5包含的情形是光照变化、尺度变化、在图像区域内旋转、在图像区域外旋转、背景聚类，图6包含的情形尺度变化、遮挡、运动模糊、快速运动、在图像区域外旋转、目标离开视野、低分辨率，图7包含的情形是尺度变化、遮挡、形变、在图像区域内旋转、在图像区域外旋转、目标离开视野、低分辨率。在这些情形下，我们的方法依然取得了较好的效果，充分的说明了我们的方法有不错的鲁棒性。

图2所提到的训练样本是处理ImageNet所获得的，ImageNet参照文献1： Deng J,Dong W,Socher R,et al.ImageNet:A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:248-255.即Deng等人于2009年发表在CVPR上的论文《ImageNet：一个大规模的分层图像数据库》，图3～图7是利用OTB50的数据集测试本专利所提出方法的性能，OTB50参照文献2：Wu Y,Lim J,Yang M H.Online Object Tracking:A Benchmark[C]//Computer Visionand Pattern Recognition.IEEE, 2013:2411-2418.即Wu等人于2013年发表在CVPR上的论文《一个应用于在目标跟踪方法的评判标准》。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭东岩;赵玮瑄;崔滢;王振华;陈胜勇
技术所有人：浙江工业大学
我是此专利的发明人

上一篇：一种新型医疗设备支撑装置的制作方法
上一篇：一次性肛肠选择切割吻合器的选择性钉仓组件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。