一种基于SIFT的多摄像头场景下的目标跟踪方法

文档序号：26012290发布日期：2021-07-23 21:33阅读：277来源：国知局

本发明涉及计算机视觉相关技术领域，尤其涉及一种基于sift的多摄像头场景下的目标跟踪方法。

背景技术：

随着信息技术的发展，基于视觉的运动目标的检测与跟踪已逐渐渗透到人们生活的方方面面，其重要性日益突出。运动目标跟踪属于视频分析的内容，包括运动检测、目标分类、目标跟踪、事件检测等。基于视频目标跟踪方法的研究是计算机视觉领域的一个重要分支，而基于视觉的目标检测与跟踪是图像处理、计算机视觉、模式识别等众多学科的交叉研究课题，在视频监控、虚拟现实、人机交互、自主导航等领域，具有重要的理论研究意义和实际应用价值。

对于目标跟踪在各个场景下的应用，很多学者都做了相关的改进研究，但是对于多目标跨摄像头跟踪技术的研究，大多数学者都集中在寻找不同的摄像头捕获的图像之间的重合部分，以此作为视频拼接的基础。这些方法虽然能够实现跨越摄像头的目标追踪，但是并不直观，需要多个画面共同显示。而且，当不同摄像头画面中出现多个目标时，只能实现重合画面的跨摄像头追踪，而未重合画面部分的目标id如何分配，并未提出一个合适的解决方案。

技术实现要素：

本发明的目的是提供一种基于sift的多摄像头场景下的目标跟踪方法，能够获得更大的目标检测范围并提高了目标追踪的精度。

本发明为实现上述发明目的采用如下技术方案：

本发明提供了一种基于sift的多摄像头场景下的目标跟踪方法，包括：

获取目标检测总数据集，所述目标检测总数据集通过拍摄包含不同类型检测目标的多张照片制作形成；

使用目标检测总数据集对目标检测器yolo-v5s模型进行训练；

获取目标追踪重识别数据集，所述目标追踪重识别数据集通过拍摄包含不同类型追踪目标的多张照片，提取出每张照片中包含追踪目标的部分制作形成；

使用目标追踪重识别数据集训练deepsort算法中的目标外观特征提取网络；

获取运用sift算法拼接多摄像头拍摄的视频，使用训练过的yolo-v5s模型结合训练过的deepsort算法对视频中的追踪目标进行追踪。

进一步地，将deepsort算法中的目标外观特征提取网络中的relu激活函数换为mish激活函数。

进一步地，所述mish激活函数的表达式如下：

mish＝x*tanh(ln(1+e^x))

式中：x表示神经网络某层输入的加权和。

进一步地，使用目标追踪重识别数据集训练改进后的deepsort算法中的目标外观特征提取网络，在训练过程中将sgd优化器换为集成了sgd的一阶动量和rmsprop的二阶动量的adam优化器。

进一步地，所述检测目标、追踪目标均选用智能车。

进一步地，制作目标检测数据集，具体过程为：

拍摄包含不同类型的智能车的照片；

用数据集标注软件，给每张照片生成对应的标签文件，得到自制智能车数据集；

将voc2012数据集与自制智能车数据集混合构成目标检测总数据集。

进一步地，制作目标追踪重识别数据集，具体过程为：

拍摄包含不同类型的智能车的照片，并将每张照片中包含智能车的部分提取出来，构成自制智能车重识别数据集；

将收集到的包含不同类型车辆照片的车辆重识别数据集与自制智能车重识别数据集混合，构成智能车重识别数据集。

本发明的有益效果如下：

运用sift图像拼接算法得到了多摄像头拼接后的视频，最后在视频中应用训练的yolo-v5s模型结合改进后训练的的deepsort算法实现了多目标追踪；

基于sift的多摄像头场景下的多目标跟踪，能够获得更大的目标检测范围并提高了目标追踪的精度。

附图说明

图1为根据本发明实施例提供的自制数据集训练的yolo-v5s模型在测试集上的分类性能指标；

图2为根据本发明实施例提供的使用自制车辆重识别数据集训练原deepsort算法中目标外观信息提取网络和改进后的目标外观提取网络的效果对比图；

图3为根据本发明实施例提供的deepsort算法中目标外观信息提取网络改进前后在测试集上的对比图；

图4为根据本发明实施例提供的应用yolo-v5s模型与改进后的deepsort算法，在多摄像头融合的视频中的跟踪效果图。

具体实施方式

参照图1至图4，本发明提供一种基于sift的多摄像头场景下的目标跟踪方法，本发明利用yolo-v5s结合改进的deepsort算法，并结合图像拼接算法，实现了不同摄像头画面的拼接，最后在拼接后的视频中实现多目标跟踪。数据集方面，采用自制的智能车数据集和自制的包含有智能车的车辆重识别数据集。具体步骤如下：

s1:拍摄本实验所采用的若干辆智能车照片，并对每张照片做标注，做成自制智能车数据集；

s2:将自制智能车数据集与voc2012数据集汇总，得到目标检测总数据集用于本实验中yolo-v5s模型的训练；

s3:拍摄每辆智能车的多角度图片，提取出每张照片包含智能车的部分，得到自制智能车重识别数据集，结合收集到的包含不同类型车辆照片的车辆重识别数据集得到智能车重识别数据集；

s4:对deepsort算法中的目标外观特征提取网络进行了改进，将relu激活函数换成mish激活函数；

s5:用智能车重识别数据集训练改进后的deepsort算法中的目标外观特征提取网络，并在训练时将sgd优化器换为集成了sgd的一阶动量和rmsprop的二阶动量的adam优化器；

s6:将训练的yolo-v5s模型结合改进后训练的的deepsort算法结合，得到能够准确跟踪智能车的目标跟踪模型；

s7:运用sift算法拼接多摄像头拍摄的视频，得到拼接后的视频，用训练的yolo-v5s模型结合改进后训练的的deepsort算法结合对视频中的智能车进行追踪。

步骤s1中，yolo-v5s模型的目标检测效果与数据集息息相关，因此，制造一个好的数据集至关重要。在制作数据集的过程中，从不同场景、不同角度、不同拍摄距离、不同光线下拍摄智能车的照片，得到了包含智能车的1000张照片。每个图像中包含的智能车的数量、大小、角度、光线均有所不同，最后用数据集标注软件，给每张照片生成对应的标签文件，得到自制智能车数据集。将voc2012数据集与自制智能车数据集相结合，得到最终的目标检测总数据集。其中，取80％用于训练集，10％用于验证集，10％用于测试集。

步骤s2中，目标检测模型为yolo-v5s。yolo-v5s是yolo-v5系列中深度最小、特征图的宽度最小的网络，在灵活性与速度上远强于yolo-v4。yolo-v5s的新技术的特点如下：1、自适应锚框计算。在yolo算法中，针对不同的数据集，都会有初始设定长宽的锚框。在yolo-v3、yolo-v4中，训练不同的数据集时，计算初始锚框的值是通过单独的程序运行的。但yolo-v5s中将此功能嵌入到代码中，每次训练时，自适应的计算不同训练集中的最佳锚框值。2、自适应照片缩放。在常用的目标检测算法中，不同的照片长宽都不相同，因此常用的方式是将原始照片统一缩放到一个标准尺寸，再送入检测网络中，比如yolo算法中常用416×416，608×608等尺寸，这样照片经过缩放填充后，图像两边填充的黑边大小都不同，如果填充的比较多，则存在信息冗余，影响推理速度。因此yolo-v5s引入了自适应照片缩放，对原始图像自适应的添加了最少的黑边。这样在推理时，计算量也会减少，即目标检测速度会得到提升。3、focus结构。在yolo-v3、yolo-v4中并没有这个这个结构，其中比较关键的是切片操作。原始608*608*3的图像输入focus结构，采用切片操作，先变成304*304*12的特征图，再经过一次32个卷积核的卷积操作，最终变成304*304*32的特征图。4、csp结构。yolo-v4中只有backbone主干网络用了csp结构，而yolo-v5s中设计了两种csp结构，一种用于backbone主干网络，另一种用于neck加强特征提取网络中。

步骤s3中，制作车辆重识别数据集。对每辆智能车拍摄不同角度、不同距离的照片，并将照片中的智能车的位置单独提取，每辆智能车大约拍摄50张照片，构成自制智能车重识别数据集，然后将收集到的包含不同类型车辆照片的车辆重识别数据集与自制智能车重识别数据集混合，构成智能车重识别数据集。智能车重识别数据集中包含有600个不同的车辆，每种车辆有50张照片。取其中90％为训练集，10％为测试集。

步骤s4-s5中，使用deepsort目标跟踪算法，并对其进行了改进。deepsort是在sort目标追踪基础上的改进。引入了行人重识别数据集上离线训练的深度学习模型，在实时目标跟踪过程中，提取目标的表观特征进行最近邻匹配，可以改善有遮挡情况下的目标追踪效果。同时，也减少了目标id跳变的问题。对本专利而言，识别的目标是智能车，为此需要训练一个合适的卷积网络来提取智能车的目标外观信息。为了使得网络的提取能力更优，本专利对deepsort的特征提取网络进行了改进，将网络中的relu激活函数换为mish激活函数，mish激活函数的表达式为:

mish＝x*tanh(ln(1+e^x))

式中：x表示神经网络某层输入的加权和。

由于relu激活函数在负值的时候直接截断，梯度下降不够平滑，因此这里采用mish激活函数进行优化。使用mish函数的原因是它的平滑、非单调、上无界、有下界的特点，与其他常用函数如relu和swish相比，具有更好的泛化能力和结果的有效优化能力。替换激活函数，提高模型在该数据集上的精确度，并且降低损失。同时在deepsort的目标外观特征提取网络的训练中，将sgd优化器替换为集成了sgd的一阶动量和rmsprop的二阶动量的adam优化器，从而进一步实现了模型性能上的提优。

步骤s6中，将训练的yolo-v5s模型结合改进后训练的deepsort算法相结合，在单摄像头的场景下进行多目标跟踪。

步骤s7中，将图像拼接算法应用到多摄像头场景下的目标跟踪。这里采用的是基于sift的图像拼接算法。sift算法在当前的各类图像拼接算法中，具有特征稳定，对旋转、尺度变换、亮度保持不变性，对视角变换、噪声也有一定程度的稳定性。多摄像头视频拼接的思路如下：首先读取每个摄像头读取到的照片，分别提取sift特征；利用kd-tree和bbf算法进行特征匹配查找；利用ransac算法筛选匹配点并计算变换矩阵；最后进行图像融合从而得到拼接后的图像，从而得到最终多摄像头融合的视频。用训练的yolo-v5s模型结合改进后训练的deepsort算法对视频中的智能车进行追踪。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢新彪;刘雅童;毛克春;施宇豪;唐紫婷;杭帆
技术所有人：河海大学
我是此专利的发明人

上一篇：改善R-PHY网络架构中保持性能的系统和方法与流程
上一篇：一种沥青防水卷材用预浸料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。