基于深度特征的多目标追踪方法及系统与流程

文档序号：17778012发布日期：2019-05-28 20:30阅读：212来源：国知局

本发明实施例涉及深度学习技术领域，更具体地，涉及一种基于深度特征的多目标追踪方法及系统。

背景技术：

多目标跟踪的主要任务是在给定视频中同时对多个感兴趣的目标进行定位，并且维持他们的id、记录他们的轨迹。

随着目标检测技术的飞速发展，通过检测跟踪(trackingbydetection)在多目标跟踪中成为主流。在这一处理模式中，目标轨迹是通过对整个视频流的全局优化处理计算而得到的，如flow网络、概率图模型等。然而，批处理使得这些方法不适用于需要实时目标检测的在线场景。更为传统方法是多假设跟踪(multiplehypothesistracking)和联合概率数据关联滤波(jointprobabilisticdataassociationfilter)。还有一种方法是简单在线实时跟踪(simpleonlineandrealtimetracking，sort)框架通过在图像空间执行卡尔曼滤波，以及使用hungarian方法实现帧间数据关联，关联指标是测量边界框的重叠。

现有的多目标跟踪方法存在id切换，计算和实现的复杂度较大，并且在有遮挡时跟踪性能较低的问题。

技术实现要素：

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于深度特征的多目标追踪方法及系统。

第一方面，本发明实施例提供一种基于深度特征的多目标追踪方法，包括：

将当前帧图像输入至预先训练好的卷积神经网络模型，获取在所述当前帧图像中检测到的各目标对应的检测框位置和各目标的深度特征；

基于上一帧图像中各目标对应的检测框位置，使用kalman滤波器获取各目标在当前帧的预测位置；

根据各目标对应的检测框位置、各目标在当前帧的预测位置、各目标的深度特征和各追踪器的深度特征集，利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始匹配集合、未级联匹配上的检测框和待匹配的追踪器；

计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合。

第二方面，本发明实施例提供一种基于深度特征的多目标追踪系统，包括：

特征提取模块，用于将当前帧图像输入至预先训练好的卷积神经网络模型，获取在所述当前帧图像中检测到的各目标对应的检测框位置和各目标的深度特征；

预测模块，用于基于上一帧图像中各目标对应的检测框位置，使用kalman滤波器获取各目标在当前帧的预测位置；

级联匹配模块，用于根据各目标对应的检测框位置、各目标在当前帧的预测位置、各目标的深度特征和各追踪器的深度特征集，利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始匹配集合、未级联匹配上的检测框和待匹配的追踪器；

iou匹配模块，用于计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的基于深度特征的多目标追踪方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的基于深度特征的多目标追踪方法的步骤。

本发明实施例提供的基于深度特征的多目标追踪方法及系统，利用卷积神经网络提取目标的深度特征，并利用卡尔曼滤波预测目标出现的位置，通过级联匹配和iou匹配两级匹配方式实现检测框与追踪器之间的匹配，能够有效改善有遮挡情况下的目标追踪效果并减少id切换的次数，提高了对遗漏和遮挡的鲁棒性，同时具备容易部署、高效和可移植到在线场景的能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例提供的基于深度特征的多目标追踪方法的流程示意图；

图2为本发明实施例提供的基于深度特征的多目标追踪系统的结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于深度特征的多目标追踪方法的流程示意图，如图所示，包括：

步骤100、将当前帧图像输入至预先训练好的卷积神经网络模型，获取在所述当前帧图像中检测到的各目标对应的检测框位置和各目标的深度特征；

多目标跟踪问题的解决共分为两步，第一步是目标检测，第二步是数据关联。本发明实施例中，利用预先训练好的卷积神经网络实现对输入的帧图像的目标检测，并提取深度特征。其中，深度特征是指目标所对应的外观特征信息。该预先训练好的卷积神经网络具体输出当前帧图像中检测到的多个目标对应的检测框位置以及各目标的深度特征。

步骤101、基于上一帧图像中各目标对应的检测框位置，使用kalman滤波器获取各目标在当前帧的预测位置；

具体地，在进行了目标检测之后，本发明实施例利用卡尔曼滤波对目标进行追踪，即使用kalman滤波器来对目标的运动状态进行预测。

利用上一帧图像中各个目标对应的检测框位置，预测当前帧图像中各个目标出现的位置，即各目标在当前帧的预测位置，具体为boundingbox(边界框)位置。

在一个实施例中，采用基于常量速度模型和线性观测模型的标准kalman滤波器对各目标进行运动状态的预测，获得各目标在当前帧的预测位置；

其中，目标的运动状态采用8个参数进行描述；

其中，(u,v)为目标在当前帧对应的预测框的中心坐标，γ为所述预测框的长宽比，h为所述预测框的高度，为目标在图像坐标系中的速度信息。

步骤102、根据各目标对应的检测框位置、各目标在当前帧的预测位置、各目标的深度特征和各追踪器的深度特征集，利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始匹配集合、未级联匹配上的检测框和待匹配的追踪器；

在实现了目标检测，提取深度特征并进行了目标追踪之后，要进行数据关联。具体地，利用匈牙利算法根据检测框位置、各目标在当前帧的预测位置和深度特征这几个因素进行检测框和追踪器之间的匹配。

本发明实施例采取级联的匹配方法来对更加频繁出现的目标赋予优先权以达到降低卡尔曼滤波预测的不确定性。该方式能够改善有遮挡情况下的目标追踪效果并减少id切换的次数。

利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始的匹配集合、未级联匹配上的检测框和待匹配的追踪器。

步骤103、计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合。

具体地，对经过级联匹配之后未匹配成功的检测框和追踪器进行第二次匹配，采取iou(intersectionoverunion，交并比)匹配的方式。iou可以理解为预测框与检测框的重合程度。首先计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合。

本发明实施例提供的基于深度特征的多目标追踪方法，利用卷积神经网络提取目标的深度特征，并利用卡尔曼滤波预测目标出现的位置，通过级联匹配和iou匹配两级匹配方式实现检测框与追踪器之间的匹配，能够有效改善有遮挡情况下的目标追踪效果并减少id切换的次数，提高了对遗漏和遮挡的鲁棒性，同时具备容易部署、高效和可移植到在线场景的能力。

基于上述实施例的内容所述根据各目标对应的检测框位置、各目标在当前帧的预测位置和各目标的深度特征，利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始匹配集合、未级联匹配上的检测框和待匹配的追踪器的步骤，具体为：

构建每个目标的深度特征与各追踪器的深度特征集间的余弦距离矩阵；

具体地，初始化当前帧追踪和检测信息。追踪器会保存每个追踪到的目标的深度特征，生成深度特征集，针对每个目标，根据每个目标的深度特征，计算每个目标的深度特征与各追踪器已保存的深度特征集中的深度特征间的余弦距离，生成余弦距离矩阵。

计算每个目标在当前帧的预测位置与其对应的检测框位置之间的马氏距离；

对所述余弦距离矩阵进行预处理，包括将所述余弦距离矩阵中马氏距离大于第一预设阈值的元素置为无穷大，以及将所述余弦距离矩阵中余弦距离大于第二预设阈值的元素置为一个较大的值；

具体地，第一预设阈值和第二预设阈值可根据不同场景进行设置。将余弦距离矩阵中马氏距离大于第一预设阈值的元素置为无穷大，可以方便后续计算，将余弦距离矩阵中余弦距离大于第二预设阈值的元素置为一个较大的值，可方便后续删除。

基于预处理后的所述余弦距离矩阵，利用匈牙利算法对各目标对应的检测框与追踪器进行第一次匹配，可以得到各目标对应的检测框与各追踪器之间的相似得分，并对第一次匹配结果进行筛选，获得初始匹配集合、未级联匹配上的检测框和待匹配的追踪器。

基于上述实施例的内容，所述计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合的步骤，具体为：

根据当前帧初始化待匹配的追踪器，计算未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵；

对所述iou距离矩阵进行预处理，将所述iou距离矩阵中iou距离大于预设阈值的元素设置为较大的值；

并利用匈牙利算法对所述未级联匹配上的检测框与待匹配的追踪器进行第二次匹配，并对第二次匹配结果进行筛选，删除iou距离较小的区域，获得最终匹配集合、未匹配上的检测框和待匹配的追踪器。

基于上述各实施例的内容，所述卷积神经网络模型包括顺序连接的两个卷积层、最大池化层、六个残差块、全连接层和归一化层。

本发明实施例中所构建的卷积神经网络模型的结构，如表1所示，该卷积神经网络模型包括顺序连接的两个卷积层、最大池化层、六个残差块、全连接层和归一化层。在全连接层(dense10)中输出维度为128的全局特征。最后一层(归一化层)实现了对特征的映射以提高外观度量的兼容性。

表1卷积神经网络模型结构

卷积神经网络模型的训练集是一个大规模的行人重识别数据集，其中包括110万张图像，1261个行人。这个数据集对于行人跟踪的特征提取以及度量非常有帮助。

在训练过程中，通过大量的样本对进行线下训练，使得模型的鲁棒性显著提高。在训练完成后，将模型参数进行保存，在测试匹配过程中，直接使用该参数进行多目标的追踪，而不需要在线上在训练调整该参数。

该卷积神经网络模型的输入为一帧图像，输出为该帧图像对应的各个目标的检测框位置以及各目标的深度特征。

基于上述各实施例的内容，所述获得最终匹配集合的步骤之后，还包括：

对追踪器进行参数更新，并根据所述最终匹配集合获取各目标的运动轨迹。

具体地，对追踪器进行参数更新，包括：1)更新追踪器进行卡尔曼预测的均值和协方差；2)追踪器的创建与移除：对每一个追踪目标，记录自其上一次检测结果与追踪结果匹配之后的帧数ak，一旦一个目标的检测结果与追踪结果正确关联之后，就将该参数设置为0。如果ak超过了设置的最大阈值amax，则认为对该目标的追踪过程已结束。如果某次检测结果中的某个目标始终无法与已经存在的追踪器进行关联，那么则认为可能出现了新目标。如果连续三帧中潜在的新的追踪器对目标位置的预测结果都能够与检测结果正确关联，那么则确认是出现了新的运动目标；否则认为是出现了“虚警”，需要删除该追踪器；3)对于未匹配的检测框重新分配id；4)使用新的追踪器更新矩阵特征，便于下一帧的计算。

根据所述最终匹配集合获取各目标的运动轨迹，包括：判断轨迹终止、产生新轨迹的时刻。首先对于每条轨迹都有一个阈值a用于记录轨迹从上一次成功匹配到当前时刻的时间。当该值大于提前设定的阈值则认为该轨迹终止，直观上说就是长时间匹配不上的轨迹认为已经结束。然后在匹配时，对于没有匹配成功的detections都认为可能产生新的轨迹。但由于这些detections可能是一些falsealarms，所以对这种情形新生成的轨迹标注状态为不确定的(tentative)；然后观查在接下来的连续若干帧中是否连续匹配成功，如果是则认为是新轨迹产生，标注为确定(confirmed)，否则认为是虚假轨迹，状态标注为删除(deleted)。

基于上述各实施例的内容，所述获取在所述当前帧图像中检测到的各目标对应的检测框位置和各目标的深度特征的步骤之后，还包括：

对各目标对应的检测框进行置信度的筛选，并对各目标对应的检测框进行非最大值抑制，使一个目标只对应一个检测框。

具体地，在获取了各目标对应的检测框位置之后，进行卡尔曼滤波之前，对所获取到的检测框位置进行筛选，删除置信度较低的检测框，并对检测框进行最大值抑制，使每个目标值对应一个检测框，便于后续跟踪计算。

如图2所示，为本发明实施例提供的基于深度特征的多目标追踪系统的结构示意图，包括：特征提取模块210、预测模块220、级联匹配模块230和iou匹配模块240，其中，

特征提取模块210，用于将当前帧图像输入至预先训练好的卷积神经网络模型，获取在所述当前帧图像中检测到的各目标对应的检测框位置和各目标的深度特征；

具体地，多目标跟踪问题的解决共分为两步，第一步是目标检测，第二步是数据关联。本发明实施例中，特征提取模块210利用预先训练好的卷积神经网络实现对输入的帧图像的目标检测，并提取深度特征。其中，深度特征是指目标所对应的外观特征信息。该预先训练好的卷积神经网络具体输出当前帧图像中检测到的多个目标对应的检测框位置以及各目标的深度特征。

预测模块220，用于基于上一帧图像中各目标对应的检测框位置，使用kalman滤波器获取各目标在当前帧的预测位置；

在进行了目标检测之后，预测模块220利用卡尔曼滤波对目标进行追踪，即使用kalman滤波器来对目标的运动状态进行预测。

利用上一帧图像中各个目标对应的检测框位置，预测当前帧图像中各个目标出现的位置，即各目标在当前帧的预测位置，具体为boundingbox(边界框)位置。

在一个实施例中，采用基于常量速度模型和线性观测模型的标准kalman滤波器对各目标进行运动状态的预测，获得各目标在当前帧的预测位置；

其中，目标的运动状态采用8个参数进行描述；

其中，(u,v)为目标在当前帧对应的预测框的中心坐标，γ为所述预测框的长宽比，h为所述预测框的高度，为目标在图像坐标系中的速度信息。

级联匹配模块230，用于根据各目标对应的检测框位置、各目标在当前帧的预测位置和各目标的深度特征，利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始匹配集合、未级联匹配上的检测框和待匹配的追踪器；

在实现了目标检测，提取深度特征并进行了目标追踪之后，要进行数据关联。具体地，级联匹配模块230利用匈牙利算法根据检测框位置、各目标在当前帧的预测位置和深度特征这两个因素进行检测框和追踪器之间的匹配。

利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始的匹配集合、未级联匹配上的检测框和待匹配的追踪器。

iou匹配模块240，用于计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合。

具体地，iou匹配模块240对经过级联匹配之后未匹配成功的检测框和追踪器进行第二次匹配，采取iou(intersectionoverunion，交并比)匹配的方式。iou可以理解为预测框与检测框的重合程度。首先计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合。

本发明实施例提供的基于深度特征的多目标追踪系统，利用卷积神经网络提取目标的深度特征，并利用卡尔曼滤波预测目标出现的位置，通过级联匹配和iou匹配两级匹配方式实现检测框与追踪器之间的匹配，能够有效改善有遮挡情况下的目标追踪效果并减少id切换的次数，提高了对遗漏和遮挡的鲁棒性，同时具备容易部署、高效和可移植到在线场景的能力。

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(communicationsinterface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序，以执行上述各实施例提供的基于深度特征的多目标追踪方法，例如包括：将当前帧图像输入至预先训练好的卷积神经网络模型，获取在所述当前帧图像中检测到的各目标对应的检测框位置和各目标的深度特征；基于上一帧图像中各目标对应的检测框位置，使用kalman滤波器获取各目标在当前帧的预测位置；根据各目标对应的检测框位置、各目标在当前帧的预测位置、各目标的深度特征和各追踪器的深度特征集，利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始匹配集合、未级联匹配上的检测框和待匹配的追踪器；计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例提供的基于深度特征的多目标追踪方法，例如包括：将当前帧图像输入至预先训练好的卷积神经网络模型，获取在所述当前帧图像中检测到的各目标对应的检测框位置和各目标的深度特征；基于上一帧图像中各目标对应的检测框位置，使用kalman滤波器获取各目标在当前帧的预测位置；根据各目标对应的检测框位置、各目标在当前帧的预测位置、各目标的深度特征和各追踪器的深度特征集，利用匈牙利算法对各目标对应的检测框与追踪器进行级联匹配，获得初始匹配集合、未级联匹配上的检测框和待匹配的追踪器；计算所述未级联匹配上的检测框和待匹配的追踪器间的iou距离矩阵，并基于所述iou距离矩阵，利用匈牙利算法进行检测框与追踪器间的iou匹配，获得最终匹配集合。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙庆宏;董远;白洪亮;熊风烨
技术所有人：北京飞搜科技有限公司
我是此专利的发明人

上一篇：一种PCR基座及PCR仪的制作方法
上一篇：一种灯槽背景墙厚度伸缩垂直调整结构及其安装工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。