基于深度学习的视频实时多目标检测与跟踪方法和装置与流程

文档序号：23761162发布日期：2021-01-29 18:52阅读：60来源：国知局

[0001]
本申请涉及基于深度学习的计算机视觉技术领域，特别是涉及一种基于深度学习的视频实时多目标检测与跟踪方法和装置。

背景技术：

[0002]
随着社会的进步和科技的发展，计算机视觉渐渐融入到视频监控系统中，发展成为智能视频监控系统。智能视频监控系统的主要目的是对目标视频数据进行一系列处理，实现对目标的自动检测和分析，以及对运动目标的自动跟踪，通过这些处理使得计算机系统代替人类对监视的场景进行实时监控。
[0003]
然而在无人机等新型视频数据采集平台的视角下进行目标检测与跟踪任务存在很大的挑战。首先，因这类平台存在拍摄的目标尺度较小、图像分辨率较低、目标检测中误检漏检频繁、拍摄背景环境复杂多变等问题；其次，这类平台在执行目标跟踪任务时，平台与目标间的快速相对运动会产生运动模糊，且在目标被遮挡或与障碍物重合时容易发生“id交换”。
[0004]
随着对目标检测和跟踪性能要求的提高，基于深度学习的视频实时目标检测与跟踪技术已经成为计算机视觉领域的重要研究课题，并逐渐用于新型视频采集平台，即通过搭建适用于目标检测的深度卷积神经网络模型对目标进行检测和跟踪。目前，很多研究集中在resnet基础网络模型上训练行人目标数据，从而实现对多行人目标的检测和跟踪任务，在一定程度上解决了卷积网络或全连接网络在信息传递的时信息丢失问题，但其目标检测效率欠佳。另外，现有的yolo v3神经网络模型基于darknet53特征提取网络提升了目标检测速度和小目标检测效果，但由于darknet53网络未能很好的利用浅层特征信息，导致特征信息在网络逐层传递过程中流失，因此特征信息利用率较低。

技术实现要素：

[0005]
基于此，有必要针对上述技术问题，提供一种能够充分利用各个尺度特征图上的特征信息、提高目标检测和跟踪精度的基于深度学习的视频实时多目标检测与跟踪方法和装置。
[0006]
一种基于深度学习的视频实时多目标检测与跟踪方法，所述方法包括：
[0007]
获取包括真实边界框的视频数据样本。
[0008]
将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型，基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0009]
利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。
[0010]
根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0011]
将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0012]
其中一个实施例中，构建预先设置的基于密集连接深度卷积网络的多目标检测模型的方法包括：
[0013]
在densenet神经网络架构的特征融合网络中加入用于浅层特征与深层特征融合的卷积块注意力模块，得到特征提取网络架构。
[0014]
基于特征提取网络架构构建基于yolo算法的多目标检测模型。
[0015]
其中一个实施例中，将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪的步骤包括：
[0016]
对待检测视频数据进行缩放处理。
[0017]
将处理后的待检测数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列。
[0018]
基于deep sort算法对视频帧序列中的检测边界框进行帧间关联，得到多目标跟踪结果。
[0019]
其中一个实施例中，注意力机制的实现方法包括：
[0020]
构建用于浅层特征与深层特征融合的卷积块注意力模块，该卷积注意力模块包括一个全局池化层，一个用于降低特征维度的全连接层，一个用于学习各特征通道间非线性关系的relu激活层，一个用于放大特征维度的全连接层，以及一个输出各维度权重的sigmoid激活层。
[0021]
其中一个实施例中，基于deep sort算法对视频帧序列中的检测边界框进行帧间关联，得到多目标跟踪结果的步骤包括：
[0022]
将包括检测边界框的视频帧序列输入预先训练好的外观特征提取网络，对检测边界框中的视频帧数据进行特征提取，得到对应的外观特征向量。
[0023]
基于检测边界框的位置和对应的外观特征向量，使用deep sort算法对检测边界框进行帧间关联，得到多目标跟踪结果。
[0024]
其中一个实施例中，将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪的步骤包括：
[0025]
将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列。
[0026]
基于非极大值抑制技术保留置信值高于预设值的检测边界框，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0027]
其中一个实施例中，获取包括真实边界框的视频数据样本的步骤之前，还包括：
[0028]
获取用于模型训练的视频数据。
[0029]
使用维度聚类算法计算视频数据的各帧中的真实边界框，得到包括真实边界框的视频数据样本。
[0030]
一种基于深度学习的视频实时多目标检测与跟踪装置，其特征在于，所述装置包括：
[0031]
视频数据样本获取模块，用于获取包括真实边界框的视频数据样本。
[0032]
特征提取模块，用于将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型，基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0033]
特征融合模块，用于利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。
[0034]
模型训练模块，用于根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0035]
视频实时多目标检测与跟踪模块，用于将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0036]
一种视频实时多目标检测与跟踪设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
[0037]
获取包括真实边界框的视频数据样本。
[0038]
将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型，基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0039]
利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。
[0040]
根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0041]
将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0042]
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
[0043]
获取包括真实边界框的视频数据样本。
[0044]
将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型，基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0045]
利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。
[0046]
根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0047]
将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0048]
上述一种基于深度学习的视频实时多目标检测与跟踪方法、装置、设备和存储介质，获取包括真实边界框的视频数据样本，将其输入预先设置的基于密集连接深度卷积网络的多目标检测模型，使用yolo算法提取视频数据样本的浅层特征和深层特征；利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列，根据预设的
损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。本申请基于密集连接的深度卷积网络和用于浅层特征与深层特征融合的注意力机制建立视频帧特征提取网络架构，构建了使用yolo算法的多目标检测模型，并在损失函数中引入广义交并比，可以提高模型的特征信息利用能力、小目标检测能力和目标检测模型的精确度，增强对视频中多个目标的实时检测和跟踪能力。
附图说明
[0049]
图1为一个实施例中一种基于深度学习的视频实时多目标检测与跟踪方法的步骤图；
[0050]
图2为一个实施例中一种基于深度学习的视频实时多目标检测与跟踪方法的流程示意图；
[0051]
图3为一个实施例中cbam模块的结构示意图；
[0052]
图4为一个实施例中一种基于深度学习的视频实时多目标检测与跟踪方法的目标检测流程示意图；
[0053]
图5为一个实施例中一种基于深度学习的视频实时多目标检测与跟踪方法的目标跟踪流程示意图；
[0054]
图6为一个实施例中一种基于深度学习的视频实时多目标检测与跟踪方法的帧间目标关联方法示意图；
[0055]
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
[0056]
为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。
[0057]
本申请提供的一种基于深度学习的视频实时多目标检测与跟踪方法，可以应用于智能监控中心等的视频数据处理设备中，对无人机等新型视频采集平台回传的视频进行实时多目标检测与跟踪。其中，视频数据处理设备可以但不限于是各种服务器集群、服务器、个人计算机、笔记本电脑、智能设备等提供实施上述方法所需计算能力的设备。
[0058]
在一个实施例中，提供了一种基于深度学习的视频实时多目标检测与跟踪方法，以该方法应用于无人机视频采集平台的视频数据处理设备为例进行说明，包括以下步骤：
[0059]
步骤102，获取包括真实边界框的视频数据样本。
[0060]
获取已经预先标注好目标真实边界框的视频数据样本。其中真实边界框作为多目标检测模型训练中的先验知识，与模型输出进行比较，以进行模型优化。
[0061]
步骤104，将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型，基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0062]
yolo算法是一种基于深度学习框架的目标检测算法，采用基于单个神经网络的端
到端预测过程一次得到多个目标检测结果，具有很快的多目标检测速度，可适应视频实时多目标检测和跟踪的需要。目前的yolo算法使用的是darknet深度学习框架，该框架不能很好的利用浅层特征信息，会导致特征信息在网络逐层传递过程中流失。因此本实施例在实现yolo算法时采用密集连接深度卷积网络作为深度学习框架，其优势在于网络中各层之间均相互连接，使得每一层网络学到的特征图都可以被之后的其它所有层直接使用，可以提高多目标检测模型的特征复用和融合能力。
[0063]
步骤106，利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。
[0064]
密集连接深度卷积网络对于提取到的特征图，在融合其浅层特征与深层特征时只是单纯地在通道维度上进行特征融合，这样既无法体现出不同通道特征之间的重要性和相关性，也不能充分利用其他尺度特征图上的特征信息。因此，本实施例在密集连接深度卷积网络的浅层特征与深层特征融合过程中，利用卷注意力机制对每个通道的特征进行权重分配，以学习不同通道之间特征的相关性，以充分利用不同尺度的特征，使模型的边界框更加准确。
[0065]
步骤108，根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0066]
两个边界框的交集的面积与这两个边界框的并集面积的比值称之为交并比。目前，在基于yolo算法的多目标检测模型的训练过程中，使用和方差作为损失函数对模型进行优化。该损失函数中包括模型输出的预测边界框和真实边界框之间的交并比(iou)，用于辅助监督输出的预测边界框的坐标和大小。然而对于没有交集的两个框，其iou的值始终是0，不能体现不相交的两个框之间的距离，因此训练中无法利用预测边界框与真实边界框不相交时的信息；并且，iou是无法区别两个框是否是对齐的。
[0067]
为此，本实施例将yolo算法的损失函数的交并比(iou)替换为广义交并比(giou)。广义交并比的定义为，给出包含a、b两个框的最小的闭合图形c，计算c中不在a和b范围内的面积与c的面积的比值，giou的值就是iou减去这个比值。根据上述定义可知，giou与iou相比，能够在a和b两个框不相交的时候，体现二者之间的距离，并且能够判断两个框之间的对齐程度。基于本实施例定义的损失函数，可以使训练得到的多目标检测模型更加精确。
[0068]
步骤110，将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0069]
上述一种基于深度学习的视频实时多目标检测与跟踪方法，基于密集连接的深度卷积网络和用于浅层特征与深层特征融合的注意力机制建立视频帧特征提取网络架构，构建了使用yolo算法的多目标检测模型，并在损失函数中引入广义交并比，可以提高模型的特征信息利用能力、小目标检测能力和目标检测模型的精确度，增强对视频中多个目标的实时检测和跟踪能力。
[0070]
其中一个实施例提供了一种基于深度学习的视频实时多目标检测与跟踪方法，流程如图2所示，所述方法包括以下步骤：
[0071]
步骤202，获取用于模型训练的视频数据，使用维度聚类算法计算视频数据的各帧中的真实边界框，得到包括真实边界框的视频数据样本。
[0072]
步骤204，获取包括真实边界框的视频数据样本，将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型。
[0073]
步骤206，基于yolo算法提取视频数据样本的浅层特征和深层特征。利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。其中，多目标检测模型的构建方式包括：在densenet神经网络架构的特征融合网络中加入用于浅层特征与深层特征融合的卷积块注意力模块，得到特征提取网络架构，基于得到的特征提取网络架构构建基于yolo v3算法的多目标检测模型。
[0074]
进一步地，注意力机制的实现方法包括：构建用于浅层特征与深层特征融合的卷积块注意力模块，卷积注意力模块包括一个全局池化层，一个用于降低特征维度的全连接层，一个用于学习各特征通道间非线性关系的relu激活层，一个用于放大特征维度的全连接层，以及一个输出各维度权重的sigmoid激活层。
[0075]
具体地，由于densenet基础网络在进行特征提取时，对提取到的特征图利用特征金字塔结构进行浅层特征与深层特征之间的连接，这种连接方式只能单纯地在通道维度上进行特征融合，既无法体现出不同通道特征之间的重要性和相关性，也不能充分利用其他尺度特征图上的特征信息。因此，为了获得更精确、目标检测能力更强的多目标检测模型，本实施例采用了一种基于densenet神经网络架构的使用yolo v3算法的多目标检测模型，称之为dense-yolo v3多目标检测模型。其中，在densenet神经网络架构的浅层特征与深层特征融合过程中加入了一个cbam模块，如图3所示。使用densenet网络代替darknet53的特征提取网络架构的优势在于网络参数数量较少和更易于训练，并且densenet网络具有一定的正则化效果，使得每一层网络学到的特征图都可以被之后的其它所有层直接使用；加入cbam模块后，可以对不同通道的特征图进行权值的重新分配，以充分利用来自其他尺度的特征。
[0076]
本实施例提供的dense-yolo v3多目标检测模型基于yolo v3算法提供一种端到端的快速目标检测能力，如图4所示。视频数据输入模型前首先对视频帧进行预处理(调整输入尺寸，使得负责目标检测的网格区域中只有一个中心点)。将预处理后的视频帧输入基于densenet网络架构的模型特征提取，得到一定尺寸的特征图，使用加入了cmbam机制的特征融合网络进行特征融合，得到多尺寸的特征图，最后对得到的多尺寸特征图后接一个1x1的卷积块进行多尺度预测并输出检测结果。其中，设特征图的尺寸为s*s，则将输入的视频帧分成s*s个网格区域，每个网格主要负责去检测那些中心点落在该网格内的目标。
[0077]
步骤208，根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo v3算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0078]
在模型训练时，将使用维度聚类(k-means)算法统计用于模型训练的视频帧序列中所有给出的真实边界框(bbox，bounding box)和给定尺寸缩放比，并生成一系列不同尺寸的锚框(anchor box)。在锚框的基础上进行微调，可生成标记后的预测边界框。每一个预测边界框包含4个位置坐标，1个置信度和各类别概率。根据定义的损失函数对模型进行训练，当预测边界框和真实边界框符合度满足预设的损失函数值的限制时，得到训练好的多目标检测模型。
[0079]
步骤210，对待检测视频数据进行缩放处理，将处理后的待检测数据输入训练好的
多目标检测模型，输出包括检测边界框的视频帧序列。
[0080]
根据本实施例中使用的yolo v3算法对输入数据的要求，从无人机等视频采集平台获取实时的视频帧序列数据，并对获得的视频帧序列中的各视频帧进行预处理。预处理包括将视频帧的尺寸(即各边的像素数量)调整为32的整数倍，并对调整后的视频帧进行图像增强处理。
[0081]
将预处理后的图片输入训练好的多目标检测模型，由densenet网络提取特征信息，并基于cbam模块进行浅层特征与深层特征融合，对融合得到的不同尺寸特征图后接一个1x1的卷积块，得到预测边界框。
[0082]
步骤212，基于非极大值抑制技术保留置信值高于预设值的检测边界框，将包括检测边界框的视频帧序列输入预先训练好的外观特征提取网络，对检测边界框中的视频帧数据进行特征提取，得到对应的外观特征向量。
[0083]
根据每一个预测边界框的置信值与该预测边界框中所有可能的类别概率，得到每个预测边界框的类别得分，输出某个类别下最高得分对应的预测边界框，并删除该类别下低于给定的阈值得分的预测边界框。然后利用非极大值抑制(nms，non-maximum suppression)算法进一步处理剩余的预测边界框，筛选出置信度得分较高的预测边界框作为多目标检测的输出结果。
[0084]
将检测边界框中的视频帧数据输入预先训练好的外观提取模型，得到对应的外观特征向量。
[0085]
步骤214，基于检测边界框的位置和对应的外观特征向量，使用deep sort算法对检测边界框进行帧间关联，得到多目标跟踪结果。
[0086]
如图5所示，本实施例采用deep sort跟踪算法来确保目标跟踪的鲁棒性，主要是因为该算法将检测边界框和跟踪边界框间的iou、目标外观特征、运动特征等信息都加入到匈牙利算法中进行线性分配以便在帧间关联目标id，可以有效减少目标id交换频繁的情况。
[0087]
具体地，获取相邻视频帧中的检测边界框和外观特征向量。使用卡尔曼滤波器对相邻视频帧中检测边界框进行运动信息关联，使用匈牙利算法对相邻视频帧中外观特征向量进行关联。
[0088]
视频帧间的检测边界框的关联方法如图6所示，具体过程包括：
[0089]
获取视频帧序列中的第一个视频帧，读取检测边界框的位置及检测边界框中图像的特征向量。根据置信度阈值分数初步筛选候选检测边界框，并利用非极大值抑制算法进一步筛选候选边界框，即对置信度不足够高的检测边界框及特征予以删除，并消除一个目标上有多个检测边界框的情况(即消除相互重合的检测框)。由于第一个视频帧中不存在根据多视频帧间关联的检测边界框标记出的跟踪边界框，所以初始化卡尔曼滤波器中一系列运动变量，并创建与检测边界框对应的跟踪边界框。
[0090]
对于后续的视频帧，同时基于检测框位置进行运动信息关联，以及基于外观特征向量进行外观特征关联。运动信息关联主要通过卡尔曼滤波进行，利用卡尔曼滤波器得到由前一各视频帧中的跟踪边界框与当前一帧中的检测边界框的和协方差预测。本实施例中，外观特征关联是通过深度特征提取网络和匈牙利匹配算法实现的，由训练好的外观特征提取网络对当前视频帧的检测边界框进行外观特征向量提取，然后使用匈牙利算法进行
匹配，计算当前帧检测边界框与上一帧跟踪边界框之间的马氏距离。
[0091]
对每一个跟踪目标，记录自其上一次对应的检测边界框与跟踪边界框成功关联的视频帧与当前视频帧之间的间隔视频帧数量，当一个目标的检测边界框与当前视频帧中的跟踪边界框正确关联之后，就将间隔视频帧数量设置为0。如果一个目标的间隔视频帧数量超过了预设的最大阈值，则认为对该目标的跟踪过程已结束。如果某个视频帧中的某个检测边界框始终无法与已经存在的跟踪边界框关联，则认为其可能包括了新的目标。如果新目标对应的检测边界框在其出现之后的连续多帧(本实施例中为3帧)中均有与之匹配的检测边界框，则确认该检测边界框中包括新的目标，否则就认为是出现了“虚警”，删除已经建立的该检测边界框和其对应的跟踪边界框之间的关联关系。
[0092]
用当前视频帧中匹配到的检测边界框去更新卡尔曼算法中的跟踪边界框，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出作为当前帧中的跟踪边界框。删除连续多帧未匹配的跟踪边界框，并且对未匹配的检测边界框建立对应的跟踪边界框。
[0093]
为了降低被遮挡然后再出现的目标发生的id switch次数，本实施例采用了级联匹配方法，在跟踪时对没有丢失过(间隔视频帧帧数为0)的运动轨迹优先匹配，对丢失较为久远(间隔视频帧帧数较大)的轨迹靠后匹配。在进行级联匹配之前，需要先将已经存在的跟踪边界框划分成已确认和未确认两类。
[0094]
一方面，针对已确认的跟踪边界框，按照其丢失时间(间隔视频帧帧数)从小到大的顺序，将其与当前帧中所有的检测边界框进行级联匹配。如果存在已确认跟踪边界框连续多帧未与检测边界框关联成功，则需要将其从已确认的跟踪边界框中删除。其次，计算当前帧中每个新的检测边界框的外观特征与上一帧中已确认的跟踪边界框的外观特征之间的余弦距离矩阵，并对矩阵进行运动约束。然后，计算卡尔曼滤波器预测的每个跟踪边界框与检测边界框之间的马氏距离，并在余弦距离矩阵中将对应跟踪边界框的马氏距离值设置为无穷大(高于阈值马氏距离的值)。最后，将最大距离处理后的余弦距离矩阵作为匈牙利算法的输入，得到线性匹配结果。
[0095]
另一方面，将未确认的跟踪边界框与已确认跟踪边界框中未关联的边界框联合一起与未匹配的检测边界框进行iou匹配，出现三种可能的匹配结果：检测边界框与卡尔曼跟踪边界框预测的跟踪边界框匹配成功，存在未匹配的检测边界框，以及存在未匹配的跟踪边界框。对于匹配到检测边界框的跟踪边界框，利用检测边界框去更新相应的卡尔曼滤波器参数和利用检测结果的深度特征保存在相对应的跟踪特征集当中，且当新出现的跟踪边界框连续3帧匹配到检测边界框时，则认为该跟踪边界框为确认状态。对未匹配到跟踪边界框的目标检测边界框，为之分配一个未确认的新跟踪边界框。对于未匹配到检测边界框的跟踪边界框，若该跟踪边界框是已确认跟踪边界框，且未匹配帧数超过预设数量，则将该跟踪边界框删除；若该跟踪边界框是未确定跟踪边界框，则直接将其删除。
[0096]
应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0097]
在一个实施例中，提供了一种基于深度学习的视频实时多目标检测与跟踪装置，所述装置包括：
[0098]
视频数据样本获取模块，用于获取包括真实边界框的视频数据样本。
[0099]
特征提取模块，用于将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型，基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0100]
特征融合模块，用于利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。
[0101]
模型训练模块，用于根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0102]
视频实时多目标检测与跟踪模块，用于将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0103]
其中一个实施例中，还包括多目标检测模型构建模块，用于在densenet神经网络架构的特征融合网络中加入用于浅层特征与深层特征融合的卷积块注意力模块，得到特征提取网络架构。基于特征提取网络架构构建基于yolo算法的多目标检测模型。
[0104]
其中一个实施例中，视频实时多目标检测与跟踪模块用于对待检测视频数据进行缩放处理。将处理后的待检测数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列。基于deep sort算法对视频帧序列中的检测边界框进行帧间关联，得到多目标跟踪结果。
[0105]
其中一个实施例中，还包括卷积块注意力模块构建模块，用于构建用于浅层特征与深层特征融合的卷积块注意力模块，卷积注意力模块包括一个全局池化层，一个用于降低特征维度的全连接层，一个用于学习各特征通道间非线性关系的relu激活层，一个用于放大特征维度的全连接层，以及一个输出各维度权重的sigmoid激活层。
[0106]
其中一个实施例中，视频实时多目标检测与跟踪模块用于将包括检测边界框的视频帧序列输入预先训练好的外观特征提取网络，对检测边界框中的视频帧数据进行特征提取，得到对应的外观特征向量。基于检测边界框的位置和对应的外观特征向量，使用deep sort算法对检测边界框进行帧间关联，得到多目标跟踪结果。
[0107]
其中一个实施例中，视频实时多目标检测与跟踪模块，用于将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列。基于非极大值抑制技术保留置信值高于预设值的检测边界框，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0108]
其中一个实施例中，还包括视频数据样本获取模块，用于获取用于模型训练的视频数据。使用维度聚类算法计算视频数据的各帧中的真实边界框，得到包括真实边界框的视频数据样本。
[0109]
关于一种基于深度学习的视频实时多目标检测与跟踪装置的具体限定可以参见上文中对于一种基于深度学习的视频实时多目标检测与跟踪方法的限定，在此不再赘述。上述一种基于深度学习的视频实时多目标检测与跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的
处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0110]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种一种基于深度学习的视频实时多目标检测与跟踪方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0111]
本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0112]
在一个实施例中，一种视频实时多目标检测与跟踪设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
[0113]
获取包括真实边界框的视频数据样本。
[0114]
将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型，基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0115]
利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。
[0116]
根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0117]
将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0118]
在一个实施例中，处理器执行计算机程序时还实现以下步骤：在densenet神经网络架构的特征融合网络中加入用于浅层特征与深层特征融合的卷积块注意力模块，得到特征提取网络架构。基于特征提取网络架构构建基于yolo算法的多目标检测模型。
[0119]
在一个实施例中，处理器执行计算机程序时还实现以下步骤：对待检测视频数据进行缩放处理。将处理后的待检测数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列。基于deep sort算法对视频帧序列中的检测边界框进行帧间关联，得到多目标跟踪结果。
[0120]
在一个实施例中，处理器执行计算机程序时还实现以下步骤：构建用于浅层特征与深层特征融合的卷积块注意力模块，卷积注意力模块包括一个全局池化层，一个用于降低特征维度的全连接层，一个用于学习各特征通道间非线性关系的relu激活层，一个用于放大特征维度的全连接层，以及一个输出各维度权重的sigmoid激活层。
[0121]
在一个实施例中，处理器执行计算机程序时还实现以下步骤：将包括检测边界框
的视频帧序列输入预先训练好的外观特征提取网络，对检测边界框中的视频帧数据进行特征提取，得到对应的外观特征向量。基于检测边界框的位置和对应的外观特征向量，使用deep sort算法对检测边界框进行帧间关联，得到多目标跟踪结果。
[0122]
在一个实施例中，处理器执行计算机程序时还实现以下步骤：将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列。基于非极大值抑制技术保留置信值高于预设值的检测边界框，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0123]
在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取用于模型训练的视频数据。使用维度聚类算法计算视频数据的各帧中的真实边界框，得到包括真实边界框的视频数据样本。
[0124]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
[0125]
获取包括真实边界框的视频数据样本。
[0126]
将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型，基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0127]
利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列。
[0128]
根据预设的损失函数对多目标检测模型进行训练，得到训练好的多目标检测模型。预设的损失函数为：将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0129]
将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0130]
在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在densenet神经网络架构的特征融合网络中加入用于浅层特征与深层特征融合的卷积块注意力模块，得到特征提取网络架构。基于特征提取网络架构构建基于yolo算法的多目标检测模型。
[0131]
在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对待检测视频数据进行缩放处理。将处理后的待检测数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列。基于deep sort算法对视频帧序列中的检测边界框进行帧间关联，得到多目标跟踪结果。
[0132]
在一个实施例中，计算机程序被处理器执行时还实现以下步骤：构建用于浅层特征与深层特征融合的卷积块注意力模块，卷积注意力模块包括一个全局池化层，一个用于降低特征维度的全连接层，一个用于学习各特征通道间非线性关系的relu激活层，一个用于放大特征维度的全连接层，以及一个输出各维度权重的sigmoid激活层。
[0133]
在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将包括检测边界框的视频帧序列输入预先训练好的外观特征提取网络，对检测边界框中的视频帧数据进行特征提取，得到对应的外观特征向量。基于检测边界框的位置和对应的外观特征向量，使用deep sort算法对检测边界框进行帧间关联，得到多目标跟踪结果。
[0134]
在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将待检测视频数据输入训练好的多目标检测模型，输出包括检测边界框的视频帧序列。基于非极大值抑制
技术保留置信值高于预设值的检测边界框，根据包括检测边界框的视频帧序列进行多目标跟踪。
[0135]
在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取用于模型训练的视频数据。使用维度聚类算法计算视频数据的各帧中的真实边界框，得到包括真实边界框的视频数据样本。
[0136]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0137]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0138]
以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗明柱;何速;周东旭;黄智捷;欧阳大亮;田晓涵
技术所有人：航天科工深圳（集团）有限公司
我是此专利的发明人

上一篇：一种应用于风洞试验的模型支撑装置的制作方法
上一篇：一种高度可调的林木病虫害防治输液装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。