一种多目标检测追踪方法与流程

文档序号:33646825发布日期:2023-03-29 04:38阅读:62来源:国知局
一种多目标检测追踪方法与流程

1.本发明属于计算机视觉多目标追踪应用领域,具体涉及一种多目标检测追踪方法。


背景技术:

2.在计算机视觉领域,多目标追踪(multiple object tracking,简称mot)是指在给定连续多帧图片中对多个感兴趣的目标进行图像定位,赋予并维持它们的唯一id的过程,通过这个唯一id,可以在连续不同帧对同一物体进行追踪。
3.多目标追踪在智能监控、自动驾驶、虚拟现实和娱乐互动、医疗等领域都有重要的应用,因其学术和商业潜力,在计算机视觉中逐渐备受关注。比如在智能监控领域,通过对人员进行定位追踪,复原其行动轨迹,并通过对人员、车辆的追踪,预测其下一步的运动轨迹并进行预警,从而避免碰撞事故的发生。
4.虽然今天已经有各种方法处理多目标追踪问题,但是诸如目标重叠丢失、目标外观剧烈变化、目标检测的鲁棒性、处理速度的实时性不足等问题仍然是其面临的重大挑战。
5.因此,基于上述问题,本发明提供一种多目标检测追踪方法。


技术实现要素:

6.发明目的:本发明的目的是提供一种多目标检测追踪方法,解决背景技术中传统方法所存在的问题。
7.技术方案:本发明提供的一种多目标检测追踪方法,包括以下步骤,步骤(1)、用数据获取装置获得待检测的目标物的实时数据,并对获得的实时数据进行预处理,得到预处理数据信息;步骤(2)、将预处理图像数据输入至预先训练的端到端深度神经网络模型,预测该图像中的目标框和每个目标框表示身份的特征向量,得到预测框;步骤(3)、对于第一帧,将所述目标框和特征向量标记为检测框,为每个检测框赋予一个追踪id,对于第一帧之后的每一帧,用卡尔曼滤波器预测之前的检测框在当前帧中的运动状态,然后与深度神经网络模型在当前帧预测的目标框的位置和特征向量相比较,计算加权距离矩阵;步骤(4)、根据距离矩阵,用匈牙利算法匹配当前帧的预测框和检测框的id,并更新每个检测框的运动状态和特征向量。
8.本技术方案的,所述步骤(1)中的实时数据为视频流或连续图片,预处理为对视频截取每一帧图像进行预处理,所述步骤(3)中当前帧中的运动状态包括但不仅限于位置、速度。
9.本技术方案的,所述步骤(1)中用摄像头获取待检测的目标物的实时视频,对视频截取每一帧图像,包括通过预设的接口获取网络摄像头采集的视频流,并将所述视频流转化为3通道rgb矩阵格式的图片,将转化后的图片作为待检测的图片;所述预处理将所述图片进行预处理,首先基于预设的感兴趣区域,裁剪所述图片的感兴趣区域部分,然后将裁剪后的图片进行扩边缩放为预设的宽度和高度,扩边缩放将保持原图的比例,并将比例不足
的部分用黑色填充,最后将缩放后的图片进行归一化处理。
10.本技术方案的,所述端到端深度神经网络模型,是一个在darknet网络基础上,增加了嵌入层的网络模型,具体包括依序连接的一个卷积单元,res1单元,res2单元,res8单元,第1分支点,res8单元,第2分支点,res4单元,两个bottle单元,一个卷积单元,第3分支点,卷积单元,上采样单元;上采样单元的输出与第2分支点进行拼接后,依序连接两个bottle单元,一个卷积单元,第4分支点,卷积单元,上采样单元,该上采样单元的输出与第一个分支点进行拼接后,依序连接3个bottle单元,box层,最后一个bottle单元的中间输出连接一个嵌入层,与box层的输出拼接后连接第1个输出层;第4分支点分别连接一个嵌入层和一个卷积单元、box层,再拼接后连接第2个输出层;类似的,第3个分支点分别连接一个嵌入层和一个卷积单元、box层,再拼接后连接第3个输出层。
11.本技术方案的,所述卷积单元,包括依序连接的一个卷积层,一个batch normalization层,一个leaky relu层;所述bottle单元,包括依序连接的两个卷积单元,其中第1个卷积单元的感受野为1
×
1,卷积核数量为前一层网络层卷积核数量的一半,步长为1,第2个卷积单元的感受野为3
×
3,卷积核数量为第1个卷积单元的两倍,步长为1;所述resn单元(n代表任意正整数),包括:依序连接的一个卷积单元和n个skip bottle单元;所述skip bottle单元,包括:输入分为两个分支,一支连接两个卷积单元,然后与另一支相加,组成残差结构;所述box层,为一个感受野为1
×
1、卷积核数为6的卷积层,用于表征网格目标的位置、置信度、类别;所述嵌入层,为一个感受野为3
×
3、卷积核数为512的卷积层,用于表征网格目标的512维id特征向量。
12.本技术方案的,所述每个输出层,其输入分别为一个三维张量的特征图,不同长、宽值的特征向量对应预测原图中不同网格位置的目标物,特征图边长不同,对应预测原图中不同大小尺度的目标物;每一个长、宽值的特征向量维度相同,包含该位置处目标框的坐标偏置值、宽高偏置值、存在目标的概率、目标属于不同类别概率以及表示目标id的512维特征向量;使用预设的锚框,经过坐标回归处理和特征归一化处理后,其输出为n
×
518的向量,其中n为该输出层的网格数,518为目标物的位置、置信度、类别和512维归一化的id特征向量;经过非极大值抑制处理后,去除低置信度以及重复检测的目标,得到最终检测结果。
13.本技术方案的,对于第一帧,将所述深度神经网络输出的目标框和对应的特征向量标记为检测框,为每个检测框赋予一个追踪id,id从0开始增加,不同的检测框id不同,id代表该检测框的唯一身份。
14.本技术方案的,对于第一帧之后的每一帧,用卡尔曼滤波器预测之前的检测框在当前帧中的运动状态,将检测框与深度神经网络模型在当前帧预测的目标框的位置和特征向量相比较,计算加权距离矩阵;其中,算加权距离矩阵包括以下步骤,步骤(1)、用卡尔曼滤波器预测之前的检测框在当前帧的运动状态,作为当前帧需要匹配的检测框;步骤(2)、用深度神经网络模型预测当前帧中目标框的位置和512维特征向量,计算所述检测框与预测目标框的512维特征向量的l2距离矩阵;步骤(2)、计算所述检测框和预测框的运动匹配关系的马氏距离矩阵,将两个距离矩阵加权求和,得到最终的距离矩。
15.本技术方案的,根据距离矩阵,用匈牙利算法匹配当前帧的预测框和检测框的id,并更新每个检测框的运动状态和特征向量;当成功匹配的检测框,用卡尔曼滤波器更新其在当前帧的运动状态,用滑动平均法更新其特征向量;当未匹配到的检测框和预测框,计算
其交并比距离矩阵,第二次用匈牙利算法进行匹配,若仍未匹配到的检测框标记为丢失框,仍未匹配到的预测框初始化为新的检测框,赋予新的id,同时刚标记为丢失框的检测框仍然参与后面帧的跟踪匹配计算,若在一定时间阈值内重新匹配到预测框,则去掉丢失框标记;如果某检测框连续丢失的帧数超过该时间阈值,则将该检测框移除,不再对其进行跟踪匹配计算。
16.本技术方案的,采用多个视频的连续帧对所述端到端深度神经网络模型进行训练,训练时采用包括但不限于图像马赛克增强、对比度增强、高斯模糊、高斯噪声、色彩倍增、仿射变换、超像素、锐化、随机擦除、随机曝光图像数据增强方法,使模型具有更好的鲁棒性。
17.与现有技术相比,本发明的一种多目标检测追踪方法的有益效果在于:既解决实时的多目标追踪问题,又解决了目标重叠丢失、目标外观剧烈变化、目标检测的鲁棒性等问题,实现智能监控系统、自动驾驶系统、虚拟现实系统和娱乐互动系统、医疗系统等领域安全的应用。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本发明的一种多目标检测追踪方法的流程示意图;
20.图2是本发明的一种多目标检测追踪方法的端到端深度神经网络模型的结构示意图;
具体实施方式
21.下面将结合实施例对发明技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.在本发明的描述中,需要说明的是,术语“顶部”、“底部”、“一侧”23.、“另一侧”、“前面”、“后面”、“中间部位”、“内部”、“顶端”、“底端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
24.如图1所示的为本发明实施例提供的一种多目标检测追踪方法的流程示意图,该
方法可以由网络摄像机以及用于运行深度学习算法的电子设备来执行,且满足边缘部署的实时处理需求。
25.该方法具体包括如下步骤:
26.步骤1、数据获取装置获取待处理的连续图片(获取待检测的目标物,包括但不限于人员、车辆等等的实时视频)。其中,电子设备获取的待处理的图片,可以是电子设备本地存储的连续图片,还可以是与电子设备进行通讯的图像采集模块实时采集的连续图片;其中,电子设备可以包括但不限于手机、平板电脑、计算机、边缘处理器、智能摄像机和服务器等。
27.其中,采集图片的方法包括:通过预设接口获取网络摄像机采集的视频流,将视频流转化为3通道矩阵格式的rgb图片,将转化完成的图片作为待处理的图片。
28.步骤2、将第一步获取到的rgb图片进行预处理,包括:基于预设的感兴趣区域,裁剪所述图片的感兴趣区域部分;将裁剪后的图片进行扩边缩放为预设的宽度和高度,扩边缩放将保持原图的比例,将比例不足的部分用黑色填充;将缩放后的图片进行归一化处理。
29.步骤3、裁剪图片可以过滤掉无用的图片区域,使待检测的目标占图片的比例更大,减小后续的深度学习算法识别待检测的目标的难度。将裁剪后图片缩放为预设的宽度和高度以及归一化处理是为了适配后续的算法的输入宽度和高度以及算法的输入归一化要求,实现算法的最佳检测精度。
30.步骤4、将第3步得到的预处理图片输入至预先训练的端到端深度卷积神经网络模型,输出图像中的目标框位置坐标和每个目标框表示身份的512维特征向量;
31.其中,深度神经网络(dnn)模型是机器学习领域中的一种技术,是一种以人工神经网络为架构,对数据资料(比如图像、声音、文字等)进行表征学习的算法。而卷积神经网络(cnn)是一种尤其善于提取图像特征的神经网络架构,被广泛应用在图像识别、目标检测等领域并带来了显著的突破性进展。
32.如图2所示为本发明中的预先训练的深度卷积神经网络模型的结构图,
33.输入为预处理后的图片,输出为图像中的目标框位置坐标和每个目标框表示身份的512维特征向量,是一个在darknet网络基础上,增加了嵌入层的端到端的多任务神经网络,包括:依序连接的一个卷积单元,res1单元,res2单元,res8单元,第1分支点,res8单元,第2分支点,res4单元,两个bottle单元,一个卷积单元,第3分支点,卷积单元,上采样单元;上采样单元的输出与第2分支点进行拼接后,依序连接两个bottle单元,一个卷积单元,第4分支点,卷积单元,上采样单元;该上采样单元的输出与第一个分支点进行拼接后,依序连接3个bottle单元,box层,最后一个bottle单元的中间输出连接一个嵌入层,与box层的输出拼接后连接第1个输出层。第4分支点分别连接一个嵌入层和一个卷积单元、box层,再拼接后连接第2个输出层;类似的,第3个分支点分别连接一个嵌入层和一个卷积单元、box层,再拼接后连接第3个输出层。
34.其中,所述卷积单元,包括:依序连接的一个卷积层,一个批量归一化层(batch normalization)层,一个leaky relu层。利用批量归一化层对特征进行归一化后,原来范数比较小的特征会获得更大的梯度,降低梯度爆炸的风险,同时保证了深度神经网络随着网络深度加深的收敛速度,加快了特征提取模型的学习速率,leaky relu层作为激励函数可以给神经网络引入非线性因素,也可以缓解梯度消失的问题。
35.其中,所述bottle单元,包括:依序连接的两个卷积单元,其中第1个卷积单元的感受野为1
×
1,卷积核数量为前一层网络层卷积核数量的一半,步长为1,第2个卷积单元的感受野为3
×
3,卷积核数量为第1个卷积单元的两倍,步长为1,该单元可以压缩输入信息,有效地提取图像特征。
36.其中,所述resn单元(n代表任意正整数),包括:依序连接的一个卷积单元和n个skip bottle单元。
37.所述skip bottle单元,包括:输入分为两个分支,一支连接两个卷积单元,然后与另一支相加,组成残差结构。残差结构可以解决网络随着深度增加导致的训练困难、网络退化的问题,能在训练更深网络的同时,保证网络良好的性能表现。
38.其中,所述的各个分支点的拼接是借鉴了特征金子塔(feature pyramid networks,简称fpn)结构,可以在增加少量计算量的前提下,融合低分辨率的语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。
39.其中,所述box层,为一个感受野为1
×
1、卷积核数为6的卷积层,用于表征网格目标的位置、置信度、类别。所述嵌入层,为一个感受野为3
×
3、卷积核数为512的卷积层,用于表征网格目标的512维id特征向量。
40.其中,所述每个输出层,其输入分别为一个三维张量的特征图,不同长、宽值的特征向量对应预测原图中不同网格位置的目标物,特征图边长不同,对应预测原图中不同大小尺度的目标物。每一个长、宽值的特征向量维度相同,包含该位置处目标框的坐标偏置值、宽高偏置值、存在目标的概率、目标属于不同类别概率以及表示目标id的512维特征向量。使用预设的锚框,经过坐标回归处理和特征归一化处理后,其输出为n
×
518的向量,其中n为该输出层的网格数,518为目标物的位置、置信度、类别和512维归一化的id特征向量。经过非极大值抑制处理后,去除低置信度以及重复检测的目标,得到最终检测结果。其中预设的锚框可以通过对预设的数据集的标注框进行k-means聚类算法获得。
41.该神经网络通过预设的数据集进行预先训练,从而学习到提取图像中目标位置和身份特征的能力。预设的数据集,可以但不限于通过以下方式获得:现场采集图像,并人工标注目标的位置和唯一id;然后将图像和标注按预设的比例分为训练集、验证集和测试集。训练网络模型时,对数据集采用颜色随机增强,随机平移、旋转、拉伸、错切增强,从而增强网络的鲁棒性;使用adam优化器进行反向传播训练,目标位置和置信度、类别输出用交叉熵损失函数训练,身份特征向量经过一个全连接层,输出id的类别概率,然后采用交叉熵损失函数训练。合并所有损失(loss)时,用可学习的参数,采用任务依赖的不确定性动态赋予每个损失的权重。
42.步骤4中深度神经网络模型预测得到目标框后,对于第一帧,将目标框和对应的特征向量标记为检测框,为每个检测框赋予一个追踪id,id从0开始增加,不同的检测框id不同,id代表该检测框的唯一身份。对于第一帧之后的每一帧,用卡尔曼滤波器预测之前的检测框在当前帧的运动状态(位置、速度等参数),作为当前帧需要匹配的检测框;用深度神经网络模型预测当前帧中目标框的位置和特征向量,计算所述检测框与预测目标框的512维特征向量的l2距离矩阵;同时计算所述检测框和预测框的运动状态的马氏距离矩阵,将两个距离矩阵通过预设的权重进行加权求和,得到最终的距离矩阵。
43.根据所述距离矩阵,用匈牙利算法匹配当前帧的预测框和检测框的id;对于成功
匹配的检测框,根据所匹配的预测框的位置,用卡尔曼滤波器更新其在当前帧的运动状态;根据所匹配的预测框的特征向量,用滑动平均法更新其特征向量;
44.未匹配到的检测框和预测框,计算其交并比距离矩阵,第二次用匈牙利算法进行匹配;第二次仍未匹配到的检测框标记为丢失框,仍未匹配到的预测框初始化为新的检测框,赋予新的id;刚标记为丢失框的检测框仍然参与后面帧的跟踪匹配计算,如果在一定时间阈值内重新匹配到预测框,则去掉丢失框标记;如果某检测框连续丢失的帧数超过该时间阈值,则将该检测框移除,不再对其进行跟踪匹配计算。
45.此外,采用多个视频的连续帧对所述端到端深度神经网络模型进行训练,训练时采用包括但不限于图像马赛克增强、对比度增强、高斯模糊、高斯噪声、色彩倍增、仿射变换、超像素、锐化、随机擦除、随机曝光图像数据增强方法,使模型具有更好的鲁棒性。
46.需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
47.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1