一种基于对象空间关系的目标跟踪算法的制作方法

文档序号:22190791发布日期:2020-09-11 22:02阅读:135来源:国知局
一种基于对象空间关系的目标跟踪算法的制作方法

本发明涉及多目标跟踪的技术领域,特别涉及一种基于对象空间关系的目标跟踪算法。



背景技术:

从本质上来说,人工智能就是在模拟人类处理问题的过程。在人类的感知系统中,对目标的感知不仅包括目标的表观特征(如颜色、纹理、形状等),还包括目标的空间位置及目标间的相对关系。根据这些表观特征和空间特征,人类很容易分辨两个目标是否是同一个物体。目前的多目标跟踪算法虽然利用卷积神经网络强大的信息捕捉能力取得了不错的跟踪效果,但从人类感知系统的角度来看,大多数多目标跟踪算法仅仅模拟了人类对目标表观特征的感知。因此,在目标表观特征相似性比较大的场景下,跟踪效果将会有所降低。

目前大部分多目标跟踪算法都基于判别式跟踪(tracking-by-detection)模式,即在检测的基础之上进行跟踪,判别式跟踪模式主要包含两个步骤:1)用目标检测算法检测出连续图像中的目标;2)用数据关联算法将检测到的目标与已存在的轨迹关联起来。在实际应用中,根据具体需求选择一阶段目标检测算法或两阶段目标检测算法,然后使用某种数据关联算法实现目标跟踪的目的。

在目标关联算法中,常用的是匈牙利算法及其变体。sort利用fasterr-cnn作为目标检测算法,基于目标框位置和iou的匈牙利算法作为数据关联算法,并结合卡尔曼滤波的预测状态,实现了实时多目标跟踪。然而由于sort对物体遮挡问题几乎没有处理,导致频繁出现id切换,降低了遮挡情况下跟踪的准确性。因此deepsort加入了一个小的表观特征提取模型来处理遮挡问题,并使用级联匹配来提高目标关联的精度,提升对遮挡目标的跟踪效果。

卷积神经网络在其他任务上的出色表现吸引了研究者们的目光,dan利用vgg-16提取检测到的目标特征,摒弃传统数据关联算法,将卷积神经网络引入到数据关联任务上来。利用卷积神经网络强大的信息提取能力来捕获目标特征间的相似性,以达到目标跟踪的目的。然而,dan使用1×1卷积沿目标表观特征向量的通道维度逐渐降维映射至一个二维矩阵,即为目标间表观特征相似矩阵。这个矩阵编码了目标间的特征相似性,却丢失了目标间的空间关系。

然而,目标间的空间关系对于目标跟踪来说不可忽视,只依据目标表观特征的相似性来决定目标间的关联性是比较片面的,当图像中两个目标的表观特征向量相似时,只利用目标表观特征的跟踪算法将产生疑惑,容易导致跟踪错误,例如当某一个目标一直在图像右下方静止不动,然而算法误认为它与图像左上方的一个目标有关联,因此如何考虑目标表观特征和空间关系在目标跟踪中的作用,以进一步提升目标跟踪的效果显得尤为重要。



技术实现要素:

针对现有技术存在的上述问题,本发明的要解决的第一个技术问题是:为了提升目标跟踪的效果,本文提出了一种基于对象空间关系的目标跟踪算法,在目标表观特征相似矩阵上增加了目标对象的空间关系,来模拟人类对目标空间特征的感知。

本发明公开了一种基于对象空间关系的目标跟踪算法,其具体包括以下步骤:

g1、以图像的特征和目标在图像中的位置作为输入,并利用五层卷积小网络来捕获两帧图像中目标的关联性,最终获得目标间的特征相似矩阵;

g2、获取目标中心点的距离作为目标间的空间相似矩阵,将空间相似矩阵与特征相似矩阵做哈达玛积,同时计算目标的关联性,防止将表观特征相似性大但空间位置相距较远的目标进行错误关联,最终得到目标跟踪结果。

为了方便操作,所述目标间的特征相似矩阵的具体步骤如下:

s1、获取以ft、ft+n作为模型输入,时间间隔为n的两帧图像,然后从轻量级行人检测模型骨干网络得到第8倍下采样、第16倍下采样和第32倍下采样特征图的集合,其通道数分别为384、192、96;

s2、获取以bt、bt+n作为模型输入,时间间隔为n的两帧图像中所有行人目标框的集合,再经过特征降维之后三层特征图的通道数降为192、96、48;将行人目标框bt、bt+n转换为目标中心点坐标,在三层特征图上分别找到对应的特征点,同一目标的三个特征点按通道拼接在一起作为目标的特征向量,每个目标的特征向量维度为336;t表示自然数;

s3、获取每帧图像中能够同时跟踪到的最大目标数量nmax,nmax设为80,然后根据公式(1)、公式(2)获得两帧图像中的所有目标特征向量构成的特征矩阵;

其中:当图像中目标数小于nmax时,特征矩阵用零填充,中的第i行表示t时刻图像帧中第i个目标的特征;

s4、根据公式(3),获得由中所有目标向量穷举排列,并按通道拼接得到的混合特征向量;

其中:fper的第i行第j列个元素是由中第i行特征向量与中第j行特征向量在通道维度拼接得到的,fper中每个元素的维度为672;

s5、然后将由5个卷积核为1×1的普通卷积模块组成的小网络定义为mapnet,用来捕获目标表观特征的相似性,其中通道数分别为336、168、84、42、1,同时在整个网络中不改变输入特征图的分辨率;

s6、最后按照公式(4)模型输出,并进行编码两帧图像目标间特征的相似程度,以此获得目标间的特征相似矩阵;

其中:r表示集合,中第i行表示t时刻图像帧中第i个目标的特征与t+n时刻图像帧中所有目标的特征间的相似性,第j列表示t+n时刻图像帧中第j个目标的特征与t时刻图像帧中所有目标的特征间的相似性,上述各个步骤中涉及到的t表示自然数。

为了方便操作,所述空间相似矩阵的具体计算步骤如下:

k1、将bt、bt+n作为轻量级行人目标检测模型得到的目标框,center作为每个目标的中心坐标,为t时刻图像帧中的目标与t+n时刻图像帧中的目标的空间相似性,si,j为的简写,表示t时刻图像帧中第i个目标与t+n时刻图像帧中第j个目标的空间相似性,然后将si,j按以下计算方式为:

其中di,j∈(0,1)为t时刻图像帧中第i个目标与t+n时刻图像帧中第j个目标间的归一化距离,即图像上欧式距离与图像对角线距离的比值,其中图像的对角线为两个目标在图像中的最大距离;

k2、得到两个目标之间的空间距离之后,使用一个简单的径向基函数e-x带入公式(6.1)中将目标间的空间距离转化为空间相似性。

为了屏蔽图像分辨率不同带来的误差,增加模型的鲁棒性,需要将目标在图像上的欧式距离做归一化处理,同时公式(6.1)也是一个归一化操作后,将目标间的空间相似性归一化到目标最大空间相似性与最小空间相似性区间,两个目标的欧式距离经过归一化之后,最小距离为0,其中中心点重叠,相似性最大:e0=1;最大距离为1,即中心点分别位于图像的对角点,相似性最小:e-1

为了方便操作,空间相似矩阵st,t+n中的每一行代表t时刻图像帧中的某目标与t+n时刻图像帧中所有目标的空间相似性,每一列代表t+n时刻图像帧中某目标与t时刻图像帧中所有目标的空间相似性,当图像中的目标数量不足nmax时,将用0填充;若超过nmax,则多于的目标将无法被跟踪,得到目标间的空间相似矩阵后,与卷积网络得到的特征相似矩阵做哈达玛积,即得到目标的综合相似性矩阵。

作为优选,上述所有n的范围为1-30s。

为了进一步实现本发明在行人目标检测说明方便理解,针对行人目标检测时对象空间关系的目标跟踪算法的具体展开步骤如下:

a1、将t时刻的图像帧输入轻量级行人目标检测模型,得到目标框bt与图像特征ft;

a2、从轻量级行人目标检测模型得到的目标框bt与图像特征ft输入卷积关联网络,从中提取当前帧的目标特征空间特征sfh

a3、若当前帧为视频的第一帧,初始化历史特征集合fh与轨迹集合tt,将当前帧的目标特征加入fh,空间特征加入sfh,为当前帧中的每个目标建立一个轨迹加入tt,转到步骤a8;若当前帧非视频的第一帧,则将当前帧的目标特征分别与fh中的所有历史帧目标特征两两配对,由卷积关联网络计算每对图像帧的目标特征相似矩阵由该特征相似矩阵得到每对图像帧的综合预测目标关联矩阵

a4、检查历史帧目标特征集合fh中的历史帧目标特征数是否达到其能存储的最大数目h:若没有,将当前帧的目标特征加入fh;若fh中的历史帧目标特征数已达到h,则移除离当前帧时间最远的那一帧的目标特征,再将当前帧的目标特征加入fh,空间特征加入sfh

a5、根据步骤a3中的综合预测目标关联矩阵计算当前帧中的目标与已存在轨迹之间的轨迹关联矩阵

a6、根据步骤a5中得到得轨迹关联矩阵更新当前时刻t已存在的确定轨迹tt和待定轨迹①若当前帧中的某目标i被分配给确定轨迹更新确定轨迹更新该确定轨迹的未成功关联目标帧数u=0;若当前帧中的某目标i被分配给待定轨迹更新待定轨迹更新该待定轨迹的成功关联目标帧数c=c+1;②若当前帧中的某目标未被分配给任何已存在轨迹,则为其建立一个新的轨迹,加入待定轨迹集合设该待定轨迹的成功关联目标帧数c=1;③若某确定轨迹在当前帧中未找到与之关联的目标,则其更新该确定轨迹的未成功关联目标帧数u=u+1;若某待定轨迹在当前帧中未找到与之关联的目标,则更新该待定轨迹的成功关联目标帧数c=0,并从待定轨迹集合中删除该轨迹,删除的轨迹为待定轨迹集合中未能与当前帧中任一目标关联的轨迹;

a7、检查确定轨迹集合tt与待定轨迹集合①若确定轨迹集合tt中某轨迹的未成功关联目标帧数u超过阈值δw,则认为该目标离开图像,从确定轨迹集合tt中删除该轨迹;②若待定轨迹集合某轨迹的成功关联目标帧数c超过阈值δd,则认为该目标是新进入图像的目标,将该轨迹加入确定轨迹集合tt,设此确定轨迹的未成功关联目标帧数u=0,并从待定轨迹集合中删除该轨迹,删除的轨迹即为待定轨迹集合中已连续帧有目标与其关联的轨迹此时的确定轨迹,集合tt即为t时刻的行人目标跟踪结果;

a8、令t=t+1,获取下一时刻的图像帧。

本发明得到的一种基于对象空间关系的目标跟踪算法,能够改善只利用目标表观特征的目标跟踪算法在目标表观特征相似性大而空间特征相似性小的场景下出现的跟踪效果降低的问题。

附图说明

图1为一种基于对象空间关系的目标跟踪算法的连接示意图;

图2为卷积关联网络结构示意图;

图3为空间相似矩阵示意图;

图4为基于对象空间关系的目标跟踪过程的结构示意图;

图5为本实施例与现有方法的对比参考图一;

图6为本实施例与现有方法的对比参考图二。

具体实施方式

下面对本发明作进一步详细说明。

实施例1:

参见图1,本实施例本发明公开了一种基于对象空间关系的目标跟踪算法,其具体包括以下步骤:

g1、以图像的特征和目标在图像中的位置作为输入,并利用五层卷积小网络来捕获两帧图像中目标的关联性,最终获得目标间的特征相似矩阵;

g2、获取目标特征相似矩阵得到的结果的约束作为目标间的空间相似矩阵,将空间相似矩阵与特征相似矩阵做哈达玛积,同时计算目标的关联性,防止将表观特征相似性大但空间位置相距较远的目标进行错误关联,最终得到目标跟踪结果。

为了方便操作,所述目标间的特征相似矩阵的具体步骤如下:

s1、获取以ft、ft+n作为模型输入,时间间隔为n的两帧图像,然后从轻量级行人检测模型骨干网络得到第8倍下采样、第16倍下采样和第32倍下采样特征图的集合,其通道数分别为384、192、96;

s2、获取以bt、bt+n作为模型输入,时间间隔为n的两帧图像中所有行人目标框的集合,再经过特征降维之后三层特征图的通道数降为192、96、48;将行人目标框bt、bt+n转换为目标中心点坐标,在三层特征图上分别找到对应的特征点,同一目标的三个特征点按通道拼接在一起作为目标的特征向量,每个目标的特征向量维度为336;t表示自然数;

s3、获取每帧图像中能够同时跟踪到的最大目标数量nmax,nmax设为80,然后根据公式(1)、公式(2)获得两帧图像中的所有目标特征向量构成的特征矩阵;

其中:当图像中目标数小于nmax时,特征矩阵用零填充,中的第i行表示t时刻图像帧中第i个目标的特征;obj是一种3d模型文件的意思,属于现有技术中的描述,故此不做具体描述。

s4、根据公式(3),获得由中所有目标向量穷举排列,并按通道拼接得到的混合特征向量;

其中:fper的第i行第j列个元素是由中第i行特征向量与中第j行特征向量在通道维度拼接得到的,fper中每个元素的维度为672;per是每个的意思。

s5、然后将由5个卷积核为1×1的普通卷积模块组成的小网络定义为mapnet,用来捕获目标表观特征的相似性,其中通道数分别为336、168、84、42、1,同时在整个网络中不改变输入特征图的分辨率;

s6、最后按照公式(4)模型输出,并进行编码两帧图像目标间特征的相似程度,以此获得目标间的特征相似矩阵;

其中:第i行表示t时刻图像帧中第i个目标的特征与t+n时刻图像帧中所有目标的特征间的相似性,第j列表示t+n时刻图像帧中第j个目标的特征与t时刻图像帧中所有目标的特征间的相似性上述各个步骤中涉及到的t表示自然数。

为了方便操作,所述空间相似矩阵的具体计算步骤如下:

k1、将bt、bt+n作为轻量级行人目标检测模型得到的目标框,center作为每个目标的中心坐标,为t时刻图像帧中的目标与t+n时刻图像帧中的目标的空间相似性,si,j为的简写,表示t时刻图像帧中第i个目标与t+n时刻图像帧中第j个目标的空间相似性,然后将si,j按以下计算方式为:

其中di,j∈(0,1)为t时刻图像帧中第i个目标与t+n时刻图像帧中第j个目标间的归一化距离,即图像上欧式距离与图像对角线距离的比值,其中图像的对角线为两个目标在图像中的最大距离;

k2、得到两个目标之间的空间距离之后,使用一个简单的径向基函数e-x带入公式(6.1)中将目标间的空间距离转化为空间相似性,其中径向基函数e-x的x即为di,j;且范围为di,j∈(0,1)。

为了屏蔽图像分辨率不同带来的误差,增加模型的鲁棒性,需要将目标在图像上的欧式距离做归一化处理,同时公式(6.1)也是一个归一化操作后,将目标间的空间相似性归一化到目标最大空间相似性与最小空间相似性区间,两个目标的欧式距离经过归一化之后,最小距离为0,其中中心点重叠,相似性最大:e0=1;最大距离为1,即中心点分别位于图像的对角点,相似性最小:e-1。本实施例中的其他数据均代表现有数据,故此不做具体描述。

为了方便操作,空间相似矩阵st,t+n中的每一行代表t时刻图像帧中的某目标与t+n时刻图像帧中所有目标的空间相似性,每一列代表t+n时刻图像帧中某目标与t时刻图像帧中所有目标的空间相似性,当图像中的目标数量不足nmax时,将用0填充;若超过nmax,则多于的目标将无法被跟踪,得到目标间的空间相似矩阵后,与卷积网络得到的特征相似矩阵做哈达玛积,即得到目标的综合相似性矩阵。

作为优选,上述所有n的范围为1-30s。

由于目标遮挡与轨迹的产生与消亡问题是每个多目标跟踪算法都必须考虑的问题。在实施例中,如果一个轨迹在连续δw帧中都没有目标与之关联,则认为其已离开图像,从轨迹集合中删除该轨迹;如果在δw帧之内重新找到与之关联的目标,则认为跟踪目标存在遮挡,继续对该轨迹进行更新。对于不能与轨迹集合中任何轨迹关联的目标,可能是新进入图像的目标,也可能是误检目标。因此不立即将其加入轨迹集合,而是放入一个待定轨迹集合,如果之后连续δd帧中都能找到与之关联的目标,则认为其是新进入图像的目标,将该轨迹加入轨迹集合。

因此本实施例使用轨迹集合tt来表示t时刻存在的确定轨迹,表示t时刻存在的待定轨

迹,表示t时刻存在的第k个确定轨迹,表示t时刻存在的第k个待定轨迹。每个轨迹都是二元组(frame_id,object_id)的集合,表示第frame_id帧图像中第object_id个目标属于该轨迹,如:表明第0帧中的第1个目标、第1帧中的第3个目标、第2帧中的第2个目标、第3帧中的第2个目标均属于t时刻的第一个轨迹,即它们是同一个跟踪目标,

此外,本实施例还使用了一个历史帧目标特征集合fh来存储历史目标特征,一个历史帧目标空间位置集合sfh来存储历史帧的目标空间位置,和一个轨迹关联矩阵来描述当前帧检测到的目标与已存在轨迹间关联的概率,函数count(·)表示计算集合中元素个数,dt为当前帧检测到的目标集合。令当前帧目标特征与分别于f中存储的所有历史目标特征(共h帧)两两计算综合预测目标关联矩阵是由额外增加一列的得到的。超参数h用来控制f中能存储的最大历史帧目标特征的数目。在f中存储的所有历史帧中的目标都已与属于已存在的某确定轨迹或某待定轨迹因此当前帧中第i个目标与某历史帧中的第j个目标关联的概率,即为当前帧中目标i与历史帧中目标j所属轨迹关联的概率,而轨迹关联矩阵中的每个元素,是从当前帧中某目标分别与h帧历史帧目标的目标关联矩阵计算得到的轨迹关联概率之和,根据轨迹关联矩阵,就能够将已存在的轨迹与当前帧中的目标关联起来,从而达到目标跟踪的目的,综上,设计的行人目标跟踪策略如下:

如图4所示,为了进一步实现本发明在行人目标检测说明方便理解,针对行人目标检测时对象空间关系的目标跟踪算法的具体展开步骤如下:

a1、将t时刻的图像帧输入轻量级行人目标检测模型,得到目标框bt与图像特征ft;

a2、从轻量级行人目标检测模型得到的目标框bt与图像特征ft输入卷积关联网络,从中提取当前帧的目标特征空间特征sfh

a3、若当前帧为视频的第一帧,初始化历史特征集合fh与轨迹集合tt,将当前帧的目标特征加入fh,空间特征加入sfh,为当前帧中的每个目标建立一个轨迹加入tt,转到步骤a8;若当前帧非视频的第一帧,则将当前帧的目标特征分别与fh中的所有历史帧目标特征两两配对,由卷积关联网络计算每对图像帧的目标特征相似矩阵由该特征相似矩阵得到每对图像帧的综合预测目标关联矩阵

a4、检查历史帧目标特征集合fh中的历史帧目标特征数是否达到其能存储的最大数目h:若没有,将当前帧的目标特征加入fh;若fh中的历史帧目标特征数已达到h,则移除离当前帧时间最远的那一帧的目标特征,再将当前帧的目标特征加入fh,空间特征加入sfh

a5、根据步骤a3中的综合预测目标关联矩阵计算当前帧中的目标与已存在轨迹之间的轨迹关联矩阵

a6、根据步骤a5中得到得轨迹关联矩阵更新当前时刻t已存在的确定轨迹tt和待定轨迹①若当前帧中的某目标i被分配给确定轨迹更新确定轨迹更新该确定轨迹的未成功关联目标帧数u=0;若当前帧中的某目标i被分配给待定轨迹更新待定轨迹更新该待定轨迹的成功关联目标帧数c=c+1;②若当前帧中的某目标未被分配给任何已存在轨迹,则为其建立一个新的轨迹,加入待定轨迹集合设该待定轨迹的成功关联目标帧数c=1;③若某确定轨迹在当前帧中未找到与之关联的目标,则其更新该确定轨迹的未成功关联目标帧数u=u+1;若某待定轨迹在当前帧中未找到与之关联的目标,则更新该待定轨迹的成功关联目标帧数c=0,并从待定轨迹集合中删除该轨迹;

a7、检查确定轨迹集合tt与待定轨迹集合①若确定轨迹集合tt中某轨迹的未成功关联目标帧数u超过阈值δw,则认为该目标离开图像,从确定轨迹集合tt中删除该轨迹;②若待定轨迹集合某轨迹的成功关联目标帧数c超过阈值δd,则认为该目标是新进入图像的目标,将该轨迹加入确定轨迹集合tt,设此确定轨迹的未成功关联目标帧数u=0,并从待定轨迹集合中删除该轨迹,此时的确定轨迹集合tt即为t时刻的行人目标跟踪结果;

a8、令t=t+1,获取下一时刻的图像帧。

本实施例的实验环境为ubuntu16.04.6lts(硬件系统),geforcegtx2080tigpu(硬件设备),在mot17数据集上进行训练,训练过程共迭代8万步,batch设为8,初始学习率为0.01,并在第33200步、53120步及66400步将学习率调为原来的1/10,每帧图像能同时跟踪的最大目标数nmax设为80,历史帧目标特征集合fh与历史帧目标空间位置集合sfh中能存储的最大历史帧数h设为15,确定轨迹未成功关联目标的最大帧数δw设为12,待定轨迹成功关联目标的最小帧数δd设为3。

然后将本实施例的基于对象空间关系的目标跟踪结果与mot17上的部分跟踪算法结果对比如表1所示,实验表明本文设计的基于对象空间关系的目标跟踪算法在精度和速度上达到了很好的平衡,能够在对实时性要求高的场景下使用。

下表中的设计的跟踪算法均为常规跟踪算法的英文简称,均能够书籍或百度中查询获得,故此不做具体描述。表1mot17测试集跟踪结果对比

如图5、6所示,同时将本实施例的算法(sba)与只现有技术技术中只使用表观特征的目标跟踪算法(n-sba)的训练过程进行对比发现每一幅中下面的曲线为n-sba,上面曲线为sba,本实施例的方法在精度和速度上达到了很好的平衡,能够在对实时性要求高的场景下使用。因此,通过实验表明,本实施例的算法能够改善只利用目标表观特征的目标跟踪算法在目标表观特征相似性大而空间特征相似性小的场景下出现的跟踪效果降低的问题,因此本发明针对目前存在的目标跟踪算法在进行目标关联的过程中只利用目标表观特征,而丢失了目标空间信息的问题,设计了基于对象空间关系的目标跟踪算法并通过实验表明,基于对象空间关系的目标跟踪算法取得了良好的跟踪效果,并在跟踪精度和跟踪速度上达到了一个很好的平衡。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1