一种基于目标检测的目标跟踪方法及系统与流程

文档序号:20833656发布日期:2020-05-22 16:36阅读:791来源:国知局
一种基于目标检测的目标跟踪方法及系统与流程

本发明属于模式识别技术领域,更具体地,涉及一种基于目标检测的目标跟踪方法及系统。



背景技术:

目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力;目标跟踪,即在给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置。由于基于深度学习的目标检测算法具有强大的判别能力和回归能力,目标检测算法中的一些技术在基于深度学习的跟踪算法中得到了越来越多的关注和应用。

然而,直接将基于深度学习的目标检测算法应用于跟踪任务是不可行的。这是因为单目标跟踪任务,有两个不同于目标检测任务的难点。一是训练样本有限。单目标跟踪是一个无类别先验的任务,即在进行在线跟踪之前不知道目标的具体类别和形态,这使得在离线训练过程中难以找到有效的训练样本。二是单目标跟踪任务具有复杂的运动属性。不同于只需要处理静态图片的目标检测任务,单目标跟踪任务的对象是视频序列中运动的物体,物体会产生各种复杂的形态变化。

总的来说,由于目标跟踪任务与目标检测任务存在上述不同,现有的应用了目标检测技术的目标跟踪方法,并不能很好地利用目标检测算法的判别能力和回归能力,跟踪效果较差,很有可能在目标跟踪过程中丢失目标。



技术实现要素:

针对现有技术的缺陷和改进需求,本发明提供了一种基于目标检测的目标跟踪方法,其目的在于,在执行目标跟踪任务时,充分利用目标检测算法的判别能力和回归能力,实现对目标的持续、准确的跟踪。

为实现上述目的,按照本发明的第一方面,提供了一种基于目标检测的目标跟踪方法,包括:

为待跟踪目标建立目标跟踪模型,目标跟踪模型包括主干网络和推理网络;主干网络,用于提取深度特征,并在所得到的特征图上以不同尺度的候选框提取候选区域的区域特征;推理网络,用于根据区域特征为每一个候选区域打分,以得到各候选区域的检测得分,并对各候选区域进行回归,以获得更为精确的目标位置坐标;主干网络为目标检测模型中用于提取特征的网络,且已训练好;

获取待处理的目标视频中的第一帧f1,在其上通过数据增强的方式创建多个正样本,并利用所得到的正样本训练目标跟踪模型,以初始化推理网络;

在推理网络初始化之后,依次获取目标视频中的帧作为当前帧,并按照如下步骤对各帧进行目标跟踪:

(s1)利用目标跟踪模型获得待跟踪目标在当前帧中的多个候选区域,以及各候选区域的检测得分和目标位置坐标;

(s2)根据空间约束对检测得分进行修正,以得到各候选区域的跟踪得分,并将跟踪得分最高的候选区域确定为目标区域;

(s3)若目标区域的跟踪得分score>ths,则判定当前帧跟踪成功,并根据当前帧创建正、负样本,加入到样本库中;若thf≤score≤ths,则判定当前帧跟踪成功;若score<thf,则判定当前帧跟踪失败,并利用样本库中的样本对目标跟踪模型进行重新训练,以对推理网络进行在线更新;

其中,ths为预设的成功阈值,thf为预设的失败阈值;样本库用于在目标跟踪过程中存储正、负样本,初始时刻,其中样本数量为0;空间约束与待跟踪目标在当前帧及前一帧中的空间位置和尺度的变化相关。

在目标跟踪任务中,目标具有复杂的运动属性,并且可能产生各种复杂的形态变化。上下文信息是目标跟踪任务的特殊属性,目标的空间位置和大小尺寸在连续两帧之间变化不大。本发明根据上下文信息提出了短时的空间约束,在利用目标检测模型中的特征提取网络(即主干网络)得到候选区域的检测得分后,基于根据空间约束对检测得分进行修正,再根据修正得到的跟踪得分完成对目标的跟踪,能够实现对目标的准确跟踪。在某一帧中,目标跟踪失败,说明目标相对于初始状态已经发生了较大的变化,当前的目标跟踪模型已经不再适用。本发明引入了长时的在线更新策略,在跟踪过程中,会将置信度较高的样本实时存储到样本库中,并且在跟踪失败时,利用样本库中的样本对目标跟踪模型进行在线跟踪,从而目标跟踪模型能够适应目标的状态变化,继续实现对目标的准确跟踪。

总的来说,本发明根据目标的运动属性,引入短时的空间约束,能够有效防止跟踪漂移;引入长时的在线更新策略,能够适应目标的变化。因此,本发明能充分利用目标检测算法的判别能力和回归能力,实现对目标的持续、准确的跟踪。

进一步地,主干网络的训练方法包括:

建立多分支目标检测模型,其中包括特征提取网络以及离线训练网络;

特征提取网络,用于提取深度特征,并在所得到的特征图上以不同尺度的候选框提取候选区域的区域特征;

离线训练网络包括多个分支网络,每个分支网络与一个跟踪目标相对应;分支网络,用于根据区域特征为每一个候选区域进行打分,并对各候选区域进行回归,以获得更为精确的目标位置坐标;

利用标准数据集对离线训练网络进行训练,在训练结束后,将特征提取网络作为主干网络;

其中,标准数据集中,各目标实际所在的区域得分及坐标位置已知。

本发明所建立的多分支目标检测模型,包含多个目标一一对应的多个分支网络,由特征提取网络提取目标的通用特征,由各分支网络提取目标的个体特征,从而在主干网络(即多分支目标检测模型中的特征提取网络)的训练过程中,不局限于特定的目标,而是可以利用不同目标的训练样本,因此,本发明能够突破训练样本不足的限制,训练得到性能优良的主干网络,从而在执行目标跟踪任务时,能够准确提取到目标的通用特征。

进一步地,步骤(s2)中,根据空间约束对检测得分进行修正,其修正表达式为:p=p0*p1*p2;

其中,p和p0分别表示检测得分和跟踪得分;p1表示空间约束中的距离约束,目标在当前帧及前一帧中的距离越大,距离约束p1越小;p2表示空间约束中的尺度约束,目标在当前帧及前一帧中的尺度变化越大,尺度约束p2越小。

目标跟踪任务中,目标在的空间位置和尺度在连续两帧之间的变化不大,本发明根据距离约束p1和尺度约束p2对候选区域的检测得分进行修正,使得目标在当前帧及前一帧之间的距离越大、尺度变化越大,相应的候选区域的跟踪得分越小,从而该候选区域是目标区域的概率越小,与目标的运动属性相符,保证了目标跟踪的准确性。

进一步地,

其中,ct和ct-1分别表示待跟踪目标在当前帧和前一帧的中心点坐标,d=||ct-ct-1||表示两个中间点之间的欧式距离,r表示预设的中心点距离的变化范围,k1>0表示控制距离约束衰减速度的控制因子。

进一步地,

其中,γt和γt-1分别表示待跟踪目标在当前帧和前一帧的宽高比,st和st-1分别表示待跟踪目标在当前帧和前一帧的面积,k2>0表示控制尺度约束衰减速度的控制因子。

本发明在计算尺度约束p2时,同时考虑目标的面积和宽高比在当前帧及前一帧中的变化程度,能够全面、准确地捕捉到目标的尺度变化。

进一步地,在任意一帧中,待跟踪目标的面积计算公式为:

其中,s表示待跟踪目标的面积,ω和h分别表示待跟踪目标的宽和高。

本发明根据上述公式计算目标的面积,能够减少所计算的面积在高h远大于宽ω或者宽ω远大于高h的极端情况下所受到的影响。

进一步地,主干网络为特征金字塔主干网络(fpn),且主干网络提取深度特征后,所得到的特征图为第二层到第六层的输出特征图。

在常规的卷积深度网络的基础上,特征金字塔主干网络引入了自上而下的上采样操作和与同层特征的横向连接,本发明使用特征金字塔主干网络作为主干网络,可以从不同的网络层提取不同分辨率的特征。在目标跟踪任务中,目标尺寸往往较小,与传统的利用特征金字塔主干网络提取深度特征时,以第三层到第七层的输出特征图为最终的特征图相比,本发明以第二层到第六层的输出特征图为最终的特征图,在提取特征时,所使用的候选框尺寸较小,与跟踪任务中的目标尺寸相匹配,能够更为准确地提取目标的深度特征。

进一步地,步骤(s3)中,在目标区域的跟踪得分score>ths时,根据当前帧创建正、负样本,其方法包括:

从当前帧的所有候选区域中,筛选出跟踪得分高于成功阈值ths的候选区域,将筛选出的每一个候选区域连同其跟踪得分和目标位置坐标作为一个正样本;

从当前帧的所有候选区域中,筛选出跟踪得分低于失败阈值thf的候选区域,将筛选出的每一个候选区域连同其跟踪得分和目标位置坐标作为一个负样本。

本发明在目标区域的跟踪得分较高(即置信度较高)时,利用相应帧中的高于成功阈值ths的候选区域构建正样本,并存储至样本库中,从而后续能够获取到高置信度的正样本,完成对推理网络的在线更新,保证了在线更新之后,目标跟踪模型能够继续准确地跟踪目标。

进一步地,推理网络包括:分类子网络和回归子网络;

分类子网络用于根据区域特征为每一个候选区域打分,以得到各候选区域的检测得分;

归回子网络用于对各候选区域进行回归,以获得更为精确的目标位置坐标。

按照本发明的第二方面,提供了一种系统,包括:计算机可读存储介质和处理器,计算机可读存储介质用于存储可执行程序;

处理器用于读取计算机可读存储介质中存储的可执行程序,执行本发明第一方面提供的基于目标检测的目标跟踪方法。

总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:

(1)本发明根据目标的运动属性,引入短时的空间约束,能够有效防止跟踪漂移;引入长时的在线更新策略,能够适应目标的变化。因此,本发明能充分利用目标检测算法的判别能力和回归能力,实现对目标的持续、准确的跟踪。

(2)本发明所建立的多分支目标检测模型,包含多个目标一一对应的多个分支网络,由特征提取网络提取目标的通用特征,由各分支网络提取目标的个体特征,从而在主干网络(即多分支目标检测模型中的特征提取网络)的训练过程中,不局限于特定的目标,因此,本发明能够突破训练样本不足的限制,训练得到性能优良的主干网络,从而在执行目标跟踪任务时,能够准确提取到目标的通用特征。

(3)本发明根据距离约束p1和尺度约束p2对候选区域的检测得分进行修正,使得目标在当前帧及前一帧之间的距离越大、尺度变化越大,相应的候选区域的跟踪得分越小,从而该候选区域是目标区域的概率越小,与目标的运动属性相符,保证了目标跟踪的准确性。

(4)本发明具有良好的泛化能力,根据本发明所提供的基于目标检测的目标跟踪方法,任意一种深度学习的目标检测算法(包括一阶段检测算法和二阶段检测算法)均可迁移到单目标跟踪任务上。

附图说明

图1为本发明实施例提供的基于目标检测的目标跟踪方法示意图;

图2为本发明实施例提供的跟踪结果示意图;其中,(a)和(b)为对同一视频中不同目标的跟踪示意图;(c)和(d)为同一目标在第1帧到第45帧的跟踪示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

在详细解释本发明的技术方案之前,先对相关的技术术语进行简要解释和说明:

特征金字塔主干网络:fpnbackbonenetwork(fpn),是深度学习中常见的一种提取深度特征的网络结构;

候选区域:proposals,是在特征图上用不同尺度的候选框提取的特征区域;

离线训练网络:off-linetrainingsubnetwork,用于训练主干网络的多分支网络结构;

推理网络:inferencesubnetwork,用于进行在线跟踪的网络结构;

分类子网络:classificationsubnetwork,用于对不同的候选区域进行打分,分数越高,该候选区域为目标区域的概率越大;

回归子网络:regressionsubnetwork,用于对候选区域进行回归,以获得更为精确的目标位置坐标;

relu激活函数:线性整流函数,又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。

为了在执行目标跟踪任务时,充分利用目标检测算法的判别能力和回归能力,实现对目标的持续、准确的跟踪,本发明提供了一种基于目标检测的目标跟踪方法,包括:

为待跟踪目标建立目标跟踪模型,目标跟踪模型包括主干网络和推理网络;主干网络,用于提取深度特征,并在所得到的特征图上以不同尺度的候选框提取候选区域的区域特征;推理网络,用于根据区域特征为每一个候选区域打分,以得到各候选区域的检测得分,并对各候选区域进行回归,以获得更为精确的目标位置坐标;主干网络为目标检测模型中用于提取特征的网络,且已训练好;

获取待处理的目标视频中的第一帧f1,在其上通过数据增强的方式创建多个正样本,并利用所得到的正样本训练目标跟踪模型,以初始化推理网络;在初始化推理网络的过程中,主干网络不作更新;用于初始化推理网络的正样本数量可根据实际的跟踪需求确定,例如,在本实施例中,具体创建了5000个正样本,用于初始化推理网络;

在推理网络初始化之后,依次获取目标视频中的帧作为当前帧,并按照如下步骤对各帧进行目标跟踪:

(s1)利用目标跟踪模型获得待跟踪目标在当前帧中的多个候选区域,以及各候选区域的检测得分和目标位置坐标;

(s2)根据空间约束对检测得分进行修正,以得到各候选区域的跟踪得分,并将跟踪得分最高的候选区域确定为目标区域;

(s3)若目标区域的跟踪得分score>ths,则判定当前帧跟踪成功,并根据当前帧创建正、负样本,加入到样本库中;若thf≤score≤ths,则判定当前帧跟踪成功;若score<thf,则判定当前帧跟踪失败,并利用样本库中的样本对目标跟踪模型进行重新训练,以对推理网络进行在线更新;

其中,ths为预设的成功阈值,thf为预设的失败阈值,成功阈值ths和失败阈值thf可根据推理网络的在线更新频率以及更新样本的置信度设定,具体来说,要求样本库样本置信度越高,成功阈值ths越大,要求更新频率越高,失败阈值thf越大,在本实施例中,根据经验,设定成功阈值ths=0.8,失败阈值thf=0.2;样本库用于在目标跟踪过程中存储正、负样本,初始时刻,其中样本数量为0;空间约束与待跟踪目标在当前帧及前一帧中的空间位置和尺度的变化相关。

上述基于目标检测的目标跟踪方法,根据目标的运动属性,引入短时的空间约束,能够有效防止跟踪漂移;引入长时的在线更新策略,能够适应目标的变化;因此,上述基于目标检测的目标跟踪方法,能充分利用目标检测算法的判别能力和回归能力,实现对目标的持续、准确的跟踪。

任意一种目标检测模型中用于提取特征的网络在训练完成之后,均可作为本发明中的主干网络;作为一种优选的实施方式,在本实施例中,如图1所示,主干网络为特征金字塔主干网络,即图1中(a)部分所示的fpnbackbonenetwork,且主干网络提取深度特征后,所得到的特征图为第二层到第六层的输出特征图;

在常规的卷积深度网络的基础上,特征金字塔主干网络引入了自上而下的上采样操作和与同层特征的横向连接,本实施例使用特征金字塔主干网络作为主干网络,可以从不同的网络层提取不同分辨率的特征;本发明具体以第二层到第六层的输出特征图为最终的特征图,在提取特征时,所使用的候选框尺寸较小,与跟踪任务中的目标尺寸相匹配,能够更为准确地提取目标的深度特征;

在使用特征金字塔主干网络的情况下,本实施例中的目标检测模型具体由图1中(a)部分所示的fpnbackbonenetwork和(c)部分所示的inferencesubnetwork组成;

应当说明的是,此处描述仅为本发明的一种优选的实施方式,不应理解为对本发明的唯一限定。

针对训练样本不足的限制,在一个可选的实施方式中,主干网络的训练方法包括:

建立多分支目标检测模型,其中包括特征提取网络以及离线训练网络;

特征提取网络,用于提取深度特征,并在所得到的特征图上以不同尺度的候选框提取候选区域的区域特征;

离线训练网络包括多个分支网络,每个分支网络与一个跟踪目标相对应;分支网络,用于根据区域特征为每一个候选区域进行打分,并对各候选区域进行回归,以获得更为精确的目标位置坐标;

利用标准数据集对离线训练网络进行训练,在训练结束后,将特征提取网络作为主干网络;

其中,标准数据集中,各目标实际所在的区域得分及坐标位置已知;在以特征金字塔主干网络为主干网络的情况下,本实施例所建立的多分支目标检测模型由图1中(a)部分所示的fpnbackbonenetwork和(b)部分所示的off-linetrainingsubnetwork组成。

本实施例所建立的多分支目标检测模型,包含多个目标一一对应的多个分支网络,由特征提取网络提取目标的通用特征,由各分支网络提取目标的个体特征,从而在主干网络(即多分支目标检测模型中的特征提取网络)的训练过程中,不局限于特定的目标,而是可以利用不同目标的训练样本,因此,能够突破训练样本不足的限制,训练得到性能优良的主干网络,从而在执行目标跟踪任务时,能够准确提取到目标的通用特征。

在本实施例中,步骤(s2)中,根据空间约束对检测得分进行修正,其修正表达式为:p=p0*p1*p2;

其中,p和p0分别表示检测得分和跟踪得分;p1表示空间约束中的距离约束,目标在当前帧及前一帧中的距离越大,距离约束p1越小;p2表示空间约束中的尺度约束,目标在当前帧及前一帧中的尺度变化越大,尺度约束p2越小;

可选地,根据计算距离约束p1;

根据计算尺度约束p2;

其中,ct(xt,yt)和ct-1(xt-1,yt-1)分别表示待跟踪目标在当前帧和前一帧的中心点坐标,d=||ct-ct-1||表示两个中间点之间的欧式距离,r表示预设的中心点距离的变化范围,k1>0表示控制距离约束衰减速度的控制因子,γt和γt-1分别表示待跟踪目标在当前帧和前一帧的宽高比,st和st-1分别表示待跟踪目标在当前帧和前一帧的面积,k2>0表示控制尺度约束衰减速度的控制因子,exp{}表示以自然常数e为底数的指数运算,max()表示取最大值;中心点距离的变化范围可根据目标自身的运动范围确定,以确保在中心点距离发生较大变化时,能够及时判断处该目标已经丢失,并相应地将距离约束设为0;控制因子k1和k2同样需根据目标的运动属性确定,可根据经验设定k1=0.02、k2=0.1;

为了减少所计算的面积在高h远大于宽ω或者宽ω远大于高h的极端情况下所受到的影响,本实施例中,具体根据计算目标的面积;其中,s表示待跟踪目标的面积,ω和h分别表示待跟踪目标的宽和高;

目标跟踪任务中,目标在的空间位置和尺度在连续两帧之间的变化不大,本发明根据距离约束p1和尺度约束p2对候选区域的检测得分进行修正,使得目标在当前帧及前一帧之间的距离越大、尺度变化越大,相应的候选区域的跟踪得分越小,从而该候选区域是目标区域的概率越小,与目标的运动属性相符,保证了目标跟踪的准确性。

作为一种可选的实施方式,步骤(s3)中,在目标区域的跟踪得分score>ths时,根据当前帧创建正、负样本,其方法包括:

从当前帧的所有候选区域中,筛选出跟踪得分高于成功阈值ths的候选区域,将筛选出的每一个候选区域连同其跟踪得分和目标位置坐标作为一个正样本;

从当前帧的所有候选区域中,筛选出跟踪得分低于失败阈值thf的候选区域,将筛选出的每一个候选区域连同其跟踪得分和目标位置坐标作为一个负样本;

在目标区域的跟踪得分较高(即置信度较高)时,利用相应帧中的高于成功阈值ths的候选区域构建正样本,并存储至样本库中,从而后续能够获取到高置信度的正样本,完成对推理网络的在线更新,保证了在线更新之后,目标跟踪模型能够继续准确地跟踪目标。

如图1所示,在本实施例中,离线训练网络中的每一个分支网络包括:分类子网络(classificationsubnetwork)和回归子网络(regressionsubnetwork);

分类子网络用于根据区域特征为每一个候选区域打分;分类子网络具体包括两个3×3的卷积层,并且每个卷积层后面都有relu激活函数,这两个卷积层不会更改特征图的尺寸;

归回子网络用于对各候选区域进行回归,以获得更为精确的目标位置坐标;与分类子网络类似,回归子网络同样包括两个3×3的卷积层,并且每个卷积层后面都有relu激活函数,在最后一个卷积层之后还包括一个4×15的滤波器,用于预测每个候选区域的回归坐标;

在本实施例中,推理网络同样包括分类子网络和回归子网络;分类子网络用于根据区域特征为每一个候选区域打分,以得到各候选区域的检测得分;归回子网络用于对各候选区域进行回归,以获得更为精确的目标位置坐标;推理网络中的分类子网络和回归子网络分别与分支网络中的分类子网络和回归子网络结构相同;

应当说明的是,此处仅为对本发明中分支网络及推理网络结构的一种示例性描述,不应理解为对本发明的唯一限定;在实际使用中,推理网络和分支网络可以使用不同的结构,并且分类子网络中卷积层的数量、卷积核的大小、激活函数,以及回归子网络中卷积层的数量、卷积核的大小、激活函数以及滤波器的大小均可根据实际需要采用其他设置。

本发明还提供了一种系统,包括:计算机可读存储介质和处理器,计算机可读存储介质用于存储可执行程序;

处理器用于读取计算机可读存储介质中存储的可执行程序,执行上述基于目标检测的目标跟踪方法。

利用上述基于目标检测的目标跟踪方法进行目标跟踪,相关的跟踪结果如图2所示。根据图2中的(a)和(b)可以看出,对于来自同一视频的不同的跟踪目标,本发明能够在不同的初始目标状态下成功地跟踪目标;根据图2中的(c)和(d)可以看出,目标在1帧到第45帧的各种过程中发生了非常显著的外形变化,但是本发明仍然能够成功在第45帧中准确跟踪到目标。

本发明可广泛应用于与视频相关的任务中,例如,在监控危险行为预警的应用中,本发明可用于对监控视频中的可疑目标进行跟踪监控,一旦目标发生危险行为(如攻击路人、持械抢劫等),及时进行报警。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1