一种融合上下文探测的弱结构感知视觉目标跟踪方法与流程

文档序号:11952001阅读:316来源:国知局
一种融合上下文探测的弱结构感知视觉目标跟踪方法与流程

本发明属于计算机视觉技术领域,涉及一种目标跟踪方法,更为具体的说,是涉及一种融合上下文探测的弱结构感知视觉目标跟踪方法。



背景技术:

视觉目标跟踪,是指以连续的视频图像序列作为输入,对其中的特定目标,在连续帧中确定该目标所在位置或者所在的图像区域。目标跟踪作为计算机视觉领域的一项重要研究,在众多智能视觉系统中扮演重要角色。其典型的应用包括智能监控、自动驾驶和人机交互领域。

近年来,许多研究人员针对视觉目标跟踪进行了大量的研究,取得了长足的进展,在一些特定应用领域克服了许多难题。然而对于视觉目标跟踪,在一些复杂的情况下,如目标因为快速移动、形体变形、遮挡、周围环境而产生较大外形变化时,准确跟踪目标依旧是一项困难的挑战。对于一个没有指定目标类型的泛型目标跟踪方法而言,跟踪任意类别的目标将更为困难。

综上可知,现有的目标跟踪方法在实际使用上存在局限性,所以有必要加以改进。



技术实现要素:

为解决以上问题,本发明针对泛型目标跟踪,公开了一种鲁棒的基于部件的目标跟踪方法。该发明有机结合目标内各个不同的部件,基于弱结构感知机制提供目标跟踪解决方案。该方法采用特征点以及相关联的特征描述符对各个目标部件进行建模表达,具备了如尺度不变性、旋转不变性和光照不变性等的优良特性,并显著提高了跟踪时的准确性和稳定性。

本发明所解决的技术问题可采用如下的技术解决方案来实现:

本发明提供了一种融合上下文探测的弱结构感知视觉目标跟踪方法,包括以下步骤:

步骤A,初始化跟踪目标,构建跟踪框架的外观模型。

具体的,读取视频,在第一帧图像用矩形包围框b=(x,y,w,h)标识出目标,其中x,y表示目标框的左上角顶点坐标,w和h则表示目标框的宽和高。在包含了目标的包围框内部及周围区域提取特征点以初始化目标点集PO和背景点集PB

步骤B,构建相对目标中心的运动模型。

具体的,对于在第t帧的每个特征点,设定它的运动状态为其中δ表示该点相对目标中心的位移向量;v为该点运动速度。

步骤C,读取下一帧图像。

步骤D,在本帧中利用自底向上的上下文探测对特征点进行搜寻,将候选特征点与前一帧的特征点进行匹配,得到特征点集合PO与PB中的特征点在本帧图像的新位置。

具体的,为获取局部区域的运动信息,将在特征点检测区域进行稀疏光流估计。对于在PO、PB中的每个活跃特征点(即在特征点匹配中正确匹配的点)pi,它在第t-1帧的位置为xi,t-1。通过光流法对该点进行光流估计,得到其光流向量Vi,t-1。根据光流信息,该点在第t帧的位置应为xi,t=xi,t-1+Vi,t-1。再从xi,t出发,反向估计从第t帧到第t-1帧的光流V′i,t-1。得到xi,t在第t-1帧中对应的位置x′i,t-1=xi,t+V′i,t-1。设定阈值判断xi,t-1与x′i,t-1的距离是否足够相近。只有当这两个点足够相近时,才认定点pi的光流估计是有效的。对于上面所说的光流估计无效的点,利用在光流中局部运动一致的原理,可以借助周围的光流信息,对该点的光流进行赋值。具体而言,如果光流向量集合的一致性指数大于某个阈值,则认为该光流估计失效的特征点周围区域的光流具有一致性。在这种情况下,该特征点的光流与周围区域的光流也是一致的,把光流向量集合内的中值赋值为该点的光流向量。

步骤E,对特征点的运动状态进行估计,获知每个特征点的运动状态。

步骤F,根据运动状态估测潜在目标中心位置,得到一组潜在目标中心点集合,通过聚类对目标进行定位。

具体的,对于每一个特征点pi,它能够产生一个在第t帧的对应潜在目标中心,对潜在目标中心点集的聚类,得到若干聚类以及一些离群点。在聚类集合中找出规模最大的聚类,以此估算出在第t帧中,目标的中心位置。

步骤G,更新目标的宽度和高度。

具体的,假定PO内的特征点数量为N。在第t帧中,特征点pi与其它特征点间的距离被保存在集合St,i={st,i,1,st,i,2,st,i,3,…st,i,N,}中。那么,每一对特征点之间的距离变化可以通过公式(3)计算得出:

则被跟踪目标在第t帧与第t-1帧之间的尺度变化可以估计为:γt=med(Rt),其中med(·)表示集合的中值。至此,根据公式(4)和公式(5)更新目标的宽度和高度:

Wt=γtWt-1, (4)

Ht=γtHt-1. (5)

步骤H,构建超像素核模型,构造关于目标的概率分布图,检测遮挡并更新模型。

具体的,采用超像素分割方法,生成超像素。利用目标区域的初始化或者跟踪结果,将像素标记为目标像素或者背景像素。对目标周围区域进行超像素分割,维护两个超像素集合SPO和SPB。SPO由目标超像素构成,而SPB由背景超像素和半背景超像素构成。基于超像素的特征对目标超像素集合SPO进行聚类,得到目标的超像素核模型。对超像素集合中的每一个超像素,可以得到其特征。在超像素核模型中,依据该超像素特征,找出K个与它最相似的超像素聚类。将利用这K个超像素聚类,评估该超像素的目标概率。将超像素内所有像素的目标概率等同于超像素本身的目标概率,得到目标周围区域的目标概率图。以此信息分离目标区域和背景区域。对于一个生命值低于设定阈值并且成功跟踪到的特征点,比较它在第t-1帧和第t帧对应的平均目标概率,如果差值大于某个阈值,则该特征点将不会参与到目标状态的估计中。在目标周围区域生成目标概率图,可在跟踪时感知遮挡情况的发生。当目标发生遮挡时,目标的一部分甚至目标整体会被场景中的物体覆盖,这将直接导致目标概率的下降。正是利用这一点,可感知目标的遮挡。通过计算目标概率比Ut,可以感知当前目标概率与之前目标概率的变化,大致估测目标被遮挡的比例。如果Ut的值较低,意味着在目标区域大量的像素被认定为背景像素,而这种情况很可能是由于目标被遮挡了。设定当Ut低于某阈值时,遮挡发生。在目标被遮挡的情况下,模型将停止更新。对目标概率图进行二值化处理,形成一张图像掩膜。在对目标特征点更新时,用这张关于目标概率的掩膜滤除大部分非目标特征点,挑选目标概率高于某一阈值的特征点加入目标特征点集合中。反之,则可加入背景特征点集合中。

重复执行步骤C至步骤H,直至处理完所有图像序列。

本发明的有益效果:

1.本方法采用特征点以及相关联的特征描述符对各个目标部件进行建模表达。特征描述符具有十分优秀的描述能力,具备了如尺度不变性、旋转不变性和光照不变性等的优良特性,可以有效应对目标跟踪的一些挑战情景。

2.针对目标部分遮挡以及目标内部结构不稳定的问题,本方法使用两个部件集进行基于部件的模型建模,分别对应目标及其周围环境。对应背景环境的部件集在目标发生遮挡时可以辅助目标定位,而目标的部件集则负责在跟踪时保证准确和稳定。此外引入自顶向下的上下文探测过程,通过构建超像素核模型,为模型更新提供校验,并检测遮挡情况。两者相结合提升跟踪在各种场景下的鲁棒性。

3.针对目标不规则形变,本方法采用结构相对稳定的部件进行目标定位。并且在跟踪的过程中,通过弱结构感知策略估计目标状态,动态适应目标变化。并且引入自底向上的上下文探测过程,通过估计局部区域的像素级别的运动,辅助部件进行一致的特征匹配,进而实现一致的部件跟踪。

附图说明

图1是本发明的步骤流程图。

图2是本发明自底向上的上下文探测过程示意图。

图3是本发明自顶向下的上下文探测过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明的基本思想是:维护目标以及周围区域两个部件集合,并利用空间结构关系构建他们与目标的相对运动模型,据此生成潜在目标中心。之后通过对潜在目标中心的聚类,剔除噪声获得精确的目标位置。同时通过空间关系更新目标尺寸。此外本发明使用自底向上的上下文探测方法,通过估计像素级的局部区域运动,为各部件提供一致的跟踪信息;并使用自顶向下的上下文探测方法,通过构建超像素核模型,为外观模型更新和目标定位提供了指导信息。

参见图1,本发明公开了一种融合上下文探测的弱结构感知视觉目标跟踪方法,具体步骤如下:

步骤A,初始化跟踪目标,构建跟踪框架的外观模型。

具体的,读取视频,在第一帧图像用矩形包围框b=(x,y,w,h)标识出目标。在包含了目标的包围框内部区域提取目标特征点以初始化目标特征点集PO,并且初始的目标中心C0设定为该包围框的中心点(x+w/2,y+h/2)。目标区域的初始宽度W0和高度H0分别设定为包围框的宽高w和h。而背景特征点集PB则在包围框周围宽2W0,高2H0的环形区域内进行初始化。

点集PO中的每个点的具体表示为:pi=(xi,dii,li,Si),其中表示该点在图像中的笛卡尔坐标;di∈Rn是该点对应的n维特征描述符;是该点相对于目标中心的位移向量;li表示该点的生命值(当一个特征点的生命值为0时会被剔除),初始化为5;Si表示该点与其它特征点的距离的集合。除了没有距离集合S之外,PB具有与PO一致的表示方式。

步骤B,构建相对目标中心的运动模型。

具体的,对于在第t帧的每个特征点,设定它的运动状态为其中δ表示该点相对目标中心的位移向量;v为该点运动速度。目标特征点的运动状态使用mt=mt-1t进行预测。其中αt~N(0,αO)是均值为0的高斯噪声。背景特征点的运动状态通过mt=Fmt-1t进行预测,其中βt~(0,βO)。

步骤C,读取下一帧图像。

步骤D,在本帧中对特征点进行搜寻,将候选特征点与前一帧的特征点进行匹配,得到特征点集合PO与PB中的特征点在本帧图像的新位置。

具体的,如图2所示,为获取局部区域的运动信息,将在特征点检测区域进行稀疏光流估计。对于在PO、PB中的每个活跃特征点(在特征点匹配中正确匹配的点)pi,它在第t-1帧的位置为xi,t-1。通过LK光流法对该点进行光流估计,得到其光流向量Vi,t-1。根据光流信息,该点在第t帧的位置应为xi,t=xi,t-1+Vi,t-1。再从xi,t出发,反向估计从第t帧到第t-1帧的光流V′i,t-1。得到xi,t在第t-1帧中对应的位置x′i,t-1=xi,t+V′i,t-1。设定阈值判断xi,t-1与x′i,t-1的距离是否足够相近。只有当这两个点足够相近时,才认定点pi的光流估计是有效的。

对于光流估计无效的特征点,利用局部运动一致的原理,可以借助周围的光流信息,对该点的光流进行赋值。在特征点周围采集KLT特征点,并同样对它们进行光流估计。假设在一个光流估计失效的特征点周围,KLT特征点的光流向量集合为其中q为KLT特征点的数量。然后找出该集合中的中值ve。为了判定光流向量集合是否有一致性,定义光流向量vj与中值ve间的一致性指数为:

当超过一定阈值(这里设定为0.6)时,认为该光流估计失效的特征点周围区域的光流具有一致性,把中值ve赋予该特征点。

为了更加精准的定位,将利用特征点相关联的特征描述符,对特征点pi进行匹配。如果pi没能匹配成功,它的生命值会被削减。

步骤E,使用卡尔曼滤波对特征点的运动状态进行估计,获得每个特征点的运动状态。

步骤F,根据运动状态估测潜在目标中心位置,得到一组潜在目标中心点集合,通过聚类对目标进行定位。

具体的,对于每一个特征点pi,它能够产生一个在第t帧的对应潜在目标中心ct,i=xt-1,it,i。对潜在目标中心点集进行聚类,得到若干聚类CT={ct1,ct2,ct3,…}以及一些离群点。在聚类集合CT中找出规模最大的聚类ctmax,然后由这个规模最大的聚类中的点来获得目标位置。

<mrow> <msub> <mi>C</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>l</mi> <mi>i</mi> </msub> <msub> <mi>c</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>&Element;</mo> <msup> <mi>ct</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

通过公式(2),可以估算出在第t帧中,目标的中心位置。

步骤G,更新目标的宽度和高度。

具体的,假定PO内的特征点数量为N。在第t帧中,特征点pi与其它特征点间的距离被保存在集合St,i={st,i,1,st,i,2,st,i,3,…st,i,N,}中。那么,每一对特征点之间的距离变化可以通过公式(3)计算得出:

则被跟踪目标在第t帧与第t-1帧之间的尺度变化可以估计为:γt=med(Rt),其中med(·)表示集合的中值。至此,根据公式(4)和公式(5)更新目标的宽度和高度:

Wt=γtWt-1, (4)

Ht=γtHt-1. (5)

步骤H,构建超像素核模型,构造关于目标的概率图,更新模型。

具体的,如图3所示,采用SLIC超像素分割方法,对目标及周围区域进行超像素分割,生成超像素。利用目标的初始化或者跟踪结果,维护两个超像素集合SPO和SPB。SPO由目标超像素构成,而SPB由背景超像素和半背景超像素构成。基于超像素的特征对目标超像素集合SPO进行聚类,一个超像素聚类被定义为:在此假设超像素聚类符合高斯分布,其中为该高斯分布的均值向量估计,为该高斯分布的协方差矩阵估计。由公式(6)求出该超像素聚类的目标可靠度ω。

其中nclst表示该超像素聚类中的像素数量,nj表示在超像素集合SPB中的超像素j的像素数量。并且,

<mrow> <msub> <mi>G</mi> <mi>j</mi> </msub> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mover> <mi>&mu;</mi> <mo>^</mo> </mover> <mo>,</mo> <mover> <mo>&Sigma;</mo> <mo>^</mo> </mover> <mo>,</mo> <msub> <mi>ft</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

这里的是高斯函数,ftj表示在SPB中的超像素j的特征。对于所有Nc个目标超像素聚类,将其目标可靠度归一化。由公式(9)得到目标的超像素核模型:

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>C</mi> </msub> </munderover> <msub> <mi>&omega;</mi> <mi>i</mi> </msub> <msub> <mi>H</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中

对超像素集合SPt={spt,1,spt,2,spt,3,…}中的每一个超像素spt,i,可以得到其特征ftt,i。在超像素核模型中,依据该超像素特征,找出K个与超像素spt,i最相似的超像素聚类。利用这K个超像素聚类,通过公式(10)评估超像素spt,i的目标概率:

<mrow> <mi>o</mi> <mi>p</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msub> <mi>H</mi> <mi>i</mi> </msub> <msub> <mi>&omega;</mi> <mi>i</mi> </msub> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msub> <mi>&omega;</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

将超像素内所有像素的目标概率等同于超像素本身的目标概率,得到目标周围区域的目标概率图。对于一个生命值低于设定值L并且成功跟踪到的特征点,比较它在第t-1帧和第t帧对应的平均目标概率,如果差值大于某个阈值,则该特征点将不会参与到目标状态的估计中。

在目标周围区域生成目标概率图,还能在跟踪时感知遮挡情况的发生。当目标发生遮挡时,目标的一部分甚至目标整体会被场景中的物体覆盖,这将直接导致目标概率的下降。正是利用这一点,可感知目标的遮挡。通过计算目标概率对比,可以大致估测目标被遮挡的比例:

<mrow> <msub> <mi>U</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>ps</mi> <mi>t</mi> </msub> </mrow> <msub> <mover> <mrow> <mi>p</mi> <mi>s</mi> </mrow> <mo>^</mo> </mover> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中pst表示在第t帧目标区域的目标概率和;表示在第t-1帧时目标区域在最近若干帧的平均目标概率和。Ut直接感知当前目标概率与之前目标概率的变化。如果Ut的值较低,意味着在目标区域大量的像素被认定为背景像素,而这种情况很可能是由于目标被遮挡了。设定当Ut低于某阈值时,遮挡发生。在目标被遮挡的情况下,模型将停止更新。

对目标概率图进行二值化处理,形成一张图像掩膜,用于模型更新。在对目标特征点更新时,用这张关于目标概率的掩膜滤除大部分非目标特征点,挑选目标概率高于某一阈值的特征点加入目标特征点集合中。反之,则可加入背景特征点集合中。

重复执行步骤C至步骤H,直至处理完所有图像序列。

以下对本发明方法进行实验设置说明,首先选择要实验的视频,并从第一张图像中框选出带跟踪的目标范围,可以用中心坐标和物体长度宽度来确定目标位置,称之为“感兴趣范围”。特征点及其描述符可采用SIFT、SURF或ORB的相应特征点和描述符。实验中使用的参数固定,具体设定为:特征点的初始生命值L为5。在局部一致性运动赋值中,参数τe和δe分别为0.8和0.35。在基于部件的外观模型中,本方法最多维护500个特征点,这个数量足够实现目标模型表示,同时能够控制计算量。在特征点更新中,如果特征点数量超出限制,生命值较少的特征点将被删除。每隔13帧收集超像素分割的结果,并且每13帧对超像素集合SPO进行聚类。

以上对本发明实施例所提供的融合上下文探测的弱结构感知视觉目标跟踪方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,这些改进和润饰也是为本发明的保护范围。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1