跟踪用相机获得的场景视频中的移动物体的方法

文档序号:7636158阅读:622来源:国知局
专利名称:跟踪用相机获得的场景视频中的移动物体的方法
技术领域
本发明通常涉及在视频中跟踪物体,更具体地说,涉及在以低帧速率的获得的视频中跟踪物体。

背景技术
许多计算机显示和视频的监视应用用于识别移动物体,例如,在不同环境中的行人或车辆。通常,有趣的是当场景在基本上不同于在由相机所获得的固定场景中的背景模型时的场景。最简单的背景模型假定背景场景是时间上真正静止的,并且场景中的物体以与物体一致的速度移动。
在时间上,在静止背景上的单个像素的亮度值通常服从正态分布。因此,在场景上不感兴趣的变化可以足够地由单模型的、零均值、“白的”、高斯噪声过程建模。因此,表示这样的统计分布的合理模型是单高斯模型,C.R.Wren,A.Azarbayejani,T.J.Darell,和A.P.Pentland,“PfinderReal-time tracking of the human body,”PAMI,19(7),pp.780-785,July 1997。
通常单高斯模型不足以精确地对在动态背景上像素亮度值的时间上的改变进行建模,这样的背景由于亮度条件的改变具有变化的阴影。因此,更复杂的系统包括抑制不感兴趣的亮度变化(例如由投影引起的变化)的机制。Ismail Haritaoglu,David Harwood,和Larry S.Davis,“W4Who?When?Where?What?”Proceedings of FG’98,IEEE,April 1998。
在背景建模中,使用多模型在像素级描述动态背景是个突破。具体地,使用高斯分布的混合的方法已经成为流行原则,在近年来用于大量的相关应用中。
可以将三个高斯分量的混合用于对每一像素的视觉属性进行建模,N.Friedman和S.Russell,“Image segmentation in videosequencesA probabilistic approach,”Thirteenth Conference onUncertainty in Artificial Intelligence,August 1997。所述模型在时间上还使用期望最大化(EM)过程以学习高斯混合模型(GMM)。在交通监视应用中,每一像素的亮度值限制为三种假设道路、阴影和车辆。不幸的是,这种简单的假设严重降低GMM对单个像素任意分布的建模能力。并且,所述方法在计算上是昂贵的。
另一种方法允许场景是非静态的,Chris Stauffer和W.E.L.Grimson,“Adaptive background mixture models for real-timetracking,”Computer Vision and Pattern Recognition,volume 2,June1999。作为具有可变数量的高斯分量的高斯分布的混合对每一像素建模。所述方法将背景表示为多模式的处理,其中,每一模式为静态模型加上零均值、白的、高斯噪声过程。所述模型可以使用近似值来实时更新。所述视频监视系统已经证实对日夜循环是鲁棒的,并且对长时间周期内的场景改变也是鲁棒的。然而,对于这种展示出非常快的变化的背景,例如,水的波纹、海浪或移动的草和树,所述模型可以导致在长视频序列上的具有大变化的分布。因此,用于检测前景物体的灵敏度显著地降低。
相似的竞争的多模式背景处理由F.Porikli和O.Tuzel在“Human body tracking by adaptive background models andmean-shift analysis,”in Conference on Computer Vision Systems,Workshop on PETS,IEEE,April 2003上介绍,其合并于此作为参考。
为了处理这些挑战性的情形,已经开发了非参数技术。基于多个近来获得的采样,这些技术使用像素值的统计以估计每一像素的背景属性。这些技术可以适应快速的背景改变,Elgammal,D.Harwood,L.S.Davis,“Non-parametric model for background subtraction,”ECCV 2000,June 2000。所述方法使用用于密度估计的高斯函数。所述模型表现为在长视频序列上近期取样值的历史。
为了适应性密度估计,其它类似技术强调可变大小的核。核对应于数据空间中的搜索区域。作为另一个特性,可以使用光学的流程,Anurag Mittal,Nikos Paragios,“Motion-based backgroundsubtraction using adaptive kernel density estimation,”CVPR 2004,Volume2,pp.302-309,June,2004。
处理有效的背景建模的其它技术可以归类为预测方法。预测方法将像素亮度的改变视为时间序列,并且基于过去的观测,使用时间的模型以预测下一个像素值。预测值和实际观测之间的偏差可以用来调整预测模型的参数。
其它方法使用滤波器。例如,卡尔曼滤波器(Kalman-filter)可以对每一像素的动态属性建模,Dieter Koller,Joseph Weber和Jitendra Malik,“Robust multiple car tracking with occlusionreasoning,”,ECCV’94,May 1994。卡尔曼滤波器的简化版,例如,维纳滤波器(Weiner-filter),可以使随机的预测基于近期的像素亮度值的历史。
为了相似纹理仿真的目的,自回归模型捕获动态场景的属性,G.Doretto A.Chiuso,S.Soatto,Y.N.Wu,“Dynamic textures,”IJCV51(2),pp.91-109,2003。改进该方法以处理在视频监视中动态背景的建模和执行前景检测,Antoine Monnet,Anurag Mittal,Nikos Paragios,Visvanathan Ramesh。“Background modeling and subtraction ofdynamic scenes,”ICCV’03,p.1305,October,2003,以及Jing Zhong和Stan Sclaroff,“Segmenting foreground objects from a dynamictextured background via a robust Kalman Filter,”ICCV’03,pp.44-50,2003。虽然已经从这些挑战性的采样视频中获得好的结果,但是使用这样的自回归模型的计算代价是高昂的。
通常,传统的背景建模经历两个主要的缺点。这些模型的计算复杂度本身高。这在大规模的视频监视系统中尤其是问题,其中,同时获得大量的视频,并且其中,要求在视频中实时跟踪物体。传统的系统需要昂贵的网络、存储器和处理资源。
因此,期望提供一种系统和方法,在大量的视频中同时跟踪多个物体时,具有减少的网络、存储器和处理资源。
此外,传统的方法假设物体以与所述物体一致的速度移动,并且将被跟踪的物体在连续帧上具有大量的交迭。因此,传统方法期望一帧中物体的位置在下一帧中与所述物体基本上处于同一位置。
因此,期望跟踪以所述物体不一致的速度移动的物体。


发明内容
本发明提供一种系统和方法,用于跟踪以低帧速率(例如每秒一帧(1fps)或者更低)获得的视频中的物体。以低帧速率获得的视频降低所需的资源,例如网络带宽和存储介质。然而,在低速率视频中,物体以比期望更快的速度移动,并且在相连的帧中所述物体的位置几乎不重叠。因此,不能使用传统的物体跟踪方法。
因此,本发明使用均值偏移(mean-shift)处理,所述处理使用以具有实质性运动的帧序列中的区域为中心的多个核。通过使用物体模型结合两个似然性条件来提高均值偏移处理的收敛。



图1是根据本发明用于在以低帧速率获得的视频中跟踪物体的系统的框图;以及 图2是根据本发明用于在以低帧速率获得的视频中跟踪物体的方法的流程图。

具体实施例方式 系统结构 如图1所示,我们的发明提供一种用于跟踪由大量相机110中的一个获得的场景102的视频101中的物体171的系统和方法100,例如在大规模监视系统中。传统的相机被设计为以固定的、相对高的帧速率(例如30或60帧每秒(fps))获得视频。为了降低所需资源的数量,并提高处理效率,本发明对视频的帧进行子采样120。因此,以低帧速率(LFR)(例如,一帧每秒(1fps),或更低)获得被传递、处理和储存的视频。LFR控制单元130确定帧速率。LFR帧121被复用140,并且被发送到监视处理器150。
LFR跟踪器160确定轨迹161。所述LFR跟踪器还向LFR控制单元130提供反馈。轨迹被馈送给多相机管理器170,并且物体171被检测。所述物体用于检测180重要事件181,所述事件将被馈送给监视处理器150。
因为在如此低帧下获得视频,所以由于存在以正常的帧速率(例如30fps或者更高)获得的视频,由于物体显示为移动得比期望快得多,并且在连续帧中移动物体几乎不重叠,传统的物体跟踪器不能工作。
方法操作 如图2所示,本发明使用多模型背景建模方法200。在该方法中,根据在子采样帧121的序列中观察亮度的改变,维持210背景模型211。
评估每帧中的每像素以确定所述像素是否“符合”背景模型。如果所述像素严重脱离背景模型,则将所述像素分配为前景像素,也许与移动物体相关联。
为了检测与移动物体相关联的区域,我们首先移除也许是由于噪声而导致的每帧中未连接像素或“斑点”的小区域。从剩下的像素中确定连接的像素区域。每一连接的区域与分离的物体相关联。
我们通过形态学来移除斑点噪声。为了加快滤波处理,我们提供了侵蚀膨胀滤波器(erosion-dilation filter)。因为我们有二进制前景-背景图,所以我们可以转换三十二像素值为四字节整数值。通过左右移位,和对比特上部的行和下部的行应用逻辑包含运算,我们应用形态学的膨胀。在第二通道中,应用逻辑异运算,代替类似的包含运算,以“侵蚀”所述帧。因此,我们的滤波快32倍。
在滤波之后,我们应用连接的分量分析来确定前景像素的连接的区域。我们使用基于图形的单通道处理。在连接的分量分析期间,我们提取所述连接的区域,即帧中很可能与移动物体相关联的像素。对每一连接的区域,我们确定总的像素总数量、块中心、包含连接的分量的所有像素的物体核的坐标、和包括连接的分量的90%的像素的内部核的坐标。
使用这样两个核,我们可以从拉伸的区域区分出凸起的区域。凸起的区域具有物体区域的小比率和内部核,但是拉伸区域具有大比率。应当注意,物体核和内部核不是必需为共同中心的。
LFR跟踪器160在物体数据库220中维持两个集合的物体171,例如,潜在物体和跟踪物体。将被跟踪少于预定数量的帧的连接的像素的移动区域标记为潜在物体。这些像素可以对应于场景102中的噪声或者将被跟踪的潜在物体。
如果跟踪潜在物体达到预定数量的帧,则从潜在物体集合中移除所述物体,并将其入到跟踪物体集合中。
我们使用连接的区域的属性以确定与物体相关联的区域。属性是核231的形式,如下面所描述。所述核包括物体、内部核和外部核。如果两个连接的区域的内部核重叠,则将所述区域和相同的物体相关联。如果物体核重叠并且重叠区域与区域的面积可相比,则外部核也与相同的物体相关联。
多核均值偏移 使用多核均值偏移处理在子采样的帧121的序列中跟踪160物体171。对每一个物体,首先初始化230核231。
核是一个可能与移动物体相关联的像素区域。所述核在帧中相对应于2D空间的区域。所述核可以是矩形、圆形、椭圆形、像素集合、物体轮廓或任意其他期望的形状。我们优选矩形的核。除了空间区域,核也可以与在颜色空间中的3D量相关联。
传统的均值偏移处理使用聚类(clustering)。所述均值偏移处理不需要聚类数量的先验知识,并且也不限制聚类的形状,见D.Comaniciu和P.Meer,“Mean-shiftA robust approach towardfeature space analysis,”IEEE Trans.Pattern Anal.Machine Intell.,vol.24,pp.603-619,2002,其合并于此作为参考。
所述均值偏移处理开始于数据点,并且在每一次迭代,所述均值偏移处理在像素亮度的梯度的方向移动。当点收敛到分布的本地模式时,所述迭代停止。当均值偏移迭代开始于数据点时,确保了收敛到分布的本地模式。然而,传统的均值偏移跟踪需要在连续帧中的物体的核的有效重叠。
根据本发明,在LFR视频121中,物体的移动通常不是巨大的和不可预计的。因此,以物体的先前位置为中心的传统的单均值偏移核将失败。为了克服这个问题,除了所述物体先前的位置,在对应于场景中的实质运动量的每帧中的区域处初始化230用于每一物体171的多个核231。根据移动物体的路径的所估计的似然性来分配多个核,如下文更详细的描述。在收敛的点确定多个核的似然性281分数,并且将最大的分数位置选择作为新位置。
不是依靠于作为先前帧中的物体区域的单个核,我们在以对应于由改变检测模块240确定的实质运动的区域为中心的多个核中迭代均值偏移。
将均值偏移处理280应用于每一核231,以确定在估计的路径的位置的核是真正与移动物体相关联的似然性281。
估计每一物体的位置后,我们匹配连接的分量。所述匹配基于具有连接的分量的像素的核的重叠。
多个核的分配 我们使用任何可用的方法(例如高斯模型或卡尔曼滤波)估计背景模型,并且我们比较当前帧和估计的参考背景模型以找到当前帧中的不同区域。
对每一像素,我们确定在当前帧中的像素和背景模型中的相应像素的色彩之间的距离,以获得距离图。其后,我们将空间聚类应用于距离图。通过另一个空间均值偏移聚类来找到距离图的峰值来完成所述聚类。我们的方法也可以使用其他的聚类算法,例如,k均值聚类和等级聚类。
对每一像素,关于在先前帧中对应的物体核的像素和位置之间的距离,我们加权在距离图值中的值。这种转换将更高的似然性分配给更靠近物体先前位置的位置。
接下来,我们在距离图中找到峰值。我们分配在先前帧中物体区域的块中心作为额外的峰值。我们使用可能的物体大小参数组合彼此接近的峰值。如果峰值的幅度高于预定阈值,则我们分配核给每个峰值。因此,存在至少一个峰值,并且根据场景中观察的运动量,可以存在用于每一移动物体的多个峰值。
另外,我们基于维持所先前跟踪物体的历史的路径似然性图来选择可能的核位置的初始集。如果物体核对应于像素,则我们增加在路径似然性图中的像素值。对于视频中的每一帧,我们保持更新路径似然性图。因而,在已经在大量的帧中跟踪物体之后,路径似然性图很可能指示出物体的位置。
例如,对于交通监视视频,似然性路径图具有用于对应于物体(例如车辆)正在移动的交通车道的像素的更高的值。
使用路径似然性图,我们基于所述路径似然性分数选择像素集。对于所述像素集,我们确定在物体模型和围绕这些像素为中心的核之间的相似度分数。我们以离开原始的核位置的距离来调节所述相似度分数,从而对更加远离中心的像素,所述相似度分数变得更小。其后,通过从具有最大分数的像素开始,直到达到最大核数量或没有剩下可能的核位置,通过在每次迭代中移除与每一物体大小成比例的区域,我们递归地选择像素。这些像素被分配作为多个核的位置。
物体模型管理 如下执行物体管理250。当物体模型和序列帧中的任何连接的分量不匹配时,从物体数据库中删除物体模型。对于与任何先前跟踪的物体不匹配的连接的分量初始化新的物体模型。
如果当前跟踪的物体没有彼此合并,则通过使用公式(12)来采用260所述物体的比例,如下所述。
我们的物体由非参数模型来表示。所述物体模型是(W×H)×D矩阵的元素。矩阵的元素是物体的颜色(例如,RGB像素亮度)的3D采样,其中,W和H分别是物体模型的宽度和高度,而D是就连续帧而言所测量的深度或时间大小。注意,模型没有包括背景像素。
当前帧中的移动物体的位置的似然性为z1。我们参照估计的物体核中的像素作为(xi,ui)Ni=1,其中,xi是在帧坐标系中的2D坐标而ui是3D颜色向量。
在物体模型中的对应的采样点表示为(yj,vjk)Mj=1,其中,yj是在物体模型坐标系中的2D坐标而vjk是3D颜色向量{vjk}k=1,...,D。
将估计的物体核内部的指数i映射为物体模型中的指数j。所述映射不是一对一的。通常,物体核的大小比物体模型的大小大得多,所以物体模型中的一个像素映射到物体核内部的几个像素。
在跟踪期间,我们通过以来自当前帧的一个对应的像素更新物体模型的每一像素的“最旧的”采样来维持270每一物体模型。我们没有使用对应的像素的均值来防止模糊。通过使用前景片断物体模型中,不更新对应于当前帧的背景像素的像素。
具有背景信息的均值偏移 对于非刚性的物体跟踪,基于均值偏移处理的颜色柱状图可以是有效和稳定的。然而,如果所跟踪物体的颜色信息和背景的颜色类似,则均值偏移跟踪的性能下降。
因此,我们还使用像素的背景模型211以提高我们均值偏移物体跟踪器160的性能。
物体的加权颜色柱状图是{qs}s=1,...,m。使用非参数物体模型构建所述柱状图。
其中,大小ht是物体模型的水平大小和垂直大小的一半,而kN是根据多元高斯(正态)函数加权的物体核 对d维空间。我们对空间信息使用d等于二,而对于颜色信息d等于三。常数项Q1确保所述函数

将颜色值映射到量化的颜色空间中的对应的柱状图箱(bin)。
所述物体模型包括历史信息。当所述物体被遮蔽时,所述历史信息使得柱状图更精确。
以位置z为中心的核的颜色柱状图为p(z)。在相同位置的背景颜色柱状图为b(z)。2D高斯形状的加权函数用于对离开所述核的中心较远的像素分配较小的权重。
Bhattacharya系数 测量物体柱状图和在当前帧中的物体的期望位置z处的柱状图之间相似度221。
我们集成背景信息并且定义相似度函数为 η(z)=αfρ(p(z),q)-αb(p(z),b(z))(3) 其中,αf和αb是前景和背景分量的混合系数。
除了最大化上述相似度函数,我们在当前柱状图和背景柱状图中惩罚相似度。假设所述物体具有不同于背景的外表。
我们使用αf=1和αb=1/2。相似度函数可以重写为 在当前帧中我们开始搜索物体的位置的初始位置为zo。围绕核柱状图ps(zo)和背景柱状图bs(zo)的值使用泰勒展开式 代入常数项Q2,我们得到 使用核和背景柱状图p(z)和b(z)的定义,相似度函数重写为 其中,



将当前帧和背景模型中的像素映射到量化的颜色空间中对应的颜色箱。
大小h等于所述沿着每一维的核的大小的一半。公式(7)中的第二项等于具有以wi加权的数据的核密度估计。权重wi可以是负值。根据公式(3)的相似度函数,由均值偏移处理确定所述分布的模式。
在位置zo的均值偏移向量变为 其中,gN(x*)=-k′N(x*)。
物体模型似然性 可以通过Parzen窗估计器来估计以z为中心的核内部的单像素(xi,ui)属于所述物体的似然性281 上面,将表示颜色信息的核的大小选择为hc=16。将在位置z的物体的似然性281测量为 物体核kN的权重函数将较小的权重分配给离开中心较远的采样,以提高估计的性能。
在附录A中给出根据本发明的均值偏移跟踪方法的伪码。
比例适配 仅使用前景的像素来执行物体模型的比例适配。这样做的原因是物体的移动可以朝着相机或远离相机,这样改变帧中的物体的大小。以估计的位置z1为中心的物体的物体核是B。外部核O也是以物体核为中心。所述外部核具有物体核B的两倍区域。我们最大化适用分数 其中,当x是前景像素时

为1,否则为零。在每一帧处,让外部核O固定,通过改变边界线的位置,在限制内我们修改物体核B的所有维度,并且选择比例,这样产生最大适用分数。
矩形物体核B的维为(xL,xR,yU,yD),其中,xL是最左边界线的x坐标,xR是最右边界线,yU是上边界线,yD是下边界线。在成比例于帧速率fr的限制内我们改变维为 xL=xL±(k*fr*(xR-xL)), xR=xR±(k*fr*(xR-xL)), yU=yU±(k*fr*(yD-yU)), yD=yD±(k*fr*(yD-yU)), 并且每次确定适合度分数。
通常,由于低帧速率,在两个连续帧中的物体核没有重叠,这使得不能通过传统的均值偏移处理跟踪物体。我们的物体模型似然性函数解决在场景中由多个物体引起的不确定性是非常有效的。此外,通过包括背景模型211,可以有效提高基于柱状图的均值偏移跟踪器。
核估计的融合 在我们初始化用于物体的多个核并将均值偏移估计应用于每一核之后,我们得到估计的核位置(x,y)k,其中,k=1,...,K,并且K是多个核的数量。因而,如下我们融合这些位置估计以确定所述物体新位置(x,y)*。
存在我们可以分配给这些估计的位置中的每一个的几个似然性分数。我们通过测量核的估计的位置和物体的先前的位置(x,y)t-1之间的距离来测量距离似然性分数。对于较大的距离,距离似然性分数较低。如果场景的水平投影是可用的,则可以通过使用2D图像平面距离或3D水平投影距离来测量距离。
基于使用卡尔曼滤波器的先前帧中的物体先前的速度和方向,通过确定和分配运动似然性分数,我们集成物体的运动历史。如果根据均值偏移方法的核的估计的位置远离根据卡尔曼滤波器的估计的位置,则所述运动似然性分数具有较低的值。
因为我们已经具有物体模型,所以我们还通过在当前帧中比较物体模型和以物体的估计的位置为中心的核来确定模型似然性分数。模型似然性距离包括颜色、梯度、方向和纹理距离。为了比较,我们确定在物体模型和当前帧颜色、梯度和纹理距离之间的相似度。如果物体模型具有较高的值,则我们分配较高的模型似然性分数。为多个核中的估计位置中的每一个确定上述似然性。
我们为每一核确定融合分数以组合所有的分数。我们将加权距离、运动和模型似然性分数求和。
两种方法能够确定物体的新位置。第一方法选择具有最高分数的位置作为当前帧中的物体的估计的位置。
第二种方法基于向量相加。我们设置物体先前的位置(x,y)t-1作为原点(0,0),并且通过从估计的核位置(x,y)k减去先前的位置(x,y)t-1我们关于原点确定差向量,即(x,y)kd=(xk-xt-1,yk-yk-1)。我们将每一不同的向量乘它们的融合分数。其后,我们关于总的融合权值确定向量和并对所述向量和进行归一化。结果给出物体先前的位置和新位置之间的差。
本发明的效果 本发明提供一种用于在以低帧速率获得的视频中跟踪物体的方法。在围绕由变化检测所得到的高运动区域为中心的多个核上多次迭代均值偏移处理。
与传统的方法不同,根据本发明的方法可以以较低的时间分辨率(例如1fps)跟踪移动物体,而不牺牲鲁棒性和精度。
所述多个核方法还可以同时跟踪多个物体。所述方法在出现遮蔽时(例如当物体暂时“消失”在树或停放的车辆后面)也工作良好。
当以完全时间分辨率处理视频时,所述多个核方法也比传统的方法具有更好的性能。
虽然已经通过优选实施例的示例描述了本发明,但应理解,在本发明的精神和范围之内,可以进行其他各种改变和修改。因此,所附权利要求的目的在于覆盖落入本发明的精神和范围之内的所有这些变化和修改。
附录 Algorithm Multi-Kernel Mean-Shift InputTarget at location z0 at previous frame and connected components centered at{ci}i=1..l· 1.Lmax←0,i←0 2.Initialize mean shift centered at previous target location 3.while i≤l 4.Find mean shift vector m(z0)using(9) 5.whileη(z0)<η(z0+m(z0)) 6.z0←z0+m(z0)) 7.Find mean shift vector m(z0)using(9) 8.Compute likelihood L(z0)using(11) 9.if Lmax<L(z0) 10.then Lmax←L(z0),z1←z0 11.Initialize mean shift centered at ith connected component(z0=ci), 12.i←i+权利要求
1.一种用于在以相机获得的场景的视频中跟踪移动物体的方法,包括以下步骤
获得场景的视频,所述视频包括帧序列,每一帧包括多个像素,以及对于每一帧,进一步包括以下步骤
维持背景模型;
根据背景模型检测移动物体;
为移动物体维持物体模型;
根据所述移动物体的路径的似然性和所述物体模型的似然性,为所述移动物体分配多个核;
对每一核应用均值偏移处理以估计所述核的位置;
组合多个核的估计位置;以及
根据多个偏移核的组合估计位置,确定移动物体的估计位置以在视频中跟踪移动物体。
2.如权利要求1所述的方法,进一步包括以下步骤
以多个相机获得多个视频;
在多个视频中同时检测多个移动物体;以及
在多个视频中同时跟踪多个移动物体。
3.如权利要求1所述的方法,进一步包括以下步骤
对多个帧进行子采样。
4.如权利要求1所述的方法,其中,以低帧速率获得所述视频。
5.如权利要求1所述的方法,其中,以低于每秒两帧的速率获得所述帧。
6.如权利要求1所述的方法,进一步包括以下步骤
移除未连接的像素以检测移动物体。
7.如权利要求1所述的方法,其中,所述多个核包括包含与移动物体相关联的所有像素的物体核、包括移动物体90%的像素的内部核以及是物体核的区域大小的两倍的外部核。
8.如权利要求7所述的方法,其中,每一核是矩形。
9.如权利要求7所述的方法,其中,每一核是圆形区域。
10.如权利要求7所述的方法,其中,每一核是先前帧中移动物体的形状。
11.如权利要求1所述的方法,其中,在像素亮度的梯度方向上移动所述多个核。
12.如权利要求1所述的方法,其中,物体模型是(W×H)×D的元素矩阵,每一个元素包括颜色采样,其中,W和H分别是物体模型的宽度和高度,D是关于连续帧测量的深度。
13.如权利要求12所述的方法,其中,当前帧中的移动物体的估计位置是z1,物体核中的像素是(xi,ui)Ni=1,其中,xi是帧坐标系中的2D坐标,ui是包括像素的颜色和垂直梯度量值的特征向量,物体模型中的采样点表示为(yj,vjk)Mj=1,其中,yj是物体模型坐标系的2D坐标并且vjk是用于2D颜色和梯度量值的特征向量{vjk}k=1,…,D+2。
14.如权利要求1所述的方法,其中,根据高斯函数对每一核加权。
15.如权利要求1所述的方法,其中,由颜色柱状图表现每一核。
16.如权利要求1所述的方法,其中,使用Parzen窗估计器确定似然性。
17.如权利要求1所述的方法,进一步包括以下步骤
调节移动物体的大小。
18.如权利要求1所述的方法,进一步包括以下步骤
聚集核的先前位置;以及
归一化聚集的位置以获得所述移动物体的路径的似然性。
19.如权利要求1所述的方法,进一步包括以下步骤
在背景模型和帧之间确定距离对帧中的每一像素,根据所述像素和核的先前位置之间的距离对距离图中的值进行加权;
找到距离图中的峰值;
分配移动物体的先前位置作为峰值中的一个;
合并彼此邻近的峰值;
关于峰值的幅度对组合的峰值进行阈值处理;以及
将以每一峰值为中心的多个核中的一个确定为中心。
20.如权利要求19所述的方法,进一步包括以下步骤
关于距离图对像素进行聚类。
21.如权利要求20所述的方法,进一步包括以下步骤
使用移动物体的大小应用空间均值偏移分段。
22.如权利要求1所述的方法,进一步包括以下步骤
选择可能的核位置的初始集合;
确定物体模型和中心在初始集内的位置周围的核之间的相似度分数;
为每一位置分配如下权值,该权值反比于到初始核位置的距离;
将相似度分数乘以权值以确定峰值似然性;以及
通过以下操作递归地选择多个核位置从具有最大峰值似然性分数的可能位置开始,通过在每一次迭代移除与物体大小成比例的区域,直到达到最大核数量或者没有剩下可能的核位置。
23.如权利要求22所述的方法,进一步包括以下步骤
基于路径似然性图选择可能的核位置的初始集合。
24.如权利要求1所述的方法,进一步包括以下步骤
根据获得视频的帧速率确定多个核的数量。
25.如权利要求7所述的方法,进一步包括以下步骤
在与获得视频的帧速率成比例的值的范围内修改物体核的维度。
26.如权利要求1所述的方法,其中,背景模型基于像素的梯度量值、方向和纹理特性。
27.如权利要求1所述的方法,对于每一核,进一步包括以下步骤
通过测量所述核的估计位置和所述核的先前位置之间的距离来确定距离似然性分数;
基于在先前帧中移动物体的先前速度和方向确定运动似然性分数;
通过比较物体模型与在核的估计位置处的颜色、梯度、方向和纹理来确定模型似然性分数;
通过聚集距离、运动和模型似然性的加权和来确定融合分数;以及
使用融合分数在当前帧中分配移动物体的新位置。
28.如权利要求27所述的方法,进一步包括以下步骤
确定多个核的最大融合分数;以及
根据最大融合分数分配移动物体的新位置。
29.如权利要求27所述的方法,进一步包括以下步骤
为每一核在核的估计位置和移动物体的先前位置之间构建不同的向量;
将不同的向量乘以融合分数;
确定作为相乘的不同向量之和的和向量;
对所述和向量进行归一化;以及
分配归一化的向量作为移动物体新位置和先前位置之间的差。
全文摘要
一种跟踪由相机获得的场景视频中的移动物体的方法。为每一帧维持背景模型,并且根据在所述背景模型中的改变来检测移动物体。为所述移动物体维持物体模型,而并且为所述移动物体产生核。根据所述背景模型、所述物体模型和均值偏移核,在每帧中对每一核应用均值偏移处理,以确定在每帧中所述移动物体的估计位置的似然性,以跟踪视频中的移动物体。
文档编号H04N5/14GK101120382SQ20068000471
公开日2008年2月6日 申请日期2006年3月29日 优先权日2005年4月1日
发明者法蒂·M.·波利克力, 昂塞尔·图塞尔 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1