动态场景下的运动物体检测方法

文档序号:6389535阅读:192来源:国知局
专利名称:动态场景下的运动物体检测方法
技术领域
本发明涉及一种动态场景下的运动物体检测方法,主要用于视频监控系统运动目标分类、跟踪等更高层次的视频分析,属于视频处理技术领域。
背景技术
运动物体检测是视频监视、人机交互,交通监控等系统视频分析的一个关键问题,其结果通常用于目标跟踪、分类等更高层次的分析与处理。检测方法的有效性与鲁棒性对整个视频系统非常关键。作为运动检测的一种有效方法,背景帧差值法(Background Subtraction)将场景背景从当前图像中减去以得到运动前景,具有准确定位与不扩大运动区域等优点。通常假设背景完全静止不动或背景可通过拍摄没有运动物体的所谓空背景得到。而事实上,在实际应用系统如交通监控中,不包括运动物体或完全静止不变的背景图像无法得到。因此,背景帧差值法检测运动物体需要首先从包含运动物体的场景复杂的序列图像中动态地提取背景模型,而且该模型必须具有对环境变化的鲁棒性和对运动物体的高灵敏性。
传统的参数模型法通过事先假定待估计背景的某种特性服从一定的统计模型,如高斯分布或混合高斯分布,然后计算模型参数得到背景模型。这必将涉及到模型参数估计以及参数优化等问题,而这些问题通常涉及计算复杂的期望极大值化算法。另外,由于实际场景复杂,如存在树枝叶摇动等因素,实际背景模型分布未知且不能事先假定,根本无法得到待估计背景象素过程的先验知识。因此,参数方法不适合于视频监控系统。近年来,由Elgammal等人提出的非参数模型法(Elgammal A.,Harwood D.,and Davis L.,Non-parametric model for backgroundsubtraction,The 6th European Conference on Computer Vision,Dublin,Ireland,2000,page 751-767)直接从数据中估计未知密度函数,避免了模型形式假定以及分布参数的估计优化等问题。然而,Elgammal提出的非参数模型法采用全部样本集中的数据用于模型估计,需要在检测过程中保存所有样本数据。而且,该方法对不同的样本进行相同的处理,将每一样本对密度估计的作用视为完全相同,在密度计算中采用均一权值,这样在背景提取过程中需要重复计算许多相同或者相似的样本。

发明内容
本发明的目的在于针对上述技术的不足及视频监控系统的实际需要,提供一种动态场景下的运动物体检测方法,不需要事先假设背景的分布形式,避免在背景密度估计中的信息冗余和重复计算,所建立的多样性样本非参数多模态模型可以处理场景复杂及不完全静止的情况,为更高层次视频分析如跟踪、分类等系统奠定坚实的技术基础。
为实现这个目的,针对场景不完全静止而存在小运动的情形,本发明首先通过多样性原理,从原始训练序列中提取出样本集中具有较高出现频度以及具有多样性的样本,保留训练图像序列中的重要信息。然后根据非参数概率密度估计理论,采用核密度估计(KDE,kernel density estination)函数对象素过程进行建模估计视频图像象素灰度的分布。最后通过阈值化来得到运动物体的二值掩码,得到运动物体的位置和形状。
本发明所提出的动态场景运动物体检测方法主要包括四个部分多样性样本集的提取、核估计窗宽计算、核密度估计和运动物体二值掩码计算。具体步骤如下1)多样性样本集选取。采集一组连续拍摄包含运动物体的视频序列图像(N帧)作为原始训练样本集,从每一象素的N个时域取值直方图中交替选取具有最高出现频度以及与所选样本在欧氏距离下具有最大差异性的样本组成新的样本集,同时以新样本为中心计算正负单位灰度取值区间内的原样本数,得到新样本的不同权值用于核密度估计;2)核估计窗宽计算。在得到新样本集及对应权值后,还需要得到核估计中每一象素对应的窗宽。在背景模型估计中,窗宽主要要反映象素灰度由于图像模糊等产生的局部变化而不是灰度的跳跃变化。利用原始样本集中每一象素在相邻帧中的样本绝对差中位数(MAD)来计算,得到该象素窗宽与样本绝对差中位数的关系,从而求得不同象素点的窗宽值。
3)核密度估计。利用所得到的多样性样本、权值以及窗宽后,可以对当前帧图像进行核密度估计。将当前图像每一象素的灰度取值代入核密度估计函数,计算得到当前图像象素的估计密度。
4)运动物体二值掩码计算。对于不同的图像序列,通过实验选定的某一阈值,对步骤3中计算得到的估计密度进行阈值化处理。当估计密度大于阈值时,将对应象素点视为背景点并赋1,否则视为前景运动物体点,赋为0。由此得到的二值掩码可以很好地表征当前时刻运动物体的位置及其形状。
本发明方法不需要事先假设背景的任何形式,避免了复杂的参数计算和优化。背景提取和运动物体检测过程中不再需要保存和使用原始训练序列的全部数据,节省了存储空间,避免了耗时的重复计算。本发明方法的实现简单有效,具有很好的通用性和针对性。


图1为本发明动态场景下的运动物体检测方法的流程框图。
图2为本发明多样性样本集提取流程框图。
图3为本发明实施例所采用的交通场景原始图像。
图4为本发明实施例从原始图像得到的运动物体检测结果。
具体实施例方式
为了更好地理解本发明的技术方案,以下结合附图和实施例作进一步详细叙述。
图1为本发明方法的流程框图。为了建立运动物体检测的动态背景模型,需要N帧连续的图像序列作为样本用于模型训练。对于某一象素(x,y),需要提取新的多样性样本(Mx,y个),并同时得到窗宽σx,y。然后对当前帧图像进行核密度估计,并对估计结果进行阈值化处理,最后得到运动物体检测结果。图2是图1中多样性样本集提取的流程框图。从原始训练样本的直方图中首先得到具有最大出现频度的灰度值,接着从原样本集剩下的样本中选取与所选得的灰度值在欧氏距离下最远的灰度值,然后再从未选取样本中得到最大频度灰度和与已选样本距离最远灰度值,如此反复直到得到所需样本数。
本发明实施例采用的某一交通场景的当前时刻原始图像如图3所示,运动物体检测按以下步骤具体进行1)多样性样本集的提取采集一组连续拍摄并包含运动物体的视频序列图像(N帧)作为原始训练样本集,某一象素(x,y)在N帧中的灰度取值为S1={y1,y2,…,yN}。由于S1中存在一些相似甚至相同的值,所以可用M个在S1中具有最高出现频度以及具有最大变化性的值来表示。具体做法为首先,计算S1中出现频率最高的灰度值g1g1=yq1=argmaxq1(ny1,ny2,···,nyp)]]>式中nyi表示灰度取值为yi的样本总数,P为N个样本的不同灰度取值数。其次,选取与g1在欧氏距离下相差最远的灰度值g2g2=yq2=argmaxq2(|g1-yk|)---k=1,2,···,P]]>然后,从S1未被选取的值中得到频度最高的灰度值g3g3=yq3=argmaxq3≠q1,q2(ny1,ny2,···,nyp)]]>接着选取与已得到的新样本{g1,g2,g3)相距最远的值g4g4=yq4=argmaxq4≠q1,q2,q3(minl=q1,q2,q3(|yk-g1|))k=1,2,···,P]]>如此反复,交替选取未选取样本集中频度最大及与已选得样本相差最远的值,直至得到Mx,y个样本的新样本集S2={g1,···,gMx,y}.]]>显然,当Mx,y=N时即为选取S1中的全部灰度取值。
对于新样本gi,由下式来计算其权值αi
αi=NiN,i=1,···,Mx,y]]>式中Ni是在[gi-Δg,gi+Δg]的原样本数,Mx,y可由象素(x,y)的在N帧中的灰度取值数P来得到 式中[P/(2Δg+1)]为不大于P/(2Δg+1)的最小整数。K1,K2为实验给定参数,Mmax为新样本集的最大样本数。
2)核估计窗宽计算在背景密度核估计中,窗宽σ主要反映象素灰度由于图像模糊等产生的局部变化而不是灰度的跳跃变化。时域上相邻的象素对(yi,yi+1)通常来源于相同的局部分布而只有很少情况来源于交叉分布。假设其局部分布服从N(μ,σ2)的高斯分布,那么差值(yi-yi+1)的分布为高斯分布N(μ,2σ2)。由高斯分布的对称性以及样本中位数的定义可以得到样本绝对差值|yi-yi+1|的中值m满足∫-∞m12π2σ2eu22σ2du=0.25]]>由标准正态分布表可查得其上侧0.25分位数Φ(u0.25)为0.68,那么m=0+u0.25(2σ)=0.682σ]]>窗宽σx,y可由样本中位数mx,y得到σx,y=mx,y/(0.682).]]>3)核密度估计核密度估计通过加权平均中心点位于采样值的局部函数来估计未知的密度分布。由1)2)步骤得到象素特征空间的多样性新样本集{g1,g2,…,gMx,y},权值αi以及窗宽σx,y,当前图像(附图3)中象素(x,y)的灰度取值为yt的密度分布为p(yt)p(yt)=Σi=1Mx,yαiKσx,y(yt-gi)]]>式中Kσ为窗宽为σ的核函数且满足Kσ(x)=1σK(xσ),]]>αi为归一化权值系数Σi=1Nαi=1.]]>如果采用标准正态分布核来计算,则图像灰度分布的公式为p(yt)=Σi=1Mx,yαi12πσx,y2e(yt-gi)22σx,y2]]>4)运动物体二值掩码计算计算得到图3中每一象素的密度估计后,可以通过阈值化得到的二值掩码获得运动物体的位置与形状。对于某一象素灰度值yt,如果核密度估计结果小于某一阈值th,则该象素点被归为前景点,否则归为背景点。运动物体检测结果可由二值掩码来表示 图4是由图3得到的运动物体检测结果。虽然高架下图像的对比度很低,但是运动车辆仍然得到了较好的检测。图3右边的行人虽然被树木遮挡而且树叶存在小范围的运动,但是行人的位置与形状也得到了很好的检测。检测结果中的噪声主要是由于背景的某些状态不包含在所建立的背景模型中,可以通过噪声滤波技术将其去除以得到更好的检测结果。
权利要求
1.一种动态场景下的运动物体检测方法,其特征在于包括如下步骤1)多样性样本集选取采集一组连续拍摄包含运动物体的视频序列图像作为原始训练样本集,从每一象素的时域取值直方图中交替选取具有最高出现频度以及与所选样本在欧氏距离下具有最大差异性的样本组成新的样本集,同时以新样本为中心计算正负单位灰度取值区间内的原样本数,得到新样本的不同权值用于核密度估计;2)核估计窗宽计算利用原始样本集中每一象素在相邻帧中的样本绝对差中位数,得到该象素窗宽与样本绝对差中位数的关系,从而求得不同象素点的窗宽值;3)核密度估计利用所得到的多样性样本、权值以及窗宽,对当前帧图像进行核密度估计,将当前图像每一象素的灰度取值代入核密度估计函数,计算得到当前图像象素的估计密度;4)运动物体二值掩码计算对核估计密度进行阈值化处理,当估计密度大于选定的某一阈值时,将对应象素点视为背景点并赋1,否则视为前景运动物体点,赋为0,由此得到的二值掩码表征当前时刻运动物体的位置及其形状。
全文摘要
本发明提供一种动态场景下的运动物体检测方法,针对场景不完全静止而存在小运动的情形,采用核密度估计函数(KDE)对象素过程进行建模,利用非参数概率密度估计理论计算视频图像象素灰度的分布。本发明方法从原始训练序列中得到时域多样性样本集用于模型训练。在背景提取和运动物体检测过程中不需要保存和使用原始训练数据,节省了存储空间,避免了耗时的重复计算,能够得到运动物体的实时位置和形状。本发明方法的实现简单有效,具有很好的通用性和针对性。
文档编号G06T7/20GK1564600SQ20041001785
公开日2005年1月12日 申请日期2004年4月22日 优先权日2004年4月22日
发明者毛燕芬, 施鹏飞 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1