基于区域多重选择的视频运动对象分割提取方法

文档序号:7593868阅读:119来源:国知局
专利名称:基于区域多重选择的视频运动对象分割提取方法
技术领域
本发明属于信息处理的视频分析领域,涉及MPEG-4视频编码国际标准中基于内容的编码和对象交互式操作,具体涉及一种基于区域多重选择的视频运动对象分割提取方法。
背景技术
随着多媒体技术的发展,人们对多媒体信息的需求也从简单的播放要求转向基于内容的访问、检索和操作,传输码流应能适应不同的网络环境和各种终端。为此,MPEG组织制定了MPEG-4标准,它实质上是一个广泛适用的多媒体数据压缩编解码框架,主要规定了基于对象的编解码与操作、分级编解码功能、传输码流格式、误码检错和纠错功能等。MPEG-4采纳了基于对象的编码技术,引入了VO(Video Object)的概念,它是视频场景中具有语义的某个物体,具有生命周期,由时间上连续的许多帧构成。基于对象的编码是MPEG-4的一个重要特点,它要求对图像和视频(自然的或合成的)作更多的分析,甚至是理解。对象区域代表了视频视序列中的重要信息,是需要与其它部分的信息区别对待的。例如,将视频对象分为运动物体对象和静止不动的背景对象,通过对各个对象其重要性程度的不同采用不同的压缩方法和压缩比,从而在一定码率的要求下可提供更好的图像质量。MPEG-4的另一个重要特点是提供了基于对象的交互功能,用户能够访问(搜索和浏览)和操作(剪贴、移动)一个场景中的各个对象。
基于对象的编码和交互首先需要分割提取出视频图象中的各个对象,尽管MPEG-4的框架已经制定,但是最为关键的对象分割问题却一直未得到较好的解决,为了推动MPEG-4标准的广泛应用,基于对象的分割技术目前已成为一个研究的热点,现有的研究可分为两类方法,第一类为只需设置几个参数的自动分割方法,其基本原理是根据对象的运动信息和空间关联性,建立一定的数学模型,进行对象的提取,特点是分割过程不需要人工参与,速度较快,但精度较低;第二类方法是需人机交互的半自动分割方法,其基本原理是在分割开始后需指定初始对象伦廓,然后进行对象跟踪,主要特点是分割过程需人工参与,分割精度较高,但分割过程增加的用户负担,耗时较多。

发明内容
本发明的目的在于提供基于区域多重选择的视频运动对象分割提取方法,即一种能准确提取视频对象的自动视频分割方法,以较好解决上述现有技术所存在的缺陷,具有分割速度快、精度高的特点。为达到上述目的,本发明的构思如下如前所述,视频场景按其所包含的内容一般可分为两个大的部分运动对象和静止背景,这两个部分按其像素值的变化情况又可划分为很多小的区域。如果我们在不知道对象区域和背景区域的情况下,通过帧内空间分割,得到一些小的同质区域,然后根据序列的时空信息,通过区域分类和选择的方式得到对象区域,原则上就可实现视频对象的分割。
但由于序列中的对象运动情况是非常复杂的,比如对象在运动过程中会出现某一部分局部停止的现象,这很难通过运动检测到这部分区域;同时由于噪声的影响,有些静止的背景区域很有被检测为运动区域,另外,由于背景与运动对象的相互遮挡,也有可能造成各种误分割现象。以上所有这些问题的存在,使得仅仅依靠某种单一的方法得到准确的视频对象十分困难。因此,本发明以基于区域的多重选择方式来有效地减少这些问题的影响。
根据上述构思,本发明采用的技术方案如下一种基于区域多重选择的视频运动对象分割提取方法。其步骤如下(1)当前帧输入,对当前帧进行区域划分,得到基于区域的空间图;(2)前帧或后帧输入,进行跳帧窗口差分运动信息计算,计算出当前象素的运动信息;(3)依据帧间运动信息进行区域初始分类选择,区域内运动象素点较多的确定为对象区域,运动点非常少的为背景区域,而介于其中间的区域为候选区域;(4)对候选区域,建立时空区域能量模型,进一步确定候选区域的归属;(5)对所得到的对象区域,进行梯度补充、马尔可夫模型及区域标记后处理,得到完整的对象掩模,通过映射,获得运动的视频对象。
上述的当前帧区域划分方法是在视频序列当前输入帧内利用象素亮度值,把亮度接近的象素划分为相同的区域,不需要事先确定区域类数,划分时以当前像素的部分邻域为主要参考,所有象素仅遍历一次即可完成区域划分。其步骤如下a初始区域的确定及分割区域阈值若Ik(x,y)为序列第k帧,(x,y)为图象的行列坐标;确定象素Ik(1,1)为第一个区域的第一个象素;区域之间的阈值T根据人眼的视觉特性获得;b当前象素的区域确定方法对象素Ik(x,y),可以计算其与已8-邻域象素区域均值的绝对差值最小值,如小于阈值T,归为同一区域,否则标记为新的区域;c区域均值的计算区域每加入一个新的象素,要重新计算其区域均值,并对当前象素进行相同的标记。
上述的跳帧窗口差分运动信息计算是在连继两帧中计算,隔一帧或几帧进行计算;然后用邻域求和的方法计算当前象素的运动信息。
上述的建立时空区域能量模型是以时空能量判断候选区归属,步骤如下a区域能量模型区域能量模型由时间和空间两部分构成,时间能量以其运动信息成正比,而空间能量由其相邻区域的特征构成;空间能量的产生原则如下如果相邻区域为背景,空间能量减少,相邻区域为对象,空间能量增加,其它情况能量保持不变,。
b区域细分对区域能量进行归一化,能量大的区域划归为对象区,能量小的划归为背景区。
上述的区域分类后处理步骤为a对象区的梯度补充进行区域划分时,因利用的是区域均值,为避免对一些缓变区域因可能的错误分割所造成的对象区缺失,可利用帧内图象梯度模值二值化后取其运动部分,添加到对象区域;b用马尔可夫模型处理噪声及边缘以初始标记场和观察场为对象区二值化模板,经迭代模式(ICM)一般迭代3-5次即可去除噪声和修正边缘;c用区域标记法进行处理内部空洞对一些较大的内部空洞,可对所有被标记为背景的区域重新标记,而对区域像素数较少的区域标记为对象区域。
下面对上述内容作进一步详细说明1.帧内图象区域划分。帧内图象的分割以区域增长为基本框架,不需要事先确定区域类数,分割准则为a确定区域分割阈值为T1,第k帧首像素Ik(1,1)为第一个区域。
b对于Ik(x,y)当前象素的值,其8邻域中已确定区域的象素为左象素Ik(x,y-1)、左上像素Ik(x-1,y-1)、上象素Ik(x-1,y)、右上象素Ik(x-1,y+1)可以通过下式计算其绝对差值的最小值dmin=min[abs[I(x,y)-I(x,y-1),I(x,y)-I(x-1,y-1),I(x,y)-I(x-1,y),I(x,y)-I(x-1,y+1)]] (1)如果dmin<T1,Ik(x,y)归为dmin所在的区域,否则重新开始新的区域。
c为了使结果更为精确,用各自的区域均值代替邻域象素值。
d对所有象素都按(b)进行计算2.跳帧窗口运动信息的计算。为了减少运算的复杂度,运动信息计算采用跳帧窗口差分法,a计算帧差图象dk(x,y)=Ik+n(x,y)-Ik(x,y)(2)一般情况下,n取1,但对于某些对象运动速度较慢的序列,n可取3-5。
b为了更准确的检测运动信息,可取差分图象8-邻域(3×3的窗口)的和为当前像素的值Dk(x,y)=18Σ(i,j)∈Ndk(i,j)----(3)]]>N为(x,y)的邻域。
c对帧差图象进行二值化,图象中用0表示背景,1表示对象。二值化后的图象称为掩模,阈值T2的选取采用高阶统计量法。
3.区域的初始分割。区域的初始分割以MASK1为基础,计算每个区域的运动像素数,并进行归一化。
ρi=nimi----(5)]]>mi为第i个区域内总的象素数,ni为区域内运动变化的象素数(区域对应在MASK1值为1的象素数)。如果ρi>0.8,说明区域i有80%的象素由于运动而发生了变化,判定该区域为运动对象区域。同理,ρi<0.2,说明该区域内仅有少于20%的象素因运动而发生了运动变化,可判定该区域为静止背景区域。由于运动而引起的遮挡现象,以及噪声的影响,以帧差图象来表示运动并不准确,因此,对于0.2<ρi<0.8的区域,并不能进行准确的判别,可暂时把这部分区域归为候选区域,以便做进一步的选择判断。
4.候选区域的划分。对于候选区的判别,可依据区域时空能量模型来进行。
定义第i个候选区域的时间能量为Etemporali=Σ(x,y)∈MiMASK1i(x,y)----(6)]]>Mi为第i个区域的定义域。
定义空间能量为Espatiali=Σ(x,y)∈MiV(x,y)----(7)]]>V(x,y)为象素(x,y)的空间能量,由下式计算 n(x,y)为象素(x,y)的4邻域,B为背景区,M为运动对象区,C为候选区。当邻域中多个区域共存时,可按(8)式所示的B、M、C优先顺序进行。
根据时空两个分量的能量,可以计算总的能量,为了便于在不同大小的区域之间进行比较,对总能量进行归一化Etotali=12N(Etemporali+Espatiali)----(9)]]>N为区域总象素数,当Etotali>T3时,该区域为对象区域,否则为背景区域,T3为能量阈值。这样就可以得到反映背景区与运动对象区域的掩模 5.运动对象边界的梯度补充。对一些象素缓变区域,空间区域分割法并不总是能够有效的分割,从而可能造成某些运动对象边界或区域的缺失,对这种情况可以用梯度法补充。首先根据下式求得梯度值grad(x,y)=(dI(x,y)/dx)2+(dI(x,y)/dy)2----(11)]]>对grad用阈值T4进行二值化 通过下式,可以得到新的梯度补充掩模
MASK4=(MASK3×MASK1)+MASK2(13)式中的运算符为逻辑运算符号。
6.马尔可夫处理。虽然基于区域的处理过程能够去除大部分噪声的影响,但还是会有一部分噪声影响最后的结果。反映在从(13)式中得到的掩模MASK4中包含有一些小的噪声区域,且对象边缘不够光滑。为了解决这个问题,建立基于马尔可夫(MRF)和吉布斯(Gibbs)分布的二维离散随机场Z的模型p(Z)=1QΣωe-U(Z)/Tδ(Z-ω)----(14)]]>其中,ω表示随机场Z的状态,δ(·)表示狄拉克函数;T是用于控制分布的尖峰;Q是归一化因子,由下式给出Q=Σωe-U(Z=ω)/T----(15)]]>U(Z)表示吉布斯势能,定义为U(Z)=ΣC∈CIVC(Z)----(16)]]>VC(Z)称为基团势能,它的值只依赖于Z(X)X∈C(邻域)。
式(14)的吉布斯随机场概率分布p(Z)是一个联合概率分布,所有可能的状态都具有非零的概率,且每个特定点X的局部条件概率Z(X)仅仅依赖于该点的邻域内的随机场分布。U(Z)为随机场Z的势能函数,U(ω)越小,则随机场Z处于状态ω的概率就越大。
为了得到最大的标记概率,势能U(Z)为最小值。定义ω=1表示该随机点的状态为对象,ω=0表示随机点的状态为背景。定义 式中(m,n)为(i,j)的二阶邻域。把MASK4作为随机场Z的初始状态场,象素点(i,j)标记为不同的状态,分别用(16)、(17)计算其势能,能量小的标记状态保留。从(17)式可以看出,当前象素点与邻域点有不同的标记状态的,能量值较大,为了得到较小能量,原有的标记会被改变。噪声是突变点,在大多数情况下与邻域点有不同的标记,其标记会被周围点“淹没”。同理,不光滑的边缘会被其邻域“趋同”而变得光滑。一般情况下,初始状态场MASK4经过上述步骤重复计算3-5次即可得到稳定的标记场MASK5。
7.内部小区域的标记处理。在某些运动变化较慢的序列中,对象区域内部的局部区域会出现暂时停滞现象,虽然在运动检测中采用了一些补偿措施,但还不能完全消除。这种现象表现在由上一步骤得到的掩模MASK5内部有一些较大的空洞(值为零的区域)。可以对MASK5中所有值为零的区域以8邻接方式重新进行标记,然后对像素数较小的区域置为1,得到完整的掩模MASK6。将MASK6通过简单映射的方式就可以得到所需的对象。
本发明的特点与效果本发明提出了一种基于区域多重选择的视频运动对象分割提取方法。本方法重点考虑了分割的准确性,同时尽可能地降低运算复杂度和提高稳健性。本方法无需人机交互,只需设定阈值参数T1-T4,就可从具有复杂运动的视频序列中分割提取出视频对象。适用于基于MPEG-4的面向对象和交互性的视频,基于MPEG-7的视频数据库检索和具有视频对象提取功能的智能监控系统等。


图1是本发明的视频运动对象分割提取方法程序框图。
图2是Mother&daughter序列第一帧分割过程图。
其中(a)图为原始序列第一帧,(b)图为空间区域分割图,(c)图为区域均值图,(d)图为原始序列第五帧,(e)图为直接差分图,(f)图为改进的差分图,(g)图为区域初始分类图,(h)图为区域时空能量选择图,(i)图为空间梯度图(j)图为梯度补充图,(k)图为马尔可夫处理图,(l)图为小区域标记处理图 (m)图为掩模映射结果图。
图3 Mother&daughter序列各个典型帧的分割结果图。
其中(a)图为原始序列第10帧图,(b)图为原始序列第20帧图,(c)图为原始序列第50帧图,(d)图为第10帧分割结果图,(e)图为第20帧分割结果图,(f)图为第50帧分割结果图。
图4 Akiyo序列各个典型帧的分割结果图。
其中(a)图为原始序列第10帧图,(b)图为原始序列第30帧图,(c)图为原始序列第80帧图,(d)图为第10帧分割结果图,(e)图为第30帧分割结果图,(f)图为第80帧分割结果图。
具体实施例方式本发明的实施例按图1所示程序框图,在MATLAB测试平台上编程实现,以图2、图3和图4示出仿真结果。
以下结合附图描述本发明的实施例。
Mother&daughter序列是一个标准的测试序列,其分割过程具有一定的典型性,用其作例子能较好地说明问题。图1显示该序列第一帧的具体分割过程,其实施步骤详述如下①对原始图象第一帧,首先进行阈值为20的空间区域分割。(b)为以边界线表示的区域分割图,(c)为以区域均值表示的区域图。
②进行跳帧差分。图(e)为对第一帧和第五帧直接进行差分后的二值化图,图(f)为用窗口技术改进后的差分图,二值化阈值分别为3和15。
③根据得到的运动信息,对区域进行初始分类选择。(g)为初始分类图,黑色为背景区,白色为确定的对象区,灰色为候选区。
④用时空能量模型对候选区进一步选择,能量大的保留为对象区,小的为背景区。划分阈值为0.2。图(h)为能量选择后的结果图,可以看出,经能量选择分割后仅有少部分边缘出现了漏分和不整齐现象。
⑤对上述漏分的边界进行梯度补充。图(i)为空间梯度二值化图,图(j)为梯度补充后的掩模图,边界区域的缺失已得到了修复。
⑥对出现的噪声用马尔可夫模型进行处理,图(k)为用二阶邻域模型迭代2次后的图,噪声的影响已完全消除。
⑦对一些较大的内部空洞区域,用标记的方法进行去除,图(l)为最终的掩模图,(m)为映射后得到的结果图,运动的对象已完全从背景中分离出来。
本发明的具体实例图3和图4为本发明的两个具体实例,为了说明效果,图中上半部分给出了原始序列,下半部分为用区域选择技术分割的对应结果。可以看出,本发明十分有效,分割的运动对象完整而准确,能够满足基于内容的编码和交互式操作。
权利要求
1.一种基于区域多重选择的视频运动对象分割提取方法,其特征步骤如下a.当前帧输入,对当前帧进行区域划分,得到基于区域的空间图;b.前帧或后帧输入,进行跳帧窗口差分运动信息计算,计算出当前象素的运动信息;c.依据帧间运动信息进行区域初始分类选择,区域内运动象素点较多的确定为对象区域,运动点非常少的为背景区域,而介于其中间的区域为候选区域;d.对候选区域,建立时空区域能量模型,进一步确定候选区域的归属;e.对所得到的对象区域,进行梯度补充、马尔可夫模型及区域标记后处理,得到完整的对象掩模,通过映射,获得运动的视频对象。
2.根据权利要求1所述的基于区域多重选择的视频运动对象分割提取方法,其特征在于当前帧区域划分方法是在视频序列当前输入帧内利用象素亮度值,把亮度接近的象素划分为相同的区域,不需要事先确定区域类数,划分时以当前像素的部分邻域为主要参考,所有象素仅遍历一次即可完成区域划分。其步骤如下a.初始区域的确定及分割区域阈值若Ik(x,y)为序列第k帧,(x,y)为图象的行列坐标;确定象素Ik(1,1)为第一个区域的第一个象素;区域之间的阈值T根据人眼的视觉特性获得;b.当前象素的区域确定方法对象素Ik(x,y),可以计算其与已8-邻域象素区域均值的绝对差值最小值,如小于阈值T,归为同一区域,否则标记为新的区域;c.区域均值的计算区域每加入一个新的象素,要重新计算其区域均值,并对当前象素进行相同的标记。
3.根据权利要求1所述的基于区域多重选择的视频运动对象分割提取方法,其特征在于先用跳帧的方法计算帧间差分,即差分不是在连继两帧中计算,隔一帧或几帧进行计算;然后用邻域求和的方法计算当前象素的运动信息。
4.根据权利要求1所述的基于区域多重选择的视频运动对象分割提取方法,其特征在于建立时空能量模型,判断候选区归属的步骤如下a.区域能量模型区域能量模型由时间和空间两部分构成,时间能量以其运动信息成正比,而空间能量由其相邻区域的特征构成;空间能量的产生原则如下如果相邻区域为背景,空间能量减少,相邻区域为对象,空间能量增加,其它情况能量保持不变,。b.区域细分对区域能量进行归一化,能量大的区域划归为对象区,能量小的划归为背景区。
5.根据权利要求1所述的基于区域多重选择的视频运动对象分割提取方法,其特征在于区域分类后的处理步骤为a.对象区的梯度补充进行区域划分时,因利用的是区域均值,为避免对一些缓变区域因可能的错误分割所造成的对象区缺失,可利用帧内图象梯度模值二值化后取其运动部分,添加到对象区域;b.用马尔可夫模型处理噪声及边缘以初始标记场和观察场为对象区二值化模板,经迭代模式(ICM)一般迭代3-5次即可去除噪声和修正边缘;c.用区域标记法进行处理内部空洞对一些较大的内部空洞,可对所有被标记为背景的区域重新标记,而对区域像素数较少的区域标记为对象区域。
全文摘要
本发明涉及一种基于区域多重选择的视频运动对象分割提取方法。其步骤如下(1)当前帧输入,对当前帧进行区域划分,得到基于区域的空间图;(2)前帧或后帧输入,进行跳帧窗口差分运动信息计算,计算出当前象素的运动信息;(3)依据帧间运动信息进行区域初始分类选择,区域内运动象素点较多的确定为对象区域,运动点非常少的为背景区域,而介于其中间的区域为候选区域;(4)对候选区域,建立时空区域能量模型,进一步确定候选区域的归属;(5)对所得到的对象区域,进行梯度补充、马尔可夫模型及区域标记后处理,得到完整的对象掩模,通过映射,获得运动的视频对象。本发明提供的方法具有分割速度快、精度高的特点,适用于MPEG-4的面向对象和交互性的视频、基于MPEG-7的视频数据库检索和具有视频对象提取功能的智能监控系统等。
文档编号H04N7/26GK1588450SQ20041005264
公开日2005年3月2日 申请日期2004年7月8日 优先权日2004年7月8日
发明者张兆扬, 包红强, 安平 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1