对已知摄像机参数和深度信息的视频序列的时空一致性分割方法

文档序号：7741153阅读：109来源：国知局

专利名称：对已知摄像机参数和深度信息的视频序列的时空一致性分割方法
技术领域：
本发明涉及视频时空一致性分割方法，尤其涉及一种对已知摄像机参数和深度信
息的视频序列的时空一致性分割方法。
背景技术：
视频分割技术是计算机中层视觉领域的基础技术之一，其在物体识别、图像/视频注解、视频编辑和视频编码等众多领域中有及其重要的应用。这些应用通常要求视频分割的结果具有很高的时空一致性。视频分割技术的难点在于分割的结果具有很高的时空一致性。目前单张图像分割技术在一定程度上能较好地保持空间域分割边界，例如Mean-shift就是一种经典的基于特征空间聚类的图像分割方法D. Comaniciu， P. Meer， andS. Member. Mean shift : A robust approach toward feature space analysis. IEEETransactions on Pattern Analysis and Machine Intelligence, 24 :603-619， 2002.，其他的经典的图像分割方法还包括Watershed :P. D. Smet and R丄V. P. M. Pires. Implementation and analysis of an optimized rainfalling watershed algorithm. InlS&TSPIE' s 12th Annual Symposium Electronic Imaging, pages 759-766， 2000.。但是对于一个视频序列来说，现有的视频分割方法都很难达时空域上的高度一致性。这些方法通常依赖于运动估计来建立相邻帧之间的对应关系，而由于运动估计的不鲁棒、极易受遮挡影响，会导致区域对应不可靠，从而产生错误或者多帧之间不一致的分割结果；另外三维场景中区域遮挡情况的存在使得视频分割问题变得更为复杂难解。现有的视频区域分割方法主要分为两大类
1.独立处理空间域和时域上的分割。此类方法较为典型的是Brendel于09年提出的方法W. Brendel and S. Todorovic. Video object segmentation by tracking regions. In ICCV， 2009.，此方法首先用低层图像分割技术对每帧图像进行空间域上的分割，然后在时域上利用circular dynamic-time warping技术进行对应区域的匹配。Siying Liu的方法S. Liu， G. Dong， C. H. Yan， and S. H. Ong. Video segmentation-Propagation, validation andaggregation of a preceding graph. In CVPR， pages 1-7， 2008.是一种渐进式的分割方法，它利用视频序列上一帧图像的分割结果来约束下一帧图像的分割。独立处理的方法不足之处在于于缺乏准确的二维运动估计，从而影响对应区域的匹配或传递；另外，复杂的区域遮挡情况也会为区域匹配或传递引入诸多问题。
2.在时空域上进行整体联合分割此类方法较为典型的是Jue Wang的Anisotropic Kernel Mean-shift方法 J. Wang， B.Thiesson， Y. Xu， andM. Cohen. Image and video segmentation byanisotropic kernel mean shift. In ECCV，pages 238-249， 2004.以及Greenspan的方法H. Greenspan,
4J. Goldberger， and A. Mayer. Probabilistic space—time videomodeling via piecewise GMM. IEEE Transactions on Pattern Analysis and Machinelntelligence，26 (3): 384-396， 2004.这些方法都是将视频作为一个整体时空域数据进行Mean-shift或者G匪等聚类处理。联合处理的方法的缺点在于它不能处理大幅度运动和严重遮挡的情况；庞大的数据量亦使得这类方法严重开销内存，不适用于长视频序列处理。

发明内容
本发明的目的在于针对现有"视频分割技术"的不足，提出一种对已知摄像机参数和深度信息的视频序列的时空一致性分割方法。对已知摄像机参数和深度信息的视频序列的时空一致性分割方法包括如下步骤 1)利用Mean-shift方法对视频的每帧进行单独的区域分割； 2)根据摄像机参数和深度信息在整个序列上对Mean-shift区域分割边界进行统
计，为每帧计算出一个"概率边界图"； 3)利用Watershed变换及能量优化方法对"概率边界图"进行分割处理，得到相比 Mean-shift在不同帧更为一致连贯的图像分割； 4)对于Watershed变换及能量优化方法得到的初始化分割，在不同帧之间进行分割块的匹配和连接，从而生成时空域上的分割块； 5)利用摄像机参数和深度信息为每个像素统计其属于每个时空域分割块的概率，
并利用能量优化方法进行逐帧的迭代优化，从而得到时空一致的视频分割结果。所述的根据摄像机参数和深度信息在整个序列上对Mean-shift区域分割边界进
行统计，为每帧计算出一个"概率边界图"步骤为 1)根据摄像机参数及深度信息将当前帧像素投影至其余帧，找出对应位置，并判断其是否被遮挡； 2)统计当前帧之外其余所有图像上不被遮挡的对应位置的分割边界，得到每帧图像上相邻两个像素之间存在分割边界的概率，即"概率边界图"。所述的利用Watershed变换及能量优化方法对"概率边界图"进行分割处理，得到相比Mean-shift在不同帧更为一致连贯的图像分割步骤为 1)对概率边界图做Watershed分割，保留分割结果中大于30个像素的分割区域； 2)将保留的分割区域作为种子区域，利用种子区域的颜色、坐标位置及深度信息
的高斯概率分布作为能量值进行能量优化，得到每帧图像的空间域聚类划分。所述的对于Watershed变换及能量优化方法得到的初始化分割，在不同帧之间进
行分割块的匹配和连接，从而生成时空域上的分割块步骤为 1)对于两两视频帧之间寻找匹配的分割块，根据分割块投影的重叠面积比例来判断匹配与否； 2)将不同帧上的具有匹配关系的分割块进行连接，从而形成时空域上的分割块。
所述的利用摄像机参数和深度信息为每个像素统计其属于每个时空域分割块的概率，并利用能量优化方法进行逐帧的迭代优化，从而得到时空一致的视频分割结果步骤为
1)根据摄像机参数及深度信息将当前帧像素投影至其余帧，找出对应位置，并判断其是否被遮挡； 2)统计当前帧之外其余所有图像上不被遮挡的对应位置属于每个时空域分割块的概率； 3)将时空域概率作为能量值，对于视频中的每帧图像进行多次能量优化得到每帧图像的空间域聚类划分，从而得到时空一致的视频分割结果。本发明的优点在于一、视频序列每帧的分割结果能够很好地保持物体边界；二、在视频序列多帧之间能够保持分割块的一致性，不会有闪烁跳变现象。由于该方法得到的分割块具有高度的时空一致性，因而对物体识别、图像/视频注解、视频编辑和视频编码等领域将会有很高的应用价值。

图1是对已知摄像机参数和深度信息的视频序列的时空一致性分割方法的流程图；图2 (a)是一个视频序列实例的两帧图像；图2(b)是对图2(a)统计得到的概率边界图，图中每个像素位置用四连通邻域概率边界的最大值经过归一化的灰度值来表示概率大小，统计出的两帧边界概率具有很好的一致性；图3(a)是本发明的不同帧上两个区域的匹配过程的描述；
图3(b)是本发明的区域匹配图的一个实例；
图4 (a)是另一个视频序列实例的两帧图像；图4(b)是运用本发明方法得到的3238个分割块的结果，分割的边界在帧与帧之间具有很好的一致性；图4(c)是运用本发明方法得到的7513个分割块的结果，分割的边界在帧与帧之间具有很好的一致性。
具体实施例方式
对已知摄像机参数和深度信息的视频序列的时空一致性分割方法包括如下步骤 1)利用Mean-shift方法对视频的每帧进行单独的区域分割； 2)根据摄像机参数和深度信息在整个序列上对Mean-shift区域分割边界进行统
计，为每帧计算出一个"概率边界图"； 3)利用Watershed变换及能量优化方法对"概率边界图"进行分割处理，得到相比 Mean-shift在不同帧更为一致连贯的图像分割； 4)对于Watershed变换及能量优化方法得到的初始化分割，在不同帧之间进行分割块的匹配和连接，从而生成时空域上的分割块； 5)利用摄像机参数和深度信息为每个像素统计其属于每个时空域分割块的概率，
并利用能量优化方法进行逐帧的迭代优化，从而得到时空一致的视频分割结果。对已知摄像机参数和深度信息的视频序列的时空一致性分割方法的步骤流程如图1。所述的根据摄像机参数和深度信息在整个序列上对Mean-shift区域分割边界进行统计，为每帧计算出一个"概率边界图"步骤为 1)根据摄像机参数及深度信息将当前帧像素投影至其余帧，找出对应位置，并判断其是否被遮挡；投影计算的公式化表示如下《~ 、7; - ;,) 其中xt为第t帧上的像素，h表示齐次坐标，KRT分别表示摄像机的内部参数，旋转参数和平移参数，z表示深度值。通过比较3D深度和投影位置的深度的差值是否大于0. 0002来判断是否被遮挡。
2)统计当前帧之外其余所有图像上不被遮挡的对应位置的分割边界，得到每帧图像上相邻两个像素之间存在分割边界的概率，即"概率边界图"。对于序列每帧的相邻像素点对，统计其余帧上对应像素点对是否在同一个 Mean-shift分割区域之内，如果不是则存在边界；统计其余所有帧中边界出现的概率，得到一致连贯的概率边界图，图中每相邻两像素之间存在一个边界概率值，如图2。
概率边界图统计的公式化表示如下A(x,'y,) = 7;Wx,) # s(y,)] 其中xtyt为第t帧上的相邻像素，Xt'为在第t'帧上的对应位置，s为Mean-shift 的分割结果，nv为不出现遮挡情况的帧的数目，只有不存在遮挡的帧才会被纳入统计范围。
所述的利用Watershed变换及能量优化方法对"概率边界图"进行分割处理，得到相比Mean-shift在不同帧更为一致连贯的图像分割步骤为 1)对概率边界图做Watershed分割，保留分割结果中大于30个像素的分割区域；
在做Watershed分割之前，先利用截断值S对概率边界图进行向下截断，以避免出现过分割(over-segmentation)的情况，S =0.1。 2)将保留的分割区域作为种子区域，利用种子区域的颜色、坐标位置及深度信息
的高斯概率分布作为能量值进行能量优化，得到每帧图像的空间域聚类划分。能量优化使用马可夫随机场模型，能量最小化的方程式公式表示如下￡")=Z(A("x,))+ S五力(x,),s(y,))) 其中Ed(sOO)表示对于Xt像素，其属于每个种子区域s(Xt)的高斯概率密度，概
率密度是颜色，深度信息和坐标位置的概率分布之和，其公式表示如下
(x,》=-wclog顺x,)I/4,)，S:(x,))-Wrflog顺x,)I ,))-wslog称,I"叫,As(x>) 其中N为高斯概率密度函数，I(Xt)为Xt坐标位置的颜色值，D(Xt)为Xt坐标位置
的深度值，wjdl分别为颜色，深度信息和坐标位置高斯概率的权重值，w。 = 0. 54，wd = 0. 1，
ws = 0. 36，、 d E e E d分别为颜色和深度信息的均值和协方差矩阵，n A分别为坐标位
置的均值和协方差矩阵。Es(s (xt) ， s (yt))表示相邻像素xtyt之间的交互能量值，它与xtyt像素之间的边界
7概率值成反比，其定义如下<formula>formula see original document page 8</formula> 其中A b为交互能量权重值，A b = 1. 67， e b为边界概率值敏感度的控制量，e b =0. 6。本发明使用Belief Propagation方法P. F. Felzenszwalb and
D. P. Huttenlocher. Efficient belief propagation for early vision. International
Journal of Computer Vision, 70(1) :41-54， 2006.进行能量最小化求解。所述的对于Watershed变换及能量优化方法得到的初始化分割，在不同帧之间进行分割块的匹配和连接，从而生成时空域上的分割块步骤为 1)对于两两视频帧之间寻找匹配的分割块，根据分割块投影的重叠面积比例来判
断匹配与否；利用摄像机参数和深度信息将其中一帧上的每个分割块投影到另一帧上，寻找出所有与投影区域重叠的分割块，重叠面积比例大于Sv的分割块被判定为
匹配分割块，Sv = 0.8。 2)将不同帧上的具有匹配关系的分割块进行连接，从而形成时空域上的分割块。
建立在视频时空域上的一个无向图G = (V，E)，用来表示分割块的匹配关系，如图 3所示，V表示顶点，E表示连接顶点对的边；每帧的每个分割块对应图中的一个顶点；判断为匹配的分割块对应的顶点之间存在一条边；无向图的所有连通分量构成了视频时空域分割，每个连通分量代表一个时空域分割块。所述的利用摄像机参数和深度信息为每个像素统计其属于每个时空域分割块的概率，并利用能量优化方法进行逐帧的迭代优化，从而得到时空一致的视频分割结果步骤为 1)根据摄像机参数及深度信息将当前帧像素投影至其余帧，找出对应位置，并判断其是否被遮挡； 2)统计当前帧之外其余所有图像上不被遮挡的对应位置属于每个时空域分割块的概率；时空域分割块的概率统计公式表示如下
A(/,X,)=^^;[S(X》=/] 其中P(Xt)表示像素Xt在其余帧上的对应像素所属的所有可能时空域分割块的集合。 3)将时空域概率作为能量值，对于视频中的每帧图像进行多次能量优化得到每帧图像的空间域聚类划分，从而得到时空一致的视频分割结果。
能量优化使用马可夫随机场模型，能量最小化的方程式公式表示如下
柳=2>,,))+ Z《卵,),S(y,))) 能量最小化方程的Ed(S(xt))在这个环节表示对于xt像素，其在其余帧上的对应位置属于每个时空域分割块的概率统计值以及颜色、空间位置及深度信息的概率分布值的总和，其公式表示如下
8
讽x,)) = -log A (S(x,)) - w: log戦x,) I《)，S;<x >) -w>gW(Z)(x,)| ))-w:log 1S W(x,l%w，As(") 其中wh为时空域分割块概率统计的权重值，wh = 0. 9， w。 = 0. 054， wd = 0. 01， ws 二 0.036，时空域分割块的概率统计值占主要比例；f(S(Xt))表示包含属于SOO的分割块的所有帧集合。使用BeliefPropagation方法进行能量最小化求解。对于每一帧的优化来说，将其他帧的分割结果作为参变量对当前帧的分割进行求解。每优化完一帧，立即更新对应的时空域分割块连接图G。经过3次能量优化的分割结果将趋于收敛，达到高度的时空一致性。对已知摄像机参数和深度信息的视频序列的时空一致性分割方法的一个应用实例如图4，从产生的应用效果来看，本发明的分割结果既能够很好地保持物体边界，又能在视频多帧之间能够保持分割块的高度时空一致性，不会出现闪烁跳变。
权利要求
一种对已知摄像机参数和深度信息的视频序列的时空一致性分割方法，其特征在于包括如下步骤1)利用Mean-shift方法对视频的每帧进行单独的区域分割；2)根据摄像机参数和深度信息在整个序列上对Mean-shift区域分割边界进行统计，为每帧计算出一个“概率边界图”；3)利用Watershed变换及能量优化方法对“概率边界图”进行分割处理，得到相比Mean-shift在不同帧更为一致连贯的图像分割；4)对于Watershed变换及能量优化方法得到的初始化分割，在不同帧之间进行分割块的匹配和连接，从而生成时空域上的分割块；5)利用摄像机参数和深度信息为每个像素统计其属于每个时空域分割块的概率，并利用能量优化方法进行逐帧的迭代优化，从而得到时空一致的视频分割结果。
2. 根据权利要求1所述的一种对已知摄像机参数和深度信息的视频序列的时空一致性分割方法，其特征在于所述的根据摄像机参数和深度信息在整个序列上对Mean-shift 区域分割边界进行统计，为每帧计算出一个"概率边界图"步骤为1) 根据摄像机参数及深度信息将当前帧像素投影至其余帧，找出对应位置，并判断其是否被遮挡；2) 统计当前帧之外其余所有图像上不被遮挡的对应位置的分割边界，得到每帧图像上相邻两个像素之间存在分割边界的概率，即"概率边界图"。
3. 根据权利要求1所述的一种对已知摄像机参数和深度信息的视频序列的时空一致性分割方法，其特征在于所述的利用Watershed变换及能量优化方法对"概率边界图"进行分割处理，得到相比Mean-shift在不同帧更为一致连贯的图像分割步骤为1) 对概率边界图做Watershed分割，保留分割结果中大于30个像素的分割区域；2) 将保留的分割区域作为种子区域，利用种子区域的颜色、坐标位置及深度信息的高斯概率分布作为能量值进行能量优化，得到每帧图像的空间域聚类划分。
4. 根据权利要求1所述的一种对已知摄像机参数和深度信息的视频序列的时空一致性分割方法，其特征在于所述的对于Watershed变换及能量优化方法得到的初始化分割，在不同帧之间进行分割块的匹配和连接，从而生成时空域上的分割块步骤为1) 对于两两视频帧之间寻找匹配的分割块，根据分割块投影的重叠面积比例来判断匹配与否；2) 将不同帧上的具有匹配关系的分割块进行连接，从而形成时空域上的分割块。
5. 根据权利要求1所述的一种对已知摄像机参数和深度信息的视频序列的时空一致性分割方法，其特征在于所述的利用摄像机参数和深度信息为每个像素统计其属于每个时空域分割块的概率，并利用能量优化方法进行逐帧的迭代优化，从而得到时空一致的视频分割结果步骤为1) 根据摄像机参数及深度信息将当前帧像素投影至其余帧，找出对应位置，并判断其是否被遮挡；2) 统计当前帧之外其余所有图像上不被遮挡的对应位置属于每个时空域分割块的概率；3) 将时空域概率作为能量值，对于视频中的每帧图像进行多次能量优化得到每帧图像的空间域聚类划分，从而得到时空一致的视频分割结果。
全文摘要
本发明公开了一种对已知摄像机参数和深度信息的视频序列的时空一致性分割方法。步骤如下1)利用Mean-shift方法对视频进行分割；2)根据摄像机参数和深度信息统计Mean-shift的分割边界，计算每帧的“概率边界图”；3)利用Watershed及能量优化方法对“概率边界图”进行分割，得到更为一致连贯的分割结果；4)对于Watershed及能量优化方法得到的初始化分割，在不同帧之间进行分割块的匹配和连接，生成时空域上的分割块；5)利用摄像机参数和深度为每个像素统计其属于每个时空域分割块的概率，利用能量优化方法进行逐帧迭代优化，得到时空一致的视频分割结果。本发明的分割结果能够很好地保持物体边界，且在视频多帧之间能够保持分割块的高度时空一致性，不会出现闪烁跳变。
文档编号H04N5/225GK101789124SQ20101010407
公开日2010年7月28日申请日期2010年2月2日优先权日2010年2月2日
发明者姜翰青, 章国锋, 鲍虎军申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章国锋;鲍虎军;姜翰青
技术所有人：浙江大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。