基于实时人机对话的平面视频转立体视频的方法

文档序号:7694787阅读:138来源:国知局
专利名称:基于实时人机对话的平面视频转立体视频的方法
技术领域
本发明属于计算机多媒体技术领域,特别涉及一种将普通平面视频转为立体视频的技术。
背景技术
通过对人类生理立体视觉要素的研究发现,人类左右眼看同一场景时因存在"视差" 而产生立体感,所谓"视差"即三维空间中同一物体在左右眼成像时会有水平方向上的位 移。传统的视频序列都是单路的平面视频序列,而立体视频序列则包含了多路(两路或两 路以上)平面视频序列,各路平面视频序列同一时刻的视图之间带有"视差"信息,能够 为观看者提供对应的左眼视图序列和右眼视图序列,这也是观看立体视频时可以产生如临 其境的立体感的原因。
一直以来,真实感立体视频以其场景的真实感,很强的视觉冲击力,受到大众的喜爱, 也被电视、电影、广告等行业所重视。早期的立体显示方式,需要一定的辅助工具(如偏 振眼镜等),从而限制了立体l见频的应用范围。随着立体显示技术的发展,现有裸眼立体 显示技术(如裸眼自由式多视点显示技术、裸眼双目立体显示技术)已经逐渐成熟,可以 实现无需佩戴特殊的辅助工具的立体视频直接呈现。目前,裸眼立体显示技术的成熟和立 体视频应用的逐渐普及,对相应的立体视频内容生成技术提出了很高的要求。
立体视频的内容生成技术是相关计算机多媒体领域内的重要难题之一 一方面,由于 直接拍摄多路立体视频的设备成本高、技术难度大,而且单镜头拍摄方式在未来相当长一 段时间内仍然会占主流;另一方面,现有的平面视频内容数量庞大,将平面视频转为立体
视频具有极大的现实意义和商业价值,而平面视频转立体视频技术也正在得到越来越多的 重视。
计算机视觉领域的理论指出,相对于给定的观察位置(如摄像机或者人眼),某点的
"视差"与其所在三维空间中的深度(depth value,即该点在三维空间中的位置与观察位 置的实际距离)成反比。深度越大(离观察位置距离越远)的物体,产生的视差越小,而 无穷远点的视差则对应为0;反之,深度越小的物体(离观察位置距离越近),其产生的视 差则越大。如果从某一观察位置获取了三维空间的平面视图,那么该平面视图中每一个像 素的深度值便组成了该平面视图对应的深度图(depth map)。基于某一观察位置所获取的 平面视图和对应深度图,计算机就可以通过视觉理论中的插值渲染算法,自动得到三维空 间在观察位置相邻视角所成像的多路虚拟平面视图。原平面视图与这些多路虚拟视图一同 构成了立体视频所需的多路视角图像,最终合成相应的立体视频。
平面视频转换为立体视频的过程,就是一个提取单路平面视频序列每帧视图所对应的深度信息,并通过深度信息插值渲染生成多路视频序列,即立体视频的过程。基于深度信 息的渲染(Depth Image Based Rendering, DIBR)算法是计算机多媒体技术领域的一种成 熟算法,因而平面视频转换成立体视频的关键,在于如何提取单路平面视频序列所对应的 深度信息。目前,现有的平面视频转立体视频技术方案主要分为基于人机交互手动提取和
基于计算机算法自动提取两类
1) 用户通过计算机屏幕,利用图像或视频编辑软件,对单路平面视频每一帧手动地 进行前景物体分割,并根据视频序列的内容,即序列中前后景物体的位置和运动关系,进 行深度赋值,从而得到单路平面视频序列所对应的深度图序列。该技术方案的优势在于前
景物体的手动分割结果可以达到较高的精度,同时操作灵活,深度图视觉质量较好;而不 足之处则在于,逐帧手动分割和提取深度图的效率不高,进行大规模商业应用的人工成本
太咼o
2) 基于计算机算法自动提取单路平面视频序列的深度图过程则主要利用现有计算机 算法自动完成该视频序列中每一帧的前景物体分割,从而大大降低了用户转换的工作量, 提高了转换的效率。然而,利用该技术方案所生成的立体视频的效果,依赖于分割算法的 精度,而现有计算机自动分割算法对于视频序列内容的依赖性比较高,算法的鲁棒性较低。 另外,还没有成熟的前后景物体位置判断和运动关系分析算法,因此用户需要人工进行对 应的深度赋值。
本发明中涉及到的成熟算法
1) 视频子序列划分和镜头检测技术
镜头检测算法是基于内容的视频检索技术的一部分,其特点在于能够方便地利用计算 机对视频数据进行处理以产生适当的摘要,从而更加全面地表示、处理、组织和获取视频 数据。视频中的一个镜头是指用同一摄像机进行连续不间断拍摄、表示时间和空间上的一 个连续动作的帧序列;从内容的上下文语义上讲,镜头是视频序列内容的基本单元,而镜 头边缘检测则是对应的功能算法,通过对视频帧特定的图像信息进行分析(如亮度变化、 直方图分布、运动估计、边缘图等),利用视频序列镜头边缘若干帧特定信息的突变,来 检测视频子序列,完成视频子序列划分和关键帧提取。
2) 图像增强技术与图像锐化
图像锐化是图像增强技术的一种。图像锐化处理的目的,是为了使图像的边缘、轮廓 线以及图像的细节变得清晰。从频率域来考虑,图像模糊和不清晰的实质是因为其高频分 量被衰减,因此可以用高通滤波器来使图像清晰。在本专利中,我们选择一种简单的高频 滤波算法来实现图像增强的目的,即将拉普拉斯算子滤波后的图像与原始图像作差,来得 到边缘锐化和增强的图像。
3) 图像平滑与高斯滤波
图像平滑的作用主要在于消除噪声。
一般来说,图像的能量主要集中在其低频部分, 噪声所在的频段主要在高频段。因此,对图像进行平滑可以采用低通滤波的方法去除高频干扰。 一种简单的空域图像平滑方法在图像上使用一个较小的滑动窗口,每次对窗口内 所有像素点的亮度值进行高斯滤波,并将巻积结果作为窗口中心点像素的亮度值;同时, 也通过对相邻时刻视频序列对应位置的像素进行平滑,获得相邻帧之间的平滑结果。 4)基于深度图的立体渲染算法(DIBR)和立体视频生成
在不同的观察位置(观察视角)成像的视图中,三维空间中的点与摄像机中心的距离 (景深信息),表现为平面视图中成像点坐标的位移(即"视差");而该"视差"信息和 景深(即深度值)成反比关系。DIBR渲染算法基于一个观察位置上所得的平面视图中每个 像素所对应的深度信息,计算该像素点的"视差"值,并进行相应的坐标位移;对该视图 中每一个像素进行移动后,便生成了该观察视角相邻位置上成像虚拟平面视图;而利用这 些带有"视差"信息的多路视图,便能合成多路立体显示设备所需要的立体视图。

发明内容
本发明的目的是为改进现有平面视频转立体视频方法的不足,提出一种基于实时人机 对话的平面视频转立体视频方法。该方法基于实时人机对话,可以提取单路平面视频序列 每一帧的精确深度图,得到效果较好的立体视频序列,从而实现从平面视频到立体视频的 转换过程;该方法能同时满足转换效果和转换效率这两个要求。
本发明提出一种基于实时人机对话的平面视频转立体视频方法,包括以下步骤
1) 基于镜头检测技术,计算机自动对要处理的平面视频序列,按照相邻视频帧内容 的上下文关系,将整个视频序列划分成内容相关的子序列;同时,用户通过计算机屏幕指 定每个子序列中任意一帧作为关键帧,其余作为非关键帧;
2) 基于拉普拉斯算子,计算机自动对所有平面视频帧进行滤波,增强图像边缘信息, 锐化视频帧前景物体的边缘,突出对应的前景物体的轮廓;
3) 用户基于实时人机对话,对关键帧进行前景物体分割,并提取轮廓曲线和深度4) 用户基于实时人机对话,对非关键帧的前景物体进行分割和提取轮廓曲线;
5) 用户基于实时人机对话,提取非关键帧的深度6) 重复步骤4) ~5),直到生成该视频子序列中所有非关键帧的深度7) 重复步骤3) ~6),直到生成原平面视频序列所有帧对应的深度图序列;
8) 计算机自动对深度图序列中每一帧深度图进行高斯平滑处理,消除立体视图渲染 时的边缘抖动;
9) 基于DIBR算法,计算机自动将原视频序列的每一帧作为参考视图,利用平滑后的 深度图序列渲染生成每一时刻所对应的多个视角的视图;然后,根据特定立体显示设备的 要求,将每一个时刻多个视角的视图合成为该时刻对应的立体视频帧;
10 )计算机自动将每个时刻的立体视频帧组成立体视频序列。 本发明的特点及有益效果
1)本发明方法的特点和优势在于首先,通过人机实时对话,得到平面视频序列里关键帧的精确分割结果和深度图;其次,计算机自动利用视频帧之间的内容相关性,将关键 帧的分割结果和深度图作为非关键帧处理的初始值;然后,用户通过计算机屏幕手动进行 局部调整,得到准确的非关键帧深度图;最后,基于深度信息,生成对应的立体视频序列;
2) 该方法结合了计算机算法和实时人机对话,仅需要用户手动转换少量的关键帧和 细调非关键帧的计算机自动处理结果,能够高效和精确地得到视频帧前景物体分割结果和 对应的深度图;而现有的平面视频转立体视频方法,即用户手动逐帧转换方法和计算机自 动转换方法,都难以同时满足转换效果和转换效率这两个要求;
3) 本发明方法的特点和优势还在于,利用图像边缘锐化的增强技术,强化视频序列 的边缘轮廓,以方便用户进行前景对象分割和轮廓提取的人机交互操作;
4) 本发明方法的特点和优势又体现在,利用视频序列相邻帧之间的内容相关性,将 参考帧的前景物体轮廓曲线和对应的前景物体深度值,直接作为相邻帧前景物体分割和深 度赋值的初始值,从而提高转换的效率;同时,由于在非关键帧中只需要进行前景物体轮 廓曲线的局部调整和对应的深度细调,因此可以保证较高的相邻帧前景物体分割精度和相 邻帧前景物体轮廓曲线的一致性,减少渲染后立体视频序列中因相邻帧前景物体轮廓的不 连续而造成的前景物体边缘抖动,获得更好的立体视频质量;
5) 本发明方法的特点和优势最后还体现在,对深度图进行平滑的后处理技术,可以 减少因前景物体分割不准和图像噪声等因素所造成的误差,并改善这些误差对立体视频渲 染质量的影响。


图1为本发明方法总体流程框图。
图2为本发明的实施例中待处理的平面视频序列的关键帧图像。
图3为对关键帧进行图像增强的结果图。
图4为生成的关键帧的深度图。
图5本实施例对深度图进行平滑滤波的过程。
具体实施例方式
本发明提出一种基于实时人机对话的平面视频转立体视频的方法,其具体实施方法,
结合流程图(如图l所示),说明如下
1) 基于镜头检测技术,计算机自动对要处理的平面视频序列,按照相邻视频帧内容 的上下文关系,将整个视频序列划分成内容相关的子序列;同时,用户通过计算机屏幕指 定每个子序列中任意一帧作为关键帧,其余作为非关键帧;
2) 基于拉普拉斯算子,计算机自动对所有平面视频帧进行滤波,增强图像边缘信息, 锐化视频帧前景物体的边缘,突出对应的前景物体的轮廓;
3) 对关键帧进行前景物体分割,并提取轮廓曲线和深度图31) 用户通过计算机屏幕,基于图像编辑软件工具,勾勒出边缘锐化后的关键帧中每 一个前景物体的轮廓,得到对应的前景物体轮廓曲线;每一条轮廓曲线包围的区域为前景 物体,所有轮廓曲线以外的区域为背景区域,由此完成关键帧的前景物体分割;
32) 根据关键帧前景物体的特点,用户通过计算机屏幕以输入数值的方式,指定轮廓 曲线所围区域内每个像素的深度值(像素的深度值以一整数表示,取值范围为大于0,小 于等于255,表示该像素的空间位置离摄像机的距离;深度值0,表示空间位置在距离摄 像机无限远处,而深度值255则表示距离摄像机最近的空间位置);同时,指定背景区域 像素的深度值为0,得到关键帧的深度4) 对非关键帧的前景物体进行分割和提取轮廓曲线
41) 计算机自动将关键帧每一个前景物体的轮廓曲线复制到相邻非关键帧的对应位 置,作为非关键帧前景物体轮廓曲线的初始位置;
42) 用户通过计算机屏幕,基于图像编辑软件工具,对轮廓曲线进行局部位置调整, 得到精确的非关键帧前景物体轮廓曲线;该非关键帧中每一条轮廓曲线包围的区域为非关 键帧的前景物体,所有轮廓曲线以外的区域为非关键帧的背景区域,由此完成非关键帧的 前景物体分割;
5) 提取非关键帧的深度图
51) 计算机自动将关键帧前景物体的深度值,复制到非关键帧对应的前景物体轮廓曲 线所包围的区域,作为非关键帧前景物体的初始深度值;赋予非关键帧背景区域深度值为 0;
52) 用户通过计算机屏幕根据视频序列中前景物体的运动特点,对非关键帧中前景物 体的深度值进行细调,从而得到非关键帧的深度6) 重复步骤4) ~5),直到生成该视频子序列中所有非关键帧的深度7) 重复步骤3) ~6),直到生成原平面视频序列所有帧对应的深度图序列;
8) 计算机自动对深度图序列中每一帧深度图进行高斯平滑处理,消除立体视图渲染 时的边缘抖动;
9) 基于DIBR算法,计算机自动将原视频序列的每一帧作为参考视图,利用平滑后的 深度图序列渲染生成每一时刻所对应的多个视角的视图;然后,根据特定立体显示设备的 要求,将每一个时刻多个视角的视图合成为该时刻对应的立体视频帧;
10) 计算机自动将每个时刻的立体视频帧组成立体视频序列。
本发明提出的基于实时人机对话的平面视频转立体视频方法实施例,结合附图,包括 以下步骤-
1)基于镜头检测技术,计算机自动对要处理的平面视频序列,按照相邻视频帧内容 的上下文关系,将整个视频序列划分成内容相关的子序列;同时,用户通过计算机屏幕指 定每个子序列中任意一帧作为关键帧,其余作为非关键帧;本实施例的子序列如图2所示 包括5个视频帧,指定其中任意一帧为关键帧,图2中用黑色框标出的第一帧作为关键帧,其余4帧为非关键帧;
2) 基于拉普拉斯算子,计算机自动对所有平面视频帧进行滤波,增强图像边缘信息, 锐化视频帧前景物体的边缘,突出对应的前景物体的轮廓;以关键帧为例,如图3 (a)所 示,由于背景复杂,前景人物的某些边缘部分和背景难以区分,造成用户提取轮廓和进行 前景物体分割时的困难;而使用拉普拉斯算子对关键帧进行滤波,如图3 (b)所示,并将 关键帧与滤波后的图像作差后得到增强的关键帧图像,如图3 (c)所示;在边缘增强的图 像中,关键帧中对象的轮廓更加分明用户更容易分割前景物体和背景区域,从而有效提取 前景物体轮廓;
3) 对关键帧进行前景物体分割,并提取轮廓曲线和深度图
31) 用户通过计算机屏幕,基于图像编辑软件工具,勾勒出边缘锐化后的关键帧中每 一个前景物体的轮廓,得到对应的前景物体轮廓曲线;每一条轮廓曲线包围的区域为前景 物体,所有轮廓曲线以外的区域为背景区域,如图4 (a)中的黑色区域),由此完成关键 帧的前景物体分割;
32) 根据关键帧前景物体的特点,用户通过计算机屏幕以输入数值的方式,指定轮廓 曲线所围区域内每个像素的深度值(像素的深度值以一整数表示,取值范围为大于0,小 于等于255,表示该像素的空间位置离摄像机的距离;深度值0,表示空间位置在距离摄 像机无限远处,而深度值255则表示距离摄像机最近的空间位置);同时,指定背景区域 像素的深度值为0,得到关键帧的深度图;如图4 (a)所示,背景为最大景深,对应深度 值为0,前景5个物体左边1个、中间2个、右边2个分别对应深度值为200、 220、 240;
4) 对非关键帧的前景物体进行分割和提取轮廓曲线
41) 计算机自动将关键帧每一个前景物体的轮廓曲线复制到相邻非关键帧的对应位 置,作为非关键帧前景物体轮廓曲线的初始位置;
42) 用户通过计算机屏幕,基于图像编辑软件工具,对轮廓曲线进行局部位置调整, 得到精确的非关键帧前景物体轮廓曲线;该非关键帧中每一条轮廓曲线包围的区域为非关 键帧的前景物体,所有轮廓曲线以外的区域为非关键帧的背景区域,由此完成非关键帧的 前景物体分割;
5) 提取非关键帧的深度图
51) 计算机自动将关键帧前景物体的深度值,复制到非关键帧对应的前景物体轮廓曲 线所包围的区域,作为非关键帧前景物体的初始深度值;赋予非关键帧背景区域深度值为 0;
52) 用户通过计算机屏幕根据视频序列中前景物体的运动特点,对非关键帧中前景物 体的深度值进行细调,从而得到非关键帧的深度图; 一非关键帧的深度图如图4 (b)。可 以看到该实施例中各帧的前景物体分割结果基本一致,局部位置稍有调整,而深度赋值没 有变化,大大降低了转换过程中的用户操作;
6) 重复步骤4) ~5),直到生成该视频子序列中所有非关键帧的深度图;7) 重复步骤3) ~6),直到生成原平面视频序列所有帧对应的深度图序列;
8) 计算机自动对深度图序列中每一帧深度图进行高斯平滑处理,消除立体视图渲染 时的边缘抖动;基于深度信息的立体视频渲染(DIBR算法)效果,对深度信息的精度比 较敏感;而在深度图中,当前景物体边缘处深度值突变很快时,前景物体分割时的误差就 会在基于深度信息的立体视频渲染过程中造成更严重的边缘抖动问题,影响渲染效果和立 体视频质量;通过平滑深度图在边缘处的深度突变,就能改善边缘抖动问题;在本实施例 里平滑过程实现为前景物体的深度值保持不变,仅在边缘深度突变处进行了深度值平滑; 平滑前的关键帧深度图如图5 (a),平滑后的关键帧深度图如图5 (b),平滑前的深度图序 列如图5 (c),平滑后的深度图序列如图5 (d);
9) 基于DIBR算法,计算机自动将原视频序列的每一帧作为参考视图,利用平滑后的 深度图序列渲染生成每一时刻所对应的多个视角的视图;然后,根据特定立体显示设备的 要求,将每一个时刻多个视角的视图合成为该时刻对应的立体视频帧;
10) 计算机自动将每个时刻的立体视频帧组成立体视频序列。
权利要求
1. 一种基于实时人机对话的平面视频转立体视频方法,包括以下步骤1)基于镜头检测技术,计算机自动对要处理的平面视频序列,按照相邻视频帧内容的上下文关系,将整个视频序列划分成内容相关的子序列;同时,用户通过计算机屏幕指定每个子序列中任意一帧作为关键帧,其余作为非关键帧;2)基于拉普拉斯算子,计算机自动对所有平面视频帧进行滤波,增强图像边缘信息,锐化视频帧前景物体的边缘,突出对应的前景物体的轮廓;3)用户基于实时人机对话,对关键帧进行前景物体分割,并提取轮廓曲线和深度图;4)用户基于实时人机对话,对非关键帧的前景物体进行分割和提取轮廓曲线;5)用户基于实时人机对话,提取非关键帧的深度图;6)重复步骤4)~5),直到生成该视频子序列中所有非关键帧的深度图;7)重复步骤3)~6),直到生成原平面视频序列所有帧对应的深度图序列;8)计算机自动对深度图序列中每一帧深度图进行高斯平滑处理,消除立体视图渲染时的边缘抖动;9)基于DIBR算法,计算机自动将原视频序列的每一帧作为参考视图,利用平滑后的深度图序列渲染生成每一时刻所对应的多个视角的视图;然后,根据特定立体显示设备的要求,将每一个时刻多个视角的视图合成为该时刻对应的立体视频帧;10)计算机自动将每个时刻的立体视频帧组成立体视频序列。
2、 如权利要求l所述的方法,其特征在于,所述步骤3)用户基于实时人机对话,对关键帧进行前景物体分割,并提取轮廓曲线和深度图,具体步骤包括31) 用户通过计算机屏幕,基于图像编辑软件工具,勾勒出边缘锐化后的关键帧中每 一个前景物体的轮廓,得到对应的前景物体轮廓曲线;每一条轮廓曲线包围的区域为前景 物体,所有轮廓曲线以外的区域为背景区域,由此完成关键帧的前景物体分割;32) 根据关键帧前景物体的特点,用户通过计算机屏幕以输入数值的方式,指定轮廓 曲线所围区域内每个像素的深度值,取值范围为大于0,小于等于255的一整数;同时, 指定背景区域像素的深度值为0,得到关键帧的深度图。
3、 如权利要求l所述的方法,其特征在于,所述步骤4)用户基于实时人机对话,对非关键帧的前景物体进行分割和提取轮廓曲线,具体步骤包括41) 计算机自动将关键帧每一个前景物体的轮廓曲线复制到相邻非关键帧的对应位置,作为非关键帧前景物体轮廓曲线的初始位置;42) 用户通过计算机屏幕,基于图像编辑软件工具,对轮廓曲线进行局部位置调整, 得到精确的非关键帧前景物体轮廓曲线;该非关键帧中每一条轮廓曲线包围的区域为非关 键帧的前景物体,所有轮廓曲线以外的区域为非关键帧的背景区域,由此完成非关键帧的 前暈物体分割。
4、如权利要求l所述的方法,其特征在于,所述步骤5)用户基于实时人机对话,提 取非关键帧的深度图,具体步骤包括-51) 计算机自动将关键帧前景物体的深度值,复制到非关键帧对应的前景物体轮廓曲 线所包围的区域,作为非关键帧前景物体的初始深度值;赋予非关键帧背景区域深度值为 0;52) 用户通过计算机屏幕根据视频序列中前景物体的运动特点,对非关键帧中前景物 体的深度值进行细调,从而得到非关键帧的深度图。
全文摘要
本发明涉及基于实时人机对话的平面视频转立体视频的方法,属于计算机多媒体技术领域,该方法包括计算机将整个视频序列划分成内容相关的子序列;用户指定每个子序列中任意一帧作为关键帧;计算机对所有平面视频帧进行滤波,增强图像边缘信息,锐化视频帧前景物体的边缘;对关键帧和非关键帧的进行前景物体分割,并提取轮廓曲线和深度图,直到生成原平面视频序列所有帧对应的深度图序列;再利用平滑后的深度图序列渲染生成每一时刻所对应的多个视角的视图,并合成立体视频帧;将各个时刻的立体视频帧组成立体视频序列。本发明基于实时人机对话,可以得到每一帧的精确深度图,从而很好地实现平面视频转立体视频,最终得到效果较好的立体视频。
文档编号H04N13/00GK101287143SQ20081011177
公开日2008年10月15日 申请日期2008年5月16日 优先权日2008年5月16日
发明者刘继明, 尤志翔, 戴琼海 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1