一种立体视频通讯的实现方法、系统和设备的制作方法

文档序号:7918797阅读:174来源:国知局
专利名称:一种立体视频通讯的实现方法、系统和设备的制作方法
技术领域
本发明涉及视频技术领域,尤其涉及一种立体视频通讯的实现方法、系统和设备。
背景技术
目前传统的视频是一种二维信息载体,只能表现出景物的内容而忽略了物体的远近、位置等深度信息。而人类习惯使用两只眼睛来观察世界,作为观察的主体,人类需要提供比一幅图像更多的信息画面来获取必须的空间信
息。立体视频(Stereo Video ) /3D视频技术可以提供符合立体视觉原理的具有深度信息的画面,从而能够真实地重现客观世界景象,表现出场景的纵深感、层次感和真实性,是当前视频技术发展的重要方向。
立体视频的基本原理是模拟人眼成像原理,采用双摄像机得到左眼图像和右眼图像,在呈现时使人的左右眼分别看到左右眼图像,最后合成得到具有立体感的图像,使观察者能够感到场景的深度。因此,可以把双目立体视频看成是在现有2D视频上增加了对深度信息的扩展。
MVV (Multi-Viewpoint Video,多4见点浮见频)/ FVV (Free Viewpoint Video,自由视点视频)是当前视频领域研究的另 一个热点。其基本思想是由多个摄像机同时拍摄场景,如体育或戏剧场景,不同的摄^f象机的拍摄角度不同,产生多个视频流;这些不同视点的视频流送到用户终端,用户可以选择任意的视点和方向观看场景。用户选择的视点可以是预定义的固定的摄像机拍摄视点,也可以是一个虚拟视点,其图像由周围真实的摄像机拍摄的图像合成得到。
立体视频和自由视点视频不是互相排斥的,而是可以融合为一个系统。自由视点视频系统中的每一个视点可以采用2D方式,也可以采用立体方式观看。立体视频和自由一见点视频有着广泛的应用前景,应用领域包括DVD、电视广播、电影、视频通信、移动设备以及特定的应用,如医疗、军事等,并
将形成很大的设备市场,如3D显示器、机顶盒、媒体内容、采集设备和内容创建设备等。
立体视频技术早在七八十年代就已开始研究,但由于技术不成熟,显示设备昂贵和缺乏标准等原因一直没有大规模应用。目前的立体^L频技术一般釆用双摄像头进行同步视频采集,在编码端形成左右眼其中的一幅图像和一幅包含每个像素深度信息的深度图进行编码传输。解码端解码并通过深度信息还原左右眼图像对并进行渲染,用户通过立体眼镜或立体显示器观看。
用户的观看方式可分为两种 一种是左右眼图像的视差固定,用户看到的场景和用户与场景的距离无关;另一种是用户看到的立体图像和用户到场景的距离和方位有关,因此往往需要对用户进行定位,在解码端进行立体图像的重建,调整用户观看的立体感。当采用观看用户位置相关的重建时,即当用户双眼的观看位置发生如图1所示上下,左右,前后变化时,所看到的内容也相应变化,可以提供用户更强的真实感,带来更好的用户体验;但是其要求系统能根据用户的方位变化,快速准确重构虚拟视点,即新视点的立体图像。
现有技术中一种立体视频通讯的实现方法为采用图形学的方法,该方法基于已获取的不同角度的多幅图像对场景中的目标进行建模,当观看用户移动到不同的方位时,通过目标模型相对新视点的方位投影得到虚拟视点的观看内容,即虚拟视点的立体图像。
发明人在实现本发明的过程中,发现现有技术的方法至少存在以下问题现有技术中需要构建场景的目标模型,光照模型及目标的反射特性等,当场景中的目标比较简单且比较有规则时,可以获得较好的效果。但当观看用户移动到不同的方位时,考虑到实际场景一般都存在较多的不规则目标,且遮挡关系复杂,难以通过两幅图像完成场景的快速准确建模,且复杂度较高
发明内容
本发明的实施例提供一种立体视频通讯的实现方法、系统和设备,用于 实现观看者方位变化时立体视频的快速响应。
本发明的实施例提供一种立体视频通讯的实现方法,包括 获取观看者的方位信息;
从大范围场景中获取与所述观看者方位信息对应的视频区域;
根据与所述观看者方位信息对应的视频区域的视频数据合成立体视频。
本发明的实施例还提供一种采集端设备,包括
采集单元,用于采集大范围场景的视频数据;
获取单元,用于获取J见看者方位信息;
切割单元,用于根据所述获取单元获取的观看者方位信息,从所述采集 单元采集到的大范围场景中的视频数据切割得到与所述观看者方位信息对应 的视频区域;
发送单元,用于将所述切割单元切割得到的对应的视频区域的视频数据 向接收端发送。
本发明的实施例还提供一种实现立体视频通讯的系统,包括
采集端,用于根据获取到的观看者方位信息,从釆集到的大范围场景中,
切割得到与所述观看者方位信息对应的区域,并发送所述对应区域的视频数
据;
接收端,用于接收所述对应区域的视频数据,并根据接收到的所述对应 区域的视频数据合成立体视频。
本发明的实施例还提供一种接收端设备,包括 接收单元,用于接收采集端发送的大范围场景的视频数据; 获取单元,用于获取观看者方位信息;
切割单元,用于根据所述获取单元获取的观看者方位信息,从所述接收 到的大范围场景中切割得到与所述观看者方位信息对应的视频区域;
重构单元,用于根据所述切割单元切割得到的对应的视频区域的视频数 据合成立体视频。
本发明的实施例还提供一种实现立体视频通讯的系统,包括釆集端设备,用于发送大范围场景的视频数据;
接收端设备,用于根据获取的观看者方位信息,从所述接收到的大范围
场景的视频数据,切割得到与所述观看者方位信息对应的视频区域;并根据 所述对应一见频区域的一见频数据合成立体视频。
本发明的实施例还提供一种实现立体视频通讯的系统,包括网守、网关、 多点控制单元、第一视频通信终端以及第二视频通信终端,所述第一视频通 信终端以及第二视频通信终端在所述网守、网关和多点控制单元的控制下实 现视频数据的交互,
所述第一视频通信终端,用于发送大范围场景的视频数据;所述第二视 频通信终端,用于4艮据获取的观看者方位信息,从所述接收到的大范围场景 的视频数据,切割得到与观看者方位信息对应的视频区域;并根据所述对应 视频区域的^L频数据合成立体一见频;或
所述第一视频通信终端,用于根据获取到的观看者方位信息,从采集到 的大范围场景中,切割得到与所述观看者方位信息对应的区域,并发送所述 对应区域的^L频数据;所述第二视频通信终端,用于4妄收所述对应区域的-见 频数据,并根据接收到的所述对应区域的视频数据合成立体视频。
与现有技术相比,本发明的实施例具有以下优点
本发明的实施例中,获取观看者的方位信息并根据观看者方位信息从获 取的大范围场景中获取对应的视频区域合成立体视频,可以快速准确地响应 观看者的方位变化。当观看者的相对正常位置的上下或左右移动的幅度较大 时,可以快速获得相应的立体视频,使观看者获得最佳的立体视频观看效果。


图l是现有技术中用户观看方位的变化示意图2是本发明的实施例中左右摄像机拍摄的立体图像对示意图3A是本发明的实施例中观看位置上下左右移动场景内容切割示意图3B是本发明的实施例中观看位置前后移动场景内容切割示意图4是本发明的实施例中立体^L频通讯的实现方法流程图;图5是本发明实施例中图像采集端的流程图6是本发明实施例的双目平行摄像系统视差计算示意图7是本发明实施例的混合编解码基本流程图。
图8是本发明实施例中图像接收端的主要流程图9是本发明实施例中图像视差和物体景深以及用户离显示器距离的关 系示意图10是本发明实施例中的立体视频通讯系统的组网图; 图11是本发明实施例中立体视频通讯系统的结构示意图; 图12是本发明实施例中图像采集端设备的结构示意图; 图13是本发明实施例中立体视频通讯系统的结构示意图; 图14是本发明实施例中图像接收端设备的结构示意图; 图15是本发明实施例的立体视频通讯系统的结构示意图。
具体实施例方式
下面结合附图和实施例,对本发明的具体实施方式
作进一步详细描述 本发明的实施例提供一种立体视频通讯的实现方法,针对用户在观看过 程中相对正常观看位置作上下,左右或前后移动,导致观看到的场景内容发 生变化的问题,本发明的实施例在编码端使用高分辨率的摄像机拍摄包含前 景目标的大范围的场景内容,在显示端仅显示满足立体显示器分辨率需求的 前景目标区域(由于立体显示器同时显示左右两幅图像,因此其分辨率仅为 正常显示器的一半),如图2所示。其中实线框范围表示拍摄的范围,虚线框 表示立体显示器的显示场景区域。
当显示端检测到观看者在正常观看位置作上下或左右移动时,可以直接 在拍摄的场景范围内移动虚线框,如图3A所示,图3A中左侧四幅图和右侧四 幅图分别表示左右视图的切割情况。其中,四幅图的中间一幅视图表示原始 参考位置,上下左右视图分别表示当观看视点上下左右移动时对应的场景内 容切割。因此,根据观看者的上下或左右移动,选择对应的显示区域并对图 像作虚拟视点投影变换,从而得到新视点的立体图像。
ii当观看者相对正常位置作前后移动时,则可以通过缩小和放大虚线框选
取相应的场景内容,如图3B所示,图中左侧两幅图和右侧两幅图分别表示左
右视图的切割情况,其中,左上和右上图分别表示左右眼图像在观看位置后 移时的场景内容切割,左下和右下图分别表示左右眼图像在观看位置前移时 的场景内容切割。因此,根据前后移动对所选择的内容进行大小调整,得到 对应观看者位置变化后的显示内容。
对于本发明实施例提出的根据观看者方位变化、从拍摄的大范围场景中 切割对应的显示区域的方法,该切割功能可以在图像釆集端或显示端实现。 在采集端实现时,由显示端将观看者的方位信息发送到釆集端,采集端根据 接收到的显示端观看者方位信息从采集的内容中切割,并且仅传输切割的内
容到显示端,编码传输的视频数据量较小;在显示端实现时,采集端将采集 到的大范围的场景内容发送到显示端,由显示端根据观看者的方位信息,对 从采集端接收到的大范围场景进行切割,切割出对应的显示内容并进行重构 显示,如此,显示端的内容选择及重构较自由,且可以更快速响应观看者的 方位变化。
以下结合具体的应用场景,对本发明的实施方法作进一步详细描述。 本发明实施例提供一种立体一见频通讯的实现方法,如图4所示,包括 步骤sl01、获取观看者的方位信息。
步骤sl02、从大范围场景中获取与所述观看者方位信息对应的视频区域。 步骤sl03 、根据与所述观看者方位信息对应的视频区域的视频数据合成立 体视频。
该方法可以在釆集端或接收端实现,以切割功能在采集端实现为例,则 采集端获取观看者方位信息后,根据观看者方位信息^v采集到的大范围场景 中切割得到与所述观看者方位信息对应的区域,将所述对应区域的视频数据 向接收端发送,由接收端根据接收到的视频数据合成立体视频。再以切割功 能在接收端实现为例,则接收端接收采集端发送的大范围场景的视频数据, 并根据获取到的观看者方位信息,切割从采集端接收到的大范围场景,得到 与所述观看者方位信息对应的区域,将该对应区域的视频数据合成立体视频。以下以步骤slOl ~步骤s104所描述的切割功能在釆集端实现为例,详细 说明本发明实施例中的立体视频通讯的实现方法。切割功能在采集端实现时, 采集端的流程如图5所示,包括以下步骤
步骤s501 、接收不同摄像机采集的视频流。
采集时,摄像机布局采用平行双目摄像机模型,即从间隔一定距离的相 同平面对同一场景进行平行拍摄。摄像机由采集控制功能进行控制。摄像机 通过CameraLink、 IEEE1394或同轴电缆等方式连接到采集控制功能进行视频 流的传输,同时还通过远程控制数据线连接到采集控制功能,使采集控制功 能可以远程遥控摄像机进行平移/转动/拉近/拉远等操作。此处的摄像机应采用 高分辨率的摄像机以采集比显示内容更大的场景内容,则当观看者在正常位 置附近作上下或左右移动时,仅需在原有的拍摄场景中切割对应的内容作变 换即可重构对应的立体视频,而不需要控制摄像机运动,从而实现对观看者 方位变化的快速响应。
步骤s502、对^L频流的采集进行同步控制。
同步功能用于控制多摄像机视频流的同步采集。对于高速运动的物体, 同步采集是非常重要的,否则导致不同视点或是同一视点左右眼的图像在同 一时刻差异很大,观看者看到的立体视频就会失真。同步功能通过硬件或软 件时钟产生同步信号、输出到摄像机的外同步接口对摄像机进行同步采集控 制实现,或是输出同步信号到采集控制功能,由采集控制功能通过控制线对 摄像机进行同步采集控制。同步功能也可以采用一台摄像机的视频输出信号 作为控制信号输入到其他摄像机进行同步采集控制。
步骤s503、采集同步后的图像,根据该采集到的图像进行摄像机的标定, 获得摄像机的参数。
在立体视频系统中,为了进行立体匹配和场景重建等,需要得到场景的 深度或视差信息,而深度或视差信息的获得又必须知道物体某一点在世界坐 标系下的坐标和其成像点坐标之间的成像关系。摄像机的内外参数是决定该 成像关系的一个重要因素,而往往摄像机的内参(如图像中心、焦距,镜头 畸变等)和外参又是未知、部分未知或者原则上不确定的。因此有必要通过
13某种方法获取摄像机的内部和外部参数,该过程称为摄像机标定。在立体视 频的摄像机采集中,4艮据仿射变换原理,某一点的理想成像方程(不考虑畸
变情况)可以表示为— _
<formula>formula see original document page 14</formula>其中u、 v为成^f象点坐标;[AwFwZw]为世界坐标;力为图Y象的尺度因子, 为图像水平单位像素数/ 和垂直单位像素数/;之比;f为焦距;M。、 v。为图像 中心坐标。R为摄像机的旋转矩阵,t为摄像机平移向量。其中K为摄像机的 内参,R和t为摄像机的外参。对于平行双摄像机系统,可以得到
义,一Z 足 Z
2

其中f为焦距,Z为点到成像平面的距离,B为两台摄像机光心的间距, d为视差,如图6所示。可以看出,焦距f对深度Z的影响很大。此外内参中 的图像中心和畸变系数等也会对深度和视差计算有影响,需要利用这些参数 进行图像校正。
目前摄像机标定有多种方法,如传统标定法和自标定法等。传统标定法 的基本方法为建立摄像机成像模型线形方程组,并测出场景中一组点的世 界坐标和其在成像平面上的对应坐标,然后将这些坐标值代入该线形方程组 中求出内参和外参。自标定的基本方法为仅通过图像点之间的对应关系对 摄像机进行标定,其依据的是多幅图像中成像点间存在的特殊约束关系(如 极线约束),因此可以不需要场景的结构信息。自标定法的优点是灵活,方便; 缺点是标定精度不太高,鲁棒性不足,而且由于需要进行特征点匹配,标定 时间较长。
本发明实施例所描述的标定功能用于完成多摄像机标定,求出每个摄像 机的内参和外参,针对不同的应用场景采用不同的标定算法。如针对视频会
14议场景,该标定功能可以采用改进后的传统标定法,能够简化传统标定法的 复杂的处理过程,但相比自标定法能够提高精度和减少标定时间。具体方法
为提供或找到一种和拍摄场景相融合,并且能够稳定存在的物品作为参照 物,如视频会议场景中观看者的名牌,或场景中的杯子等物品。这些物品应 该可以提供物理几何尺寸,并且有丰富的特征可供提取。如名牌的边缘和上 面的文字或图案,杯子的同心圆特征等,并采用相应的算法进行标定。如采 用平面标定法进行标定的方法如下(1)提供已知物理尺寸的平面标定参照 物;(2)从不同角度拍摄得到平面标定参照物的图像;(3)自动匹配并检测 出平面标定参照物图像上的特征点,如文字和图案的特征点等。(4)根据平 面标定算法求出摄像机的内参和外参。(5)求出畸变系数,并进行优化。
由于是多摄像机采集,虽然可以通过遥控方式对摄像机的内参和外参进 行控制,但仍会出现不同摄像机的参数相差较大的情况,如摄像机的焦距和 外参。这时就需要将求出的不同摄像机内参和外参作为反^:贵信息提供给采集 控制功能,采集控制功能根据当前参数的差异对摄像机进行调节,通过迭代 过程使不同摄像机的参数差异达到可接受的水平。
步骤s504、根据获取的摄像机的参数,对采集到的图像进行预处理。 预处理的主要内容包括去除图像的噪声;消除不同摄像机带来的图像 差异,如对不同摄像机设置导致的图像亮度和色度差异进行调节;根据摄像 机内参中的畸变系数对图像进行校正,如径向畸变校正;对于某些依赖扫描 线匹配的立体匹配算法(如Dynamic Programming动态规划法)进行极线对 齐操作等。预处理后的图像可以消除大部分采集时带来的图像噪声和由于摄 像机差异导致的不希望的图像间的不 一致性,有利于后续的立体匹配和深度/ 视差提取。
步骤s505、对预处理后的图像进行切割处理。
从显示端接收观看者的方位信息后,根据该方位信息从拍摄的大范围场 景中切割出对应的场景区域,用于后续的处理。切割处理的原理具体为当 观看者作上下或左右移动时,采用图3描述的方法进行切割;当观看者作前 后移动时,采用图4所描述的方法进行切割。如上文所述,该切割处理也可以放在显示端进行,即采集端处理并传输摄像机所拍:f聂的大范围场景内容, 在显示端对所接收到的大范围场景根据观看者的方位进行切割。
步骤s506、对图像进行立体图像匹配,以及视差/深度提取。
立体图像匹配是立体视频中的一项关键技术。立体视频的重构需要得到 成像物体的三维信息,而其中关键的深度信息必须从多幅图像中获取。获取 深度信息的首要工作就是需要找到场景中某 一 点在多幅图像中对应的成像 点,然后再根据该点在多幅图像中坐标求出其在空间中的坐标,从而得到该 点的深度信息。找到场景中某一点在不同图像中对应成像点的过程由图像匹
配完成。
目前的立体匹配技术主要包括基于窗口的匹配、基于特征的匹配和动 态规划法等。其中基于窗口的匹配和动态规划法都采用了基于灰度的匹配算 法。基于灰度的算法的基本思想是将图像分割成小的子区域,以其灰度值作 为模版在其他图像中找到和其最相似灰度值分布的子区域,如果两个子区域 满足相似性要求,可以认为子区域中的点是匹配的。在匹配过程中,通常使 用相关函数衡量两个区域的相似性。基于灰度的匹配一般都得到图像的密集 的深度图。基于特征的匹配没有直接利用图像的灰度,而是利用由图像灰度 信息导出的特征进行匹配,相比利用简单的亮度和灰度变化信息更加稳定。 匹配特征可以认为是潜在的能够描述场景3D结构重要特征,如边缘和边缘的 交点(角点)。基于特征的匹配一般先得到稀疏的深度信息图,然后利用内插 值等方法得到图像的密集深度信息图。
匹酉己/深度提取功能对两个邻近摄像机拍摄图像的最大视差进行了限制, 如果超过该最大视差,匹配算法的效率会很差,无法得到较高精度的视差/深 度信息。该最大视差可由系统预先进行配置。匹配/深度提取功能所采用的匹 配算法不是固定的,能够从多种匹配算法(如窗口匹配,动态规划法等)中 进行选择,根据应用场景进行配置。完成了匹配操作之后,匹配/深度提取功 能根据得到的图像视差和摄像机的参数求出场景的深度信息。下面以基于灰 度的窗口匹配算法为例进行说明
设^ (;c,_y)和力(x,;;)作为左右摄^4几采集的两幅图像,(xj,)为/丄(x,_y)中的一点。以(jc,,乂)为中心构成一个模版T,大小为mxn。可以在力 (x,y)中平移该模版,设在水平位置平移Ax,在垂直位置平移Ay,其在A(xj;) 中覆盖的第k个区域为Sk,则Sk和T的相关性可以用相关函数衡量
当d (&,r)达到最小时,可以认为达到最佳匹配。如果&和r相同, 则d (取r) =o
在上式中,xl^("')"代表了模版t的能量,为常数,flx(uf为
Sk区域的能量,其随着模版T的变化而变化。如果T的变化范围较小,
£力&(/,_/)]2也近似为常量。为了使d(尿r)最小,则Jt[&(/,刀p应该最大。
此处采用NCC (Normalized Cross Correlation,归一化交叉相关算法)消除亮 度差异引起的误匹配,相关函数可表示为
其中E (&)和E (r)分别为&和r的平均灰度值。当C(Ax, Ay)最 大时,d (&,77)最小,可以认为(x丄,凡)和点(Xi+Axj^+Ay)匹配。Ax, Ay 分别为两幅图像之间的水平视差和垂直视差。对于上面所述的平行摄像机系 统,垂直视差近似为0,水平视差可以表示为Ax = i/B/Z,从而可以求出场景 中某点的深度信息Ax = /B/Z。
由于匹配操作是计算密集型任务,需要占用大量处理器时间,因此匹配/ 深度提取功能对匹配算法进行了优化(如采用并行计算),以保证系统的实时 性。
步骤s507、对图像进行编码。
目前立体视频编码主要也可以分为两类基于块的编码和基于对象的编
17码。在立体图像的编码中,除了帧内预测和帧间预测消除空域和时域上的数
据冗余度外,还必须消除多通道图像之间的空域数据冗余性。视差(Parallax) 估计与补偿是立体视频编码中的一项关键技术,用于消除多通道图像间的空
域冗余度。视差估计补偿的核心是找到两幅(或多幅)图像间的相关性,其 和运动估计补偿是类似的,但视差估计补偿比运动估计补偿要复杂。运动估 计补偿处理的是同一摄像机时间不同步的图像,而视差估计补偿处理的是不 同摄像机时间同步的图像。在视差估计补偿中,可能所有像素的位置都会发 生改变(距离很远的物体可以认为视差为0)。
本发明实施例中的视频编解码模块对双目立体视频按如下方式进行编解 码,即按一帧图像+视差/深度值+部分残差的混合方式进行编码。混合编解码 方案充分利用了相邻图像间的相关性,压缩效率更高,相比独立压缩方式能 减少更多的相邻图像间存在的时域和空域数据冗余。此外,采用视差/深度编 码有利于进行图像的重构。对于图像中有遮挡,无法提取视差/深度的部分, 采用残差编码,使重构图像的质量更好。如图7所示为双目立体视频混合编 码方案的基本流程图。
此外,视频编解码时还需要接收来自观看者的反向信道的输入,根据观 看者的方位信息对编解码进行控制。基本的控制包括下面两方面(l)根据 观看者选择的视点,分割双目摄像机所拍摄场景内容中的对应分块,仅处理 该分块内容,通过这种方式可以有效地节省编解码功能处理能力。(2)根据 用户终端的显示能力对相应的视频流进行编解码,如对于只具有2D显示能力 的终端,则编码并发送1路2D视频流。通过这种方式可以提高所述立体视频 通讯系统和普通^L频通讯系统的兼容性,并减少无用的数据的传输。
步骤s508、复用编码后的数据流。
复用功能接收来自视频编解码功能的已编码视频流,按帧/场的方式对多 路视频流进行复用,如按场方式进行复用,可以将一个—见频流编码为奇场, 另一个^L频流编码为偶场,奇偶场作为一帧进行传输。
步骤s509、分组处理复用数据流。
发送方的网络传输功能接收复用数据流,对数据流进行分组处理,封装成符合RTP等协议的数据包,通过网络接口 (如以太网接口、 ISDN接口等) 向外发送。此外,发送方的网络传输功能还必须接收音频编码功能提供的编 码音频数据流,系统控制功能发送的信令数据流和用户数据功能提供的用户 数据(如传输的文件数据),对这些数据进行分组。 步骤s510、发送分组数据流。
发送方的网络传输功能通过网络接口把经分组处理后的复用数据流、收 音频编码功能提供的编码音频数据流,系统控制功能发送的信令数据流和用 户数据功能提供的用户it据发送到接收端。
图像接收端的流程如图8所示,包括以下步骤 步骤s801、接收分组数据流。
接收端接收经发送端分组处理的数据流,包括复用数据流、编码音频数 据流、信令数据流和用户数据等。
步骤s802、提取分组数据,获取复用数据流。
接收端网络传输功能接收到发送端的分组,去除协议头保留用户有效数 据,并按数据类型分别发送到复用/解复用功能、音频编码/解码功能、系统控 制功能和用户数据功能。另外,对每一种i某体类型,完成适当的逻辑成帧、 顺序编号、差错检测和差错纠正。
步骤s803、解复用凄t据流,获取编码数据流。
解复用功能接收来自网络传输功能的分組数据,进行解复用,还原多路 已编码^见频流。
步骤s804、解码数据流。
解码功能对传输/存储的编码数据(左图像数据、视差/深度信息数据、右 图像残差数据)同时进行解码,并将解码后的视差/深度信息数据和右图像残 差数据解行合成,合成的右图像将显示在具有3D显示能力的终端。
步骤s805、判断是否需要对解码得到的数据流进行重构,是则继续,否 则进行步骤s807。
重构功能可以从用户输入功能得到用户观看的视点信息,如果用户选择的视点位于摄像机的拍摄视点上,则不需要进行重构;如果用户选择的视点 位于两个邻近的摄像机组或同组的邻近摄像机之间(没有摄像机的虚拟3见 角),需要根据相邻的摄像机拍摄的图像重构用户选择视点处的图像。 步骤s806、对解码数据流进行重构。
重构功能通过某个摄像机拍摄视点的视差/深度信息,以及相邻摄像机的 位置参数信息,可以根据投影方程确定该场景的点在某个虚拟视角中的成像 点坐标,从而可以重构出该虚拟视角的视频图像。
(1) 解决用户如何观看到没有放置摄像机视点的视频图像的问题,因为 摄像机的数目是有限的,很难覆盖所有的视点,而用户有可能需要观看没有 放置摄像机视点处的场景。重构单元可以从用户输入单元得到用户观看的视 点信息,如果用户选择的视点位于摄像机的拍摄视点上,则不需要进行重构; 如果用户选择的视点位于两个邻近的摄像机组或同组的邻近摄像机之间(没 有摄像机的虚拟视角),需要根据相邻的摄像机拍摄的图像重构用户选择视点 处的图像。通过某个摄像机拍摄视点的视差/深度信息,以及相邻摄像机的位 置参数信息,可以根据投影方程确定该场景的点在某个虚拟视角中的成像点 坐标,从而可以重构出该虚拟视角的视频图像。
(2) 解决用户通过自动立体显示器观看立体图像因为位置移动带来的视 差变化,从而导致所看到的立体图像发生变化的问题。自动立体显示器可以 使用户在不带眼镜的条件下也能看到立体图像,但此时用户离自动立体显示 器的距离是可以改变的,导致图像的视差发生变化。
图9显示了平行摄《I4几系统下图像视差;?和物体景深z,以及用户离显示
器距离D的关系,通过简单的几何关系可以得到
& =、
从上式可以看出,图像的视差p依赖于用户到显示器的距离iX立体视 频接收端收到的立体视频图像一般只具有固定的视差,可以作为一个参考视 差Pw,当Z)发生改变时,重构单元需要对视差^啦丈相应的调整,生成新的
1—-
-+ 1
一l
20视差p',并根据新视差重新生成另一幅图像。这样可以保证用户和显示表面 的距离发生改变时能看到合适的图像。用户到显示表面的距离可以通过摄像 机算出深度图自动检测,或由用户通过用户输入单元进行手工控制。
步骤s807、对数据流进行渲染。
渲染功能接收重构功能提供的视频数据流,将视频图像渲染到显示设备上。
步骤s808、将渲染后的数据流进行显示。
渲染后的数据流可以在各种显示终端(如普通的2D视频显示设备,自动 立体显示设备,立体眼镜和全息显示设备等)上进行显示。
在上述描述的方法中,切割处理是由采集端完成的,如上文所述,该切 割处理步骤也可在接收端上完成。此时釆集端将拍摄的大范围场景的视频 信息向接收端发送。接收端获取用户的方位信息;根据该方位信息,从拍摄 的大范围场景中切割出对应的区域,并将切割出的区域中的视频信息合成立 体视频向用户展示。对于该情况下的处理方法,与上述图5和图8相似,区 别在于切割处理功能从采集端移到了接收端,在此不进行详细描述。
通过使用本发明实施例提供的上述方法,获取观看者的方位信息并根据 观看者方位信息从获取的大范围场景中获取对应的视频区域合成立体视频, 可以快速准确地响应观看者的方位变化。由于直接通过在大范围的场景中切 割适合观看者位置的观看内容并作一定的变换实现新视点的立体视频重构, 因此可以快速准确地响应观看者的方位变化。当观看者的相对正常位置的上 下或左右移动的幅度较大时,可以同时遥控拍摄端的摄像机作相应的变化, 以保证观看者新视点的内容始终包含在摄像机所拍摄的范围内,使观看者获 得最佳的立体视频观看效果。
本发明实施例提供一种可快速准确响应观看者方位变化的立体视频通讯 的系统,包括网守、网关、多点控制单元、第一^L频通信终端以及第二3见频 通信终端,所述第一视频通信终端以及第二视频通信终端在所述网守、网关 和多点控制单元的控制下实现视频数据的交互。具体的,所述第一视频通信
21终端,用于发送大范围场景的视频数据;所述第二视频通信终端,用于根据 获取的观看者方位信息,从所述接收到的大范围场景的视频数据,切割得到
与观看者方位信息对应的^L频区域;并根据所述对应一见频区域的视频数据合 成立体视频;或所述第一视频通信终端,用于根据获取到的观看者方位信息, 从采集到的大范围场景中,切割得到与所述观看者方位信息对应的区域,并 发送所述对应区域的视频数据;所述第二视频通信终端,用于接收所述对应 区域的视频数据,并根据接收到的所述对应区域的视频数据合成立体视频。 所述视频通讯系统可以在基于H.323协议进4亍组网的网络结构中实现, 如图IO所示,为使用本发明所述的立体视频通讯系统的实例。该视频通讯系 统建立在分组网络上(如局域网、El、窄带ISDN和宽带ISDN等),主要由 H.323网守(Gatekeeper )、 H.323网关(Gateway )、 H.323多点控制单元(MCU )、 普通的2D视频通信终端和本发明所涉及的立体(3D)视频通信终端等构成。 其中
(1) 网守是网络中一个11323实体,为H,323终端、网关和MCU提供地址 转换和网络接入控制。网守也可以为终端、网关、MCU提供其他服务,如带 宽管理和网关定位。
(2) H.323网关为分组网络的H.323终端、电路交换网上的其他ITU终端、 或者其他H.323网关之间提供实时双向通信。
(3) 多点控制单元是网络中一个端点,为三个或更多终端及网关参加一 个多点会议服务,也可以连接两个终端构成点对点会议,随后再扩展为多点 会议。MCU由两部分组成必需的MC(多点控制器,Multipoint Controller) 和可选的MP (多点处理器,Multipoint Processor)。其中MC为多点会议提供 控制功能,和终端进行能力协商,控制会议资源;MP在多点控制器的控制下 在多点会议中对音频、视频和/或数据流进行混合、交换等集中处理。
(4 ) 2D视频通信终端包括了只具有2D图像处理和显示能力的视频通信 终端,如可视电话,视频会议终端和个人计算机视频通信终端等。
(5 ) 3D立体一见频通讯终端包括具有3D立体图^^处理和立体显示能力的 食品通讯终端,如立体可视电话,立体视频会议终端和带立体显示器的个人计算机视频通讯终端等。
在该网络结构中,当一方发起3见频通信会话时,首先通过多点控制器或 自身与对端进行能力协商。如果双方都是立体视频通讯系统,则用户双方可 以根据本发明实施例所述方案实现在不同视点看到实时切割重构的立体视 频,如果一方是普通的2D视频终端,由于不满足立体视频通信的条件,双方 用户只能以2D方式进行视频通信。
本发明的实施例提供一种实现立体视频通讯的系统,图11所示,包括
采集端l,用于根据获取到的观看者方位信息,从采集到的大范围场景中, 切割得到与所述观看者方位信息对应的区域,并发送所述对应区域的视频数
据;
接收端2,用于接收所述对应区域的视频数据,并根据接收到的所述对应 区域的视频数据合成立体视频。 具体的,该采集端l可以包括 采集单元ll,用于采集大范围场景的视频数据; 获取单元12,用于获取观看者方位信息;
切割单元13,用于根据获取单元12获取的观看者方位信息,从采集单元 1 l采集到的大范围场景中的视频数据切割得到与所述观看者方位信息对应的 一见频区i或;
发送单元14,用于将切割单元13切割得到的对应的视频区域的视频数据 向接收端2发送。
如图12所示,上述釆集端l中,其切割单元13可以具体包括 第一切割子单元131,用于当所述观看者方位信息为上下或左右移动时,
在所述拍摄的大范围场景中对显示区域进行对应的上下或左右移动,切割得
到与所述观看者方位信息对应的视频区域;
第二切割子单元132,用于当所述观看者方位信息为前后移动时,在所述
拍摄的大范围场景中对显示区域进行对应的放大或缩小移动,切割得到与所述观看者方位信息对应的视频区域。 该采集端纟殳备1还包括
预处理单元15,用于利用采集视频数据所使用双目摄像采集设备的参数, 对所述与观看者方位信息对应的视频区域的视频数据进行预处理;
深度信息获取单元16,用于对所述预处理单元15预处理后的视频数据进 行匹配,获取深度信息;
编码单元17,用于将所述视频区域的视频数据以及深度信息进行编码;
复用分组单元18,用于将所述编码后的数据流复用后进^f亍分组处理并通 过所述发送单元14向接收端2发送。
本发明的实施例还提供一种实现立体视频通讯的系统,图13所示,包括 采集端3,用于发送大范围场景的视频数据;
接收端4,用于根据获取的观看者方位信息,从所述接收到的大范围场景 的视频数据,切割得到与所述观看者方位信息对应的视频区域;并根据所述 对应3见频区域的#见频数据合成立体#见频。
具体的,该*接收端4可以包括
接收单元41,用于接收采集端3发送的大范围场景的视频数据; 获取单元42,用于获取观看者方位信息;
切割单元43,用于根据所述获取单元42获取的观看者方位信息,从所述 接收到的大范围场景中切割得到与所述观看者方位信息对应的视频区域;
重构单元44,用于根据所述切割单元43切割得到的对应的视频区域的视 频数据合成立体视频。
如图14所示,上述4妄收端4中,其切割单元43可以具体包括 第一切割子单元41,用于当所述观看者方位信息为上下或左右移动时,
在所述拍摄的大范围场景中对显示区域进行对应的上下或左右移动,切割得
到与所述观看者方位信息对应的视频区域;
第二切割子单元42,用于当所述观看者方位信息为前后移动时,在所述
24拍摄的大范围场景中对显示区域进行对应的放大或缩小移动,切割得到与所 述观看者方位信息对应的视频区域。
上述接收端4中,其重构单元44可以具体包括
第一重构子单元441 ,用于直接利用所述接收到的视频数据中切割得到的 原始左右视频数据合成立体视频;或
第二重构子单元442,用于对所述接收到的视频数据中的切割得到的原始 左右视频数据进行立体匹配获得深度视频数据,基于所述深度视频数据和所 述原始左右视频数据进行重构,合成立体视频。
本发明的一实施例中,以切割处理功能位于网络侧的采集端为例,立体 视频通讯系统的结构如图15所示,包括釆集端10、以及接收端20。其中, 采集端IO获取拍摄的大范围场景的视频信息,并获取观看者的方位信息;根 据该方位信息,从拍摄的大范围场景中切割出对应的区域并将切割出的区域 中的视频信息向接收端20发送。接收端20获得该视频信息并合成立体视频 向用户展示。
采集端10具体包括双目摄像机釆集单元101,同步单元102,标定单 元103,采集控制单元104,预处理单元105,切割处理单元106、匹配/深度 提取单元107, 一见频编码单元108,复用单元109,网络传输单元110,音频 编码解码单元lll,系统控制单元112和用户数据单元113。具体的
双摄像机采集单元IOI,摄像机布局采用平行双目摄像机模型,即从间隔 一定距离的相同平面对同一场景进行平行拍摄。采集控制单元104控制摄像 机,摄像机通过CameraLink、 IEEE 1394或同轴电缆等方式连接到采集控制单 元104进行视频流的传输,同时还通过远程控制数据线连接到采集控制单元 104,使釆集控制单元104可以远程遥控摄像机进行平移/转动/拉近/拉远等操 作。摄像机应采用高分辨率的摄像机以采集比显示内容更大的场景内容,则 当观看者在正常位置附近作上下或左右移动时,仅需在原有的拍摄场景中切 割对应的内容作变换即可重构对应的立体视频,而不需要控制摄像机运动, 从而实现对)见看者方位变化的快速响应。同步单元102,用于控制双摄像机采集单元101中多摄像机视频流的同步采集。同步单元102通过同步信号或者是控制信号对摄像机进行同步采集控制,同步采集要求达到帧同步或行/场同步。
标定单元103,用于完成多摄像机标定,求出每个摄像机的内参和外参,针对不同的应用场景采用不同的标定算法。如针对^L频会议场景,标定单元103的一个实例采用的是改进后的传统标定法,能够简化传统标定法的复杂的处理过程,但相比自标定法能够提高精度和减少标定时间。其基本思想是提供或找到一种和拍纟聂场景相融合,并且能够稳定存在的物品作为参照物,如视频会议场景中用户的名牌,或是场景中杯子等物品。这些物品应该可以提供物理几何尺寸,并且有丰富的特征可供"^是取。如名牌的边缘和上面的文字或图案,杯子的同心圆特征等,并采用相应的算法进行标定。如采用平面标定法进行标定的方法如下(1)提供已知物理尺寸的平面标定参照物;(2)从不同角度拍摄得到平面标定参照物的图像;(3)自动匹配并检测出平面标定参照物图像上的特征点,如文字和图案的特征点等。(4)根据平面标定算法求出摄像机的内参和外参。(5)求出畸变系数,并进行优化。
采集控制单元104,用于控制摄像机进行视频的采集并输出。对于双目摄像机采集系统,采集控制单元104输出双目立体视频流。对于模拟摄#^几,采集控制单元需要将模拟信号转换为数字视频数据。数字视频数据以帧的形
式保存在采集控制单元104的緩存中。此外,采集控制单元104还将采集到的数字视频数据提供给标定单元103进行摄像机标定,标定单元103将得到摄像机内参和外参返回给采集控制单元104。采集控制单元104根据这些参数建立起视频流和所属采集摄像机属性的一一对应的关系,这些属性包括摄像机唯一的编号,摄像机内参和外参,每帧的采集时间戳等,并将摄像机属性和视频流按照一定格式进行输出。除了上述功能,采集控制单元104还提供对摄像机的控制功能和视频数据釆集的同步功能采集控制单元104可以根据摄像机标定的参数,通过摄像机的遥控接口对摄像机进行平移/转动/拉近/拉远等操作。采集控制单元104也可以通过摄像机的同步接口向摄像机提供同步时钟信号用以控制同步采集。预处理单元105,从采集控制单元104处接收采集的视频数据緩存和相应的摄像机参数,根据预处理算法对緩存的视频数据进行处理。
切割处理单元106,用于接收显示端观看者的方位信息,并根据该信息从摄像机拍摄的大范围场景中切割出对应的场景区域,用于后续的处理。该切割处理单元也可以放在显示端进行,即釆集端处理并传输摄像机所拍摄的大范围场景内容,在显示端对所接收到的大范围场景根据观看者的方位进行切割。
匹酉己/深度提取单元107,用于对两个邻近摄像机采集的视频数据进行匹配,并计算得到视差/深度信息。匹配/深度提取单元107对两个邻近摄像机拍摄的视频数据的最大视差进行了限制,如果超过该最大视差,匹配算法的效率会很差,无法得到较高精度的视差/深度信息。该最大视差可由系统预先进行配置。匹配/深度提取单元所采用的匹配算法不是固定的,能够从多种匹配算法(如窗口匹配,动态规划法等)中进行选择,根据应用场景进行配置。完成了匹配操作之后,匹配/深度提取单元根据得到的视频数据的视差和摄像机的参数求出场景的深度信息。
视频编码单元108,用于根据用户的方位信息对编解码进行控制。基本的控制包括下面两方面(1 )根据用户选择的视点,分割双目摄像机所拍摄场景内容中的对应分块,仅处理该分块内容,通过这种方式可以有效地节省编解码单元处理能力。(2)根据用户终端的显示能力对相应的视频流进行编解码,如对于只具有2D显示能力的终端,则编码并发送1路2D视频流。通过这种方式可以提高所述立体视频通讯系统和普通视频通讯系统的兼容性,并减少无用的数据的传输。
复用单元109,用于接收来自视频编解码单元的已编码4见频流,按帧/场的方式对多路^L频流进行复用;同时接收来自网络传输单元的分组数据,进行解复用,还原多路已编码视频流。
网络传输单元110,发送方的网络传输单元接收复用单元的复用数据流、音频编码单元111提供的编码音频数据流,系统控制单元112发送的信令数据流和用户数据单元113提供的用户数据(如传输的文件数据)。对每一种媒体类型,完成适当的逻辑成帧、顺序编号、差错检测和差错纠正。
音频编码单元111 (G.711、 G729等)对来自麦克风的音频信号进行编 码发送,对接收到的音频码进行解码并输出到扬声器。
用户数据单元112:支持远程信息处理应用,如电子白板、静态图像传输、 文件交换、数据库访问、音频图形会议等。
系统控制单元113:为终端的正确的操作提供信令。它提供呼叫控制、能 力交换、命令和指示的信令、以及消息。
接收端20具体包括网络传输单元120,解复用单元121, 3见频解码单 元122,用户输入单元123,重构单元124,渲染单元125以及立体显示单元 126。具体的
网络传输单元120,用于接收采集端IO发送的数据。
解复用单元121,用于对接收的来自网络传输功能的分组数据,进行解复 用,还原多路已编码一见频流。
视频解码单元122,用于对传输/存储的编码数据(左图像数据、视差/深 度信息数据、右图像残差数据)同时进行解码,并将解码后的视差/深度信息 数据和右图像残差数据解行合成,合成的右图像将显示在具有3D显示能力的 终端。
用户输入单元123,用于接收终端的输入,并反馈给解码单元122和重构 单元124,用于控制一见频流的编码和重构。用户输入单元包括的信息主要有观 看者的方位信息、显示和用户的距离信息等。用户输入单元的信息可以由最 终用户通过GUI界面或遥控设备进行输入,如观看视点、距离信息和显示方 式;也可由终端自己检测,如终端的显示能力信息。
重构单元124,用于解决用户如何观看到没有放置摄像机视点的视频数据 的问题和解决用户通过自动立体显示器观看立体视频数据因为位置移动带来 的视差变化,从而导致所看到的立体视频数据发生变化的问题。
渲染单元125,用于接收重构单元提供的视频数据流,将视频数据渲染到 立体显示单元126上。
立体显示单元126,用于对接收到的视频数据进行显示。
28在上述图15所描述的系统中,切割处理是由采集端完成的,如上文所述,
该切割处理功能也可在接收端上完成。此时采集端将拍摄的大范围场景的视频信息向接收端发送。接收端获取用户的方位信息;才艮据该方位信息,从拍摄的大范围场景中切割出对应的区域,并将切割出的区域中的视频信息合成立体视频向用户展示。对于该情况下的系统、采集端以及接收端的结构,与上述图15相似,区别在于切割处理单元从采集端移到了接收端,在此不进
4亍"^细4苗述o
通过使用本发明实施例提供的上述系统和设备,获取观看者的方位信息并根据观看者方位信息从获取的大范围场景中获取对应的视频区域合成立体视频,可以快速准确地响应观看者的方位变化。由于直接通过在大范围的场景中切割适合观看者位置的观看内容并作一定的变换实现新视点的立体视频重构,因此可以快速准确地响应观看者的方位变化。当观看者的相对正常位置的上下或左右移动的幅度较大时,可以同时遥控拍摄端的摄像机作相应的变化,以保证观看者新视点的内容始终包含在摄像机所拍摄的范围内,使观看者获得最佳的立体视频观看效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以可借助软件加必要的通用硬件平台的方式来实现基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该
软件产品可以存储在一个非易失性存储介质(可以是CD-ROM, U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
权利要求
1、一种立体视频通讯的实现方法,其特征在于,包括获取观看者的方位信息;从大范围场景中获取与所述观看者方位信息对应的视频区域;根据与所述观看者方位信息对应的视频区域的视频数据合成立体视频。
2、 如权利要求l所述的方法,其特征在于,所述获取观看者的方位信息 包括采集端获取观看者方位信息;所述从大范围场景中获取与所述观看者方位信息对应的视频区域包括 所述采集端根据所述观看者方位信息,从釆集到的大范围场景中切割得到与 所述观看者方位信息对应的^L频区域;所述根据与观看者方位信息对应的视频区域的视频数据合成立体视频包 括所述采集端将所述对应的视频区域的视频数据发送给接收端,使得所述 接收端根据所述对应的视频区域的视频数据合成立体视频。
3、 如权利要求2所述的方法,其特征在于,所述采集端将所述对应的4见 频区域的视频数据发送给接收端包括所述采集端利用采集视频数据所使用双目摄像采集设备的参数,对所述 视频区域的视频数据进行预处理;所述釆集端对所述预处理后的视频数据进行匹配,获取深度信息;所述采集端将所述视频区域的视频数据以及深度信息进行编码;所述采集端将所述编码后的数据流复用后进行分组处理并向接收端发送。
4、 如权利要求l所述的方法,其特征在于, 所述获取观看者的方位信息包括接收端获取^L看者方位信息; 所述从大范围场景中获取与所述观看者方位信息对应的视频区域包括所述接收端根据观看者方位信息,从采集端发送的大范围场景中切割得到与 所述观看者方位信息对应的^L频区域;所述根据与所述观看者方位信息对应的视频区域的视频数据合成立体视 频包括所述接收端根据对应的视频区域的视频数据合成立体视频。
5、 如权利要求4所述的方法,其特征在于,所述接收端获取观看者方位信息前还包括所述接收端接收所述采集端发送的大范围场景的^L频数据。
6、 如权利要求5所述的方法,所述采集端发送的大范围场景的视频数据 包括所述采集端利用采集视频数据所使用双目摄像采集设备的参数,对所述 大范围场景的视频数据进行预处理;所述采集端对所述预处理后的视频数据进行匹配,获取深度信息;所述采集端将所述视频区域的视频数据以及深度信息进行编码;所述采集端将所述编码后的数据流复用后进行分组处理并向接收端发送。
7、 如权利要求2或4所述的方法,其特征在于,所述从大范围场景中切割 得到与所述观看者方位信息对应的视频区域包括所述观看者方位信息为上下或左右移动时,在所述拍摄的大范围场景中 对显示区域进行对应的上下或左右移动,切割得到与所述观看者方位信息对 应的朝L频区i或;所述观看者方位信息为前后移动时,在所述拍4聂的大范围场景中对显示 区域进行对应的放大或缩小移动,切割得到与所述观看者方位信息对应的视 频区域。
8、 如权利要求2或4所述的方法,其特征在于,所述视频区域的视频数据 包括由双目摄像采集设备采集的所述视频区域的原始左右视频数据。
9、 如权利要求8所述的方法,其特征在于,所述根据对应的视频区域的 视频数据合成立体视频包括直接利用所述对应的视频区域的视频数据中的原始左右视频数据合成立 体4见频;或对所述对应的视频区域的视频数据中的原始左右视频数据进行立体匹配 获得深度视频数据,基于所述深度视频数据和所述原始左右视频数据进行重 构,合成立体纟见频。
10、 一种采集端设备,其特征在于,包括采集单元,用于采集大范围场景的视频数据; 获取单元,用于获取观看者方位信息;切割单元,用于才艮据所述获取单元获取的观看者方位信息,从所述采集 单元采集到的大范围场景中的视频数据切割得到与所述观看者方位信息对应 的视频区域;发送单元,用于将所述切割单元切割得到的对应的视频区域的视频数据 向接收端发送。
11、 如权利要求10所述的采集端设备,其特征在于,所述切割单元包括 第一切割子单元,用于当所述观看者方位信息为上下或左右移动时,在所述拍摄的大范围场景中对显示区域进行对应的上下或左右移动,切割得到 与所述观看者方位信息对应的视频区域;第二切割子单元,用于当所述观看者方位信息为前后移动时,在所述拍 摄的大范围场景中对显示区域进行对应的放大或缩小移动,切割得到与所述 观看者方位信息对应的视频区域。
12、 如权利要求IO所述的采集端设备,其特征在于,还包括 预处理单元,用于利用采集视频数据所使用双目摄像采集设备的参数,对所述与观看者方位信息对应的视频区域的视频数据进行预处理;深度信息获取单元,用于对所述预处理单元预处理后的视频数据进行匹配,获取深度信息;编码单元,用于将所述视频区域的视频数据以及深度信息进行编码; 复用分组单元,用于将所述编码后的数据流复用后进行分组处理并通过所述发送单元向接收端发送。
13、 一种实现立体视频通讯的系统,其特征在于,包括采集端,用于根据获取到的观看者方位信息,从采集到的大范围场景中, 切割得到与所述观看者方位信息对应的区域,并发送所述对应区域的视频数 据;接收端,用于接收所述对应区域的视频数据,并根据接收到的所述对应 区域的^见频凄史据合成立体视频。
14、 一种接收端i殳备,其特征在于,包括接收单元,用于"f姿收采集端发送的大范围场景的一见频凄t据; 获取单元,用于获取观看者方位信息;切割单元,用于根据所述获取单元获取的观看者方位信息,从所述接收 到的大范围场景中切割得到与所述观看者方位信息对应的视频区域;重构单元,用于根据所述切割单元切割得到的对应的视频区域的视频数 据合成立体纟见频。
15、 如权利要求14所述的设备,其特征在于,所述切割单元包括 第一切割子单元,用于当所述观看者方位信息为上下或左右移动时,在所述拍摄的大范围场景中对显示区域进行对应的上下或左右移动,切割得到 与所述观看者方位信息对应的视频区域;第二切割子单元,用于当所述观看者方位信息为前后移动时,在所述拍 摄的大范围场景中对显示区域进行对应的放大或缩小移动,切割得到与所述 观看者方位信息对应的视频区域。
16、 如权利要求14所述的设备,其特征在于,所述重构单元包括第 一重构子单元,用于直接利用所述接收到的视频数据中切割得到的原 始左右视频数据合成立体视频;或第二重构子单元,用于对所述接收到的视频it据中的切割得到的原始左 右视频数据进行立体匹配获得深度视频数据,基于所述深度视频数据和所述 原始左右视频数据进行重构,合成立体视频。
17、 一种实现立体视频通讯的系统,其特征在于,包括 采集端设备,用于发送大范围场景的视频数据;接收端设备,用于根据获取的观看者方位信息,从所述接收到的大范围 场景的视频数据,切割得到与所述观看者方位信息对应的-见频区域;并根据 所述对应^见频区域的视频数据合成立体视频。
18、 一种实现立体^L频通讯的系统,包括网守、网关、多点控制单元、 第 一视频通信终端以及第二视频通信终端,所述第 一视频通信终端以及第二 视频通信终端在所述网守、网关和多点控制单元的控制下实现视频数据的交互,其特征在于,所述第一视频通信终端,用于发送大范围场景的视频数据;所述第二视 频通信终端,用于根据获取的观看者方位信息,从所述接收到的大范围场景 的视频数据,切割得到与观看者方位信息对应的视频区域;并根据所述对应 视频区域的视频数据合成立体^L频;或所述第一视频通信终端,用于根据获取到的观看者方位信息,从采集到 的大范围场景中,切割得到与所述观看者方位信息对应的区域,并发送所述 对应区域的视频数据;所述第二视频通信终端,用于接收所述对应区域的视 频数据,并根据接收到的所述对应区域的视频数据合成立体视频。
19、如权利要求18所述的系统,其特征在于,所述系统应用于基于H.323 协议进行组网的分组网络中,所述网守具体为H.323网守,所述网关具体为 H.323网关,所述多点控制单元具体为H,323多点控制单元。
全文摘要
本发明的实施例公开了一种立体视频通讯的实现方法、系统和设备,该方法包括获取观看者的方位信息;从大范围场景中获取与所述观看者方位信息对应的视频区域;根据与所述观看者方位信息对应的视频区域的视频数据合成立体视频。本发明的实施例中,获取观看者的方位信息并根据观看者方位信息从获取的大范围场景中获取对应的视频区域合成立体视频,可以快速准确地响应观看者的方位变化。当观看者的相对正常位置的上下或左右移动的幅度较大时,可以快速获得相应的立体视频,使观看者获得最佳的立体视频观看效果。
文档编号H04N13/00GK101651841SQ20081014739
公开日2010年2月17日 申请日期2008年8月13日 优先权日2008年8月13日
发明者源 刘, 平 方, 凯 李, 静 王 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1