编码区段视频图像的方法

文档序号：7948984阅读：208来源：国知局

专利名称：编码区段视频图像的方法
技术领域：
本发明涉及视频会议系统，并且特别涉及视频压缩和画面布局的用户控制。
背景技术：
在多种应用中都需要运动画面的实时传输，如视频会议、网络聚会、TV广播和可视电话。
传统的视频会议端点(end-point)包括转动连接在摄像机底座上的摄像机镜头系统，用于拍摄所关注的场景，如会议桌的周围以及会议参与者本身。摄像机镜头系统通常按这样的方式连接到摄像机底座使得摄像机镜头系统可响应于一个或多个控制信号来移动。通过移动摄像机镜头系统，呈现给远程的会议参与者的场景视图根据该控制信号来改变。
另外，摄像机镜头系统可以侧转(pan)、俯仰(tilt)以及和变焦拉近(zoom in)和变焦推远(zoom out)。侧转是指摄像机沿某个轴线水平移动，或从左向右，或从右向左(即沿X轴移动)。俯仰是指摄像机沿某个轴线垂直移动，或向上或向下(即沿Y轴移动)。变焦是通过改变焦距来控制视频图像的视野(即Z轴)。
镜头马达连接至这种镜头机构，用于通过变焦拉近和变焦推远来机械地改变视野。镜头马达在镜头控制器的控制之下执行变焦功能。镜头马达同摄像机所关联的其他马达(即俯仰马达和侧转马达驱动)是电子机械装置，使用电能来机械操作例如提供给远程参会者观看的图像。俯仰马达和驱动包含在镜头系统中，并提供机械的手段用于垂直移动给远程参会者观看的图像。
由摄像机拍摄的视频图像被显示在显示屏上，显示屏操作在会议的近端和/或远端侧的显示监视器上。显示监视器可以是电视机、计算机、单独的显示器(如液晶显示器“LCD”)等，并且可以被配置成接收用户的输入，以操纵在显示器上显示的图像。
在用于传统视频会议应用的传统摄像机中存在许多固有缺点。用于侧转、俯仰和变焦的电子机械装置使得摄像机的制造成本大大增加。另外，这些装置还降低了摄像机的整体可靠性。由于每个元件各有其故障率，摄像机的整体可靠性受到每个增加的电子机械元件影响。这主要是因为较之非移动的等价电子装置，机械装置更容易发生运动引起的故障。
还有，在与预定变焦相关的预置视图之间的切换和用于拍摄和显示图像的尺寸设定，都需要一定的时间段来进行调整。这主要是因为要适应预置视图之间的切换而需要的与机械装置调整相关的滞后时间。例如，对于数据会议系统的启动可能设置最大变焦推远。当按动下一个预置(preset)按钮时，可包括在“常规变焦”功能的“右侧转”。在传统的摄像机中，和水平改变摄像机装置与变焦镜头位置有关的机械装置要花费一定时间来调整到新的预置等级，因此会使远程参会者感到不便。
用于视频会议应用的传统摄像机的另一个缺点是这种摄像机主要被设计成对远程参会者提供一个视图。例如，如果在远程参会者的场点要求带有两个视图的显示，如一个概观画面和一个变焦的画面，就需要两个独立操作的摄像机。
面对面聚会的参会者通常会改变视野。典型情况下通过聚焦到讲话者，一个听众可能试图看到全部/若干参会者的全面情况。目前的视频会议设备通常提供来自远程场点的一幅图像。该图像常常是摄像机输入的缩小版本。这当然有缺点，就是不可能进行快速改变以及视野之间的切换。
美国专利申请10/358,758公开了一种方法和装置，通过响应来自远端和近端的控制信号来减少/增加所拍摄和传输的像素数量，从而在摄像机镜头的可视角度内进行数字变焦、侧转和俯仰。按这种方式，用户感觉在不需要任何机械改变的情况下来控制摄像机。但是视角范围内的画面区段的分辨率仍然受限于摄像机的机械变焦，并且除了从摄像机的传感器拍摄更多或更少可用像素之外没有缩放。事实上，该申请仅公开了现有技术的视频会议应用的数字变焦。

发明内容
特别，本发明公开了一种方法，利用可控制的变焦、侧转和俯仰，提供由一般视频视图内的某个边界所限定的区段(sectional)视频视图，该一般视频视图是由端点的第一摄像机拍摄的，该方法包括连续拍摄正由编码过程处理的该一般视图的视频图像，建立表示该一般视图的第一编码视频信号，至少产生第一当前视频图像的预测视频图像，以及从该第一当前视频图像减去该预测，其中所述编码过程进一步包括步骤接收定义所述一般视频图像内所述边界的控制信号，提取在所述第一当前视频图像或由第二摄像机拍摄的第二当前视频图像中位于所述边界内的第一组像素值，通过从所述第一组像素值减去第二组像素值建立所述区段视频图像的剩余，以及通过根据所述编码过程进一步压缩所述剩余建立表示所述区段视频图像的第二编码视频信号。

为了使本发明更容易被理解，将参考附图来进行讨论，其中图1示出了带有通过矩形标出的所关注子区段的一般视图；图2示出了视频会议端点，用于在不同显示器中显示一般视图和所关注的子区段；
图3是本发明的优选实施例的第一方面的图示；图4是本发明的优选实施例的第二方面的图示；以及图5是采用本发明的数字编解码器的示例体系结构的原理图示。
具体实施例方式
下面将通过描述优选实施例并通过参考附图来讨论本发明。但是，本领域的技术人员能够理解，在本发明权利要求书所定义的本发明的范围内，还可以有其他的应用和改型。在整个说明中，只讨论一个选定视图。本发明也同样可用于多个选择的视图。
呈现运动画面需要大量的信息，如通常通过用8个比特(1字节)表示画面中的每个像素来描述数字视频。这样的非压缩视频数据产生巨大的比特量，并且由于传统通信网络和传输线路的受限带宽不能进行实时的传输。
因此，要实现实时视频传输，需要进行很大程度的数据压缩。常见的视频编码方法在诸如MPEG2、MPEG4、ITU-T/H.261至H.264的标准中描述。视频数据在传输之前要经过四个主要的处理过程，即预测、变换、量化和熵编码。
预测处理可显著降低待传输视频序列中每个画面所需要的比特量。它利用该序列的一部分与该序列的其他部分的相似性。由于预测值对编码器和解码器都是已知的，因此只需要传输差异。表示该差异通常只需要少得多的容量。这种预测主要基于以前重新构造画面的画面内容，其中所述内容的位置由运动向量(motion vector)来定义。
本发明使用这种编码技术的特性来提供在近端的远端侧的两个画面显示或多个画面显示，而不需要在远端侧有多于一个的摄像机。为了叙述的简明，这里所述的实施例采用两个画面显示，尽管本发明也可应用于多个画面显示。这种两个画面显示可通过两个监视器或经过分区的屏幕呈现在近端侧。本发明用于改进观看者选择的灵活性，例如他想要仔细观看的摄像机输入中的那一部分。
根据本发明的优选实施例，一个图像示出了在远端侧的场景的概观图像(主视图)，如会议室，而第二个图像示出了该概观图像的子区段(所选择的视图)。图1示出了摄像机拍摄的远端侧场景的区段。在该主视图内，用矩形标出了所选择的视图。图2示出了近端侧的具有两个监视器的端点，其中一个显示主视图，并且第二个显示图1中由矩形标出的所选择视图。
根据本发明的优选实施例，所选择的视图可根据主视图的预测来编码。如上所述，视频编码的一个步骤是根据以前的画面来预测当前的视频画面，如ITU-T推荐的H.264中所描述的。传统上，从当前画面的所有实际像素值中减去画面中所有像素的预测值。本发明的优选实施例提供来自主画面的所要求子区段的预测数据的单独提取，并且从相应的原始数据中减去它。这将建立所关注子区段的剩余(residual)数据表示，而不需要所选择视图的单独预测处理过程。在图3中示出了该原理。
对于要按大尺寸在近端呈现的所选择视图，应该对所述剩余数据添加某些数据或处理以改进可视性，或者优选执行主画面中相应区域中的预测数据的缩放。
作为本发明优选实施例的第一方面的例子，如果主画面具有CIF格式，这是标准的352×288像素的视频格式，所选择的视图可按QCIF(176×144)提取。为了补偿降低的分辨率，可以执行至少两个用于提供附加数据的可能步骤。一个步骤是相对于主画面的帧频(frame rate)增加所关注子区段的帧频。如果主画面的帧频是15fps，所选择视图的帧频可以增加至30fps。由于该子区段通常是主画面中的某种特写，它通常包含更多的运动，因此需要更平滑的呈现。另一个步骤是改变编码处理中的量化率。如上所述，视频数据在转换成剩余数据之后要进行量化。这种变换的目的是减少待传输的非零值的数量，而不会损失很多信息，并且量化剩余值的目的是为了减少用于表示每个值的比特数。但是，在量化处理中，损失了某些信息，并且量化区间越大损失也越大。这在接收器上表现为量化噪声。对于本发明中的所选择视图的“放大”画面，量化噪声会造成更大的干扰。为了对此进行补偿，子区段经过变换的剩余数据可利用更高的分辨率来量化，即较之量化主画面所用的量化区间使用更小的量化区间。这将需要对每个值增加更多的比特数，但另一方面，子区段可按低分辨率的格式如QCIF格式来编码。
在本发明优选实施例的第二方面，所选择的视图较之主画面具有更高的分辨率。作为例子，可以按较之编码器所使用分辨率更高的分辨率的格式来呈现由摄像机记录的视图。由摄像机拍摄的画面可以按VGA格式(640×480)来提供，并且在编码前缩小成CIF，如通过分别把VGA格式的一组像素值平均至用CIF格式表示一个像素的值。图4示出了通过本发明如何使用这种处理。在左侧是由摄像机拍摄的主视图的VGA格式画面的草图。围绕所选择的视图，提取对应于CIF格式的像素的矩形区域。提取CIF格式的主视图预测数据中的相应矩形区域。然后缩放所提取的区域以匹配所提取VGA画面的CIF格式，从该VGA画面减去它。缩放机制可以是本领域技术人员所知道的任何技术，包括某种插值。所产生的剩余数据被进一步编码、传输并最终由接收器根据所使用的标准来解码。
在本发明的第三方面，根据所选择视图的前一图像来产生预测数据而不是从主视图的预测中提取该数据。可通过传统的预测技术来完成这种预测，如运动向量，但在所选择的视图上单独执行预测。如果需要，对该预测数据进行缩放，然后从主视图中相应的原始像素数据中将其减去，从而产生剩余数据。这些方法的组合会给出更好的能力来处理不同的情形，如启动，以及人员从视图中移进和移出。
本发明的另外实施例包括第二摄像机，用于拍摄与第一摄像机所拍摄主视图相同的视图或大致相同的视图。然后从由所述第二摄像机拍摄的视图中提取所选择视图的原始数据，同时从由所述第一摄像机拍摄的主视图中的所选择视图提取相应的预测数据。然后，从所述第二摄像机拍摄的视图中所提取的原始数据减去从所述第一摄像机拍摄的主视图的预测中所提取的预测数据，由此产生所选择视图的剩余数据。这同样也建立所关注子区段的剩余数据表示，而不需要单独的用于所选择视图的预测处理。
可以按照在近端或远端侧通过机械控制摄像机来提供变焦、俯仰和侧转的同样方式来完成所选择视图的选择处理。所述变焦、俯仰和侧转位置可通过遥控器或通过安装在端点的摄像机跟踪机构来控制。对本发明的情况，所述选择不影响由摄像机拍摄的视图，而影响主视图内限定所选择视图的边界的位置。例如，当用户在其遥控器上按动变焦按钮，主视图内表示从该主画面提取的像素子区段边界的垂直和水平像素地址要相应地改变。本发明的另外的求精是当所选择视图朝主视图边界移动时，要通知摄像机做实际的侧转和变焦，以更好地展示主视图中所选择视图的周围环境，并给予用户进一步移动的可能性。然后需要根据实际的摄像机移动重新计算所选择视图的位置数据。
图5是本发明示例性实施例的体系结构的原理图示。这里，从光学输入端(401)提供主视图的原始像素数据。把该当前视频画面的像素数据存储在第一存储器电路(403)。用于该当前画面的预测数据存储在第二存储器电路(404)，并且由编码处理器(406)根据当前和前一视频画面的像素数据并行地提供。如图中所示，存储器电路的数据是可寻址的，允许控制器(402)控制哪个像素数据被读至编码处理器(406)。然后控制器(402)可根据例如来自遥控器的外部控制信号，只从相应的存储器电路提取所选择视图的当前像素数据和相应的预测数据。配置该编码处理器以提供原始像素数据与相应预测数据的减法，并且分别提供用于本发明两个方面的所需要数据的添加和缩放。优选地，编码处理器还根据所使用的标准执行所有其他所需要的编码步骤，然后按编码的格式输出主画面的所选择子区段。
会议呼叫的端点将交换视频流和控制信号。控制信号可以在带内(in-band)传送，从而视频流可包含命令、信息和用于可用视图的视频流。命令也可以在带外(out of band)传送，视频数据包含在一个视频流或覆盖一个或多个视图的几个视频流中。
权利要求
1.一种利用可控制变焦、侧转和俯仰来提供区段视频视图的方法，该区段视频视图由一般视频视图内的某个边界限定，该一般视频视图是由端点的第一摄像机拍摄的，该方法包括连续拍摄正由编码过程处理的该一般视图的视频图像，建立表示该一般视图的第一编码视频信号，至少产生第一当前视频图像的预测视频图像，以及从该第一当前视频图像减去该预测视频图像，其特征在于所述编码过程进一步包括步骤接收用于定义所述一般视频图像内所述边界的控制信号，提取在所述第一当前视频图像或由第二摄像机拍摄的第二当前视频图像中位于所述边界内的第一组像素值，通过从所述第一组像素值减去第二组像素值来建立所述区段视频图像的剩余，以及通过根据所述编码过程进一步压缩所述剩余来建立表示所述区段视频图像的第二编码视频信号。
2.如权利要求1所述的方法，其特征在于所述第二组像素值是从位于所述边界内的所述预测视频图像中提取的像素值。
3.如权利要求1所述的方法，其特征在于进一步包括步骤向接收端点传送该第一和第二编码视频信号，利用对应于该编码过程的解码过程来解码该第一和第二编码视频信号，产生该一般视频视图和该区段视频视图。
4.如权利要求3所述的方法，其特征在于进一步包括步骤在所述接收端点显示该一般视频视图和该区段视频视图。
5.如前述权利要求中任何一项所述的方法，其特征在于所述编码过程还包括下述步骤的至少一个缩放所述第一组像素值以匹配所述第二组像素值，缩放所述第二组像素值以匹配所述第一组像素值。
6.如前述权利要求中任何一项所述的方法，其特征在于所述编码过程还包括下述步骤的至少一个相对于与所述第一编码视频信号相关联的第一帧频来调整与所述第二编码视频信号相关联的第二帧频，相对于与所述第一编码视频信号相关联的第一数量的量化区间来调整与所述第二视频编码信号相关联的第二数量的量化区间。
7.如前述权利要求中任何一项所述的方法，其特征在于所述控制信号从连接至发送端点的第一选择装置发出。
8.如权利要求1～6中任何一项所述的方法，其特征在于所述控制信号从连接至所述发送端点的第二选择装置发出。
9.如权利要求1～6中任何一项所述的方法，其特征在于所述控制信号由发送端点中的摄像机跟踪机构来提供。
10.如权利要求7或8所述的方法，其特征在于所述选择装置是遥控器。
全文摘要
本发明使用视频压缩技术，利用单个的非机械式摄像机提供多个画面显示和画面布局的用户控制。根据本发明的优选实施例，根据主画面的预测来编码由摄像机拍摄的一般视图内的所关注子区段。在该实施例的一个方面，在编码过程中，执行该子区段中的预测像素值的缩放，以匹配相应的扩大分辨率的原始像素数据，然后从该原始数据减去该预测以提供剩余。在第二方面，相对于编码该一般视图，在编码子区段时增加帧频和量化区间数。
文档编号H04N7/15GK101027905SQ200580032662
公开日2007年8月29日申请日期2005年9月26日优先权日2004年9月27日
发明者托姆尔瓦尔·约翰森申请人:坦德伯格电信公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：托姆尔瓦尔.约翰森
技术所有人：坦德伯格电信公司
我是此专利的发明人

上一篇：用于在通信系统中容量控制的方法和系统的制作方法
上一篇：多媒体通信方法和设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。