用于提供个人视频服务的系统和方法

文档序号:6366870阅读:118来源:国知局
专利名称:用于提供个人视频服务的系统和方法
用于提供个人视频服务的系统和方法相关串请本申请是国际申请日为2008年I月4日、国际申请号为PCT/US2008/000092、2009年8月27日进入中国国家阶段、中国申请号为200880006422. 2、名称为“用于提供个人视频服务的系统和方法”的专利申请的分案申请。本申请要求对2007年I月23日提交的美国临时申请No. 60/881,979的优先权。本申请与 2007 年 I 月 23 日提交、标题为“Computer Method and Apparatus for ProcessingImage Data”的美国临时申请No. 60/881, 966和于2006年6月8日提交、标题为“ApparatusAnd Method For Processing Video Data” 的美国临时申请 No. 60/811,890 号有关。本申请与2006年3月31日提交的美国申请No. 11/396,010有关,该美国申请No. 11/396,010是于2006年I月20日提交的美国申请No. 11/336,366的部分继续申请,该美国申请No. 11/336, 366是于2005年11月16日提交的美国申请No. 11/280,625的部分继续申请,、该美国申请No. 11/280,625是于2005年9月20日提交的美国申请No. 11/230,686的部分继续申请,该美国申请No. 11/230,686是现为美国专利No. 7,158,680、于2005年7月28日提交的美国申请No. 11/191,562的部分继续申请。通过整体引用将各前述申请结合于此。
背景技术
随着数字视频近来迅速普及,对视频压缩的需求已经急剧增加。视频压缩减少了存储和传输数字媒体所需的比特数。视频数据包含空间冗余性和时间冗余性,并且可以通过登记(register)帧内(空间)和帧间(时间)的差值来对这些空间和时间相似性进行编码。执行压缩的硬件或软件称为编码解码器(编码器/解码器)。编码解码器是能够对数字信号进行编码和解码的设备或软件。由于数据密集的数字视频应用已经变得无处不在,所以需要更高效的信号编码方式。因此,视频压缩现在已经成为存储和通信技术中的一个中心组成。编码解码器常常使用于许多不同技术如视频会议、视频博客和其它流媒体应用(例如视频播客(podcast))中。通常,视频会议或视频博客系统实时提供对音频和视频流的数字压缩。视频会议和视频博客的问题之一在于许多参与者受困于外观感受。然而,在纯音频通信中,呈现可接受的屏上(on-screen)外观这一负担并不是一个问题。视频会议和视频博客带来的另一问题在于信息压缩可能造成视频质量下降。压缩率是视频会议中的最重要因素之一,因为压缩率越高,视频会议信息传输越快。遗憾的是,利用常规视频压缩方案,压缩率越高,视频质量越低。压缩视频流常常造成不良的图像和不良的声音质量。—般而言,常规视频压缩方案受困于形式上表现为低数据通信速度、大量储存要求和干扰感知效果的诸多低效性。这些阻碍可能给需要容易、高效地操控视频数据而不牺牲质量(对于人们所具有的对某些形式的视觉信息的先天敏感性而言,这尤为重要)的各种用户带来严重问题。在视频压缩中通常要考虑的诸多关键因素包括视频质量和比特率、编码和解码算法的计算复杂度、对数据损失和错误的抗扰性以及延时。随着数量越来越多的视频数据充斥因特网,可以明显缓解拥塞或提高质量的技术不仅对于计算机而且对于电视机、蜂窝电话和其它手持设备而言都代表一种重大突破。

发明内容
提供用于处理视频的系统和方法,以取得相对于本领域现有技术方法而言的计算上和分析上的优点。提供视频压缩技术,以减少在视频会议或视频博客应用中存储和传输数字媒体所需的比特数。创建视频会议参与者的照片真实感头像表示。该头像表示可以基于视频流中描绘会议参与者的部分。基于对象的视频压缩算法可以使用脸部检测器(如Violla-Jones脸部检测器)对会议参与者的脸部进行检测、跟踪和分类。基于所检测的脸部,并结合普通脸部的预定对象模型的配准,创建用于结构、形变、外观和照明的对象模型。这些对象模型用来创建视频会议参与者的隐式表示,并由此生成视频会议参与者的照片真实感头像表示。这一描绘可以是视频会议参与者脸部的逼真版本。其在用户的外貌和表情方面可 以是准确的。原始捕获帧的其它部分可以通过较低的精度来描绘。可以对每个唯一的用户执行一次短校准会话。这将使系统能够初始化压缩算法并且创建对象模型。优选地,后续视频会议会话将无需附加校准。如果用户要求象常规视频描绘那样的如实视频表示,则系统可能需要附加校准时段,以调节存储的模型从而更好地匹配于用户的外貌。否则,用户可以倾向于使用优选对象模型而不是当前对象模型。优选模型在一定程度上可以是有利的用户表示,例如具有最佳照明的校准会话和用户更整洁的外观。另一优选模型是经过“重新照亮”的以及对面部施加了 “平滑化”的校准模型一这两个处理步骤均为了实现“较高质量”的主题表示。可以使用客户端服务器框架来提供一种视频会议/视频博客系统。在客户端节点的用户可以发起视频会议会话,从而通过使用摄影机和耳机来进行通信。可以生成各用户的脸部的照片真实感头像表示。创建的照片真实感头像表示可以是视频会议参与者脸部的隐式表75。


根据对如附图中所示本发明示例实施例的下文更具体描述将清楚前文内容,在这些附图中相似标号在不同的图中通篇地指代相同部分。附图未必按比例绘制,而是强调图示本发明的实施例。图I是在本发明的实施例中运用的视频压缩(通称为图像处理)系统的框图;图2是图示了在本发明的实施例中使用的混合空间规格化压缩方法的框图;图3是图示了一个优选实施例中用于创建会议参与者的照片真实感头像表示的过程的流程图;图4是图示了与生成照片真实感头像结合使用的系统部件示例的框图;图5A是图示了使用即时消息服务器的本发明视频会议系统示例的示意图;图5B是图示了本发明的视频会议/视频博客系统示例的示意图;图6是本发明的实施例可以实施于其中的计算机网络或类似数字处理环境的示意图;图7是图6的网络的计算机的内部结构的框图。
具体实施方式

本发明的示例实施例描述如下。创建对象模型在视频信号数据中,将视频帧组装成图像序列。视频的主题内容通常是投影到相机的二维成像面上的三维场景。在合成生成的视频的情况下,“虚拟”相机用于呈现;而在动画情况下,动画器(animator)发挥管理该相机参考帧的作用。每个帧或图像都包括如下像元(pel),这些像元表示图像传感器对采样信号的响应。采样信号常常对应于通过相机在二维传感器阵列上的部件而采样的一些反射、折射或发射能量(例如电磁、声音等)。连续依次采样将得到时空数据流,其中每帧有两个空间维度,而时间维度对应于帧在视频序列中的顺序。这一过程通常称为“成像”过程。本发明提供一种可以用来将视频信号数据高效地处理为一个或多个有益表示的手段。本发明对于处理视频信号中的多个经常出现的数据集是有效的。分析视频信号,并且提供该数据的一个或多个简洁表示,以促进其处理和编码。每个新的、较为简洁的数据表示允许减少对许多应用的计算处理、传输带宽和存储的要求,这些应用包括但不限于视频信号的编码、压缩、传输、分析、存储和显示。将噪声和信号的其它不需要部分表示为较低优先级,从而使得进一步的处理可以集中于分析和表示视频信号中较高优先级的部分。由此,与之前可能的情况相比,可以更为简洁地表示视频信号。而且,精度损失集中在视频信号中在感知上不重要的部分。如通过引用将其全部教导结合于此、于2006年I月20日提交的美国申请No. 11/336,366 和于 2007 年 I 月 23 日提交、标题为“Computer Method and Apparatus forProcessing Image Data”的美国申请第()号(代理案号4060-1009-000)中所述,分析视频信号数据并且标识显著组成部分。对时空流的分析揭示了常常为特定对象(例如,脸部)的显著组成部分。标识过程指明显著组成部分的存在和重要性(significance),并且选择这些限定的显著组成部分中最重要的一个或多个显著组成部分。这并不限制在当前描述的处理之后或与之并行地对其它较不显著的组成部分进行的标识和处理。然后,进一步分析前述显著组成部分,标识可变和不变子组成部分。对不变子组成部分的标识是这样的过程对该组成部分的某方面进行建模,由此揭示允许将该组成部分合成至所需精度水平的模型的参数化。在一个实施例中,将PCA/小波编码技术应用于经过预处理的视频数据,以形成所需的压缩视频信号。预处理通过应用主元分析(PCA)/小波编码(压缩)的方式来降低视频信号的复杂度,使效果得以改进。在2006年I月20日提交的美国申请No. 11/336, 366和于 2007 年 I 月 23 日提交、标题为 “Computer Method and Apparatus for ProcessingImage Data”的美国申请第()号(代理案号4060-1009-000)这些共同未决申请中,详细地讨论了 PCA/小波编码。图I是实现本发明原理的示例性图像处理系统100的框图。源视频信号101输入到预处理器102或以别的方式由预处理器102接收。预处理器102使用带宽消耗或其它标准(如脸部/对象检测器)来确定源视频信号101中的感兴趣组成部分(显著对象)。具体而言,预处理器102确定视频信号中的如下部分,这些部分相对于视频信号101的其它部分而言使用了不成比例的带宽。一种用于进行这一确定的分割器103的方法如下。分割器103使用像元的导数(derivative)的时间和/或空间差来分析随时间和/或空间的图像梯度。出于一致性(coherence)监测的目的,跟踪和记录视频信号中跨过视频信号的顺序帧而彼此对应的部分。对与这些一致信号组成部分相关联的导数场的有限差进行积分,以产生视频信号中相对于其它部分而言使用了不成比例带宽的确定部分(即确定的感兴趣组成部分)。在一个优选实施例中,如果发现一帧中的空间不连续性与后继帧中的空间不连续性相对应,则分析图像梯度的陡峭度或平滑度,以产生唯一的对应性(时间一致性)。另外,还以相同的方式使用此类对应关系的收集来唯一地表征视频帧的离散组成部分的时间一致性。对于陡峭的图像梯度,确定存在边缘。如果存在此类定义空间不连续性的两个边缘,则定义角(corner)。将这些标识的空间不连续性与梯度流相结合,这在跨过视频数据帧的对应像元之间产生运动向量。当运动向量与所标识的空间不连续性相符时, 则本发明的分割器103确定存在感兴趣组成部分(显著对象)。其它分割技术也适于实施分割器103。回到图1,一旦预处理器102 (分割器103)已经确定了感兴趣组成部分(显著对象)或以别的方式从源视频信号101分割了感兴趣组成部分(显著对象),规格化器105降低所确定的感兴趣组成部分的复杂度。优选地,规格化器105从确定的兴趣组成部分中去除全局运动和姿态(pose)、全局结构、局部形变、外观和照明的差异。为此,利用在此声明的有关专利申请中先前描述的规格化技术。这使得规格化器105建立了兴趣组成部分的对象模型,例如结构模型107和外观模型108。结构对象模型107在数学上可以表示为
权利要求
1.一种用于提供视频会议的方法,所述方法包括步骤 检测视频流的部分中所描绘的视频会议参与者的人脸; 创建一个或多个对象模型,以对所述视频会议参与者的脸部进行建模;以及 使用所述对象模型来创建所述视频会议参与者的照片真实感头像表示。
2.如权利要求I所述的用于提供视频会议的方法,其中使用Viola/Jones脸部检测算法来检测和跟踪所述视频会议参与者的脸部。
3.如权利要求I所述的用于提供视频会议的方法,其中创建照片真实感头像表示对象模型,作为所述视频会议参与者的脸部的隐式表示。
4.如权利要求3所述的用于提供视频会议的方法,其中所述视频会议参与者的所述隐式表示是所述视频会议参与者的脸部的仿真表示。
5.如权利要求3所述的用于提供视频会议的方法,其中检测和跟踪包括使用Viola/Jones脸部检测算法,所述方法还包括步骤 标识与来自所述视频流的两个或更多视频帧中的脸部相关联的至少一个对象的相应元素;以及 对所述相应元素进行跟踪和分类,以基于先前校准和建模的脸部来标识所述相应元素之间的关系。
6.如权利要求I所述的用于提供视频会议的方法,其中所述对象模型包括用于结构、形变、姿态、运动、照明和外观的对象模型。
7.—种视频会议系统,包括 脸部检测器,其检测视频流中视频会议参与者的脸部; 校准器,其生成对所述视频会议参与者的脸部进行校准的校准模型; 对象模型,其与所述校准器和脸部检测器相结合,所述对象模型基于所述校准模型对所述视频流中描绘所述视频会议参与者的脸部的部分进行建模;以及 所述视频会议参与者的照片真实感头像表示,所述照片真实感头像表示由所述脸部检测器、所述校准器和所述对象模型生成。
8.一种用于视频会议的系统,包括 用于提供对象模型以对视频流中描绘视频会议的至少一个参与者的部分进行建模的装置;以及 用于使用所述对象模型来创建所述视频会议参与者的照片真实感头像表示的装置。
全文摘要
提供用于处理视频的系统和方法。提供视频压缩方案,以减少在视频会议或视频博客应用中存储和传输数字媒体所需的比特数。创建视频会议参与者的照片真实感头像表示。头像表示可以基于视频流中描绘会议参与者的部分。使用脸部检测对脸部进行标识、跟踪和分类。基于检测到的脸部来创建包括密度、结构、形变、外观和照明模型的对象模型。根据从密度、结构、形变、外观和照明模型导出的参数,使用机器学习脸部检测技术的基于对象的视频压缩算法来创建照片真实感头像表示。
文档编号G06K9/64GK102685441SQ201210080579
公开日2012年9月19日 申请日期2008年1月4日 优先权日2007年1月23日
发明者C·P·佩斯 申请人:欧几里得发现有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1