用于在网络环境中跳过视频编码的系统和方法

文档序号:7886098阅读:109来源:国知局
专利名称:用于在网络环境中跳过视频编码的系统和方法
技术领域
本公开总地涉及通信领域,并且更具体地涉及在网络环境中提供增强的视频处理。
背景技术
视频服务在当今社会中已经变得日益重要。在某些体系结构中,服务提供者可能希望为他们的最终用户提供成熟的视频会议服务。视频会议体系结构可以通过网络提供“亲临现场”的会议体验。视频会议体系结构可以利用高级的视频、音频和协作技术实现人之间的实时、面对面的交互。优化视频通信的能力给系统设计者、设备制造者和服务提供者等提出了巨大挑战。


为了提供对本公开及·其特征和优点的更完全的理解,结合附图对以下描述进行参考,在附图中相似的标号表示相似的部件,其中:图1是根据本公开的一个实施例的用于在网络环境中提供视频会话的系统的简化框图;图2是图示了与系统相关联的某些组件的一种示例性实现方式的简化框图;图3是图示了与系统相关联的网络流量管理的一种示例性实现方式的简化框图;图4是图示了与系统相关联的网络流量管理的另一示例性实现方式的简化框图;图5是图示了根据本公开的一个实施例的用于提供视频会话的系统的另一示例的简化示意图;图6是图示了根据本公开的一个实施例的在端点内的示例性数据流的简化框图;图7是示出了根据本公开的一个实施例的多级直方图的简化图;图8是图示了用于针对输入视频的一部分做出跳过编码决定的示例性判决树的简化示意图;并且图9是图示了与图5的系统相关联的可能操作的简化流程图。
具体实施例方式概览在一个示例中提供了一种方法,该方法包括:接收来自相机元件的视频输入;使用变化检测统计数据来识别背景图像数据;使用背景图像数据作为时间基准来确定视频输入内的特定视频帧的前景图像数据;将所选择的前景图像用于对后续视频帧的背景登记;以及将后续视频帧的至少一部分提供给下一个目的地。在更具体的实现方式中,该方法可以包括一种高级的跳过编码技术,该技术包括识别视频输入内来自噪声的像素的值;创建与所识别的像素值相关联的跳过基准视频图像;将当前视频图像的一部分与跳过基准视频图像进行比较;以及确定在编码操作发生之前要被跳过的与当前视频图像相关联的宏块。其它实施例可以包括评估来自视频输入的视频数据以确定视频数据中的多个元素中的特定元素是否是静止图像的一部分。在某些编码操作开始之前,静止图像的一些部分可以被跳过。前景图像数据还可以包括视频会话中的参与方的面部和躯干图像。该方法还可以包括基于高于指定的噪声阈值的噪声水平对与当前视频图像相关联的未被跳过的宏块进行编码。此外,某些实施例可以包括生成多个直方图来表示当前输入视频帧与时间上在前的视频帧之间的变化统计数据。各个直方图包括不同的亮度水平,并且如果所述直方图中选定的一个直方图达到了某一亮度水平,则相关联的视频图像的相应像素被标记为将被登记到基准缓冲器。示例实施例转到图1,图1是用于在网络环境中提供视频会话的系统10的简化框图。在该具体示例中,系统10可以包括显示器12、相机元件14、用户界面(Π)18、控制台元件20、手持机28和网络30。联合相机元件14设置了一系列扬声器16以发送和接收音频数据。在一种具体的示例性实现方式中,设有无线麦克风24以接收周围环境中的音频数据(例如来自一个或多个观众成员)。注意,这个无线麦克风24纯粹是可选的,因为扬声器16能够在任意个视频会议应用期间充分地·捕获周围环境中的音频数据(下面会进行详细描述)。一般来说,系统10可以被配置为在视频会议的上下文中捕获视频图像数据和/或音频数据。系统10可以包括能够实现传输控制协议/互联网协议(TCP/IP)通信的配置,以用于分组在网络中的发送和/或接收。在适当的情况下并且基于具体的通信需要,系统10也可以配合用户数据报协议/IP (UDP/IP)或任何其它适当的协议进行工作。在某些实现方式中,手持机28可以被用作系统10的远程控制器。例如,手持机28可以提供无线远程控制,该无线远程控制允许其经由无线网络链路(例如红外、蓝牙、任意类型的基于ΙΕΕΕ802.11的协议等)与显示器12、相机元件14和/或控制台元件20进行通信。手持机28还可以被提供作为具有各种拨号盘的无线移动电话(例如免提通话设备):其中一些作为示例在图1中被示出。在其它实现方式中,手持机28操作为学习机制和/或通用远程控制器,允许其容易地控制显示器12、相机元件14、控制台元件20和/或任何音频视频(AV)接收器设备(例如管理诸如0N/0FF、音量、输入选择等功能以改进整体的视频体验)。在特定的一组示例中,手持机28上的特定按钮可以启动UI18,UI18用于浏览在UI软件的子菜单中提供的任意数目的选项。此外,可以使用专用按钮来拨出/应答呼叫、结束通话、打开/关闭相机元件14、打开/关闭麦克风、打开/关闭控制台元件20等。此外,可以在手持机28上设有一组重放控件以控制在显示器12上呈现的视频数据。注意,手持机28可以被配置为启动、控制和/或管理Π18。在一个特定实例中,Π18包括沿其周长(B卩,上、下、左、右)具有四个分离的功能的四叶草设计。Π18的中心可以用于发起呼叫或者配置呼叫选项。下部的工具图标可被用于调节设置,包括控制简档信息、私密设置、控制台设置等。右手侧的图标(当被选择时)可以用于查看发送给特定用户的视频消息。上部的图标可以用于管理联系人(例如添加、查看和连接到其他个人)。场记板(被设置为左部图标)可以用于记录和发送视频消息给其他个人。非常需要注意的是这些菜单选项可以被进行相当大的改变,而不脱离本公开的范围。此外,这些图标可以按任意适当的方式来定制、改变或管理。此外,UI18的图标不是穷尽的,因为在Π18的上下问中可以提供任何其它合适的特征。沿类似的线条,在这些图标中的每个图标之下设置的子菜单导航选项可以包括可应用于视频会议、联网、用户数据管理、简档等的任意合适的参数。在示例性实现方式的操作中,系统10可以用于进行视频呼叫(例如,支持呼入和呼出方向的呼叫流)。对于呼入呼叫的情景,一旦接收到呼入呼叫请求,控制台元件20就被配置为联系配对的(一个或多个)手持机28 (例如在适当的情况下,将其从睡眠状态唤醒)。手持机28可以被配置来播放铃声、开启LED指示器以及/或者显示UI18(例如包括呼入呼叫者的联系信息)。如果被配置为如此,UI18还可以被显示在控制台元件20上的任意直通视频源上方。如果被呼叫方选择用呼叫控制按钮中的一个应答呼叫,则控制台元件20将其媒体能力提供给呼叫方的端点。在某些示例性实现方式中,默认地,可以在通话开始时提供音频媒体。在语音通话期间的任意时间,双方可以商定进入完全视频会话(例如被称为“做大(go big)”协议)。作为捷径,“做大”的意向可以在通话开始时被预先表决。在视频媒体流动之后的任意时间,通话还可以被降级回只有音频的通话。在某些实例中,可以有作为即时完全视频会话来自动应答呼入呼叫的选项。在自治呼出呼叫的情况下,用户可以从他们的联系人列表中选择被呼叫方,通过快速拨号设置来选择被呼叫方,或者作为替代,用户可以输入任意类型的标识符(例如电话号码、名字、或者直接是视频会议系统(例如由加利福尼亚州圣何塞市的思科公司制造的Telepresence)号码)。·如果被呼叫方应答,则呼叫情景与呼入呼叫相类似地进行。在保持和恢复情景的情况下,可以提供呼入Π18信号以将呼叫置于保持状态,并且随后呼叫可以在稍后的时间被恢复。注意在其它实例中,系统10可以用于执行规定时间的呼叫、呼叫转移功能、多点呼叫和/或各种其它会议能力。在消费者用户尝试与商业实体的通信的情况下,某些参数可以基于互操作性问题而被改变。例如,安全商业端点可以被支持,其中信令和媒体将是安全的(音频和视频二者)。可以在Π18中显示适当的消息以告知用户关于任何安全性迫使的掉话的原因。通过以下方式,信令可以被认为是安全的,所述方式即使得商业交换和消费者网络在物理上位于相同位置,或者在两个实体直接使用安全隧道(例如站点到站点的虚拟私有网络(VPN)隧道)。在转到与系统10相关联的其他流程之前,引入图2以说明针对系统10的一些可能的布置和配置。在图2的特定示例性实现方式中,相机元件14包括处理器40a和存储器元件42a。相机元件14耦接到控制台元件20,控制台元件20类似地包括处理器40b和存储器元件42b。电源线36设在插头与控制台元件20之间。可以使用任何合适的连接(有线或无线的)以连接图2的任意组件。在某些示例中,使用的线缆可以包括以太网线缆、高清晰度多媒体接口(HDMI)线缆、通用串行总线(USB)线缆或者被配置用于在两个设备之间承载数据或能量的任何其它合适的链路。就物理基础设施而言,相机元件14可以被配置为固定于显示器12 (例如平板HD电视机)的任一边缘(例如上边缘)。相机元件14可以被包括作为可包括扬声器16 (例如阵列麦克风)的集成组件(即,单个组件、专用元件、机顶盒、控制台元件20等)的一部分。因而,所有这些元件(相机元件14、扬声器16、控制台元件20)可以被组合并且/或者被适当地合并成位于(或者固定于,或者位于附近)显示器12上的集成组件。或者,这些元件分别是它们自己独立的设备,这些设备可以被耦接(或者简单地彼此交互)或者以任何适当的方式被恰当地放置。图2中还设有路由器34和机顶盒32:这两者都可以耦接到控制台元件20。在特定示例中,路由器34可以是被配置用于提供与网络30的连接的家庭无线路由器。或者,路由器34可以利用简单的以太网线缆来提供用于与系统10相关联的数据传输的网络连接。手持机28可以被通过座充电器26 (如图2中所示)来充电。[手持机28在入坞时可以是起作用的。]或者,手持机28可以通过电池、太阳能充电、线缆或者通过任何电源或者这些机制的任意合适的组合而被供电。在一个特定示例中,系统10的呼叫信令可以通过会话发起协议(SIP)来提供。此夕卜,用于视频会议平台的媒体可以通过安全实时传输协议(SRTP)或者任何其它适当的实时协议来提供。SRTP解决了 RTP的安全问题,并且还可以被配置为对RTP协议增加保密性、消息认证和重放保护。SRTP对于保护IP语音(VoIP)流量而言是优选的,这是因为其可以结合头部压缩而被使用,并且此外,其通常对IP服务质量(QoS)没有影响。对于网络地址翻译(NAT) /防火墙(FW)穿越,任何合适的机制都可以被系统10使用。在一个特定示例中,这些功能可以由具有用于NAT的会话穿越应用程序(STUN)和交互式连接建立(ICE)的拆分隧穿VPN提供。信令可以经由VPN传播到呼叫代理。此外,媒体可以直接从一个端点发送到另一端点(即从一个视频会议平·台到另一视频会议平台)。注意,这里所使用的术语“媒体”包括音频数据(可以包括语音数据)和视频数据(可以包括任何类型的图像数据)。视频数据可以包括任何合适的图像(例如由相机元件14、由对应方的相机元件、由摄像头、由智能电话、由iPad等捕获的图像)。这里所使用的术语“智能电话”包括能够配合视频服务而工作的任何类型的移动设备。这自然包括诸如Google Droid、iPhone、iPad等产品。此外,术语“信令数据”包括可以朝着网络发送的任何适当的控制信息。这可以包括被用于最初建立视频会话的流量以及可能适合于特定视频会议的任意类型的协商(例如针对比特率、针对带宽等)。这还可以包括不作为媒体数据的一部分而提供的诸如管理流量、帐户流量(用于用户帐户管理、联系人列表[包括好友列表,下面将详细描述]等)和/或其它类型的流量之类的项目。为了应对对称NAT,在特定实施例中,使用穿越的中继NAT(TURN)可以被系统10使用。在特定示例中,用于视频会议平台的用户名可以由E.164号码提供。或者,用户命名可以是简单的用户ID (例如由服务提供商指定的、由用户选择的等)、用户的全名(或者组名)、头像或者可以用于将一个用户与另一用户区别开的任何其它符号、数字或者字母组合。注意,单个名字也可以与组(例如家庭、商业单位等)相关联。系统10的通信的安全性可以用很多种方式解决。在一种实现方式中,视频服务(即,云服务)可以由任何适当的安全协议(例如安全性软件、自适应安全性设施(ASA)等)来保护。此外,入侵保护系统、防火墙、防拒绝服务机制可以被提供用于该体系结构(都在网络内外以及/或者在住宅环境本地内)。转而考虑与系统10的基础设施相关联的细节,在一个特定示例中,相机元件14是被配置为捕获、记录、保持、缓存、接收和/或发送图像数据的视频相机。这可以包括通过网络30将分组发送到适当的下一个目的地。所捕获/记录的图像数据可以被存储在相机元件14本身中,或者在某个适当的存储区域(例如数据库、服务器、控制台元件20等)中提供。在一个特定实例中,相机元件14可以是其自己独立的网络设备并且具有独立的IP地址。相机元件14可以包括无线相机、高清晰度相机或者被配置为捕获图像数据的任何其它适当的相机设备。相机元件14可以与用于发起用于视频会话的通信的设备交互(或者包括这些设备),所述设备例如是交换机、控制台元件20、专用端点、麦克风、拨号盘、网桥、电话、计算机或者能够发起系统10内的视频、语音、音频、媒体或数据交换的任何其它设备、组件、元件或对象。相机元件14还可以被配置为包括接收模块、发送模块、处理器、存储器、网络接口、呼叫发起和接收设备(例如拨号盘)、一个或多个显示器等。这些项目中的任一个或多个可以被合成、组合、完全去除或者进行相当大的改变,并且这些修改可以基于特定的通信需求而被进行。相机元件14可以包括高性能镜头和光学变焦器,其中相机元件14能够执行平移和倾斜操作。视频和音频流可以从相机元件14发送给控制台元件20,在控制台元件20处这些视频和音频流被混合成HDMI流中。在某些实现方式中,相机元件14可以提供作为光传感器,以使得该体系结构可以检测相机的快门是打开的还是关闭的(或者快门是否是部分打开的)。可以使用应用程序接口(API)来控制相机元件14的操作。显示器12提供屏幕,可以在该屏幕上为最终用户呈现视频数据。注意,在本说明书中所使用的术语“显示器”意指能够向最终用户传送图像数据(包括视频信息)、文本、声音、音频视频数据等的任何元件。这将必然包括任何面板、等离子元件、电视机(可以是高清晰度的电视机)、监视器、计算机接口、屏幕、Telepresence设备(包括Telepresence板、面板、屏幕、表面等)或者能·够传送/呈现/投影这些信息的任何其它合适的元件。网络30表示用于接收和发送通过系统10传播的信息分组的互连通信路径的一系列点或节点。网络30提供在图1和2的组件中的任一组件与远程站点之间的通信接口,并且可以是任何局域网(LAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、VPN、内联网、外联网或者在网络环境中辅助实现通信的任何其它适当的体系结构或系统。控制台元件20被配置为接收来自相机元件14的信息(例如,经由可以附接到集成设备(例如机顶盒、专用箱等)的某个连接,所述集成设备位于显示器12顶部(或者附近)并且包括相机元件14 (或者作为相机元件14的一部分))。控制台元件20还可以被配置为控制压缩活动或者与从相机元件14接收的数据相关联的附加处理。或者,实际的集成设备可以在图像数据被发送给其下一个所意图的目的地之前执行该附加处理。控制台元件20还可以被配置为存储、聚合、处理、输出或者以其他方式保持图像数据并且以任何适当的格式登记,其中这些活动可能涉及处理器40b和存储器元件42b。控制台元件20是辅助实现端点与给定网络之间的数据流动的视频元件。在本说明书中所使用的术语“视频元件”意图包括服务器、专用箱、网络装备、机顶盒或者可操作来与相机元件14交换视频信息的其它适当的设备、组件、元件或对象。控制台元件20可以通过无线连接或者经由允许信号在这些元件之间传播的一个或多个线缆或线路与相机元件14相接口。这些设备还可以接收来自中间设备、远程控制器、手持机28等的信号,并且这些信号通常可以利用红外、蓝牙、WiF1、电磁波,或者用于将数据(例如可能通过网络)从一个元件传送给另一元件的任何其它适当的传输协议。实质上,任何控制路径都可以被利用来在控制台元件20与相机元件14之间传递信息。这两个设备之间的传输在某些实施例中可以是双向的,以使得设备可以彼此交互。这将允许设备确认来自彼此的传输并且在适当的情况下提供反馈。这些设备中的任意设备可以基于特定的配置需要而与彼此合成,或者独立工作。在一个特定实例中,相机元件14利用USB线缆被智能供电。在更具体的示例中,视频数据通过HDMI链路而被传输,并且控制数据通过USB链路而被传送。在某些示例中,控制台元件20可以在其内部设置有独立的光传感器以测量给定房间的采光。随后,该体系结构可以基于在房间中检测到的光来调节相机曝光、快门、透镜调节等。相机元件14也试图提供这个功能;但是具有独立的光传感器提供了基于在房间中感测到的光来调节这些参数的更具确定性的方式。一种算法(例如在相机元件14和/或控制台元件20内)可以被执行以基于光检测进行相机调节。在空闲(IDLE)模式下,相机元件14的镜头可以自动关闭。相机元件14的镜头可以为呼入呼叫而打开,并且可以在呼叫完成时关闭(或者这些操作可以由手持机28控制)。该体系结构也可以应对针对相机元件14的具有挑战性的采光环境。例如,在一个人背后有明亮的日光的情况下,系统10可以优化对此人面部的曝光。关于音频数据(包括语音数据),在一个特定示例中,扬声器16被提供为麦克风阵列,该阵列可以被适当地校准。注意,在某些消费者应用中,该消费者的家庭系统是个变体,这与具有固定(可预测)的办公室结构的大多数企业系统形成对比。在特定示例中,相机元件14可以包括有8个麦克风的阵列,但是作为替代,任意数目的麦克风可以被提供以适当地捕获音频数据。这些麦克风可以按线性或对数间隔而被放置以实现所希望的音频捕获功能。在某些实现方式中,微机电系统(MEMS)技术可被用于每个麦克风。MEMS麦克风代表电容式麦克风设计的变形,具有内置的模数转换器(ADC)电路。系统10的音频机制可以被配置为对系统添加延迟以保证声学装置能够正确地起作用。实质上,该视频会议·体系结构本身由于消费者的独特领域而不知道合适的延迟。例如,可能存在被用于声学目的的家庭影院系统。因而,系统10可以确定对于该特定环境而言将是唯一的适当延迟。在一个特定实例中,该延迟可以被测量,其中来自现有扬声器的回声效果被适当地抵消。嵌入式水印签章也可以被提供在每个扬声器中,其中该签章可以被检测以确定适当的延迟。注意,还存在某种由显示器12自身添加的附加延迟,因为时钟机制通常不是确定性的。该体系结构可以动态地更新该延迟以应对这个问题。这些功能中的很多功能可以由控制台元件20和/或相机元件14完成:这两者都可以被智能地配置用于执行这些功能调节。该体系结构还可以发出信号(例如白噪声)作为用于测量延迟的测试。在某些实例中,这个功能是自动完成的,而不需要提示用户。该体系结构还可以利用无线麦克风24,在某些实现方式中,该无线麦克风24可以使用专用链路。无线麦克风24可以被配对(类似于蓝牙配对)以使得隐私问题可以被适当地解决。无线麦克风24可以被带到任何地方(例如在房间里、在屋子里等)并且仍然提供适当的音频功能,其中多路复用将发生在控制台元件20处以用于这个特定应用。类似地,对于给定的扬声器也可以存在同样的情况(或者扬声器/麦克风可以一起被提供作为便携式移动单元)。该扬声器可以类似地被用在房间里、屋子里等的任何地方。应当注意这不仅是方便的问题,而且在适当地捕获/传送具有适当的强度和质量的音频信号方面也是性能问题。
就呼叫应答和视频消息而言,手持机28允许个人具有接受语音呼叫而非应答视频会议呼叫的选项。这是因为手持机28可能具有纯粹作为移动电话来工作的智能。因此,手持机28可以容易地用各种类型的智能电话代替/取代,所述智能电话上可以设有用于控制视频会议活动的应用。手持机28还支持(通过手持机本身)被通知呼入视频会议呼叫的能力,具有将所述呼叫呈现在显示器12上的选项。可以使用简单的视觉警报(例如LED、振动等)来指示视频消息正在等待被收听/观看。视频消息可以包括将指示出实际消息图像的视频帧的快照。在用户的视频收件箱中,当前的视频邮件可以包括被存储用于将来重放的实际消息的图像。例如,消息来自用户的母亲,则视频邮件将包括在该视频邮件期间母亲讲话的一系列快照。在一个特定示例中,实际的视频邮件以一定时间间隔(例如每隔10秒)而被采样以生成这些图像,这些图像用作视频邮件消息的预览。或者,快照在数目上可以被限制。在其它实例中,快照被任意选择或者在视频消息的开始、中间和结尾处被选择。在其它实现方式中,快照被作为整个视频消息的百分比(例如在20 %标记处、在40 %标记处和在100 %标记处)而拍摄。在其它示例中,收件箱中的视频邮件通过仅仅显示与编写视频消息的特定用户ID相关联的图像而被预览。在涉及正在观看显示器12上的正常电视节目的用户的示例的操作中,呼入呼叫可以被视频会议平台接收。即使电视机是关闭的,通知也可以到达(例如通过系统10的扬声器)。如果有人选择应答该呼叫,则视频会议平台接管电视机。在涉及数字视频记录器(DVR)的一个示例中,节目可能被暂停。在其它示例中,用户可以将呼叫保持最小化,使得(例如)用户可以在观看足球比赛的同时与朋友讲话。控制台元件20可以被配置为记录消息,然后将该消息发送到任何适当的下一个目的地。例如,用户可以针对特定消息发送链接给某个人。用户还可以使用Flip Share或YouTube技术上传/发送消息到任何合适的目的地。在通常意义上,消·息可以位于网络云中以使得即使住宅处的电源断掉或者用户不在住宅处,消息仍然可以被访问(例如通过无线链路)。用户还可以从视频通话切换到手持机28,并且从手持机28切换回视频通话。例如,用户可以在智能电话上发起呼叫,随后将呼叫转移到视频会议显示器12。用户也可以反过来做,即用户开始于视频会议平台再切换到智能电话。注意,无线麦克风24可以工作在特定的优选范围内(例如12到15英尺),其中如果个人移动到远离所述范围的地方,则用户可以选择转移到手持机28(按更传统的电话方式)。考虑以下情况:由于家庭成员而使得房间变得嘈杂,并且视频会议呼叫上的用户选择简单地切换到智能电话、到给定的座机等。运动检测也可以被使用以发起或应答视频呼叫。例如,在起居室里难以找到远程控制器的情况下,可以使用简单的摆手姿势来应答呼入的视频呼叫。此外,系统(例如相机元件14与控制台元件20合作)通常可以检测特定的身体部分以执行该协议。例如,该体系结构可以在狗跑过显示器12与用于应答呼入呼叫的摆手之间进行区分。沿类似的线路,用户可以使用不同的姿势来执行不同的通话功能(例如握住他的手以将通话置于等待状态、拍手以结束通话、指点以将某个人加入联系人列表等)。注意,W1-Fi是被系统10完全支持的。在大多数视频会议场景中,可能会有大量数据(这些数据中的许多是对时间要求严格的)传进(或传出)该体系结构。通过W1-Fi连接传播的视频分组(即低等待时间数据)可以被系统10正确地接纳。在一个特定示例中,不移动(静态)的背景图像可以被从视频图像中分出,所述视频图像正在被显示器12呈现。然后,该体系结构(例如通过控制台元件20)可以大幅度地降低那些图像上的比特率。然后,可以对正在移动(即以某种方式变化)的其它图像进行分配。在某些示例性实现方式中,面部检测算法也可以被使用,其中视频基于那些算法的结果而被优化。某些电话特征允许手持机28提供快速拨号以及用于将联系人存入联系人列表中的机制。可以通过手持机28上的单个按钮按压对在快速拨号列表或联系人列表上的用户进行呼叫。此外,可以利用手持机28的Π或屏幕上的Π18发起呼叫。此外,呼叫可以从web门户被发起,这种情况下呼叫者可以通过按压手持机28上的语音专用或视频呼叫按钮来在端点处确认呼叫发起。此外,呼叫可以经由呼叫工具从其它web页面被发起(例如通过点击某个人的Facebook对象来呼叫此人)。此外,呼叫者可以在在线通讯录(例如存储在数据库中的所有Tel印resence用户的通讯录)中查找接收方,对该接收方做出呼叫,并且将接收方的联系信息存入联系人列表中。就接收视频会议呼叫而言,呼入呼叫可以利用手持机28上的单个按钮按压而被接受。呼叫接收方有机会接收或拒绝呼叫。被拒绝的呼叫可以被路由到视频邮件(如果被接收方的安全设置所允许的话)。关于通话质量,如果在通话期间可用带宽减小,则视频分辨率适当地被降低。如果在通话期间可用带宽增大,则视频分辨率可以被提高。可以在显示器12上提供屏上图标来告知用户其视频会议体验的质量。该信息的目的可以是为了告知用户可能由于网络条件造成的劣质体验,并且用户可以通过升级其宽带服务来改善其体验。当利用摄像头通信时,显示器12上的图片可以被框在黑框内:不管摄像头视频的实际质量如何。关于视频邮件,当呼叫不能被实时应答时,该呼叫不被丢失,而是被自动转发到视频邮件。视频邮件可以从视频会议系统、web门户、智能电话、膝上型计算机或者用户所使用的任何其它适当的端点设·备而被访问。注意,用户被提供了为何时呼叫方将被转移到用户的视频邮件收件箱设置指定时间间隔的能力。术语“指定时间间隔”包括响铃的次数、一定的时间段(例如在几秒内)或者零间隔,在零间隔的情况下,呼叫方的视频呼叫请求将被立即路由到用户的视频邮件。在某些实施例中,“指定时间间隔”具有由管理员配置的缺省值。在系统10的特定实现方式中,视频邮件可以被存储在网络中(例如云中)。或者,视频邮件可以被本地存储在消费者的住宅处(例如存储在膝上型计算机、个人计算机、外部硬盘驱动器、服务器处或者任何其它适当的数据存储设备中)。视频邮件可以用以下最小的重放控件集合来播放:播放、暂停、停止、快进或跳进、快退或跳退、返回到开始。在特定实现方式中,视频邮件只被所希望的接收方查看。对新视频邮件的通知可以通过短消息服务(SMS)文本消息(例如发送到移动设备)或者通过电子邮件而被发送给其它设备。也可以在手持机28上显示即时的通知。对于视频记录而言,视频可以被记录和存储在网络上以供将来查看和分发(例如作为视频服务的一部分,这将在下面参考图3进行详细描述)。呼叫可以类似地被实时记录并存储在网络中以供将来查看和分发。当与视频会议用户共享所记录的视频时,该体系结果可以指定具体哪些视频会议用户有对视频数据的访问权。当共享列表包含一个或多个电子邮件地址时,在特定实现方式中,访问控制不被启用(例如任何具有URL的个人都可以访问视频)。就媒体共享而言,系统10可以提供用于利用可移除闪存介质、闪存和硬盘驱动器高清晰度数字摄像机、数码相机和其它便携式存储设备来共享数字照片和视频的简单机制。这可以通过支持这些设备与USB端口的外部USB连接来实现,所述USB端口可以设在控制台元件20、显示器12、相机元件14、专用设备处或者任何其它适当的位置处。媒体共享应用(例如位于控制台元件20中)支持存储在USB设备上的压缩AV文件媒体的重放。此外,这种媒体共享可以通过这些设备与HDMI端口的外部HDMI连接而被支持。系统10还可以提供用于共享在计算机上、网络附接存储(NAS)设备上、本地网络上等的数字照片和视频的机制。该机制可以是与通用即插即用(UPnP)/数字生活网络联盟(DLNA)渲染器兼容的。媒体共享应用还可以提供用于共享在照片或视频共享站点(例如Flickr、You Tube等)上的数字照片和视频的机制,如这里所讨论的。系统10还可以提供用于利用与通话视频以画中画(PIP)的形式显示的HDTV机顶盒HDMI AV馈给来观看广播HDTV节目(例如观看Superbowl)的机制。继续该示例,SuperBowl广播馈给可以来自本地机顶盒32并且不被共享。在该示例中,只有通话视频和语音将被共享。通话的音频部分可以被重定向到手持机28 (例如默认为扬声器电话)。来自本地TV的音频可以被传送到HDMI和光学链路(例如TOSlink输出)。在一示例场景中,最初,比赛视频可能填充主屏幕并且通话视频可能在较小的PIP中。比赛的音频可以通过机顶盒传送到电视机或者传送到AV接收器的环绕声音系统。视频通话的音频将由手持机28支持。在不同场景中,在观看比赛的同时,在一个呼叫者优选将主屏幕从比赛切换到视频通话(例如在中场休息期间)的情况下,则以下的活动将发生。[注意,这与其它PIP体验是一致的。]通话视频可以填充主屏幕,而比赛填充较小的PIP窗口。视频通话的音频可以移到TV或者移到AV接收器环绕声音系统,并且比赛音频可以切换到手持机28。注意,这些·活动都不需要用户“在镜头之外”来控制体验:就是说,用户不必为了控制/协调所有这些活动而离开他的椅子。在一个特定示例中,控制台元件20和相机元件14可以支持用于针对本地未压缩输入和输出的HD视频的任何合适的帧速率(例如50-60帧/秒(fps)的速率)。此外,视频(例如HDMI1.3视频)可以被提供作为用于本地未压缩输入和输出的数字信号输入/输出。存在有用于来自HDMI的本地未压缩输入和输出的高带宽数字内容保护(HDCP)数据的直通路径。关于音频支持,HDMI音频可以被提供作为数字信号输入/输出。也可能有立体声模拟线路电平输出来支持环境中的旧式设备。这是对数字音频输出的补充,所述数字音频输出可以采用诸如TOS链路输出之类的光学链路输出的形式。对于音频视频切换活动,音频和视频可以从输入、视频会议视频或者其它生成源而被补入本地全屏输出。该体系结构可以提供用于自动开启并选择HDTV的正确源(以及任意外部音频系统,当在应答呼叫的同时音频视频配置允许该外部音频系统时)的协议。该特征(和手持机28的其它特征)可以通过红外、蓝牙、任何形式的IEEE802.11协议、HDMI消费电子控制(CEC)等来实现。关于相机元件14,该体系结构可以提供全运动视频(例如以30fps)。在范围以外的参与者可以通过自动对焦被聚焦。相机元件14可以向控制台元件20、机顶盒卫星和/或与其能力有关的任何其它适当的设备提供标识信息。相机元件14可以被提供任何适当的像素分辨率(例如1280X720像素(720p)的分辨率、1920X 1080 (1080p)的分辨率等)。如果焦点深度大于或等于两米,则手动对焦可能被建议用于设置活动,并且自动对焦特征/选项可能是用户所想要的。在操作中,用户可以在设置期间将相机元件14手动对焦到其沙发(或者任何其它目标区域)上。如果成功,则该问题将不需要被重新考虑。如果焦点深度小于或等于一米(通常都是这样),则自动对焦可以被实现。还可以利用相机元件14为系统10提供数字人物动作发现器。平移和倾斜特征都是在设置时和视频通话期间手动可用的。类似地,变焦也是在设置时和视频通话期间手动可用的。手持机28可以配备有任何合适的麦克风。在一个特定实现方式中,该麦克风是被优化用于捕获语音范围内的高质量音频的单通道发话筒麦克风。该麦克风可以被放置为具有标准的耳朵-嘴巴的距离以优化音频捕获。手持机28可以具有用于带有麦克风的耳机的3.5mm的插口。注意,系统10可以支持家庭网络管理协议(HNAP)并且与Network Magic、Linksys Easy-Link Advisor或者任何其它合适的家庭网络管理工具兼容。在一个示例中,手持机28具有用于控制标准家庭影院组件的红外发射器。在该示例中,用于手持机28的最少控件可以是TV和AV接收器的电源开关、输入选择、音量高/低和音频输出静音。控制台元件20 (以及相机元件14)可以具有红外接收器以辅助实现视频会议系统与其它远程控制器的配对,这可以允许其它远程设备控制视频会议系统。适当的配对可以通过将红外代码输入到手持机28中或者通过从在视频会议系统的红外接收器处的目标系统指向远程设备来进行(例如类似于通用远程设备学习和配对的方式)。对于呼叫管理,系统10可以允许用户发起、接受和断开去往和来自只有语音的电话的呼叫(例如利用在只有语音的模式下的手持机28)。还可以提供呼叫转接以使得视频呼叫在位于视频会话的每个端点处的控制台元件20之间被转接。此外,可以提供公告以使得默认的公告视频可以被播放给留下视频邮件的呼叫者。自我查看在任意时间都是可用的,并且自我查看可以根据用户·需要通过用户按压手持机28上的按钮而被触发。自我查看可以用显示相机的反转图像的镜像模式来支持,就好像用户在镜子里查看一样。这可以发生在任何时候,包括在空闲时、在视频会议通话期间、在只有语音的呼叫期间等。图3是图示了与系统10相关联的一种可能操作的简化框图。在该特定实现方式中,控制台元件20配备有VPN客户端模块44和媒体模块46。控制台元件20耦接到家庭路由器48,该路由器可以提供经由网络52与另一视频会议端点50的连接。家庭路由器48还可以提供与包括多个视频服务56的网络的连接。在该示例中,视频服务56包括消费者数据库58、视频邮件服务器60、呼叫控制服务器62、web服务64和会话边界控制器66。任意数目的流量管理特征可以被系统10支持。在一简单示例中,系统10可以允许在两个家庭视频会议系统之间进行点到点的连接。连接也可以在家庭视频会议系统和企业视频会议系统之间建立。与呼叫相关联的分组可以通过家庭路由器而被路由,所述家庭路由器可以将分组引导至网络中的交换器或网关。消费者端点不需要支持第二数据通道;任何共享的内容都可以被合并到主数据流中。多点连接可以在三个或更多个家庭和企业视频会议系统的组合之间被建立。在操作中,VPN被利用以向网络传送管理和信令流量。此外,媒体数据(例如语音和视频)可以在该链路以外被交换(例如其可以被设置为在高带宽点到点链路上流动)。这种链接方式可以被配置为保护管理和信令流量(该流量可以包括下载流量),同时通过点到点的路径进行高速数据通信。在图3的特定示例中,安全信令和管理数据被描述为在家庭路由器48与视频服务56之间传播。多个VPN端口也在图3中被示出。这些端口可以与任何适当的安全协议相关联(例如与IPsec、安全套接层(SSL)等相关联)。此外,媒体数据可以在网络52与家庭路由器48之间传播,在这种情况下RTP端口被提供用于这种涉及对应方端点50的特定交换。从语义上说,可以使用多个路径来传送与系统10相关联的流量。与其它捆绑其流量(即提供到防火墙内的单个穿孔)的其它应用相对比,系统10的某些实现方式可以利用在防火墙中的两个不同路径:用于传送两种不同类型的数据的两个路径。视频服务56内的对象是路由或者交换(或者彼此合作以路由或交换)网络环境中的流量和/或分组的网络元件。本说明书中所使用的术语“网络元件”意图包括服务器、交换机、路由器、网关、网桥、负载平衡器、防火墙、内联服务节点、代理服务器、处理器、模块或者可操作来在网络环境中交换信息的任何其它合适的设备、组件、元件或对象。该网络元件可以包括辅助实现其操作的任何合适的硬件、软件、组件、模块、接口或对象。这可以包括允许数据或信息的有效交换(接收和/或传输)的适当的算法和通信协议。注意,视频邮件服务器60可以在视频服务56的任意元件之间共享(或协调)某些处理操作。利用类似的推理,它们各自的存储器元件可以以任意种可能的方式存储、保持和/或更新数据。在一个示例性实现方式中,视频邮件服务器60可以包括软件以实现涉及用户的视频处理应用,如这里所描述的。在其它实施例中,这些特征可以在任意上述元件的外部被提供,或者被包括在一些其它网络元件中以实现这种所希望的功能。或者,若干个元件可以包括可以协调以实现所述操作的软件(或者往复式软件),如这里所概述的。在其它实施例中,图中的任意设备可以包括辅助实现这些交换操作的任何合适的算法、硬件、软件、组件、模块、接口或对象。在某些实例中,视频邮件60可以被提供在不同的位置中,或者一些其它功能可以直接在视频会议平台内(例如·在控制台元件20、相机元件14、显示器12等内)被提供。这种情况可能出现在以下的场景中,其中控制台元件20已被提供有提高的智能以执行类似的任务或者为了个人用户的利益而管理某些数据存储库。图4是图示了与呼叫信令和呼叫媒体相关联的其他细节的简化框图。在该特定实例中,呼叫媒体链路用虚线表示,而呼叫信令链路用实线表示。更具体而言,呼叫信令从一组端点74a_b通过宽带网络传播,在这种情况下这些链路具有在视频服务56处的合适的连接。在图4的示例中,这些链路被标记为70a-b。视频服务56包括之前针对图3表明的很多服务。端点74a_b之间的呼叫媒体在宽带网络上传播,其中这些链路被标识为72a_b。端点74a-b只是利用系统10的设备的视频会议实体。图5是图示了根据本公开的另一实施例的用于提供视频会话的系统100的简化示意图。在该特定实现方式中,系统100代表用于利用高级跳过编码协议(或者该协议的任何合适的变形)辅助实现网络上的视频会议的体系结构。系统100包括被表示为端点112和113的两个不同的通信系统,所述端点被设置在不同的地理位置处。端点112可以包括显示器114、多个扬声器121、相机元件116和视频处理单元117。注意,图5的设备和基础设施与图1的类似,这里图5 (以及之后的附图)可以用于讨论增强的视频处理操作(例如面部检测、背景登记、高级跳过编码等)。端点113可以包括显示器124、多个扬声器123、相机元件126和视频处理单元127。此外,端点112和113可以分别耦接到控制台元件120、122,这里端点经由网络30彼此连接。每个视频处理单元117、127还可以包括相应的处理器130a、130b、相应的存储器元件132a、132b、相应的视频编码器134a、134b和相应的高级跳过编码模块136a、136b。这些元件的功能和操作在下面会进行详细讨论。在涉及参与方119 (出现在端点112处)和参与方129 (出现在端点113处)的会议的背景下,分组信息可以在会议期间通过网络30传播。在每个参与方119和129通信时,相机元件116、126适当地捕获视频图像作为数据。每个视频处理单元117、127评估该视频数据,然后确定哪些数据被发送到另一位置以在显示器114,124上呈现。注意,为了说明系统100的某些示例技术的目的,理解在很多视频应用中出现数据问题是很重要的。视频处理单元可以被配置为在对视频序列编码期间跳过视频信号的宏块。这意味着对于这些宏块将不传送编码后的数据。这可能包括编解码器(例如MPEG-4、H.263等),对于编解码器而言,带宽和网络拥塞是非常需要考虑的问题。此外,对于移动视频电话以及对于基于计算机的会议,处理资源是非常珍贵的。这包括个人计算机(PC)应用以及用于视频会议的更强健的系统(例如Te I epr e sence )。编码性能通常受到计算复杂性的限制。计算复杂性可以通过在视频数据的宏块被预期为要被跳过时不处理这些宏块(例如在编码之前)而被减小。跳过宏块节省了相当大的计算资源,因为对宏块的后续处理(例如运动估计、转换和量化、熵编码等)可以被避免。一些软件视频应用通过在编码活动期间丢弃帧来控制处理器的利用率:通常导致解码后的视频序列中的突然运动。当宏块被随意地(或不正确地)跳过时,失真也是很普遍的。减小计算复杂度和管理带宽并且同时传送对于参与方观众而言足够的视频信号(即该视频信号没有明显的恶化、失真等)是·很重要的。根据本公开的教导,系统100采用有效解决上述问题的高级跳过编码(ASC)方法。具体而言,该协议可以包括三个重要组件,这三个组件可以一起解决时间视频噪声所呈现的问题。第一,系统100可以高效地表示时间上在前的帧的变化统计数据。第二,系统100可以识别每个图片元素的最可能“可跳过”的值。第三,结合被提供有基准图片,系统100可以确定当前的编码后图片元素是否应当被编码为跳过。这些组件中的每一个在下面将进一步详细讨论。在一起工作的情况下,这些编码组件可以被配置为确定哪些新数据应当被编码和发送给其它对应方端点,并且还确定哪些数据(已被捕获和编码的)可以被用作基准数据。通过使要被编码的新数据的量最小化,该体系结构可以使端点112、113之间的网络中的处理能力和带宽消耗最小化。在详细描述与本公开相关联的更多操作之前,提供关于图1的相应基础设施的一些初步信息。每个视频处理单元117、127被配置为评估视频数据并且做出关于哪些数据应当在系统100内被呈现、编码、跳过、操纵、分析或者按其它方式处理的决定。本说明书中所使用的术语“视频元件”意图包括任何合适的单元、模块、软件、硬件、服务器、程序、应用、应用程序接口(API)、代理、处理器、现场可编程门阵列(FPGA)、可擦除可编程只读存储器(EPR0M)、电可擦除可编程ROM(EEPROM)、专用集成电路(ASIC)、数字信号处理器(DSP)或者被配置为处理视频数据的任何其它合适的设备、组件、元件或对象。该视频元件可以包括辅助实现其操作的任何合适的硬件、软件、组件、模块、接口或对象。这可以包括允许数据或信息的有效交换(接收和/或发送)的适当的算法和通信协议。视频元件可以被包括在相机元件或者控制台元件中(图1和5中所示),或者分布在这两个设备上。
注意,每个视频处理单元117、127还可以(例如与相应的端点112、113)共享(或协调)某些处理操作。利用类似的推理,它们各自的存储器元件可以以任意种可能的方式存储、保持和/或更新数据。此外,因为这些视频元件中的一些可以容易地组合到单个单元、设备或服务器中(或者这些元件的某些方面可以被设置在彼此内),所以所图示的处理器中的一些可以被去除,或者被合并以使得单个处理器和/或单个存储器位置可以负责与跳过编码控制相关联的某些活动。在通常意义上,图5中所示的布置可以在其表示上更具有逻辑性,而物理体系结构可以包括这些元件的各种置换/组合/混合。在一种示例性实现方式中,视频处理单元117、127包括用于实现智能视频增强操作的软件(例如作为图6中所示的相应的高级跳过编码模块136a-b和视频编码器134a_b或者面部优选编码模块135的一部分),如在本文档中所概述的。在其它实施例中,这个特征可以在上述元件中的任意元件以外被提供,或者被包括在某个其它视频元件或端点(该视频元件或端点中的任一者可能是专用的)中以实现这个所希望有的功能。或者,若干个元件可以包括可以协调以实现所述操作的软件(或者往复式软件),如这里所概述的。在其它实施例中,所示的图中的任意设备可以包括辅助实现这些跳过编码管理操作的任何合适的算法、硬件、软件、组件、模块、接口或对象。集成视频处理单元117被配置为经由某个连接接收来自相机116的信息,所述某个连接可以附接到可能位于显示器的顶部的集成设备(例如机顶盒、专用箱等)。视频处理单元117还可以被配置为控制压·缩活动或者与从相机接收到的数据相关联的附加处理。或者,物理上独立的设备可以在图像数据被发送到其下一个想要去往的目的地之前执行该附加处理。视频处理单元117还可以被配置为以任何适当的格式存储、聚合、处理、输出和/或以其它方式保持图像数据和日志,其中这些活动可能涉及处理器130和存储器元件132a。在某些示例性实现方式中,视频处理单元117和127是机顶盒配置和/或相机元件116和126的一部分。在其它实例中,视频处理单元117、127是服务器(例如控制台元件120和122)的一部分。在其它示例中,视频处理单元117、127是利用它们各自的对应方来辅助实现数据流动的网络元件。这对等地包括专用元件,这些专用元件可以被提供特定特征以满足独特的场景或不同的环境。视频处理单元117可以通过无线连接或者经由允许这两个元件之间的信号传送的一个或多个线缆或线路与相机元件116相接口。这些设备还可以接收来自中间设备、远程控制器等的信号,其中信号通常可以利用红外、蓝牙、WiF1、电磁波,或者用于将数据从一个元件传送到另一元件(例如可能通过网络)的任何其它合适的传输协议。实质上,任何控制路径都可以被利用以在视频处理单元117和相机元件116之间传递信息。在某些实施例中,这两组设备之间的传输可以是双向的以使得这些设备可以彼此交互(例如动态地、实时地等)。这将允许设备确认来自彼此的传输并且在适当的情况下提供反馈。基于特定的配置需要,这些设备中的任意设备可以彼此合并或者独立操作。例如,单个盒子可以包括音频和视频接收能力(例如包括视频处理单元117以及用于捕获视频和音频数据的相机和麦克风组件的机顶盒)。转到图6,图6是图示了根据本公开的一个实施例的在单个端点内的示例数据流的简化框图。在该特定实现方式中,相机元件116和视频处理单元117被示出。视频处理单元117包括变化测试142、阈值确定144、直方图更新146、基准登记148和基准150。视频处理单元117还可以包括前述视频编码器134a、高级跳过编码模块136a和面部优选编码模块135。注意,图6的虚线表示可选的因而可以被跳过的路径。就操作而言,相机元件116可以捕获与参与方119相关联的输入视频。该数据可以从相机元件116流到视频处理单元117。数据流可以被引导至视频编码器134a (该编码器可以包括高级跳过编码模块136a),并且随后传送到阈值确定144和变化测试142。数据可以作为一系列静态图像或帧而被分析,这些静态图像或帧彼此在时间上移位。这些图像被阈值确定144和变化测试142分析,下面将详细描述。现在参考图7,图7是示出了根据本公开的一个实施例的多级直方图的简化图。该特定活动可以发生在阈值确定144和变化测试142内。在该实施例中,数据用多级直方图的形式被分析以表示每两个连续帧的变化统计数据。应当注意,这个概念是基于以下固有认知的:典型的视频会议场景(例如Telepresence场景)不会频繁和/或显著地改变。每个直方图可以记录一个图片元素(即视频图像)的变化统计数据。图片元素可以被认为是原始图像中的一个像素或者降低了分辨率(缩小)的图像。在该特定示例中,像素可以被组合以形成图像的宏块,并且图像可以被分组成16X16的宏块格。其它分组形式也可以被容易地使用,其中这些分组方式或直方图配置可以基于特定需求。在该实施例中,多级直方图有三个级160、162、164。在该示例中,每一级包含8个区间(bin)。第一级直方图160将256个亮度水平划分成8个区间:每个区间对应于32个亮度水平(256/8=32)。第二级直方图162对应于第一级直方图的最好的两个相邻区间,并且进一步将相应的64个亮度水平划分成8个区间(B卩,每个区间8个亮度水平)。类似地,第三级直方图164将第二级·直方图162的最好的两个相邻区间划分成8个区间:每个区间对应于2个亮度水平(16/8=2)。这种数据分解发生于变化测试142和阈值确定144两者。再次参考图6,在阈值确定144内,图像可以根据所估计的时间噪声水平而被分析。这是通过评估当前环境而被估计的:更具体而言,通过评估各种光亮水平,例如背景光的量。一旦时间噪声水平被适当地确定,阈值确定就可以被做出,其中该数据被发送给变化测试142。对于每两个连续帧,变化测试可以针对每个图片元素而被执行。该测试可以将每个图像与前一图像以及来自阈值确定144的阈值确定结果进行比较。如果图片元素被检测为相对于前一帧没有变化,则直方图的相应区间可以被增加I。当直方图中的一第三级区间达到其最大高度时,相应的图片元素被标记为“要被登记”以进行下面要详细描述的处理。注意,在具有查看更长的历史记录而不是简单地查看两帧的能力的情况下,上述多级直方图可以提供一种节省存储器的方法来识别视频中“最静止的”像素的无噪值。当图片元素被标记为“要被登记”时,数据可以被发送到基准登记148。相应像素的值可以被登记到基准缓冲器。直方图160、162、164的区间随后被重置并且整个过程可以被重复。可以使用任意适当数目的基准缓冲器。通过使用单个缓冲器,所登记的基准可以系统地被更加新的值替换。或者,通过使用多个缓冲器,多于一个基准可以被存储。不同于旧值的更加新的值可以被登记到新的缓冲器。这些值可以在基准登记148中被确定,并且随后被发送给视频编码器134a,其中这些值被存储在合适的存储位置(例如基准150)中以供在跳过编码决定过程中使用。现在参考图8,图8是图示了用于针对输入视频的一部分做出跳过编码决定的示例性判决树170的简化示意图。在该特定实现方式中,判决树170示出了在视频编码器134a的高级跳过编码模块136a内发生的逻辑过程。高级跳过编码模块136a可以接收来自三个源的数据:来自视频编码器134a的预测基准172 (为编码后的在前图像的拷贝)、来自相机元件116的当前图像174和来自存储元件(例如基准150)的跳过基准176,所述存储元件可以包括从基准登记148登记的像素。预测基准172和当前图像174可以被比较以产生帧差异182。当前图像174和跳过基准176可以被比较以产生第一基准差异184。预测基准172和跳过基准176可以被比较以产生第二基准差异186。当对视频帧进行编码时,跳过基准176可以用于帮助做出跳过编码决定。在该示例中,单个基准缓冲器被使用;然而多个基准缓冲器也可以被容易地使用。在图8的该实施例中,当对视频块最近的邻居的运动搜索促成直接预测(即零运动)时,视频块被考虑进行跳过编码。在这样的情况下,帧差异182的度量值被针对两个严格的阈值而评估。取决于噪声水平,这些阈值可以被选择为使得如果在判决框188处帧差异度量值低于较低阈值,则视频块可以被编码为有信心的跳过。或者,如果在判决框190处帧差异度量值高于较大阈值,则视频块可以被编码为有信心的不跳过。对于那些介于这些值之间的度量值,基准差异184的度量值在当前图像174与跳过基准176之间的判决框192处被进一步评估。随后,该值可以在基准图片(用于帧间预测)与跳过基准176之间的判决框194处针对另一适当定义的阈值而被进一步评估。如果对于这两次比较,度量值都在阈值以下,则视频块被编码为跳过候选。现在参考图9,图9是图示了与系统200相关联的一种可能操作的简化流程图。该流程可以开始于步骤210处,在该步骤中视频信号被捕获为一系列在时间上移位的图像。在步骤212处,原始图像·数据可以被发送给适当的视频处理单元。步骤214可以包括分析数据以得到变化统计数据。在步骤216处,基准帧可以被登记和存储以用于随后的比较。在视频捕获开始时,第一批图像可以形成第一批基准帧。跳过编码决定可以在步骤218处被做出并且未被跳过的帧可以在步骤220处被编码。在步骤222中,新编码的数据与来自被跳过部分的基准编码的数据可以一起经由网络被发送到第二位置。该数据随后作为视频图像被显示在第二位置的显示器上,如步骤224中所示。在一些实施例中,类似的过程发生在第二位置(即,对应方端点)处,在这种情况下视频数据还从第二位置被发送到第一位置。转而考虑本公开的视频处理能力的另一方面,面部检测活动、背景/前景优化等可以通过本公开的体系结构而被实现。(注意,名为“Combined Face Detection andBackground Registration” (2008 年 6 月 30 日提交)的美国专利申请 N0.12/164, 292 的全部内容在此通过引用被包括在本公开中。)在诸如视频会议之类的流视频系统中,视频图像可以被视为背景图像和前景图像的合成。背景图像可以包括各种静止对象,而前景图像可以包括运动的对象。尤其是在视频会议中,前景图像可以指实际会议中的人,并且背景图像可以指在没有参与方在相机前面的情况下由相机捕获到的视频图像。根据本公开的某些方面,背景基准图片的构建可以基于变化检测。在静止背景以及基本恒定的照明的情况下,变化检测算法(例如被设置在给定的相机元件的编码器内)解决相机和量化噪声。对于噪声统计数据自适应的阈值技术可以被配置来测试图片元素(例如包括像素或小像素块)是运动的还是静止的。这可以基于两个连续帧之间的差异。更一般地来说,本公开的示例实施例可以包括具有动态内在属性(例如自动曝光、自动白平衡和自动对焦)和外在属性(不可预测的光照等)的相机元件14、116、126。在操作上,相机元件14、116、126所执行的方法可以包括分析相机输出并且根据时间上的变化识另拙图像中的静止部分,所述时间上的变化可以是由于相机对其内在属性(例如焦点)的调整而导致的传感器在时间上的噪声和变化的组合。这些操作还可以包括利用输出来对所识别的传入帧的静止/背景区域执行高级跳过编码。此外,类似地利用输出来定位所分出的前景区域中的头部轮廓(例如面部)的操作可以被执行。该方法可以通过简单地处理所分割出的前景或者通过将分出的前景和帧与帧的时间差异(即运动)相组合或者进一步组合来自颜色空间的纹理来完成。该操作还可以包括通过优选将比特用在所定位的面部区域来优化对前景区域的编码。在不同的操作方面,一种操作可以在相机元件14、116、126中被执行以提取输出(面部)并利用来自那些区域的被强调的测量结果执行内在的调节。转而考虑与这些活动相关的附加细节,对视频数据的变化检测结果可以沿时间轴被累计。平均亮度值(Y)的直方图可以针对多个图片元素中的每个图片元素而被构建。直方图的每个区间可以对应于O到255之间的水平。当对于预定数目的连续帧(L),图片元素都被识别为静止的,则该图片元素可以被标记为静态元素,在此情况下其直方图中的相关联的区间被增加I。此外,相关联的色度(U和V)值可以针对每个区间而被平均且存储。该直方图构建过程可以针对每个帧而被重复执行。在一实施例中,当其直方图中的一个区间达到预定值时,图片元素被登记到背景缓冲器中。在针对预定数目的帧执行了背景登记之后,对背景的初始登记可以被用于面部检测。背景登记掩模被保持:指示出图片元素的背景信息的可用性。对于每个输入帧,可以通过从该帧中减去背景然后·再滤除噪声来产生差异图像。在完整的背景图片可用的情况下,或者在背景差异与图像的未登记部分吻合的情况下,根据背景差异图像得出对象掩模。或者,背景差异图像可以与噪声滤除后的帧差异以及背景登记掩模进行组合以确定前景对象,并且生成对象掩模。在一个示例实施例中,当当前帧与前一帧之间的差异最小时,最近的显著的帧差异图像被使用。在某些示例性实现方式中,对象掩模可以被应用于有复杂背景的面部检测,以将基于边缘和颜色的面部检测活动局限于对象掩模(而非整个帧)。复杂的背景可以指具有不均匀颜色的背景图片(例如包含具有可变亮度值的纹理),从而在执行边缘检测时产生很多个边缘。简单的背景指具有清晰均匀的纹理和颜色的背景:从而在执行边缘检测时产生较少的边缘结果。在一个示例操作中,所检测到的头部和躯干轮廓可以被用在背景登记中以调节直方图。例如,当图片元素在所检测到的面部轮廓内时,其直方图中的相应区间的统计数据将被重置为O。为了应对噪声,相邻区间的统计数据可以被减小为它们先前值的分数值:与它们与实际区间的距离成比例。这个方法可以被执行以减少与背景相关的对静止面部和躯干数据的错误登记。或者,当图片元素不在所检测到的轮廓内时,该图片元素通常是未被覆盖的背景的一部分。通过调节直方图以反映这样的可能性,通过移动面部和躯干对象而暂时显露的背景可以被快速登记。在语义上,为了使对作为背景的一部分的静止头部和躯干的错误登记最小化,所检测到的头部和肩部轮廓被反馈给背景登记(以调节直方图)。例如,如果一元素在所检测到的轮廓内,则其直方图中的相应区间被重置为O。在一个实施例中,当面部和躯干区域的一些部分被错误地登记为背景的一部分时,背景登记仍然可以被使用,直到利用调节后的直方图的新登记可用为止。或者,背景登记可以被清除。为了应对噪声,相邻区间被减少它们先前值的分数值:取决于它们离实际区间的距离,其中所述分数值遵循对于噪声变化自适应的函数。就具体的处理选择而言,使用多级经量化的直方图的算法可以被利用以将存储器使用率从每个像素256个字节减少到大约每个像素1.5个字节。三级直方图可以针对每个4X4的块而被构建。为了减少与背景相关联的噪声,背景登记可以针对一段时间而被处理,其中如果结果和新的值都在阈值内,则将结果与新的值进行平均。当平均结果和新的值不在阈值内时,之前的值可以取代新的值。为了调节直方图,当图片元素在面部和身体轮廓内时,其在第一级直方图中的相应区间的统计数据不变(而非增加I)。随后,其在第二级直方图中的相应区间的统计数据可以被减半,并且其在第三级直方图中的相应区间被清除。此外,取决于噪声变化,第三级直方图的相邻的一个或两个区间可以被减至它们的四分之一或一半的值。在示例情景的操作中,对于每个输入帧,该体系结构生成若干结果:对象(前景)掩模、头部和躯干检测结果以及更新后的背景图片。后面两个结果可以被反馈到编码器以改进对后续帧的编码。这种组合的面部检测和背景登记体系结构具有若干益处。第一,其通过将基于·颜色和边缘的算法局限于对象掩模而改进了具有复杂背景的面部检测。第二,其通过将头部和躯干强制为非背景区域而改进了背景构建,这避免了将那些图片元素错误登记为背景。背景登记和面部检测两者的输入可以是原始帧,在这种情况下,该体系结构独立于视频编码器。面部检测的输入可以是原始帧,而背景登记的输入可以是视频编码器的重新构建的输出。编码器可以利用面部检测和背景登记的结果来改进对面部区域(和未被覆盖的背景)的编码。背景登记和面部检测两者的输入可以是重新构建的帧。这种结构允许编码器执行面部量化倾斜和未被覆盖的背景的编码。整个过程可以在编码器和解码器中被复制,其中解码器可以与编码器同步地构建和更新背景基准图片,这可以节省带宽的开销以传输所构建的背景图片。背景基准图片的构建可以基于变化检测。当静止背景和恒定照明被设定时,变化检测算法(例如设在相机元件、控制台元件等中)可以有效地解决相机和量化噪声。对于噪声统计数据自适应的阈值技术可以被采用以利用两个连续帧的差异来测试图片元素(像素或小像素块)是运动的还是静止的。在启动期间,检测可以开始于对背景的初始登记(在针对一定数目的帧运行背景登记之后),所述背景可能有某一部分的不可用背景(即尚未登记的)。背景登记掩模可以被保持以指示图片元素的背景信息是否可用。对于每个输入帧,差异图像通过从该帧中减去背景然后再滤除噪声而被产生。如果完整的背景图片是可用的或者背景差异与图像的未登记部分吻合,则可以直接根据背景差异图像而得出对象掩模。否则,背景差异图像可以与(也是噪声滤除后的)帧差异以及背景登记掩模进行组合以确定前景对象并且生成对象掩模。在当前帧和前一帧之间的差异可忽略的情况下,最近的显著的帧差异图像可以被使用。最后,对象掩模可以被应用于面部检测以应对复杂背景,这是通过将基于边缘和颜色的面部检测算法局限于对象掩模而非整个帧来实现的。在特定实现方式中,组合的面部检测和背景登记体系结构可以被集成到视频会议视频编码器(例如图5所描述的视频编码器)中。改善后的面部检测结果和所构建的背景图片可以被用在各种应用中,例如面部量化倾斜和未被覆盖的背景预测,如这里所详细描述的。注意,在某些示例性实现方式中,这里所概述的视频处理功能可以通过编码在一个或多个有形介质中的逻辑(例如,在专用集成电路[ASIC]中提供的嵌入式逻辑、数字信号处理器[DSP]指令、要由处理器或者任何其它类似的机器执行的软件[可能包括目标代码和源代码]等)来实现。在这些实例中的一些实例中,存储器元件[如图5中所示]可以存储用于这里所描述的视频增强操作(例如,跳过编码、面部检测、背景登记等)的数据。这包括能够存储被执行来实现本说明书中所描述的活动的软件、逻辑、代码或处理器指令的存储器元件。处理器可以执行与数据相关联的任何类型的指令以实现本说明书中所详细描述的操作。在一个示例中,处理器[如图5中所示]可以将要素或物品(例如数据)从一种状态或事物转换为另一种状态或事物。在另一示例中,这里所概述的视频增强活动可以用固定逻辑或可编程逻辑(例如由处理器执行的软件/计算机指令)来实现,并且这里所标识的元件可以是某种类型的可编程处理器、可编程数字逻辑(例如现场可编程门阵列[FPGA]、可擦除可编程只读存储·器(EPR0M)、电可擦除可编程ROM (EEPROM))或者包括数字逻辑、软件、代码、电指令或者它们的任何适当的组合的ASIC。注意,图5的设备可以共享(或协调)某些处理操作。利用类似的推理,它们各自的存储器元件可以以任意种可能的方式存储、保持和/或更新数据。在通常意义上,之前的图中所示的布置可以在其表示上更具有逻辑性,而物理体系结构可以包括这些元件的各种置换/组合/混合。在一个示例性实现方式中,相机元件116、126包括软件(例如作为图5的模块的一部分)以实现视频增强操作,如本文档中所概述的。在其它实施例中,这些特征可以在任意上述元件的外部被提供(例如被包括在控制台元件120、122中),或者被包括在某个其它设备中以实现这些功能。或者,若干个元件可以包括可以协调以实现所述操作的软件(或者往复式软件),如这里所概述的。在其它实施例中,图中的任意设备可以包括辅助实现这些视频增强操作的任何合适的算法、硬件、软件、组件、模块、接口或对象。所有这些前述设备还可以将信息保存在任何合适的存储器元件(例如随机访问存储器(RAM)、ROM、EPROM、EEPROM、ASIC等)、软件、硬件中或者适当地基于特定需要保存在任何其它合适的组件、设备、元件或对象中。这里所讨论的存储器项目中的任意项目(例如数据库、表格、键值、队列等)应当被理解为被包括在宽泛术语“存储器元件”内。类似地,本说明书中所描述的任意可能的处理元件、模块和机器都应当被理解为被包括在宽泛术语“处理器”内。控制台元件20、120、122和/或相机元件14、116、126还可以包括用于接收、发送和/或以其它方式在网络环境中传送的数据或信息的适当的接口。注意,就这里所提供的示例而言,交互可以针对两个、三个或四个元件而被描述。但是这样做只是为了清晰和示例的目的。在某些情况下,仅仅参考有限数目的元件描述给定流程组的一个或多个功能可能更容易。应当理解系统10、100 (及其教导)可以很方便地调整规模并且可以容纳大量组件以及更复杂/高级的布置和配置。因此,所提供的示例不应当限制系统10、100的范围或者限制系统10、100可能被应用于各种其它体系结构的宽泛教导。还很重要的是要注意在之前的流程图中的步骤只示出了可以被系统10、100或者在系统10、100内执行的可能的信令情景和模式中的一些。这些步骤中的一些步骤可以适当地被删除或去除,或者这些步骤可以在不脱离本公开的范围的情况下被进行相当大的修改或改变。此外,大量的这些操作已被描述为与一个或多个附加操作同时或者并行被执行的。但是,这些操作的定时可以被进行相当大的改变。之前的操作流程已为了示例和讨论的目的而被提供。系统10、100提供相当大的灵活性,因为在不脱离本公开的教导的情况下,任何适当的布置、年表、配置和定时机制都可以被提供。虽然已详细参考具体布置和配置对本发明进行了描述,但是在不脱离本公开的范围的情况下,这些示例性的配置和布置可以被进行相当大的改变。例如,例如,虽然本公开是参考包括特定服务器组件的特定通信交换而被描述的,但是系统10、100可以应用于其它协议和布置(例如涉及任何类型的视频会议情景的那些协议和布置)。此外,虽然相机元件14已被描述为按照特定方式安装,但是相机元件14可以按任何合适的方式被安装以适当地捕获视频图像。其它配置可以包括适当的墙部安装、通道安装、家具安装、柜橱安装、直立(立式)组装等或者其中相机将被适当地放置以执行其功能的布置。此外,这里所描述的用户简单地是在显示器12、114、124的附近或者观看区域内的个人。观众成员可以是参与到涉及在远程站点处的其它个人的视频会议中的人。观众成员可以与公司情景、消费者情景、·住宅情景等相关联或者与系统10、100可应用于的任何其它适当的环境相关联。此外,虽然之前的讨论聚焦于与特定类型的端点相关联的视频会议上,但是使用视频应用的手持设备可以方便地采用本公开的教导。例如,iPhone、iPad、Google Droid、个人计算应用(即桌式视频解决方案)等可以方便地利用在上面详细描述了的跳过编码、面部检测和增强的视频处理操作。对视频数据进行编码的任何通信系统或设备都将适合于这里所讨论的跳过编码特征。本领域技术人员可以明白各种其它改变、替换、变化、更改和修改,并且希望本公开包括落入所附权利要求的范围内的所有这些改变、替换、变化、更改和修改。此外,系统10、100可以涉及不同类型的对应方,个人所使用的技术可以存在不对称性。例如,一个用户可能正在使用笔记本计算机,而另一用户在使用系统10、100的体系结构。类似地,智能电话可以被用作一个个人端点,而另一用户继续使用系统10、100的体系结构。而且,摄像头可以结合系统10、100被方便地使用。按照类似的思路,多方呼叫可以利用本公开的教导被方便地实现。此外,虽然已参考辅助实现通信过程的特定元件和操作对系统10、100进行了说明,但是这些元件和操作可以用实现系统10、100所希望的功能的任何适当的体系结构或过程来代替。
权利要求
1.一种方法,包括: 接收来自相机元件的视频输入; 利用变化检测统计数据来识别背景图像数据; 使用所述背景图像数据作为时间基准来确定所述视频输入内的特定视频帧的前景图像数据; 将选定的前景图像用于对后续视频帧的背景登记;以及 将所述后续视频帧的至少一部分提供给下一个目的地。
2.根据权利要求1所述的方法,还包括: 识别所述视频输入内来自噪声的像素的值; 创建与所识别的像素值相关联的跳过基准视频图像; 将当前视频图像的一部分与所述跳过基准视频图像进行比较;以及 确定在编码操作发生之前要被跳过的与所述当前视频图像相关联的宏块。
3.根据权利要求2所述的方法,还包括: 评估来自所述视频输入的视频数据以确定所述视频数据中的多个元素中的特定元素是否是静止图像的一部分。
4.根据权利要求3所述的方法,其中在特定编码操作发生之前,静止图像的一些部分被跳过。
5.根据权利要求3所述的方法,其中所述前景图像数据还包括视频会话中的参与方的面部和躯干图像。
6.根据权利要求3所述的方法,还包括: 基于高于指定的噪声阈值的噪声水平,对与所述当前视频图像相关联的未被跳过的宏块进行编码。
7.根据权利要求3所述的方法, 还包括: 将与所述当前视频图像相关联的被跳过的宏块与未被跳过的宏块聚合;以及 通过网络连接将所述宏块传送给与视频会话相关联的控制台元件。
8.根据权利要求1所述的方法,还包括: 生成多个直方图来表示当前输入视频帧与时间上在前的视频帧之间的变化统计数据。
9.根据权利要求8所述的方法,其中所述直方图中的每个直方图包括不同的亮度水平,并且其中如果所述直方图中的选定直方图达到了一定的亮度水平,则相关联的视频图像的相应像素被标记为将被登记到基准缓冲器。
10.一种编码在一个或多个有形介质中的逻辑,该逻辑包括用于执行的代码并且当所述代码被处理器执行时可操作来执行包括以下各项的操作: 接收来自相机元件的视频输入; 使用变化检测统计数据来识别背景图像数据; 使用所述背景图像数据作为时间基准来确定所述视频输入内的特定视频帧的前景图像数据; 将选定的前景图像用于对后续视频帧的背景登记;以及 将所述后续视频帧的至少一部分提供给下一个目的地。
11.根据权利要求10所述的逻辑,所述操作还包括:识别所述视频输入内来自噪声的像素的值; 创建与所识别的像素值相关联的跳过基准视频图像; 将当前视频图像的一部分与所述跳过基准视频图像进行比较;以及 确定在编码操作发生之前要被跳过的与所述当前视频图像相关联的宏块。
12.根据权利要求10所述的逻辑,所述操作还包括: 评估来自所述视频输入的视频数据以确定所述视频数据中的多个元素内的特定元素是否是静止图像的一部分。
13.根据权利要求10所述的逻辑,其中所述前景图像数据还包括视频会话中的参与方的面部和躯干图像。
14.根据权利要求10所述的逻辑,所述操作还包括: 生成多个直方图来表示当前输入视频帧与时间上在前的视频帧之间的变化统计数据。
15.根据权利要求14所述的逻辑,其中所述直方图中的每个直方图包括不同的亮度水平,并且其中如果所述直方图中的一个选定直方图达到了一定的亮度水平,则相关联的视频图像的相应像素被标记为将被登记到基准缓冲器。
16.一种装置,包括: 被配置来存储数据的存储器元件;以及 可操作来执行与所述数据相关联的指令的处理器,其中所述处理器和所述存储器元件进行合作以使得所述装置被配置为: 接收来自相机元件的视频输入; 使用变化检测统计数据来识别背景图像数据; 使用所述背景图像数据作为时间基准来确定所述视频输入内的特定视频帧的前景图像数据; 将选定的前景图像用于对后续视频帧的背景登记;以及 将所述后续视频帧的至少一部分提供给下一个目的地。
17.根据权利要求16所述的装置,其中所述装置还被配置为: 识别所述视频输入内来自噪声的像素的值; 创建与所识别的像素值相关联的跳过基准视频图像; 将当前视频图像的一部分与 所述跳过基准视频图像进行比较;以及 确定在编码操作开始之前要被跳过的与所述当前视频图像相关联的宏块。
18.根据权利要求16所述的装置,其中所述装置还被配置为: 评估来自所述视频输入的视频数据以确定所述视频数据中的多个元素中的特定元素是否是静止图像的一部分。
19.根据权利要求16所述的装置,还包括: 耦接到所述相机元件的控制台元件,其中所述装置还被配置为: 记录视频消息; 选择与特定用户相关联的特定标识符串;以及 将所述视频消息传送给与所述特定用户相关联的目的地。
20.根据权利要求16所述的装置,其中所述装置还被配置为: 生成多个直方图来表示当前输入视频帧与时间上在前的视频帧之间的变化统计数据,其中所述直方图中的每个直方图包括不同的亮度水平,并且其中如果所述直方图中的选定直方图达到了一定的亮度 水平,则相关联的视频图像的相应像素被标记为将被登记到基准缓冲器。
全文摘要
在一个示例中提供了一种方法,该方法包括接收来自相机元件的视频输入;利用变化检测统计数据来识别背景图像数据;使用背景图像数据作为时间基准来确定视频输入内的特定视频帧的前景图像数据;将所选择的前景图像用于对后续视频帧的背景登记;以及将后续视频帧的至少一部分提供给下一个目的地。
文档编号H04N7/15GK103222262SQ201180055345
公开日2013年7月24日 申请日期2011年11月18日 优先权日2010年11月19日
发明者大卫·J·麦凯, 田第鸿, 安德鲁·P·维尔, 毛瑞斯·布提姆尔, 约瑟夫·T·福瑞尔, J·威廉·穆澈利, 文-雄·陈 申请人:思科技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1