用于视频通信系统中改进的交互式内容共享的系统和方法

文档序号:6495518阅读:169来源:国知局
用于视频通信系统中改进的交互式内容共享的系统和方法
【专利摘要】公开了用于在至少第一和第二端点之间通过通信网络交互式地共享和注释视觉信息的系统和方法。系统包括耦合到第一端点的显示器和耦合到第一端点并与显示器相关联的用户交互设备,其中第一端点被配置为:通过通信网络从至少第二端点接收视觉信息并发送视觉信息给至少第二端点;在显示器上示出从至少第二端点接收的视觉信息;当由用户交互设备指令时获得在显示器上示出的视觉信息的副本;如果有的话,按用户交互设备所指示的添加注释;并将注释副本发送给第二端点。
【专利说明】用于视频通信系统中改进的交互式内容共享的系统和方法
相关申请的交叉引用
[0001]本申请要求2011年6月8日提交的美国临时专利申请第61/494,697号的优先权,该申请通过整体引用合并于此。
【技术领域】
[0002]所公开的主题涉及允许内容共享的视频通信系统,内容诸如计算机屏幕的、或应用窗ロ的、或任何成像设备的输出的内容。
【背景技术】
[0003]某些视频通信应用允许“内容”的共享。该词可以指任何不是參与者之一的视频流的视觉内容。示例包括计算机屏幕——或者是整个屏幕(“桌面”)或者是其一部分——或者计算机应用之一可以显示其输出的窗ロ的内容。
[0004]一些系统使用“文档相机”来捕捉这样的内容。此相机会被定位从而会反映放置在桌子或特殊平板支持物上的文档,并会捕捉文档的图像以分布给所有的会话參与者。在其中计算机是主要业务通信工具的现代系统中,用VGA输入取代了文档相机,从而可以连接任何VGA视频生成设备。在先进的系统中,计算机可以直接与视频通信设备接ロ从而直接将相关内容材料传输给会话,而不需要转换成VGA或其它中间模拟或数字格式。
[0005]在频谱的一端,内容共享可以是完全被动的(“被动内容共享”)。在此情况中,视频通信系统将仅对内容编码并发送给參与者,而不提供以任何方式修改内容的能力。当内容由计算机驱动例如共享文档页时,示出光标和由底层软件应用的任何突出显示是可能的。然而这是作为图像捕捉的——換言之,远程參与者“接管”光标并执行对文档的远程编辑是不可能的。这是在许多视频通信应用中使用的模式。
[0006]在频谱的另一端,存在分布式协作应用诸如共享的白板,有时称为“活动内容共享”。在此情况中,用户能够以同步的方式协作地编辑和查看文档。构建这样的系统的复杂度是显著的,并要求专用的协议和应用。通常,用户不能使用他们偏爱的应用并被迫使用专门的、网络感知的程序(通常有较低的复杂性)。因此,视频通信应用可以使用被动内容共享而不是活动内容共享。
[0007]某些依赖于多点控制单元(MCU)架构的视频通信系统,诸如那些使用通过整体引用合并于此处的 ITU-T Rec.H.323 标准“Packet-based multimedia communicationssystems(基于分组的多媒体通信系统)”的,也可以支持单内容流。通过整体引用合并于此处的 ITU-T Rec.H.239 “Role management and additional media channels forH.3xx-series terminals (H.3xx_系列终端的角色管理和附加媒体信道)”定义了机制,通过机制可以在单个H.323会话或呼叫中支持两个视频信道。第一信道用来运载參与者的视频,且第二个用来运载PC图形演示或视频。对于多点会议中的演示,H.239定义了令牌过程以保证仅会议中的ー个端点发送随后将分布给所有会议參与者的附加视频信道。
[0008]当连接了 H.323呼叫时,ITU-T Rec.H.245中定义的信令可以用来建立所有连接的端点和MCU的能力集。当能力集包括关于支持H.239演示的指示时,连接的端点可以选择打开附加视频信道。首先端点需要从MCU请求令牌。然后MCU可以检查当前是否存在另ー端点正在发送附加视频信道。MCU将使用令牌消息使此端点停止发送附加视频信道。然后MCU将确认来自第一端点的令牌请求,第一端点然后可以开始发送附加视频信道,作为示例这可以包含XGA分辨率的来自计算机视频输出的编码视频。对于两个端点直接互相连接而没有中间MCU的情况可以定义类似的过程。
[0009]某些用于传统式视频会议的视频通信系统涉及端点的每ー个的单个相机和单个显示。用于专用会议室的高端系统可以多个监视器为特征。第二监视器通常专用于内容共享。当没有使用这样的内容时,一个监视器可以最响亮的扬声器为特征而另ー个监视器展示余下參与者的ー些或全部。当只有一个监视器可用时,那么或者内容需要在视频之间切换,或者屏幕必须在二者之间划分。
[0010]在个人计算机(或平板机或其它通用计算设备)上运行的视频通信系统通常就如何显示视频和内容而言有更多灵活性,并还可以成为内容共享的源。事实上,计算机屏幕的任何部分都可以被指示为内容的源并被编码用于传输而无需关于底层软件应用的任何知识(“屏幕转储”,如由显示设备驱动器和操作系统软件所允许的)。固有的系统架构限制,诸如使用只允许两个流(一个视频和ー个内容)的!1.300-系列规范时,可以禁止另外可行的操作情景(多个视频流和多个内容流)。
[0011]所谓“遥现(tel印resence)”可以传达作为远程參与者“在同一房间中”的感觉。为了完成此目标,这些系统可以利用多个相机和多个显示。这些显示和相机定位在经仔细计算的位置以便能够给出目光接触的感觉。一些系统涉及三个显示——左、中间和右——不过只有两个或多于三个显示的配置也可用。
[0012]显示可以位于会议房间中经仔细选择的位置中。从会议房间桌子上的任何物理位置看向显示的每ー个应该给出远程參与者物理地位于该房间中的假象。这可以通过将人员的准确大小匹配为显示成如果他或她实际上存在于房间内所认为的位置中时该主体将会显示的期望的物理大小。一些系统甚至匹配家具、房间颜色和光线,以进一歩增强逼真的体验。
[0013]为了有效,遥现系统应该提供非常高的分辨率并以非常低的等待时间操作。例如,这些系统可以在高清晰度(HD)1080p/30分辨率操作,即1080水平线以每秒30帧扫描。为了消除等待时间和分组丢失,它们还使用专用的多兆比特网络并通常以点到点或交換配置(即避免代码转换)操作。
[0014]一些视频会议系统假定每个端点都配备了单相机,尽管它们可以配备几个显示。
[0015]例如,在双监视器系统中,活动扬声器可以显示在主要监视器中,而其他參与者展示在第二监视器中的较小窗ロ矩阵中。ー种称为“连续呈现(continuous presence)”的矩阵布局许可參与者连续地呈现在屏幕上而不是依据谁是活动发言者而在进和出中切換。在有大量參与者的会话中,当矩阵的大小耗尽(例如对于3x3矩阵有9个窗ロ)时则參与者可以基于最近活动音频策略而进入连续呈现矩阵或从中移除。在此情况中布局仍称为“连续呈現,,。
[0016]与连续呈现布局类似的配置是优选扬声器布局,其中ー个(或一小组)扬声器被指定为优选的并展示在比其他參与者大的窗ロ(例如,两倍大小)中。[0017]一个替换方式是使用第二监视器来显示内容(例如来自计算机的幻灯片演示)和使用主要监视器来展示參与者。于是主要监视器作为单监视器系统来对待。主要监视器也可以优选扬声器布局为特征。在此情况中,优选扬声器以更大的大小与多个其他參与者以较小的大小一起展示在主要监视器中,而内容展示在第二监视器中。
[0018]以多个相机为特征的遥现系统可以设计使得每个相机分配到它自己的解码器。于是有三个相机和三个屏幕的系统将使用三个单独的解码器来在每个端点执行编码和解码。这些解码器将使用专用信令或对现有协议的专用信令扩展来与远程站点上的三个对应解码器进行连接。
[0019]三个解码器通常标识为“左”、“右”和“中间”。在本文档中这样的位置參考是从系统用户的角度做出的;在此上下文中的左是正坐在相机前并正在使用系统的用户的左手边。例如立体的音频可以通过中间解码器来处理。在三个视频屏幕之外,遥现系统还可以包括第四屏幕以显示计算机相关的内容诸如演示。这可以称为“内容”或“数据”流。
[0020]图1描绘了市场上可购得的传统遥现系统(Polycom TPX306M)的架构。该系统以三个屏幕(等离子体或背面屏幕投影器)和三个HD相机为特征。每个HD相机与由HDX传统式(单流)视频会议系统提供的解码器配对。解码器之一标记为主要的。注意HD相机与解码器的对角线配对。这是为了提供正确的视点给远程站点上的查看者。
[0021]主要解码器负责音频处理。这里系统示为具有混合进由主要解码器编码的单个信号中的多个话筒。还存在第四屏幕以显示内容。整个系统由标记为控制器的特殊设备管理。为了建立与远程站点的连接,此系统执行三个单独的H.323呼叫,每个解码器ー个。这是因为现有的ITU-T标准不允许建立多相机呼叫。这个架构对使用基于标准的信令用于会话建立和控制的某些遥现产品是典型的。使用TIP协议将允许有单连接的系统操作,并将使多达4个视频流和4个音频流在两个RTP会话(一个用于音频和ー个用于视频)上运载成为可倉^:。
[0022]參考图1,内容由主要解码器处理(注意,内容显示连接到主要解码器)。主要解码器将使用札239信令来管理内容显示。传统、非遥现、双监视器的系统基本上以与遥现系统的主要解码器相同的方式配置。
[0023]与传统式视频会议系统比较遥现系统造成独特的挑战。一个挑战是这样的系统是否能够处理多个视频流。典型的视频会议系统仅处理单视频流,和可选地用于内容的附加“数据”流。甚至当多个參与者存在时,多点控制单元(MCU)负责将多个參与者合成进单帧中并将编码的帧发送给接收端点。某些系统用不同的方式解决这个问题。ー种方式是建立与存在的视频相机同样多的连接,例如对三相机系统建立三个单独的连接,并提供机制以正确地将这些单独的流作为ー个单元对待,即如同来自同一位置的。
[0024]第二种方式是使用现有信令协议的扩展,或使用新协议诸如遥现互操作协议(TIP)0当前TIP由国际多媒体通信协会(MTC)管理;规范可以通过地址美国加州SanRamon 的 Camino Ramon2400 号 375 单兀,邮编 94583 从 IMTC 获得或从网站 http://www.1mtc.0rg/tip获得。TIP允许多个音频和视频流在单RTP (实时协议,RFC3550)连接上传输。TIP通过使用专用的RTCP (实时控制协议,在RFC3550中作为RTP的一部分定义)消息启用同一 RTP会话中多达四个视频或音频流的复用。四个视频流可以用作多达三个视频流和ー个内容流。[0025]在传统式和遥现系统配置中,内容处理因此是简化的。MCU架构存在固有的限制,在于它的切換和代码转换配置。除了质量损失之外,代码转换配置还由于级联的解码和编码而产生延迟,并因此对于高质量体验是有问题的。另ー方面,切換可以变得尴尬,诸如当在有不同数量的屏幕的系统之间使用吋。
[0026]可缩放视频编码(SVC)——在某些数字视频应用中使用的周知的视频编码标准H.264的扩展——是已经证明为在交互式视频通信中有效的视频编码技木。比特流句法和解码过程在ITU-T推荐H.264并且特别是在附录G中正式定义。通过整体引用合并于此处的ITU-T Rec.H.264可以从瑞士日内瓦Place de Nationsll20国际电信联盟或从网站WWW.1tu.1nt获得。SVC分组以在RTP上传输是在通过整体引用合并于此处的RFC6190“RTPpayload format for Scalable Video Coding (用于可缩放视频编码的RTP载荷格式)”中定义的,这可以在网站http://www.1etf.0rg从因特网工程任务组(IETF)获得。
[0027]可缩放视频和音频编码已经通过使用所谓的可缩放视频编码服务器(SVCS)架构在视频和音频通信中使用。SVCS是ー种视频和音频通信服务器的类型并在都通过整体引用合并于此处的共同转让的美国专利第7,593,032号“System and Methods fora Comerence Server Architecture for Low Delay and Distriouted ConferencingApplications (用于低延迟和分布式会议应用的会议服务器架构的系统和方法)”和共同转让的国际专利申请第PCT/US06/62569号“System and Methods for Videoconferencingusing Scalable Video Coding and Compositing Scalable Video Servers (用于使用可缩放视频编码和合成可缩放视频服务器的视频会议的系统和方法)”中做了描述。它提供了允许有高健壮性和低延迟的高质量视频通信的架构。
[0028]全部通过整体引用合并于此处的共同转让的国际专利申请第PCT/US06/061815号‘‘Systems and methods for error resilience and random access in videocommunication system(用于视频通信系统中的错误恢复和随机存取的系统和方法)”、第 PCT/US07/63335 号“System and method for providing error resilience, randomaccess, and rate control in scalable video communication (用于提供可缩放视频通信中的错误恢复、随机存取和速率控制的系统和方法)”和第PCT/US08/50640号“ Improvedsystems and methods for error resilience in video communication systems、用チ视频通信系统中的错误恢复的改进的系统和方法)”还描述了用来在SVCS架构的使用中提供多个特征诸如错误恢复和速率控制的机制。
[0029]在一个示例中,SVCS操作包括从发送端点接收可缩放视频和选择性地将该视频的层转发给接收參与者。在多点配置中并与MCU相反,此示例性SVCS不执行解码/合成/重编码。相反,所有来自全部视频流的合适层都可以由SVCS发送给每个接收端点,并且每个接收端点自己负责执行用于最终显示的合成。注意,这意味着在SVCS系统架构中所有端点可以具有多流支持,因为来自每个发送端点的视频是作为单独的流发送给接收端点的。当然,不同的流可以在同一 RTP会话上传输(即复用),但端点应该被配置为接收多个视频流、解码并将它们组合以显示。对于基于SVC/SVCS的系统就处理多个流的灵活性而言这是重要的优点。
[0030]在使用SVC/SVCS架构的系统中,内容共享可以如下工作。在个人计算机上运行的端点应用的用户接ロ可以允许用户选择任何现有的应用窗ロ用干与其他參与者共享。当选择了这样的窗ロ时,它可以出现在其他用户的用户接ロ的可用“共享”列表中。为了在当前没有共享在窗ロ中示出时向他们提醒新共享,新介绍的共享可以在主应用窗口中以“优选视图”(即更大的视图)与会话參与者的视频一起(即与视频參与者相同的方式)示出。由于此视图的大小可以很小并在任何速率都小于典型应用窗ロ的大小,用户可以双击它使得它“弹出”到自己的窗ロ并因此允许用户自由地调整其大小。在有两个监视器的基于房间的系统中内容可以在自己的监视器中示出;如果只有一个监视器可用则屏幕可以在视频窗口和内容窗ロ之间划分。
[0031]当共享内容由參与者的ー个或多个查看时,源端点可以对内容编码并以与它处理任何其它视频源相同的方式发送内容。当然,视频编码和解码可以不同从而适应计算机生成的图像的特定特征,但从系统的角度内容流是与任何其它视频流一样对待的。注意,同一视频编码器也可以用于内容,但有不同的调谐和优化设置(例如,更低的帧速、有更精细量化的更高空间分辨率等)。系统可以支持每端点的多个内容共享。尽管对于终端用户而言具有多个活动内容共享可以是令人迷惑的,但系统架构可以支持。SVCS架构固有的多流支持使内容处理成为视频的自然扩展。
[0032]通过整体引用合并于此处的共同转让的国际专利申请第PCT/US11/038003号uSystems and Methods for Scalable Video Communication using Multiple Camerasand Multiple Monitors (用于使用多个相机和多个监视器的可缩放视频通信的系统和方法)”描述了用于使用有多个相机和多个监视器的可缩放视频编码的视频通信的系统和方法。在此情况中架构扩张为包括多个视频显示和可能地特定端点的多个源。
[0033]可以期望改进处理内容的方式,从而用户可以具有改进的与内容的交互而不会负面地増加实现的复杂性或彻底地改变底层系统架构。

【发明内容】

[0034]此处公开了用于视频通信系统中交互式内容共享的系统和方法。在本发明的ー个实施例中,端点处的用户可以捕捉特定的图片或视频或共享内容,并发起他自己的内容共享。在另ー实施例中,用户还可以在他或她自己的端点使用合适的软件注释所捕捉的图片,使得所注释的捕捉图片与其他会话參与者共享。在又一实施例中,注释软件可以允许終端用户保存所注释图片的不同版本,并选择将哪ー个与其他会话參与者共享。在另ー实施例中,交互式共享的触发可以是检测到内容屏幕或白板前面的用户。
【专利附图】

【附图说明】
[0035]图1示出了示例性商业遥现系统(现有技木)的架构;
[0036]图2根据本公开的主题的ー个或多个实施例示出了使用可缩放视频(和音频)编码的示例性音频和视频通信系统的架构;
[0037]图3根据本公开的主题的ー个或多个实施例描绘了示例性SVCS系统的架构和操作;
[0038]图4根据本公开的主题的ー个或多个实施例描绘了用于SVC编码的示例性空间和时间预测编码结构;
[0039]图5根据本公开的主题的ー个或多个实施例描绘了可缩放视频的空时层的示例性SVCS处理;
[0040]图6根据本公开的主题的ー个或多个实施例描绘了与内容窗ロ的对接、解除对接和选择相关联的用户接ロ;
[0041]图7根据本公开的主题的ー个或多个实施例描绘了有交互式内容共享节点単元的端点的架构;
[0042]图8根据本公开的主题的ー个或多个实施例描绘了示例性交互式内容共享系统;
[0043]图9根据本公开的主题的ー个或多个实施例描绘了“抓取”、“绘制”和共享的过程;
[0044]图10描绘了用于实现本公开的主题的ー个或多个实施例的示例性计算机系统。
[0045]除非另外说明,贯穿附图相同的附图标号和标记用来指示所示实施例的相同的特征、元件、组件或部分。而且,尽管现在将參考附图详细地描述所公开的主题,这是结合说明性实施例而进行的。
【具体实施方式】
[0046]本公开描述了协作系统。在本公开的ー个不例性实施例中,协作系统与使用H.264SVC并基于SVCS概念(參考之前引用的美国专利第7,593,032号)的视频通信系统集成。然而相同的协作系统也可以用在包括遥现系统的传统系统中。
[0047]图2根据示例性实施例描绘了SVCS系统的示例性系统架构200,其中ー个或多个服务器可以通过网络202向接收器201提供视频和音频流。图2示出两个这样的服务器,其中服务器1210提供流1,且服务器2220提供两个流,流2和流3。服务器1210和服务器2220可以是可缩放视频通信服务器(SVCS)系统和/或可缩放音频通信服务器(SACS)系统,这些系统将从其他參与者(诸如发送器221)接收的数据转发给接收器,或者他们可以是独立的媒体服务器(例如访问来自存储的内容)。注意,这里“參与者”也可以是只发送的系统,诸如仅执行编码的単元(例如编码并发送实况TV信号的系统)。尽管附图示出了単独的发送器和接收器,但系统可以同时执行这两个角色,即他们均可以发送并接收信息。
[0048]所公开的主题的ー个实施例使用了周知的市场上可购得的H.264标准用于对视频信号编码和Speex可缩放编解码器用于音频。Speex是开源音频压缩格式,规范在Speex网站http://www.speex.0rg可以获得。ー些流可以使用单层AVC编码,而ー些其它的可以使用其可缩放扩展SVC编码。类似地,ー些Speex音频流可以只包含窄带数据(8KHz),而其它的可以包含窄带及或単独地宽带(16KHz )或超宽带(32KHz )音频。可以使用替换性可缩放编解码器,诸如用于视频的MPEG-4/第2部分或H.263++,或用于音频的G.729.1 (EV)。网络202可以是任何基于分组的网络,例如基于IP的网络诸如因特网。
[0049]在示例性实施例中,接收器201和发送器221是运行软件应用的通用计算机,诸如PC或苹果计算机、台式机、膝上型计算机、平板机等。它们也可以是设计成只运行单个软件应用例如使用商业操作系统的嵌入式版本的专用计算机,或者甚至是分别设计成执行接收和发送应用的功能的独立设备。接收软件应用可以负责与服务器通信以建立连接以及接收、解码和显示或回放接收的视频、内容和/或音频流。发送应用,或对于既是发送器又是接收器的系统而言同一接收应用,也可以将它自己的编码视频、内容和/或音频流发送回给服务器。[0050]发送的流可以是对附连到发送器221的相机和话筒的输出的实时编码的结果,或者可以是存储在发送器221本地上或在从发送器221通过网络202可以访问或直接附连到它的文件服务器上的预编码的视频和音频。对于内容流,源材料可以是直接从计算机屏幕获得、通过中间模拟或数字格式(例如VGA)获得、或可以是由文档或其它相机生成的。如本领域技术人员会认识到的,获得视觉内容的其它方法也是可能的。
[0051]在一个实施例中,发送器221配备了连接的相机和话筒,并对生成的视频和音频信号编码并经由服务器2220通过流2发送给其他參与者。发送器221还生成类似地通过同一流2发送给服务器220的ー个或多个内容流。尽管示出了一个服务器存在于从发送器到接收器的路径中,但是可以存在多于ー个服务器是可能的。而且,尽管所有类型的内容都可以通过单个流发送(复用),但每种类型的内容通过它自己的流或实际上网络(例如有线的和无线的)发送也当然是可能的。
[0052]根据SVCS架构,接收器可以在其显示器上组合从服务器接收的编码的视频流(及任何内容流),并还混合和回放编码的音频流。注意,传统式多点视频服务器(诸如代码转换MCU)可以在其服务器上自己执行此功能,或者对所有接收參与者执行一次,或者对每个接收參与者单独执行。
[0053]服务器210和220的操作在图3中进ー步详述。图3描绘了示例系统300,包括三个发送參与者发送器1331、发送器2332和发送器3333,服务器(SVCS) 320和接收器310。具体配置只是示例;接收器可以同时是发送器且反之亦然。而且,可以存在更多或更少的发送器、接收器或服务器。
[0054]在所公开的主题的ー个实施例中,可缩放编码用于视频、内容和音频信号。视频和内容信号是使用有三层时间可缩放性和两层空间可缩放性,在基本层和增强层(例如VGA和QVGA)之间的水平或垂直图片维度之间比率为2的H.264SVC进行编码的。
[0055]发送器331、332和333的每ー个都可以连接到服务器320,通过服务器320它可以发送ー个或多个媒体流——音频、视频或内容。每个发送器331、332和333也可以具有与服务器320的信令连接(标记为“SIG”)。每个连接中的流的标记是根据:1)信号的类型,A表示音频,V表示视频,且C表示内容:以及2)姆个流中存在的层,B表示基本且E表示增強。在此特定示例中,从发送器1331发送到服务器320的流包括有基本层和增强层两者的音频流(“A/B+E”)和同样有基本层和增强层两者的视频流(“V/B+E”)。对于发送器3333,流包括只有基本层的音频和视频(“A/B”和“ V/B”),及有基本层和增强层两者的内容流(“C/B+E”)。
[0056]服务器320连接到接收器310,通过它来自可以由服务器320接收的不同流的不同层的分组被选择性地转发给接收器310。尽管可以存在服务器320和接收器310之间的单个连接,但本领域内的技术人员会认识到,不同的流可以通过不同的连接(包括不同类型的网络)发送。另外,不需要存在这种元件之间的直接连接(可以存在中间元件)
[0057]图3示出了从服务器320发送到接收器310的三个不同的流集(301、302、303)。在示例性实施例中,每个集对应于服务器320从相对应的发送器转发到接收器310的媒体和/或层的子集,并用每个发送器的标号标记。例如,集301可以包含来自发送器1331的层,并用标号I标记。标记也包括存在的特定层(或者虚线表示完全不存在的内容)。作为示例,集301标记为“1:A/B+E,V/B+E”以指示这些是来自发送器1331的流以及视频和音频都包括了基本层和增强层。类似地,集303标记为“3:A/-,V/B,C/B+E”以指示这是来自发送器3333的内容以及没有音频、视频只有基本层和内容既有基本层又有增强层。
[0058]继续參考图3,发送器331、332、333中的每ー个都可以使用基本层或基本层加增强层的组合发送零或更多的媒体(视频、音频、内容)到服务器320。层和媒体的特定选择取决于几个因素。例如,如果发送器不是活动扬声器则最好没有音频由它发送。类似地,如果參与者以低分辨率示出则可以不必发送该特定參与者的空间增强层。网络比特率的可用性也可以规定特定的层和媒体组合选择。这些和其它准则也可以由服务器320使用以便决定选择性地将哪些分组(对应于特定媒体的层)转发到接收器320。这些准则可以在接收器310和服务器320之间或服务器320和发送器331、332、333之一之间通过合适的信令(图3中的“SIG”)信道(例如304)通信。
[0059]本公开的主题的ー个实施例中的空时图片预测结构在图4中示出。字母“B”指定基本层图片而字母“S”指定空间增强层图片。字母旁边的数字指示时间层,0到2。也可以使用其它可缩放性结构,例如包括诸如同步广播(没有使用层间预測)的极端情況。类似地,音频信号以两层可缩放性编码,窄带(基本层)和宽带(增强层)。尽管在一些实施例中假定了可缩放编码,本公开的主题可以用在任何视频会议系统中,包括使用单层编码的传统系统。
[0060]图5示出了存在于图4的空时图片预测结构中的不同层如何可以由示例性实施例中的SVCS处理。图5示出了被发送给SVCS590具有图4的空时图片预测结构510的可缩放视频流。SVCS590可以连接到三个不同的端点(未示出)。三个端点就它们可以处理的图片分辨率和帧速而言可以具有不同的要求,并可以通过高分辨率/高帧速520、高分辨率/低帧速530和低分辨率/高帧速540配置来区分。图5示出了对于高分辨率/高帧速端点,系统发送所有层;此结构可以与在SVC590的输入处提供的结构相同。对于高分辨率/低帧速配置530,SVCS590已经移除了时间层2的图片(B2和S2)。最后,对于低分辨率/高帧速配置540,SVCS590已经移除了所有的“S”层(SO、SI和S2)。这只是示例,不同的配置和不同的选择准则当然也是可能的。
[0061]如之前提及的,SVCS系统架构是固有多流的,因为每个系统组件需要能够处理每种类型的多个流。显著地,视频的实际组合和音频混合通常在接收器处发生。參考图3,视频和内容和组合可以在接收器310处发生。该图描绘了附连到接收器310的单显示器312。在此特定示例中,系统使用其中来自发送器3333的内容流在较大的窗口中示出(标记为“3:C/B+E”以指示这是来自发送器3的内容并包括基本层和增强层)的“优选视图”布局来组合传入视频和内容流,而来自所有三个发送器(1、2和3 )的视频流在标记为“ 1: V/B ”、“2:V/B”、“3:V/B”的较小的窗口中示出,以指示只使用了基本层。
[0062]特定布局只是示例。例如在双监视器系统中,接收器310可以独立地在它的两个监视器之一中显示内容流,而在另一个监视器中示出视频窗ロ。通过整体引用合并于此处的共同转让的国际专利申请第PCT/US09/36701号“System and method for improvedview layout management in scalable video and audio communication systems (用于可缩放视频和音频通信系统中改进的视图布局管理的系统和方法)”描述了用于布局管理的附加系统和方法。之前引用的国际专利申请第PCT/US11/038003号“System andMethods for Scalable Video Communication using Multiple Cameras and MultipleMonitors (用于使用多个相机和多个监视器的可缩放视频通信的系统和方法)”描述了具体解决多监视器多相机系统的附加布局管理技木。
[0063]现在描述用于执行内容共享的过程的示例性实施例。具体地,描述了示例性系统,系统包括通过允许在个人计算机上运行的端点软件共享应用窗ロ的一个或多个来执行内容共享的能力。
[0064]图6示出了一个实施例中内容共享的过程。假定用户是有四个參与者的视频会议的一部分。在图6 (a)中示出了实现端点的软件的示例性用户接ロ。注意,示出了四个视频窗ロ,每个參与者ー个。现在假定參与者之一发起共享应用窗ロ,即当前运行在他或她的计算机上的应用的窗ロ。这可以通过按图6 (b)中由箭头指示的“共享”选择按钮来完成。按钮可以充当下拉菜单(图中未示出),列出所有当前由主计算机的操作系统报告为可用的窗ロ。当选择了这些窗ロ之ー用于共享时,共享可以被激活,且按钮可以从灰色转成绿色以指示共享是活动的。
[0065]当共享激活时,所有的參与者可以开始接收显示共享内容的附加内容窗ロ。这在图6(b)中示出,其中除了五个參与者之外,第六个窗ロ存在于中间较低位置示出应用窗ロ。从系统级别的观点来看,此内容通过系统的发送与音频或视频没有不同,尽管它的分辨率、帧速及编码和解码过程的细节当然可以是不同的。观察到内容窗ロ可能太小而不能查看字符和其它小尺寸的特征。示例性接ロ可以允许用户双击内容视图使得它“弹出”到自己的单独窗ロ,如图6 (c)中所示。这里内容视图在它自己的窗口中,并可以因此自由地单独调整大小,而主视频会议应用窗ロ只示出五个视频视图。
[0066]由于诸用户可以同时共享应用窗ロ并且用户可以实际共享多于一个的窗ロ,因此可以提供机制来选择用户想看到哪个共享。这可以在示例性系统中经由“切換(Toggle)”按钮来执行,如图6 (d)中所示。当被按时,按钮可以显示有包括使共享可用的用户的名字的可用共享列表的下拉菜単。最上面的条目可以是“无”,指示没有共享窗ロ将示出。
[0067]本公开可以称为“抓取和绘制”,因为从各种实施例的交互细节的描述中这将变得显而易见。
[0068]系统被设计为提供以下关键特征,以及其它:
[0069]i)通过允许与共享内容的动态交互遵循在真人会议中人们做什么;
[0070]ii)可与桌面视频会议解决方案互操作;
[0071]iii)可与传统系统互操作(可能通过网关设备)。
[0072]在本公开的主题的ー个实施例中,协作系统可以使用运行仅内容共享的视频会议客户端(即没有连接相机或话筒)的触摸屏一体(All-1n-0ne,A10)个人计算机。触摸屏显示器可以充当白板。在正常操作过程中可以用视频会议软件使用的正常方式示出会议的数据共享。如之前解释的,这可以通过在源參与者处对计算机屏幕的窗ロ编码并如同对常规视频流一祥分发给所有其他參与者来完成。在本公开的另一实施例中,内容共享窗ロ可以源自H.239客户端或任何其它视觉通信协议。也可能触摸屏上示出的图像是示出參与者中的一个或多个的常规视频流。
[0073]然而本公开中的触摸屏允许用户实际地走上来并触摸屏幕,然后“抓取”图像。当这样做时,系统将拍摄当前显示在共享窗口上的内容的快照,并创建新共享。在本公开的ー个实施例中,新共享在以白板应用为特征的窗口中示出,通过这样用户可以注释快照图像。在本公开的一个实施例中,白板注释可以涉及从调色板选择不同的颜色、在快照上绘制或清除所有注释。
[0074]白板开始与之交互的快照图像是之前由其他方共享的图像。包括任何注释的白板图像和任何其它窗口共享一样与其他会话参与者共享。
[0075]注意,在本公开的以上示例性实施例中,白板应用不以分布式的方式操作:只有执行了“抓取”的用户在注释白板上的图像。而且,和他们接收任何其它共享一样所有其他参与者从白板接收注释的图像。换言之,他们不需要任何特殊或附加的软件,并且实际上,即使没有配备改进的内容共享能力的系统也可以显示注释的白板而没有问题(向后兼容)。
[0076]接收白板图像并配备了 “抓取和绘制”的改进的内容共享能力的其他用户将能够自己“抓取”图像,并独立地添加内容。
[0077]在本公开的一些实施例中“抓取”操作可以经由触摸屏执行,而在其它实施例中可以经由合适的定点设备(诸如鼠标)来执行。其它用户接口控制设备可以如对本领域技术人员显而易见地使用,包括平板机、触摸垫、3D定点设备等。
[0078]本公开有视频通信系统的现有组件不受改进的内容共享能力影响的益处。因此设计提供对现有系统的向后兼容。
[0079]与分布式解决方案相反,在本公开中应用不需要将远程鼠标和键盘命令发送给远程应用。这样的应用倾向于非交互式(由于高等待时间)并且难以使用。在本公开中白板应用上的绘制操作是本地执行的。
[0080]在本公开的一些实施例中绘制操作执行于其上的设备可以不是视频通信的其余部分发生于其中的同一设备。这会是多相机/多监视器系统中以控制单元和一个或多个节点单元为特征的情况,如之前引用的共同转让的国际专利申请第PCT/US11/038003号中所描述的。改进的交互式内容共享应用可以是配备了合适的定点设备(诸如鼠标)或内置定点设备(诸如触摸屏)的节点单元。稍后更详细的描述控制单元和节点单元。
[0081]在本公开的一些实施例中端点可以修改为一旦用户“抓取” 了图像就启用所有端点上的“受迫共享”。在此情况中所有用户被迫查看特定共享,如源自内容共享端点通过服务器给接收端点的适当信令所指令的。
[0082]在本公开的一些实施例中,可以应用“抓取和绘制”概念使得触发(“抓取”)是用户姿势而不是点击“抓取”按钮。例如,相机可以聚焦于白板区域,并且当检测到有人在白板上写时系统可以执行视频切换到该相机使得它的内容被选择用于发送到其他参与者。在此情况中“抓取”动作是用户在白板前面的存在。
[0083]现在描述基于在国际专利第PCT/US11/038003号(之前引用的)中公开的多监视器/多相机架构的本公开的实施例。对本领域技术人员显而易见的是,有一个或两个监视器和少量相机的较简单架构中的操作可以通过将功能集成进单个系统组件中用相同或类似的方式执行。
[0084]在本公开的此实施例中,假定遵循H.264SVC规范(之前引用的)使用了可缩放视频(及可选地音频)编码。对于音频假定使用了 Speex音频编码。
[0085]本公开不要求视频编码是可缩放的。对本领域技术人员显而易见的是,可以使用任何视频或音频编码技术,包括单层、同步广播或甚至多描述编码。SVCS的使用使端点中的个别流的处理更简单。[0086]图7根据本公开的主题的一些实施例描绘了配备交互式内容共享的端点700的结构。该图示出了由控制单元770和一组节点750和760构成的端点700。端点可以包括任何数量的节点;在图中示出了 N个节点。根据本公开的原则,第N个节点示为称作“内容共享节点”的特殊类型节点。为了说明的目的示出了单个这样的节点;实际上任何数量的节点可以是内容共享节点。每个节点750包括节点单元755,节点单元755可以连接到监视器720、可选地相机710和可选地音频设备730 (话筒、扬声器、或二者的组合,或者单声道或者立体的)。这些以下称为“外围设备”。节点单元750和760可以连接到控制单元770,控制单元770是端点700的操作控制中心。控制单元可以与SVCS和管理服务器(诸如门户)通信。端点700还可以具有与控制单元770通信并允许操作员做系统选择或设置的控制面板780。例如控制面板780可以是在苹果iPad设备上运行的应用。
[0087]节点760因为它包括触摸屏766而不是常规监视器720而示为特殊节点。触摸屏766既经由视频连接764与它的节点单元连接,又还具有提供关于触摸屏状态的信息的第二连接762。第二连接762可以是USB连接或蓝牙连接,或任何其它合适的连接。在本公开的一些实施例中,内容共享节点单元可以具有常规监视器(诸如监视器720)并配备定点设备(诸如鼠标)。对本领域技术人员显而易见的是,获得用户交互的替换机制也是可能的。
[0088]端点700像常规端点一样参与视频通信会话,如也在国际专利申请第PCT/US11/038003号(之前引用的)中描述的。触摸屏766允许用户触摸屏幕上的点(例如“抓取”按钮)并因此指令系统“抓取”当前屏幕上示出的图像的快照。图像自动成为与内容共享节点760相关联的节点单元765开始与其他参与者共享的内容,如任何其它共享内容一样。在本公开的一个实施例中,节点单元765还运行允许用户选择绘制颜色并然后在“抓取”的内容上绘制线条的软件。运行在节点单元765上的软件还可以包括“清除”按钮以清除所有的注释并重置绘制过程。如国际专利申请第PCT/US11/038003号(之前引用的)中所解释的,节点单元可以实际上与端点的控制单元集成在单个设备中。
[0089]端点700在完整系统的上下文中的操作在图8中描绘。该图示出了互连多个不同类型端点的示例性SVCS810。尽管示出了单个SVCS810,应注意,一般由于级联可以在诸SVCS之间使用(即在从一个端点到另一个的路径中可以有多于一个的SVCS)多于一个的SVCS可以与连接相关联。SVCS的级联与本公开的主题兼容。
[0090]继续参考图8,该图示出了配备内容节点单元820CO的端点1820。还存在以多个相机和多个监视器为特征的端点2822。还存在可以是典型单编码器视频会议的房间系统824端点,和桌面826端点,桌面826端点是用软件实现并运行在通用计算机上的端点。最后,存在用来互连传统系统880的网关828设备,传统系统880可以不支持SVCS的操作。
[0091]传统系统880可以是房间系统、桌面软件系统或事实上传统MCU。网关828在其SVC连接中如常规SVC端点一样操作并在其传统连接中如传统端点一样操作;它适当地执行音频和视频的代码转换,并还在其每一边使用合适的信令。例如,它可以使用H.323与传统系统880通信和使用可能专用的另一协议与SVCS810通信,并对视频在H.264SVC和
H.263之间代码转换和对音频在Speex和G.722之间代码转换。
[0092]端点和网关的特定选择仅为了说明的目的而使用;可以使用任何数量的端点及任何数量的传统端点或网关,如对本领域技术人员显而易见的。
[0093]在本公开的一个实施例中,图8中示出的系统中的“抓取和绘制”操作如下。操作端点1820的用户(或诸用户之一)前进到内容共享节点单元820co并触摸触摸屏附连到内容共享节点单元820co的按钮。屏幕中示出的图像被“抓取”或捕捉,并自动成为源自端点1820的内容共享。用户被示以允许在触摸屏上绘制的附加图形用户接口元件。这样在捕捉的图片上绘制的效果被发送给所有其他参与者,如任何其它共享内容上的视觉更新会做的。操作类似于共享Microsoft Word窗口——任何由窗口上的Word执行的变更被发送(确切而言,该窗口的编码图像被发送)给其他用户。
[0094]内容共享可以由端点1820经由SVCS810发送给其他参与者。与SVC/SVCS架构兼容的参与者可以直接显示共享内容。其它端点诸如传统系统880可以经由网关828接收这样的内容。网关828可以作为附加视频参与者提供这样的内容,或者可以使用诸如H.239之类的协议来指示该流对应于共享内容。
[0095]根据本公开的一个实施例抓取、绘制和共享的过程在图9中进一步说明。图9(a)示出了显示来自一些参与者的共享内容920的触摸屏监视器910。示给用户的用户接口包括抓取按钮925。当用户点击抓取按钮925 (直接通过触摸屏接口或通过一些其它合适的定点设备)时当前显示的图像被“抓取”或捕捉,并静态地显示(不需要由原始共享内容的远程参与者驱动)。然后用户接口移除抓取按钮925并如图9 (b)所示替代显示光标935、颜色选择按钮930和清除按钮932 (标记为“CLR”)。然后用户接口允许用户在屏幕上绘制。图9 (c)示出一示例,其中用户已经绘制了椭圆注释940,推测是为了突出显示在监视器上示出的图的一些特征。注意,远程用户只看见捕捉(“抓取”)的图像及可以被绘制的任何注释,如图9 (d)所示。换言之,用户接口元件只示给执行注释的用户。
[0096]以上所描述的用于使用多个相机和多个监视器的可缩放视频通信的方法可以实现为使用计算机可读指令并物理地存储在计算机可读介质中的计算机软件。计算机软件可以使用任何合适的计算机语言编码。软件指令可以在各种类型的计算机上执行。例如,图10示出了适用于实现本公开的实施例的计算机系统1000。
[0097]图10中示出的计算机系统1000的组件在本质上是示例性的,并且不旨在对实现本公开的实施例的计算机软件的使用或功能的范围提出任何限制。也不应将该组件的配置解释为对示例性实施例中示出的计算机系统的任一组件或其组合有任何依赖性或要求。计算机系统1000可以具有许多物理形式,包括集成电路、印刷电路板、小型手持式设备(诸如移动电话或PDA)、个人计算机或超级计算机。
[0098]计算机系统1000包括显示器1032、一个或多个输入设备1033(例如小键盘、键盘、鼠标、指不笔等)、一个或多个输出设备1034(例如扬声器)、一个和多个存储设备1035、各种类型的存储介质1036。
[0099]系统总线1040链接各种子系统。如本领域技术人员所理解的,“总线”指提供公共功能的多种数字信号线。系统总线1040可以是几种类型的总线结构中的任一种,包括存储器总线、外围总线、以及使用各种总线架构中的任一种的局部总线。作为示例而非限制,这样的架构包括工业标准架构(ISA)总线、增强型ISA (EISA)总线、微通道架构(MCA)总线、视频电子标准协会局部总线(VLB)、外围组件互连(PCI)总线、快速PCI总线(PC1-X)和加速图形端口(AGP)总线。
[0100]处理器1001 (也称为中央处理单元或CPU)可选地包含用于临时本地存储指令、数据或计算机地址的高速缓存存储器单元1002。处理器1001耦合到包括存储器1003的存储设备。存储器1003包括随机存取存储器(RAM) 1004和只读存储器(ROM) 1005。如本领域内周知的,R0M1005用于将数据和指令单向地传输给处理器1001,且RAM1004通常用来以双向方式传输数据和指令。这些类型的存储器都可以包括以下任何合适的所描述的计算机可读介质。
[0101]固定存储1008也双向耦合到处理器1001,可选地经由存储控制单元1007。它提供附加数据存储能力并还可以包括任何以下所描述的计算机可读介质。存储1008可以用来存储操作系统1009、可执行文件(EXEC) 1010、应用程序1012、数据1011等等,并通常是比主存储慢的次存储介质(诸如硬盘)。应理解,在合适的情况下存储1008中保留的信息可以如存储器1003中的虚拟存储器合并进标准方式。
[0102]处理器1001还耦合到各种接口,诸如图形控制1021、视频接口 1022、输入接口1023、输出接口 1024、存储接口 1025,并且这些接口进而耦合到合适的设备。一般地,输入/输出设备可以是任一种:视频显示、跟踪球、鼠标、键盘、话筒、触敏显示、传感器读卡器、磁或纸带读取器、平板机、指示笔、语音或手写识别器、生物测定读取器或其它计算机。处理器1001可以耦合到另一计算机或使用网络接口 1020耦合到电信网络1030。有了这样的网络接口 1020,可以构想CPU1001在执行以上描述的方法的过程中可以从网络1030接收信息,或可以输出信息到网络。而且,本公开的方法实施例可以单在CPU1001上执行,或可以在网络1030诸如因特网结合共享过程的一部分的远程CPU1001上执行,
[0103]根据各种实施例,当在网络环境中时,即当计算机系统1000连接到网络1030时,计算机系统1000可以与也连接到网络1030的其它设备通信。通信可以经由网络接口 1020从计算机系统1000发送或发送到计算机系统1000。例如,一个或多个分组形式的传入通信,诸如来自另一设备的请求或响应,可以在网络接口 1020从网络1030接收并存储在存储器1003的所选的区中用于处理。也是一个或多个分组形式的传出通信,诸如给另一设备的请求或响应,也可以存储在存储器1003的所选的区中并在网络接口 1020发送出去给网络1030。处理器1001可以访问这些存储在存储器1003中用于处理的通信分组。
[0104]另外,本公开的实施例还涉及有计算机可读介质的计算机存储产品,计算机可读介质其上有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是那些为了本公开的目的特别设计和构造的,或可以是在计算机软件领域中的技术人员周知和可用的类型。计算机可读介质的示例包括但不限于:磁介质诸如硬盘、软盘和磁带;光学介质诸如⑶-ROM和全息设备;磁光介质诸如光盘;和特别配置为存储和执行程序代码的硬件设备,诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)及ROM和RAM设备。计算机代码的示例包括机器代码诸如由编译器生成的,和包含由计算机使用解释器执行的更高级代码的文件。本领域技术人员还应理解,如结合本公开主题所使用的术语“计算机可读介质”不涵盖传输介质、载波或其它瞬态信号。
[0105]作为示例而非限制的方式,具有架构1000的计算机系统可以提供功能作为处理器1001执行体现在一个或多个有形的计算机可读介质诸如存储器1003中的软件的结果。实现本公开的各种实施例的软件可以存储在存储器1003中并由处理器1001执行。根据特定需求计算机可读介质可以包括一个或多个存储器设备。存储器1003可以从一个或多个其它计算机可读介质诸如大容量存储设备1035或经由通信接口从一个或多个其它源读取软件。软件可以导致处理器1001执行此处所描述的特定过程或特定过程的特定部分,包括定义存储在存储器1003中的数据结构和根据由软件定义的过程修改这些数据结构。作为补充或替换,计算机系统可以提供功能作为硬连线或另外体现在电路中的逻辑的结果,逻辑可以在软件的位置中或与软件一起执行此处所描述的特定过程或特定过程的特定部分。当合适的时候,对软件的引用可以涵盖逻辑,并且反之亦然。当合适的时候,对计算机可读介质的引用可以涵盖存储用于执行的软件的电路(诸如集成电路(1C))、体现用于执行的逻辑的电路、或二者。本公开涵盖任何合适的硬件和软件的组合。
[0106]尽管本公开描述了数个示例性实施例,但落入本公开主题的范围的更改、排列和各种替换性等价方案是存在的。因此应理解,本领域技术人员将能够设想许多尽管此处没有显式地示出或描述但体现本公开主题的原则并因此在其精神和范围之内的系统和方法。
【权利要求】
1.一种用于在至少第一和第二端点之间通过通信网络交互式地共享和注释视觉信息的系统,所述系统包括: 耦合到所述第一端点的显示器;以及 耦合到所述第一端点并与所述显示器相关联的用户交互设备; 其中所述第一端点被配置为: 通过所述通信网络从至少所述第二端点接收视觉信息并发送视觉信息给至少所述第ニ端点; 在所述显示器上示出从至少所述第二端点接收的视觉信息; 当由所述用户交互设备指令时获得在所述显示器上示出的所述视觉信息的副本; 如果有的话,按所述用户交互设备所指示地添加注释;以及 将所述注释副本发送给所述第二端点。
2.如权利要求1所述的系统,其特征在于,所述用户交互设备包括人位置检测设备。
3.如权利要求1所述的系统,其特征在于,所述视觉信息用压缩数字视频格式编码。
4.如权利要求1所述的系统,其特征在于,还包括耦合到所述通信网络的服务器,通过服务器所述第一端点和第二端点互相通信。
5.如权利要求1所述的系统,其特征在于,所述第一端点还被配置为发送信息给所述第二端点以显示所发送的视觉信息的注释副本。
6.ー种用于通过通信网络交互式地共享和注释视觉信息的方法,所述方法包括步骤: 在第一端点,通过所述通信网络从第二端点接收视觉信息或发送视觉信息给第二端点; 在所述第一端点,显示从所述第二端点接收的视觉信息; 在接收了耦合到所述第一端点的用户交互设备的指令之后, 获得所述视觉信息的副本, 按所述用户交互设备所指示地添加任何注释,以及 将所述视觉信息的注释副本发送给所述第二端点。
7.如权利要求6所述的方法,其特征在于,还包括由所述用户交互设备检测人的位置。
8.如权利要求6所述的方法,其特征在于,还包括用数字视频编码格式压缩所述视觉信息。
9.如权利要求6所述的方法,其特征在干,从所述第二端点接收或发送给所述第二端点的所述视觉信息通过服务器传递。
10.一种非瞬态计算机可读介质,所述介质包括用于指导处理器执行权利要求6-9之一的方法的ー组指令。
【文档编号】G06F17/00GK103597468SQ201280028041
【公开日】2014年2月19日 申请日期:2012年6月8日 优先权日:2011年6月8日
【发明者】A·埃莱夫塞里埃兹, O·夏皮罗, R·沙伦 申请人:维德约股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1