可缩放视频和音频通信系统中的改进视图布局管理的制作方法

文档序号:7735313阅读:398来源:国知局
专利名称:可缩放视频和音频通信系统中的改进视图布局管理的制作方法
可缩放视频和音频通信系统中的改进视图布局管理相关申请的交叉引用本申请要求2008年6月9日提交的题为“用于可缩放视频和音频通信系统中 的改进视图布局管理的系统和方法(System and Method for ImprovedView Layout Management in Scalable Video and Audio CommunicationSystems),,的美国临时申请 No. 61/060,072 的优先权。本申请与共同受让的题为“用于使用可缩放视频编码的可缩放和低延迟视频会 议的系统禾口方法(System and Method for Scalable and Low-DelayVideoconferencing Using Scalable Video Coding) ” 的国际专利申请 No. PCT/US06/028365 以及题为“用 于使用可缩放视频编码的视频会议和组合可缩放视频会议服务器的系统和方法(System and Method forVideoconferencing Using Scalable Video Coding and Compositing ScalableVideo Conferencing Servers) ”的PCT/US06/62569相关,上述申请通过引用整体 结合于此。领域本申请涉及视频通信系统。具体而言,本发明涉及用于管理一个或多个显示器上 的不同的可缩放视频源的多个视图的布局。
背景技术
存在其中可在一个或多个视频显示器上呈现多个视频视图的若干应用。一个示例 是多点视频会议系统,其中一个或多个视频流到达接收器,并且必须在公共的显示器上呈 现。出于该目的,高端视频会议系统实际上可采用两个或更多个显示器。随着参与者数量增 加,在给定显示区域上填充所有视频窗口变得不可能。同时,如果该显示器是计算机的显示 器,则它可能由其它应用程序共享,因此用户可能将该视频会议应用程序窗口限制至计算 机屏幕的子集。另一示例是视频监视应用,其中来自多个摄像机的馈送可到达控制站处, 在控制站处这些馈送必须在一个或多个物理显示器设备(计算机或TV监视器)中显示。另 一应用是多节目电视,其中单个设备同时显示多个节目。此外,随着视频编程在因特网上越 来越多地出现,创建提供与模拟或数字TV的传统画中画模式相似的功能但具有较大视图 集的播放器是容易的。多个视图在给定屏幕上的组织典型地遵循矩形网格组织模式来执行。例如,在四 个相同大小的馈送的情况下,可将屏幕划分成较小视图或窗口的2X2矩形阵列,并在每个 馈送自己的窗口中显示每个馈送。典型地,较小视图包含原始馈送的按比例缩小版本,因此 它们能放在所分配的屏幕区域内。在诸如视频会议的常规应用中,还常常在较大视图(例 如占据屏幕的一个角落)中显示活动发言人,同时在该主视图周围该主视图侧面的较小视 图中显示其它参与者。在使用代码转换多点控制单元(MCU)的传统视频会议系统中,各个馈送的合成在 MCU自身处进行。MCU接收来自发送参与者的传入馈送、将它们解码、然后在适当缩小之后 将它们合成为新的帧。然后MCU将经合成信号编码,并发送至预期的接收者。如果MCU支持个性化布局,则合成和编码可针对每个接收者单独地进行。给定的参与者选择所需布局, 并通知MCU以使其产生所需合成。合成选项是在MCU处预配置的,从而对可用模式的任何 改变需要其重新设计或重新编程。在视频播放器接收和显示多个视频源(很可能也来自不同位置)的一般设定中, 播放器负责将各个视频画面按比例缩小和合成为所显示的图像。这为播放器提供以其选择 的任何方式组织布局的灵活性,但也导致作为各个源的比特率总和的总比特率要求。反之, 在利用代码转换MCU的视频会议设定中,所接收的合成信号的比特率是单个视频源的比特 率。然而,应注意,MCU解码并重新编码视频流的需要增加了相当长的等待时间,而且需要 大量计算功率。在以多视频视图为特征的系统中解决灵活性、复杂度以及比特率开销之间的折衷 时的基本限制在于此类系统典型地利用传统的单层视频编码解码器,诸如H. 264AVC.VC-U MPEG-4、MPEG-2以及VP6/VP7的事实。替代的编码技术是分层或可缩放编码。可缩放编 码被用于产生两个或更多个“缩放”比特流,这两个或更多个“缩放”比特流以带宽高效的 方式在相应数量的保真点处共同表示给定媒体。可缩放性可按照多个不同维度来提供。例 如,视频信号可在不同层中以CIF和QCIF分辨率、且以7. 5、15以及30帧每秒(fps)的帧 率被可缩放编码。取决于编码解码器的结构,空间分辨率和帧率的任何组合可从编码比特 流中获得。与不同层相对应的比特可作为单独的比特流发送(例如每层一个比特流),或它 们可被一起多路复用成一个或多个比特流。为便于在此描述,与给定层相对应的编码比特 也可被称为该层的比特流,即使在多个层被复用成单个比特流并发送的情况下也如此。特别设计用于提供可缩放性特征的视频编码解码器包括例如MPEG-2(IS0/IEC 13818-2,也称为ITU-T H. 262)以及近来开发的H. 264可缩放视频编码(H. 264 SVC)扩展 (2007年11月的ITU-T推荐H. 264的附录G,通过引用整体结合于此)。可缩放音频编码解 码器包括 ITU-T G. 729. 1 和 Speex (参见 www. speex. org)。特别设计用于视频通信的可缩放视频编码(SVC)技术也在共同受让的题为“利用 可缩放视频编码的用于可缩放和低延迟的视频会议的系统和方法(System and Method for Scalable and Low-Delay VideoconferencingUsing Scalable Video Coding),,的国际专 利申请No. PCT/US06/028365中进行了描述。注意,即使并非特别设计成可缩放的编码解码 器也能在时间维度上呈现可缩放性特性(例如MPEG-2或H. 264AVC)。可缩放编码解码器典型地具有金字塔比特流结构。以HJ64SVC为例,通过利用标 准!1.264技术(高级视频编码4¥0对源进行编码而获得第一保真点。通过对所得的编码 误差(原始信号与第一保真点的解码版本之间的差别)进行编码并在该编码误差自身的比 特流中发送该编码误差,可获得附加的保真点。该金字塔结构是非常常见的(例如,曾用于 MPEG-2和MPEG-4)。第一(最低)保真水平比特流被称为基本层,而提供附加保真点的比 特流被称为增强层。该保真增强可以在任何保真维度中进行。例如,对于视频而言,它可以 是时间(帧率)、质量(信噪比或SNI )、空间(画面大小)或3-D (例如具有立体增强层)。 对于音频而言,它可以是时间(每秒样本数)、质量(SNR)或附加声道。可缩放或分层表示的另一示例是多描述编码。这里,该构造不是金字塔形的每层 独立可解码,并提供基本保真水平的表示;然而,如果一个以上层对解码器可用,则可提供 原始信号的较高保真水平的解码表示。一个示例是将视频信号的奇数和偶数画面作为两个独立的比特流来发送。每个比特流单独提供第一保真水平,而从其它比特流接收的任何信 息可被用于增强该第一保真水平。按照这种观念,任一个流可充当基本层。如果接收了所 有流,则获得由特定表示所提供的原始信号的最高质量水平的完整表示。分层表示的另一示例是多播。在该情况下,原始信号的两个或更多个独立表示在 它们自身的比特流中被编码并发送。例如,这通常被用于发送标准清晰度TV素材和高清晰 度TV素材。注意,多播是其中未使用层间预测的金字塔形可缩放编码的特殊情况。在下文 中,所有此类分层编码技术被称为可缩放编码,除非明确地另外指明。可缩放编码为基于分组的视频和音频通信提供重要的优点,包括延迟减少、复杂 度降低以及系统可缩放性改进。国际专利申请NO.PCT/US06/028365公开了其中可缩放视频通信服务器(“SVCS”) (或在可缩放音频信号的情况下为可缩放音频通信服务器(“SACS”))可利用音频信号的 可缩放方面通过为活动发言人发送全清晰度信号并为多个其它参与者发送基本层(例如 通过计算得出的音量来确定优先级)来确保发言人之间的平滑过渡。例如,标准的基于PC的硬件平台上主存的SVCS单元可支持100个或更多个用户。 有效地主存与大量用户会话的能力给视图布局管理带来了挑战,因为例如在10-15个以上 用户的情况下难以在单个显示器上有效地组合所有用户。所公开的主题给出了用于高效地 管理此类系统中的视图布局的系统和方法。

发明内容
所公开的主题利用可缩放编码,并提供用于管理多个视频视图的布局的技术,从 而向终端用户提供就屏幕大小、长宽比以及所包括的视图数量而言完全的灵活性,同时降 低比特率要求。所公开的主题还提供用于利用用户偏好和可由服务器提供或在接收器本地 计算的辅助数据的组合来使多个视频视图的布局自动化的技术。所公开的主题的各个实施例包括用于经由通信网络传送多个视频信号以及可能 存在的相关联音频信号以呈现给一个或多个终端用户的视听通信系统,其中视频信号被可 缩放地编码成包括基本层和一个或多个增强层的多个层。接收器接收多个视频和任何相关 联的音频信号、基于一组标准确定所显示视频信号的布局、并传达与所确定布局有关的信 息。显示器利用所确定的布局显示所接收的一个或多个视频信号。一个或多个服务器经由 该通信网络接收与所确定的布局有关的信息,并发送多个视频和任何相关联的音频信号。 一个或多个服务器被配置成针对多个视频信号中的每一个选择性地传送用于以所确定的 布局显示视频信号所必需的基本层或基本层和一个或多个增强层。在所公开主题的一些实施例中,音频信号被可缩放地编码成包括基本层和一个或 多个增强层的多个层,其中一个或多个服务器选择性地仅发送所确定的布局所必需的音频 信号层的数据。在所公开主题的一些实施例中,一个或多个服务器通过使用每个相关联音频信 号的音频活动指示符以及关联视频信号是否在所确定的布局中显示的指示来确定哪些音 频信号被选择性地发送,以使具有最高活动性的一个或多个音频信号的音频信号数据被发 送,且与在所确定布局中显示的一个或多个视频信号相关联的音频信号数据被发送,以及 与余下视频信号相关联的音频信号数据不被发送。
所公开主题的各个实施例包括一种用于经由通信网络传送被可缩放地编码成包 括基本层和一个或多个增强层的多个视频信号以及可能存在的关联音频信号以向一个或 多个终端用户呈现的方法,该方法包括基于一组标准确定显示多个视频信号的布局、传达 与所确定布局有关的信息、选择性地仅传送以所确定布局显示视频信号所必需的视频信号 层以及任何关联音频信号的数据、接收选择性传送的数据以及利用所确定的布局显示多 个视频信号。所公开主题的各个实施例还包括一种用于呈现经由通信网络从一个或多个服务 器接收的多个视频信号以及可能存在的关联音频信号的系统,其中视频信号被可缩放地编 码成包括基本层和一个或多个增强层的多个层。接收器从通信网络接收多个视频和任何关 联的音频信号、基于一组标准确定显示一个或多个所接收视频信号的布局、并经由通信网 络传达所确定布局作为反馈,该反馈包括选择性传送可能存在的所确定布局的视频信号层 的指令。连接至接收器的显示器利用所确定的布局显示所接收的一个或多个视频信号。所公开主题的各个实施例还包括一种用于传送多个视频信号以及一个或多个关 联音频信号的系统,其中视频信号被可缩放地编码成包括基本层和一个或多个增强层的多 个层。一个或多个服务器接收用于选择性地传送与所确定布局相对应的视频信号层,并选 择性地仅传送以所确定布局显示视频信号所必需的视频信号层的数据的指令。附图简述

图1是示出根据所公开主题的原理的从一个或多个服务器向接收器递送多个可 缩放视频和音频流的示例性音频和视频通信系统的一般体系结构的框图;图2是示出使用代码转换MCU作为服务器的音频和视频会议系统的框图;图3是示出根据所公开主题的原理的音频和视频通信系统的体系结构的框图,该 系统使用可缩放视频和音频编码,并经由SVCS/SACS服务器向接收器递送多个音频和视频 流,且其中这些流在接收器上被合成/混合;图4 (a) - (g)描绘根据所公开主题的原理的示例性标准模式矩形视图;图5(a)_(b)是示出根据所公开主题的原理的用于计算交错矩形布局和矩阵矩形 布局的视图扩展的参数的示图;图6(a)_(c)描绘根据所公开主题的原理的示例性标准模式和放大模式六边形 (包括旋转六边形)布局;图7是示出根据所公开主题的原理的用于展示(旋转)六边形布局相对于矩形矩 阵和交错布局的下视图扩展的参数的示图;图8 (a)-(d)描绘根据所公开主题的原理的示例性放大模式矩形视图;图9(a)_(c)描绘根据所公开主题的原理的利用交错矩形和六边形视图的放大模 式和包括凹入放大视图的六边形视图的示例性组合;图10描绘根据所公开主题的原理的接收器处的视频会议应用程序的示例性用户 界面,其包括被切换至标准模式布局视图的布局选择按钮和预览按钮;图11描绘根据所公开主题的原理的接收器处的视频会议应用程序的示例性用户 界面,其包括被切换至放大模式布局视图的布局选择按钮;图12描绘根据所公开主题的原理的接收器处的视频会议应用程序的示例性用户 界面,其包括用于选择要在屏幕上显示的视图数量和选择自动视图确定模式的下拉菜单;
图13(a)_(b)描绘根据所公开主题的原理的示例布局表条目及其相应的映射;图14描绘根据所公开主题的原理的目标屏幕尺寸上的布局的大小调整和定位;图15描绘根据所公开主题的原理的布局选择过程的框图;图16描绘根据所公开主题的原理的视图分配过程的布局重新处理部分的框图;图17描绘根据所公开主题的原理的视图分配过程的布局初始化部分的框图;以 及图18(a)_(b)描绘根据所公开主题的原理的被组合在布局中的具有不同长宽比 的视图流的裁切和手动扫视。除非另外指明,否则全部附图中的相同附图标记和符号用来表示所示实施例的相 同特征、元素、组件、或部分。而且,当现在将参考附图详细描述所公开的主题时,这一描述 是结合说明性实施例来完成的。详细描述图1描绘根据一示例性实施例的系统体系结构100,其中一个或多个服务器经由 网络102向接收器101提供视频和音频流。图1示出两个此类服务器,其中服务器1提供 流1,而服务器2提供两个流——流2和流3。服务器1和服务器2可以是可缩放视频通信 服务器(SVCS)系统和/或可缩放音频通信服务器(SACS)系统,它们将从其它参与者(未 在附图中示出)接收的数据转发至接收器,或它们可以是独立的媒体服务器(例如从存储 体访问内容)。注意,此处的“参与者”也可以是仅发送系统,诸如仅执行编码的单元(例如 编码和发送直播TV信号的系统)。示例性实施例使用公知的用于编码视频信号的商用H. 264标准和用于音频的 Speex可缩放编码解码器(参见web站点誦.speex. org)。一些流可利用单层AVC来编码, 而另一些流可利用其可缩放扩展SVC来编码。类似地,一些Speex音频流可仅包含窄带数 据(8KHz),而其它Speex音频流可包含窄带以及分别包含宽带(16KHz)或超宽带(32KHz) 音频。可使用替代的可缩放编码解码器,诸如MPEG-4/部分2,或用于视频的H. 263++或用 于音频的G. 729. I(EV)。该网络可以是任何基于分组的网络;例如基于IP的网络,诸如因特网。在示例性实施例中,接收器是诸如PC或苹果计算机、台式机或膝上计算机的运行 软件应用程序的通用计算机。接收器还可以是被设计成例如利用商用操作系统的嵌入式版 本来仅运行单个软件应用程序的专用计算机,或甚至是被设计成执行接收应用程序的功能 的独立设备。软件应用程序负责与服务器通信以建立连接,以及接收、解码并显示或回放所 接收的视频和/或音频流。它也可向服务器传送回其自己编码的视频和/或音频流。此类 源于接收器的流可以是对附连至接收器的摄像机和话筒的输出的实时编码的结果,或它们 可以是在接收器上本地存储的或可从接收器经由网络访问的文件服务器上存储的预编码 视频和音频。在一个实施例中,接收器配备有相连的摄像机和话筒,并将所产生的视频和音 频信号编码并经由一个或多个服务器发送至其它参与者。根据SVCS/SACS体系结构,接收器负责在其显示器上合成从服务器接收的已解 码视频流,并混合和回放已解码音频流。注意,诸如代码转换MCU的传统多点视频服务器在 服务器自身上为所有接收参与者执行该功能一次,或为每个接收参与者单独执行该功能。 接收器执行其自身合成的能力为用户提供极大的灵活性,但如果未正确设计则会引起较高的比特率要求。图2描绘具有三个发送方的传统系统的典型示例发送方1、发送方2以及发送方 3、服务器201以及接收器203。服务器201作为代码转换MCU 它从发送方1、2以及3中的 每一个分别接收音频(A)流1A、2A和3A以及视频(V)流1V、2V和3V,将这些信号解码,并 根据接收器203经由信令通路202指示给服务器201的所需布局来合成视频。已解码音频 信号也在服务器201处被混合。所得的合成视频和混合音频信号由服务器201编码,并作 为两个独立的流被发送至接收器203:混合音频流A (混合)和合成视频流V (合成)。注 意,这些流实际可被发送至接收器203,并经由单个连接(例如单个实时协议(RTP)端口) 进行复用。接收器203将音频和视频信号解码并回放。图2进一步描绘接收器的屏幕210 的示例布局,其中在显示框1中显示的发送方1被示为大于分别在显示框2和3中显示的 发送方2和3。在服务器201和接收器203之间传达的音频和视频流的总比特率要求是在 接收器屏幕210的分辨率下的单个流的比特率要求。注意,未被实际内容覆盖的屏幕的任 何区域(即源自任何一个参与者的像素)也必须由服务器201编码。然而,其编码开销将 典型地小,由于这些区域在每个画面中不变,因此用于诸如H. 264的编码解码器的预测编 码可将预测错误减小至少量。如果操作接收器203的用户希望切换至不同的布局,则必须经由信令通路202将 该布局传达至服务器201,以使服务器201改变其合成过程。去往服务器201和来自服务器 201的传输延迟以及服务器201处的任何处理延迟的组合将引起从用户在应用程序软件中 作出请求的时刻开始到新布局出现在接收器屏幕210上的时刻的明显延迟。图3描绘了图2中示出的同一通信情形,但图3的情形是基于在视频和音频信号 中使用了可缩放编码的假定的。具体而言,假定视频信号利用H. ^HSVC被编码为具有两层 空间可缩放性、且基本层与增强层之间的水平或垂直画面尺寸之比为2 (例如VGA和QVGA)。 类似地,音频信号被编码为具有两层可缩放性——窄带(基本)和宽带(增强)。从每个发 送方(1、2、3)到服务器305的通路1A、2A、3A、1V、2V、3V根据信号类型来标注,A代表音频, V代表视频,且对于每个流中存在的层而言,B代表基本,E代表增强。对于从服务器305到 接收器307的通路301、302、303,发送方的编号(1到幻被添加至该标注。作为示例,“1: A/B+E, V/B”表示该流包含来自发送方1的数据,其中对音频存在基本层和增强层二者,而 对视频仅存在基本层。因此,图3中的通路301被标注为“1 :A/B+E,V/B+E”,表明该流包含 来自发送方1的数据,其中对音频和视频二者而言均存在基本层和增强层。继续参照图3,发送方中的每一个(1、2、;3)发送音频和视频信号中的每一个的基 本层和增强层的一些组合。特定的层选择可由发送方与接收器307之间的可用比特率、发 送方(1、2、;3)处可用的可用设备(例如低分辨率摄像机相对于高分辨率摄像机)或其它因 素支配。如下所讨论,它也可归因于来自服务器305的不需要增强层的指示(例如,任一接 收参与者都没有以全分辨率看到的发送方(1、2、;3)的视频增强层)。所公开主题的一个焦点是当使用可缩放编码时接收器307的操作及其与服务器 305的交互。假定接收器307在特定的时间点已选择了某个屏幕尺寸。该尺寸可以是接收 器的监视器310的物理尺寸(以像素表示),或如果该应用程序窗口未覆盖整个屏幕,则它 可以是该物理尺寸的一部分。在下文中,单词“屏幕”用于无差别地表示整个物理屏幕(当 该应用程序处于全屏模式或处于独立实现中)或该应用程序窗口的可用于视频显示的区域。还可进一步假定,用户在接收器307处已选择了特定布局,其中来自发送方1的视 频以全分辨率显示,而来自发送方2和3的视频以全分辨率的3/4显示。如果所有视频信 号都具有VGA的全分辨率(640 X 480像素),则发送方1的视图将具有640 X 480的尺寸,而 发送方2和3的视图将具有480X360的尺寸。为适配这些视图,在图3所示的布局中,在 保持屏幕的长宽比为4 3的同时,需要至少1120X840的矩形大小。从代码转换MCU发送此合成视图所需的比特率开销可如下地估算。可假定MCU 视频编码器以某个固定的每像素平均比特数操作。于是通过对所显示像素相对于VGA信 号的像素进行计数,可估算合成画面所需的总比特率。所显示像素的总数是VGA信号的 1+2*0. 752,即2. 125。该计算忽略了空白空间,该空白空间被假定为可用可忽略数量的比特 来编码。因此合成视频的总比特率将为利用单层H. 264AVC编码的单个VGA信号所需的总 比特率的2. 125倍。继续参照图3和以上作出的布局假定,在示例性实施例中,接收器307指示服务器 305 1)为发送方1传送全分辨率视频(基本和增强),2)仅为来自发送方2的视频传送基本层,以及3)仅为来自发送方3的视频传送基本层。接收器307选择以将来自发送方2和3的视频的接收切换至仅基本层,因为它可 将基本层信号(0¥6々或320乂对0)升频采样至所需的3/4VGA分辨率080 X 360),且与接收 全分辨率VGA信号并将其降频采样至3/4VGA相比视觉差别非常小。升频采样和合成过程 在接收器307自身处进行;服务器305仅被告知哪些层分组要转发至特定接收器307。该情况下所需的总比特率可如下地估算。用于具有比例2的空间可缩放性的基本 层与增强层之间的典型比例为3 1。换言之,基本层比特率是增强层比特率的1/3,或总比 特率的0. 25。服务器到接收器的视频通路因此需要VGA信号的比特率的1+2*0. 25或1. 5 倍。算上与相比实现如由PSNR测量的相同质量的单层编码可缩放相关联的10%比特率开 销,总比特率为1.5X 110%或1.65。与代码转换MCU情况相比(2. 125),本技术将比特率要 求降低了 22%。如果服务器不是SVCS也不是MCU,而是简单地将多个视频流转发给接收器,则总 比特率要求开销为3,因为接收并显示了三个视图。在没有可缩放性或代码转换的情况下, 接收器别无选择,只能接收所有视图的全分辨率信号,并适当地执行缩放。所公开主题的可 缩放设计的一竞争优势在本情况下甚至更显著,其提供45 %的比特率减少。在参与者数量 增多的情况下,这些益处被进一步放大。在音频通信应用的背景下,与简单的转发服务器相比,通过使用具有可缩放编码 的SACS体系结构可获得相似的益处。这里假定使用了如国际专利申请NO.PCT/US06/62569 中描述的“活动加上N个最近发言者(activ印Ius N most recent speakers) ”技术。可进 一步假定N为1,活动发言者来自发送方1,且下一更近发言者是发送方2。注意,语音活动 水平可在发送方或服务器自身处计算。利用该信息,且假定使用图3的布局,服务器传送来自发送方1的基本和增强音频 信号、来自发送方2的仅基本音频层,且不传送来自发送方3的音频。其总比特率要求比执行其自己的混合的代码转换服务器的总比特率要求稍高,但比简单转发服务器的总比特率 要求的2/3低。如下所讨论地,包括N个最近记忆的活动发言者指示可在视频布局自动化 中被有利地使用(不论是否使用可缩放音频编码)。前一示例证实了使用布局管理技术结合可缩放编码以及接收器-服务器信令的 优点,以便于在低得多的比特率要求下在接收器处获得提高的灵活性。虽然已解释了示例,但本文公开内容的示教可更一般地应用于更广泛的具有实际 意义的布局。布局可被分成两大类或模式标准以及放大。在标准模式下,所有参与者(在 屏幕上示出的)以相同的视图大小示出。在放大模式下,一个或多个视图以较大尺寸示出, 而其它视图以较小视图尺寸示出。如服务器305或接收器307所确定地,视频会议设定中 的放大视图可对应于一个或多个活动发言者。在除视听通信之外的应用中,例如观看多源 广播内容时,放大视图可以是用户在接收器307处选择以较大视图大小示出的源。图4(a)_(g)描绘使用矩形视图组织的 示例性标准 模式布局。屏幕内的每个视图 是矩形的。在一个实施例中,这些矩形可遵循原始信号的画面长宽比。图4(a)是视频会议 系统中常见的典型的2X2矩阵布局。图4(b)是所有视图垂直堆叠的情况,而图4(c)水平 地显示它们。虽然屏幕区域看起来与典型的监视器屏幕长宽比(16 9或4 3)不一致, 但该屏幕可以是在计算机上运行的应用程序窗口的区域,从而用户可选择这样的视图以便 于能够在同一计算机监视器上看到其它窗口。
图4(d)也是4路矩形视图,但这次上下视图位于屏幕的中线上。初看上 去,该视 图看起来具有就总像素而言其总屏幕面积比图4(a)的总屏幕面积大的缺点。实际上,如果 每个视图具有宽度W和高度H(以像素表示),则图4(a)的屏幕大小是2WX2H,而图4(d) 中的屏幕大小是3HX2W。然而,从感觉上而言,图4(d)中的布局会 具有在每个视图中呈现 为居中的对象彼此更近的优点。通过计算位于屏幕中心点的将包围屏幕上示出的所有视图 的中心的最小圆圈的半径,可看出这一优点。半径越小表明呈现为位于各视图中心的视图 的对象彼此越近。这 使观看者利用直接视觉和周边视觉两者来察觉每个视图中的动作容易 得多。该圆圈的半径与视图的高度之比在此被定义为特定布局的“视图扩展”,且通过“V” 表不。图5(a)_(b)描绘4视图情况下的矩阵和交错矩形图案,且示出各种尺寸。对于图 5 (a)中示出的2 X 2矩形矩阵,最小包围圆圈的半径&将是Rm+^ = U(WlH)2+
其中r = W/H是视图长宽比。对于图5(b)中示出的交错1X2X1图案的情况,半径&将等于H(因为通常W/2 < H),因此

Vs^- = I(2)假设视图长宽比r通常为4/3或16/9,矩阵图案的视图扩展将分别为0. 83和 1.02。因此,该矩阵图案的视图扩展在低长宽比下比交错图案低,而在高长宽比下稍高(高 2% )。返回图4(e)_(g),其中描绘了与图4(b)_(d)相似的布局,这次为3个视图。注意,这次无法构造矩阵(假定所有视图具有完全相同的尺寸)。这些布局选项与以下详细描述 的布局自动化相关。这些布局结构可推广至任意数量的用户。可能的限制是屏幕的大小 (逻辑大小或物理大小),以及用户观看可接受的最小视图。随着视图数量增加,将它们全 部适配到屏幕上是不可能的,因此必须使用如下所详细描述的自动选择机制。在图5(a)_(b)的背景下讨论的视图扩展可通过考虑非矩形模式来推广。来自 取样理论的相关问题是找出使用最小数量的取样点来根据其样本正确重构给定的带宽 受限信号的取样模式。对于2D各向同性谱,即圆形的带宽受限2D函数,最优的取样模 式是其中轴具有45度角从而产生由六边形组成的Voronoi棋盘形格局的网格(参见例 如D. P. Petersen和D. Midleton的“η维欧几里得空间中的波数有限函数的取样和重构 (Sampling andReconstruction of Wave-number Limited Functions in n-dimensional EuclideanSpaces) ”,Inf. Control, 5 :279-323,1962)。Voronoi 棋盘形格局将 2_D 平面分 解成与网格上的一个点最接近的点的集合。等效地,当每个六边形被其内切圆盘代替(最 高充填效率)时,六边形棋盘形格局图案产生最“满”的空间。利用该性质,可设计诸如图6(a)_(c)中示出的图案的布局图案。图6(a)是5路 六边形标准模式布局,而图6 (b)是5路放大模式布局,其中单个放大视图的大小被示为其 它参与者的大小的两倍。六边形“单元”也可以旋转30°来使用,因此其两个顶点垂直地取 向。具有旋转六边形图案的7路标准模式布局的示例在图6(c)中示出。六边形布局在参 与者数量多的情况下愈发有效。如同矩阵和交错矩形视图,此处也能计算可包围4路六边形布局中的所有四个视 图中心的最小圆圈的半径&,从而可获得视图扩展。对于具有边长S的正六边形,其最大直 径为2S,其最小直径为纯。图7示出每个六边形的高度是其最小直径,即
权利要求
1.一种用于经由通信网络传送多个视频信号以及关联音频信号(如果存在)以呈现给 一个或多个终端用户的视听通信系统,其中所述视频信号被可缩放地编码成包括基本层和 一个或多个增强层的多个层,所述系统包括接收器,所述接收器被配置成经由所述通信网络接收多个视频和任何关联音频信号、 基于一组标准确定所显示视频信号的布局、并传达与所确定布局有关的信息;连接至所述 接收器的显示器,所述显示器被配置成利用所确定的布局显示所接收的一个或多个视频信 号;以及连接至所述通信网络的一个或多个服务器,所述一个或多个服务器适于经由所述通 信网络接收与所确定的布局有关的信息,并被配置成传送所述多个视频和任何关联音频信 号;其中所述一个或多个服务器被配置成针对所述多个视频信号中的每一个,选择性地传 送用于以所确定的布局显示所述视频信号所必需的基本层或基本层和一个或多个增强层 (如果存在)。
2.如权利要求1所述的系统,其特征在于,所述多个视频中的至少一个和关联音频信 号被预压缩,且其中所述一个或多个服务器进一步被配置成从本地或远程存储体访问所述 预压缩视频和关联音频信号。
3.如权利要求1所述的系统,其特征在于,所述多个视频中的至少一个和关联音频信 号被实时压缩,且其中所述一个或多个服务器进一步被配置成对来自附连至所述一个或多 个服务器的视频或音频源的所述实时压缩视频和关联音频信号编码。
4.如权利要求1所述的系统,其特征在于,所述一个或多个服务器中的至少一个进一 步被配置成经由所述通信网络从连接至所述一个或多个服务器中的至少一个的传送系统 获得所述多个视频中的一个或多个及关联音频信号。
5.如权利要求1所述的系统,其特征在于,所述关联音频信号被可缩放地编码成包括 基本层和一个或多个增强层的多个层,且其中所述一个或多个服务器进一步被配置成选择 性地仅传送所确定的布局所必需的音频信号层的数据。
6.如权利要求1所述的系统,其特征在于,所述一个或多个服务器进一步被配置成通 过使用每个关联音频信号的音频活动指示符和关联视频信号是否在所确定的布局中显示 的指示来确定哪些音频信号被选择性地传送,以使具有最高活动性的一个或多个音频信号 的音频信号数据被传送,且与在所确定布局中显示的一个或多个视频信号相关联的音频信 号数据被传送,以及与余下视频信号相关联的音频信号数据不被传送。
7.如权利要求6所述的系统,其特征在于,所述关联音频信号被可缩放地编码成包括 基本层和一个或多个增强层的多个层,且其中所述一个或多个服务器进一步被配置成选择 性地传送具有最高活动指示符的一个或多个音频信号的基本层和增强层音频信号数据,以 及与在所确定布局中显示的一个或多个视频信号相关联的一个或多个音频信号的基本层 音频信号数据。
8.如权利要求6所述的系统,其特征在于,所述音频活动指示符在所述一个或多个服 务器处计算。
9.如权利要求6所述的系统,其特征在于,所述音频活动指示符被预先计算,且与所述 视频信号和关联音频信号相组合对所述一个或多个服务器可用。
10.如权利要求6所述的系统,其特征在于,所述接收器进一步被配置成针对所确定布 局保持视图数量N和放大视图数量P,其中P的范围为从0到N-1,以及总数M个视频信号 中的每一个具有关联音频信号,且在初始化或N或P变化时通过以下步骤确定新布局并将 视图分配给所述新布局按照音频活动减少将所述M个信号排序到清单F中;如果N或P变化,首先将F中在所确定布局中占据视图的每个视频信号分配给所述新 布局中与所述视频信号在所确定布局中分配到的视图交迭最大的视图;然后将F中余下未分配的每个视频信号按顺序分配到所述新布局中的下一可用视图 中,直到F中的所有视频信号被处理,或直到所述新布局中的所有视图分配到视频信号。
11.如权利要求6所述的系统,其特征在于,所述接收器进一步被配置成针对所确定布 局保持视图数量N和放大视图数量P,其中P的范围为从0到N-1,以及总数M个视频信号 中的每一个具有关联音频信号,且其中在某些时间实例时或M变化时通过以下步骤重新将 视图分配给所确定布局按照关联音频活动减少将所述M个视频信号排序到清单F中;按顺序分配F中的前面P个视频信号,以使如果视频信号已分配到放大视图,则它保持其当前放大视图,否则如果替代的视频信号曾分配到标准视图,则它分配到曾分配到之前分配了放大视 图的视频信号中具有最小关联音频活动的视频信号的放大视图,且之前分配了放大视图的 视频信号中具有最小关联音频活动的所述视频信号分配到所述替代视频信号的原始标准 视图,否则如果视频信号之前未曾分配到放大或标准视图,则它分配到曾分配到之前分配了 放大视图的视频信号中具有最小关联音频活动的视频信号的放大视图,而之前分配了放大 视图的视频信号中具有最小关联音频活动的视频信号被插入清单G ;将F中的最前面的max {N-P-1G |,0}个视频信号按顺序分配给当前布局中的下一可用 自由视图;将G中的视频信号按顺序分配给当前布局中的余下可用自由视图。
12.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成通过如下步骤 确定目标屏幕尺寸的布局访问可能布局的表;利用第一组标准从所述可能布局的表中选 择一个或多个候选布局;将每个候选布局适配在所述目标屏幕尺寸中;以及基于第二组标 准选择所述候选布局中的零个或一个。
13.如权利要求12所述的系统,其特征在于,所述第一组标准包括所述布局中可用的 视图总数等于数量N。
14.如权利要求12所述的系统,其特征在于,所述第一组标准包括所述布局中可用的 视图总数等于数量N,且数量等于数量P的视图的尺寸大于余下N-P个视图的尺寸。
15.如权利要求12所述的系统,其特征在于,所述第一组标准包括具有其视图总数小 于或等于所述接收器所接收的视频信号M的数量的布局。
16.如权利要求12所述的系统,其特征在于可能布局的所述表将每个布局表示为一组参数,所述参数至少包括以形成二维阵列的 基本视图构件块的单位表示的所述布局的水平和垂直尺寸,以及每个视图的比例因子以及视图的左上角在视图构件块二维阵列中的水平和垂直定位;通过选择适当的视图构件块宽度和高度,以使所述布局在垂直或水平维度中的至少一 个维度上适配目标屏幕尺寸,并且使所得的视图构件块长宽比在最小和最大值的给定范围 内,来将每个候选布局适配在目标屏幕尺寸中;以及第二组标准包括通过计算评分函数来对每个候选布局打分;选择具有所述评分函数 的最高值的候选布局;以及如果选择了多个候选布局则利用筛选函数来计算分数,从而标 识单个候选布局,且仅在所述单个候选布局的最小视图尺寸大于指定值时使用所述单个候 选布局。
17.如权利要求16所述的系统,其特征在于,具有N个视图的布局的所述评分函数是P 个最大视图的最小视图尺寸和余下的N-P个视图的最小尺寸的加权平均值,其中P可以是 O0
18.如权利要求17所述的系统,其特征在于,所述筛选函数包括附加的加权项,所述附 加加权项表示特定布局的自组织偏好,且被存储在可能布局表中的每个布局的条目中。
19.如权利要求16所述的系统,其特征在于,所述筛选函数等于布局的所有视图的总 尺寸。
20.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成确定一布局, 以使所确定布局中的多个视图所产生的由所述接收器所接收的视频信号的总比特率在限 制内。
21.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成确定一布局, 以使所确定布局中的多个视图所产生的要解码的像素总数在限制内。
22.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成基于所接收视 频信号的数量来自动确定布局。
23.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成如果所显示 的多个视频信号中的一个或多个视频信号在所确定布局中的所分配视图中被裁切,则所述 接收器允许用户在所分配视图内手动扫视所显示的多个视频信号中的所述一个或多个视 频信号。
24.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成如果所述多 个所显示的视频信号中的一个或多个视频信号在所确定布局中的已分配视图中被裁切,则 所述接收器在所述多个所显示的视频信号中的一个或多个视频信号中自动检测对象的头 部的存在和位置,并在所分配视图中扫视所述一个或多个所显示视频信号,以使所述对象 的头部完全显示。
25.一种用于经由通信网络传送被可缩放地编码成为包括基本层和一个或多个增强层 的多个层的多个视频信号以及关联音频信号(如果存在)以向一个或多个终端用户呈现的 方法,包括基于一组标准确定显示所述多个视频信号的布局;传达与所确定布局有关的信息;以及选择性地仅传送用于以所确定布局显示所述视频信号所必需的视频信号层的数据以 及任何关联音频信号;接收所述选择性传送的数据;以及利用所确定布局显示所述多个视频信号。
26.如权利要求25所述的方法,其特征在于,所述多个视频中的至少一个和关联音频 信号被预压缩,所述方法进一步包括从本地或远程存储体访问所述预压缩视频和关联音频信号。
27.如权利要求25所述的方法,其特征在于,所述多个视频中的至少一个和关联音频 信号被实时压缩,所述方法进一步包括对来自视频或音频源的所述实时压缩视频和关联音频信号编码。
28.如权利要求25所述的方法,其特征在于,还包括从传送系统获得所述多个视频中的一个或多个视频和关联音频信号。
29.如权利要求25所述的方法,其特征在于,所述关联音频信号被可缩放地编码成包 括基本层和一个或多个增强层的多个层,所述方法进一步包括仅传送所确定布局所必需的关联音频信号层的数据。
30.如权利要求25所述的方法,其特征在于,还包括通过使用每个相关联音频信号的音频活动指示符和关联视频信号是否在所确定的布 局中显示的指示来确定哪些音频信号被选择性地传送,以使具有最高活动性的一个或多个 音频信号的音频信号数据被传送,且与在所确定布局中显示的一个或多个视频信号相关联 的音频信号数据被传送,以及与余下视频信号相关联的音频信号数据不被传送。
31.如权利要求30所述的方法,其特征在于,所述关联音频信号被可缩放地编码成包 括基本层和一个或多个增强层的多个层,所述方法进一步包括选择性地传送具有最高活动指示符的一个或多个音频信号的基本层和增强层音频信 号数据,以及与在所确定布局中显示的一个或多个视频信号相关联的一个或多个音频信号 的基本层音频信号数据。
32.如权利要求30所述的方法,其特征在于,还包括针对所确定布局保持视图数量N和放大视图数量P,其中P的范围为从0到N-1,以及 总数M个视频信号中的每一个具有关联音频信号,且在初始化或N或P变化时通过以下步 骤确定新布局并将视图分配给所述新布局按照音频活动减少将所述M个信号排序到清单F中;如果N或P变化,首先将F中在所确定布局中占据视图的每个视频信号分配给所述新 布局中与所述视频信号在所确定布局中被分配的视图交迭最大的视图;然后将F中余下未分配的每个视频信号按顺序分配到所述新布局中的下一可用视图 中,直到F中的所有视频信号被处理,或直到所述新布局中的所有视图分配到视频信号。
33.如权利要求30所述的方法,其特征在于,还包括针对所确定布局保持视图数量N和放大视图数量P,其中P的范围为从0到N-1,以及 总数M个视频信号中的每一个具有关联音频信号,且在某个时间实例或在M变化时通过以 下步骤将视图重新分配给新布局按照关联音频活动减少将所述M个视频信号排序到清单F中;按顺序分配F中的前面P个视频信号,以使如果视频信号分配到所确定布局中的放大视图,则它在新布局中保持它的当前放大视否则如果替代的视频信号在所确定布局中曾分配到标准视图,则它在新布局中分配到 曾分配到分配了所确定布局中的放大视图的视频信号中具有最小关联音频活动的视频信 号的放大视图,且分配了所确定布局中的放大视图的视频信号中具有最小关联音频活动的 所述视频信号在新布局中分配到来自所确定布局的所述替代视频信号的标准视图,否则如果视频信号之前在所确定布局中未曾分配到放大或标准视图,则它在新布局中 分配到曾分配到之前在所确定布局中分配了放大视图的视频信号中具有最小关联音频活 动的视频信号的放大视图,而之前在所确定布局中分配了放大视图的视频信号中具有最小 关联音频活动的视频信号被插入清单G ;将F中的最前面的maX{N-P-|G|,0}个视频信号按顺序分配给新布局中的下一可用自 由视图;将G中的视频信号按顺序分配给新布局中的余下可用自由视图。
34.如权利要求25所述的方法,其特征在于,还包括通过如下步骤确定目标屏幕尺寸的布局访问可能布局表;利用第一组标准从所述可 能布局表中选择一个或多个候选布局;将每个候选布局适配在所述目标屏幕尺寸中;以及 基于第二组标准选择所述候选布局中的零个或一个。
35.如权利要求34所述的方法,其特征在于,所述第一组标准包括所述布局中可用的 视图总数等于数量N。
36.如权利要求34所述的方法,其特征在于,所述第一组标准包括所述布局中可用的 视图总数等于数量N,且数量等于P的视图的尺寸大于余下N-P个视图的尺寸。
37.如权利要求34所述的方法,其特征在于,所述第一组标准包括具有其中其视图总 数小于或等于所述接收器所接收的视频信号M的数量的布局。
38.如权利要求34所述的方法,其特征在于,还包括在可能布局表中将每个布局表示为一组参数,所述参数至少包括以形成二维阵列的基 本视图构件块的单位表示的所述布局的水平和垂直尺寸,以及每个视图的比例因子与视图 的左上角在视图构件块二维阵列中的水平和垂直定位;其中将每个候选布局适配在目标屏幕尺寸中包括选择适当的视图构件块宽度和高度,以使所述布局在垂直或水平维度中的至少一个维 度上适配目标屏幕尺寸,并且使所得的视图构件块长宽比在最小和最大值的给定范围内; 以及其中所述第二组标准包括通过计算评分函数来对每个候选布局打分;选择具有所述 评分函数的最高值的候选布局;以及如果选择了多个候选布局则利用筛选函数来计算分 数,从而标识单个候选布局,且仅在所述单个候选层的最小视图尺寸大于指定值时使用所 述单个候选布局。
39.如权利要求38所述的方法,其特征在于,具有N个视图的布局的所述评分函数是P 个最大视图的最小视图尺寸和余下的N-P个视图的最小尺寸的加权平均值,其中P可以是 O0
40.如权利要求39所述的方法,其特征在于,所述筛选函数包括附加的加权项,所述附 加加权项表示特定布局的自组织偏好,且被存储在可能布局表中的每个布局的条目中。
41.如权利要求38所述的方法,其特征在于,所述筛选函数等于布局的所有视图的总尺寸。
42.如权利要求25所述的方法,其特征在于,还包括确定一布局,以使所确定布局中的视图数量所产生的接收视频信号的总比特率在限制内。
43.如权利要求25所述的方法,其特征在于,还包括确定一布局,以使所确定布局中的视图数量所产生的待解码像素总数量在限制内。
44.如权利要求25所述的方法,其特征在于,还包括 基于接收信号的数量自动确定布局。
45.如权利要求25所述的方法,其特征在于,还包括如果多个所显示视频信号中的一个或多个视频信号在所确定布局中的分配视图中被 裁切,则允许用户在所分配视图中手动地扫视多个所显示视频信号中的所述一个或多个视频信号。
46.如权利要求25所述的方法,其特征在于,还包括如果多个所显示视频信号中的一个或多个视频信号在所确定布局中的分配视图中被 裁切,则在多个所显示视频信号中的所述一个或多个视频信号中自动检测对象的头部的存 在和位置;以及在所分配视图中扫视所述一个或多个所显示视频信号,以使所述对象的头部完全显示 ο
47.一种用于呈现经由通信网络从一个或多个服务器接收的多个视频信号以及关联音 频信号(如果存在)的系统,其中所述视频信号被可缩放地编码成包括基本层和一个或多 个增强层的多个层,所述系统包括接收器,所述接收器被配置成从所述通信网络接收所述多个视频和任何关联音频信号; 基于一组标准确定显示所接收视频信号中的一个或多个视频信号的布局;以及 经由所述通信网络传达所确定布局作为反馈;以及连接至所述接收器的显示器,所述显示器被配置成利用所确定布局显示所接收的一个 或多个视频信号;其中所述反馈包括用于选择性传送所确定布局的所述视频信号层(如果存在)的指令。
48.如权利要求47所述的系统,其特征在于,所述关联音频信号被可缩放地编码成包 括基本层和一个或多个增强层的多个层,且其中所述反馈进一步包括用于选择性地传送所 确定布局的音频信号层的指令。
49.如权利要求47所述的系统,其特征在于,所述接收器进一步被配置成通过如下步 骤确定目标屏幕尺寸的布局访问可能布局表;利用第一组标准从所述可能布局表中选择 一个或多个候选布局;将每个候选布局适配在所述目标屏幕尺寸中;以及基于第二组标准 选择所述候选布局中的零个或一个。
50.一种用于传送多个视频信号以及一个或多个关联音频信号的系统,其中视频信号 被可缩放地编码成包括基本层和一个或多个增强层的多个层,所述系统包括一个或多个服务器,所述一个或多个服务器被配置成接收用于选择性传送与所确定布局相对应的视频信号层的指令;以及选择性地仅传送用于以所确定布局显示所述视频信号所必需的视频信号层的数据。
51.如权利要求50所述的系统,其特征在于,所述一个或多个关联音频信号被可缩放 地编码成包括基本层和一个或多个增强层的多个层,且其中所述指令进一步包括用于选择 性地传送所确定布局的音频信号层的指令。
52.如权利要求50所述的系统,其特征在于,所述一个或多个关联音频信号被可缩放 地编码成包括基本层和一个或多个增强层的多个层,且其中所述一个或多个服务器进一步 被配置成选择性地传送具有最高活动指示符的一个或多个音频信号的基本层和增强层音频信 号数据,以及与在所确定布局中包含的一个或多个视频信号相关联的音频信号的基本层音 频信号数据。
全文摘要
一种用于经由通信网络传送被可缩放地编码成为包括基本层和一个或多个增强层的多个视频信号以及关联音频信号(如果存在)以向一个或多个终端用户呈现的系统和方法。用于显示多个视频信号的布局基于一组标准来确定,而且仅以所确定布局显示视频信号所必需的视频信号层的数据以及任何关联音频信号经由通信网络被选择性地传送。
文档编号H04N11/02GK102090069SQ200980127625
公开日2011年6月8日 申请日期2009年6月9日 优先权日2008年6月9日
发明者A·埃莱夫塞里埃兹, J·P·阿德拉戈纳 申请人:维德约股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1