用于使用可缩放视频编码和合成可缩放视频会议服务器进行视频会议的系统和方法

文档序号:7641598阅读:95来源:国知局
专利名称:用于使用可缩放视频编码和合成可缩放视频会议服务器进行视频会议的系统和方法
技术领域
本发明涉及多媒体技术和电信。具体地,本发明涉及用于个人对个人和多 方会议应用的音频和视频数据的通信和分发。更具体地,本发明涉及个人或多 方会议应用的实现,其中某些参与方可能仅能够支持对与单个画面相对应的、 使用可縮放编码技术编码的视频比特流的接收。本发明也针对在可提供不同水 平的服务质量(QoS)的通信网络连接上,以及在其中最终用户可使用不同能 力的设备和通信信道接入会议应用的环境中实现此类系统。
背景技术
视频会议系统允许两个或多个远程参与方/端点彼此使用音频和视频实时 地传送视频和音频。当仅涉及两个远程参与方时,可使用两个端点之间的适当 电子网络上的直接通信传输。当涉及多于两个的参与方/端点时,多点会议单元 (MCU)或桥接器通常被用于连接到所有参与方/端点。MCU协调可例如以星 形配置连接的多个参与方/端点之间的通信。注意即使仅涉及两个参与方时, 在两个参与方之间使用MCU仍是有益的。
对于视频会议,参与方/端点或终端配备有合适的编码和解码设备。在发 送端点,编码器将本地音频和视频输出格式化成适于在电子网络上进行信号传 输的经编码形式。相反,在接收端点处,解码器将接收到的具有经编码的音频 和视频信息的信号处理成适于接收端点的音频回放或图像显示的经解码形式。
传统上,最终用户自身的图像也在他/她的屏幕上显示以提供反馈(以确 保例如个人在视频窗口中的适当定位)。
在通过通信网络实现的实际的视频会议系统中,远程参与方之间的交互式
视频会议的质量取决于端对端信号延迟。大于200ms的端对端延迟阻碍了会议 参与方之间的逼真实况转播或自然交互。这种长时间的端对端延迟使得为了让 正在传送中的来自其他参与方的视频和音频数据到达他们的端点,会议参与方 不自然地抑制自己进行积极的参与或响应。
端对端信号延迟包括捕获延迟(例如,与用以填满数/模转换器的缓冲器 的时间相对应的延迟)、编码延迟、发送延迟(例如,与向端点的网络接口控 制器提交数据包所花的时间相对应的延迟)、以及传输延迟(与包在通信网络 中从端点到端点传播的时间相对应的延迟)。另外,通过协调MCU的信号处 理时间也构成给定系统中总的端对端延迟的一部分。
MCU的主要任务是混合传入的音频信号,使得单个音频流被发送给所有 参与方,并且将由各个参与方/端点发送的视频帧或画面混合成包括每个参与方 的画面的公共合成视频帧流。注意术语帧和画面在本文中可交换使用,并且 此外对于本领域技术人员而言,可结合作为单个场或作为组合帧的交织帧的编 码(基于场或基于帧的画面编码)是显而易见的。部署在常规通信网络系统中 的MCU仅为混合成分发给视频会议会话中的所有参与方的公共合成视频帧中 的所有单个画面提供单一的公共分辨率(例如,CIF或QCIF分辨率)。因而, 常规通信网络系统不易于提供参与方可籍此能以不同分辨率观看其他参与方 的定制视频会议功能。这种定制功能可允许参与方例如以CIF分辨率观看另一 特定参与方(例如,正在讲话的参与方),而以QCIF分辨率观看静默参与方。 网络中的MCU可被配置成通过将视频混合操作重复与视频会议中参与方的数 目一样多的次数来提供该定制功能。然而,在这种配置中,MCU操作引入了 相当大的端对端延迟。此外,MCU必需具有充分的数字信号处理能力来解码
多个音频流、混合和重编码它们、以及还解码多个视频流、将它们合成为单个 帧(按需使用适当的縮放)和再次将它们重编码成单个流。视频会议解决方案
(诸如由加州(94588)普莱森顿的Willow路4750号的泊立康目(Polycom) 公司和纽约州(10166)纽约的Park大道200号的坦得勃格(Tandberg)商业 销售的系统)必须使用专用硬件组件来提供可接受的质量和性能水平。
传统视频编解码器——其比特流和解码操作在ITU-T推荐H.261; ITU-T 推荐H.262|ISO/IEC 13818-2 (MPEG-2视频)Main Profile (主型);ITU-T 推荐H.263基线型;ISO/IEC 11172-2 (MPEG-1视频);ISO/IEC 14496-2 简单型或改进简单型;ITU-T推荐H.264IISO/IEC 14496-10 (MPEG4-AVC) 基线型或主型或高级型中标准化——被规定成以给定空间分辨率和比特率提 供单个比特流。因此,当与原始经编码的空间分辨率或比特率相比需要较低空
间分辨率或较低比特率的经编码视频信号时,全分辨率信号必须以合需的空间 分辨率和比特率来接收、解码、潜在可能的下縮放、和重编码。解码、潜在可 能的下采样、以及重编码需要相当多的计算资源,并且通常对视频信号添加相 当主观的畸变以及对视频传输添加延迟。
此外,用于视频通信的标准视频编解码器基于"单层"编码技术,该技术 固有地不能利用由现代通信网络提供的有区别的QoS能力。用于视频通信的单 层编码技术的其它限制在于,即使应用中要求或期望较低的空间分辨率显示, 全分辨率信号也必须在接收端点或MCU被接收并执行下縮放地解码。这浪费 了带宽和计算资源。
与前述单层视频编解码器不同,在基于"多层"编码技术的"可縮放"视 频编解码器中,对给定源视频信号生成两个或多个比特流基层和一个或多个 增强层。基层可以是源信号在最小质量水平下的基本表示。最小质量表示可以 是在给定源视频信号的质量(即,信噪比("SNR"))、空间或时间分辨率 方面或这些方面的组合上进行减小。 一个或多个增强层对应于用于增加基层的 SNR的质量、空间或时间分辨率方面的信息。可縮放视频编解码器是在鉴于异 种网络环境和/或异种接收机而开发的。
可縮放编码以成为诸如ITU-T推荐H.262|ISO/IEC 13818-2 (MPEG-2视 频)SNR可縮放或空间可縮放或高级型的标准的一部分。然而,这种"可
縮放"视频编码器视频会议应用的实际使用已受到增加的成本和与可縮放编码 相关联的复杂度、以及缺少适于视频的基于高带宽IP通信信道的普遍可用性 的牵制。
通过引用结合于此的共同待批且共同转让的国际专利申请No. PCT/US06/02836描述了具体针对视频会议应用的实际可縮放视频编码技 术。此外,通过引用结合于此的共同待批且共同转让的国际专利申请No. PCT/US06/02835描述了设计成利用或获益于用于视频会议应用的可縮放视 频编码技术的特征的会议服务器架构。通过引用结合于此的共同待批且共同 转让的国际专利申请No. PCT/US06/061815描述了用于在设计成利用或获益 于用于视频会议应用的会议服务器架构中提供差错弹性、层交换和随机访 问能力的技术。
目前,考虑提供比先前标准化的可縮放视频编解码器更有效的折衷的 ITU-T推荐H.264|ISO/IEC14496-10标准的扩展(Annex G,可縮放视频编 码——SVC)。视频编码研究和标准化中进一步的发展包括用于MCU中的 差错弹性和视频混合的多个切片组的概念,即,用于将多个输入视频合成 为一个输出视频。(参见S. Wenger和M. Horowitz的"Scattered Slices: A New Error Resilience Tool for H.26L (分散切片H.26L的新颖差错弹性手 段)",JVT-B027, ITU-T SG16/Q.6以及ISO/IEC JTC 1/SC 29/WG 11和 ITU-T推荐H.264|ISO/IEC14496-10的联合视频小组(JVT)的文献)。当 所有输入视频信号使用ITU-T推荐H.264|ISO/IEC 14496-10编码时,MCU 中不需要解码和重编码,因为各个输入信号可被设置在MCU的输出画面中 作为单个切片组。(参见M. M. Hannuksela和Y. K. Wang的"Coding of Parameter Sets (参数集的编码)",JVT-C078, ITU-T SGI6/Q.6和ISO/IEC JTC 1/SC 29/WG 11的联合视频小组(JVT)的文献)。
现在对视频会议应用的会议服务器或MCU架构的改进作出考虑。具 体地,尤其关注开发用于使用诸如多切片组的经编码的域合成技术将一个 或多个输入信号连同可能的服务器生成数据合成为单个输出视频信号的服 务器架构。合需的会议服务器架构将支持合需的视频会议特征,诸如连续 出席、个人观看或布局、速率匹配、差错弹性和随机进入,并且将避免常
规MCU的复杂度和延迟开销。

发明内容
提供了用于视频会议的系统和方法。每个视频会议参与方向会议桥接器
MCU或服务器传送经编码的数据比特流。经编码的数据比特流可以是可从其 导出多个质量的单层或可縮放视频编码(SVC)数据和/或可縮放音频编码 (SAC)数据比特流。MCU或服务器(例如,在下文中为"合成可縮放视频 编码服务器"(CSVCS))被配置成将来自传送会议参与方的输入视频信号组 合成转发给接收参与方的单个合成输出视频信号。该CSVCS具体地被配置成 在不用解码、重新縮放、以及重编码输入信号的情况下组合输出视频信号 画面,由此引入很少或不引入端对端延迟。CSVCS的这种"零延迟"架构 有益地使得它们能够用在级联配置中。CSVCS的合成输出比特流使得单个
视频解码器可将其解码。
在视频会议应用中,每个参与方通过相应数目的物理或虚拟信道向
CSVCS传送具有多个层(例如,使用SVC编码的基层以及一个或多个增 强层)的可縮放数据比特流。某些参与方还可传送单层比特流。该CSVCS
可根据基于具体接收参与方的属性和/或配置的需要来选择来自每个参与方 的可縮放比特流的某些部分。这种选择可基于例如具体接收参与方的带宽 和希望的视频分辨率。
CSVCS将所选的输入可縮放比特流部分组合成可由一个(或多个)解
码器解码的一个(或多个)输出视频比特流。当svc被用于输出视频比特
流时,合成是通过将每个输入视频信号指派给输出视频信号的不同切片组
的切片、连同可能生成使得输出流为有效SVC比特流的辅助层数据来完成 的。CSVCS被配置成在不进行信号处理或进行最小的信号处理的情况下生 成合成输出视频信号。CSVCS可例如被配置成读取传入数据的分组报头,
以使得其可将适当的分组选择性地复用成输出比特流的接入单元以组合输 出信号,并在随后向参与方的每一个传送经组合的输出信号连同任何所生 成的层数据。
在视频会议情形中,输入视频信号内容在给定的时间瞬间可能是足以
或不足以覆盖输出比特流的画面中的所有区域。这种不充分可能是例如由 于输入视频信号的不同时间分辨率、输入视频信号的时间采样之间的漂移、
以及输出视频信号的不完全填充而导致的。csvcs可被配置成通过生成较
高时间分辨率的输出视频信号来修补不充分的画面区域覆盖的问题以是端 对端延迟最小化或使由迟到达的输入视频信号导致的其它问题最小化。例
如,csvcs可被配置成针对输出视频信号中不存在输入视频信号内容或该
内容不可用的那些部分插入从可访问存储介质检索出的预编码切片。预编
码切片可包括报头和可由csvcs根据输出画面的具体布局计算出或预算 出的经编码的切片数据。或者,csvcs可通过插入指导接收端点简单地复
制先前编码的画面来以较高的时间分辨率处理输入视频信号。应当注意, 这种经编码的画面数据具有若干字节数量级的极小长度。
根据本发明的视频会议系统的一种示例性实施例,可包括在其上提供
了不同服务质量(QoS)的通信网络连接(即,针对所需总带宽、视频编解 码器、csvcs和最终用户终端的某些部分提供高可靠性传输信道)。用于
传送参与方的视频编解码器或者是单层视频或者是可縮放视频以使得其在 不同的传输带宽水平下提供时间、质量或空间分辨率方面的可縮放性。用 于接收参与方的至少一个的视频编解码器支持可縮放视频解码。由传送和 接收参与方使用的最终用户终端可以是能够运行视频解码器的多个实例或
视频编码器的至少一个实例的专用硬件系统或通用pc。示例性系统的实现
可组合传统MCU的功能和/或其它会议服务器(诸如No. PCT/US06/28366 中描述的SVCS)的功能与本文所述的CSVCS的功能。在这种组合系统中, MCU、 SVCS和CSVCS功能可被选择性地单独或组合使用以服务视频会议 会话中的不同部分或实体。
CSVCS的功能可与svcs的功能互补。该csvcs可被配置成具有 svcs的功能或优点的部分或全部。然而,csvcs与svcs的区别至少在
于与像SVCS进行的那样向每个端点发送多个SVC流不同,csvcs将各个 流封装或组合在单个输出svc流中,其中各个流被指派给不同的切片组。 出于所有目的,csvcs可在随后被考虑为svcs,其中输出级还包括基于
切片组指派的附加过程,以及可能确保输出比特流是顺应的所需的附加层数据的生成。应当注意,所有svcs功能(例如,速率匹配、个性化布局、 差错弹性、随机访问和层匹配、速率控制)可因此在csvcs上得到支持, 以及传送自csvcs的分组数目将基本上等于从以相同会议设置的svcs传
送的数目。 附图简述
根据以下优选实施例及附图的详细描述,本发明的其它特征、特性以及各
种优点将更加显而易见,在附图中


图1是根据本发明的原理其中合成可縮放视频会议服务器(csvcs)被
配置成自端点传送器向客户端接收器递送可缩放视频和音频数据的视频会议
系统的示意性示例;
图2示出了根据本发明的原理从输出视频画面到切片组的示例性划分的
框图3示出了根据本发明的原理从输入视频到各个切片组的示例性指派的
框图4示出了根据本发明的原理时间层的示例性分层画面编码结构的框图; 图5示出了根据本发明的原理SNR或空间增强层的示例性分层画面编码 结构的框图;以及
图6是根据本发明的原理示出的在对基和增强层具有不同预测路径的情 况下的基、时间增强、和SNR或空间增强层的示例性分层画面编码结构的框 图。
图7示出了根据本发明的原理基于切片组的合成过程中从输出视频画面 到切片组的示例性划分的框图。
图8示出了根据本发明的原理用于在合成从组合了不同的空间可縮放比 的CSVCS传送的输出视频信号时构造人造层(artificial layers)的示例性结构 的框图。
具体实施例方式
本发明提供了用于实现使用可縮放视频编码以及具有提供画面在经编码 的域中的合成的服务器的视频会议系统的系统和方法。该系统和方法递送视频 和音频数据,它们通过使用单层编码或可縮放编码技术传送给视频会议参与 方。可縮放视频编码技术将源数据编码成大量不同比特流(例如,基层和增强
层比特流),后者又以各种时间分辨率、质量分辨率(例如,在SNR方面)——
并且在视频的情形中为空间分辨率——提供对原始信号的表示。接收参与方能 够解码比特流,该比特流使用视频编码技术来编码,并且对于各个输入信号而
言包括多个切片层特征。
多个服务器可存在于传送参与方或端点与接收参与方或端点之间的通信 路径中。在此情形中,至少路径中的最后服务器将使用可縮放编码技术实施将 来自传送参与方的传入视频画面合成为单个合成输出画面,并将该合成输出画 面传送到接收参与方。值得注意的是,服务器处或藉由其的合成过程无需解码 或重编码接收自传送参与方的画面数据,但是可能需要生成附加层数据以确保 输出比特流顺应可縮放视频解码器的需要。
为了引用以及帮助对本发明的理解,对于在此描述的本发明的实施例
(在下文中称为"SVC实施例"),假定基层比特流遵从如ITU-T中指定的 ITU-T推荐H.264|ISO/IEC 14496-10 (MPEG4-AVC),以及ISO/IEC JTC 1,
"用于一般视听服务的高级视频编码",ITU- T推荐H.264和ISO/IEC 14496-10 (MPEG4-AVC)。此外,假定增强层比特流遵从ITU-T推荐 H.264|ISO/IEC 14496-10 (MPEG4-AVC)的可缩放扩展(Annex G5可縮放 视频编码,在下文中为"SVC")。使用SVC编解码器会是有益的,例如, 当请求输入视频信号在MCU的输出视频画面中呈现画面大小变化时。注 意,H.264 AVC和SVC标准是不同的。SVC是将出现在H.264的2007版 本中的H.264的单独Annex。对于本发明所描述的实施例,H.264 AVC用 于可縮放编解码器基层,而H.264 SVC用于可缩放编解码器增强层。然而, 为了便于描述,用于基层(H.264AVC)和增强层(H.264 SVC)的可縮放 视频编解码器在本文中可统称为"SVC"编解码器。还应当注意,尽管H.264AVC被认为是单层编解码器,但是其在时间维度上提供可縮放性。还应当 理解,在本发明的实施例中所描述的H.264 AVC和H.264 SVC编解码器的 使用仅是示例性的,并且根据本发明的原理,其它适用于合成画面的编解 码器可取而代之来使用。
图1示出了可在电子或计算机网络环境中实现的、用于在多点和点对 点会议应用中合成画面的示例性系统100。系统100使用一个或多个网络化 服务器(例如,合成可縮放视频会议服务器(CSVCS: Compositing Scalable Video Conferencing Server) 110)来协调向会议参与方或客户端120、 130和 140的定制数据递送。例如,CSVCS 110可协调由端点140生成的发往其它会 议参与方的视频流的传输。在系统100中,首先使用SVC技术将视频流150 适当地编码或縮小成多个数据分量或层。多个数据层可具有不同的特性或特征 (例如,空间分辨率、帧速率、画面质量、信噪比(SNR)等)在考虑到例如 变化的各个用户需求以及电子网络环境中的基础设施规范(例如,CPU能力、 显示尺寸、用户偏好和带宽)的情况下,可适当地选择数据层的不同特性或特 征。
CSVCS 110可具有类似于国际专利申请No. PCT/US06/028366中描述 的可縮放视频会议服务器(SVCS)和可縮放视频会议服务器(SACS)的 那些的可縮放视频信号处理特征。然而,具体而言,CSVCS IIO还被配置 成使用用多个切片组将多个输入视频信号合成为一个输出视频信号的 H.264 AVC和H.264 SVC编解码器。
在系统100中,客户端120、 130和140各自可使用适合交互式会议的终 端。终端可包括人体接口输入/输出设备(例如,相机、麦克风、视频显示器和 扬声器)以及其它信号处理组件诸如编码器、解码器、复用器(MUX)和 分用器(DEMUX)。
此外,如共同待批的国际专利申请No. PCT/US06/028366中所描述的,
在示例性终端中,相机和麦克风被分别设计成捕捉参与方视频和音频信号, 以传送给其他会议参与方。相反,视频显示器和扬声器被分别设计成显示
和回放从其他参与方接收到的视频和音频信号。视频显示器也可被配置成 任选地显示参与方/终端自身的视频。终端中的相机和麦克风可被耦合至模
数转换器(AD/C),后者又被耦合至其相应的编码器。编码器压縮本地数 字信号以使信号传输所需的比特率最小化。编码器的输出数据可被"分组
化(packetize)"成RTP分组(例如,通过分组MUX)以在基于IP的网 络上传输。分组MUX可使用RTP协议执行传统的复用,以及还可实现任 何所需的QoS相关协议处理。例如,如共同待批的国际专利申请No. PCT/US06/061815中所描述的,QoS支持可通过肯定和/或否定确认、连同 对解码用于可靠递送的至少最低时间级的基层所必需的分组进行标记来提
供。终端的每个数据流可在其自身的虚拟信道或IP术语中的端口号中传送。 在本发明的SVC实施例的实现中,系统100在通过对去往CSVCS的 输入比特流使用AVC或SVC编解码器以及对来自CSVCS 110的输出视频 比特流使用SVC合成输出画面时利用多个切片组的特性。然而,系统IOO 中的音频信号可独立于输出视频的合成使用本领域中已知的任何合适的技 术来编码,例如,在ITU-T推荐的G.711或ISO/IEC 11172-3 (MPEG-1音 频)中描述的技术。
图2示出了由CSVCS 110提供的示例性输出视频画面200,该画面是 多个切片组(例如,切片组1、 2、 3、 4)的合成。切片组之间的分隔或边 界在图2中由虚线指示。切片组1、 2、 3、 4可以是ITU-T推荐的H.264| ISO/IEC 14496-10中的语法结构。可在比特流中基于逐画面以ITU-T推荐 的H.264| ISO/IEC 14496-10比特流的画面参数集(PPS)来指定对画面的特 定切片组的分配。PPS可作为比特流的一部分在带内或带外输送。在带内 输送PPS将需要将PPS复用到比特流的接入单元。相反,在带外输送PPS 可能需要对PPD传输使用独立的传输信道,或者可在传输环境中在使用解 码器之前将PPS实现于解码器中。使用最多达256个不同PPS是可能的。 对画面必须使用哪个PPS的信令可通过编号引用在切片报头中指示。
图3示出了从输入视频信号或画面到由CSVCS 110生成的输出视频画 面200 (图2)的切片组的示例性指派。输入视频信号的指派可通过更改切 片报头以及将其指派到输出视频的切片组来在压縮域中实现。例如,在图3 中所示的指派中,输入视频信号0被指派到切片组0,输入视频信号1被指 派到切片组1,输入视频信号2被指派到切片组2,而输入视频信号3和4被一同指派到切片组3。这种指派可通过将输入视频信号映射到输出画面中 切片组的切片来执行。这种方式的映射可导致被指派和未被指派的部分两
者以及区域310在一个特定切片组中(图3)。
根据ITU-T推荐的H.264|ISO/IEC 14496-10,整个经解码的画面(例如, 输出视频画面200)必须由包含在比特流中的经编码的切片数据来描述。由 于从输入视频信号到切片组的切片的指派可导致被指派和未被指派的区 域,因此,CSVCS 110被配置成在合成画面时为未被指派的区域创建经编 码的切片数据。
在本发明的SVC实施例的实现中,经编码的切片数据可包含跳跃宏块 数据或及内部编码宏块数据。后一数据可能是创建输出画面的未经指派区 域的内容所必需的。内部编码数据可具有任何合适的内容。该内容可例如 描述可用较小比特率传送的诸如平面灰色或黑色纹理的画面信号。替换地 或作为补充,内容可描述用户添加信息、图形注解、和诸如会议控制特征 的MCU控制特征。
在系统100中,会议控制特征可响应于客户端/参与方的简单发信号或 请求(例如,客户端/参与方指点视频显示图像屏幕上的特定坐标或区域发 信号)来激活。出于这个目的,CSVCS 110被配置成将信号转译成由视频 显示图像屏幕上的特定坐标或区域表示的动作(例如,使用图像区绘制的 并充当发起特定动作的按钮)。客户端发信号可例如使用HTTP技术来进 行,其中CSVCS提供用于接收此类信号的HTTP接口 ,类似于web服务器。
此外,CSVCS 110可被配置成具有存储在可为其所访问的存储介质上 的多个版本的经编码的切片数据比特,和/或根据其操作的会议上下文在运 行中以最小复杂度生成此类经编码的切片数据比特。
系统200可被配置成有益地使视频会议应用中的端对端延迟性能参数 最小化。例如,在系统100的操作中,去往CSVCS110的输入视频信号可 具有不同的时间分辨率或在画面的时间采样之间具有漂移。因此,形成输 出视频信号的输入视频信号在CSVCS 110处的到达时间会变化。csvcs 110可被配置成通过由输入视频信号到达时间触发而生成输出画面来解决
这种变化的到达时间。这可导致输出视频信号的更高的时间分辨率,并使
端对端延迟以及由迟到达的输入视频信号导致的其它问题最小化。此外,
CSVCS 110可被配置成对不存在内容的那些视频信号部分插入来自可访问
存储介质的预编码切片。
在本发明的一个视频会议实现中,已跳过的画面(即,来自前一帧的 所有画面内容的副本)或以低比特率编码的切片可用于表示未改变的输出 画面内容。在此类视频会议实现中,接收视频会议参与方将能够通过使用
ITU-T推荐的H.264|ISO/IEC 14496-10的ref_pic_list—reordering(参考—画面 _列表_重排序)语法结构操作其终端解码器来访问正确的参考画面(即, 最初由发送参与方的编码器期望的将被用作参考画面的画面)。此外, CSVCS 110可被适当地配置成更改参考画面列表重排序。类似的处置或过
程可用于被采用的任何其它时间分层结构。
在本发明的另一个视频会议实现中,输入视频信号可按经增加的时间 分辨率来编码。增加时间分辨率可通过传送先前编码的画面(即,已跳过
的画面)的副本的附加画面来实现。与画面分辨率无关,已跳过的CIF画 面的字节数目中,2-3个字节对应于画面/切片报头,且2-3个字节对应于宏 块的跳跃信令。注意,此比特率是可忽略的。附加画面的编码表示可被存 储在发送参与方可访问的存储介质中,或者在运行中以最小复杂度生成并 被插入比特流中。在本发明的SVC实施例的实现中,这种每秒中传送的宏 块的增加并不一定不利地影响接收端点的处理功能,因为特定的规定可被 实现以有效地处理已跳过的切片。此外,H.264 MaxStaticMBPS (最大静态 MBPS)处理速率参数(称为ITU-T推荐的H.241中的MaxStaticMBPS)可 用于调节ITU-T推荐的H.264|ISO/IEC 14496-10级信令。给定输入视频信 号的较高时间分辨率,CSVCS 110可在较高的时间分辨率下操作。CSVCS 110还可被配置成根据给定的调度决定包括来自输入视频信号的到达画面 以及使用作为己跳过的画面被插入以补偿到达抖动的非参考画面。这种补 偿可通过用迟到达编码画面替换已跳过的画面来完成。在此类实现中,发 送参与方可将能够通过使用ITU-T推荐的H.264|ISO/IEC 14496-10的 ref_pic—list_reordering语法结构操作其编码器来利用正确的参考画面(即, 最初期望的将由发送参与方的编码器使用的参考画面)。
在本发明的又一个多点视频会议实现中一_其中各个参与方在系统 100中请求不同的比特率以及不同的空间和时间分辨率,发送参与方可以多
个时间分辨率产生视频信号。图4示出了具有多个时间分辨率画面L0、 Ll、 L2的视频信号的示例性分层线程化时间预测结构400。注意,图4中标为 L2的画面未被用作层间预测的参考画面。然而,标为L0和L1的画面形成 预测链。当这些画面(L0, Ll)之一在接收参与方的解码器处不可供用于 参考时,空间-时间差错传播会引入主观视觉畸变。在本发明的SVC实施例 中,作为输入信号发送给CSVCS 110的标为L2的画面可标记为"不用于 参考"。当L2画面作为合成输出画面的分量由CSVCS发送时,如果合成 画面的其它分量被标记为用于参考,则相同的L2画面必须被标记为"用于 参考"。这与它们在国际专利申请No. PCT/US06/28365和 PCT/US06/28366——其中L2无需标记为用于参考——中描述的基于SVCS 的视频会议系统中的使用相反。L2画面的使用差异是由于ITU-T推荐的 H.264|ISO/IEC 14496-10不允许画面为参考和非参考切片的合成而是仅为 其中之一的合成而造成的。与ITU-T推荐的H.264|ISO/IEC 14496-10相一 致,如果到CSVCS 110的多个输入视频信号同时即时地包含参考和非参考 切片,则它们不能被混合成同一输出画面。因此,在系统100的操作中, 为了将非参考L2画面混合到输出流,CSVCS 110将画面L2标记为参考画 面并使用它。画面L2可被编码为需要与画面L0和Ll相同的比特量的常 规编码画面,并被插入到送往已请求特定(L2)分辨率的接收参与方的输 出画面中。对于送往未请求标为L2的画面的另一个接收参与方的输出画 面,CSVCS 110可被配置成用与已跳过的画面相对应的比特替换接收自相 对应的输入视频信号的关于L2画面的比特。在前述多点视频会议环境中, 发送参与方将能够通过使用ITU-T推荐的H.264|ISO/IEC 14496-10的 reflpicJist一reordering语法结构操作其编码器来对画面L0和L2使用正确的 参考画面(即,最初期望的将被发送参与方的编码器用于参考的画面)。 这个过程可进一步扩展到L1画面,并且可用于速率匹配和统计复用目的, 类似于SVCS。
图5示出了示例性分层结构500,它适用于可在系统100的操作中使
用的空间可缩放预测,或者SNR可縮放预测或者这些预测的混合。在结构 500中,用于预测的基层被标为L0。两个增强层被标为S0和Q0。 S0不依 赖于Q0,反之亦然。然而,有在预测中依赖于S0或Q0的其它层。在本发 明的SVC实施例的实现中,LO可以是QCIF画面,Q0可以是3/2QCIF画 面或CIF画面。在示例性多方视频会议环境中,仅一个接收参与方可请求 3/2 QCIF画面而所有其他参与方可请求CIF或QCIF画面。在系统100操 作的这种环境中,为了传输中整个系统的效率,发送参与方除生成QCIF 和CIF画面之外还可生成3/2 QCIF画面。此外,对于这种环境,CSVCS 110 可被适当地配置成以相对应的接收参与方的分辨率转发解码这些信号所需 的比特。此外,对于改进的CSVCS110操作,发送参与方可用可丢弃标志 来标示比特流中未被指定或用于预测的那部分,这在例如国际专利申请No. PCT/US06/28365中描述。
图6示出了又一层画面编码结构600,它组合时间分层结构(图4)和 空间可縮放分层结构(图50)。经组合的结果可用在系统100的操作中。 在此情形中,系统IO被配置成使会议实体(即,各个运行可縮放视频编码 器的发送参与方、CSVCS 110和各个运行可缩放视频解码器的接收参与方) 维护彼此之间的双向控制信道。从发送参与方到CSVCS 110以及从CSVCS 110到接收参与方的控制信道在本文中可称为前向控制信道。相反,从接收 参与方到CSVCS IIO以及从CSVCS 110到发送参与方的控制信道在本文中
可称为反向控制信道。在系统操作时,在会议实体之间实际通信之前,可 在控制信道上进行能力交换。能力交换可包括由每个发送参与方支持的空 间和时间视频分辨率范围的信令。发送者参与方能力的范围被传达给每个 接收参与方,后者在随后可相应地选择或限制他或她对来自发送者的视频 特征的请求。
通过反向控制信道,接收参与方可请求与当前发送给他的空间视频分 辨率不同的空间视频分辨率。类似地,进入视频会议会话的接收参与方可
请求特定空间视频分辨率下的视频。在本发明的svc实施例的实现中,
CSVCS 110被配置成通过更改发送给接收参与方的输出画面的切片组边界
来响应接收参与方的请求。取决于由发送参与方的可縮放视频编码器所支
持的空间分辨率,CSVCS 110可通过其反向控制信道通知可縮放视频编码
器其是否需要支持或生成另一空间分辨率以满足接收参与方的请求。
注意在此,国际专利申请No.PCT/US06/28366描述了设计成处理例 如在国际专利申请No. PCT/US06/028365中描述的编码结构的可縮放视频 会议服务器(SVCS)。前一申请中描述的SVCS具有针对基于其用于使用 可縮放视频编码来操纵视频质量、分辨率和比特率的能力的多点会议设计 的各个特征。所描述的SVCS假定会议参与方的端点将部署若干解码器以 向最终用户提供多个参与方视图("连续出席")。然而,在某些会议情 形中,在端点中仅运行单个解码器可能是有益或必需的。对于这种会议情 形,所描述的SVCS可被进一步配置或更改成具有或应用本文所述的
csvcs的合成功能。在工作时,经更改的svcs可在利用未经更改的svcs
的某些或所有功能之后利用CSVCS 110功能。
作为对csvcs或经更改的svcs的功能的理解的帮助,通过参照通过
引用结合于此的相关国际专利申请No. PCT/US06/28365 、 PCT/US06/028366、 PCT/US06/028367、 PCT/US06/027368 和 PCT/US06/061815在此考虑如何可由CSVCS提供SVCS功能的示例是有益 的。
首先,参照国际专利申请No.PCT/US06/028366,注意,在所引用的申 请中描述的应用于SVCS操作的保护至少基层数据的相同原理可被直接应 用于传送端点与CSVCS之间、CSVCS与接收端点之间、以及在级联的 CSVCS之间的网络连接中的CSVCS操作。这种服务质量可通过使用与 SVCS使用的诸如FEC、 ARQ (肯定/否定确认)、主动式重传等那些相类 似或相同的手段和技术的CSVCS来提供。如果人造层是由CSVCS创建的, 则它们可以与常规层数据(即,从一个或多个传送端点接收到的经编码的 画面数据)相同的方式通过较高或较低可靠性信道传送。以与SVCS的那 些相类似的方式,csvcs可通过从合成输出视频流选择性地消去增强层数
据来响应于变化的网络状况(例如,拥塞)。由svcs使用的统计复用技
术也可由csvcs来使用,使得可以仅接收自传送端点的分量画面的子集被
允许显著超过其长期平均大小的方式来执行合成输出视频流中画面的时间
对齐。CSVCS以与svcs的音频能力相类似的方式使音频能力具有可縮放
编码音频流的特征。对于音频,没有与视频中存在的对应于"空间复用"
的切片组概念的等效方案。svcs的音频特征的并行操作是对音频流的传统 混合。然而,这种音频流混合可被认为是svcs音频操作的附加输出级, 使得例如与减小或消去音频剪辑效应相关的算法仍可由csvc类似地来使 用。最后,csvcs也可以与svcs相同的方式执行网络相关的功能,诸如
网络地址转译、代理等。
注意svcs可与csvcs —同部署在链接一个或多个传送端点与接收
端点的级联布置中。如果接收端点需要合成输出画面,则将csvcs放置作 为级联布置中的最后服务器,并且将svcs放置在级联布置中其它较高位
置处是有益的。还注意国际专利申请No. PCT/US06/028367中描述的通 路(trunking)设计可以与SVCS级联布置相类似的方式应用于CSVCS/SVCS
级联布置。
还有,在国际专利申请No. PCT/US06/027368中描述的用于SVCS系 统的抖动技术可直接应用于CSVCS,其中根据本发明的原理,不被传送的 任何增强层数据可用合适的人造层数据来替换。
作为理解CSVCS的或经更改的SVCS的功能的又一帮助,参照国际专 利申请No. PCT/US06/061815在此考虑如何可由CSVCS提供SVCS功能的 附加示例是有益的。
国际专利申请No. PCT/US06/061815在SVCS系统的上下文中描述的 差错弹性、随机访问和层交换技术也可直接用在CSVCS系统中。注意对 于这些技术的应用,传送节点与CSVCS之间的连接可以与传送节点与
svcs之间的连接相同的方式来对待,因为SVCS与csvcs之间的区别性 不同点在于其输出视频信号格式化而非在于连接特性。对于csvcs与接收 端点之间的连接,通过将csvcs上下文中的每个切片组数据考虑为等效于
SVCS上下文中的传送参与方的画面数据,以及观测到第一,在两种情形
中,仅分组报头数据可能是不同的,并且第二,附加人造层数据可由csvcs
生成,可领会可在csvcs的输出分组中应用相同的差错弹性和随机访问保 护技术。例如,对画面数据作标记以在csvcs环境中进行可靠传输可以与
在SVCS环境中的相同的方式执行(例如,经由RTP报头扩展、经由RTCP 反馈的RNACK等)。SVCS环境中R画面的概念转化为CSVCS环境中的 R切片组的概念。R画面的高速缓冲、传送端点编码器处周期性内部宏块 的使用、以及接收端点处的快进(fast-forward)解码也可在CSVCS环境的 各个切片组的上下文内应用。在SVCS环境中有用的层交换技术也可以相 同的方式使用。例如,基于服务器的内部帧用于差错恢复或者用于支持新 的参与方的概念可应用于CSVCS环境中的切片组。类似于SVCS, CSVCS 必须解码来自传送参与方的传入视频数据的部分,尤其基层的至少最低时 间级,并且配备成如在内部重新编码经解码的画面数据。当多环路解码能 力在接收端点可用时,则层交换如SVCS那样被显著简化,因为服务器无 需提供内部数据。
最后,美国临时专利申请No. 60/778,760和60/787,031中描述的速率 控制技术、美国临时专利申请No. 60/774,094中描述的流縮减(stream thinning)以及美国临时专利申请No. 60/ 827,469中描述的多播SVCS技术 也可直接应用于CSVCS。例如,临时专利申请No. 60/787,031中描述的技 术一一藉此S2画面通过使用基层经编码的信息(模式、运动矢量等)经适 当縮放后在解码器处被隐藏一一可应用于CSVCS环境中的特定切片组内 的数据。值得注意的是,相同的隐藏效果可通过在CSVCS替换S2画面, 以及其在合成输出画面中的位置处插入指导解码器使用基层信息的经编码 的数据。这种方法的益处是接收端点无需任何特定支持,并且因此任何SVC 顺应的解码器将正确地操作。
以上示例仅是示例性的而非旨在穷举或限制。应当理解,根据本发明 的原理,在对合成输出视频信号生成过程进行适当处理的情况下,可在 CSVCS中执行任何SVCS操作。
通过重新参看图l,还注意在系统100和CSVCS 110的操作中,与
合成比特流中存在的各个参与方相关联的各个比特流可从合成比特流中被
容易地提取。CSVCS IIO可被配置成从合成比特流中直接提取这些单独的 比特流,并将它们重新插入不同的合成比特流。CSVCS IIO的这种配置使 得级联CSVCS IIO能够根据参与方或下游服务器的偏好提供对构成流的完
全重新复用。因此,此类具有重新复用能力的CSVCS110可完全支持经扩 展的视频会议系统的级联和分布式操作特征,这在例如国际专利申请No. PCT/US06/28366中有描述。
根据本发明,系统100可被进一步配置成向各个参与方和/或切片组输 送信号源标识信息或其他有用信息(例如,目录信息、屏幕帮助(onscreen help)等)以使得源标识或其他信息可被显示在参与方的显示屏上。系统 100的这种配置将允许参与方标识合成画面中包含的流的源。这种标识信息 可包括标识文本串或在与各个参与方的视频信号相对应的切片组旁边显示 的预组成切片数据。例如,标识信息可包括用姓名(例如,"John Smith") 或用位置(例如,"Dallas, Room A")标识参与方的文本串。在合成画面 中,标识信息或其它被输送的信息可覆盖在每个参与方的各个像素上,或 可在围绕被指派给各个参与方的区域的未被指派的图像区(例如,图3的 未被指派的区域310)中显示。标识信息可或者在带外或者在带内作为私有 数据传送。
在下文中,本发明的SVC实施例的描述涉及使用切片组的特定合成机 制,以及在需要确保输出比特流顺应可縮放视频解码器时涉及附加层数据 的生成。
为了将输入比特流指派给合成画面中的切片组,CSVCS使用描述合成 画面中的切片组的布局的映射。具体而言,这种在此后标示为 MapOfMbsToSliceGroups (宏块到切片组的映射)的映射提供了包括输出比 特流的合成画面的宏块与标识输入比特流的切片组之间的关联。
参看图7,假定服务器处有分别在分辨率QCIF、 CIF和CIF下的三个 传入流,并且期望从这三个传入流中创建出画面大小4CIF的合成视频信号。 图7中示出了可能的映射MapOfMbsToSliceGroups (映射700)。在映射 700中,用0作索引的切片组705对应于QCIF流,而切片组1和2 (分别 为710和720)对应于CIF流。画面中未被指派的区域730也具有切片组索 引(例如,在此情形中为3)。
注意映射MapOfMbsToSliceGroups (例如,映射700)并非唯一,并 且可有多种将不同切片组安排在合成画面中的方法。特定布局可通过由用
户的特定请求而获得,以及由csvcs或者任何其它合适的技术自动计算
出。类似地,切片组的特定编号可使用任何合适的技术来获得,例如,在 一种技术中通过对传入比特流进行索引,并在随后根据其索引以光栅扫描 在合成画面中从最小到最大、从左到右、从上到下定位相对应的切片组。 可能需要向接收合成视频信号的参与方传送映射
MapOfMbsToSliceGroups,以便能够适当地解码它。这种传输可通过经由如 H.264的子款7.3.2.2和7.4.2.2中指定的切片组标识语法在合成信号的画面 参数集中结合MapOfMbsToSliceGroups来实现。
具体地,MapOfMbsToSliceGroups可通过如下设置被结合到合成视频 信号的画面参数集中
num—slice_groups—minusl = NumAssignedAreas;
/
slice—group_map—type画—画6; 〃 (指示MB到切片组的显式指派) pic_size—in_map—units_minusl = NumMbs-1; for(i=0; i<=pic—size—in—map—units—minusl; i++) slice—group—id[ i〗=MapOfMbsToSliceGroups[i];
其中对于图7的示例性指派,NumAssignedAreas为3,而NumMbs为 4乘396 (4乘CIF)或1583。注意切片组映射类型2 (矩形加背景的集 合)也可用在这里来替代类型6 (任意指派)。
为了实现来自输入比特流的切片组到输出比特流中相对应切片组的适 当指派,给定如由SVC标准指定的切片报头语法,CSVCS必须创建附加 映射。这种附加映射是各个流的宏块(MB)索引与合成信号的MB索引之 间的对应映射。例如,流1 (图7中的710)的宏块索引0对应于合成画面 中的MB索引22。将这种两维映射标示为MapMblndex,对于以上给出的 示例,MapMbIndex[l][O] = 22。
用于将切片指派到切片组的过程如下考虑来自流n (例如,在图7 的示例中11=0、 1、 2)并执行以下步骤
(a)解析切片报头的比特流以计算出该切片中第一 MB(first—mb—in—slice)的索引。令此数值为k。
(b) 使用MapMblndex确定该MB在合成画面中的相对应索引/位置。即 为MapMbIndex[n][k]。
(c) 根据子款7.3.1/H.264从切片的NAL单元中消去 emulation_prevention_three—byte语法元素。
(d) 用数值MapMblndex[n][k]交换/替换现有first—mb_in—slice语法元素。
(e) 根据子款7.3.1/H.264再次将emulation_prevention_three_byte语法
元素插入NAL单元。
对将包括在合成输出画面中的所有传入流的所有切片重复上述步骤(a) 到(e)。
继续参看图7,对于合成画面中未被指派的区域730 (即,未对其指派 任何传入流),CSVCS过程如下
首先,或最初,对合成画面执行以下步骤
(a) 创建将在此区域中包含经压縮的MB的比特的切片。对于给定的有 限画面大小集和CSVCS的配置选项,该切片可被预存储或以另外方式联机 计算出。
(b) 将切片类型(在切片报头中)设置成2 (I切片)。
(c) 此切片中第一MB的索引(设置在切片报头中)应当对应于合成画 面中第一未被指派的MB的位置(在以上示例中为ll)。
(d) 用对于高效编码而言较佳地为所有相等值的像素值来填满未被指派 的区域。该值较佳地为灰度值,B卩,对于在左上角MB中高效使用 Intra—16xl6_DC预测模式而言样本值应当等于128。
(e) 将此处所有MB压縮为内部16x16,并且将相对应的MB报头中的 mb—type参数设置成此模式。具体地,取决于宏块的具体位置,其模式
(mb—type)应当选自
(i) I_16xl6_0_0_0 (从其上侧的MB进行垂直预测)
(ii) I_16xl6—1—0_0 (从其左侧的MB进行水平预测)
(iii) I_16xl6_2—0_0 (在没有邻元可用时的DC预测)
并且在使用CAVLC,偏向给予I_16xl6_0_0—0或I_16xl6—1—0_0 mb一type 值。当使用CABAC时,偏向给予I—16x16—2—0_0,并且对于切片中的所有 宏块而言,此mbjype值相等,以使得CABAC可将其高效地编码。
继续参看图7,对于合成画面中区域730的未被指派的后续画面,执 行以下步骤
(a) 创建将在此区域中包含经压縮的MB的比特的切片。对于给定的有 限画面大小集和CSVCS的配置选项,该切片可被预存储或以另外方式联机 计算出。
(b) 将切片类型(在切片报头中)设置成0 (P切片)。
(c) 此切片中第一 MB (first_mb_in—slice)的索引应当对应于合成画面 中第一未被指派的MB的位置(在图7的示例中此为11)。
(d) 通过设置mb_skip—run (对于CAVLC)或将mb_skip—flag设置成1 (对于CABAC)来将所有宏块类型mbjype设置成P一Skip。
注意在所有切片和切片组中,合成输出画面必须对NAL单元报头的 temporal—id禾卩dependency—id参数具有相同的值。 temporal—id的指派通过以下来获得
(a) 如果输入比特流关于其时间结构在时间上同步,则对输出画面指派 与指派给相对应输入画面相同值的temporal_id。这是较佳的操作模式。当 输出视频到达时间层和差错弹性处理时,它被作为输入视频来操作。
(b) 否则(输入比特流在时间上不同步),对输出画面指派temporal—id 必须被操作成允许用在各个输入比特流中的所有层间预测结构。通常(且 实际上),这导致将相同的层号(temporal—id = 0)指派给输出流的所有画 面。
然而,CSVCS可跟踪各个输入比特流的时间依存结构。由于切片(以 及,因此的切片组)在分开的分组中传送,因此涉及基于分组的重传、前 向纠错、以及通常为SVCS设计的任何技术的差错弹性机制可应用于在 CSVCS中的切片,并由此应用于切片组。
在CSVCS系统中,用于指派dependency—id的过程如下 (a)如果输入比特流被同步以使得对于所有层处的所有输出画面而言,
输入画面中存在相同值的dependencyjd,则该值或经移位的dependency—id
值被使用。
(b)否则(dependencyjd不同),输入比特流的dependencyjd被调节 成使得对于合成输出画面的每一层而言,它们跨切片组相同。这可能需要 增加输入信号的某一部分的dependency—id值以及添加额外的基层。
这个过程可通过继续参照图7的示例来理解。在此示例中,两个CIF 信号(切片组1710和2 720)以及一个QCIF输入信号(切片组0 705)被 组成4CIF输出画面。假定CIF信号的每一个用空间可縮放性编码,并且具 有QCIF分辨率的基层被提供给每个信号。输出画面的基层是包含(在此示 例中)分别为两个CIF增强层输入信号(切片组1 710和2 720 , dependency—id =1)的两个QCIF基层(dependency—id = 0)的CIF画面。此外,假定QCIF 输入信号(切片组0 705)不具有基层。然后,其d印endency—id值等于O, 并且在相同层处此相同信号被用作合成输出画面内的两个CIF输入信号(切 片组1710和2 720)时必须被增至1。因此,必须由CSVCS为合成输出画 面的基层创建例如附加QQCIF (四分之一QCIF)基层。在此生成层中包含 的画面可以是完全空的,即,仅包含P—Skip宏块且不被用于层间预测。其 被创建并添加到合成输出画面仅是为了使SVC顺应解码器能够适当地解码 合成输出画面。
当使用空间可縮放性时,必须对与输入信号相对应的切片组使用相同 比率的空间分辨率。取决于空间分辨率的比率,执行以下步骤
(a) 如果于输入信号中存在一个分辨率的比率(例如,输入A: QCIF、 CIF、 4CIF,而输入B: QQVGA、 QVGA、 VGA等,其中比率为2),则 空间分辨率之间的比率总是匹配。然后,这些分辨率可在合成输出画面的
所有空间层被混合。
(b) 否则(在输入信号中存在多于一个的空间分辨率的比率),则中间 层可被插入以确保空间分辨率的比率对于合成输出画面的所有层而言相 同。
例如,假定空间比率1.5和2都存在于旨在要被合成的输入信号中。 更准确地,参照图7,假定CIF切片组1710输入信号具有2/3CIF分辨率
的基层,CIF切片组2 720具有QCIF基层,而QCIF切片组0具有QQCIF 基层。CSVCS必须被配置成在3个空间层且相对应dependency—id值为0、 1和2的情况下运行。对于这些要由CSVCS插入合成输出画面的输入信号, 必须生成中间人造('虚拟(dummy),)层。这在图8中示出,其中使 用了与图7相同的合成画面布局,但是具有传入视频信号的分量的相对应 层数据的低层画面也被示出。对于切片组2的CIF输入信号832,必须创建 具有2/3 CIF分辨率的人造中间层822,而对于切片组O的QCIF输入信号 830,必须创建具有分辨率2/3QCIF的人造中间层820。最后,对于切片组 1的CIF输入信号831,人造基层811必须被创建成具有QCIF分辨率。用 于编码这些人造层的有效方法是使用P—Skip模式编码除了初始画面中可包 含如先前所述的可被非常有效地表示的内部编码灰度值的宏块之外的所有 宏块,而非将它们用于层间预测。
此外,本文进一步的描述涉及将接收自传送端点的传入画面同步到要 传送给一个或多个接收端点的合成输出信号。
注意由于作为合成输出画面的一部分的传入帧的至少之一很可能被 用作其自身相应流的参考画面,因此CSVCS序号将每个传出合成画面标记 为传出比特流中的参考画面。此外,由于来自一个或多个传送端点的传入 画面数据在CSVCS处非同步到达,对于传入比特流和合成传出比特流中的 相同画面而言,可能具有不同的帧号。这在于接收端点处解码合成画面时 可能导致差异,因为对相应切片组中先前帧的适当参考可能未被适当地建
因此,csvcs需要解决两个问题。首先在不同传入流的帧在时间上非 同步到达csvcs时创建合成帧。第二,确保包括切片组的画面对预测维护
适当的参考(相对于被发出的合成信号)。
画面的同步可通过以下两种技术中的一者来执行
1. 对于CSVCS处大于或等于具有最大采样频率的输入流的采样频率的 给定采样频率,使用与画面到达时间相对应的窗口缓冲传入画面;以及
2. 使用与CSVCS具有AT时间段的采样时间相对应的窗口缓冲传入画 面,其中AT是合成信号的帧速率(FPS)的倒数。为了创建需要在每个时
间采样处发出的新的合成画面,检查在最后w个时间单位内已到达csvcs
的新的内容。窗口宽度W可例如选为1/FPS。
以下算法示出了用于画面同步的示例性csvcs操作-
frame—num = 0;
fort = AT, 2AT,…,
for每个n传入视频流
if(流n的新的切片数据在(t, t-W)到达) 将次切片数据指派给相对应的切片组 对该组中的每个切片应用ref_pic_list_reordering() 为该流更新映射MapOriglnd和MapCompInd
else
跳过相应切片组中的此切片数据(使用一般数据) 在切片报头中为该组中的每个切片设置frame—num 发送此合成画面
更新帧计数器frame—num++ 其中语句
对该组中的每个切片应用ref_pic—list一reordering()
为该流更新映射MapOriglnd和MapCompInd 涉及在合成输出画面中维护正确参考画面的问题,并在此进行描述。
只要新的内容到达服务器时,就用设置在切片报头中的 refjicJistjeordering()语法以及映射MapOriglnd和MapCompInd来创建适
当的参考画面列表。具体地,csvcs需要保持对切片组(传入视频流)的
原始参考画面索引如何被映射到传出合成画面索引的跟踪。具体地,只要
流中新的切片数据到达csvcs,服务器就将其原始索引放置在称为 MapOriglndex的映射的前端,以及将其合成画面的索引放置在称为 MapCompIndex的映射的前端,同时将原始条目向右移一个位置。此外,如 果这些映射的长度在某个时间超过特定长度时,则从此刻起只要新的条目 被追加到顶端,服务器就将简单地丢弃这两个映射中的最后条目。因此, 这些映射如有限容量堆栈那样操作。
csvcs为传入流的每一个维护这样的一对映射。这些映射可在随后被 表示成两维数组,其中映射中的第一索引指流索引(在图7的示例中n = 0、 l或2),而第二索引的大小在零与某个预定义数(MaxNumRefFrame)的 范围内,该第二索引指定了希望为传入流保持对多少过去的帧的跟踪。
假定关于流n的新的画面切片数据到达并将其放置在合成画面中的适 当切片组中。对于组中的每个切片,CSVCS对切片报头数据执行以下操作 〃检查是否已适当地重排序 if(ref_pic—list—reordering—flag—10 -— 1) do 〃可从切片报头读取此标志 index = 0; CurrPic = frame_num; 从报头读取第一 reordering—of_pic—nums—idc while (reordering—of_pic—nums—idc!= 3 ) do if (reordering—of_pic—nums_idc = = 0 || reordering—of_pic—nums—idc —
=l)do
〃短期参考画面 从矛艮头读取abs—diff_pic_num—minusl if(reordering—of_pic—nums—idc = = 0)
PredOrigPic = MapOrigInd[n][index]-(abs_diff_pic_num—minusl+1) else
PredOrigPic = MapOrigInd[n〗[index]+(abs—diff_pic—num—minusl+1)
complndex = find index(MapOrigInd[n][:] = = PredOrigPic)
PredCompPic = MapComInd[n] [complndex];
if (CurrPic > PredCompPic)
abs_diff_pic_num_minusl = CurrPic - PredCompPic - 1; 将reordering_of_pic—nums—idc = 0写入切片报头中; 〃替换目前的reordering—of_pic—nums—idc值
else
abs_diff_pic_num—minusl = PredCompPic - CurrPic - 1; 将reordering—of_pic—nums—idc = 1写入切片报头中;
〃替换目前的reordering—of_pic—nums_idc值 将abs_diff_pic_num_minusl写入切片报头中; index++; 〃移到下一条目 CurrPic = PredCompPic; else if(reordering—of_pic_nums—idc = = 2) do 从切片报头读取long—term_pic—num
index—long—term = fmd(MapOrigInd[n][:] = = long_term_pic_num) 将MapCompInd[n] [index_long_term]写入切片报头中 从切片报头读取下一 reordering—of_pic—nums—idc end(while ( reordering—of_pic—nums—idc != 3 )) else
〃(ref_pic—list_reordering—flag_10 == 0) 〃未请求预先重排序 在切片报头中设置ref_pic—ist—reordering_flag—10 (= 1) CurrPic = frame_num; for index = 0,…,MaxNumRefFrame-1 if(CurrPic > MapCompInd[n][index])
abs—diff_pic_num_minusl = CurrPic — MapCompInd[n] [index] - 1; 将reordering_of_pic_nums—idc = 0写入切片报头中;
else
abs_diff_pic—num—minusl = MapOCompInd[n〗[index] - CurrPic - 1;
将reordering—of_pic_nums—idc = 1写入切片报头中;
将abs—diff_pic—num—minusl写入切片报头中;
CurrPic = MapCompInd[n] [index]; 写入reordermg—of_pic—nums—idc = 3; end (结束对现有的ref_pic_list_reordering_flag—10标志的if-else检查)
注意本文描述的操作假定仅存在P个切片。类似过程应用在B个切 片的情形中(设置切片报头中的ref_pic—list_reordering—flagjl),如同通过 ref_pic_list—reordering()语法在切片报头中设置的那样。此外,注意参考 画面的索引存储是从最近到达服务器的那一个(index = 0)到在过去已到
达的最远的那一个(index = MaxNumRefframe-l)。
一旦新的画面数据从传送参与方的视频流到达,则CSVCS需要在映射 MapOrigInd和MapCompInd中注册其索引(如果其是参考画面),使得画 面可在随后的操作中使用。具体地,以下操作被执行。首先,CSVCS从流 n的新的画面数据的任何切片报头提取原始帧号("orig—frame—num")。 然后,MapOriglnd和MapCompInd按如下更新(堆栈插入)
for index = MaxNumRefFrame - 1,…,1
MapOrigInd[n][index]) = MapOriglnd [n][index-l]) MapCompInd[n] [index]) = MapCompInd[n] [index-1])
MapOrigInd[n][index-l]) = orig—frame—num;
MapCompInd[n] [index-1]) = frame_num;
当接收自传送端点的传入视频信号的时间编码依存结构兼容时,即使 在帧速率不同的情况下,CSVCS理想地对齐它们也是可能的。例如,假定 使用国际专利申请PCT/US06/028365的线程化画面编码结构,以及来自两
个传入参与方的画面---个具有三个层lo、 li和l2且每秒总共30帧
而第二个具有三个层L0、 LI和L2且每秒总共15帧——被组合。CSVCS 可为第二参与方创建人造时间层L2',并进行构造合成输出画面使得第一参 与方的L0、 LI和L2分别如第二参与方的L0、 LI和L2'那样被组合在相同 的输出画面中。这允许在合成输出视频画面内保留线程化模式。
CSVCS也可执行空间分辨率的切换、上采样、以及输入信号在合成输 出视频信号中的移动。
增大(up sizing)(增加一层)是通过在所有层的I切片一一即对相对 应的切片组一一内发送内部宏块来实现的。所有内部数据是需要的,因为 dependency—id的值需要如上所述地进行调节,并且在SVC顺应解码器中不 允许跨不同dependency—id值的运动补偿。相对应的切片组随后覆盖合成 输出画面更大的区域。合成输出画面中的其它切片组可能因此需要移动。 内部数据可在CSVCS自身处计算出一一在其必须至少解码最低时间级的 基层的情形中,或者可通过端点基于来自CSVCS的请求而产生。縮小是以 与增大相同的方式来执行的。
接收自传送端点的特定视频信号的上采样可通过插入在CSVCS处生 成的附加增强层来执行,其中所有宏块被编码以使得内容仅从较低层的宏 块处复制。在参与方的视频信号中纳入附加层可能需要使用本文所述的技 术重新组织合成输出画面的整个可縮放结构。
移动输入信号较佳地按宏块的倍数来进行。接收机可使用用户界面请
求(例如,鼠标拖曳)来移动画面。csvcs通过相应地调节运动矢量来解
决移动(加上/减去16的整数倍的采样位置)。注意运动矢量通常被差分
编码,并且在此情形中,仅第一运动矢量的值最可能需要改变。
虽然已对被认为是本发明的优选实施例的那些进行了描述,但是本领域技
术入人员可认识到,可对其作出其它和进一步变化和更改而不背离本发明的精
神,并且旨在要求落在本发明的精神内的所有这些变化和更改的权利。 还应当理解,本发明的系统和方法可使用任何合适的硬件和软件组合来实
现。用于实现和操作前述系统和方法的软件(即,指令)可提供于计算机可读
介质上,可包括但不限于固件、存储器、存储设备、微控制器、微处理器、
集成电路、ASICS、可在线下载的介质以及其它可用介质。
权利要求
1.一种用于通过通信网络在多个端点之间进行视频会议的多端点视频信号会议系统,所述系统包括会议桥接器(“合成可缩放视频编码服务器”(CSVCS)),它通过至少一个通信信道各自链接到至少一个接收端点和至少一个传送端点,至少一个端点,它使用或者单层编码格式或者可缩放视频编码格式来传送经编码的数字视频信号,以及至少一个接收端点,它能够将以可缩放视频编码格式编码的至少一个数字视频流解码,其中所述CSVCS被配置成将接收自传送端点的输入视频信号组合成单个合成编码数字视频输出信号,以及将所述单个合成编码数字视频输出信号转发到所述至少一个接收端点。
2. 如权利要求1所述的会议系统,其特征在于,所述CSVCS被配置成将接收自传送端点的输入视频信号组合成单个合成视频输出信号,以及 在不解码和/或重编码所述输入视频信号的情况下将所述单个合成视频输出信号转发到所述至少一个接收端点。
3. 如权利要求l所述的系统,其特征在于,所述通信网络包括服务质 量(QoS)支持,使得高可靠性和低可靠性传输信道可用于自传送端点向所 述CSVCS以及自所述CSVCS向所述接收端点传输经可縮放编码的视频数据,以及其中基层的至少最低时间级通过所述传送端点与所述csvcs之间或所述csvcs与所述接收端点之间的传输信道可靠地传送。
4. 如权利要求3所述的系统,其特征在于,QoS是经由肯定确认或否 定确认或者两者来提供的。
5. 如权利要求3所述的系统,其特征在于,QoS是经由前向纠错(FEC) 技术来提供的。
6. 如权利要求l所述的系统,其特征在于,所述CSVCS被配置成通 过以下操作为所述接收端点的至少一个组合输出信号画面将所述合成输出画面的区域中的一部分指派给预期要被纳入所述合成输出画面中的每个传送端点;丢弃接收自所述传送端点的传入视频信号数据中与以下之一相对应的 那些分辨率比所述组合画面所预期的分辨率高;数据无需在所述组合画面所预期的所述分辨率下解码;以及不被纳入所述合成画面的传送端点;通过改变报头信息来更改所述传入编码视频信号的剩余数据使得它们形成所述合成输出视频信号的适当数据;在需要时为所述传送端点视频信号中的至少一个生成人造层数据;以及向所述一个或多个接收端点传送所述经更改的数据和任何所生成的低 层数据,使得在所述CSVCS处没有进行画面数据的解码或编码。
7. 如权利要求6所述的系统,其特征在于,所述至少一个接收端点能 够将以H.264 SVC可縮放视频编码格式编码的视频解码,并且其中将所述合成输出画面的区域中的多个部分指派给预期要被纳入所述合 成输出画面中的传送端点是通过在所述合成输出信号中的画面参数集中定 义切片组映射来执行的,并且每个传送端点对应于一个切片组,以及所述将所述合成输出画面的区域中的各部分指派给传送端点是通过向 所述至少一个接收端点传送所述画面参数集来通信传达给所述至少一个接 收端点的。
8. 如权利要求7所述的系统,其特征在于,配置成在带内或带外向所 述一个或多个接收端点输送所述画面参数集。
9. 如权利要求7所述的系统,其特征在于,还被配置成使得所述合成 输出画面被标记为用于参考一一当从所述传送端点接收到的被纳入所述合成输出画面的 所述输入画面中的至少一个被标记为用于参考时;以及不用于参考一一当从所述传送端点接收到的被纳入所述合成输出画面 的所有所述输入画面被标记为不用于参考时,其中如果所述合成输出画面被标记为用于参考,则在从所述传送端点 顺序接收到的画面的所述切片被传输到所述至少一个接收端点之前将所述参考帧重排序命令插入到所述切片中,从而确保在所述一个或多个接收端 点处所述参考画面缓冲器的适当操作。
10. 如权利要求7所述的系统,其特征在于,SVC合成输出画面NAL 单元的NAL扩展报头被设置成相同的dependencyjd值被用于所述合成输出画面中与在所述合成输 出画面中存在的最高可縮放编码层相对应的所述NAL单元,并且相同但后 继较低的dependency_id值被用于后继较低层的NAL单元;以及其中所述temporal—level被设置成当从所述至少一个传送端点到达的所述画面被合成使得时间级被同步 时,则相同的temporal—level值被用于与所述最高可縮放编码层相对应的所 述NAL单元,而后继较低的temporalJevel值被用于后继较低层,以及当从所述至少一个传送端点到达的所述画面未被合成使得所述时间级 被同步时,则值O被用于所述合成输出画面的所有NAL单元。
11. 如权利要求6所述的系统,其特征在于,由所述CSVCS将合成输 出视频画面的区域中的特定部分指派给特定传送端点的视频信号是被预定 义的。
12. 如权利要求6所述的系统,其特征在于,所述将合成输出视频画 面的区域中的特定部分指派给特定传送端点的视频信号是基于以下由所述 CSVCS动态执行的来自所述接收端点的对特定空间分辨率的请求,来自所述接收端点的对所述合成输出画面内的特定空间位置的请求,以及其组合。
13. 如权利要求6所述的系统,其特征在于,对特定传送端点的视频 信号进行所述合成输出视频画面的区域中特定部分的所述CSVCS指派是 由所述CSVCS在考虑所述至少一个接收端点的解码能力或分辨率性能的 情况下执行的。
14. 如权利要求6所述的系统,其特征在于,所述CSVCS被配置成通 过以下中的至少一个来响应于具有不同时间比率的输入视频信号或者在所 述输入视频信号的到达时间内具有漂移的输入视频信号 传送由传入画面触发的输出画面;基于所述输入视频信号的最大帧速率传送输出画面; 基于预定义的时间调度传送输出画面,以及其中所述CSVCS还被配置成当所述输入视频信号的新的画面未 准时到达用于传输时通过以下来响应传送指导所述至少一个接收端点重复来自前一画面的数据的预编码切 片数据;在将所述输入视频信号的后一画面传输到所述至少一个接收端点之前 将参考画面列表重排序命令插入所述后一画面的所述画面报头中,以确保 为所述后一画面执行适当的参考画面选择。
15. 如权利要求14所述的系统,其特征在于,所述CSVCS还被配置 成在消去被丢弃画面数据将不对所述至少一个接收端点处的所述解码过程 产生不利影响的情况下丢弃且不转发接收自传送端点的画面数据,以及传 送接收自相同传送端点的稍后画面的画面数据取代所述被丢弃的画面数 据,以使得所述传送端点的所述画面在要传送给所述至少一个接收端点的 所述合成输出视频信号中与其它传送端点的那些画面同步。
16. 如权利要求6所述的系统,其特征在于,所述CSVCS还被配置成 将接收自所述至少一个传送端点的至少最低时间级的最低空间和质量分辨 率的视频信号解码,以及其中所述CSVCS还被配置成针对所述传送端点的 所述视频信号在目前接收端点的所述合成画面配置需要改变时受到影响而 生成内部编码,并且将所述内部编码传送给所述接收端点以替代接收自所 述传送端点的相对应的经编码的画面数据。
17. 如权利要求1所述的系统,其特征在于,在级联布置中包括多个 CSVCS,其中并非所述级联布置中的最后一个的至少一个CSVCS被配置成 任选地在不进行处理的情况下,将从所述级联布置中较前的CSVCS处接收到 的合成编码画面转发到其它CSVCS;或者分解从所述级联布置中较前的csvcs处接收到的所述合成编码画面, 并且使用在将它们转发到其它csvcs之前使用不同的布局重新组合它们。
18. 如权利要求1所述的系统,其特征在于,在级联布置中包括至少一个svcs和至少一个csvcs,其中所述至少一个svcs被配置成仅选择从所述传送端点或其它svcs接 收到的视频信号的一部分或全部,以及将所选择的数据转发到其它svcs 或csvcs,以及csvcs是所述级联布置中最后的服务器,它创建用于传输到所述一个或多个接收端点的所述合成编码输出画面。
19. 如权利要求l所述的系统,其特征在于,所述CSVCS被配置成为所述合成输出视频画面的区域中未被指派给任何传送端点的那些部分生成 经编码的画面数据并传送所述经编码的画面数据。
20. 如权利要求19所述的系统,其特征在于,为所述合成输出视频画 面的区域中未被指派给任何传送端点的那些部分而被传送的经编码的画面 数据是通过以下之一来生成的将动态生成的新的内容编码;检索先前已 被计算出并存储的经编码的数据;以及其组合。
21. 如权利要求1所述的系统,其特征在于,还包括端点与所述CSVCS 之间的反馈信道,其中所述CSVCS还被配置成通过所述反馈信道响应于经 由内部内容通信传达的端点指令。
22. 如权利要求1所述的系统,其特征在于,所用的所述可縮放视频 编码技术的编码依存性是如此进行未被其它层用作参考的增强层被标记 为可丢弃。
23. 如权利要求22所述的系统,其特征在于,所述CSVCS还被配置 成任选地丢弃被标记为可丢弃的增强层。
24. 如权利要求1所述的系统,其特征在于,还包括链接传送端点与 所述CSVCS、以及所述CSVCS与接收端点的双向控制信道。
25. 如权利要求24所述的系统,其特征在于,还被配置成经由通过所 述CSVCS的所述双向控制信道提供所述传送与接收端点之间的能力交换, 籍此所述传送端点指示其在空间、时间、质量分辨率和比特率方面的能力, 而所述接收端点指示其支持这些能力中的哪些。
26. 如权利要求25所述的系统,其特征在于,所述CSVCS被配置成 从接收端点处接收对输出视频信号的合需的空间分辨率的请求。
27. 如权利要求26所述的系统,其特征在于,所述CSVCS被配置成 更改所述合成输出画面中的所述空间布局,以适应不同的空间分辨率请求。
28. 如权利要求26所述的系统,其特征在于,所述CSVCS被配置成 指导传送端点对其传送的视频信号增加或削减空间分辨率。
29. 如权利要求l所述的系统,其特征在于,所述CSVCS被配置成在 带内或带外比特流之一上纳入用于显示的源标识信息或其它信息。
30. 如权利要求l所述的系统,其特征在于,所述CSVCS被配置成在 以下中的一者上覆盖源标识信息或其它被输送的信息(l)所述合成输出画面的区域中被指派给输出画面中的每个参与方的那些部分的像素,以及(2) 所述合成输出画面的区域中未被指派给所述传送参与方的所述视频信号的 任一个的那些部分的像素。
31. 如权利要求1所述的会议系统,其特征在于,所述CSVCS被配置 成通过选择性地复用接收自传送端点的所述视频信号层作为所述合成输出 画面的分量、以及将所述分量连同在所述CSVCS处生成的确保在所链接的 接收端点处接收到的所述合成输出信号是有效的经编码的视频比特流的任 选附加数据转发到所链接的接收端点来向通过所述CSVCS链接的至少一 个接收端点提供连续出席、个性化布局、速率匹配、差错定位、以及随机 进入特征的至少一个。
32. 如权利要求31的会议系统,其特征在于,所述CSVCS还被配置 成通过以下的至少一项来响应于带宽状况-统计地复用来自多个传送端点的视频信号;以及使接收自传送端点的视频信号的所述合成和传输同步,以在所述合成 输出视频信号中交错大于平均的视频画面。
33. 如权利要求31的会议系统,其特征在于,所述CSVCS还被配置成通过用向所述至少一个接收端点指示从前一画面复制相对应的像素数 据的经编码的数据以替换接收自所述至少一个传送端点的经编码的画面数 据来更改所传送的合成输出信号的比特率,以及 传送所述替换的经编码的数据, 以使得所述输出比特率可与合需特性相匹配。
34. 如权利要求l的会议系统,其特征在于,所述CSVCS还被配置成 提供会议网络边界控制、媒体代理、防火墙和网址转译功能中的至少一者。
35. —种通过通信网络在多个端点之间进行视频会议的方法,所述方法 包括使用通过至少一个通信信道各自连接到至少一个接收端点和至少一个传 送端点的会议桥接器("合成可缩放视频编码服务器"(CSVCS));以或者单层编码格式或者可縮放视频编码格式传送来自至少一个传送端 点的经编码的数字视频信号;以及在所述CSVCS处,将接收自传送端点的输入视频信号组合成单个合成 编码数字视频输出信号,以及将所述单个合成编码数字视频输出信号转发 到能够将以可縮放视频编码格式编码的至少一个数字视频流解码的所述至少 一个接收端点。
36. 如权利要求35所述的方法,其特征在于,所述CSVCS被配置成 将接收自传送端点的输入视频信号组合成单个合成视频输出信号,以及其 中将所述单个合成视频输出信号转发到所述至少一个接收端点包括在不解 码和/或重编码所述输入视频信号的情况下如此进行。
37. 如权利要求35所述的方法,其特征在于,所述通信网络包括服务 质量(QoS)支持,使得高可靠性和低可靠性传输信道可供用于自传送端点 向所述CSVCS以及自所述CSVCS向所述接收端点传输经可縮放编码的视 频数据,所述方法还包括通过所述传送端点与所述CSVCS之间或所述 CSVCS与所述接收端点之间的传输信道可靠地传送基层的至少最低时间 级。
38. 如权利要求37所述的方法,其特征在于,还包括经由肯定确认或 否定确认或者两者提供QoS。
39. 如权利要求37所述的方法,其特征在于,还包括经由前向纠错 (FEC)技术提供QoS。
40. 如权利要求35所述的方法,其特征在于,在所述CSVCS处,将接收自传送端点的输入视频信号组合成单个合成编码数字视频输出信号包 括将所述合成输出画面的区域中的特定部分指派给预期要被纳入所述合 成输出画面中的每个特定传送端点;丢弃接收自所述传送端点的传入视频信号数据中与以下之一相对应的 那些分辨率比所述组合画面所预期的分辨率高;数据无需在所述组合画面所预期的所述分辨率下解码;以及不被纳入所述合成画面的传送端点; 通过改变报头信息来更改所述传入编码视频信号的剩余数据使得它们形成所述合成输出视频信号的适当数据;在需要时为所述传送端点视频信号中的至少一个生成人造层数据;以及向所述一个或多个接收端点传送所述经更改的数据和任何所生成的低 层数据,使得在所述csvcs处没有进行画面数据的解码或编码。
41. 如权利要求40所述的方法,其特征在于,所述至少一个接收端点 能够将以H.264 SVC可縮放视频编码格式编码的视频解码,并且其中将所述合成输出画面的区域中的一部分指派给预期要被纳入所述合成 输出画面中的每个传送端点是通过在所述合成输出信号中的画面参数集中 定义切片组映射来执行的,并且每个传送端点对应于一个切片组,以及向所述至少一个接收端点传送所述画面参数集来通信传达所述将所述 合成输出画面的区域中的特定部分指派给所述至少一个接收端点。
42. 如权利要求41所述的方法,其特征在于,还包括在带内或带外向 至少一个接收端点输送所述画面参数集。
43. 如权利要求41所述的方法,其特征在于,还包括将所述合成输出画面标记为用于参考一一当从所述传送端点接收到的被纳入所述合成输出画面的 所述输入画面中的至少一个被标记为用于参考时;以及不用于参考_—当从所述传送端点接收到的被纳入所述合成输出画面的所有所述输入画面被标记为不用于参考时,其中如果所述合成输出画面被标记为用于参考,则在从所述传送端点 顺序接收到的画面的所述切片被传输到所述至少一个接收端点之前将所述 参考帧重排序命令插入到所述切片中,从而确保在所述一个或多个接收端 点处所述参考画面缓冲器的适当操作。
44. 如权利要求41所述的方法,其特征在于,还包括将SVC合成输 出画面NAL单元的NAL扩展报头设置成相同的dependency—id值被用于所述合成输出画面中与在所述合成输 出画面中存在的最高可縮放编码层相对应的所述NAL单元,并且相同但后 继较低的dependency—id值被用于后继较低层的NAL单元;以及其中将temporal—level设置成当从所述至少一个传送端点到达的所述画面被组合成使得时间级被同 步时,则相同的temporal一level值被用于与所述最高可縮放编码层相对应的 所述NAL单元,而后继较低的temporaljevel值被用于后继较低层,以及当从所述至少一个传送端点到达的所述画面未被组合成使得所述时间 级被同步时,则值0被用于所述合成输出画面的所有NAL单元。
45. 如权利要求40所述的方法,其特征在于,由所述CSVCS将合成 输出视频画面的区域中的特定部分指派给特定传送端点的视频信号是被预 定义的。
46. 如权利要求40所述的方法,其特征在于,所述将合成输出视频画 面的区域中的特定部分指派给特定传送端点的视频信号是基于以下由所述 CSVCS动态执行的来自所述接收端点的对特定空间分辨率的请求, 来自所述接收端点的对所述合成输出画面内的特定空间位置的请求,以及其组合。
47. 如权利要求40所述的方法,其特征在于,还包括在所述将合成输 出视频画面的区域中的特定部分指派给特定传送端点的视频信号时考虑所 述至少一个接收端点的解码能力或分辨率性能。
48. 如权利要求40所述的方法,其特征在于,所述CSVCS被配置成 响应于具有不同时间比率的输入视频信号或者在所述输入视频信号的到达 时间内具有漂移的输入视频信号,所述方法还包括通过以下中的至少一个来响应传送由传入画面触发的输出画面;基于所述输入视频信号的最大帧速率传送输出画面; 基于预定义的时间调度传送输出画面,以及其中所述CSVCS还被配置成当所述输入视频信号的新的画面未 准时到达用于传输时进行响应,所述方法还包括通过以下来响应传送指导所述至少一个接收端点重复来自前一画面的数据的预编码切 片数据;在将所述输入视频信号的后一画面传输到所述至少一个接收端点之前 将参考画面列表重排序命令插入所述后一画面的所述画面报头中,以确保 为所述后一画面执行适当的参考画面选择。
49. 如权利要求48所述的方法,其特征在于,还包括在所述CSVCS处,如果缺少被丢弃画面数据将不对所述所述至少一个 接收端点处的解码过程产生不利影响,则丢弃且不转发接收自传送端点的 画面数据;以及传送接收自相同传送端点的稍后画面的画面数据取代所述被丢弃的画 面数据,以使得所述传送端点的所述画面在被传送给所述至少一个接收端 点的所述合成输出视频信号中与其它传送端点的那些画面同步。
50. 如权利要求40所述的方法,其特征在于,所述CSVCS还被配置 成将接收自所述至少一个传送端点的至少最低时间级的最低空间和质量分 辨率的视频信号解码,所述方法还包括在所述CSVCS处,针对所述传送端点的所述视频信号在目前接收端点 的所述合成画面配置需要改变时受到影响而生成内部编码;以及将所述内部编码传送给所述接收端点以替代接收自所述传送端点的相 对应经编码的画面数据。
51. 如权利要求35所述的方法,其特征在于,在所述通信网络在级联布置中包括多个CSVCS的情形中,还包括并非所述级联布置中的最后一个的至少一个csvcs,任选地在不进行 处理的情况下转发从所述级联布置中较前的csvcs处接收到的合成编码画面;或者分解从所述级联布置中较前的csvcs处接收到的所述合成编码画面, 并且使用在将它们转发到其它csvcs之前使用不同的布局重新组合它们。
52. 如权利要求35所述的方法,其特征在于,在所述通信网络在级联 布置中包括至少一个svcs和至少一个CSVCS的情形中,还包括在所述至少一个svcs处,仅选择从所述传送端点或其它svcs接收 到的视频信号的一部分或全部,以及将所选择的数据转发到其它svcs或CSVCS;以及在作为所述级联布置中最后的服务器的csvcs处,创建用于传输到所述一个或多个接收端点的所述合成编码输出画面。
53. 如权利要求35所述的方法,其特征在于,还包括在所述CSVCS 处为所述合成输出视频画面的区域中未被指派给任何传送端点的那些部分 生成经编码的画面数据并将其传送到所述一个或多个接收端点。
54. 如权利要求35所述的方法,其特征在于,还包括在所述CSVCS 处,通过以下之一为所述合成输出视频画面的区域中未被指派给任何传送 端点的那些部分生成所传送的经编码的画面数据将动态生成的新的内容 编码;检索先前已被计算出并存储的经编码的数据;以及其组合。
55. 如权利要求35所述的方法,其特征在于,在端点与所述CSVCS 之间有反馈信道的情形中,还包括通过所述反馈信道响应于经由内部内容 通信传达的端点指令。
56. 如权利要求35所述的方法,其特征在于,在所用的所述可缩放视 频编码技术的编码依存性是以某些增强层未被其它层用作参考的方式进行 的情形中,还包括将这些层标记为可丢弃。
57. 如权利要求56所述的方法,其特征在于,还包括在所述CSVCS 处任选地丢弃被标记为可丢弃的增强层。
58. 如权利要求35所述的方法,其特征在于,提供链接传送端点与所 述csvcs、以及所述csvcs与接收端点的双向控制信道。
59. 如权利要求58所述的方法,其特征在于,还包括经由通过所述 CSVCS的所述双向控制信道进行所述传送与接收端点之间的能力交换,籍 此所述传送端点指示其在空间、时间、质量分辨率和比特率方面的能力, 而所述接收端点指示其支持这些能力中的哪些。
60. 如权利要求58所述的方法,其特征在于,还包括在所述CSVCS处从接收端点处接收对输出视频信号的合需空间分辨率的请求。
61. 如权利要求60所述的方法,其特征在于,在所述CSVCS处,更改所述合成输出画面中的所述空间布局以适应不同的空间分辨率请求。
62. 如权利要求60所述的方法,其特征在于,还包括从所述CSVCS 指导传送端点对其传送的视频信号增加或削减空间分辨率。
63. 如权利要求35所述的方法,其特征在于,还包括将源标识信息或 其它信息纳入由所述CSVCS发送的带内和带外比特流中的一者之上。
64. 如权利要求35所述的方法,其特征在于,在所述CSVCS处,在 以下之一者上覆盖源标识信息或其它被输送的信息(l)所述合成输出画面 的区域中被指派给输出画面中的每个参与方的那些部分的像素,以及(2)所 述合成输出画面的区域中未被指派给所述传送参与方的所述视频信号的任 一个的那些部分的像素。
65. 如权利要求35所述的方法,其特征在于,还包括使用所述CSVCS 来通过选择性地复用接收自传送端点的所述视频信号层作为所述合成输出 画面的分量、以及将所述分量连同在所述CSVCS处生成的确保在所链接的 接收端点处接收到的所述合成输出信号是有效的经编码的视频比特流的任 选附加数据转发到所链接的接收端点来向通过所述CSVCS链接的至少一 个接收端点提供连续出席、个性化布局、速率匹配、差错定位、以及随机 进入特征的至少一个。
66. 如权利要求35所述的方法,其特征在于,还包括通过以下中的至 少一项来使用所述CSVCS响应于带宽状况统计地复用来自多个传送端点的视频信号;以及使接收自传送端点的视频信号的所述合成和传输同步,以在所述合成 输出视频信号中交错大于平均的视频画面。
67. 如权利要求35所述的方法,其特征在于,使用所述CSVCS响应 于带宽状况,还包括通过用向所述至少一个接收端点指示从前一画面复制相对应的像素数 据的经编码的数据替换接收自所述至少一个传送端点的经编码的画面数据 来更改所传送的合成输出信号的比特率,以及传送所述替换的经编码的数据,以使得所述输出比特率可与合需特性相匹配。
68. 如权利要求35所述的方法,其特征在于,还包括使用所述CSVCS 来提供会议网络边界控制、媒体代理、防火墙和网址转译功能中的至少一 个。
69. 包括用于执行在方法权利要求35-68的至少一项中阐述的步骤的 指令集的计算机可读介质。
全文摘要
提供了用于视频会议的系统和方法。该系统使用可缩放视频编码技术和合成可缩放视频编码服务器(CSVCS)以将来自传送会议参与方的输入视频信号合成为一个转发给接收参与方的单个输出视频信号。服务器被配置成在不对信号进行编码、重新缩放和重编码的情况下合成输入视频信号画面。
文档编号H04N7/12GK101341746SQ200680048122
公开日2009年1月7日 申请日期2006年12月22日 优先权日2005年12月22日
发明者A·埃尔法泽阿迪斯, J·查卡莱斯基, O·莎彼洛, T·维格安德 申请人:维德约股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1