用于可缩放视频编码比特流的稀疏化的系统和方法

文档序号:7675325阅读:355来源:国知局
专利名称:用于可缩放视频编码比特流的稀疏化的系统和方法
技术领域
本发明涉及多媒体和电信技术。具体地,本发明涉及对电子通信网络 上的用户端点之间的视频会议使用可縮放视频编码技术的系统和方法,该 电子通信网络可提供不同水平的服务质量(QoS),并且用户端点可使用不 同能力的接入设备和通信信道连接到该电子网络。
背景技术
现代视频会议系统允许两个或多个远程参与方/端点彼此实时地传送 视频和音频。当仅涉及两个远程参与方时,可使用两个端点之间的适当电子网 络上的直接通信传输。当涉及多于两个的参与方/端点时,多点会议单元 (MCU)或桥接器通常被用于连接到所有参与方/端点。MCU协调可例如以 星形配置连接的多个参与方/端点之间的通信。MCU也可用于点对点通信以 提供防火墙穿越、速率匹配和其它功能。
视频会议系统要求每个用户端点配备有可编码和解码视频和音频两者 的一个设备或多个设备。编码器用于将本地音频和视频信息转换成适于传 送给其他方的形式,而解码器用于解码和显示从其它视频会议参与方接收 到的视频图像,或者回放从其它视频会议参与方接收到的音频。传统上,最终用户自身的图像也在他/她自己的屏幕上显示以提供反馈,以便确保例如个人 在视频窗口中的适当定位。
当存在多于两个参与方(以及在仅具有两个参与方的某些情形中), 一个或多个MCU通常被用于协调各方之间的通信。MCU的主要任务是混 合传入的音频信号,使得单个音频流被发送给所有参与方,并且将传入视频信 号混合成单个视频信号以使得在此经混合的视频信号呈现的显示帧的相应部 分中显示每个参与方。
视频会议系统可使用专门在给定空间分辨率和比特率下提供单个比特 流的传统视频编解码器。例如,传统视频编解码器——其比特流和解码操作
在ITU-T推荐H.261; ITU隱T推荐H.262|ISO/IEC 13818-2 (MPEG-2视频) Main Profile (主型);ITU-T推荐H.263基线型;ISO/IEC 11172-2 (MPEG-1 视频);ISO/IEC 14496-2简单型或改进简单型;ITU-T推荐H.264|ISO/IEC 14496-10 (MPEG4-AVC)基线型或主型或高级型中标准化——专门以给定 空间分辨率和比特率提供单个比特流。在使用传统视频编解码器的系统中, 如果与原始经编码的空间分辨率或比特率相比,经编码的视频信号(例如,在 接收器端点处)需要较低空间分辨率或较低比特率,则全分辨率信号必须以合 需的空间分辨率和比特率来接收、解码、潜在可能的下縮放、和重编码。解码、 潜在可能的下釆样、以及重编码的过程需要相当多的计算资源,并且通常对视 频信号添加相当主观的畸变以及对视频传输添加延迟。
已明确针对异种环境开发的视频压縮技术是可縮放编码。在可縮放编 解码器中,对给定源视频信号生成两个或多个比特流基层和一个或多个增
强层。基层在给定比特率、空间和时间分辨率下提供源信号的基本表示。在给 定空间和时间分辨率下的视频质量与比特率成比例。增强层提供可用于增加视 频质量、空间和/或时间分辨率的附加比特。
尽管可縮放编码己成为诸如ITU-T推荐H.262|ISO/IEC 13818-2 (MPEG-2视频)SNR可縮放或空间可縮放或高级型等标准的一部分,但 是其尚未投入市场。与可縮放编码相关联的增加的成本和复杂度、以及缺少 适于视频的基于IP通信信道的普遍使用已成为对实际视频会议应用广泛采用 基于可縮放编码技术的极大障碍。现在,通过引用全部结合于此的共同转让的国际专利申请
PCT/US06/028365公开了专用针对实际视频会议应用的可縮放视频编码技 术。可縮放视频编码技术或编解码器实现视频会议系统的新颖架构,在通 过引用全部结合于此的共同转让的国际专利申请PCT/US06/028366、 PCT/US06/028367、 PCT/US06/027368、 PCT/US06/061815 和 PCT/US06/62569中进一步描述了该架构。
PCT/US06/028366和PCT/US06/62569中描述的可縮放视频编码服务器 (SVCS)和合成可縮放视频编码服务器(CSVCS) MCU结构使得传入视 频信号能够根据接收参与方的需求适应性地调整为所请求的视频分辨率的 传出视频信号。与传统MCU相比,SVCS和CSVCS架构仅要求较少部分 的计算资源,并且完全保持输入视频质量,但是仅在传输路径中添加较少 部分的延迟。
目前,正对提供比先前标准化的可縮放视频编解码器更有效的折衷的 ITU-T推荐H.264IISO/IEC14496-10的扩展进行标准化。这种扩展称为SVC。
SVC比特流通常表示可各自被解码的多个时间、空间和SNR分辨率。 多个分辨率由基层网络抽象层(NAL)单元和增强层NAL单元来表示。相 同信号的多个分辨率呈现统计依存性并可用预测来高效地编码。针对宏块 模式(在帧内的情形中为mb一type (宏块一类型)和预测模式)、运动信息 (运动矢量、sub—mb—type (子—宏块—类型)和画面参考索引)、以及增强 空间或SNR可縮放性的速率-失真性能的帧内内容和帧间编码残差来进行 预测。以上所描述的每个要素的预测在增强层中通过标志来发信号通知, 即,在解码当前层时仅需要发信号通知用于在较低层中预测的数据。
宏块模式预测是基于宏块来切换的,指示在传送新的宏块模式(如在 H.264中)与使用参考中的宏块模式之间的选择。在SVC中,参考可来自 相同层,但是也可以是较低层的宏块。
运动信息预测是基于宏块或8x8块在画面间运动矢量预测(如在H.264 中)或来自参考的层间运动矢量预测(在SVC的情形中)之间切换。对于 后一预测类型,来自基层或具有较高优先级的层的运动信息被重用.(用于 SNR可縮放性)或被縮放(用于空间可縮放性)作为预测器。除预测切换
18之外,可传送运动矢量改进。
基于宏块接通/切断的帧间编码残差预测重用(用于SNR可縮放性)或
上采样(用于空间可縮放性)来自基层或具有较高优先级的层的帧间编码
残差,以及作为SNR增强被添加到预测器的潜在的残差信号。
类似地,基于宏块接通/切断的帧内内容预测直接重用(用于SNR可縮 放性)或上采样(用于空间可縮放性)来自其它画面的经帧间编码的信号 作为来自基层或具有较高优先级的预测,以及作为SNR增强被添加到预测 器的潜在的残差信号。
如本领域中已知的,SVC比特流可在多个时间、空间和SNR分辨率下 被解码。在视频会议中,参与方仅对特定分辨率感兴趣。因此,解码此分 辨率所需的数据必需存在于接收到的比特流中。在从传送参与方到接收参
与方的路径中的任何点处——包括传送参与方的编码器且典型地在 SVCS/CSVCS处——可丢弃所有其它数据。然而,当预计有数据传输差错 时,包括用于帮助差错恢复和差错隐藏的附加数据(例如,基层信号的部 分)可能是有益的。
对于比当前在接收机处的经解码的分辨率更高的分辨率,全部分组 (NAL单元)可被丢弃(通常由SVCS/CSVCS),以使得在传送或发送到 接收机的比特流中仅剩下包含当前经解码的分辨率的分组。此外,当前分 辨率的解码所不依赖的分组可被丢弃,即使在这些分组被指派给较低的分
辨率时也是如此。对于以上两种情形,高层语法元素(来自NAL报头信息) 可用于标识哪些分组可被丢弃。
现在考虑对视频信号使用SVC编码技术的视频系统的替换或改进架 构。具体地,关注在处理SVC比特流时提供灵活性的架构。
发明概要
提供了在处理SVC比特流时提供灵活性的可縮放视频会议系统和方法 ("SVC稀疏化")。该系统架构实现视频会议应用的可縮放性支持(即, 可解码的视频分辨率的数目)、差错弹性和编码效率的权衡。提供稀疏化 单元(TU)或处理块来实现视频会议系统中的SVC稀疏化处理。在基于SVC稀疏化的视频会议系统中,每个端点/参与方向网络
MCU/SVCS/CSVCS传送可縮放比特流(基层加上一个或多个增强层,例如 使用SVC编码)。传输是使用相应数目的物理或虚拟信道来执行的。
在基于SVC稀疏化的替换性视频会议系统中,不存在 MCU/SVCS/CSVCS,并且第一视频会议系统中在MCU/SVCS/CSVCS处进
行的操作是在传送视频编码器处进行的。该替换性视频会议系统可适用于 视频会议或进行流送的多播环境,其中编码包括可縮放实时编码器或文件。
在基于SVC稀疏化的第一视频会议系统中,MCU/SVCS/CSVCS可根
据基于特定参与方/端点位置的特性和/或设置的要求来选择或处理来自每 个参与方/端点的可縮放比特流的部分。该选择可基于例如参与方的带宽和 期望的视频分辨率。
MCU/SVCS/CSVCS将所选择的可縮放比特流部分聚集或合成为可由
一个(或多个)解码器解码的一个(或多个)视频比特流。
在此方面,SVCS/CSVCS不需要或需要最少的信号处理; svcs/csvcs可简单地读取传入数据的分组报头,并选择性地将适当分组
复用成输出比特流的接入单元并将其传送到参与方的每一个。
或者,MCU/SVCS/CSVCS可处理传入比特流的部分并在压縮域中更改
分组的内容,并且选择性地将适当分组复用成输出比特流的接入单元并将 其传送到参与方的每一个。
在svc稀疏化架构中,仅在当前经解码的分辨率中用于预测的数据被
传送到视频会议环境中的端点。相反,未在当前经解码的分辨率中用于预 测的数据不被传送到端点,而是被丢弃。
为了方便起见,与在svc稀疏化架构中选择性地丢弃和传送数据以及
架构本身相关联的操作或处理在本文中都被称为SVC稀疏化。
SVC稀疏化以两种方式来进行通过语法元素的替换("替换稀疏化")
或移除它们("移除稀疏化")。
通过解析和重新编码受影响的NAL单元的比特流来进行SVC稀疏化 处理。
SVC稀疏化可应用到可縮放视频编码中的所有切换预测器,诸如宏块模式、运动信息、层间编码残差和层内内容。
可在各个实施例中进行svc稀疏化,从而权衡svcs/csvcs的计算 能力以及编码器一svcs/csvcs之间的带宽。svc稀疏化可或者在svc编
码器或者在MCU/SVCS/CSVCS处执行。
svc稀疏化被视为编码效率与差错弹性/随机接入之间的权衡。 一方 面,svc稀疏化消去进行解码不需要的信息,由此提高编码效率。另一方 面,svc稀疏化同时消去差错弹性/随机接入所必需的冗余。
考虑到其特性,在向接入单元选择性的应用svc稀疏化时可平衡权衡。
作为示例,对于其差错弹性或随机接入特性很重要的接入单元,可不使用
svc稀疏化。相反,对于其差错弹性或随机接入特性并非很重要的其它接
入单元,可有益地使用svc稀疏化。
根据本发明的的视频会议系统的一示例性实施例可包括(l)提供区分 型服务质量(QOS)的网络,例如,对要求总带宽的部分提供高可靠性信道;
(2)在不同传输比特率级下在时间、质量或空间分辨率方面提供可缩放性的 视频编码技术(诸如国际专利申请PCT/US06/028365中公开的技术);(3) 称为SVCS/CSVCS的新型MCU (诸如国际专利申请PCT/US06/028366和 PCT/US06/62569中所公开的MCU),它可以最小延迟和极低的处理成本 执行其协调功能;以及(4)最终用户终端,它可以是专用硬件系统、数字信 号处理器或能够运行视频解码器的多个实例和视频编码器的一个实例的通 用PC。
此外,传统MCU以及SVCS和CSVCS (在国际专利申请 PCT/US06/028366、 PCT/US06/62569和PCT/US06/061815以及临时美国专 利申请60/778,760和60/787,031中公开的)的功能可与本文所述的SVC稀 疏化功能以各种组合整合在单个系统中。MCU、 SVCS以及CSVCS和SVC 稀疏化功能可物理地位于同一系统单元(例如,图6中的稀疏化单元600) 上或分布于不同的系统单元上,以及不同的物理位置处。例如,视频会议 系统可对视频会议会话的音频分量使用传统MCU,而用具有SVC稀疏化 的SVCS/CSVCS来处理视频分量。在此系统中,最终用户终端需要单个音 频解码器。在此针对SVC稀疏化功能描述的附加处理可对SVCS/CSVCS的功能 进行补充。svcs/csvcs的所有功能和优点得到保持,但是取代向每个端 点发送全部SVC比特流,发送的各个流具有潜在由SVC稀疏化縮减的比
特率。


根据以下优选实施例的详细描述以及附图,本发明的其它特征、特性
和各个优点将变得更显而易见,在附图中
图1是示出根据本发明的原理的视频会议系统的示例性架构的框图; 图2是示出根据本发明的原理的最终用户终端的示例性架构的框图3是示出根据本发明的原理的用于空间或SNR分层化的示例性分层 画面编码结构的框图4是示出根据本发明的原理的用于时间分层化的示例性线程化分层 画面编码结构的框图5是示出根据本发明的原理的用于基层和空间层的具有不同的预测 路径的空间或SNR分层化的示例性线程化分层画面编码结构的框图6是示出根据本发明的原理的单输入、单输出稀疏化单元(TU)的 框图7是示出根据本发明的原理的替换SVC稀疏化过程的框图; 图8是示出根据本发明的原理的移除SVC稀疏化过程的框图; 图9是示出根据本发明的原理的稀疏化SVCS (TSVCS)的架构的框
图10是示出根据本发明的原理的具有边界TU的视频会议系统的示例 性架构的框图。
贯穿附图中相同附图标记用于指代所例示的实施例的类似特征、元件、 组件或部分,除非另外声明。此外,在现在将参照附图详细描述本发明时, 是结合示例性实施例来如此进行的。
发明详述
22提供了基SVC编码的视频会议系统和方法。这些系统和方法(在此统
称为"SVC稀疏化")被设计成为视频会议应用在处理SVC比特流时提供
灵活性。具体地,svc稀疏化提供了用于响应于接收器/端点的需要或特性 选择性地丢弃或不向接收器/端点传送svc比特流部分的系统和处理功能。
图1示出根据本发明的具有SVC稀疏化功能的视频会议系统100的示 例性实施例。系统100可包括多个最终用户终端110-140、网络150、和一 个或多个 MCU/SVCS/CSVCS 160 。 网络实现最终用户与 MCU/SVCS/CSVCS之间的通信。本文描述的SVC稀疏化功能可被置于 MCU/SVCS/CSVCS 160中或者一个或多个端点(例如,110-140)中。
在系统100中,最终用户终端(例如,终端110-140)具有多个用在视 频会议中的若干组件。图2示出被设计成与基于单层编码的视频会议系统(例 如,系统IOO) —起使用的最终用户终端140的架构。终端140包括人类接 口输入/输出设备(例如,相机210A、麦克风210B、视频显示器250C、扬 声器250D),以及耦合至输入和输出信号复用器和分用器单元(例如,分 组MUX220A和分组DMUX220B)的网络接口控制器卡(NIC) 230。 NIC 230可以是标准硬件组件,诸如以太网LAN适配器或任何其它合适的网络 接口设备。
相机210A和麦克风210B被设计成分别捕捉参与方的视频和音频信号 以传输给其他会议参与方。相反,视频显示器250C和扬声器250D被设计 成分别显示和回放从其他参与方接收到的视频和音频信号。视频显示器 250C也被配置成任选地显示参与方/终端140自身的视频。相机210A和麦 克风210B输出分别经由模数转换器210E和210F耦合到视频和音频编码 器210G和210H。视频和音频编码器210G和210H被设计成压縮输入视频 和音频数字信号以减小在电子通信网络上传输信号所需的带宽。输入视频信 号可以是实况或预先录制和存储的视频信号。编码器210G压縮本地数字视 频信号以使传输信号所需的带宽最小化。在优选实施例中,输出数据被打 包在RTP分组中并通过基于IP的网络传送。
在系统100中,音频信号可使用本领域中已知的若干技术中的任一种 (例如,ITU-T推荐G.711和ISO/IEC 11172-3 (MPEG-1音频))来编码。在优选实施例中,可对音频采用G.711编码。音频编码器的输出被发送到
复用器(MUX) 220A以经由网络接口控制器(NIC)通过网络来传输。
分组MUX 220A使用RTP协议执行传统复用,并且也可实现任何所需 的QoS相关协议处理。终端的每个数据流在其自身的虚拟信道或IP技术中 的端口号中传送。
本发明系统100的一个实施例针对MCU/SVCS/CSVCS的输入视频信 号和/或输出视频信号使用遵循SVC的比特流。本发明的此实施例称为SVC 实施例。然而,应当理解,本发明并不限于使用标准化SVC编解码器的系 统,但是可应用于其它可縮放视频编解码器。
SVC比特通常表示各自可被解码的多个空间和SNR分辨率。多个分辨 率可由基层NAL单元和增强层NAL单元表示。相同信号的多个分辨率显 示出统计依存性并且可使用预测来高效地编码。预测是针对诸如宏块模式、 运动信息、增强空间或SNR可縮放性的速率-失真性能的帧内内容和帧间编 码残差等要素进行的。这些要素的每一个的预测在增强层中通过标志来发 信号通知,S卩,在解码当前层时仅需要发信号通知用于在较低层中预测的 数据。
取决于其(NAL单元)在解码过程中的角色,指派到给定分辨率的一 组特定NAL单元以各种方式由SVC稀疏化来处置。考虑其中SVC比特流 中存在K个分辨率且这些分辨率被编号为k = 0到K-1的示例。这K个分 辨率可以是或者空间分辨率或者SNR分辨率或两者的混合。此外,假定具 有较大k编号的分辨率通过SVC中的切换预测算法依赖于具有较小k编号 的分辨率。当在0〈X〈K-1的分辨率X下进行解码时,指派给具有比X大的 编号的分辨率的所有分组可被丢弃。指派给具有比X小的编号的分辨率的 所有分组(在下文中称为"可稀疏化"或"T类型"NAL单元)可被更改 并在字节大小方面通常通过SVC稀疏化被縮减。
再次注意本发明并不限于具有示例性预测依存性结构的SVC比特流, 并且也可应用于具有其它依存性结构(例如,具有分辨率X的NAL单元, 其不依赖于具有较低分辨率Y的NAL单元,其中0<Y<X)的SVC比特流。
SVC稀疏化可由两个候选的过程——替换SVC稀疏化和移除SVC稀疏化——中的一个来进行。
替换SVC稀疏化涉及用比被替换比特更少的比特数目替换T类型NAL 单元中既不直接也不间接用在分辨率X的NAL中的预测的那些比特。例如, 潜在可能包含运动矢量和残差系数的经编码的宏块可被发信号通知跳过宏 块的语法元素mb—skip_flag (宏块—跳过—标志)或mb—skip—run (宏块_跳 过—运行)替换。此过程具有在应用SVC稀疏化之后T类型NAL单元遵循 SVC的这个优点,以及一定比特率开销的缺点。
移除SVC稀疏化涉及移除T类型NAL单元中既非直接也非间接地用 在分辨率X的NAL单元中的预测的那些比特。在此情形中,解析T类型 NA单元中的宏块通过分辨率X的NAL单元中的数据来控制。此过程具有 T类型NAL单元在SVC稀疏化之后不遵循SVC的缺点,但是具有与替换 SVC稀疏化相比有经縮减的比特率开销的优点。另一潜在可能的优点是增 强层数据必须在解码增强层所依赖的所有T类型NAL单元之前被解码。
SVC稀疏化通过解析和重编码分辨率为X的NAL单元中的T类型 NAL单元的比特流来进行。当T类型NAL单元中的比特未被用于将直接 或间接用来解码其它T类型NAL单元或分辨率X的NAL单元的预测器 (predictor)解码时,这些比特可被替换或移除。在对T类型NAL单元进 行稀疏化之后,用于表示分辨率X的总比特被縮减。
如果K个分辨率之间的依存性结构比图3中所示的更复杂,则可从T 类型NAL单元的SVC稀疏化产生多个版本。参看图3,层LO的稀疏化的 结果将根据目标分辨率是SO (空间增强层)还是Q0 (质量增强层)的而不 同。
SVC允许宏块模式预测、运动信息预测、帧间编码残差预测、帧内内 容预测等。这些SVC预测方法的每一种都顺应SVC稀疏化。
SVC中的宏块模式预测是基于宏块在或者传送新的宏块模式信息(如 在H.264)或者使用T类型NAL单元中的信息之间切换。在T类型NAL 单元中的信息既非显示也非隐式地为解码分辨率X所需的情形中,可通过 SVC稀疏化——例如通过语法元素mb—skip_flag或mb—skip—run——来用较 少的比特替换该信息。这种替换也可导致T类型NAL单元中该宏块或毗邻宏块的其它语法元素的移除或更改。
在SVC中,运动信息预测是基于宏块或8x8块或其它块大小在画面间 运动信息预测(例如,如在H.264中)或来自T类型NAL单元的运动信息 预测之间切换。对于后者层间预测类型,来自其它T类型NAL单元的运动 信息被重用或縮放作为预测器。除预测切换之外,可传送运动矢量改进。 运动矢量改进由可被添加到运动矢量预测中从而导致可使用H.264语法准 确地表示的运动矢量的、所传送的附加运动矢量构成。在T类型NAL单元 运动信息未被用在分辨率X中的预测的情形中,它可用较少的比特来替换, 例如,运动信息可通过SVC稀疏化更改成使得对于两个分量而言运动矢量 差异等于0。
在SVC中,层间编码残差预测是基于宏块来接通/切断的。它重用(SNR 可縮放性)或上采样(空间可缩放性)来自T类型NAL单元的帧间编码残 差——可能跟随有被作为SNR增强添加到预测器的残差信号。如果在编码 较高分辨率时块并非是从T类型NAL单元预测的,则在解码该较高分辨率 时,它无需被传送。与残差相关联的比特随后可通过SVC稀疏化用较少的 比特来替换,例如,通过置位语法元素coded—blockj)attem(编码—块—模式) 以使其指示相对应的块仅包含值等于O的系数。注意在2006年的1月泰 国曼谷的联合视频组的文献JVT-R050的M. Mathew、 W. -J. Han和K. Lee 的"Discardable bits and Multi-layer RD estimation for Single loop decoding (用于单环路解码的可丢弃比特和多层RD估计)"中已提出了类似于残 差替换的方法。然而,本SVC稀疏化方法影响所有其它语法元素(包括宏 块类型、运动矢量、帧内内容)而非仅仅残差,并且还增加了语法元素移 除的可能性。
在SVC中,帧内内容预测是基于宏块接通/切断的,并且重用(SNR 可縮放)或上采样(空间可縮放性)来自T类型NAL单元的帧内编码信号。 其可能跟随有被作为SNR增强添加到预测器的残差信号。如果在编码较高 分辨率时宏块并非是从T类型NAL单元预测的,则在解码该较高分辨率时, 无需传送宏块。与内宏块相关联的比特随后可经由SVC稀疏化例如通过语 法元素mb—skip—flag或mb—skip_run用较少的比特来替换。SVC稀疏化操作(即,替换稀疏化和移除稀疏化处理)利用SVC语法 的特定特征。在其最一般的形式中,稀疏化仅是应用于经压縮的数字视频 信号上的压縮域操作。图6示出简单的具有一个输入和一个输出的处理块
的"稀疏化单元(TU) " 600。输入信号被假定为具有两个或多个层的SVC
视频流,并且输出信号也为SVC流。注意在某些情形中,如以下所解释 的,包含在输出信号中的某些层不遵循SVC语法是可能的。此外,注意 TU 600可具有一个以上输入和一个以上输出(未示出)。在此情形中,每 个输出被连接到至多一个输入,并且以与如图6中所示的单输入单输出对 的情形下相同方式的对特定输入-输出对执行SVC稀疏化操作。
图7示出了替换稀疏化过程700中的示例性步骤702-726的流程图。 参看图7 (以及图8)中的文本图标,'块'是与输入SVC流(图6)中的目 标层宏块相对应的较低层块,'CBP'指代指示哪个转换块包含非零系数的 coded—block_pattern (经编码—块_型),而'NN,指代当前块右边或下方的邻 元。对于每个目标层宏块(MB),定位相对应的较低层块(块可能小于或 等于MB的大小)。
对较低层块('当前块')应用稀疏化过程700如下
如果当前块是经帧内编码(702)且模式预测未被用在目标层中 (704),则应用如下
如果解码毗邻块无需当前块(未被用于帧内预测)(706)或者从 当前块预测的毗邻块都没有被用于预测目标层(708),则应用如下
将系数设为0并更改coded_block_pattern (CBP) (722),并且 按需重新编码毗邻块的系数(用于编码毗邻块的上下文可能因当前块的系 数的清零而被改变)(724)。
如果包含当前块的MB未被用于预测目标层(714),则跳过该 MB (716)。非l和非SI切片中的跳过是通过用或者mb—skip—run语法元 素(当使用CAVLC时)或者mb—skip—flag语法元素(当使用CABAC日寸) 替换MB数据来发信号通知。毗邻块的运动信息也被检査且按需被更改, 因为用于编码毗邻块的运动信息的预测运动信息会由于跳过而改变。
另外,如果当前块是经帧间编码(702)的,则应用如下如果模式预测未被使用(718)且运动预测未被使用(720),则
应用如下
将运动信息设为0 (722),以及 按需更改毗邻块的运动信息(724)。 如果残数预测未被使用(726),则应用如下 将系数设为O并更改CBP (710),以及 按需重新编码毗邻块的系数(712)。
如果包含当前块的MB未被用于预测目标层(714),则跳过MB
(716)。
否则,不应用稀疏化。 类似地,图8示出移除稀疏化过程800的示例性步骤802-826的流程 图。对于每个目标层MB,定位相对应的较低层块,并且应用稀疏化过程
800如下
如果当前块是经帧内编码(802)且模式预测未被用在目标层中(804), 则应用如下
如果解码毗邻块无需当前块(未被用于帧内预测)(806)或者如果从 当前块预测的毗邻块都没有被用于预测目标层(808),则应用如下 删除系数并更改CBP (810),以及
在假定当前块具有O系数的情况下重新编码毗邻块的系数(812)。 如果包含当前块的MB未被用于预测目标层(814),则删除MB(816)。 这包括更改毗邻块的运动信息。
另外,如果当前块是经帧间编码(802)的,则应用如下 如果模式预测未被使用(818)且运动预测未被使用(820),则应用 如下
将运动信息设为0 (822),以及 按需更改毗邻块的运动信息(824)。 如果残数预测未被使用(826),则应用如下 删除系数并更改CBP (810),以及
在假定当前块具有全为0的系数的情况下重新编码毗邻块的系数(812)。
如果包含当前块的MB未被用于预测目标层(814),则删除MB(816)。 否则,不应用稀疏化。
SVC稀疏化操作(例如,过程700或800)可或者通过SVCS/CSVCS (例如,在图1中的SVCS/CSVCS 160处)本身或者通过编码器(例如, 相关联的编码器(SVC编码器)或传送端点处的编码器)来执行。这种选
择主要体现了 svcs/csvcs计算功率与编码器和svcs/csvc之间的带宽 的权衡。希望编码器自身处的计算功率要求最小。svcs/csvcs处执行的
svc稀疏化操作可在有辅助信息或没有辅助信息的情况下执行。
通过SVC编码器处的SVC稀疏化,NAL单元的两个(或多个)版本 由SVC编码器产生并被发送到SVCS/CSVCS,后者又决定哪个NAL单元 要转发给哪个解码器(在端点处)。这在编码器与SVCS/CSVCS之间产生 了比特率开销。在此实施例中,处理块的TU 600或者被整合到SVC编码 器,或者可在传送端点处进行常规编码之后应用它。由SVC编码器创建的 两种类型的NAL单元可以两种不同方式来编码。
首先,SVC编码器可行程两种不同类的T类型NAL单元。第一类是 用于预测较高层的NAL单元("预测参考切片"),而另一类是可从预测 参考切片预测的非预测参考切片。discardable_flag (可丢弃_标志)可用于 提供对在切片上区分两种类型的高层语法支持以及用于确定预测依存性。 这种划分成预测参考和非预测参考切片与急剧地降低压縮效率不同,因为 如果预测参考切片可能已从基于包括在非预测参考切片中的信息的预测获 益,则编码器已经作出了此编码选择,并且那些块将被归类为预测参考类 块。然后,SVCS/CSVCS将按需分开这些流。
第二, SVC编码器可形成T类型NAL单元的不同NAL单元,以使其 创建如上所述的预测参考切片以及除此之外的包含所有数据的切片。
当SVC稀疏化操作是在SVCS/CSVCS自身处且具有辅助信息,则SVC 编码器产生常规NAL单元,并且还发送辅助信息以帮助SVCS/CSVCS进 行SVC稀疏化。此类辅助信息可以是按宏块的比特映射,后者提供关于需 要从T类型NAL单元进行稀疏化从而避免解析整个增强层的信息。当svc稀疏化操作是在svcs/csvcs自身处且没有辅助信息时,svc
编码器仅产生常规NAL单元。SVCS/CSVCS执行全部SVC稀疏化操作。 图9示出了 "稀疏化SVCS" (TSVCS)的示例性架构。TSVCS 900具有 常规SVCS (例如,如在PCT/US06/28365中描述的)结构,该结构包括通 过其接收和传送分组的网络接口 (NIC)、从多个用户Ul到Un接收分组 的交换元件,并且在此特定示例中每个用户进行传送三个层(例如,U1L0、 U1L1和U1L2)。常规SVCS基于用户偏好或系统状况简单地决定来自输 入的哪些分组被传送到哪个输出,并由此到哪个用户。在TSVCS 900中, SVCS的输出还配备有稀疏化单元(例如,TU 600),以使得TSVCS可在 需要时向所输出的信号选择性地应用稀疏化。
注意SVC编码器可被配置成预期可或者在编码器本身处或者在 MCU/SVCS/CSVCS处应用SVC稀疏化过程,以及以有助于稀疏化的方式 编码视频比特流("稀疏化感知编码")。具体地,层间预测可被组织以 使得较低层数据的后继替换和移除被简化。作为稀疏化感知编码的极端示 例,编码器可产生联播编码,其中不同分辨率下的两个比特流被完全独立
地编码,以及其中移除稀疏化相当于基层比特流的完全消去。在此极端情 形中,编码效率等于单层编码的效率。会遭遇这种极端情形的视频会议的 示例是两个接收方/参与方驻留在理想(无损)网络上,以及其中每个参与 方要求不同的空间分辨率。在此情形中,传送端点将联播两个比特流,并 且MCU/SVCS/CSVCS将以二元方式把一个比特流路由到其预期接收端 点,而把第二个比特流路由到其预期接收端点。然而, 一般而言,这种理
想的极端状况几乎不存在。基层与增强层之间的数据的划分在编码依存性 和比特率方面受制于诸如网络比特率可用性和差错弹性等设计考虑。
在前述的SVC稀疏化操作中(参看图7和8),由执行稀疏化的编码 器或MCU/SVCS/CSVCS完整地传送目标层。然而,进一步允许更改目标 层NAL单元也是可能的。例如,当在目标层MB上使用来自基层的运动矢 量预测时,在不使用预测的情况下用结果运动矢量值重新编码目标层MB 运动信息是可能的。这种特征可进一步有助于编码效率的提高,因为它允 许来自基层的更多的MB数据被替换或移除。当在接收器处期望单个分辨率且分组丢失率为零或很小并且当没有随 机接入要求影响SVC编码时,SVC稀疏化是用于进一步最优化可縮放视频 编码过程的编码效率的方法。然而,当系统中存在差错时,包括在较低层
中的信息可用于视频差错隐藏。当不存在差错时,MCU/SVCS/CSVCS可 应用SVC稀疏化来消去或丢弃解码器显示期望分辨率所不需要的任何信 息。然而,当差错存在时,MCU/SVCS/CSVCS可被配置成选择完全或部分 保留仅与较低层有关的信息。系统中存在的差错率越高,将保留越多的此
类信息。这种配置允许组合svc稀疏化和层间差错隐藏技术——例如在国
际专利申i青no. PCT/US06/061815和临时美国专利申请No. 60/778,760和 60/787,031——来维护帧速率。
SVC稀疏化也可部分地应用于视频会议系统中的差错弹性与随机接入 的权衡或考虑中。图4和5示出其中被标示为L0、 L1和L2的画面是线程 化预测链的示例性分层时间预测结构。当这些画面之一在接收参与方的解 码器处不可用于参考时,空间-时间差错传播发生,且在这种情况下,通常 引入高度可见的主观性失真。标示为L2的画面未被用作帧内预测的参考画 面。因此,标示为L2的画面(并且在某种程度上还有标示为Ll的画面) 对于提供随机接入(即,参与方进入会议或切换至不同分辨率)或差错弹 性而言更加不重要。这是由于画面L2和L1的预测链在某一较短时间之后 终止。SVC稀疏化可被选择性地应用于不同画面。在此示例中,它可被应 用到较高的时间分辨率画面——即画面L2和Ll——从而允许解码器维护 可解码的低时间频率的较低分辨率图像(画面L0)。此外,部分SVC稀疏 化方法在未应用到L0画面时也保持差错弹性方案的特征。
在差错弹性方案中,发送参与方(各自运行可縮放视频编码器)、 MCU/SVCS/CSVCS和接收参与方(运行可縮放视频解码器)维护它们之间 的双向控制信道。从发送参与方到MCU/SVCS/CSVCS以及从 MCU/SVCS/CSVCS到接收参与方的控制信道被称为前向控制信道。从接收 参与方到MCU/SVCS/CSVCS以及从MCU/SVCS/CSVCS到发送参与方的 控制信道被称为反向控制信道。通常在实际通信之前,进行能力交换。这 种能力交换包括在信道上向每个接收参与方信令通知差错弹性状况/要求的范围。在会话期间,接收参与方可通过反向控制信道更新差错状况/要求。
执行SVC稀疏化的系统单元(例如,传送端点或MCU/SVCS/CSVCS)随 后可根据经更新的差错弹性/要求来改编稀疏化过程。
注意设计成SVC稀疏化过程块的TU 600可被有益地用在互联两个 网络的边界设备中。在此情形中,出于将通过一个网络接收到的输入视频 信号优化成最适宜用于输送其输出的其它网络的状况的目的,TU 600操作 成单输入单输出设备(即,没有MCU/SVCS/CSVCS功能)。这种边界TU 的操作可通过使用反馈信道——接收端点通过该信道传送网络性能指示 符——的使用来促进。图IO示出了其中稀疏化处理块处于连接两个网络A 和B的边界设备1010 ("边界TU")中的视频会议系统1000的示例。边 界TU可以是配备有一个或多个TU的路由器或网桥。在视频会议系统中, 最终用户140位于网络(B)中,而最终用户110-130位于网络A中。对于 此具体示例,视频会议系统IOOO可使用SVCS来协调视频会议信号,但是 此技术可应用于MCU/CSVCS设计以及点对点连接(即,没有服务器)。 在操作中,边界TU可对网络A上自三个最终用户110-130中的一个或多 个传送到最终用户140的数据和/或传送自最终用户140的数据应用稀疏化。
虽然已描述了被认为是本发明的优选实施例的那些,但是本领域技术 人员应当认识到,可作出其它或进一步的改变和更改而不背离本发明的精 神,并且其旨在要求落在本发明的真实范围内的所有这些改变和更改。
例如,在此已使用示例描述了 SVC稀疏化,其中输入比特流通过编码 器或稀疏化服务器(TS)响应于单个接收端点的单个目标分辨率要求来稀 疏化。因此,如果对于不同接收端点有不同的目标分辨率要求,可对输入 比特流重复(例如,顺序地)执行在此描述的单个目标分辨率稀疏化操作 (即,移除或替换稀疏化)以分别产生对应于不同目标分辨率的不同输出 比特流。然而,容易理解,用于产生不同输出比特流的稀疏化操作可被合 并或级联以例如利用目标分辨率数据集合中的重叠或非正交性。这种级联 操作可以是经济而有益的,例如,在级联布置中部署一个或多个TS时。考 虑其中输入比特流具有三个空间层(SO、 Sl和S2)但是第一接收方仅要求 分辨率Sl而第二接收方要求分辨率S2的情形。级联布置可更有效地产生
32目标输出比特流,即,(经稀疏化的S0、 Sl)和(经稀疏化的S0、经稀疏
化的S1、 S2)。在级联的第一级处,可针对S1和S2目标稀疏化输入SO。 在第二级处,针对S2稀疏化S1 (或S1副本)。类似地,如果在编码器处 执行稀疏化,则在此特定示例中,编码器可直接产生的S0的经稀疏化的版 本,因为没有预期接收方要求在SO分辨率下解码。
应当理解,本发明的系统和方法可用任何硬件和软件的组合来实现。 用于实现和操作前述系统和方法的软件(即,指令)可被设在计算机可读 介质上,这些计算机可读介质可包括但不限于固件、存储器、存储设备、 微控制器、微处理器、集成电路、ASICS、可在线下载的媒体以及其它可 用的介质。
权利要求
1. 一种数字视频信号处理系统,包括具有至少一个数字视频信号输入和至少一个数字视频信号输出的视频处理单元(“稀疏化单元”(TU)),其中所述输入和输出数字视频信号被以支持时间、空间和质量可缩放性的一个或多个的可缩放视频编码格式来编码,并且其中所述TU被配置成更改所述至少一个输入视频信号中与在预定分辨率下解码所述至少一个输出视频信号并非必需的信息的某些或全部相对应的一部分,以使得此信息在所述至少一个输出视频信号中被缩减或消去。
2. 如权利要求l所述的系统,其特征在于,所述TU被配置成丢弃所 述输入视频信号中对应于空间、SNR或时间分辨率比所述至少一个输出视 频信号所预定的分辨率高的那些部分。
3. 如权利要求l所述的系统,其特征在于,所述TU被配置保持所述 输入视频信号中对应于所述至少一个输出视频信号所预定的分辨率的那些 部分完整。
4. 如权利要求l所述的系统,其特征在于,所述TU被配置更改所述 输入视频信号中对应于所述至少一个输出视频信号所预定的分辨率的那些 部分。
5. 如权利要求l所述的系统,其特征在于,所述TU还被配置成更改 所述输入视频信号的部分以使得在所预定的分辨率下解码所述输出视频信 号并非必需的信息被在所述输出视频信号中需要更少比特的信息替换,并 且其中具有所替换的信息的所述输出视频信号是顺应的视频比特流。
6. 如权利要求5所述的系统,其特征在于,所述输入视频信号是根据 H.264 SVC来编码的,并且包括目标层和所述目标层所依赖的至少一个较 低层,并且其中所述TU针对所述输出信号替换所述输入视频信号中的所 述较低层中的信息以使得对于未被用于预测所述目标层的宏块,通过用跳过运行和跳过标志指 示符中之一替换其数据来发信号通知跳过所述宏块,对于其中未使用模式预测的内块,如果所述块未被毗邻块用于帧内预 测,或者所述毗邻块中没有一个被用于预测所述目标层,则其系数被设为 零且所述宏块的经编码的块型被相应地更改,对于其中没有模式预测或没有运动预测被使用的帧间块,运动信息被设为0,对于其中未使用残差预测的帧间块,它们的系数被设为零且所述宏块的所述经编码的块型被相应地更改,以及其中如果所述信息替换影响毗邻块的编码,则更改所述毗邻块的编码。
7. 如权利要求l所述的系统,其特征在于,所述TU还被配置成更改 所述输入视频信号的部分以使得在所述至少一个输出所预定的所述分辨率 下解码所述视频信号并非必需的信息在所述输出视频信号中被移除。
8. 如权利要求7所述的系统,其特征在于,所述输入视频信号是根据 H.264 SVC来编码的,并且包括目标层和至少一个较低层,并且其中所述 TU针对所述输出信号移除所述输入视频信号中的所述较低层中的信息以 使得对于未被用于预测所述目标层的宏块,所述宏块被移除, 对于其中未使用模式预测的内块,如果所述块未被毗邻块用于帧内预测,或者所述毗邻块中没有一个被用于预测所述目标层,则其系数被推断为零以便进行其自身层内部的进一步预测,对于其中没有模式预测或运动预测被使用的帧间块,运动信息被移除并且运动矢量差异被推断为0以便进行其自身层内部的进一步预测,对于其中未使用残差预测的帧间块,与残差编码有关的所有语法元素被移除并且被推断为0以便进行其自身层内部的预测,以及其中如果所述信息替换影响毗邻块的编码,则更改所述毗邻块的编码。
9. 如权利要求l所述的系统,其特征在于,还包括会议网桥("稀疏化服务器"(TS)),其具有各自通过至少一个通 信信道链接到至少一个接收端点的至少一个输出和链接到至少一个传送端 点的至少一个输入,其中所述至少一个端点,它传送使用支持时间、空间或质量可縮放性中的一个或多个的可缩放视频编码格式编码的数字视频流,以及所述至少 一个接收端点解码以可縮放视频编码格式编码的至少一个数字视频流,其中所述TU与所述TS整合,以使得所述TU被应用于所述TS的所 述至少一个输出中的至少一个。
10. 如权利要求9所述的系统,其特征在于,所述至少一个接收端点 的解码器被配置成通过在预定用于显示的目标层的解码过程中按需顺序地访问较低层数据来解码比所述目标层低的视频层。
11. 如权利要求9所述的系统,其特征在于,所述TS还被配置成将其 至少一个输出操作成如下之一使用级联的解码和编码的译码多点控制单元; 通过选择哪个输入作为输出来传送的切换多点控制单元; 使用选择性复用的可縮放视频通信服务器;或者 使用选择性复用和比特流级合成的合成可縮放视频通信服务器。
12. 如权利要求9所述的系统,其特征在于,所述至少一个传送端点 的编码器被配置成作出有助于由所述TU执行的所述信息移除或替换过程 的编码模式决策,并且还被配置成在其编码决策中结合由所述可能的稀疏 化过程产生的比特率并由此来确定由源编码以及包括差错和抖动的传输状 况导致的失真与所述比特率之间的权衡。
13. 如权利要求9所述的系统,其特征在于,所述TU以画面自适应为 基础进行稀疏化。
14. 如权利要求9所述的系统,其特征在于,所述至少一个传送端点 的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编 码结构中的帧,其中所述帧的子集("R")被特定选择为进行可靠输送并 至少包括所述线程化编码结构中最低时间层的所述帧,以使得所述解码器 可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到 媒体的至少一部分并此后与所述编码器同步,并且其中所述TU仅向与非R 帧相对应的信息选择性地应用稀疏化。
15. 如权利要求9所述的系统,其特征在于,还包括 所述通信网络上的至少一个反馈信道,用于从所述至少一个接收端点向所述TS传送信息,其中所述至少一个接收端点通过所述至少一个反馈信道向所述TS传 送网络状况指示符,并且其中所述TS根据所报告的网络状况改编所述信息 更改过程。
16. 如权利要求l所述的系统,其特征在于,还包括各自通过至少一个通信信道链接到至少一个接收端点和至少一个传送端点的会议网桥("稀疏化服务器"(TS)),其中所述至少一个端点传送使用支持时间、空间或质量可缩放性中的 一个或多个的可縮放视频编码格式编码的数字视频,以及所述至少一个接 收端点解码以可縮放视频编码格式编码的至少一个数字视频流,其中所述TU与所述TS整合,并且其至少一个输入链接到所述至少一 个传送端点,而其至少一个输出链接到至少一个接收端点,并且其中所述 至少一个传送端点也传送使得所述TU能够执行所述输入信号的所述部分 的所述更改而无需完全解析所述整个输入视频信号的附加数据。
17. 如权利要求l所述的系统,其特征在于,还包括 至少一个端点,它传送使用支持空间或质量可縮放性的可縮放视频编码格式编码的数字视频,至少一个接收端点,它解码以可縮放视频编码格式编码的至少一个数 字视频流,输入视频通信网络,它链接所述TU的所述至少一个输入与所述至少 一个传送端点,输出视频通信网络,它将所述TU的所述至少一个输出链接到所述至 少一个接收端点,其中所述TU被用于根据所述输出视频通信网络的所述网络状况来最 优化其输入视频信号的编码效率。
18. 如权利要求17所述的系统,其特征在于,还包括 所述输出视频通信网络上的一个或多个反馈信道,用于从所述至少一个接收端点向所述TU传送信息,其中所述至少一个接收端点通过所述至少一个反馈信道向所述TU传送网络状况指示符,并且其中所述TU根据所报告的网络状况改编所述信 息更改过程。
19. 一种数字视频通信系统,包括至少一个端点,它传送使用支持时间、空间或质量可縮放性中的一个 或多个的可缩放视频编码格式编码的数字视频,至少一个接收端点,它解码以可縮放视频编码格式编码的至少一个数 字视频流,各自通过至少一个通信信道链接到所述至少一个接收端点和所述至少 一个传送端点的SVCS,其中传送自所述至少一个传送端点的所述视频信号被划分成不同的数 据集合,包括第一数据集合,它与预定由所述至少一个接收端点解码的所述目标层 相对应,第二数据集合,它与对应于较预定由所述至少一个接收端点解码的所 述目标层低的时间、空间或质量分辨率的层相对应,第三辅助数据集合,它与对应于时间、空间或质量分辨率比预定由所 述至少一个接收端点解码的所述目标层低的层相对应,并且至少包含被预定进行解码的所述目标层用于预测的信息,以及任选的第四数据集合,它与对应于较预定由所述至少一个接收端点解 码的所述目标层高的时间、空间或质量分辨率的层相对应,以使得所述svcs可结合所述第一数据集合和任选的所述第四数据集合的数据向所述至少一个接收端点选择性地复用来自所述第二和第三数据 集合的数据。
20. 如权利要求19所述的系统,其特征在于,还包括所述通信网络上的一个或多个反馈信道,用于从所述至少一个接收端点和所述svcs向所述至少一个传送端点传送信息,其中所述至少一个接收端点和SVCS通过所述至少一个反馈信道向所 述至少一个传送端点传送网络状况指示符,并且其中至少一个重传端点根 据所报告的网络状况改编所述第三数据集合的构造。
21. 如权利要求19所述的系统,其特征在于,传送自所述至少一个传 送端点的所述视频信号的所述第三数据集合基于画面自适应来生成和传 送。
22. 如权利要求19所述的系统,其特征在于,所述至少一个传送端点的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧,其中所述帧的子集("R")被特定选择为进行可靠输送并 至少包括所述线程化编码结构中最低时间层的所述帧,以使得所述解码器 可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到 媒体的至少一部分并由此后所述编码器同步,并且其中传送自所述至少一 个传送端点的所述视频信号的所述第三数据集合仅针对非R帧来生成和传 送。
23. —种数字视频通信系统,包括至少一个端点,它传送使用支持时间、空间或质量可縮放性中的一个 或多个的可縮放视频编码格式编码的数字视频,至少一个接收端点,它解码以可縮放视频编码格式编码的至少一个数 字视频流,各自通过至少一个通信信道链接到所述至少一个接收端点和所述至少 一个传送端点的SVCS,其中传送自所述至少一个传送端点的所述视频信号被划分成不同的数据集合,包括第一数据集合,它与预定由所述至少一个接收端点解码的目标层相对应,第二数据集合,它与对应于时间、空间或质量分辨率比预定由所述至 少一个接收端点解码的所述目标层低的层相对应,并且包含被预定进行解 码的所述目标层用于预湖lj的信息,第三数据集合,它与对应于时间、空间或质量分辨率比预定由所述至 少一个接收端点解码的所述目标层低的层相对应,并且包含未被预定进行 解码的所述目标层用于预测的信息,以及任选的第四数据集合,它与对应于较预定由所述至少一个接收端点解码的所述目标层高的时间、空间或质量分辨率的层相对应,以使得所述SVCS可结合所述第一数据集合和任选的所述第四数据集 合的数据向所述至少一个接收端点选择性地复用来自所述第二和第三数据 集合的数据。
24. 如权利要求23所述的系统,其特征在于,还包括所述通信网络上的至少一个反馈信道,用于从所述至少一个接收端点和所述SVCS向所述至少一个传送端点传送信息,其中所述至少一个接收端点和SVCS通过所述至少一个反馈信道向所 述至少一个传送端点传送网络状况指示符,并且其中所述至少一个传送端 点根据所报告的网络状况改编所述第三数据集合的构造。
25. 如权利要求23所述的系统,其特征在于,所述将与对应于时间、 空间或质量层分辨率比预定由所述至少一个接收端点解码的所述目标层低 的层相对应的所述数据分成第二和第三数据集合是基于画面自适应来执行 的。
26. 如权利要求23所述的系统,其特征在于,所述至少一个传送端点 的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编 码结构中的帧,其中所述帧的子集("R")被特定选择为进行可靠输送并 至少包括所述线程化编码结构中最低时间层的所述帧,以使得所述解码器 可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到 媒体的至少一部分并此后与所述编码器同步,并且所述将与对应于时间、 空间或质量层分辨率比预定由所述至少一个接收端点解码的所述目标层低 的层相对应的所述数据分成第二和第三数据集合是仅针对非R帧来执行 的。
27. —种用于处理以支持空间和/或质量可缩放性的可縮放视频编码格 式编码的数字视频信号的方法,所述方法包括使用具有至少一个数字视频信号输入和至少一个数字视频信号输出的 视频处理单元("稀疏化单元"(TU)),在所述TU中,更改所述至少一个输入视频信号中与在预定分辨率下 解码所述至少一个输出视频信号并非必需的信息的某些或全部相对应的一部分,以使得此信息在所述至少一个输出视频信号中被縮减或消去。
28. 如权利要求27所述的方法,其特征在于,更改所述至少一个输入 视频信号的一部分包括丢弃所述输入视频信号中对应于空间、SNR或时间 分辨率比所述至少一个输出视频信号所预定的所述分辨率高的那些部分。
29. 如权利要求27所述的方法,其特征在于,更改所述至少一个输入 视频信号的一部分包括保持所述输入视频信号中对应于所述至少一个输出 视频信号所预定的所述分辨率的那些部分完整。
30. 如权利要求27所述的方法,其特征在于,更改所述至少一个输入 视频信号的一部分包括更改所述输入视频信号中对应于所述至少一个输出 视频信号所预期的所述分辨率的那些部分。
31. 如权利要求27所述的方法,其特征在于,更改所述至少一个输入 视频信号的一部分包括更改所述输入视频信号的部分以使得在所预定的分 辨率下解码所述输出视频信号并非必需的信息被在所述输出视频信号中需 要更少比特的信息替换,并且其中具有所替换的信息的所述输出视频信号 是顺应的视频比特流。
32. 如权利要求31所述的方法,其特征在于,所述输入视频信号是根 据H.264 SVC来编码的,并且包括目标层和所述目标层所依赖的至少一个 较低层,并且其中更改所述至少一个输入视频信号的一部分包括针对所述 输出信号替换所述输入视频信号的所述较低层中的信息以使得对于未被用于预测所述目标层的宏块,通过用跳过运行和跳过标志指 示符中之一替换其数据来发信号通知为跳过所述宏块,对于其中未使用模式预测的内块,如果所述块未被毗邻块用于帧内预测,或者所述毗邻块中没有一个被用于预测所述目标层,则其系数被设为 零且所述宏块的经编码的块型被相应地更改,对于其中没有模式预测或没有运动预测被使用的帧间块,运动信息被 设为0,对于其中未使用残差预测的帧间块,它们的系数被设为零且所述宏块 的所述经编码的块型被相应地更改,以及其中如果所述信息替换影响毗邻块的编码,则更改所述毗邻块的编码。
33. 如权利要求27所述的方法,其特征在于,更改所述至少一个输入视频信号的一部分包括更改所述输入视频信号的部分以使得在所述至少一 个输出所预定的所述分辨率下解码所述视频信号并非必需的信息在所述输 出视频信号中被移除。
34. 如权利要求33所述的方法,其特征在于,所述输入视频信号是根 据H.264 SVC来编码的,并且包括目标层和至少一个较低层,并且其中更 改所述至少一个输入视频信号的一部分包括针对所述输出信号移除所述输 入视频信号的所述较低层中的信息以使得对于未被用于预测所述目标层的宏块,所述宏块被移除,对于其中未使用模式预测的内块,如果所述块未被毗邻块用于帧内预 测,或者所述毗邻块中没有一个被用于预测所述目标层,则其系数被推断 为零以便进行其自身层内部的进一步预测,对于其中没有模式预测或运动预测被使用的帧间块,运动信息被移除 并且运动矢量差异被推断为0以便进行其自身层内部的进一步预测,对于其中未使用残差预测的帧间块,与残差编码有关的所有语法元素 被移除并且被推断为0以便进行其自身层内部的预测,以及其中如果所述信息替换影响毗邻块的编码,则更改所述毗邻块的 编码。
35. 如权利要求27所述的方法,其特征在于,还包括 使用具有各自通过至少一个通信信道链接到至少一个接收端点的至少一个输入和链接到至少一个传送端点的至少一个输出的会议网桥("稀疏 化服务器"(TS)),其中所述至少一个端点传送使用支持时间、空间或质量可縮放性中的 一个或多个的可縮放视频编码格式编码的数字视频流,以及所述至少一个 接收端点解码以可縮放视频编码格式编码的至少一个数字视频流,其中所述TU与所述TS整合,以使得所述TU被应用于所述TS的所 述至少一个输出中的至少一个。
36. 如权利要求35所述的方法,其特征在于,还包括使用所述至少一个接收端点的解码器来通过在预定用于显示的目标层的解码过程中按需顺 序地访问较低层数据解码比所述目标层低的视频层。
37. 如权利要求35所述的方法,其特征在于,还包括操作所述TS以使得其至少一个输出是以下之一使用级联的解码和编码来译码多点控制单元; 通过选择哪个输入作为输出来传送的切换多点控制单元; 使用选择性复用的可縮放视频通信服务器;或者 使用选择性复用和比特流级合成的合成可縮放视频通信服务器。
38. 如权利要求35所述的方法,其特征在于,还包括使用所述至少一 个传送端点的编码器来作出有助于由所述TU执行的所述信息移除或替换 过程的编码模式决策,并且在其编码决策中结合由所述可能的稀疏化过程 产生的所述比特率,由此可获得关于由源编码以及包括差错和抖动的传输 状况导致的失真与所述比特率之间的权衡的确定。
39. 如权利要求35所述的方法,其特征在于,还包括在所述TU中以 画面自适应为基础进行稀疏化。
40. 如权利要求35所述的方法,其特征在于,所述至少一个传送端点 的编码器将所传送的媒体编码成具有多个不同时间级的线程化编码结构中 的帧,其中所述帧的子集("R")被特定选择为进行可靠输送并至少包括 所述线程化编码结构中最低时间层的所述帧,以使得解码器可在分组丢失 或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一 部分并此后与所述编码器同步,所述方法还包括在所述TU中,仅向与 非R帧相对应的信息选择性地应用稀疏化。
41. 如权利要求35所述的方法,其特征在于,在所述通信网络上有用 于从所述至少一个接收端点向所述TS传送信息的至少一个反馈信道,其中所述至少一个接收端点通过所述至少一个反馈信道向所述TS传 送网络状况指示符,所述方法还包括在所述TS中根据所报告的网络状况 改编所述信息更改过程。
42. 如权利要求35所述的方法,其特征在于,还包括 使用具有各自通过至少一个通信信道链接到至少一个接收端点的至少一个输出和链接到至少一个传送端点的至少一个输入的会议网桥("稀疏 化服务器"(TS)),其中所述至少一个端点传送使用支持时间、空间或质量可縮放性中的 一个或多个的可縮放视频编码格式编码的数字视频,以及至少一个接收端 点解码以可縮放视频编码格式编码的至少一个数字视频流,并且其中所述TU与所述TS整合以使得所述TU被应用到所述TS的所述至少一个输出中 的至少一个,以及所述方法还包括从所述至少一个传送端点传送使得所述TU能够执行所述输入信号的 所述部分的所述更改而无需完全解析所述整个输入视频信号的附加数据。
43. 如权利要求35所述的方法,其特征在于,有 至少一个端点,它传送使用支持时间、空间或质量可縮放性中的一个或多个的可縮放视频编码格式编码的数字视频,至少一个接收端点,它解码以可縮放视频编码格式编码的至少一个数 字视频流,输入视频通信网络,它链接所述TU的所述至少一个输入与所述至少 一个传送端点,输出视频通信网络,它将所述TU的所述至少一个输出链接到所述至 少一个接收端点,所述方法还包括采用所述被用于根据所述输出视频通信网络的所述网络状况来最优化 其输入视频信号的编码效率的TU。
44. 如权利要求43所述的方法,其特征在于,所述输出视频通信网络 上有用于从所述至少一个接收端点向所述TU传送信息的至少一个反馈信 道,并且其中所述至少一个接收端点通过所述至少一个反馈信道向所述TU 传送网络状况指示符,所述方法还包括在所述TU处,根据所报告的网络状况改编所述信息更改过程。
45. —种用于系统中的数字视频通信的方法,所述系统包括至少一个端点,它传送使用支持时间、空间或质量可縮放性中的一个 或多个的可縮放视频编码格式编码的数字视频,至少一个接收端点,它解码以可縮放视频编码格式编码的至少一个数 字视频流,各自通过至少一个通信信道链接到所述至少一个接收端点和所述至少 一个传送端点的SVCS, 所述方法包括将传送自所述至少一个传送端点的视频信号划分成不同的数据集合, 包括第一数据集合,它与预定由所述至少一个接收端点解码的所述目标层 相对应,第二数据集合,它与对应于较预定由所述至少一个接收端点解码的所 述目标层低的时间、空间或质量分辨率的层相对应,第三辅助数据集合,它与对应于较预定由所述至少一个接收端点解码 的所述目标层低的时间、空间或质量分辨率的层相对应,并且至少包含被 预定进行解码的所述目标层用于预测的信息,以及任选的第四数据集合,它与对应于较预定由所述至少一个接收端点解 码的所述目标层高的时间、空间或质量分辨率的层相对应,以使得所述SVCS可结合所述第一数据集合和任选的所述第四数据集 合的数据向所述至少一个接收端点选择性地复用来自所述第二和第三数据 集合的数据。
46. 如权利要求45所述的方法,其特征在于,所述通信网络上有用于从所述至少一个接收端点和所述SVCS向所述至少一个传送端点传送信息的一个或多个反馈信道,并且其中所述至少一个接收端点和SVCS通过所 述至少一个反馈信道向所述至少一个传送端点传送网络状况指示符,所述方法还包括至少一个传送端点,它根据所报告的网络状况改编所述第三数据集合 的构造。
47. 如权利要求45所述的方法,其特征在于,还包括至少一个传送端点,它基于画面自适应来生成并传送所述输出视频信 号的所述第三数据集合。
48. 如权利要求45所述的方法,其特征在于,所述至少一个传送端点的编码器将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧,其中所述帧的子集("R")被特定选择为进行可靠输送并至少包括 所述线程化编码结构中最低时间层的所述帧,以使得所述解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一部分并此后与所述编码器同步,并且其中传送自所述至少一个传送端点的所述视频信号的所述第三数据集合仅针对非R帧来生成和传送。
49. 一种用于系统中的数字视频通信的方法,所述系统包括至少一个端点,它传送使用支持时间、空间或质量可縮放性中的一个 或多个的可縮放视频编码格式编码的数字视频,至少一个接收端点,它解码以可縮放视频编码格式编码的至少一个数 字视频流,以及各自通过至少一个通信信道链接到所述至少一个接收端点和所述至少一个传送端点的svcs,所述方法包括划分传送自所述至少一个传送端点的视频信号是划分成不同的数据集合,包括第一数据集合,它与预定由所述至少一个接收端点解码的目标层相对应,第二数据集合,它与对应于较预定由所述至少一个接收端点解码的所 述目标层低的时间、空间或质量分辨率的层相对应,并且包含被预定进行 解码的所述目标层用于预测的信息,第三数据集合,它与对应于较预定由所述至少一个接收端点解码的所述目标层低的时间、空间或质量分辨率的层相对应,并且包含未被预定进 行解码的所述目标层用于预测的信息,以及任选的第四数据集合,它与对应于较预定由所述至少一个接收端点解 码的所述目标层高的时间、空间或质量分辨率的层相对应,以使得所述svcs可结合所述第一数据集合和任选的所述第四数据集合的数据向所述至少一个接收端点选择性地复用来自所述第二和第三数据 集合的数据。
50. 如权利要求49所述的方法,其特征在于,所述通信网络上有用于 从所述至少一个接收端点和所述SVCS向所述至少一个传送端点传送信息 的至少一个反馈信道,其中所述至少一个接收端点和SVCS通过所述至少一个反馈信道向所 述至少一个传送端点传送网络状况指示符,所述方法还包括-在所述至少一个传送端点处,根据所报告的网络状况改编所述第三数 据集合的构造。
51. 如权利要求49所述的方法,其特征在于,还包括至少一个传送端点基于画面自适应来将与对应于时间、空间或质量层 分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应的所述数据分成第二和第三数据集合。
52. 如权利要求49所述的方法,其特征在于,所述至少一个传送端点 的编码器将所传送的媒体编码成具有多个不同时间级的线程化编码结构中 的帧,其中所述帧的子集("R")被特定选择为进行可靠输送并至少包括 所述线程化编码结构中最低时间层的所述帧,以使得解码器可在分组丢失 或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一 部分并此后与所述编码器同步,所述方法还包括至少一个传送端点仅针对非R分组来将与对应于时间、空间或质量层 分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应的所述数据分成第二和第三数据集合。
53. 包括用于执行方法权利要求27-52的至少一项中所叙述的步骤的 指令集的计算机可读介质。
全文摘要
一种尤其提供极低的端对端延迟以及较高的可缩放性特征的视频会议系统。系统容纳不同接收机和网络以及诸如基于网际协议的那些网络的网络的尽力特性。系统依赖于可缩放视频编码以提供源视频信号在多个时间、质量和空间分辨率下的经编码的分辨率。这些分辨率由在每个最终用户编码器处创建的不同比特流分量来表示。称为SVC稀疏化的系统架构和过程允许将数据分成用于在其它画面中进行预测的数据和不用于在其它画面中进行预测的数据。可在视频会议端点或在MCU处执行的SVC稀疏化过程可选择性地移除或用更少的比特替换不用于在来自所传送的比特流的其它画面中进行预测的数据。
文档编号H04N7/14GK101427573SQ200780005798
公开日2009年5月6日 申请日期2007年2月16日 优先权日2006年2月16日
发明者A·埃莱夫塞里埃兹, D·洪, O·夏皮罗, T·维格安德 申请人:维德约股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1