用于可伸缩视频编码的方法和装置的制作方法

文档序号：7753139阅读：79来源：国知局

专利名称：用于可伸缩视频编码的方法和装置的制作方法
技术领域：
本发明总体上涉及视频编码，特别涉及可伸缩视频编码(SVC)。
背景技术：
可伸缩性是许多多媒体应用所期望的特征，例如，端对端(P2P)实时视频流、多方视频会议和点对点视频会话。例如，在P2P内容流中，内容提供者期望按不同的价格来提供不同质量的多媒体内容，例如，多媒体内容的低分辨率预览版本可以是免费的。可以根据空间可伸缩性、质量可伸缩性、时间可伸缩性或者甚至组合的可伸缩性来衡量可伸缩性，该组合的可伸缩性一般指的是空间、质量和时间可伸缩性的组合。空间可伸缩性和时间可伸缩性分别描述了比特流的子集代表具有缩减的图像尺寸(空间分辨率)或者帧率(时间分辨率)的源内容的情形。质量可伸缩性描述了与完整比特流相同的时空分辨率具备较低保真率的情形，其中保真率通常非正式地指信噪比(SNR)。在P2P网络的情况下，也产生对可伸缩性的需求，其中，依赖于诸如数据处理能力、显示能力和网络状况等因素，不同的用户可具有不同的操作能力。例如，在实时视频广播的情况下，期待每个用户都能为优良的用户体验而接收并看到至少一些事物。这就要求多媒体应用是可伸缩的。不使视频比特流为可伸缩的，相反，可以提供不同质量水平的多个视频比特流以满足用户的各种需求或操作，同时也满足多变的终端能力或网络状况。然而，这将会有太多的独立视频数据同时传输，并且将不能有效的利用用户的输入和输出带宽的效率。换句话说，接收到的全部的视频质量将不是最佳的。因此，可伸缩性是重要的特征，且通过诸如基于全部或部分低层(较低质量的视频)来编码高层(具有较高质量的视频)的方法，可伸缩视频编码允许截断部分视频比特流以使视频比特流适应各种状况，上述方法如公开于Y. Cui和K. Nahrstedt, Layered peer-to-peer streaming, Proc. NOSSDAV，03，2003年6月，在此以引用的方式将其整体并入本文中。不同的层代表具有不同质量的视频以满足各种需求。视频编码标准已支持了视频内容可伸缩性很多年。有许多现有的手段被标准所采用，比如H. 262/MPEG-2 视频，如公开于Generic Coding of Moving Pictures andAssociated Audio Information Part 2 视频，ITU-T Rec. H.262 禾口 ISO/ IEC13818-2 (MPEG-2 视频)，ITU-T 和 IS0/IEC JTCl，1994 年 11 月。H. 263，如公开于Video Coding for Low Bitrate Communication, ITU-TRec. H. 263，ITU-T，版本 1 :1995 年 11 月，版本 2 :1998 年 1 月，版本 3 :2000 年 11 月；MPEG-4视觉，如公开于Coding of audio-visual object-Part 2:视觉，IS0/IEC 14492-2 (MPEG-4 视觉)，IS0/IEC JTC 1，版本 1 1999 年 4 月，版本 2 :2000 年 2 月，版本 3 2004年5月(下文中的“音视频对象编码-第二部分”)；以及H. 264/MPEG-4AVC,如公开于:J. Reichel，H. Schwarz, T. ffiegand, G. J. Sullivan和 M. ffien, Joint Draft 11 of SVC Amendment,联合视频组，Doc. JVT-X201, 2007 年 7 月。在此以引用的方式将以上所引用的文献的整体并入本文中。已将各种努力灌注在可伸缩视频编码。美国专利6，639，943描述了可伸缩视频编码中的增强层的精细可伸缩(res)编码，其中包括分层编码视频的新的编码和解码。通常首先编码基本层。基于基本层残差编码增强层残差。美国专利申请2007/0160133描述了允许空间和质量可伸缩性的4个比特流的产生。第一个和基本的比特流，基本层，是96Kbps的QCIF视频。根据此基本层也产生另外一个具有相同QCIF分辨率的比特流。此层的目标比特率是192Kbps。为获得更高的视觉质量，也产生了另外一个CIF分辨率的比特流。因为由于比特流的限制而使它的质量可能不够好，所以进一步编码了附加的较高比特率的CIF比特流以获得最好的分辨率和SNR质量。此方法结合了空间可伸缩性和res。然而，增强层的分辨率仍然依赖于低分辨率层的内插。美国专利申请2006/0233241和2004/0264567描述了使用小波变换采获得可伸缩性。此方法将1个帧分为4个子帧，且使用运动估计来压缩它们之间的相似性。美国专利7，292，635描述了利用小波变换的可伸缩数据编码方法。将滤波应用于单个图像以影响编码性能，而不提供任何可伸缩性。上述参考文献揭示了一些现有的方法使用3-D小波变换来在提供可伸缩性时尽可能的除去空间和时间的相似性。S. J. Choi和J. W. Woods, Motion-compensated 3-D subband coding of video, IEEE Trans公开了又一个例子。图像处理，第8卷，第2期，第 155-167页，1999年2月，在此以引用的方式将其整体并入本文中。一些已有的方法主张使用低层的信息，包括残差、运动信息和重建巾贞，这些信息为降低高层的编码熵提供参考。“音视频对象编码_第二部分”公开了又一个例子。然而，上述的方法很少有被工业广泛的采用的，因为它们的应用受到实现的复杂性的诸多限制。例如，因为现有的方法要求现有编译码器的完全修改以支持可伸缩性，所以引起了复杂性。没有任何修改，尽管可以利用高性能的硬件，然而现有的可伸缩视频编码方法限制用户使用现有的编译码器来只查看基本层。实际上，在标准H. 264的情况下，已经发现H. 264采用可伸缩视频编码非常困难，特别在空间和质量伸缩性方面。此外，因为现有的方法要求依赖于其他低层帧来进行低层帧的编码和解码，所以也引起了复杂性。换句话说，不能独立的解码和重构各低分辨率的视频比特流。在本领域，仍然保持着对使用可伸缩性来编码视频的改进的技术的需求，特别的，为了符合现有编译码器，而无修改或有最小限度的修改。

发明内容
本发明的第一方面是向配备有现有的解码器(如H. 264)的用户提供尽可能多的视觉质量和层。本发明没有对现有的编译码器进行复杂的修改就提供了空间可伸缩性和质量可伸缩性。本发明的第二方面是为可伸缩视频编码方法提供高的编码效率。传统方法使用不同的量化步长来产生具有相同分辨率但不同SNR值的层，与传统方法不同，本发明通过向具有高分辨率的帧应用具有顺序受控截止频率的低通滤波器来产生具有相同分辨率但不同SNR值的帧。
本发明的第三方面是提供可伸缩视频编码方法，该方法允许不依赖于其他低分辨率视频包就可解码的所有低分辨率视频包的子集。因此，降低了编码的复杂性，并且即使在其他低分辨率视频包中有数据损坏或丢失，仍然能够可靠的重新获得这样的所有低分辨率视频包的子集。更进一步的一个方面是为用户改进全部的视觉质量。例如，通过使用滤波而非使用量化来消除细节信息，从而抑制方块效应。因为基本层不用依靠不采样操作或者小波逆变换来结合基本层信息和增强层信息，就可用来预测也被认为是增强层的较高层，所以通过允许基本层(低分辨率，原始帧的二次采样版本)有更多的差异，也可获得更好的视觉质量。因此，由本发明所产生的基本层视频比从现有的多尺度编译码器方法获得的基本层视频具有更多的锐利特征(更好的视频质量)。本发明的还一个方面是能够提供数个层的视频流以满足各种应用需求，且仍保持压缩效率和符合标准的可伸缩视频编码方法。本发明向来自输入视频的高分辨率高质量的视频帧(HRHQ视频帧)应用低通滤波器以产生高分辨率低质量的视频帧。对该高分辨率低质量的视频帧(HRLQ视频帧)进行二次采样以产生多个低分辨率视频帧(LR视频帧)。该低通滤波器具有比反混叠频率高的截止频率，以便通过抑制方块效应和为低分辨率视频帧保留更多信息来改进视觉质量。同时，在一定的限制下设置该截止频率以避免在低分辨率视频帧中将有太多混叠的问题。以适应至少一个现有的编译码器标准的方式编码该低分辨率视频帧，且一个或多个该低分辨率视频帧参考其他低分辨率视频帧。这个工作与现有的编码方案不同。当前的可伸缩编码方法通常修改编码器和解码器，所以它们就不再符合标准。本发明克服了视频解码器(如H.264/AVC或MPEG4)不支持可伸缩性(空间和质量可伸缩性)的限制，并且能够正确的仅解码基本层。因此，本发明允许系统具有更多的被解码的层，包括基本层和增强层，同时，由于减少了方块效应而获得了更好的质量。本发明对任何多媒体网络应用都有用。它对具有非均勻情况的网络应用特别有效，例如，P2P (端对端)视频流、P2P文件下载和三屏(移动设备、PC和TV)应用。在P2P 应用中，各用户作为服务器来工作，以使用户和用户之间的输入/输出带宽和PC的计算能力不同。可伸缩视频内容允许更加有效的使用所有的资源，同时为每个用户提供最好的可能的视频质量。本发明还可应用于穿过移动网络或者宽带网络的媒体内容传输平台，例如，用于实时流和视频点播(VoD) WiShare P2P流平台。本发明能够提供IPTV应用、因特网视频流和多媒体通信应用，比如视频会议、视频交换和企业视频服务器。还能够将本发明作为个人编码模块传输到视频编译码器用户，例如，多媒体系统开发者团队或者解决方案提供者。通过下面的实施方式的举例说明，还公开了本发明的其他方面。

根据下面的附图，以下将更加详细的描述本要求保护的发明的这些和其他目的、方面和实施方式，其中
图1描述了根据某些实施方式的具有可伸缩视频编码能力的普通器件。图2描述了根据某些实施方式的在可伸缩视频编码期间从HRHQ视频帧生成LR视频帧和HRLQ视频帧的流程图。图3描述了根据某些实施方式的在缩减过程中从HRLQ视频帧生成LR视频帧的图
7J\ ο图4描述了根据某些实施方式的可伸缩视频编码方法的流程图。图5描述了根据某些实施方式的LR视频帧之间的编码参考关系。图6A-6E示出了编码过程。图7描述了在网络中向用户传输视频序列。
具体实施例方式图1描述了根据本发明的某些实施方式的具有可伸缩视频编码能力的普通器件。该普通器件130具有一个或多个处理器110，其执行例如控制和处理的功能。该普通器件 130进一步包括一个或多个存储单元，其存储一个或多个程序。该程序被配置为由所述一个或多个处理器110来执行，且包括根据以此所公开的本发明的可伸缩视频编码方法的指令。图2描述了根据某些实施方式的在可伸缩视频编码期间从HRHQ视频帧生成LR视频帧和HRLQ视频帧的流程图。源视频也被认为是高分辨率高质量(HRHQ)的层。HRHQ视频帧210是在HRHQ层的视频帧。可伸缩编码器可从源视频同时生成数个流。例如，将低通滤波器220应用到HRHQ视频帧210以生成高分辨率低质量(HRLQ)的视频帧230。在用于具有低比特率的视频比特流的一个实施方式中，低通滤波器220是[1，-2,0,8, -10，-20,74, 154，74，-20，-10,8,0, -2，1]/256。在用于具有高比特率的视频比特流的一个实施方式中，低通滤波器 220 是[1，-2,0,8, -10，-20，74，154，74，-20，-10,8,0, _2，1]/256。在用于具有高比特率的视频比特流的另一个实施方式中，低通滤波器220不是必需的且可忽略。由二次采样器240对HRLQ视频帧230进行二次采样以生成一组低分辨率(LR)视频帧250，在这个例子中，该组LR视频帧的成员包括具有标记为“ 1”的像素的LR视频帧、具有标记为 “2”的像素的LR视频帧、具有标记为“3”的像素的LR视频帧和具有标记为“4”的像素的 LR视频帧。例如，从那些具有来自各个时段的、标记为“1”的像素的LR视频帧生成的至少一个LR视频比特流被认作是基本层，LR视频帧250的编码结果仅依赖于LR层内的其他视频帧。可通过任何符合标准且不用支持可伸缩性的解码器来解码这个基本层。其他LR视频比特流，例如，从那些具有来自各个时段的、标记为“2”的像素的LR视频帧生成的比特流，以及从那些具有来自各个时段的、标记为“3”的像素的LR视频帧生成的比特流，被称为增强层。空间可伸缩性允许系统包括至少2个层，其中，基本层具有较低的分辨率。在与增强层信息结合后，可构建具有相同内容但更高分辨率的视频。质量可伸缩性允许系统包括至少2个层，其中，基本层具有较低的SNR值。在与增强层信息结合后，可重建具有相同内容和相同分辨率但更好的SNR的视频。在某些实施方式中，通过向现有的LR视频帧重复一次或多次二次采样过程，可获得一个或多个附加的LR视频帧。在每个二次采样过程，可将低通滤波器应用到将要被二次采样的视频帧以在二次采样之前限制比特率。
在一个实施方式中，水平和垂直的比例因子都是2。在LR视频帧250中允许出现一些混叠。因此，低通滤波器220不使用低于或等于0.5 π的反混叠截止频率，而使用高于0.5 π的截止频率。在一个实施方式中，在视频比特流具有低比特率的情况下，0.6 π被用作低通滤波器的截止频率。在另一个实施方式中，在视频比特流具有高比特率的情况下， 0. 9 π视用作低通滤波器的截止频率。在另一个实施方式中，在视频比特流具有高比特率的情况下，没有使用低通滤波器。然而，截止频率不能太高且被保持在一定的限制范围内，以使低分辨率视频帧中的混叠效应不会太显著。例如，在视频比特流具有高比特率的情况下，如果低通滤波器使用0. 6 π作为截止频率，则视频输出将会非常模糊。例如，在视频比特流具有低比特率的情况下，因为如果低通滤波器使用0.9π作为截止频率，则由量化参数控制比特率，所以视频输出将会充满方块效应。图3描述了根据本发明的某些实施方式的在二次采样中从HRLQ视频帧生成LR视频帧的图示。在一个实施方式中，水平和垂直的比例因子都是2。假设二次抽样过程之前的HRLQ视频帧300的分辨率为ΑΧΒ，在这个特定的例子中，其为6X6。将该HRLQ视频帧 300分成多个2X2的块。每个2X2的块包括4个像素，且每个像素都分属不同的组。为了说明的目的，用相同的数字标记来自同一组的各个像素。例如，在HRLQ视频帧300中的各个2 X 2块中，位于左上角的像素被标记为“ 1 ”，位于右上角的像素被标记为“2”，位于左下角的像素被标记为“3”，且位于右下角的像素被标记为“4”。二次采样过程是从HRLQ视频帧300的各4X4块选择属于不同组的所有像素，且将它们集合到LR视频帧。因此，由所有的像素“ 1，，组成的LR视频帧310的分辨率将会是Α/2 X Β/2，在这个特定的例子中，其为 3X3。类似的，二次采样后，由所有的标记为“2”的像素组成的LR视频帧320、由所有的标记为“3”的像素组成的LR视频帧330、以及由所有的标记为“4”的像素组成的LR视频帧 340将也分别具有Α/2ΧΒ/2的分辨率。在解码期间，如果在每个时段只能得到LR视频帧310，则仍然能够在不依赖其他 LR视频帧的情况下构建LR视频，且仅通过内插LR视频帧310就也能构建高分辨率视频。进一步的二次采样和排序是可能的。在某些实施方式中，进一步的二次采样的水平和垂直的比例因子可以为任何大于1的整数，且不需要与以前的二次采样的比例因子相同。在二次采样之前，可将低通滤波器应用到LR视频帧，例如，LR视频帧310，320，330，340。例如，将LR视频帧310进一步的二次采样成多个低分辨率的LR视频帧311。这些LR视频帧311的排序遵循LR视频帧310的光栅扫描序列。将LR视频帧320进一步的二次采样成多个低分辨率的LR视频帧321。LR视频帧321的排序遵循LR视频帧320的光栅扫描序列。对LR视频帧330和340重复类似的过程。LR视频帧311将被编码，且随后LR视频帧321 将被编码，等等。图4描述了根据某些实施方式的可伸缩视频编码方法的流程图。该可伸缩视频编码方法编码源视频，其包括由420所表示的二次采样高分辨率视频帧，以生成多个低分辨率视频帧，低分辨率视频帧的数量在1到N的范围之间，其中N是大于或等于2的整数，N个低分辨率视频帧中的每个在每个给定的时段、期间出现，其中i是从1到η的范围之间的整数，η为编码源视频所需要的时段的总数；且还包括由430所表示的排序N个低分辨率视频帧，以使该组N个低分辨率视频帧中的任何给定的低分辨率视频帧的顺序排序在从、到 tn范围内的时段内保持不变。构建该组N个低分辨率视频帧，以使在随后的解码该组低分辨率视频帧期间，接收设备能够选择N个低分辨率视频帧的子集X，其用于在接收设备产生对应于源视频的视频，其中χ是从1到N的范围之间的整数。为了本应用的目的，表述“顺序排序”表示低分辨率视频帧的特定序列顺序。例如，如图3所示，第一帧的顺序排序通常为“1”，第二帧为“2”，第三帧为“3”，且第四帧为“4”。当帧1-4的顺序排序在编码期间保持不变时，在每个时段、，帧1-4总是按1，2，3，4排序。当然，应当理解，低分辨率视频帧的数量在1到N的范围之间，其中N是大于或等于2的整数，且、在1到η的范围之间，其中η是用于编码源视频的时段的总数。为获得更低分辨率的视频帧，可对低分辨率视频帧重复二次采样420和随后的排序430，这样使得在每个重复操作中，能够产生附加的增强层(那些更低分辨率的视频帧)。通过多次重复操作可获得多个增强层。换句话说，该可伸缩视频编码方法可以有选择的进一步二次采样N个低分辨率视频帧中的每个，以产生一组M个低分辨率视频帧，其对应于N个低分辨率视频帧中的每个，其中M是大于或等于2的整数；以及可以有选择的对该组M个低分辨率视频帧进行排序，以使该组M个低分辨率视频帧中的各个成员的顺序排序在每个时段^都保持不变，同时保持对应于该组M个低分辨率视频帧的第N个低分辨率视频帧的顺序排序。该可伸缩视频编码方法可以根据指示有选择的进一步二次采样M个低分辨率视频帧中的每个，以产生该组M 个低分辨率视频帧。在二次采样420之前，可将低通滤波器应用到每个高分辨率视频帧，以生成高分辨率低质量的视频帧。例如，如果高分辨率视频帧的比特率为高，则可能无需向高分辨率视频帧应用低通滤波器。如果高分辨率视频帧的比特率为低，则向高分辨率视频帧应用低通滤波器，以增强解码后的视频的视觉质量。如440所表示的，该可伸缩视频编码方法对低分辨率视频帧进行编码，且在一个实施方式中，以符合现有的编译码器(例如，如下面所描述的H. 264)的方式对低分辨率视频帧进行编码。HRLQ层也被认为是第一个增强层，或者中间比特率层。本发明根据两个目的进行编码一个是消除尽可能多的冗余，另一个是保持现有的编译码器不变。例如，为了避免对编码器和译码器的进行许多修改，不需要由H. 264可伸缩扩展提供的以下特征就可以对 HRLQ层进行编码为形成预测而对重建的低分辨率视频帧进行的上采样、对宏块模型的预测、关联的运动参数和残留信号。如在垂直和水平的比例因子都为2的例子中所描述的，在从HR层生成LQ层的过程中，获得HRLQ层。通过向对应的HR视频帧应用低通滤波器来获得HRLQ视频帧的每一个。由于低通滤波器的截止频率接近0. 5 π，所以在这个视频帧中存在许多冗余。尽管如此，由于两个原因，通过对LR视频帧的上采样，HRLQ视频帧是不可恢复的首先，尽管将低通滤波器的截止频率设置为大约0. 5 π，然而使低通滤波器的性能理想化是不可能的。因此，在低通滤波器的输出中仍然存在许多高频成分。这些高频成分作为混叠存在于LR视频帧中，且通过简单的上采样方法不能将其消除。其次，在空间域中存在基于多项式的最便捷且迅速的内插方法，例如，双三次内插或双线性内插。这样的内插方法在高频区域具有低效率。因此，基于作为基本层的LR视频帧，也以使用与那个时间结果的重建相同的方法为目的而对剩余的像素信息进行编码和传输，以作为本发明中的高分辨率但是低质量的增强层。传统的可伸缩视频编码方法上采样LR视频帧，并且对上采样的结果信号和HRLQ 视频帧之间的差异进行编码，与该传统的可伸缩视频编码方法不同，本发明为了适合HRLQ 视频帧而按照下面的方式进行编码，其中HRLQ视频帧是限带信号使用如图3中的比例因子等于2的例子，在时段t的HR视频帧由Pt (未示出)表示，低通滤波器在时段t输出的HRLQ视频帧由户;300表示，并且，通过从HRLQ视频帧300选择同一组的像素而分别形成的LR视频帧表示如下由310表示标记为“1”的像素，由^2 320表示标记为“2”的像素，由A,3 330表示标记为“3”的像素，由A,4 340表示标记为“4”的像素。该视频帧按下面的方式排序将仁之Pt,々+1K}排序为取异―口，P,-1,2A-U Pt-XA Pt,χ Pt,ι Pt,3 PtA A+u Pm,2 Pm,3 ΡΜΑΚ}
不直接编码HRLQ视频帧序列，而是编码有序序列中的HRLQ视频帧序列。图5示出了 LR视频帧之间的编码参考关系。按照下面的根据本发明的某些实施方式的LR视频帧之间的编码参考关系，对LR视频帧的有序序列进行编码具有标记为“1”的像素的LR视频帧被用作基本层，且被认为是基本层视频帧，例如，在时段t的Aj视频帧512和在时段t-Ι的视频帧511。每个基本层帧可只使用不同时段的其他基本层帧作为参考。例如，Λ,Ι视频帧512可使用Λ-u视频帧511作为参考。如果接收器只接收基本层帧，则仍然可能重建低分辨率序列。·也对其他分别具有标记“2”、“3”和“4”的LR视频帧Α，2 522、A3 532和^4 542
进行可伸缩性编码，并且这些LR视频帧通常被认为是增强层帧。换句话说，氕视频帧作为基本层，久2视频帧作为第一增强层，Α,3视频帧作为第二增强层，且视频帧作为第三增强层。可只使用低于或等于它本身的层的一个或多个其他视频帧作为参考来编码LR视频帧。使用一个或多个其他第一增强层的帧来编码第一增强层的帧，例如，氕2视频帧522使用為—u视频帧521作为参考。使用一个或多个其他第二增强层的帧来编码第二增强层的帧，例如，A,3视频帧532使用A-u视频帧531作为参考。使用一个或多个其他第三增强层的帧来编码第三增强层的帧，例如，Α,4视频帧542使用力Μ,4视频帧541作为参考。另外，也可使用一个或多个基层的帧来编码第一增强层的帧，例如，A,2视频帧522 使用Aa视频帧512作为参考，A—U视频帧521使用A-U视频帧511作为参考。也可使用一个或多个基本层的帧和/或一个或多个其他第一增强层的帧来编码第二增强层的帧，例如， Α,3视频帧532使用Α，2视频帧522和/或A,!视频帧512作为参考，A-!,3视频帧531使用A-u 视频帧521和/或A-u视频帧511作为参考。也可使用一个或多个基本层的帧，和/或一个或多个其他第一增强层的帧，和/或一个或多个第二增强层的帧来编码第三增强层的帧，例如，A,4视频帧542使用A,3视频帧532和/或A,2视频帧522和/或A,,视频帧512作为参考，無-μ视频帧541使用我…视频帧531和/或叙-U视频帧521和/或氣视频帧511作为参考。因此，如果由于丢包而不能重建一个LR视频帧，则在内插的帮助下仍然能够重建LR 视频帧，除非它是遭受丢包的基本层的帧。图6A-6E示出了编码过程。在一个实施方式中，在每个时段有4个LR视频帧。每个LR视频帧是HRLQ视频帧的四分之一，且根据它们的空间分布，将不同时刻的不同LR视频帧归类。例如，将源自HRLQ视频帧的左上角的每个LR视频帧归类为第一 LR视频帧。将源自HRLQ视频帧的右上角的每个LR视频帧归类为第二 LR视频帧。将源自HRLQ视频帧的左下角的每个LR视频帧归类为第三LR视频帧。将源自HRLQ视频帧的右下角的每个LR视频帧归类为第四LR视频帧。在第一步中，如图6A所示，将在时刻t的第一 LR视频帧编码为I帧(独立帧)611。在第二步中，如图 6B所示，将在时刻t的第二 LR视频帧编码为P帧(预测帧)612，将在时刻t的第三LR视频帧编码为P帧613，以及将在时刻t的第四LR视频帧编码为P帧 614。在时刻t的第二 LR视频帧参考在时刻t的第一 LR视频帧。换句话说，P帧612参考 I帧611。在时刻t的第三LR视频帧参考在时刻t的第二 LR视频帧和在时刻t的第一 LR 视频帧。换句话说，P帧613参考P帧612和I帧611。在时刻t的第四LR视频帧参考在时刻t的第三LR视频帧、在时刻t的第二 LR视频帧和在时刻t的第一 LR视频帧。换句话说，P帧614参考P帧613、P帧612和I帧611。如果在不同时段的一些LR视频帧的信息丢失或者损坏，则仍然能够从剩余的LR视频帧部分的重建HRLQ视频帧。例如，当在不同时段的所有的第二 LR视频帧和第三LR视频帧都丢失时，仍然可能从第一 LR视频帧和第四LR 视频帧重建一半的HRLQ视频序列。在第三步中，如图6C所示，将在时刻t+2的第一 LR视频帧编码为P帧631，将在时亥Ijt+l的第一 LR视频帧编码为B帧(双向预测帧)621。从而，考虑到所有来自不同时段的
第一视频帧，则能够重建基本层。在第四步中，如图6D所示，将在时刻t+2的第二 LR视频帧编码为P帧632。将在时刻t+2的第三LR视频帧编码为P帧633。将在时刻t+2的第四LR视频帧编码为P帧634。在时刻t+2的第二 LR视频帧参考在时刻t+2的第一 LR视频帧和在时刻t的第二 LR视频帧。换句话说，P帧632参考P帧631和P帧612。在时刻t+2的第三LR视频帧参考在时刻t+2的第二 LR视频帧、在时刻t+2的第一 LR视频帧和在时刻t的第三LR视频帧。换句话说，P帧633参考P帧632、P帧631和P帧613。在时刻t+2的第四LR视频帧参考在时刻t+2的第三LR视频帧、在时刻t+2的第二 LR视频帧、在时刻t+2的第一 LR视频帧和在时刻t的第四LR视频帧。换句话说，P帧634参考P帧633、P帧632、P帧631和P帧614。在第五步中，如图6E所示，将在时刻t+Ι的第二 LR视频帧编码为B帧622。将在时刻t+Ι的第三LR视频帧编码为B帧623。将在时刻t+Ι的第四LR视频帧编码为B帧624。在时刻t+Ι的第二 LR视频帧参考在时刻t+Ι的第一 LR视频帧、在时刻t的第二 LR视频帧和在时刻t+2的第二 LR视频帧。换句话说，B帧622参考B帧621、P帧612和P帧632。在时刻t+Ι的第三LR视频帧参考在时刻t+Ι的第二 LR视频帧、在时刻t+Ι的第一 LR视频帧、在时刻t的第三LR视频帧和在时刻t+2的第三LR视频帧。换句话说，B帧623参考B 帧632、B帧631、P帧633和P帧613。在时刻t+Ι的第四LR视频帧参考在时刻t+Ι的第三LR视频帧、在时刻t+Ι的第二 LR视频帧、在时刻t+1的第一 LR视频帧、在时刻t的第四 LR视频帧和在时刻t+2的第四LR视频帧。换句话说，B帧644参考B帧633、B帧632、B帧 631、P 帧 614 和 P 帧 634。在某些实施方式中，也可将一个或多个附加的高分辨率高质量(HRHQ)层传输到解码器，以提供一个或多个附加层。例如，对于I巾贞，将附加的HRHQ层传输到解码器。从高分辨率帧中抽取重建的高分辨率低质量(HRLQ)帧。将差异进一步的编码为第一 I帧，并且差异加上重建的HRLQ视频帧的重建也是高分辨率帧的重建。图7描述了在网络中向用户传输视频序列。在网络750中，例如P2P网络，有许多用户760，且每个用户760可具有不同的权能。他们的权能由于以下因素而不同例如，网络状况的变化和每个用户760的不同计算能力。因此，视频序列的传输需要适合不同的用户。要被传输的视频是高分辨率(HR)视频序列710。将可伸缩编码应用到该HR视频序列 710，以将该HR视频序列710转换为多个可伸缩视频流730。由优先级配置740对可伸缩视频流730进行进一步的处理。该优先级配置740通过为每个包标记不同的优先权来为这些包分配各种优先权。通过有选择的接收优先权为1，2，5，6的包，具有高带宽或计算能力的用户760能够访问最高质量的视频内容。通过有选择的接收优先权为1，2，3，4的包，具有较低带宽或计算能力的用户760能够访问较低质量的视频内容。通过有选择的接收优先权为1，2的包，具有非常低的带宽或计算能力的用户760能够访问较低质量的视频内容。此外，由于四个LR帧的空间相似性，较好的错误隐藏方法也可应用于本发明中。在一个实施方式中，在编码端，将高分辨率视频帧(HR视频帧)二次采样成多个较小的视频帧。在这些较小的视频帧之间，至少有一组可自解码的较小的视频帧。但是，当解码端接收到除可自解码以外的其他较小的视频帧时，通过使用某些错误隐藏方法，这些视频帧可用来增强自解码的视频帧的质量。在比例因子等于2的情况下，具有截止频率0.5 π的低通滤波器可平滑HR视频帧。如果低通滤波器是理想的，则只有一组像素的LR视频帧，例如Aa视频帧，能够承载所有的低频信息。不需要使用其他组的像素的LR视频帧来重建HRLQ视频帧。因为期望具有较好的HRLQ视频帧质量，所以低通滤波器的截止频率选择为高于0. 5 π，以在HRLQ层中保留更多信息，并且其他组的像素的LR视频帧对HRLQ视频帧的重建将变得更加有用。然而，低通滤波器的截止频率不能太高，不能超过0. 5 π太多，这是因为在LR视频帧中将有太多的混叠，并且由于混叠表现的像噪声，所以混叠将不利的影响编码性能。对于低通滤波器的截止频率的选择，可以考虑到以上所考虑的事情，尽管该截止频率仍然非常依赖于视频质量。此外，对于由低质量的照相机所捕捉的一些序列，甚至可能不需要向它们应用滤波操作，因为该捕获设备可能已经消除了高频信息。对于已经以中等比特率压缩了的视频，可能也不需要滤波操作，因为这样的压缩也作为一种滤波。如果HRLQ层的视觉质量不够高，则可基于现有的层产生另外一个HR层。可使用现有的方法，例如在以下文献中所公开的这些方法:A. Segall和G. J. Sullivan, Spatial scalability, IEEE学报，电路系统视频技术，第17卷，第9期，第1121-1135页，2007年 9 月，以及 D· Marpe H. Schwarz 禾口 T. ffiegand, SVC Core Experiment 2. 1 Jnter-Layer Prediction of Motion and ResidualData, IS0/IEC JTC 1/SC 29/WG 11， Doc, Ml1043， 2004年6月，在此以引用的方式将其整体并入本文中。此外，如果源视频帧不具有太多内容，则不需要向该视频帧应用滤波操作。因此，可以保持视频质量，并且HRLQ层将作为HR层。上述所确定的三层可伸缩流系统将缩减到两层分辨率可伸缩流系统。本发明的实施方式可以软件、硬件、应用逻辑或者软件、硬件和应用逻辑的组合的形式实施。软件、应用逻辑和/或硬件可驻留在集成电路芯片、模块或者存储器中。如果需要，部分软件、硬件和/或应用逻辑可驻留在集成电路芯片上，部分软件、硬件和/或应用逻辑可驻留在模块中，部分软件、硬件和/或应用逻辑可驻留在存储器中。在一个示例性的实施方式中，将应用逻辑、软件或指令集保存在任意一种传统的永久计算机可读介质中。
本说明书所描述的过程和逻辑流程可由一个或多个可编程的处理器来实施，所述处理器执行一个或多个计算机程序，以通过处理输入数据且生成输出来起作用。也可通过专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)来实施所述过程和逻辑流程。本说明书所描述的装置或设备可由可编程处理器、计算机、片上系统或它们的组合通过处理输入数据且生成输出来实现。装置或设备可包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除硬件外，装置或设备还可包括代码，该代码为计算机程序创造执行环境，例如，组成处理器固件、协议栈、数据库管理系统、操作系统、跨平台的运行环境(例如，虚拟机)，或它们中的一个或多个的组合的代码。适合执行计算机程序的处理器包括例如，通用和专用微处理器，以及所有种类的数字计算机的任何一个或多个处理器。通常，处理器从只读存储器或随机存取存储器或它们二者接收指令和数据。计算机的元件通常包括用于实施或执行指令的处理器，以及一个或多个用于存储指令和数据的存储设备。如在本说明书中所描述的计算机可读介质可以为任何能够容纳、存储、通信、传播或传送指令的媒体或工具，所述指令由指令执行系统、装置或设备(例如，计算机)使用，或者与指令执行系统、装置或设备有关。计算机可读介质可包括计算机可读存储介质，所述计算机可读存储介质可以为任何能够容纳或存储指令的媒体或工具，所述指令由指令执行系统、装置或设备(例如，计算机)使用，或者与指令执行系统、装置或设备有关。计算机可读存储介质可包括所有形式的非易失性存储器、介质和存储器设备，举例来说，可包括半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内置式硬盘或者移动硬盘；光盘；以及CD-ROM和DVD-ROM盘。能够用任何程序语言来撰写计算机程序(也被认为是，例如，程序、软件、软件应用、脚本或者代码)，包括编译型或者解释性语言，表述性或者过程语言，并且它可被配置为任何形式，包括作为独立程序或者作为模块、组件、子程序、对象或者其他适合于在计算机环境中使用的部件。计算机程序可被配置为在一台计算机或多台计算机上执行，该多台计算机位于一个单独的站点或者跨过多个地点分布且通过通信网络互连。能够在计算机系统中实施如本说明书中所描述的实施方式和/或特征，所述计算机系统包括后端组件(例如，如数据服务器)，或者包括中间设备组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户接口或者网络浏览器的客户端计算机，用户通过该网络浏览器能够与如本说明书所描述的一个实施方式交互)，或者包括该后端组件、中间设备组件或前端组件中的一个或多个的任意组合。系统中的组件能够通过任何形式的数字数据通信媒体互连，例如，通信网络。通信网络的例子包括局域网(“LAN”)和广域网 (“WAN”)，例如，因特网。计算机系统可包括客户端和服务器。客户端和服务器通常相互间相隔甚远，且一般通过通信网络进行交互。依靠运行在各自的计算机上的计算机程序，客户端和服务器之间发生关系，从而具有了相互的客户端_服务器关系。
整个说明书包括很多具体的实现细节。这些具体的实现细节不是为了解释为对本发明或要求保护的范围的限制，而是作为对本发明的特定实施方式所特有的特征的描述。在独立的实施方式的上下文中所描述的某些特征能够被组合，并且作为单独的实施方式来执行。相反，在单独的实施方式的上下文中所描述的各种特征也能够在多个实施方式中分别执行，或者在任何合适的子组合中执行。此外，尽管可能将特征描述为应用在某些组合中，甚至是最初所要求保护的组合中，然而，在某些情况下，所描述的组合或者要求保护的组合中的一个或多个特征能够从组合中排除，并且所要求保护的组合可能会指向子组合或者子组合的变形。尽管在独立权利要求中列出了本发明的各个方面，然而本发明的其他方面包括来自实施方式和/或具有独立权利要求的特征的从属权利要求的特征的其他组合，并且权利要求并不是仅仅明确的列出了组合。本说明书中所描述的某些功能可能会以不同的顺序执行和/或相互之间同时的执行。此外，如果需要，以上所描述的一个或多个功能可以是可选的或者可以被组合。以上的描述提供了本发明的示例性的实施方式，但是不应以限制的思维来理解。相反，在不脱离如在附加的权利要求中所定义的本发明的范围的情况下，做一些变更或修改是可能的。
权利要求
一种可伸缩视频编码设备，包括一个或多个处理器；一个或多个存储单元；以及一个或多个程序，该一个或多个程序存储在该一个或多个存储单元中，且被配置为由该一个或多个处理器执行，该程序包括用于编码源视频的指令，其包括二次采样高分辨率视频帧，以生成多个低分辨率视频帧，低分辨率视频帧的数量在1到N的范围之间，其中N是大于或等于2的整数，N个低分辨率视频帧中的每个在每个给定的时段ti期间出现，其中i是从1到n的范围之间的整数，n为编码该源视频所需要的时段的总数；以及用于排序该N个低分辨率视频帧的指令，以使该组N个低分辨率视频帧中的任何给定的低分辨率视频帧的顺序排序在从t1到tn范围内的时段内保持不变；构建该组N个低分辨率视频帧，以使在随后的解码该组低分辨率视频帧期间，接收设备能够选择该N个低分辨率视频帧的子集x，其用于在该接收设备产生对应于该源视频的视频，其中x是从1到N的范围之间的整数。
2.如权利要求1所述的可伸缩视频编码设备，进一步包括用于进一步二次采样N个低分辨率视频帧中的每个的指令，以产生一组M个低分辨率视频帧，其对应于N个低分辨率视频帧中的每个，其中M是大于或等于2的整数；以及用于对该组M个低分辨率视频帧进行排序的指令，以使该组M个低分辨率视频帧中的各个成员的顺序排序在每个时段、都保持不变，同时保持对应于该组M个低分辨率视频帧的第N个低分辨率视频帧的顺序排序。
3.如权利要求2所述的可伸缩视频编码设备，进一步包括根据产生该组M个低分辨率视频帧的指令，来进一步二次采样M个低分辨率视频帧中的每个的指令。
4.如权利要求1所述的可伸缩视频编码设备，进一步包括用于在二次采样之前向该高分辨率的帧应用低通滤波器的指令。
5.如权利要求2所述的可伸缩视频编码设备，进一步包括用于在二次采样之前向N个低分辨率视频帧中的每个应用低通滤波器的指令。
6.如权利要求3所述的可伸缩视频编码设备，进一步包括用于在二次采样之前向M个低分辨率视频帧中的每个应用低通滤波器的指令。
7.如权利要求1所述的可伸缩视频编码设备，进一步包括用于通过参考该组N个低分辨率视频帧的其他成员来编码N个低分辨率视频帧中的一个或多个的指令。
8.如权利要求7所述的可伸缩视频编码设备，其中将N个低分辨率视频帧中的至少一个编码为独立帧，以使编码该独立帧时，不需要参考其他帧。
9.如权利要求7所述的可伸缩视频编码设备，其中将N个低分辨率视频帧中的至少一个编码为预测帧，以使该预测帧参考该组N个低分辨率视频帧中的其他成员。
10.如权利要求7所述的可伸缩视频编码设备，其中2将N个低分辨率视频帧中的至少一个编码为双向预测帧，以使该双向预测帧参考该组 N个低分辨率视频帧中的其他成员。
11.一种可伸缩视频编码方法，包括编码源视频，其包括二次采样高分辨率视频帧，以生成多个低分辨率视频帧，低分辨率视频帧的数量在1到N的范围之间，其中N是大于或等于2的整数，N个低分辨率视频帧中的每个在每个给定的时段、期间出现，其中i是从1到n的范围之间的整数，n为编码该源视频所需要的时段的总数；以及排序该N个低分辨率视频帧，以使该组N个低分辨率视频帧中的任何给定的低分辨率视频帧的顺序排序在从、到tn范围内的时段内保持不变；构建该组N个低分辨率视频帧，以使在随后的解码该组低分辨率视频帧期间，接收设备能够选择该N个低分辨率视频帧的子集x，其用于在该接收设备产生对应于该源视频的视频，其中x 是从1到N的范围之间的整数。
12.如权利要求11所述的可伸缩视频编码方法，进一步包括进一步二次采样N个低分辨率视频帧中的每个，以产生一组M个低分辨率视频帧，其对应于N个低分辨率视频帧中的每个，其中M是大于或等于2的整数；以及对该组M个低分辨率视频帧进行排序，以使该组M个低分辨率视频帧中的各个成员的顺序排序在每个时段^都保持不变，同时保持对应于该组M个低分辨率视频帧的第N个低分辨率视频帧的顺序排序。
13.如权利要求12所述的可伸缩视频编码方法，进一步包括根据产生该组M个低分辨率视频帧的指令，来进一步二次采样M个低分辨率视频帧中的每个。
14.如权利要求11所述的可伸缩视频编码方法，进一步包括在二次采样之前向该高分辨率的帧应用低通滤波器。
15.如权利要求12所述的可伸缩视频编码方法，进一步包括在二次采样之前向N个低分辨率视频帧中的每个应用低通滤波器。
16.如权利要求13所述的可伸缩视频编码方法，进一步包括在二次采样之前向M个低分辨率视频帧中的每个应用低通滤波器。
17.如权利要求11所述的可伸缩视频编码方法，进一步包括通过参考该组N个低分辨率视频帧的其他成员来编码N个低分辨率视频帧中的一个或多个。
18.如权利要求17所述的可伸缩视频编码方法，其中将N个低分辨率视频帧中的至少一个编码为独立帧，以使编码该独立帧时，不需要参考其他帧。
19.如权利要求17所述的可伸缩视频编码方法，其中将N个低分辨率视频帧中的至少一个编码为预测帧，以使该预测帧参考该组N个低分辨率视频帧中的其他成员。
20.如权利要求17所述的可伸缩视频编码方法，其中将N个低分辨率视频帧中的至少一个编码为双向预测帧，以使该双向预测帧参考该组 N个低分辨率视频帧中的其他成员。
全文摘要
本发明涉及用于可伸缩视频编码的方法和装置。特别的，本发明描述了可伸缩视频编码方法和分层视频表示，所述分层视频表示利用更有效的比特流表示和可伸缩性获得了较好的视频质量，但从基本层到增强层都符合各种编译码器标准，所以对本领域中所使用的现有硬件或者系统带来最小的修改。
文档编号H04N7/46GK101888553SQ20101021683
公开日2010年11月17日申请日期2010年6月30日优先权日2010年6月30日
发明者方来发, 武燕楠, 雷志斌申请人:香港应用科技研究院有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：武燕楠;方来发;雷志斌
技术所有人：香港应用科技研究院有限公司
我是此专利的发明人

上一篇：视频通话博客服务提供装置及方法
上一篇：一种语音业务调度优先级的调整方法及装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。