在编码器中提供可分级性的可分级视频编码设备和方法

文档序号：7633662阅读：176来源：国知局

专利名称：在编码器中提供可分级性的可分级视频编码设备和方法
技术领域：
本发明涉及视频压缩，更具体地讲，涉及一种在可分级视频编码过程中的时间滤波期间提供可分级性的可分级视频编码设备和方法。
背景技术：
随着包括互联网的信息通信技术的发展，视频通信以及文本和语音通信已显著增加。传统的文本通信不能满足用户的各种需求，因而，可提供诸如文本、图像和音乐的各种类型的信息的多媒体服务增加。然而，由于多媒体数据量通常较大，所以多媒体数据需要大容量的存储介质和用于传输的宽带宽。因此，对于传输包括文本、视频和音频的多媒体数据，需要压缩编码方法。
数据压缩的基本原理是去除数据冗余。可通过去除空间冗余、时间冗余或心理视觉冗余来压缩数据，空间冗余是指同一颜色或对象在图像中重复的情况，时间冗余是指在运动图像中的相邻帧之间几乎没有变化或者在音频中相同的声音重复的情况，心理视觉冗余考虑了人的视觉及其有限的高频感知。根据源数据是否丢失，数据压缩可分别分为有损压缩或无损压缩；根据是独立地压缩各帧还是参考其它帧压缩各帧，数据压缩可分别分为帧内压缩或帧间压缩；根据压缩所需的时间与恢复所需的时间是否相同，数据压缩可分别分为对称压缩或非对称压缩。当压缩/恢复时间延迟不超过50ms时，数据压缩被定义为实时压缩，当帧具有不同的分辨率时，数据压缩被定义为可分级压缩。对于文本或医学数据，通常使用无损压缩。对于多媒体数据，通常使用有损压缩。同时，帧内压缩通常用于去除空间冗余，帧间压缩通常用于去除时间冗余。
用于多媒体的不同类型的传输媒介具有不同的性能。当前使用的传输媒介具有各种传输速率。例如，超高速通信网络每秒可传输几十兆比特的数据，而移动通信网络的传输速率为每秒384千比特。在诸如运动图像专家组(MPEG)-1、MPEG-2、H.263和H.264的传统视频编码方法中，通过基于运动估计的运动补偿来去除时间冗余，通过变换编码来去除空间冗余。这些方法具有满意的压缩率，但是由于它们在主算法中使用自反性近似法(reflexiveapproach)，所以它们不具有实际可分级的比特流的灵活性。因此，为了支持具有各种速度的传输媒介或者以适合于传输环境的数据速率传输多媒体，诸如小波视频编码和子带视频编码的具有可分级性的数据编码方法可适合于多媒体环境。可分级性指示对单个压缩的比特流部分解码的能力。
可分级性包括指示视频分辨率的空间可分级性、指示视频质量级别的信噪比(SNR)可分级性、指示帧频的时间可分级性以及这些可分级性的组合。
图1是传统的可分级视频编码器的结构的框图。
首先，输入视频序列被划分为多个图像组(GOP)，并对每个GOP执行编码，其中，GOP为基本编码单位。
运动估计单元1通过将存储在缓冲器(未显示)中的多个GOP中的一帧用作参考帧来对当前帧执行运动估计，从而获得运动矢量。
时间滤波单元2使用获得的运动矢量来去除帧之间的时间冗余，从而产生时间残余帧，即，时间滤波的帧。
空间变换单元3对时间残余图像执行小波变换，从而产生变换系数，即，小波系数。
量化器4对产生的小波系数进行量化。
比特流产生器5通过对量化的变换系数和由运动估计单元1产生的运动矢量进行编码来产生比特流。
用于基于小波的可分级视频编码的多种技术中的一种技术是运动补偿时间滤波(MCTF)，其由Jens-Rainer Ohm提出并被Seung-Jong Choi和John W.Woods改进。MCTF是用于去除时间冗余和具有灵活的时间可分级性的视频编码的基本技术。根据MCTF方案，以GOP为单位执行编码，并按运动方向对一对帧(当前帧和参考帧)进行时间滤波，现在将参考图2来描述该操作。
图2示意性地示出基于运动补偿时间滤波(MCTF)的可分级视频编码和解码中的时间分解过程。
在图2中，L帧是与帧的平均值相应的低频帧，而H帧是与帧之间的差相应的高频帧。如图2所示，在编码过程中，对在低时间级别的多对帧进行时间滤波，然后将其分解为在较高时间级别的多对L帧和H帧。再对这多对L帧和H帧进行时间滤波，并将其分解为在较高时间级别的多个帧。
编码器对在最高时间级别的一个L帧和H帧执行小波变换，并产生比特流。对图2中的阴影所指示的帧进行小波变换。即，从低时间级别到高时间级别对帧进行编码。
解码器对加阴影的帧(图2)执行编码器的逆操作。通过从高级别到低级别进行逆小波变换来获得加阴影的帧以用于重构。即，在时间级别3的L帧和H帧被用于重构在时间级别2的两个L帧，在时间级别2的这两个L帧和两个H帧被用于重构时间级别为1的四个L帧。最后，在时间级别1的这四个L帧和四个H帧被用于重构八个帧。
这种基于MCTF的视频编码的优点在于改进的灵活的时间可分级性，但是其具有诸如单方向运动估计和低时间速率的差性能的缺点。已对许多方法进行了研究和开发以克服这些缺点。这些方法中的一种方法是由Deepak S.Turaga和Mihaela van de Schaar提出的无约束MCTF(UMCTF)，将参考图3描述该方法。
图3示意性地示出在使用UMCTF的可分级视频编码和解码期间的时间分解。
UMCTF允许使用多个参考帧和双方向滤波，从而，提供了更通用的框架。另外，在UMCTF方案中，通过适当地插入未滤波的帧即A帧，使得非双值时间滤波(non-dyadic temporal filtering)可行。UMCTF使用A帧来代替滤波的L帧，从而显著地提高了在低时间级别的图像的质量，这是因为L帧的精确的运动估计会降低图像质量。各种实验结果已证明有时跳过帧的更新过程的UMCTF表现出了优于MCTF的性能。
在诸如视频会议的许多视频应用中，在编码器对视频数据进行实时编码，在已通过预定的通信媒介接收编码的数据的解码器恢复该编码的视频数据。
然而，当难以以给定帧频对数据进行编码时，在编码器可能发生延迟，从而不能实时平稳地传输视频数据。几个原因可导致发生所述延迟，这些原因包括编码器的处理能力不够；即使编码器具有足够的处理能力，但是系统资源不够；输入的视频数据的分辨率增加；每帧比特的数量增加等。
因而，必须考虑可能影响编码器的各种情况。例如，假设输入的视频数据每GOP包括N帧，当编码器的处理能力不足以对N帧进行实时编码时，每当每帧的编码已被执行时，应该逐帧地传输这些帧，并且如果已过去预定的时间期限，则应该停止编码。
虽然在完全处理所有帧之前已停止编码，但是解码器仅对处理的帧解码到可能的时间级别，从而减小帧频。然而，仍存在对实时恢复视频数据的需要。

发明内容
技术问题然而，在MCTF和UMCTF方案中，在编码器分析范围从最低时间级别开始的帧，然后按编码的顺序将这些帧顺次发送到解码器，同时，在解码器，首先恢复范围从最高时间级别开始的帧。因而，直到从编码器接收到GOP中的所有帧才能执行解码。换句话说，从编码器接收的帧中只有一些帧被解码的时间级别是不可获得的，这表明编码器中的可分级性不被支持。
然而，在双向视频流传输应用中使用编码器的时间可分级性是非常有利的。因此，当处理能力不足以用于编码时，应该在当前时间级别停止处理以立即传输比特流。然而，关于这点，现有的方法不能在编码器中实现这样灵活的时间可分级性。
技术解决方案本发明提供一种在编码器中提供可分级性的可分级视频编码设备和方法。
本发明还提供一种通过使用比特流的头将关于在有限的时间内在编码器中编码的一些帧的信息提供给解码器的设备和方法。
根据本发明的一方面，提供一种可分级视频编码设备，该可分级视频编码设备包括模式选择器，确定帧的时间滤波顺序和作为用于确定将对哪一帧执行时间滤波的条件的预定时间期限；和时间滤波器，根据在模式选择器中确定的时间滤波顺序，对满足上述条件的帧执行运动补偿和时间滤波。
所述预定时间期限可被确定以能够实现平稳的实时流传输。
所述时间滤波顺序可以是从高时间级别的帧到低时间级别的帧。
所述可分级视频编码设备还可包括运动估计器，获取当前正进行时间滤波的帧和与该当前帧相应的参考帧之间的运动矢量。然后，运动估计器将参考帧号和获取的运动矢量传送到时间滤波器进行运动补偿。
另外，所述可分级视频编码设备还可包括空间变换单元，从时间滤波的帧去除空间冗余以产生变换系数；和量化器，对所述变换系数进行量化。
所述可分级视频编码设备还可包括比特流产生器，产生包含量化的变换系数、从运动估计器获取的运动矢量、从模式选择器传送的时间滤波顺序和满足所述预定时间期限的帧中按时间滤波顺序的最后帧的帧号的比特流。
所述时间滤波顺序可被记录在所述比特流内的每个GOP中包含的GOP头中。
所述最后帧的帧号可被记录在所述比特流内的每帧中包含的帧头中。
所述可分级视频编码设备还可包括比特流产生器，产生包含量化的变换系数、从运动估计器获取的运动矢量、从模式选择器传送的时间滤波顺序和关于由满足所述预定时间期限的帧形成的时间级别的信息的比特流。
所述关于时间级别的信息被记录在所述比特流内的每个GOP中包含的GOP头中。
根据本发明的另一方面，提供一种可分级视频解码设备，该可分级视频解码设备包括比特流解释器，解释输入比特流以提取关于编码的帧、运动矢量、所述帧的时间滤波顺序和将进行逆时间滤波的帧的时间级别的信息；和逆时间滤波器，对编码的帧中与所述时间级别相应的帧执行逆时间变换以恢复视频序列。
根据本发明的另一方面，提供一种可分级解码设备，该可分级解码设备包括比特流解释器，解释输入比特流以提取关于编码的帧、运动矢量、所述帧的时间滤波顺序和将进行逆时间滤波的帧的时间级别的信息；逆量化器，对关于编码的帧的信息执行逆量化以产生变换系数；逆空间编码单元，对产生的变换系数执行逆空间变换以产生时间滤波的帧；和逆时间滤波器，对时间滤波的帧中与所述时间级别相应的帧执行逆时间滤波以恢复视频序列。
所述关于时间级别的信息可以是所述编码的帧中按时间滤波顺序的最后帧的帧号。
所述关于时间级别的信息可以是当对所述比特流进行编码时确定的时间级别。
根据本发明的另一方面，提供一种可分级视频编码方法，该可分级视频编码方法包括确定对帧进行时间滤波的顺序和作为用于确定将对哪一帧执行时间滤波的条件的预定时间期限；和根据确定的时间滤波顺序，对满足上述条件的帧执行运动补偿和时间滤波。
所述可分级视频编码方法还可包括获取当前正进行时间滤波的帧和与该当前帧相应的参考帧之间的运动矢量。
根据本发明的另一方面，提供一种可分级视频解码方法，该可分级视频解码方法包括解释输入比特流以提取关于编码的帧、运动矢量、所述帧的时间滤波顺序和将进行逆时间滤波的帧的时间级别的信息；和对所述编码的帧中与所述时间级别相应的帧执行逆时间滤波以恢复视频序列。

通过参考附图详细描述本发明的优选实施例，本发明的以上和其它特征和优点将变得更清楚，其中图1是传统的可分级视频编码器的框图；图2示意性地示出基于运动补偿时间滤波(MCTF)的可分级视频编码和解码中的时间分解过程；图3示意性地示出基于无约束运动补偿时间滤波(UMCTF)的可分级视频编码和解码中的时间分解过程；图4是示出在连续时间逼近和参考(STAR)算法中帧之间的所有可能的连接的示图；图5示出根据本发明实施例的STAR算法的基本构思；图6示出根据本发明实施例的在STAR算法中使用的双向预测和交叉GOP最优化；图7示出根据本发明实施例的STAR算法中的非双值时间滤波；图8是根据本发明实施例的可分级视频编码器的框图；图9是根据本发明实施例的可分级视频编码器的框图；图10是根据本发明实施例的可分级视频解码器的框图；图11示意性地示出由编码器产生的比特流的总体结构；图12是GOP字段的详细示图；图13是MV字段的详细示图；图14是“其它T”字段的详细示图；和图15是示出根据本发明实施例的用于执行编码、预解码或解码方法的系统的框图。
本发明的实施方式现在将参考附图更全面地描述本发明，在附图中显示了本发明的示例性实施例。通过参考以下对示例性实施例和附图的详细描述，可更容易理解本发明的优点和特征及其实现这些优点和特征的方法。然而，本发明可以以许多不同的形式来实施，并且不应该被解释为限于这里所阐述的实施例。相反，提供这些实施例是为了使本公开充分和完整，并将本发明的构思充分地传达给本领域的技术人员，而且本发明将仅由权利要求限定。在整个说明书中，相同的标号表示相同的部件。
根据本发明，为了在编码器中实现时间可分级性，优选地，采用一种不同于传统的MCTF或UMCTF的方案，在传统的MCTF或UMCTF的方案中，从低时间级别到高时间级别执行编码，然后从高时间级别到低时间级别执行解码。即，优选地，使用编码和解码方向相同的方案来实现本发明。
因此，本发明提出了一种从高时间级别到低时间级别执行编码然后按相同的顺序执行解码从而实现时间可分级性的方法。不同于传统的MCTF或UMCTF的根据本发明的时间滤波方法被定义为连续时间逼近和参考(STAR)算法。
图4是示出当GOP大小为8时在连续时间逼近和参考(STAR)算法中帧之间的所有可能的连接的示图。在图4中，从一帧开始并返回同一帧的箭头指示帧内模式预测。
具有编码的帧索引的所有原始帧都可被用作参考帧，所述原始帧包括位于在相同时间级别的H帧位置处的帧。
然而，如图2和图3所示，在传统技术中，位于H帧位置处的原始帧仅可参考相同时间级别的帧中的A帧或L帧。这是传统方法和根据本发明的方法之间的差别之一。
虽然多个参考帧的使用导致用于时间滤波的存储器的容量的增加，而且还导致处理延迟，但是在编码过程中多个参考帧的使用是有价值的。
虽然在本发明的示例性实施例中将GOP中具有最高时间级别的帧示作具有最小帧索引的帧，但是本发明还可被用于帧索引不是最小帧索引的帧。
为了更好地理解本发明，将在假设对于双向预测用于对帧进行编码的参考帧的数量被限制为2的情况下来描述本发明。对于单向预测，用于对帧进行编码的参考帧的数量将被限制为1。
图5示出根据本发明实施例的STAR算法的基本构思。
在STAR算法的基本构思中，在每个时间级别的所有帧都被表达为节点，参考关系由箭头表达。只有需要数量的帧能位于每个时间级别。例如，在GOP中的帧中只有单个帧能位于最高时间级别。在本发明的说明性实施例中，帧f(0)具有最高时间级别。在随后的较低时间级别，连续执行时间分析，并从具有编码的帧索引的原始帧预测具有高频分量的误差帧。当GOP大小为8时，帧f(0)被编码成在最高时间级别的I帧。在随后的较低时间级别，使用帧f(0)将帧f(4)编码成帧间帧，即H帧。随后，使用帧f(0)和f(4)将帧f(2)和f(6)编码成帧间帧。最后，使用帧f(0)、f(2)、f(4)和f(6)将帧f(1)、f(3)、f(5)和f(7)编码成帧间帧。
在基于STAR算法的解码过程中，首先对帧f(0)进行解码。然后，参考帧f(0)对帧f(4)进行解码。类似地，参考帧f(0)和f(4)对帧f(2)和f(6)进行解码。最后，参考帧f(0)、f(2)、f(4)和f(6)对帧f(1)、f(3)、f(5)和f(7)进行解码。
如图5所示，编码器和解码器都经历相同的时间过程。由于这个特性，时间可分级性可被提供给编码器。换句话说，虽然编码器在预定时间级别停止编码，但是解码器可执行解码到相应的时间级别。即，由于从高时间级别开始对帧进行编码，所以在编码器可提供时间可分级性。例如，如果在对帧f(6)编码之后停止编码，则解码器参考帧f(0)来恢复帧f(4)。此外，解码器参考帧f(0)和f(4)来恢复帧f(2)和f(6)。在这种情况下，解码器输出帧f(0)、f(2)、f(4)和f(6)作为视频流。为了保持编码部分的时间可分级性，在本发明的示例性实施例中，具有最高时间级别的帧，即，帧f(0)必须被编码为需要与其它帧的操作的I帧，而不是被编码为L帧。
如图5所示，在根据本发明的解码器和编码器中都可支持时间可分级性。然而，基于传统的MCTF或UMCTF的可分级视频编码在编码器中不能支持时间可分级性。换句话说，参考图2和图3，按解码器执行解码的顺序，需要时间级别3的L帧或A帧。基于MCTF或UMCTF算法，直到编码完成才能获得具有最高时间级别的L帧或A帧。另一方面，可在任一时间级别停止解码。
现在将描述在编码和解码部分中保持时间可分级性的要求。
假设F(k)指示具有帧索引k的帧，T(k)指示具有帧索引k的帧的时间级别。为了提供时间可分级性，在对具有预定时间级别的帧进行编码时不能参考时间级别比该具有预定时间级别的帧低的帧。例如，帧f(4)不能参考帧f(2)。如果允许帧f(4)参考帧f(2)，则在帧f(0)和f(4)中不能停止编码，这意味着直到帧f(2)被编码才能对帧f(4)进行编码。根据方程1定义构成可被帧F(k)参考的参考帧的集合Rk[方程1]Rk＝{F(l)|(T(l)＞T(k)或((T(l)＝T(k))并且(l＜＝k))}其中，1指示帧索引。
同时，关系(T(l)＝T(k))和(l＜＝k)是指帧F(k)要参考其自身进行时间滤波，这被称作帧内模式。
可按如下方式执行使用STAR算法的编码和解码过程在编码过程中，第一步，GOP中的第一帧被编码为I帧。
第二步，在使用由方程1定义的参考帧进行编码之后，对在下一时间级别的帧执行运动估计。在相同的时间级别，从最左帧开始向着最右帧(按从最低索引帧到最高索引帧的顺序)执行编码。
第三步，执行第二步，直到该GOP中的所有帧都被编码。随后继续对下一GOP中的帧进行编码，直到所有GOP的编码完成。
在解码过程中，第一步，GOP中的第一帧被首先解码。
第二步，参考先前解码的帧对在下一时间级别的帧进行解码。在相同的时间级别内，从最左帧开始向着最右帧(按从最低索引帧到最高索引帧的顺序)执行解码。
第三步，执行第二步，直到该GOP中的所有帧都被解码。随后继续对下一GOP中的帧进行解码，直到所有GOP的解码完成。
在图5中，在帧f(0)内指示的符号“I”表示以帧内模式编码的帧，即，不参考其它帧的帧，符号“H”表示高频子带帧，即，参考一个或多个帧编码的帧。
同时，作为本发明的说明，如图5所示，当GOP大小为8时，帧的时间级别可以是(0)、(4)、(2，6)和(1，3，5，7)的顺序。在编码和解码部分中都没有与时间可分级性相关的任何问题的情况下，可采用按(1)、(5)、(3，7)和(0，2，4，6)顺序的时间级别(例如，当帧f(1)为I帧时)。类似地，也可采用按(2)、(6)、(0，4)和(1，3，5，7)顺序的时间级别(例如，当帧f(2)为I帧时)。换句话说，可允许在能满足编码器端时间可分级性和解码器端时间可分级性的时间级别的任何帧。
然而，当按时间级别(0)、(5)、(2，6)和(1，3，4，7)的顺序实现时间可分级性时，尽管在编码器和解码器中满足了时间可分级性，但是帧之间的间隔不期望地变得不规则。
图6示出根据本发明的另一实施例的在STAR算法中使用的双向预测和交叉GOP最优化。
在STAR算法中，参考另一GOP中的帧的帧可被编码，其中，参考另一GOP中的帧被称作交叉GOP最优化。UMCTF算法也可支持交叉GOP最优化。由于UMCTF和STAR编码算法使用时间上未滤波的A帧或I帧，所以它们能够实现交叉GOP最优化。参考图5，通过将帧f(0)、f(4)和f(6)的预测误差相加来获得帧f(7)的预测误差。然而，如果帧f(7)参考下一GOP的帧f(0)，该帧f(0)与通过当前GOP计算的帧f(8)相应，则可显著地减小预测误差的累积。另外，由于下一GOP的帧f(0)为以帧内模式编码的帧，所以可显著地改善帧f(7)的质量。
图7示出根据本发明的另一实施例的在STAR算法中的非双值时间滤波。
与A帧可被任意插入以支持非双值时间滤波的UMCTF编码算法一样，STAR算法也可简单地通过改变图形结构来支持非双值时间滤波。本发明的说明性实施例显示了1/3和1/6时间滤波方案被支持的情况。在STAR算法中，可通过改变图形结构来容易地获得可变帧频。
图8是根据本发明实施例的可分级视频编码器100的框图。
编码器100接收形成视频序列的多个帧，压缩这些帧以产生比特流300。为此，可分级视频编码器100包括时间变换单元10，从多个帧去除时间冗余；空间变换单元20，从所述多个帧去除空间冗余；量化器30，对通过从所述多个帧去除时间冗余和空间冗余而产生的变换系数进行量化；和比特流产生器40，产生包含量化的变换系数和其它信息的比特流300。
用于补偿帧之间的运动和执行时间滤波的时间变换单元10包括运动估计器12、时间滤波器14和模式选择器16。
首先，运动估计器12获取当前正进行时间滤波的帧的每个宏块和与当前帧相应的参考帧的宏块之间的运动矢量。关于该运动矢量的信息被提供给时间滤波器14。然后，时间滤波器14使用关于该运动矢量的信息对所述多个帧执行时间滤波。在本发明的说明性实施例中，以GOP为单位执行时间滤波。
模式选择器16确定时间滤波的顺序。在本发明的说明性实施例中，基本上按照从具有高时间级别的帧到具有低时间级别的帧的顺序执行时间滤波。对于相同时间级别的帧，按从具有小的帧索引的帧到具有大的帧索引的帧的顺序执行时间滤波。所述帧索引是指示构成GOP的帧的时间顺序的索引。假设构成GOP的帧的数量为n，时间上最前的帧的帧索引为0，时间上最后的帧的帧索引为n-1。模式选择器16将关于时间滤波顺序的信息传送到比特流产生器40。
在本发明的说明性实施例中，在构成GOP的帧中具有最小帧索引的帧被用作最高时间级别的帧，然而，这仅是个示例。即，应该理解，在本发明的技术范围和原理内，可选择GOP中的另一帧作为具有最高时间级别的帧。
另外，模式选择器16确定时间滤波器14所需的预定时间期限，以下称为“Tf”。所述预定时间期限被适当地确定以能够实现编码器和解码器之间的平稳的实时流传输。此外，模式选择器16在滤波的帧中识别按时间滤波顺序的最后帧的帧号，直到达到Tf，然后将该最后帧的帧号发送到比特流产生器40。
在时间滤波器14中，作为确定将对哪一帧执行时间滤波的条件的“预定时间期限”是指是否满足Tf要求。
对平稳实时流传输的要求包括，例如，对可调整到其帧频的输入视频序列进行时间滤波的可能性。假设以每秒16帧的帧频处理视频序列，如果在一秒中只有10帧被时间滤波器14处理，则时间滤波器14将不能满足平稳实时流传输。另外，即使时间滤波器14每秒能处理16帧，在确定Tf时，也必须考虑在除了时间滤波步骤之外的步骤中所需要的处理时间。
空间变换单元20将已去除时间冗余的帧，即时间滤波的帧去除空间冗余。空间变换单元20去除时间滤波的帧的空间冗余。在本发明的说明性实施例中，使用小波变换。在已知的小波变换技术中，一帧被分解成四个部分，该帧的一个象限被缩小的图像(称为L图像)替换，该缩小的图像与该帧的整个图像相似，其具有整个图像的1/4区域，而该帧的其它三个象限被用于从L图像恢复整个图像的信息(称为H图像)替换。以相同的方式，L图像可被具有L图像的1/4区域的LL图像和用于恢复L图像的信息替换。被称为JPEG2000的压缩方法使用这样的小波图像压缩方法。与DCT图像不同，小波变换的图像包括原始图像信息，并能够使用缩小的图像实现具有空间可分级性的视频编码。然而，提供小波变换只是为了说明。在不是必须提供空间可分级性的情况下，如在MPEG-2中传统上被广泛用于运动压缩的DCT方法可被采用。
通过空间变换将时间滤波的帧转换为变换系数。然后将该变换系数传送到量化器30进行量化。量化器30将实数变换系数量化成整数值的系数。通过对变换系数执行量化，可减小将被发送的信息量。在本发明的说明性实施例中，嵌入式量化被用于对变换系数进行量化。即，通过使用嵌入式量化，不仅可减小将被发送的信息量，而且还可实现信噪比(SNR)可分级性。术语“嵌入式量化”被用于表示编码的比特流所暗示的量化。换句话说，按照视觉重要性对压缩的数据进行标记。在实践中，可在解码器或在传输信道调整量化级别(视觉重要性)。如果传输带宽、存储容量或显示资源允许，则可无损地进行图像恢复。如果传输带宽、存储容量或显示资源不允许，则显示资源的限制确定了对图像的量化要求。当前已知的嵌入式量化算法包括嵌入式零树小波算法(EZW)、分层树集合分割(SPIHT)、嵌入式零块编码(EZBC)和具有最优截取的嵌入式块编码(EBCOT)。
比特流产生器40产生附有头的比特流300，比特流300包含关于编码的图像(帧)的信息和关于从运动估计器12获得的运动矢量的信息。另外，所述信息可包括从模式选择器16传送的时间滤波顺序、最后帧的帧号等。
图9是根据本发明另一实施例的可分级视频编码器的框图。
除了模式选择器16可从比特流产生器40接收最后对GOP中预定时间级别中的帧进行编码所需的时间(以下称为“编码时间”)、以及如图8所示确定时间滤波顺序和将该时间滤波顺序传送到比特流产生器40所需的时间之外，根据该实施例的可分级视频编码器与图8所示的可分级视频编码器基本相同。
另外，模式选择器16确定时间滤波器14所需的预定时间期限，以下称为“Ef”。所述预定时间期限被适当地确定以能够实现编码器和解码器之间的平稳实时流传输。此外，模式选择器16将Ef与从比特流产生器40接收的编码时间进行比较。如果编码时间大于Ef，则模式选择器16设置在这样的时间级别中执行时间滤波的编码模式，该时间级别为高于当前时间级别的一个级别，从而使得编码时间小于Ef以满足Ef要求。
在这种情况下，作为用于确定将对哪一帧执行时间滤波的条件的“预定时间期限”是指是否满足Ef要求。
对平稳实时流传输的要求包括，例如，产生可将其调整到输入视频序列的帧频的比特流300的可能性。假设以每秒16帧的帧频处理视频序列，如果在一秒中只有10帧被编码器100处理，则不能实现平稳实时流传输。
假设GOP包括8帧。如果处理当前GOP所需的编码时间大于Ef，则已从比特流产生器40接收编码时间的模式选择器16请求时间滤波器14将时间级别增加一个级别。然后，从下一GOP，时间滤波器14对这样的时间级别中的帧执行时间滤波，该时间级别为高于当前时间级别的一个级别，即，只对时间滤波顺序前面的四帧执行时间滤波。
否则，如果编码时间小于Ef预定阈值，则模式选择器16请求时间滤波器14将时间级别降低一个级别。
以这种方式，基于编码器100的处理能力，通过根据情况可调整地改变时间级别，可自适应地实现编码器100的时间可分级性。
同时，比特流产生器40产生附有头的比特流300，比特流300包含关于编码的图像(帧)的信息和关于从运动估计器12获得的运动矢量的信息。另外，比特流300可包括关于从模式选择器16传送的时间滤波顺序、时间级别等的信息。
图10是根据本发明实施例的可分级视频解码器200的框图。
可分级视频解码器200包括比特流解释器140、逆量化器110、逆空间变换单元120和逆时间滤波器130。
首先，比特流解释器140解释输入的比特流以提取关于编码的图像(编码的帧)、运动矢量和时间滤波顺序的信息，比特流解释器140将关于运动矢量和时间滤波顺序的信息传送到逆时间滤波器130。
关于时间滤波顺序的信息分别对应于图8所示的实施例中的最后帧的帧号和图9所示的实施例中的在编码期间确定的时间级别。在编码期间确定的时间级别被用作将进行逆时间滤波的帧的时间级别。最后帧的帧号被用于搜索可由这样的帧形成的时间级别，所述帧的帧号小于或等于将进行逆时间滤波的最后帧的帧号。
例如，回头参考图5，假设时间滤波顺序为(0，4，2，6，1，3，5，7)，而且最后帧的帧号为3。然后，比特流解释器140将时间级别2传送到逆时间滤波器130，从而逆时间滤波器130恢复与时间级别2相应的帧，即，帧f(0)、f(4)、f(2)和f(6)。在这种情况下，帧频是原始帧频的一半。
关于编码的帧的信息被逆量化器110逆量化并被转换成变换系数。所述变换系数被逆空间变换单元120逆空间变换。逆空间变换与编码的帧的空间变换相关。当小波变换被用于执行空间变换时，通过执行逆小波变换来实现逆空间变换。当DCT变换被用于执行空间变换时，通过执行逆DCT来实现逆空间变换。通过逆空间变换将所述变换系数转换成I帧和H帧。
逆时间滤波器130使用从比特流解释器140接收的关于运动矢量、参考帧号的信息和关于时间滤波顺序的信息从I帧和H帧，即时间滤波的帧恢复原始视频序列，其中，关于参考帧号的信息即为关于哪一帧被用作参考帧的信息。
这里，逆时间滤波器130仅恢复与从比特流解释器140接收的时间级别相应的帧。
图11至图14示出根据本发明的比特流300的结构。具体地讲，图11示意性地示出由编码器产生的比特流300的整个结构。
比特流300包括序列头字段310和数据字段320，数据字段320包括一个或多个GOP字段330、340和350。
包括帧长度(2个字节)、帧宽度(2个字节)、GOP大小(1个字节)、帧频(1个字节)和运动精度(1个字节)的所有图像特征被记录在序列头字段310中。
图像恢复所需的整个图像信息和其它信息，诸如运动矢量、参考帧号等被记录在数据字段320中。
图12示出各个GOP字段330、340、350中的每个的详细结构。
GOP字段330包括GOP头360、T(0)字段370、MV字段380和“其它T”字段390，在T(0)字段370中记录关于按时间滤波顺序的第一帧(I帧)的信息，在MV字段380中记录运动矢量集，在“其它T”字段390中记录关于除第一帧(I帧)之外的帧(H帧)的信息。
与记录有整个图像特征的序列头字段310不同，相关GOP中的有限的图像特征被记录在GOP头字段360中。具体地讲，基于记录在GOP头字段360中的信息不同于记录在序列头字段310中的信息的假设，时间滤波顺序或图9所示的实施例中的时间级别可被记录在GOP头字段360中。在相同的时间滤波顺序或时间级别被用于整个图像的情况下，有利地是将相应的信息记录在序列头字段310中。
图13是MV字段380的详细示图。
MV字段380包括与运动矢量的数量一样多的字段，每个运动矢量字段MV(1)、MV(2)、...、MV(n-1)记录有运动矢量。每个运动矢量字段MV(1)、MV(2)、...、MV(n-1)还被分为大小字段381和数据字段382，大小字段381指示运动矢量的大小，在数据字段382中记录运动矢量的实际数据。另外，数据字段382包括头383和流字段384。作为示例，头383具有基于算术编码方法的信息。另外，头383可具有关于其它编码方法，例如哈夫曼编码的信息。流字段384记录有关于实际运动矢量的二进制信息。
图14是“其它T”字段390的详细示图，在该字段中，关于数量的H帧的信息等于帧的数量减1。
包含关于每个H帧的信息的字段390还被分为帧头字段391、数据Y字段393、数据U字段394、数据V字段395和大小字段392，在数据Y字段393中记录有H帧的亮度分量，在数据U字段394中记录有蓝色色度分量，在数据V字段395中记录有红色色度分量，大小字段392指示数据Y字段393、数据U字段394和数据V字段395中的每个的大小。
作为示例，基于采用EZBC量化的假设，在使用EZBC量化的示例性实施例中，描述了数据Y字段393、数据U字段394、数据V字段395中的每个包括EZBC头字段396和流字段397。即，当采用诸如EZW或SPHIT的另一方法时，与采用的方法相应的信息将被记录在头字段396中。
与记录有整个图像特征的序列头字段310或GOP头字段360不同，在帧头字段391中记录相关帧中的有限图像特征。具体地讲，与图8所示的实施例相同，关于最后帧的帧号的信息可被记录在帧头字段391中。例如，可使用帧头字段391的特定比特来记录信息。假设存在时间滤波的帧T(0)、T(1)、...、T(7)。如果编码器执行编码直到帧T(5)并停止编码，则帧T(0)至帧T(4)的比特被设置为0，编码的帧T(0)至T(5)中的最后帧T(5)的比特被设置为1，从而允许解码器使用1所指定的比特来识别最后帧的帧号。
同时，最后帧的帧号可被记录在GOP头字段360中，然而，在实时流传输被请求且重要的情况下，将最后帧的帧号记录在帧头字段391中可比将其记录在GOP头字段360中更有效。这是因为直到当前GOP中确定最后编码的帧才产生GOP头。
图15是在其中根据本发明实施例的编码器100和解码器200操作的系统500的框图。系统500可以是电视机(TV)、机顶盒、台式机、膝上型电脑或掌上型电脑、个人数字助理(PDA)、或者视频或图像存储设备(例如，磁带录像机(VCR)或数字录像机(DVR))。另外，系统500可以是上述设备的组合、或者是包括它们中的另一设备的一部分的设备之一。所述系统包括至少一个视频/图像源510、至少一个输入/输出单元520、处理器540、存储器550和显示单元530。
视频/图像源510可以是TV接收器、VCR或其它视频/图像存储设备。视频/图像源510可指示用于使用互联网、广域网(WAN)、局域网(LAN)、地面广播系统、有线网络、卫星通信网络、无线网络、电话网络等从服务器接收视频或图像的至少一个网络连接。另外，视频/图像源510可以是这些网络的组合，或者是包括这些网络中的其它网络的一部分的一个网络。
输入/输出单元520、处理器540和存储器550通过通信媒介560相互通信。通信媒介560可以是通信总线、通信网络或至少一个内部连接电路。从视频/图像源510接收的输入视频/图像数据可被处理器540使用存储在存储器550中的至少一个软件程序处理，并可被处理器540执行以产生提供给显示单元530的输出视频/图像。
具体地讲，存储在存储器550中的软件程序包括执行本发明的方法的基于可分级小波的编解码器。所述编解码器可被存储在存储器550中，可从诸如压缩盘-只读存储器(CD-ROM)或软盘的存储介质被读取，或者可通过各种网络从预定的服务器被下载。另外，所述编解码器可被使用所述软件的硬件电路或所述软件和硬件电路的组合替代。
产业上的可利用性根据本发明，由于在编码器部分中提供了可分级性，所以可确保在诸如视频会议的实时双向视频流传输应用的操作中的稳定性。
另外，由于解码器部分从编码器部分接收关于编码过程的信息，即，关于已进行编码处理的帧中的一些帧的信息，所以解码器可恢复这些帧，而不必等待直到GOP中的帧都被接收。
虽然已参考附图显示和描述了本发明的几个示例性实施例，但是本领域的技术人员应该理解，在不脱离本发明的特征和精神的情况下，可对这些部件进行改变。因此，应该理解，提供上述实施例仅是为了描述意义，将不被解释为对本发明的范围的任何限制。
权利要求
1.一种可分级视频编码设备，包括模式选择器，确定对帧进行时间滤波的顺序和作为用于确定将对哪一帧执行时间滤波的条件的预定时间期限；和时间滤波器，根据在模式选择器中确定的时间滤波顺序，对满足所述条件的帧执行运动补偿和时间滤波。
2.如权利要求1所述的可分级视频编码设备，其中，所述预定时间期限被确定以能够实现平稳的实时流传输。
3.如权利要求1所述的可分级视频编码设备，其中，所述时间滤波顺序是从高时间级别的帧到低时间级别的帧。
4.如权利要求1所述的可分级视频编码设备，还包括运动估计器，获取当前正进行时间滤波的帧和与该当前帧相应的参考帧之间的运动矢量，并将参考帧号和获取的运动矢量传送到时间滤波器进行运动补偿。
5.如权利要求4所述的可分级视频编码设备，还包括空间变换单元，从时间滤波的帧去除空间冗余以产生变换系数；和量化器，对所述变换系数进行量化。
6.如权利要求5所述的可分级视频编码设备，还包括比特流产生器，产生包含按时间滤波顺序的最后帧的帧号、从运动估计器获取的运动矢量、从模式选择器传送的时间滤波顺序和所述预定时间期限的比特流。
7.如权利要求6所述的可分级视频编码设备，其中，所述时间滤波顺序被记录在所述比特流内的每个图像组中包含的图像组头中。
8.如权利要求6所述的可分级视频编码设备，其中，所述最后帧的帧号被记录在所述比特流内的每帧中包含的帧头中。
9.如权利要求5所述的可分级视频编码设备，还包括比特流产生器，产生包括关于由所述帧形成的时间级别、从运动估计器获取的运动矢量、从模式选择器传送的时间滤波顺序和所述预定时间期限的信息的比特流。
10.如权利要求9所述的可分级视频编码设备，其中，所述关于时间级别的信息被记录在所述比特流内的每个图像组中包含的图像组头中。
11.一种可分级视频解码设备，包括比特流解释器，解释输入比特流以提取关于编码的帧、运动矢量、所述帧的时间滤波顺序和将进行逆时间滤波的帧的时间级别的信息；和逆时间滤波器，对所述编码的帧中与所述时间级别相应的帧执行逆时间变换以恢复视频序列。
12.一种可分级解码设备，包括比特流解释器，解释输入比特流以提取关于编码的帧、运动矢量、所述帧的时间滤波顺序和将进行逆时间滤波的帧的时间级别的信息；逆量化器，对关于编码的帧的信息执行逆量化以产生变换系数；逆空间变换单元，对产生的变换系数执行逆空间变换以产生时间滤波的帧；和逆时间滤波器，对所述时间滤波的帧中与所述时间级别相应的帧执行逆时间滤波以恢复视频序列。
13.如权利要求11所述的可分级视频解码设备，其中，所述关于时间级别的信息是所述编码的帧中按时间滤波顺序的最后帧的帧号。
14.如权利要求11所述的可分级视频解码设备，其中，所述关于时间级别的信息是当对所述比特流进行编码时确定的时间级别。
15.如权利要求13所述的可分级视频解码设备，其中，所述最后帧的帧号被记录在所述比特流内的每帧中包含的帧头中。
16.如权利要求14所述的可分级视频解码设备，其中，所述关于时间级别的信息被记录在所述比特流内的每个图像组中包含的图像组头中。
17.一种可分级视频编码方法，包括确定帧的时间滤波顺序和作为用于确定将对哪一帧执行时间滤波的条件的预定时间期限；和根据确定的时间滤波顺序，对满足所述条件的帧执行运动补偿和时间滤波。
18.如权利要求17所述的可分级视频编码方法，其中，所述预定时间期限被确定以能够实现平稳的实时流传输。
19.如权利要求17所述的可分级视频编码方法，其中，所述时间滤波顺序是从高时间级别的帧到低时间级别的帧。
20.如权利要求17所述的可分级视频编码方法，还包括获取当前正进行时间滤波的帧和与该当前帧相应的参考帧之间的运动矢量。
21.一种可分级视频解码方法，包括解释输入比特流以提取关于编码的帧、运动矢量、所述帧的时间滤波顺序和将进行逆时间滤波的帧的时间级别的信息；和对所述编码的帧中与所述时间级别相应的帧执行逆时间滤波以恢复视频序列。
22.如权利要求21所述的可分级视频解码方法，其中，所述关于时间级别的信息是所述编码的帧中按时间滤波顺序的最后帧的帧号。
23.如权利要求21所述的可分级视频解码方法，其中，所述关于时间级别的信息是当对所述比特流进行编码时确定的时间级别。
24.一种记录有计算机可读程序的记录介质，所述程序用于执行如权利要求17所述的方法。
全文摘要
提供了一种在编码器中提供可分级性的可分级编码方法和设备。该可分级视频编码设备包括模式选择器，确定帧的时间滤波顺序和作为用于确定将对哪一帧执行时间滤波的条件的预定时间期限；和时间滤波器，根据在模式选择器中确定的时间滤波顺序，对满足上述条件的帧执行运动补偿和时间滤波。根据所述方法和设备，由于在编码器中提供了可分级性，所以可确保在诸如视频会议的实时双向视频流传输应用的操作中的稳定性。
文档编号H04N7/26GK1914921SQ200580003404
公开日2007年2月14日申请日期2005年1月12日优先权日2004年1月29日
发明者申成撤, 韩宇镇申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：申成撤;韩宇镇
技术所有人：三星电子株式会社
我是此专利的发明人

上一篇：改善移动节点之间的通信的方法
上一篇：针对漂移条件的通信信道校准的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。