用于发送可缩放的视频比特流的方法和设备的制作方法

文档序号：7609980阅读：191来源：国知局

专利名称：用于发送可缩放的视频比特流的方法和设备的制作方法
技术领域：
本发明涉及一种用于发送可缩放的(scalable)视频流的方法和设备，具体上涉及一种用于通过按照用户的发送请求处理可缩放的比特流而提供适合于网络和用户的环境的视频内容的方法和设备。
背景技术：
随着包括因特网的信息通信技术的发展，视频通信以及文本和语音通信已经得到爆炸性的增长。
因为多媒体数据的数量通常较大，所以多媒体数据需要大容量存储媒体和用于传输的宽带宽。因此，需要一种压缩编码方法来发送包括文本、视频和音频的多媒体数据。
数据压缩的基本原则在于消除数据冗余。可以通过下述方式来压缩数据通过消除空间冗余、时间冗余或考虑到人的视力和对高频的有限感知的心理视觉冗余(mental visual redundancy)，其中在所述空间冗余中，在图像中重复同一颜色或对象，在所述时间冗余中，在运动图像中的相邻帧之间有很小的改变，或在音频中重复同一声音。
数据压缩可以按照源数据是否丢失而分类成有损/无损压缩、按照是否独立地压缩各个帧而分类成帧内/帧间压缩、按照压缩所需要的时间是否与恢复所需要的时间相同而分类成对称/不对称压缩。
当压缩/恢复时延不超过50毫秒时，数据压缩被定义为实时压缩，当帧具有不同的分辨率时，数据压缩被定义为可伸缩的压缩。
对于文本或医疗数据，通常使用无损压缩。对于多媒体数据，通常使用有损压缩。
同时，通常使用帧内压缩来消除空间冗余，而通常使用帧间压缩来消除时间冗余。
用于多媒体的不同类型的传输媒体具有不同的性能。
当前使用的传输媒体具有各种传输率。例如，超高速通信网络可以传输每秒几十兆比特的数据，而移动通信网络具有每秒384千比特的传输率。
在诸如运动图像专家组(MPEG)-1、MPEG-2、H.263和H.264之类的传统视频编码方法中，通过基于运动估计和补偿的运动补偿来消除时间冗余，而通过变换编码来消除空间冗余。
这些方法具有满意的压缩率，但是它们不具有实际的可伸缩比特流的灵活性，这是因为它们在主要算法中使用自反手段(reflexive approach)。
因此，为了支持具有各种速度的传输媒体或以适合于传输环境的数据率来发送多媒体，诸如子波视频编码和子带视频编码之类的、具有可伸缩性的数据编码方法可适合于多媒体环境。
可伸缩性表示部分解码单个压缩比特流的能力。可伸缩性包括空间可伸缩性，用于表示视频分辨率；信噪比(SNR)可伸缩性，用于表示视频质量级；时间可伸缩性，用于表示帧速率；及其组合。
可伸缩的视频编码涉及压缩原始图像，并且将其转换为具有期望质量的视频信号以发送到解码器。解码器解压缩和重放所接收的视频信号。

发明内容
技术问题通常，因为消费者在购买之前需要知道内容是否是他/她所需要的，因此消费者需要预览所述内容的细节。在这种情况下，内容提供者为预览的目的向用户提供内容的低质量版本，而在购买时提供内容的高质量版本。当需要以各种分辨率来发送或接收单个内容时，可以使用可伸缩的视频编码方法。
但是，传统的可伸缩视频编码方法具有缺陷由于总是在不考虑用户请求的情况下提供用于表示原始内容的各种质量的高质量内容比特流，使得传输速度下降。
另一个缺陷是所述传统方法需要用于从所接收的比特流提取期望质量的内容的单独处理。
技术方案本发明提供适合于用户的各种需要和内容提供者的商业目的的内容。
本发明也通过下述方式以高传输率向用户提供期望质量的内容，而不需要任何额外的处理通过按照由用户的发送请求确定的质量来处理内容。
在查看了下面的说明、附图和所附的权利要求后，本发明的上述目的以及其他目的、特征和优点对于本领域技术人员来说，将变得清楚。
按照本发明的一个方面，提供了一种用于发送可伸缩视频流的设备，包括可伸缩比特流的源，它包含用户请求的视频内容；控制器，用于根据用户请求和用户概况信息(user profile information)来确定所述视频内容的质量；以及预解码器，用于按照所确定的发送质量来处理所述可伸缩比特流。
按照本发明的另一个方面，提供了一种用于发送可伸缩视频流的方法，包括确定包含用户请求的视频内容的可伸缩比特流；以及按照所确定的发送质量来处理所述可伸缩比特流。
所述比特流的质量的确定可以包括执行用户鉴别，确定所选择的视频内容的用户请求，以及根据用户请求和用户概况信息来确定要发送的比特流的质量。
用户请求可以是对视频内容的预览或购买，而用户概况信息可以是关于视频内容的费用支付的信息。

通过参照附图来详细说明本发明的例证实施例，本发明的上述和其他特征和优点将变得更清楚，其中图1是按照本发明的一个实施例的编码器的示意方框图；图2是按照本发明的一个实施例的解码器的示意方框图；图3是按照本发明的一个实施例的、用于发送可伸缩视频流的设备的方框图；图4是图解用于发送可伸缩视频流的方法的流程图；图5示意性地图解了按照本发明的一个实施例的、在基于运动补偿时间滤波(MCTF)的可伸缩视频编码和解码中的时间分割处理(temporaldecomposition process)；图6示意性地图解了按照本发明的一个实施例的、用于通过子波变换(wavelet transform)而将输入图像或帧分解为子带的处理；以及图7是图解按照本发明的另一个实施例的、用于发送可伸缩视频流的方法的流程图。
具体实施例方式
可以通过参照下面对于例证实施例的详细说明和附图来更容易地明白本发明的优点和特征以及用于实现所述优点和特征的方法。但是，本发明可以以不同形式来体现，并且不应当被理解为限于在此给出的实施例。而且，提供这些实施例以便本公开是彻底和完整的，以及向本领域技术人员全面地传输本发明的思想，本发明仅仅由所附的权利要求来限定。在说明书中，相同的附图标号表示相同的元件。
现在说明按照本发明的一个实施例的，用于发送可伸缩视频流的设备的配置和操作。为了帮助明白本发明，下面依序说明可伸缩视频编码器，用于执行支持可伸缩性的视频编码；解码器，用于解码从所述编码器接收的视频比特流；以及用于通过处理要发送到解码器的、从编码器接收的视频比特流来发送可伸缩视频流的装置。
图1是按照本发明的一个实施例的编码器的示意方框图。
参见图1，按照本发明的一个实施例的编码器100包括分段单元101、运动估计单元102、时间变换单元103、空间变换单元104、嵌入量化单元105和熵编码单元106。
分段单元101将输入的视频划分为基本编码单元，即图像组(GOP)。
运动估计单元102对于在每个GOP中包含的帧进行运动估计，由此获得运动向量。可以使用诸如分层可变尺寸块匹配(Hierarchical Variable Size BlockMatching，HVSBM)之类的分层方法来实现所述运动估计。
时间变换单元103使用由运动估计单元102获得的运动向量来在时间方向上将帧分解为低频和高频帧，由此减少时间冗余。
例如，可以将帧的平均值定义为低频分量，并且可以将在两个帧之间的差的一半定义为高频分量。以GOP为单位来分解帧。
可以通过不使用运动向量而比较在两个帧中相同位置的像素来将帧分解为高频和低频帧。但是，不使用运动向量的方法在降低时间冗余上不如使用运动向量的方法有效。
换句话说，当在第二帧中移动第一帧的一部分时，可以通过运动向量来表示运动量。将所述第一帧的所述部分与将所述第一帧的所述部分相同位置上的、所述第二帧的一部分移动所述运动向量而至的一部分相比较，即补偿时间运动。其后，将第一和第二帧分解为低频和高频帧。
对于时间滤波，可以使用运动补偿时间滤波(MCTF)。
空间变换单元104从已经消除时间冗余的帧中去除空间冗余，并且建立变换系数。对于空间变换，本发明使用子波变换。在此，使用子波变换来将一个帧分解为低频和高频子带，并且确定变换系数，即相应子带的子波系数。
具体上，所述帧被分解为四个部分。在所述帧的左上部分中显示与整个图像类似的四分之一大小的图像(L图像)，并且在其他三个部分中显示用于从所述L图像重建整个图像所需要的信息(H图像)。以相同的方式，可以将所述L图像分解为四分之一大小的LL图像和重建所述L图像所需要的信息。
使用子波变换的图像压缩被应用于JPEG 2000标准，并且消除在帧之间的空间冗余。而且，与离散余弦变换(DCT)方法相反，所述子波变换使得原始图像信息能够被存储在作为原始图像的缩小版本的变换图像中，由此允许通过使用缩小的图像来提供空间可伸缩性的视频编码。
但是，在本发明中，子波变换仅仅是被提供来用于说明的。在不必然意欲实现空间可伸缩性的情况下，可以使用DCT方法，所述DCT方法已经传统上被广泛地用于运动图像压缩中(就像在MPEG-2中)。
嵌入量化单元105对于每个子波块的、由空间变换单元104获得的子波系数执行嵌入的量化，并且按照重要性而重新布置所述量化系数。可以使用嵌入零树子波算法(Embedded Zerotrees Wavelet，EZW)、在分层树中的设置分区(Set Partitioning in Hierarchical Trees，SPIHT)和嵌入的零块编码(EmbeddedZeroBlock Coding，EZBC)来作为以这种方式对于每个子波块的子波系数执行嵌入量化。
这些算法良好地使用在本发明中使用的子波域中的像素之间的空间关系，因此适合于用在按照本发明的嵌入量化处理中。
以树的形状来表达在像素之间的空间关系。可以使用下述事实来执行有效的编码当在树中的根是0时，在树中的子孙具有为0的高概率。当正在扫描与在L带中的像素相关联的像素时，执行多种算法。
熵编码单元106将由嵌入量化单元105量化的子波系数和由运动估计单元102产生的关于运动向量的信息和首标信息转换为适合于传输或存储的压缩比特流。可以使用预测编码、可变长度编码(例如霍夫曼编码)、算术编码等来执行所述熵编码。
本发明可以应用于运动视频以及静止视频(图像)。与运动视频类似地，输入静止图像在通过空间变换单元104、嵌入量化单元105和熵编码单元106之后可被转换成比特流。
图2是按照本发明的一个实施例的解码器的示意方框图。
解码器300包括熵解码单元301、逆嵌入量化单元302、逆空间变换单元303和逆时间变换单元304。
解码器300以与编码器100基本上相反的方向运行。但是，当已经由编码器100的运动估计单元102执行了运动估计以确定运动向量时，解码器300不执行逆运动估计处理，因为解码器300仅仅接收运动估计单元102以使用。
像在编码器100中那样，按照本发明的一个实施例的解码器300的操作可以被应用于运动视频以及静止图像。与运动视频类似，从编码器100接收的比特流可以在通过熵解码单元301、逆嵌入量化单元302、逆空间变换单元303和逆时间变换单元304后被往回转换成输出图像。
图3示出了按照本发明的一个实施例的用于发送可伸缩视频流的设备200。所述设备200包括可伸缩比特流源210、用户概况220、用户鉴别器230、用户信号输入240和控制器250。
可伸缩比特流源210从可伸缩视频编码器100接收被编码以具有时间、空间和信噪比(SNR)可伸缩性的可伸缩比特流。所述比特流是通过以高质量压缩原始图像而被产生的，并且可以被划分为具有各种质量的信号。
可伸缩比特流也可以在可伸缩视频编码器100中编码后由外部视频内容提供器发送。
用户概况220包含用户概况信息，诸如关于视频内容使用和支付的细节。
用户鉴别器230确定用户是否被授权使用与期望的视频内容相关联的服务，即通过检查是否已经进行了对于适当的比特流质量的支付。
用户信号输入240接收表示视频内容的期望质量的信号。低质量信号仅仅是为预览目的而被发送的，而在购买所述内容时发送高质量信号。通过关于嵌入比特流的帧速率、分辨率、图像质量的信息来确定质量。
控制器250按照从用户鉴别器230接收的信息来确定用户的可靠性，并且根据从用户信号输入240接收的信息来确定期望视频内容的比特流的质量。
预编码器260由控制器250控制，并且提取和处理可伸缩比特流，所述可伸缩比特流包含要发送到用户的、关于所需要的帧速率、分辨率和图像质量的信息。
图4是图解按照本发明的一个实施例的用于发送可伸缩视频流的方法的流程图。
参见图3和4，所述方法主要包括确定包含由用户请求的视频内容的可伸缩比特流的质量(步骤S1)，并且按照所确定的发送质量来处理所述可伸缩比特流(步骤S2)。
用于确定比特流的质量的步骤S1包括执行用户鉴别(步骤S10)，确定用户请求(步骤S12)，分析用户请求和用户概况信息(步骤S14)，并且确定要发送的比特流的质量(步骤S16)。
在步骤S10，根据在用户鉴别器230中记录的用户鉴别信息而确定用户是否被授权能够被提供视频内容。
为了实施用户鉴别，每个用户可以被分配唯一的用户ID或密码，在每次他/她被提供视频内容时，必须输入所述唯一的用户ID或密码。对于付费的用户鉴别，仅仅对预付用户分配用户ID或密码。或者，可以首先向每个用户分配用户ID或密码，然后对于从菜单选择的期望视频内容支付费用。在这种情况下，在用户概况220中记录所述费用的支付。
为了在步骤S12中确定用户请求，用户信号输入240分析所接收的用户请求，其中所述用户请求包含对于期望视频或视频内容的质量要求，诸如分辨率、图像质量和帧速率。在此，所述帧速率确定所接收的视频流被重放的速度，所述分辨率确定图像的锐度和清楚程度，而所述图像质量确定诸如色调和亮度之类的图像的质量。
例如，为了在从菜单选择电影之前观看电影的预览，用户可以请求具有低分辨率和低图像质量的视频内容以减少要发送的比特流的数量，因为所述预览仅仅需要提供选择电影所需的信息。所述视频内容也可以具有高速重放所需要的高帧速率，以迅速地搜索期望电影的菜单。在这种情况下，向用户信号输入240发送由用户请求的关于分辨率、图像质量和帧速率的信息以备在处理具有可伸缩性的比特流的过程中使用。
同时，所述用户请求可以是关于像在所述说明性实施例中那样的视频内容的一个质量的信息或关于所述视频内容的多个质量的信息。当用户请求具有多个质量的视频内容时，因为高质量视频内容具有大尺寸，所以期望在网络的容量和用户环境超过预定水平时开始发送视频内容。
在步骤S14分析用户请求和用户概况信息后获得的结果用于控制器250以确定视频内容的质量。
例如，对于频繁使用已经付费的电影内容的用户，所述用户概况信息可以包含关于电影内容的使用和支付的细节以及包含提供给用户的、对于内容使用和支付的奖励(incentive)的加权信息。所述奖励可以包括对于10次使用付费电影内容或总支付10％的累积而对图像质量的一个级别的升级。
在步骤S16，控制器250根据从用户信号输入240接收的用户请求信号和从用户概况220接收的用户概况信息来确定要发送的可伸缩比特流的质量。
即，在来自用户的对于任意电影的内容的预览版本的请求时，发送低质量信号，而仅仅当在请求高质量内容时根据搜索在用户概况220中记录的信息的结果而确定适合于发送高质量信号时发送高质量信号。预解码器260根据所确定的质量来调整要发送的比特流的数量。
按照确定的发送质量来处理可伸缩比特流的步骤S2可以被划分为两个分步骤按照所确定的质量来处理可伸缩比特流(步骤S20)，和向用户发送所提取的比特流(步骤S22)。
在步骤S20中，通过删节比特流的不必要部分而根据所确定的质量处理可伸缩比特流。所述可伸缩比特流是指具有可伸缩性并且由可伸缩视频编码器100编码的视频信号。视频内容提供者或外部提供者可以执行在可伸缩视频编码器100中的视频内容编码。在后一种情况下，可以通过独立的装置来执行视频内容编码和比特流处理。
现在说明用于处理可伸缩比特流的方法。
为了确定诸如帧速率、分辨率和图像质量之类的比特流的质量，可以通过提取或去除比特流的预定部分来执行由可伸缩视频编码器100编码可伸缩比特流以具有时间、空间和SNR伸缩性。因此，现在结合由图1的可伸缩视频编码器100执行的编码处理来说明用于处理可伸缩比特流的方法。
现在说明用于通过MCTF方法来处理被编码以具有时间可伸缩性的比特流和调整帧速率的处理。
首先，将说明基于运动补偿时间滤波(MCTF)的可伸缩视频编码和解码。
如图5中所示，在编码处理中，在低时间级的帧的对(pair of frame)被时间滤波，并且然后被分解成在更高时间级的L帧和H帧的对，并且，L帧的对被再次时间滤波和分解为在更高时间级的帧。编码器对于在最高时间级的一个L帧和多个H帧执行子波变换，并且产生比特流。在此，L帧是对应于帧的平均值的低频帧，而H帧是对应于在帧之间的差的高频帧。
换句话说，编码器100编码从低时间级到高时间级的帧，而解码器对于从高级到低级的、通过加阴影而指示和通过逆子波变换而获得的帧执行与编码器100相逆的操作以重建。
在时间级3的L和H帧用于重建在时间级2上的两个L帧，在时间级2上的所述两个L帧和两个H帧用于重建在时间级1上的四个L帧。最后，在时间级1上的四个L帧和四个H帧用于重建8个帧。
现在说明用于通过处理根据MCTF方法而编码的可伸缩视频流来调整帧速率的方法。
例如，当在选择预览时需要调整时间可伸缩性以用于发送内容的低质量版本时，仅仅在图像组(GOP)中的一些帧可以被切除以用于发送。即，当仅仅发送对应于被称为GOP的8个帧中的两个的比特流时，因为以低的帧速率来解码所述比特流，所以重放低质量视频。
虽然已经参照使用基于MCTF的视频编码方案的说明性实施例而示出和说明了本发明，但是本领域技术人员将明白，可以在其中进行在形式和细节上的各种改变。即，本发明可以实现各种模块，所述各种模块被设计成通过解码按照提供时间可伸缩性的MCTF、UMCTF或其他视频编码方案编码的可伸缩视频流来改变帧速率，通过按照适合于设置的屏幕尺寸的帧速率来调整时间级，所述时间可伸缩性是可能的。
在此，提供时间可伸缩性的其他视频编码方案可以使用在有限的时间级上执行时间变换的连续时间近似和引用(Successive Temporal Approximationand Referencing，STRAR)，以在尽可能保持时间可伸缩性的同时控制延迟时间。
接着，现在结合图6来说明用于通过处理被以子波变换编码以具有空间可伸缩性的比特流来调整分辨率的方法。
图6图解了按照本发明的一个实施例的、通过在空间变换单元104中的两层子波变换而将输入图像或帧分解为子带的处理。
参见图6，所述帧被分解为在帧的左上四分之一的被称为低-低(LL)(1)的一个低频子带和被称为低-高(LH)(1)的三个高频子带。子带LL(1)还被第二级子波变换分解为三个高频子带LH(2)和一个低频子带LL(2)。
可以通过从以子波变换编码的比特流去除除了必要子带之外的信息而实现所述用于调整分辨率的所述方法。
例如，需要在选择预览功能后以作为由视频提供者提供的屏幕的分辨率的四分之一的分辨率来发送视频流，预解码器260由控制器240控制以从要发送到用户的比特流中去除除了子带LL(1)之外的信息。而且，当用户请求具有为1/16的屏幕分辨率的分辨率的视频流以便使用画中画(PIP)功能时，可以在发送之前从所述比特流中去除除了子带LL(2)之外的信息。
现在说明用于处理可伸缩比特流以便调整被编码为具有信噪比(SNR)的比特流的质量级的方法。
SNR可伸缩性通过下述方式来执行嵌入的量化通过仅仅编码具有大于预定门限值的值的像素，在编码后减小所述门限值，并且重复上述处理。可以通过所述门限值来确定所述质量级。
因此，对于要使用被编码以具有SNR可伸缩性的比特流来产生预定质量的比特流的用户，必须提取包含关于具有大于给定门限值的值的像素的信息的比特流。
例如，当用户请求具有低分辨率的视频内容时，视频内容提供者根据用户的请求分配低质量视频所需的门限值，并且然后去除包含关于具有大于所述门限值的值的像素的信息的、不需要的比特流。即，仅仅提取包含关于具有大于所分配门限值的值的像素的信息的比特流以将其提供到用户。
图7是图解按照本发明的另一个实施例的、用于使用视频点播(VOD)方案来发送可伸缩视频流的方法的流程图。
通过在进行请求之前向用户发送视频内容的低质量版本和在支付之后提供内容的高质量版本来实现所述VOD方案。
参见图3和7，首先，在步骤S100，向用户提供视频内容的预览屏幕。可以在用户的请求下或在视频内容提供者的推荐下提供预览屏幕。
然后，在观看了视频内容的预览屏幕后，用户在步骤S102确定是否购买内容。
所述内容可以包含由编码器(图1的100)编码的整个比特流，或者具有比预览版本好的视频质量。所述内容也可以根据购买它的价格而具有各种质量。
在支付后购买内容的情况下，视频内容提供者在步骤S104向用户发送视频内容。在执行此处理的同时，关于所选择的视频内容和支付费用的信息被记录在用户概况220中。所述用户概况信息被视频内容提供者用于推荐视频内容。所述信息也可以被用作用于提供诸如图像质量升级或价格折扣的奖励的材料。
产业上的应用按照本发明的用于发送可伸缩视频流的方法和设备能够提供适合于用户的各种需要和内容提供者的商业目的的内容。本发明也可以通过按照由用户请求确定的质量而处理内容来以高传输速度提供内容的期望质量，而不需要另外的处理。
在结束详细说明后，本领域技术人员可以明白，在基本上不脱离本发明的精神的情况下，可以对于例证实施例进行许多改变和修改。因此，本发明的所公开的例证实施例仅仅在上位和描述性含义上被使用，而不用于限制的目的。
权利要求
1.一种用于发送可伸缩视频流的方法，包括确定包含由用户请求的视频内容的可伸缩比特流的质量；以及按照所确定的发送质量来处理所述可伸缩比特流。
2.按照权利要求1的方法，其中，通过分辨率、图像质量或帧速率来确定所述可伸缩比特流的质量。
3.按照权利要求1的方法，其中，所述比特流的质量的确定包括执行用户鉴别；确定视频内容的用户请求；以及根据用户请求和用户概况信息来确定要发送的比特流的质量。
4.按照权利要求3的方法，其中，所述用户请求是对视频内容的预览或购买。
5.按照权利要求3的方法，其中，所述用户概况信息是关于视频内容的费用支付的信息。
6.一种用于发送可伸缩视频流的设备，包括可伸缩比特流的源，它包含用户请求的视频内容；控制器，用于根据用户请求和用户概况信息而确定所述视频内容的质量；以及预解码器，用于按照所确定的发送质量来处理所述可伸缩比特流。
7.按照权利要求6的设备，其中，通过分辨率、图像质量或帧速率来确定所述比特流的质量。
8.按照权利要求6的设备，其中，所述控制器包括用户鉴别器，用于执行用户鉴别；用户信号输入，用于接收对于视频内容的用户请求；以及用户概况，包含关于用户的信息。
9.按照权利要求6的设备，其中，所述用户概况包含关于视频内容的费用支付的信息。
全文摘要
本发明提供了一种方法和设备，用于通过按照用户请求而处理可伸缩比特流来发送适合于用户请求的可伸缩视频流。所述设备包括可伸缩比特流的源，包含用户请求的视频内容；控制器，用于根据用户请求和用户概况信息而确定所述视频内容的质量；以及预解码器，用于按照所确定的发送质量来处理所述可伸缩比特流。
文档编号H04N7/173GK1906938SQ200480041092
公开日2007年1月31日申请日期2004年12月30日优先权日2004年1月28日
发明者申成撤, 李培根申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：申成撤;李培根
技术所有人：三星电子株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。