视频处理方法、设备和系统的制作方法

文档序号:7521782阅读:101来源:国知局
专利名称:视频处理方法、设备和系统的制作方法
视频处理方法、设备和系统本申请是申请日为2001年9月沈日申请号为第01816558. 3号发明名称为“视频处理方法、设备和系统”的中国专利申请的分案申请。背景本发明涉及视频处理。为了能在限定带宽的数字信道中通信,通常将模拟的视频编码成码流并且对码流进行压缩。在接收机端进行解压缩并转换回模拟的。能部分补偿质量损失的压缩技术包括在传输之前将视频数据分成两部分数据数据的“基本”体和数据的“增强”体。基本数据包括视频序列的低质量形式,但能够采用相当小的带宽来传输。增强数据提供了对基本数据的校正。增强数据可以包含增强图像区域颜色和增强图像区域细节的信息。在接收端,解码处理的过程中可以将基本数据与增强数据重新组合。 所有增强数据与基本数据的重新组合将使输出视频的质量接近于原始视频。然而,因为通信信道的带宽限制,常常不能传输完全的增强数据体。而是将增强数据分成较小的子集,每一个只需要较小的带宽,且一个或多个子集的增强数据可以与基本数据同时传输。传输越多的增强数据,就能产生更好的输出视频,但需要更宽的带宽。附图
简述图Ia是显示视频信号路径的功能框图。图Ib是显示视频信号路径的图。图2是产生典型图像的单元分级表示。图3a和北是描述DCT系数结构的图。图4是显示视频编码和压缩的方框图。图5是显示视频解码的方框图。图6是说明基于阈值分层处理的流程图。图7是说明阈值选择的流程图。图8a和8b显示了增强数据系数幅值的示例部分,它被分成了位图和分层的子集。图9是说明解码器收集增强数据的流程图。详细描述总的来说,以下所讨论的技术改善了视频数据在网络中的分布,其中不同的通信路径是以不同的带宽表征的。图Ia是显示在网络中分布的视频数据所采取的路径的方框图。输入的视频信号 10馈送至编码器12,该编码器将输入的信号10转换成机器可读序列位形式的视频数据,或码流。随后根据视频数据的要求将视频数据存储于服务器14。当服务器14接收到视频数据的请求时,就将该数据发送至发射机16,发射机将数据18沿着网络上的通信信道发送。 接收机20接收到数据18并将该数据以码流发至解码器22。解码器22把所接收到的码流转换成输出视频信号24,随后可以观看该视频信号。图Ib显示了分布视频数据的系统。视频源11产生输入视频信号10,它被输入到第一计算机13。第一计算机13包括编码器12,它将视频数据编码成码流18,用于沿着与网络19相耦合的通信信道17发送。第一计算机13也包括存储器15,用于存储视频数据并起着服务器14的作用。第二计算机23包括了解码器22,它通过信道21接收码流18。解码器22将所接收到的码流18转换成输出的视频信号M,该信号可以在观察器25上观看。在编码器12上所完成的编码可以涉及诸如MPEG-2或MPEG-4,第一版或第二版的有损压缩技术。(MPEG是运动图像专家组的简称,以及MPEG-2和MPEG-4表示该小组所开发的数字视频压缩标准以及文件格式。)这些技术产生了基本视频数据体,即,这些数据体足以产生相比于源视频序列的较低质量可视视频序列。如果解码和观察了基本的视频数据, 最终产生的视频将是以原始视频较差形式感知的。MPEG所采用的一种有损压缩技术是对一幅图像变化到下一幅的视频序列中的大部分图像(和运动矢量一起)而不是图像数据的本身进行编码。该项技术可明显地节省带觅ο数据的另一部分被称之为增强数据,它采集在量化基本视频图像和原始未量化输入视频图像之间的差值。当增强数据与基本数据相组合时,增强数据可改善可视视频序列的质量,从而产生改善的视频输出。增强数据的子集可以包括对图像的校正,或对一幅图像变化到下一幅的变化进行校正。一般来说,增强数据与基本数据相对应,即,如果基本数据对一幅图像变化到下一幅的变化进行编码,则对应于基本数据的增强数据可包括对一幅图像变化到下一幅的变化进行校正。增强数据也可以用于解码22过程,以在解码过程中重新构成在编码22时从所编码的基本视频数据中去除的图像。在许多情况下,通信信道16只具有有限的带宽,并且只能容纳部分但不是全部的增强数据。当接收机20和解码器22接收了少于全部增强数据时,输出视频M就只能得到少于全部的校正。以下所讨论的技术有效利用带宽,采用以下将讨论的基于阈值处理,通过产生增强数据的子集或“分层”,在给定带宽的条件下传递更多的增强数据。图2显示了形成图像的一些单元。一般来说,图像是由图像单元,或像素所组成的。一个8X8的正方形像素形成了块30,而一个2X2的正方形块形成了大块32。使大块 32边边相连可以形成图像数据的片段34。片段可以是图像的水平条纹,或者是以光栅扫描次序的若干相邻的条纹。片断序列可以构成图像36。为了解释的目的,将采用8X8块视频数据30来演示编码的过程。实际的处理可采用不同于8X8块的数据单元来实现,如大块 32。在编码的处理中,图像数据可以进行变换处理作为数据压缩部分。广泛采用的转换技术是离散余弦变换OCT)。DCT是类似于离散傅立叶变换的线性变换,其中,所变换的数据是以频率来排序的并且采用系数加权。进行DCT的8X8像素块将产生8X8的系数矩阵。DCT还可以其它尺寸(例如,16X16块)像素组进行操作,但是,8X8块的变换是DCT 的示范应用了。一般来说,DCT将每一个8X8像素块看成离散信号。DCT产生表示像素的水平频率和垂直频率的8X8系数矩阵。图3a说明了在8X8矩阵40中DCT是如何排列系数的。将具有较低频率项的水平系数排在左边,而将较高的频率项排列在右边。将具有较低频率项的垂直系数排列在上边,而将较高的频率项排列在下边。在最左上的单元42中存储的系数表示8X8像素块中具有零水平频率和零垂直频率的部分,该部分在整个块中是恒定的。该系数通常被称为“DC 系数”,它可以表示整个像素块的平均色度和亮度。存储于最右下单元44的系数表示了块中水平和垂直变化的最高的量。在矩阵40中的系数可以是任意范围内的整数。该系数经常是以幅值的方式来存储,它可由一组位,和符号(正或负)来构成,或由单个位来构成。正如图北所说明的,矩阵40可以视为二进制系数的三维阵列,而阵列每一个单元分别为‘1’位或‘0’位。位的最上面的平面,或“位平面”46,表示了最高有效位。下一个最高平面48便是了下一个最高有效位,依次类推。最下面的平面50则表示最低有效位。图 3b所示的阵列表示了 8X8系数矩阵,每一个系数由8位所组成。这样,每一个系数可以表示0至255 Q8-I)的整数。也可以采用多于或少于8位来表示系数。编码处理产生了增强数据的系数矩阵,它可以进一步分成多个位平面以便于传输。正如以下所讨论的,将增强数据分成位平面不是有效和灵活的。以下所讨论的基于阈值的分层处理提供了划分增强数据更灵活和更有效的方法。图4显示了举例编码器12的方框图。编码器12可采用软件来实现,它可以存储于任何机器可读介质上机器或计算机系统中,例如,磁盘或光盘,也可以存储于非易失性存储器中,例如,只读存储器(ROM)。图4说明了一系列输入图像60的编码和压缩,产生了视频数据基本数据的码流62加上增强数据的码流64。在存储于服务器和沿着通信信道传输之前,可以采用多路复用器(未示出)将基本数据码流62和增强数据码流64组合成单个输出码流(未示出)。由标准的视频编码和压缩66产生基本数据。图4所显示的编码和压缩组件66只是为了说明,并不是获得编码和压缩的唯一方法。编码和压缩可采用DCT 68,量化70,扫描 72以及可变长度编码74。基本数据62的产生是有损处理,其中损失的大部分产生于量化。 图4也包括用于对两个单独图像之间的变化进行编码的组件,它包括逆量化76,离散余弦反变换(IDCT) 78,运动补偿80,帧存储82,运动估计84,以及用于从输入的图像码流60中减去86之前图像88以杜绝一幅图像到下一幅的变化。图4显示了导致增强数据产生的减法90。经过处理98的增强数据与基本数据相分离。增强数据包含着未量化的基本视频数据和未量化的输入视频之间的差值。在图4中, 对应于每一个图像的增强数据表示了对各个图像之间变化的增强,以及对各个图像自身的增强。增强数据能够进行优化的预处理92。预处理可以包括,例如,着重在增强数据中的可视性重要的成份而去着重可视性无关紧要的成份。一般来说,观看视频的人士往往集中于图像的整个画面,而不是图像的细节部分。涉及整个画面的信息,它具有更多的可视性内容,往往会集中在图3所示的较低频率的DCT项。涉及图像细节的信息,其只具有较少的可视性内容,往往会集中于较高频率的DCT项。预处理可以用于着重可视性内容的数据,且给它较高的传输优先级。增强数据进行基于阈值的分层处理94,以下将作更详细的讨论。基于阈值的分层处理94的迭代应用100产生了增强数据的多个层次。扫描95该层次,且采用可变长度编码器96进行编码,产生增强数据的码流64。基本数据的码流62和增强数据的码流64都可以存储于服务器,以等待客户请求将视频序列或广播输入至网络。当视频数据在图像信道17中传输时,通常与各层增强数据一起传输基本数据62。图5显示了举例的解码器22的方框图。解码器22,类似于编码器12,也可以采用软件来实现。图5说明了视频数据的解码和恢复的方法,其中,视频数据由服务器14通过通信信道17传输并且由客户机接收20的。图5所示的解码器22说明了对视频数据进行解码的一种方法,但不是对视频数据进行解码的唯一方法。图5所示的部分操作是线性的, 并且可以不同的次序出现。例如,图5描述了在IDCT的操作114,132之后增强数据与基本数据的重新组合。采用该项技术,基本数据数值对应于诸如像素的图像单元,而增强数据表示对图像单元的校正。然而,因为离散余弦变换是线性的,所以增强数据可以在IDCT操作 114,132之前与基本数据重新组合。在后者情况下,基本数据的数值表示DCT系数,以及增强数据表示对系数的校正。此外,解码还可以包括图5未显示的其它操作。解码器22的输入包括视频数据的码流(未示出),该码流可以分成为基本数据码流62和增强数据码流102。去复用器(未示出)可以用于分解码流。图5所示的基本数据码流62与图4所示的码流62相同。然而,图5所示的增强数据码流102并不一定要与图 4所示的码流64相同。因为信道带宽的限制,在信道中只能传输少于全部量的增强数据。基本数据和增强数据要经受不同的解码处理,或“管道” 104,106。正如基本数据和增强数据的编码可涉及不同的步骤一样,在解码处理中也可以具有一些不同。在基本数据解码管道104中,基本数据经受可变长度的解码108,反扫描110,逆量化112,以及IDCT 114。可变长度解码108,反扫描110,逆量化112,以及IDCT 114的操作基本上抵消了图4所示可变长度编码74,扫描72,量化70以及DCT68在解码过程中所进行的操作。随后在运动补偿器116中处理解码的基本数据,它根据从一幅图像到下一幅图像的变化来重新构成各个图像。来自先前的数据,或“参考”图像可以存储于称之为“帧缓冲器”的临时存储器单元120并且可以用作参考。来自IDCT 114的解码数据可用于运动补偿器116,以确定在该序列中下一幅图像是如何从原先的图像变化的。IDCT 114可导致产生无效的视频数据,例如,超出范围的数值。“剪辑”功能115通过将这些数据设置成最接近范围内的数值而使这些数据有效。基本数据管道104的输出是解码的基本视频数据122。图 5所示的基本数据解码技术只是用于说明的,并不是获得解码的唯一方法。适用于增强数据106的解码管道不同于基本数据104的解码管道。增强数据经受可变长度的解码处理124以及反扫描处理126,它们抵消了编码器12所进行的可变长度编码96和扫描95。该数据随后进行收集1 和后处理130。将在下文中作更详细的讨论的收集1 组合由基于阈值分层处理94所产生的增强数据的层次。后处理130抵消编码器 12所进行的预处理92。IDCT 132的输出表示了校正,它形成基本数据和剪辑135的累加 134,产生增强的可视视频数据136。正如以上所提及的,带宽的限制常常会妨碍全部增强数据体的传输。在存在着带宽限制的条件下,就希望能传输增强数据的子集以产生最好的输出视频质量。一种选择增强数据子集的方法是逐位平面传输增强数据。服务器14首先传输最高有效位平面46,接着传输包含下一个最高有效位48的位平面。服务器14连续传输与带宽所容纳一样多的位平面。最高有效的位平面46接收最高传输的优先级,具有下一个最高有效位的位平面48 接收次最高传输优先级,依次类推。因为带宽的限制,根本不能传输含有较低有效位的位平逐位平面的增强数据的传输并不是很有效,有几个原因。其一,对基本数据的大多数校正往往是相对较小的校正。结果,由于在增强数据块40中的大部分数往往是小的数, 因此最高有效的位平面46通常包含高百分比的‘0’位。同样,次最有效位平面48也可能包含高百分比的‘0’位,虽然通常该百分比不会与最有效的位平面46中的百分比一样高。 因此,只有两个增强数据位平面的传输一般不能对基本数据产生足以满意的校正,因为大部分增强数据是‘0’位。于是,逐位平面地传输增强数据并不能改善正比于带宽的图像质量。例如,将有效的带宽截去一半会使得图像的校正质量降低一大半。其次,每个位平面都进行可变长度编码96,这也占用了不相等的带宽。典型的是, 最高有效的位平面46需要最小的带宽,而最低有效的位平面50则需要最宽的带宽。一般说来,每个位平面都比在其上的位平面占用更大的带宽。如果增强数据是逐位平面传输,则每一个所传输的位平面都会比原先所传输的位平面占用更大的带宽。在某些点上,带宽并不能容纳整个新的位平面,而只能传输部分的位平面。于是,只能有部分图像36能接收到位平面的增强,而图像的其余部分并不能得到增强。整个图像36不能得到同样的增强。第三,逐位平面的传输不灵活且不能考虑由于增强数据的质量的调整。本文所讨论的技术提供了采用基于阈值的分层处理方法94来更有效地使用有效的带宽。基于阈值的分层处理94通过将增强数据灵活地分成各层,而不是严格地分成位平面的方法,提供了对整个图像的改善。将增强数据分成位平面并不需要考虑增强数据的特性。相反,将增强数据分成各层就需要根据增强数据的特性来考虑需划分的增强数据。于是,基于阈值的分层处理94允许编码器12对增强数据调节编码处理。基于阈值分层的优点是通常它能产生多个占用近似相同量带宽的层次,从而使得所接收的图像质量与有效的带宽更密切相关。增强层次的产生过程如图6所示。该处理以增强数据体(140)进入基于分层处理 94开始。确定是否需要产生增强数据的层次(142),如果不需要,则基于阈值分层处理94 就结束(144)。可以存在着许多终止分层处理的条件。例如,如果增强数据全部由‘0’位组成,那么就没有需要处理的数据,并终止分层处理94。其他终止处理的条件是处理94是否已经产生了预定数量的层次,或者,是否所有的有效带宽都已用尽。编码器12也能用于确定所要产生的层次数量。以下进行更为详细的解释,产生增强数据的层次包括选择阈值的数值(146)。在该阈值的基础上,可以产生包括‘1’位和‘0’位的增强数据(148)的层次。增强数据层包括所有幅值大于和等于阈值的‘1’位,以及所有幅值小于阈值的‘0’位。通过选择阈值的数值,使得一层都包括比包含在位平面中更多,更少和相等的‘1’位。可以选择阈值来调节在层中的‘1’位的数量,和调节在层中的‘1’位的分布,或控制层所占用的带宽,或其中的任意组合。可以从增强数据的幅值中减去阈值(150),但只是从等于或大于阈值的幅值中减去,以致不会产生负的幅值。一旦产生的分层之后,在增强数据码流64中可以包括该分层(15 。分层一般包括头部,它存储所选的阈值。解码器可以使用头部中的阈值,对增强数据进行解码。除了阈值和数据层之外,还可以发送符号数值。虽然有许多方法可用于发送符号数值数据,但是,一般来说,只对在增强数据码流中所实际包括的系数发送符号数值,或者只发送一次系数的符号数值,这样更有效。随后可以重复分层处理(巧4),以产生具有不同阈值的其它层次。有可能重复使用相同的阈值来产生分层,以及,也有可能之后的阈值比较早的阈值具有更高的数值。有许多根据增强数据的特性来选择阈值电平的方法。图7显示了一种设置阈值电平的方法。可以通过计算系数幅值的频率(16 来估计增强数据(160)。统计分析,例如, 柱状图的制备,可以用于估计系数的分布。根据统计分析(164)所显示的分布,可以选择阈值将增强数据分层(166)。划分增强数据的方法包括对增强层选择目标数量的‘1’位,以产生适合于所要求带宽内的层次,产生满足所要求增强质量的层次,根据增强数据的其它特性产生层次,或者上述的组合。以下所说明的技术涉及对阈值的选择以产生多个层次,各个层次包含近似目标数量的‘1’位。图8a和8b采用了适用于小的图像的系数幅值(190)所举例的块,以比较五层增强数据(200,202,204,206,208)的产生与三个位平面(192,194,196)的产生。图8a和8b 也说明了许多用于选择阈值的技术中的一种技术。开始以系数幅值(190)的所举例的块开始,确定在块中最大的数值是120 (即,在该实例中,这是DC系数的幅值),或,7位二进制数是‘1111000’。因为,在块(190)中的最大的数值可以由7位来表示,该块可以作为整体用七位平面来表示。最高有效位平面(19 包括14个‘1’位。第二最高有效位平面(194) 包括21个‘1’位。第三最高有效位平面(196)包括沈个‘1’位,这几乎是最高有效位平面(19 的两倍。因为‘1’位的数量是随着各个连续位平面而增加的,所以各个位平面比它之前位平面占用更多的带宽。与图8a的3个位平面(192,194,196)相比较,图汕显示了增强数据的5个层 (200,202,204,206,208),所指的各层是包括大约10个‘1,位。第一增强层(200)是通过第一阈值71的选择而产生的。所产生的第一增强数据层(200)包括大于和等于第一阈值 71的所有系数幅值的‘1’位,以及小于阈值的所有幅值的‘0’位。第一阈值71的选择使得在的第一层(200)包括10个‘1,位。随后从所有大于和等于阈值的幅值中减去第一阈值71 (150),并且产生第二层 (202) 0第二所选择的阈值是49,它产生了第二层增强数据002)。与第一层类似,第二层也包括10个‘1,位。随后重复该处理,以产生的第三层004),它使用了第三阈值33。再次,第三层包括10个‘1,位。采用第四阈值25来产生第四层O06),它同样也包括10个‘1,位,同样采用第五阈值19来产生的第五层(208)。于是,通过选择阈值,能够产生5层增强数据(200,202,204,206,208),各层都具有10个‘1’位,并且各层都占用大约相同的带宽。实际上,不是所有层都实际具有目标数量的‘1’位,但是通过根据数据分布对阈值的选择,常常有可能产生多个各层的‘1’位数量相互接近的层。此外,虽然可以要求将增强数据分成了相同带宽的层,但是该层也可具有不相同的带宽。阈值的确定中有效带宽具有重要的作用。例如,如果总的有效带宽可容纳每单位时间50个‘1’位的话,则利用阈值将增强数据分层可具有超越将增强数据分成位平面的优点。基于阈值的分层处理包括灵活性,以产生5个完整的增强数据层(200,202,204,206, 208),各层都能改善整个图像并且所有层都能在有效的带宽中传输。然而,相同的带宽并不能容纳第一 3个位平面(192,194,196),它包括了比能够有效带宽容纳的更多的每单位时间的‘1’位。如果总的有限带宽能够容纳不同数量的‘1’位,则可以选择阈值来产生能够在该带宽中传输的层次。阈值的选择也可以考虑增强数据是否在两个不同带宽的信道上传输。例如,如果第一信道能够容纳大约每单位时间50个‘1’位,而第二信道可以容纳大约每单位时间30 个‘1,位,则可以在第一信道上传输5个完整层000,202,204,206,208),而在第二信道上传输3个完整层(200,202,204)。阈值选择也可以根据其它因素,不同于或除了带宽之外的因素,例如,每层所需改进量。在分层和解码器22接收到各层及其对应的阈值之后,解码器22通过收集1 各层来抵消分层处理。收集的处理如图9所示。在收集处理开始时,可以接收(210)到用于视频数据特定单元的增强数据,例如块30。该增强数据一般是由多层组成。收集增强数据层并且可将其保持在缓冲器中,该缓冲器保持校正系数的幅值。典型的是,在缓冲器中的校正系数初始化为零012)。如果存在增强数据层014),则恢复用于产生层的阈值,例如,从分层头部中检索阈值016)。随后在层中每个‘1’位缓存器中将阈值加到对于层每个校正系数018)。对于各个‘0’位来说,缓冲器中对应的校正系数不与任何相加。只要存在其它层,就重复该处理020)。对每一个其它层来说,在缓冲器中的数据接近于编码器12要进行阈值处理94的数据值。当各层都被收集了之后,且缓冲器中的数据表示解码器22所接收到的增强数据102,它通常只是近似增强数据体的全部。为该数据分配适当的符号数值 (222,224)。也可对该数据进行优化截断的调整0沈)。对低于最低阈值和太小而无法传输的非零幅值会发生截断错误。这些幅值在缓冲器中被表示为零。截断的调整加上少量“噪声” 来取代零。该噪声可简单地包括将常数值,例如,大约四分之一的最低阈值的数值,与缓冲器的所有零相加。另一种方法是采用一个小于最低阈值的随机整数来替代。在截断调整 (226)之后,可以终止校正处理0观),并且进一步处理增强数据以及与基本数据相组合, 如图5所示。已经讨论本发明的各种实施例。这些和其它实施例都在以下权利要求书的范围之内。
权利要求
1.一种方法,包括从源视频序列中产生数字基本视频信号;从源视频序列中产生数字视频增强数据体;以及,从数字视频增强数据体产生数字视频增强数据层,该层达到带宽要求。
2.如权利要求1所述的方法,其特征在于所述数字视频增强数据体包括多个幅值,并且产生数字视频增强数据层包括选择阈值;以及,形成数字视频增强数据层,它包含对于大于或等于阈值的每一幅值的‘1’比特。
3.一种包括计算机可读介质的物品,它存储着用于视频数据处理的计算机可执行指令,该指令在被执行时使得机器进行如权利要求1或2所述的方法。
4.一种用于视频处理的系统,包括 编码器,配置为从源视频序列中产生数字基本视频信号;从源视频序列中产生数字视频增强数据体;以及,从数字视频增强数据体产生数字视频增强数据层,该层达到带宽要求。
5.如权利要求4所述的系统,其特征在于所述编码器还配置为 根据所述带宽要求选择阈值;以及,根据所述阈值产生数字视频增强数据层。
6.一种系统,包括 解码器,包括接收包含了一组数值的数字基本视频信号;接收数字视频增强数据层,该层包含了一组比特,每一比特对应于数字基本视频信号值;接收阈值;以及对于在数字视频增强数据层中的每一个‘1’比特,将阈值与所述数字基本视频信号的对应值相组合。
7.如权利要求6所述的系统,其特征在于所述组合产生增强的可视视频信号。
全文摘要
在编码处理中,视频数据是以量化的基本数据和增强数据的码流来表示的,该码流采集了在量化基本视频图像和原始未量化输入视频图像之间的差值。由于受到通信信道的带宽限制,难以实现传输所有的增强数据。在编码处理的过程中,可以根据带宽的限制将增强数据分成“层”。在传输之后,可由解码器来重新组合层并加上基本数据,从而产生可视的视频序列。
文档编号H03M7/30GK102186085SQ20111015911
公开日2011年9月14日 申请日期2001年9月26日 优先权日2000年9月29日
发明者H·蒋 申请人:英特尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1